23 lines
801 B
Plaintext
23 lines
801 B
Plaintext
|
|
# Parser HTML (mails Picnic)
|
||
|
|
beautifulsoup4==4.12.3
|
||
|
|
lxml==5.3.0
|
||
|
|
|
||
|
|
# Parser PDF (tickets Leclerc)
|
||
|
|
pdfplumber==0.11.4
|
||
|
|
pytesseract>=0.3.10 # binding Python pour Tesseract OCR
|
||
|
|
Pillow>=10.0 # manipulation d'images (extraction JPEG du PDF)
|
||
|
|
|
||
|
|
# LLM (appels API OpenAI-compatible)
|
||
|
|
requests>=2.31
|
||
|
|
|
||
|
|
# Tests
|
||
|
|
pytest==8.3.4
|
||
|
|
|
||
|
|
# Note : Tesseract OCR (binaire C++) doit être installé séparément :
|
||
|
|
# Windows : https://github.com/UB-Mannheim/tesseract/wiki
|
||
|
|
# Linux : apt install tesseract-ocr tesseract-ocr-fra
|
||
|
|
# Le modèle français (fra.traineddata) est requis.
|
||
|
|
# Sans droits admin, créer un dossier tessdata/ à la racine du projet :
|
||
|
|
# tessdata/fra.traineddata (14 Mo, téléchargeable sur github.com/tesseract-ocr/tessdata)
|
||
|
|
# tessdata/eng.traineddata (copié depuis l'install Tesseract)
|