Textra
latest
Table des matières:
Le Pipeline
Equipe
OCR
Prétraitement des images
NER modèles
NER Models Benchmarking
Labellisation
Training
Inference
LLM modèles
Les perspectives
Textra
Bienvenue à Textra’s documentation!
Éditer sur GitHub
Bienvenue à Textra’s documentation!
Table des matières:
Le Pipeline
1.Définition
2.Déférentes possibilités
Equipe
Les encadrants :
Les membres :
OCR
3.1 C’est quoi OCR ?
3.2 Comment ca fonctionne ?
3.3 OCR Bechmarking
3.4 Comparaison entre les outils d’OCR
3.5 Choix de l’outil à utiliser
Prétraitement des images
4.1 Qu’est-ce que le prétraitement des images ?
4.2 Pourquoi est-ce important ?
4.3 les caractéristiques à corriger
NER modèles
1.Qu’est-ce que la reconnaissance d’entité ?
2.Exemples de reconnaissance d’entités nommées
3.Différentes approches NER
NER Models Benchmarking
1.Magorshunov/layoutlm-invoices
2.Faisalraza/layoutlm-invoices
3.Impira/layoutlm-invoices
4.Invoice header extraction with Donut
5.Gemini application
6.Generative AI / invoice reader
7.Invoice Information Extraction using LayoutLMv3 model
Labellisation
1.Les classes de labellisation
2.Step1 : Setup
3.Step2: Images to OCR json file
3.Step3: Labelliser en label-Studio
4.Step4: Convertir à LayoutLM json file format:
5.Step5: Encode labels in Json file Manuallly:
Training
7.1 Création de dataSet sur HuggingFace
7.2 Entrainement
Inference
LLM modèles
1.Définition
2.À quoi servent les LLM ?
3.Quels sont les avantages et les limites des LLM ? ?
4.Comment fonctionnent les LLM ?
5.Notre cas de figure :
Les perspectives