Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
ocr [Le 02/09/2018, 21:09]
L'Africain [LIOS]
ocr [Le 28/09/2022, 20:49] (Version actuelle)
Amiralgaby [Cuneiform] amélioration du code shell - repéré grâce à wiki-corrector
Ligne 20: Ligne 20:
 [[http://​cognitiveforms.com/​ru/​products_and_services/​Cuneiform.html#​1189-Cuneiform|cuneiform]] (en russe, ou en [[http://​en.cognitiveforms.ru/​products/​cuneiform/​|anglais]]) est un OCR multi-plateforme,​ qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'​erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'​image. Il supporte les fichiers images en bmp, jpg, png, tiff,  Il peut exporter en format texte, html, rtf, et d'​autres. [[http://​cognitiveforms.com/​ru/​products_and_services/​Cuneiform.html#​1189-Cuneiform|cuneiform]] (en russe, ou en [[http://​en.cognitiveforms.ru/​products/​cuneiform/​|anglais]]) est un OCR multi-plateforme,​ qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'​erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'​image. Il supporte les fichiers images en bmp, jpg, png, tiff,  Il peut exporter en format texte, html, rtf, et d'​autres.
  
-Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://​code.launchpad.net/​cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://​launchpad.net/​cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue. ​+Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://​code.launchpad.net/​cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://​launchpad.net/​cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue.
  
 Voir la  [[http://​wiki.ubuntuusers.de/​Cuneiform-Linux?​highlight=cuneiform#​Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract. Voir la  [[http://​wiki.ubuntuusers.de/​Cuneiform-Linux?​highlight=cuneiform#​Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.
Ligne 29: Ligne 29:
 <file bash>#​!/​bin/​sh <file bash>#​!/​bin/​sh
  
-printf %s "​$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS"​ | +printf %s "​$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS"​ |
 while read -r arg while read -r arg
 do do
- convert -colorspace GRAY $arg tmp.tiff + convert -colorspace GRAY "$arg" ​tmp.tiff 
- cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff+ cuneiform -l fra -f rtf -o "$arg".rtf tmp.tiff
  rm tmp.tiff  rm tmp.tiff
 done</​file>​ done</​file>​
Ligne 56: Ligne 56:
  
 ==== Gocr ==== ==== Gocr ====
-Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'​erreur par document. ​+Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'​erreur par document.
  
 Installez le paquet **[[apt>​gocr]]** et **[[apt>​gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire : Installez le paquet **[[apt>​gocr]]** et **[[apt>​gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire :
   * Reconnaît les fichiers png ;   * Reconnaît les fichiers png ;
-  * Aide correcte +  * Aide correcte.
-   * La reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d'​écran en mode console réalisée avec [[:fbgrab]].+
  
 [[http://​jocr.sourceforge.net/​|Site officiel]] [[http://​jocr.sourceforge.net/​|Site officiel]]
Ligne 79: Ligne 78:
  
 Pour faire de la ROC avec Xsane il faut : Pour faire de la ROC avec Xsane il faut :
-  * Choisir son moteur d'OCR : ouvrir Xsane et dans //​Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : +  * Choisir son moteur d'OCR : ouvrir Xsane et dans //​Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par :
       * pour  **gocr** avec la reconnaissance des caractères accentués <​code>​gocr -f UTF8</​code>​       * pour  **gocr** avec la reconnaissance des caractères accentués <​code>​gocr -f UTF8</​code>​
       * pour **tesseract** <code >​xsane2tess -l fra</​code>​       * pour **tesseract** <code >​xsane2tess -l fra</​code>​
Ligne 111: Ligne 110:
 Attention, le paquet tesseract est installé pour la reconnaissance de l'​anglais uniquement. Voir les paquet langues supplémentaires sur [[:​tesseract-ocr]]. Attention, le paquet tesseract est installé pour la reconnaissance de l'​anglais uniquement. Voir les paquet langues supplémentaires sur [[:​tesseract-ocr]].
  
-<note important>​OCRFeeder,​ après installation,​ ne se lance pas sous Linux Mint 18, ni sous Xubuntu 16.04. +<note important>​OCRFeeder,​ après installation,​ ne se lance pas. Pour résoudre ce problèmeentrez ​la commande ​suivante dans un [[terminal]] :​ <code bash>​sudo sed -i 's/ocrfeeder -i %f/ocrfeeder/' /​usr/​share/​applications/​ocrfeeder.desktop</​code>​</​note>​
-Solution : installer l'​éditeur de menu //​alacarte//​. Sous Xubuntul'​éditeur de menu est déjà installé. +
-Éditer le raccourci de OCRFeeder : remplacer ​la commande ​"ocrfeeder -i %f" par "ocrfeeder"</​note>​+
  
 Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois). Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois).
Ligne 144: Ligne 141:
 [[YAGF]] est une interface graphique pour [[#​cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#​tesseract|tesseract]]. [[YAGF]] est une interface graphique pour [[#​cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#​tesseract|tesseract]].
  
-**(en)** [[http://symmetrica.net/cuneiform-linux/yagf-en.html|Site officiel du logiciel]] ​LIEN POLLUÉ+**(en)** [[https://sourceforge.net/projects/yagf-ocr/|Site officiel du logiciel]]
  
  
 ==== LIOS ==== ==== LIOS ====
 Lios est une interface graphique pour [[#​cuneiform]] et [[#​tesseract]]. Pour l'​utiliser [[:​tutoriel:​comment_installer_un_paquet|installez le paquet]] **[[apt>​lios]]**. Si vous souhaitez avoir la dernière version en français :​ Lios est une interface graphique pour [[#​cuneiform]] et [[#​tesseract]]. Pour l'​utiliser [[:​tutoriel:​comment_installer_un_paquet|installez le paquet]] **[[apt>​lios]]**. Si vous souhaitez avoir la dernière version en français :​
-  * [[:tutoriel:​comment_modifier_sources_maj|modifiez vos sources de mises à jour]] pour y ajouter le dépôt suivant ​<​file>​deb http://ppa.launchpad.net/​lafricain79/lafricainenvrac/​ubuntu ​bionic main</file>+  * [[:PPA|Ajouter le PPA]] **ppa:nalin-x-linux/​lios**((https://​launchpad.net/​~nalin-x-linux/+archive/ubuntu/lios)) dans vos sources de logiciels; ​
   * puis [[:​tutoriel:​comment_modifier_sources_maj#​recharger_la_liste_des_paquets|rechargez la liste des paquets]],   * puis [[:​tutoriel:​comment_modifier_sources_maj#​recharger_la_liste_des_paquets|rechargez la liste des paquets]],
   * puis installez le paquet **[[apt>​lios]]**.   * puis installez le paquet **[[apt>​lios]]**.
 =====OCR en ligne===== =====OCR en ligne=====
  
-====Free OCR==== +Voir les solutions de [[:​ged|Gestion Électronique des Documents (GED)]] ​
-Le site [[http://​www.free-ocr.com/​|Free OCR]] permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance.  +
- +
-Points forts : +
-  * gratuit +
-  * performant +
-  * gère plusieurs langues +
-  * reconnait les textes en colonne +
- +
-Points faibles : +
-  * nécessité d'​entrer un captcha à chaque texte soumis  +
-  * on ne peut faire reconnaître que dix pages ( 2 Mo maximum ). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer +
- +
-Voir également : +
-   * Les solutions de [[:​ged|Gestion Électronique des Documents (GED)]] ​+
  
 ====WatchOCR - Server PDF et OCR du contenu==== ====WatchOCR - Server PDF et OCR du contenu====
Ligne 175: Ligne 158:
  
 ===== Programmes Windows utilisables sous GNU/Linux via Wine ===== ===== Programmes Windows utilisables sous GNU/Linux via Wine =====
-Simple OCR : image non PDF+
 ==== SimpleOCR ==== ==== SimpleOCR ====
  
-  * [[http://​www.01net.com/​telecharger/​windows/​Multimedia/​scanner_ocr/​fiches/​32246.html|Lien de téléchargement]]+  * [[https://​www.01net.com/​telecharger/​windows/​Multimedia/​scanner_ocr/​fiches/​32246.html|Lien de téléchargement]]
 Non libre mais gratuit. Basé sur WOCAR Non libre mais gratuit. Basé sur WOCAR
 , image non PDF , image non PDF
Ligne 184: Ligne 167:
 ==== WebOCR ==== ==== WebOCR ====
  
-  * [[http://​appdb.winehq.org/​appview.php?​iAppId=829|Fiche sur Winehq.org]]+  * [[https://​appdb.winehq.org/​appview.php?​iAppId=829|Fiche sur Winehq.org]]
  
 ==== Recognita ==== ==== Recognita ====
Ligne 192: Ligne 175:
 ==== ReadIris ==== ==== ReadIris ====
  
-[[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=2543|Fiche sur WineHQ.org]]+[[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=2543|Fiche sur WineHQ.org]]
  
 ==== ABBY FineReader 8.0 OCR ==== ==== ABBY FineReader 8.0 OCR ====
Ligne 205: Ligne 188:
  
 ==== Myscript (GNU/Linux et win) ==== ==== Myscript (GNU/Linux et win) ====
-  * [[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] +  * [[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] 
-  * [[http://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://​www.visionobjects.com/​handwriting_recognition/​downloadstylus3.htm#​Linux|existe pour GNU/Linux]] ), reconnaît l'​écriture attachée +  * [[https://​appdb.winehq.org/​objectManager.php?​sClass=application&​iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://​www.visionobjects.com/​handwriting_recognition/​downloadstylus3.htm#​Linux|existe pour GNU/Linux]] ), reconnaît l'​écriture attachée 
-Non libre, [[http://​www.visionobjects.com/​handwriting_recognition/​onlinestore.htm|versions d'​évaluation 30 jours]] des logiciels sur le site officiel. ​+Non libre, [[http://​www.visionobjects.com/​handwriting_recognition/​onlinestore.htm|versions d'​évaluation 30 jours]] des logiciels sur le site officiel.
  
 ===== Voir aussi ===== ===== Voir aussi =====
  
-  * [[http://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum à propos de l'​OCR]]+  * [[https://​forum.ubuntu-fr.org/​viewtopic.php?​id=78804|le fil de discussion du forum à propos de l'​OCR]]
    
 ---- ----
  
 //​Contributeurs : [[:​utilisateurs:​Teolemon|Pierre S.]] et [[:​utilisateurs:​Sorbus]] --- [[:​utilisateurs:​L'​Africain|L'​Africain]] Le 14/07/2017, 21:06.// //​Contributeurs : [[:​utilisateurs:​Teolemon|Pierre S.]] et [[:​utilisateurs:​Sorbus]] --- [[:​utilisateurs:​L'​Africain|L'​Africain]] Le 14/07/2017, 21:06.//
  • ocr.1535915356.txt.gz
  • Dernière modification: Le 02/09/2018, 21:09
  • par L'Africain