Ceci est une ancienne révision du document !
gscan2pdf
gscan2pdf est une interface graphique permettant initialement de réaliser des fichiers PDF de plusieurs pages à partir d'un scanneur; gscan2pdf est fonctionnel sur presque n'importe quelle machine Linux/BSD… et notamment sous Ubuntu.
Le scanneur est contrôlé avec SANE par l'intermédiaire de scanimage. La conversion au format PDF est faite par PDF::API2. L'exportation au format TIFF est conduite par libtiff.
Dans sa version 0.9.13 (disponible pour Gutsy), gscan2pdf permet d'enregistrer aux formats PDF, DjVu, GIF, JPEG, PNG, PNM et TIFF (la possibilité d'enregistrement au format PS a été ajoutée dans les versions plus récentes).
gscan2pdf permet aussi de réaliser de la ROC (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC tesseract ou GOCR (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'interface graphique pour la ROC avec Tesseract.
Pré-requis
Pour utiliser gscan2pdf pour réaliser de la ROC, il faut installer tesseract avec ses modules de langue et éventuellement gocr (si on veut comparer !)
- créer un dossier /tesseract-ocr dans /usr/share/ :
sudo mkdir /usr/share/tesseract-ocr
- et créer un lien symbolique de /usr/local/share/tessdata/ dans /usr/share/tesseract-ocr/
sudo ln -s /usr/local/share/tessdata/ /usr/share/tesseract-ocr/
Installation
Installez les paquets gscan2pdf, djvulibre-bin et unpaper.
wget http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.20_all.deb sudo dpkg --unpack gscan2pdf_0.9.20_all.deb sudo apt-get install -f
Utilisation
L'interface graphique est en français. Il est donc aisé de découvrir les diverses possibilités offertes par gscan2pdf.
Pour la ROC avec tesseract
- il est possible de réaliser directement la ROC sur le document scanné : Menu "Fichier –> Scanner", puis, dans l'onglet "Page Options", cocher la case "Effectuer la reconnaissance optique de caractères sur les pages scannées", sélectionner "Tesseract" comme moteur de reconnaissance optique de caractères et sélectionner la langue qui sera utilisée pour le post-traitement de la ROC. Dans l'onglet "Scan Options", il faut chercher les options permettant d'obtenir le meilleur résultat de ROC en fonction de votre document. Pour du texte imprimé en noir et blanc avec des polices de 10 à 12, le mode "Noir et blanc" associé à une résolution de 300 dpi semble convenir.
- on peut aussi réaliser de la ROC sur des fichiers déjà enregistrés au format TIFF (TIF), PNG, JPEG (JPG)… Pour cela : Menu "Fichier –> Importer", sélectionner le fichier et valider. Pour les fichiers qui ne sont pas au format TIFF (TIF), il faut en premier lieu les traiter avec unpaper : Menu "outil –> unpaper". Puis : Menu "Outil –> ROC", sélectionner le moteur de ROC Tesseract et la langue, puis "Démarrer la reconnaissance optique de caractères".