La belle histoire d’une machine à scanner les livres, faite maison par des hackeurs, amateurs et passionnés

Accueil > Technique, Bidouille et Astuces > Post-traitement : Scantailor

Post-traitement : Scantailor

mercredi 3 septembre 2014, par Guillaume

Une fois le livre scanné, on obtient une série d’images (format .tif). On va maintenant optimiser ces images pour la reconnaissance de caractères, grâce Scantailor.

Scantailor peut être lancé :

  • depuis une machine distante (personnes autorisées)
  • depuis votre machine

Utiliser Scantailor sur votre machine

Pré-requis

  • Télécharger et installer Scantailor
  • Télécharger le projet de livre numérique vers votre ordinateur
    — le projet de livre est un répertoire (ex : mon-livre) accessible sur une des machines du réseau (nommée "Platon")

Générer un projet Scantailor

  1. Ouvrir le gestionnaire de bookscanner avec votre navigateur
    — si vous êtes au bookscanner, le gestionnaire est à l’adresse http://192.168.0.240
    — sinon, utilisez l’adresse http://adresse à compléter
  2. Sélectionner votre projet de livre numérique (ex : mon-livre)
  3. Dans la barre latérale ("Étapes du projet"), aller à "Post-process"
  4. En zone centrale, dans le champ "Substituer", insérer l’adresse du répertoire que vous avez téléchargé précédemment
    — sous linux ce dossier est à une adresse comme /home/benjamin/mon-livre par ex.
  5. Faire "Améliorer les images de ce projet avec Scantailor"
  6. RE-télécharger le projet de livre numérique depuis Platon vers votre ordinateur
    — le projet a été mis à jour sur Platon, il faut donc le re-télécharger, oui, oui

Lancer Scantailor

  • Dans le répertoire du projet de livre numérique, ouvrir le fichier .scantailor (ex : mon-livre.scantailor) pour lancer Scantailor

Relinker les fichiers (si besoin)

Au lancement de Scantailor une fenêtre "relinking" peut s’ouvrir. Cela signifie que Scantailor n’a pas trouvé les fichiers. Il faut lui donner l’adresse du bon répertoire. Pour cela :

  • Fermer Scantailor
  • Ouvrir le fichier .scantailor dans un éditeur de texte basique (bloc notes, gedit)
  • Dans la 1ere ligne remplacer l’adresse erronée
    — La ligne commence par <project outputDirectory=, suivi de l’adresse erronée, suivie de "booktif". Il FAUT conserver "booktif" à la fin de l’adresse.
  • Dans la 3e ligne, corriger à nouveau l’adresse des fichiers
    — La ligne commence par <directory path= id="1"/>, suivi d’une adresse finissant par "book". Là encore, l’adresse doit finir par "book".
  • Sauvegarder le fichier .scantailor
  • Relancer Scantailor

Définir les zones de texte

Scantailor va détecter automatiquement les zones de texte.

  1.  Dans la barre latérale, sélectionner directement l’étape 5 "Définir les marges"
  2. Cliquer le logo "lecture" pour lancer les étapes 1 à 5. Ne plus cliquer dans Scantailor pendant l’opération, cela stoppe tout.
  3. Dans la barre latérale, sélectionner l’étape 4 (avant 5) pour corriger manuellement les imprécisions de la détection automatique.
  4. Balayer l’ensemble des pages du projet. Quand nécessaire, redimensionner le cadre bleu pour réduire / augmenter la zone reconnue par Scantailor.
    — Si le texte d’une page est hors du cadre bleu, rectifier manuellement la sélection. Si la sélection déborde sur la page voisine, la réduire au texte de la page en cours.
    — Répéter l’opération sur chaque page concernée
  5. Cliquer dans étape 6 "Sortie" et choisir le mode plus approprié : "noir et blanc" est très bien pour du texte ; "couleurs niveaux de gris" pour les images ou cartes.
    — Il est possible d’appliquer un choix à toutes les pages mais la sélection manuelle garantit un meilleur résultat
  6. Sélectionner la première image du livre
  7. Cliquer sur l’icône "lecture" de l’étape 6
  8. Quitter scantailor

Les images optimisées pour la reconnaissance de texte sont disponibles. Elles sont situées dans un répertoire "booktif" à l’intérieur du répertoire de votre projet de livre (ex : mon-livre/booktif). On peut à présent les soumettre à Tesseract, le logiciel de reconnaissance optique de caractères.

Astuce

Le résultat de Scantailor peut ne pas être esthétique (traces, grands espaces blancs). Astuce pour améliorer l’esthétique : relancer Scantailor !

Utilisez le résultat de Scantailor (=vos fichiers prêts pour l’ocr) et utilisez les comme entrée de Scantailor (comme s’il s’agissait d’images non optimisée pour l’ocr). Allez directement à l’étape 6 et mettez le DPI sur **la même résolution** que lors du 1er passage à Scantailor (300 DPI probablement).

Un message, un commentaire ?

Qui êtes-vous ?
Votre message

Pour créer des paragraphes, laissez simplement des lignes vides.