Adorons Jésus-Eucharistie! | Accueil >> Varia >> Génie logiciel
Survol du processus de numérisation d'un livre
Voici un aperçu de la démarche que j'utilise (SVP me le dire si vous avez une meilleure méthode). Chaque étape sera expliquée plus loin:
1.1) Propriété intellectuelle. Avant de rendre public un livre, il faut s'assurer qu'il soit libre de droits, ou que les ayants droits donnent leur permission écrite.
1.2) Photographie numérique («Scanning» en anglais). Un dispositif électronique convertit les pages papier du livre en gros fichiers contenant des photographies brutes de ces pages.
1.3) Reconnaissance Optique de Caractères (ROC). Un logiciel prend les photographies brutes et les interprète du mieux qu'il peut pour transformer les taches d'encre en lettres de l'alphabet.
1.4) Correction. Un réviseur compare l'image brute avec le résultat de la ROC, et fait les corrections nécessaires.
1.5) HTML ou autre encodage. Cette partie de la démarche est variable. Elle peut inclure le formatage du texte (italiques, gras, styles, etc.), l'organisation des éléments logiques (notes de bas de page, table des matières, index, etc.), et les fonctionnalités propres aux livres numériques (hyperliens, animations, etc.).
Idéalement, vous contactez les ayants droits et vous obtenez leur permission écrite. Si vous ne trouvez pas les ayants droits, ou s'ils ne vous répondent pas, essayez au minimum de réunir les «éléments de preuve» qui vous permettraient de montrer à un éventuel tribunal que vous avez fait tout votre possible pour obtenir cette permission. (Voir par exemple la Lettre ouverte à Desclée de Brouwer.)
3.1) Obtenir l'appareil de balayage numérique («scanneur»). J'imagine que presque n'importe quel dispositif fera l'affaire. Le mien (Canon Canoscan LiDE 80) était un des modèles les plus simples et les moins dispendieux sur le marché, acheté pour environ 150$ il y plusieurs années. Depuis ce temps, les prix n'ont fait que baisser et les fonctionnalités n'ont fait que monter, alors vous ne pouvez pas vraiment vous tromper! En passant, vous pouvez payer très cher pour une machine équipée d'un alimentateur de documents («automatic document feeder» en anglais), mais selon moi c'est quasiment inutile, car les pages des vieux livres qu'on ne peut plus trouver en librairie (ceux qu'on a tendance à vouloir numériser!) ont souvent des formats et des épaisseurs qui se prêtent peu à la manipulation automatique.
3.2) Obtenir un logiciel de balayage numérique («scanning software»). Souvent, ils viennent avec le dispositif. C'est comme ça que j'ai obtenu mon logiciel ScanSoft Omnipage SE, qui semble suffisant pour mes besoins. Ce logiciel fait aussi la ROC.
3.3) Préparer le livre. Malheureusement, jusqu'à maintenant, j'ai eu de bons résultats en coupant le dos du livre, ce qui sépare toutes les pages et permet de les placer bien à plat sur la platine de lecture de l'analyseur. Une méthode qui fonctionne: (1) couper la couverture; (2) placer le livre au bord de l'établi; (3) disposer une règle de métal près du dos du livre (il faut être assez loin du dos pour que toutes les pages soient libres après la coupe, mais pas trop loin pour ne pas couper des caractères); (4) bien serrer la règle avec deux serres-joints; (5) couper au couteau tout-usage (Xacto, Olfa, etc.); (6) après l'analyse, on peut remettre les feuilles libres «en sandwich» entre le devant et le derrière de la couverture coupée, et faire tenir le tout avec des élastiques. Il faut conserver l'original tant que la numérisation n'est pas terminée. Bien sûr, ne brisez pas le livre s'il ne vous appartient pas! J'ai déjà numérisé un livre sans le couper, mais c'est très désagréable et ne donne pas de bons résultats.
3.4) Faire le balayage numérique en tant que tel. Contrairement aux apparences, c'est une des étapes les plus rapides et agréables, alors profitez-en! En gros, vous démarrez le logiciel et le balayeur, et vous placez les pages manuellement sur la platine de lecture, les unes après les autres. Arrêtez à toutes les 50 pages, et sauvegardez le fichier, au cas où votre logiciel «planterait» (ça m'est arrivé plusieurs fois). Nommez les fichiers selon les pages qu'ils contiennent, comme par exemple «pages 0001 à 0060.opd». Consultez le manuel de votre logiciel de balayage numérique pour les détails.
À la fin de cette étape, certaines personnes crient victoire et laissent tomber ces immenses fichiers sur l'Internet, prétendant que ce livre vient d'être «numérisé». Je trouve que c'est de l'inflation verbale: ce livre vient d'être photographié, pas vraiment numérisé. Un livre vraiment numérisé exige beaucoup plus de travail, mais il a aussi beaucoup plus d'avantages (comme la compacité, la facilité d'indexage, la facilité de faire des corrections et des ajouts, etc.).
C'est peut-être la partie la plus complèxe de toute cette démarche, mais heureusement cette complexité est cachée à l'intérieur du logiciel de ROC. Vous n'avez qu'à pousser sur un bouton, et l'ordinateur fait (presque!) tout le reste. Le logiciel va vous poser des questions quand il sera incapable de reconnaître certains mots. Dans l'exemple suivant, le logiciel est confondu car il n'y a pas de point sur le «i»:
Exemple d'erreur de ROC
Cette partie de la démarche est celle qui profite normalement des versions plus récentes d'un logiciel de ROC. À la fin du processus de la ROC, le logiciel produit un fichier avec les caractères qu'il a réussi à reconnaître.
Je n'ai jamais vu de logiciel de ROC qui évitait toutes les erreurs. D'ailleurs, c'est presque théoriquement impossible (pensez aux pages déchirées ou vandalisées par des gribouillis, ou aux erreurs d'impression, etc.). Il faut lire le fichier texte produit par le logiciel ROC, et le comparer à l'image numérique brute. En pratique, cette étape est faite en deux temps.
5.1) Premier «dégrossissage» plus ou moins automatique. Après la ROC mais avant l'encodage, on utilise les fonctionnalités du logiciel de traitement de texte pour faire le plus de corrections «globales» possible. À titre d'exemple, les livres de Thonnard ne mettent pas d'accents sur le «À» qui commence une phrase, alors on peut faire une recherche semi-automatique et corriger toutes les occurences, etc.
5.2) La correction «monastique». C'est la vraie correction, celle qui est un travail de moine! Moi j'ai tendance à vérifier un paragraphe à la fois, et à intégrer cette étape avec l'étape suivante (voir No. 6.6 ci-bas).
C'est la partie la plus longue et difficile de la démarche, parce qu'on ne fait plus simplement une traduction (d'un format papier à un format électronique), mais une production (on rajoute des choses qui souvent n'étaient même pas dans l'original).
Il y a en théorie au moins trois approches à cette étape:
- sauvegarder le produit de la ROC en tant que fichier HTML, et ajuster le HTML
manquant ou erroné;
- le sauvegarder dans le format d'un traitement de texte ordinaire (comme
Microsoft Word), pour ensuite faire les changements, et finalement utiliser la
fonctionnalité du traitement de texte pour sauvegarder le résultat en format
HTML;
- le sauvegarder en tant que simple fichier texte ASCII, et encoder le HTML à
partir de rien.
J'ai essayé ces trois approches. À ma connaissance, actuellement, c'est moins de travail d'encoder le HTML à partir de rien, si vous voulez faire un travail impeccable. Bien sûr, de nouvelles versions des logiciels pourraient changer cette conclusion dans l'avenir.
Voici de quoi pourrait avoir l'air votre écran d'ordinateur pendant que vous faites ce travail:
Cliché d'écran lors de l'encodage
Si vous décidez d'encoder le livre en HTML (ma recommandation actuelle), vous pouvez lire un petit texte à ce sujet (comme par exemple Le HTML pour les grand-mères). Si vous tapez des codes HTML «à la main», vous perdez probablement votre temps. Un bon logiciel de traitement de texte vous permet de noircir le bout de texte que vous voulez encoder (comme par exemple un mot que vous voulez mettre en italique), de taper une combinaison de touches, qui, elle, va lancer une macro qui fera le travail à votre place.
Voici un aperçu des étapes que j'ai utilisé pour numériser le Précis de philosophie de F.-J. Thonnard. (Mais gardez en tête que cette partie de la démarche peut être très variable d'un livre à l'autre, et d'une personne à l'autre):
6.1) Délimitez un paragraphe. J'ai tendance à faire ces étapes paragraphe par paragraphe.
6.2) Rajoutez le formatage à ce paragraphe. Par exemple, mettez en italiques et en gras ce qui l'est dans l'original.
6.3) Rajoutez les notes de bas de page, les hyperliens, etc. Souvent, le logiciel de ROC est incapable de reconnaître de manière fiable les notes de bas de page. Ces temps-ci, je procède ainsi: (1) double-cliquer sur le gabarit de «renvoi de note» dans ma «palette de bribes de texte» (en bas à gauche dans le cliché d'écran ci-haut); (2) couper le texte de la note de bas de page et aller le coller dans la page HTML qui contient toutes les notes; (3) rajouter le gabarit de note de bas de pages («02_texte_note» en bas à gauche dans le cliché d'écran); (4) donner le numéro suivant à la note; (5) revenir à la page d'origine et fixer le même numéro de note de bas de page.
6.4) Refaites ou récupérez les images, photos, dessins, etc..
6.5) Formattez le code HTML. (au goût) On peut lancer une macro qui fait la justification. Ce formatage du code ne paraît pas lorsqu'on lit la page dans un fureteur web, mais c'est plus courtois pour les autres programmeurs qui pourront avoir à modifier votre HTML.
6.6) Faites la correction «monastique» finale. Non seulement vous faites cette correction, mais idéalement, une autre personne que vous fera une deuxième révision de votre travail.
Tom Gilb dit: «Si vous ne savez pas ce que vous faites, ne le faites pas à grande échelle», et Jon Bently rajoute: «C'est plus rapide de faire un miroir de téléscope de 4 pouces, pour ensuite en faire un de 6 pouces, que d'essayer de faire un miroir de 6 pouces tout de suite en partant».
J'ai eu la chance d'appliquer ces conseils à la numérisation des livres. J'ai commencé avec un petit livre simple de 20 pages par Courtois, ensuite j'ai fait un livre de 200 pages par Sertillanges, et c'est seulement alors que je me suis attaqué au livre que je voulais vraiment numériser, un monstre de 2000 pages de Thonnard. Je recommande fortement que vous suiviez un cheminement semblable.
Adorons Jésus-Eucharistie! | Accueil >> Varia >> Génie logiciel