2.3. Numérisation, récupération

La décision de créer une base de documents implique des choix de numérisation. En fonction de la taille des fonds et des flux, l'opération est plus ou moins d'échelle industrielle. Elle n'est jamais anodine. Les choix se situent à la rencontre de deux problématiques, celle de l'organisation et de la collecte des données et documents et celle du choix des formats.

2.3.1. Numérisation : un problème industriel

Le plan de numérisation est défini autour de quelques éléments forts :
- Analyse des besoins, du fonds et des formats, de l'organisation [aspects vus dans les paragraphes correspondants]
- Inventaire des documents
- Choix d'un champ, décisions par rapport au fonds, le stock, et les flux, c'est-à-dire ce qui sera à numériser en fonctionnement normal.
- Problèmes d'indexation, création d'une base de référence
- Problèmes techniques de manipulation des documents
- Exigences en matière de qualité (définition, couleur, taux d'erreur pour la reconnaissance de caractères)
- Choix du système de gestion des documents
Le plan doit préciser les grandes contraintes, comme notamment les règles juridiques pour l'archivage, la durée de conservation des documents physiques et des documents présents dans la base.
Le plan distinguera la numérisation du stock et les procédures à mettre en place pour assurer ensuite le fonctionnement en continu. Les techniques peuvent être différentes pour les deux phases, si le flot de documents entrant est relativement limité.

2.3.1.1 Indexation, existence de fiches, références

Cette partie du travail est à considérer en priorité. Un fonds numérisé suppose des recherches documentaires, une indexation pertinente, la possibilité de relier les objets stockés à des index et des fiches.
S'il s'agit de textes numérisables avec reconnaissance de caractères, il sera possible d'appliquer des recherches en texte intégral - mais il faut tout de même avoir déterminé les potentialités en ce domaine, connaître les modes d'interrogation, et en général le fait de disposer de fiches sera un atout important.
Pour des images, il est inutile de commencer la numérisation si des fiches manuelles ou informatiques n'existent pas, et si le problème de l'indexation n'a pas été résolu. Des fiches relativement détaillées sont nécessaires parce que les images numérisées doivent pouvoir être triées et retrouvées à long terme, et les critères de classement, les thèmes, les questions changent en fait extrêmement vite. Seuls des spécialistes de l'information sont en général à même de définir un fichage qui ne soit pas dépendant de l'actualité ou des préoccupations les plus immédiates.
La gestion des documents impose de définir à la fois des méta-données pour les utilisateurs de la base et des méta-données pour les administrateurs. En particulier, les droits attachés aux différents documents doivent être indiqués, ainsi que les règles, conditions et droits d'accès et d'utilisation.
Pour les différents documents, les unités accessibles individuellement doivent être définies, et un système de repérage déterminé, pour la constitution d'un fichier de référence.

2.3.1.2 Une opération industrielle

Dès que le fonds est suffisamment important, l'opération est de nature industrielle. Il s'agit de manipuler des documents, de mettre en place une chaîne de production d'une part pour la numérisation d'un stock, d'autre part pour, ensuite, prendre en charge le flot de documents nouveaux. Cette deuxième chaîne sera souvent très limitée par rapport à la première, d'autant que l'évolution de l'information va souvent, à moyen terme, réduire sa charge par l'entrée directe de documents numériques.
La nature physique des documents détermine des contraintes. La situation la plus simple est celle où les formats et les supports sont tous identiques, et où les documents sont d'une origine unique, avec peu d'aléas de qualité. A l'inverse, il est particulièrement difficile de traiter des fonds d'origine diverse, et surtout répartis sur une longue période de temps : les papiers, les formats, les polices de caractère ont varié, et le vieillissement entraîne des dégradations. Pour scanner des dossiers anciens, il faudra pouvoir traiter des papiers pelure des années 60, des formats de lettre américains etc. tout en évitant les agrafes, trombones et autres accidents.
Une décision importante concerne le déliassage de documents - rapports, publications etc. Ce déliassage permet une numérisation de meilleure qualité mais dégrade l'original. Il est évidemment exclu pour les ouvrages, et il faut alors utiliser un scanner optique, ou passer par un détour photographique, au détriment de la qualité et du rendement.
Pour les images, le problème sera de les repérer pour pouvoir les associer à une fiche sans erreur. Un travail préparatoire sera nécessaire, avec par exemple insertion d'un code barre sur le support au moment du fichage, pour effectuer un rapprochement automatique.
Pour des documents de grande taille, comme des plans, un système en deux étapes - film puis numérisation du film - sera souvent préférable.
Il faut donc analyser le fonds documentaire et déterminer des ensembles homogènes du point de vue physique. Il est impératif de procéder à des tests sur des jeux de documents représentatifs et suffisamment importants.

2.3.1.3 Les numériseurs

Le présent guide n'abordera pas le problème du choix du numériseur - scanner. En effet, c'est en général à un sous-traitant spécialisé que reviendront les choix d'équipement, mais le responsable du projet doit être en étroite relation avec lui pour s'assurer que les contraintes réelles propres au fond et à son usage sont bien prises en compte.
Les différents types de numériseurs se distinguent en fonction de la méthode de positionnement du document - scanner à plat, scanner à dispositif optique adaptés au traitement de grands documents et permettant différents réglages par éloignement de la caméra, zoom etc. , scanner à rouleau pour de grands documents (très lents, utilisés dans les arts graphiques). Ils se distinguent aussi par le débit qu'ils supportent, les systèmes auxquels ils peuvent être reliés et les possibilités de chargement automatique.
Les scanners optiques sont de deux types, les uns étant des caméras numériques mobiles, utilisées notamment pour des livres, les autres étant des caméras fixes avec des systèmes d'éclairage, pour des documents fragiles.
Dans tous les cas, il faut arbitrer entre le coût, le débit et la préservation des documents originaux.

2.3.1.4 La résolution

Dans des limites de coût raisonnables, il sera toujours préférable de numériser avec la meilleure qualité possible. Il faut cependant rappeler que la définition maximale n'apporte pas forcément cette meilleure qualité, parce qu'elle fait apparaître des défauts et des artefact sur des documents de qualité médiocre.
Par ailleurs, la définition absolue n'est pas le seul paramètre. La qualité réelle de la numérisation peut varier fortement pour une même définition annoncée. La mise en concurrence de prestataires, ou de fournisseurs pour les scanners employés en interne, exige encore des tests, avec des jeux de documents.

2.3.1.5 La couleur

Pour des photographies, la couleur pose de difficiles problèmes, parce qu'elle est largement la résultante des caractéristiques physiques d'un objet, d'une image et de la perception par l'oeil humain. Les caractéristiques elles-mêmes dépendent du support. L'image numérisée apparaîtra différemment si elle est restituée sur un écran d'ordinateur ou de télévision, si elle est imprimée etc. et la couleur dépendra des caractéristiques de l'écran, de l'éclairage etc.
Les techniques progressent de ce point de vue, depuis que les systèmes d'étalonnage de la couleur ont été définis par la Commission Internationale de l'Eclairage en 1931.
Or, la restitution des couleurs est très importante. L'oeil supporte très bien et ignore en général une légère imprécision dans une image mais une déviation physiquement très faible des couleurs peut provoquer un fort rejet - c'est le cas si un visage tire sur le bleu, le vert ou le rouge, par exemple.
Il est impossible de contrôler dans l'absolu ce que sera la restitution, mais il faut au moins assurer la stabilité et le maximum de fidélité dans la base. Comme il s'agit souvent d'atteindre des rythmes élevés et surtout de rester dans des enveloppes budgétaires limitées, il est impossible d'appliquer la technique des arts graphiques, c'est-à-dire le contrôle du scanning par un professionnel. Les contrôles seront donc automatiques : un logiciel analyse périodiquement les écarts à partir d'une image témoin.

2.3.2. Des options et des techniques

Tout programme de numérisation va amener aux questions suivantes :
- Faut il traiter l'ensemble du stock, une partie seulement ou ne numériser que les nouveaux documents.
Remarque : il est préférable que ce débat ne s'éternise pas, parce qu'il arrive constamment de nouveaux documents.
- Faut il procéder à une reconnaissance optique de caractères et même de structure ou rester en format image.
- Ne vaudrait il pas mieux resaisir certains documents.
- Faut il sous-traiter et que faut il sous-traiter.

2.3.2.1 La question du stock

Une sélection des documents sera souvent nécessaire, et au moins une hiérarchisation et des priorités. On pourra par exemple, pour une base de rapports ...
- ne traiter que les rapports jugés comme les plus fondamentaux ;
- dans les rapports, sélectionner les éléments à numériser - par exemple en excluant les documents annexes, souvent volumineux ;
Ces annexes sont presque toujours à numériser, parce qu'elles ne peuvent être fournies sous forme de fichier (photocopies de feuilles manuscrites, images diverses, reproduction de sources), et il faut donc les traiter à part du rapport lui-même. Le problème est que les annexes sont souvent des documents techniques, qui permettent de mettre en lumière des aspects importants du rapport et en facilitent la lecture.
- ne pas traiter du tout l'arriéré...
Il est en général plus réaliste de mettre en ligne d'emblée un ensemble raisonnablement important, en se limitant à la période récente.

2.3.2.2 La resaisie

La possibilité de resaisir les documents manuellement peut être envisagée pour des documents textuels ou contenant très peu de schémas.
Elle se justifie de moins en moins, sauf si les documents sont de très mauvaise qualité, et s'il n'est pas nécessaire de conserver une apparence. Dans ce cas, plutôt que de stocker l'image du document, il pourra être intéressant de procéder à une saisie - en s'adressant à des entreprises spécialisées. En outre, la resaisie permettra souvent d'introduire des codes permettant ensuite le passage en SGML / XML.

2.3.2.3 L'opportunité de la reconnaissance de caractères

Les logiciels de reconnaissance de caractères (Optical Character Recognition - d'où OCR) ont beaucoup progressé. Ils exploitent à la fois les algorithmes de reconnaissance de forme et d'apprentissage, des dictionnaires, voire des référentiels sur les types de documents traités. Cependant, le coût de la reconnaissance est élevé, parce qu'il faut une intervention humaine pour lever les incertitudes signalées par le logiciel. Alors que l'ordre de grandeur du coût de numérisation en format image va être de 1 F (très dépendant du volume), le coût avec reconnaissance peut monter à 10F au 1000 de caractères, soit de 20 F à quelques 30 F ou plus par page. Cependant, des outils de reconnaissance permettent de s'en tenir à la partie automatique, au prix de compromis (cf. infra Acrobat Capture).
En tout état de cause, la reconnaissance de caractères peut intervenir à tout moment sur des objets stockés dans le fond. Il sera toujours possible de la réaliser - et dans certains cas, le fait d'attendre a permis de profiter des progrès de la technologie.
Une méthode est de procéder en fonction des demandes, c'est-à-dire de n'effectuer la reconnaissance qu'au fur et à mesure qu'un document est demandé. Une loi connue des bibliothécaires montre que, très rapidement, 80% des documents demandés sont dans l'ensemble reconnu, qui ne correspond qu'à 20% du total, en raison de la concentration des demandes sur une partie limitée du stock. C'est en partie la solution adoptée par la Bibliothèque nationale de France, qui a choisi de numériser ses documents au format image, et de les stocker pour les convertir au format texte au fur et à mesure des demandes.
Cependant, il faut rappeler que les documents non soumis à la reconnaissance ne peuvent être accédés par les logiciels documentaires et exigent donc un fichage complémentaire.
La décision dépend évidemment de la nature et de la qualité du fonds, un taux d'erreur trop élevé étant impossible à gérer sans une intervention humaine forte et donc des coûts élevés. Or, il faut rappeler qu'une lettre non reconnue sur 1000 correspond à plusieurs corrections par page. Les exigences actuelles sont souvent que le taux d'erreur soit inférieur à 1/10 000
La reconnaissance partielle , par exemple du début d'un texte, d'un sommaire etc. ne doit pas être négligée. Elle permettra d'attacher une information textuelle au document numérisé, par exemple en appliquant la reconnaissance à un sommaire, à l'exposé des motifs etc. Des logiciels de numérisation permettent à un opérateur de sélectionner la zone de texte à reconnaître et attacher comme élément d'identification au document. Cela permet de reporter éventuellement la reconnaissance de l'ensemble ou de ne pas l'effectuer.

2.3.2.4 Reconnaissance de structure

La reconnaissance de caractères imprimés a maintenant atteint une grande efficacité. Les progrès concernent maintenant la reconnaissance de structures dans le document : identifier les titres, une table des matières etc.
Les logiciels de reconnaissance identifient maintenant les blocs de texte et les schémas. Ils permettent également de repérer le gras, le souligné etc., mais les enrichissements des lettres doivent être très prononcés pour qu'ils puissent être interprétés. Il faut donc exploiter plusieurs informations pour identifier les titres par des critères caractéristiques autres que la seule typographie. La numérotation et la table des matières sont les deux premières ressources. D'autres caractéristiques seront utilisées, par exemple le fait qu'il y a généralement un espace avant ou après un titre, que la phrase commence par une majuscule et est très courte,... En combinant plusieurs critères, les titres peuvent être identifiés avec un risque limité d'erreurs.
En fait, les logiciels présents sur le marché n'offrent pas ces capacités évoluées. En revanche, ils offrent souvent des API (Application Programming Interface - Interfaces de programmation d'applications associées) permettant à des intégrateurs de développer des petits programmes d'analyse et de traitement.
Le traitement pourra être ensuite complété par un logiciel d'analyse capable de baliser des éléments du texte pour pouvoir les identifier, distinguer les différents titres etc. une fois les caractéristiques typographiques de ces différents éléments de structure indiqués au logiciel. Les logiciels de structuration , comme Exoterica Omnimark ou FastTag, vont ainsi être capables de produire un document sous différents formats préétablis, et en particulier conformément à une DTD SGML.
Ces différentes techniques s'appliquent aux documents complexes qui, du point de vue de la numérisation, sont ceux qui associent des textes et des images, en particulier des pages de magazines, documents commerciaux etc. comprenant des colonnes, des renvois entre pages etc. La reconnaissance de structure est possible, et pourra faire apparaître des structures différentes pour différents objets, articles etc. Si le format de stockage n'est pas PDF (cf. infra), le logiciel placera des liens dans le texte, pointant sur les images - et cette fonction devra être assistée, ou les liens vérifiés.

Exemple : les brevets
Jouve a mis en place pour l'INPI une installation industrielle de numérisation des brevets. La combinaison de plusieurs techniques permet d'automatiser la plus grande part du travail de reconnaissance. En effet, il s'agit d'obtenir une structure très précise, à partir d'un dossier de documents correspondant heureusement à une réglementation elle aussi précise de la demande de brevet. Ainsi, le système sait que le brevet comprend une définition, des revendications etc. et, à partir de la reconnaissance des différents blocs, des mots etc., il reconstitue les différents éléments. Il y a synergie entre la reconnaissance de caractères, la connaissance d'un ensemble sémantique, la connaissance de la structure etc.

2.3.2.5 Génération de fichier PDF

La famille de logiciels d'Adobe comprend Acrobat Capture, qui permet de produire un document PDF à partir de l'image numérisée. Capture choisit une police qui est la plus proche possible de celle employée dans le document (elle aura au moins la même chasse, ce qui signifie que l'apparence exacte de mise en page peut être conservée).
La caractéristique intéressante est que (cf. paragraphe "PDF") PDF peut gérer simultanément du texte et des images. Si donc une lettre ou un mot ne sont pas reconnus, ils seront placés en format image. Comme, de toutes façons, l'apparence du document est conservée - caractéristique essentielle de PDF - le document apparaîtra uniforme à l'oeil (mais pas pour un logiciel documentaire évidemment).
Un grand avantage est qu'il est ainsi possible d'effectuer une reconnaissance de caractères - incluse dans Capture - sans encourir les coûts de vérification. Les logiciels de reconnaissance imposent de lever les incertitudes, alors que Capture se débrouille et affiche l'image.

2.3.2.6 La sous-traitance

En ce qui concerne le stock, il est a priori presque toujours indispensable de sous-traiter. Cette charge exceptionnelle peut en effet difficilement être supportée dans un organisme, même si une équipe est mise en place pour gérer le flux. En outre, rien ne justifie un équipement particulièrement important, nécessaire pour cette phase.
La question se pose ensuite, pour les nouveaux documents. La réponse dépend du volume. Dès qu'il est important, le partenariat avec une société spécialisée est certainement préférable.
Il faut noter que le fait de sous-traiter n'implique pas que la numérisation ne se fasse pas sur place. C'est en général préférable de l'effectuer à l'extérieur, mais il faut aussi prendre en compte les problèmes de manutention et transport des documents, la localisation du partenaire, les techniques employées etc.

2.3.3. Récupération de fichiers

La récupération de fichiers informatiques est souvent source de difficultés plus grandes que la numérisation, en raison de l'hétérogénéité des logiciels source et du non respect de règles strictes par les auteurs, organismes etc. [cf. "La chaîne de traitement" in 2 Données]
Très rapidement, lorsque le nombre de sources est grand, le nombre de formats et de problèmes augmente, si un système de saisie cohérent n'est pas mis en place avec tous les partenaires.
Remarque. Comme cela a été noté à propos des formats, il est presque impossible de récupérer un fichier en conservant les mises en page d'origine exactement, parce qu'elles dépendent non seulement du logiciel mais de la machine, des réglages, des polices etc.
En particulier, cela pose le problème des paginations, déjà évoqué - sauf si les documents sont transmis en format PDF. Cette dernière hypothèse est encore peu vraisemblable, parce que PDF est utilisé en écriture seulement par les serveurs, les éditeurs etc. mais rarement par des auteurs, entreprises ou autres partenaires de l'administration.

NB : Le problème des paginations
La pagination n'est pas définie dans un fichier de traitement de texte (elle s'effectue à la volée). Cela peut poser des problèmes si des références à des pages sont malheureusement incluses dans le texte, ou si l'utilisateur veut ensuite se référer au document original.
Il faut donc prévenir les utilisateurs du fait que la pagination a disparu par rapport au document original - (donc attention aux sommaires avec pages !)
Il y a deux solutions pour fournir une information dans ce domaine : PDF s'il est impératif de la conserver - et si on dispose du fichier d'origine, sinon accrocher une balise à un début de ligne et placer dans la marge du document "p.X. éd. origin."

2.3.4. Un exemple et un ensemble de conclusions pratiques, à partir du programme de numérisation des collections iconographiques du Patrimoine

Jean-Louis Pascon, chef du projet de numérisation des collections iconographiques du Patrimoine, au ministère de la Culture, propose cet ensemble d'observations et de recommandations, à partir d'une opération extrêmement ambitieuse. Cette démarche, qui s'appuie sur une forte expérience de terrain, permet de faire concrètement le point sur la numérisation.
Le projet, initié en 1996, est en phase de production depuis octobre 1998. La société Jouve Systèmes d'information est le prestataire.

Dans le domaine culturel, la mise en ligne ne concerne, pour l'instant, qu'une fraction du patrimoine du fait des volumes considérables.
En l'état de la technique, tout n'est pas à numériser immédiatement, par exemple les usuels (un usuel perd son utilité en ligne, car il est souvent malcommode à consulter), la littérature "grand public" - elle est publiée sur papier dans de nombreuses éditions et il est inutile de la dupliquer en ligne.
Par contre, les documents rares et précieux, auxquels le public ne peut avoir accès sont une cible de choix pour la numérisation. Celle-ci protège le document en donnant accès l'information qu'il renferme.
Le patrimoine culture (et "administratif") représente des stocks de document excessivement divers, sur tous les supports susceptibles d'avoir été utilisés dans le passé pour enregistrer des informations : papier, parchemin, film, vélin, pierre, bande vidéo, photographie, CD.
De plus, tous les sujets peuvent être traités.
Ainsi, les archives administratives, suivant leur origine et selon leur époque de production, regroupent des plans, des cartes de relevés puis des photographies, puis des documents sonores (débats de l'Assemblée Nationale) et des notes en sténographie, des films de tournées coloniales, des vidéos, sans oublier les maquettes.

NUMERISATION

Pour s'en tenir aux seuls documents papier, il convient de distinguer les documents de texte seuls, les photographies seules, et les documents mélangeant les deux.
Les présentes indications sont des pistes pour alerter les responsables administratifs sur la nécessité de dialoguer avec des prestataires privés compétents avant de se lancer dans la numérisation.

- Documents texte seul

Les contraintes de la numérisation industrielle (40-60 pages à la minute) obligent à exclure toute idée de correction à la main a posteriori, aussi bien pour la reconnaissance de caractères que pour l'indexation. Il doit donc y avoir un travail préparatoire avant la numérisation :
- Ne sélectionner que les documents parfaitement lisibles (par exemple qui pourront donner un taux de reconnaissance automatique de caractères de 99,99% si ce mode de traitement est souhaité).
- Préparer la procédure d'indexation, aussi bien dans le choix des critères à retenir pour référencer un document (quelle date, quel titre, quels noms d'auteurs, de collaborateurs ?) que dans le déroulement de la numérisation elle-même (par exemple, insérer une feuille portant un code barre en tête de chaque document, pour faciliter sa reconnaissance).
Un texte manuscrit sera numérisé en haute définition bitmap, sans phase de reconnaissance de caractère pour être facilement exploitable à la lecture (Exemple: actes de propriété de l'Etat du Québec, qui sont constitués de notes d'arpenteurs, et dont la version numérique aura valeur juridique. Tout défaut dans la numérisation pouvant entraîner un contentieux possible, on comprend l'importance de la gestion de la qualité).
Dans le cas des documents anciens, l'automatisation n'est généralement pas applicable. Souvent des réglages spécifiques sont requis. Il est ainsi utile de supprimer certaines couleurs pour éliminer certains défauts visuels, comme les tâches d'humidité sur le papier.

- Documents image seule

Pour déterminer ce qui doit être numérisé, on peut utiliser les mêmes critères que ceux employés en matière de conservation. Le spécialiste en photographie sera capable de renseigner le service détenteur des phototypes sur leur âge, la méthode de prise de vue, la qualité du substrat chimique, autant de critères qui aident à prévoir la fidélité du rendu après numérisation à l'objet initialement photographié.
L'habituelle question est de savoir en quelle résolution on décide de numériser son fonds photo. Est-ce pour publier (haute définition) ou pour indiquer (vignette moyenne définition). Pour mémoire, un Ektachrome offre une résolution de 100x100 points au millimètre carré. Dans un projet ambitieux, comme la photographie des fresques de Saint-Savin, on a utilisé une résolution telle que deux images (1m x 2m) tenaient sur un CD-R.
Il est important qu'un service administratif ne raisonne pas sur les limites techniques de stockage d'aujourd'hui, et plus généralement ne retienne pas comme seul critère l'état de l'art d'aujourd'hui. S'il faut plusieurs centaines de CD-R pour archiver les fresques de Saint-Savin, par exemple, cela peut paraître démesuré ; mais il est certain que demain, ces mêmes photos tiendront sur quelques dizaines de supports.
L'administration doit investir pour l'avenir, avec en tête les technologies et les applications du futur : un travail de numérisation de haute qualité, qui rend aujourd'hui les fichiers difficiles à manipuler, sera aisément réutilisable demain.
Néanmoins, quand le projet vise une application pratique immédiate, il se peut que la numérisation en haute définition soit prématurée. C'est le cas de la cartographie minière québécoise dont la mise sur le Web a été arrêté; En effet, chaque image de carte se chiffrait en dizaine de méga-octets, or à ce jour, seule une informatique spécialisée (haut débit, forte puissance de calcul) est capable de manipuler aisément ce type de documents. Il est clair dans cet exemple que la numérisation peut être pertinente, mais que l'exploitation nécessite des évolutions techniques à venir.
La seconde question est d'arbitrer entre qualité et exhaustivité. La qualité la plus grande est fondamentale dans certaines situations. Par exemple, le calibrage le plus strict de la chaîne de numérisation est essentiel pour un document photographique numérique destiné à permettre d'apprécier la conformité d'un projet de construction dans le cadre d'une procédure de permis de construire exigeant le respect de la couleur des tuiles régionales.
Si au contraire le but est d'avoir la quasi certitude de trouver le bâtiment que l'on cherche, au milieu de 500.000 photographies (par exemple, rechercher des vues de la cathédrale d'Amiens en 1920 pour comprendre ses restaurations diverses), l'exhaustivité primera sur la qualité.
Dans le premier cas, la chaîne de restitution couleur doit être le plus fidèle possible, dans le second cas, il est possible d'être moins exigeant.
Un point essentiel en numérisation concerne précisément le calibrage de la chaîne de production des images électroniques. Chaque élément de la chaîne (scanner, écran du poste de retouche, presse offset ou imprimante) est étalonné.
Par ailleurs, il est essentiel de numériser le référentiel colorimétrique si celui-ci est présent dans le phototype.
Le choix de l'outil de numérisation est aussi très important. Ainsi, lorsqu'on cherche à capturer les détails d'un document avec une très grande résolution, l'utilisation d'un scanner avec dispositif optique est recommandée, car celui-ci permet de réaliser des zooms. Alors qu'un scanner à plat, qui offre une résolution fixe, ne permet que la sélection d' une zone, et non son agrandissement au-delà de sa résolution initiale.
Pour les numériseurs de très haute définition (>3000 dpi) et de très grande précision, il devient impossible de faire la mise au point simultanée sur les trois couleurs primaires, car chaque couche du film photographique est distante de l'autre de quelques microns. Le résultat est qu'une couleur est très bien numérisée, les deux autres moins bien. Conclusion, l'augmentation de la qualité des numériseurs peut engendrés de nouveau problèmes.
Selon le type du fonds de documents à numériser, le spécialiste devra être capable de discuter de ces aspects avec le responsable du fonds, afin de sélectionner tel ou tel équipement selon les cas : les scanners à plat donnent toute satisfaction à très haute résolution, mais sont incapables de faire de la macro, dont en cas de besoins de détail, il vaudra mieux utiliser un outil avec possibilité de zooms, de même, il faudra parfois numériser avec une quantification de 12 bits par couleur (soit 36 bits par pixel), pour prendre une marge de sécurité dans la dynamique et autoriser un retravail du document avec la meilleure sécurité, même si le stockage final ne se fait que sur 8 ou 10 bits.

- Documents mixtes textes et images

Dans ce cas précis, il n'y a pas de solution idéale, il n'y a que des compromis en fonction de la destination finale du document scanné. Ainsi, la numérisation des journaux anciens pourra se faire en bitmap noir et blanc, la préoccupation essentielle étant de minimiser l'ombre de l'encre du verso qui apparaît par transparence du papier ; les illustrations seront imparfaitement rendues. Au contraire, un catalogue d'exposition ou une revue scientifique exigent d'être numérisés dans la meilleure résolution. La solution qui consiste à reprendre le document à la main, pour réorganiser ses colonnes et ses illustrations, fait perdre au lecteur l'impression de lecture qu'il aurait eue avec l'original, et surtout, elle est fastidieuse lorsqu'il faut traiter un volume important. Un juste milieu peut être d'associer au document bitmap N&B certaines de ses illustrations numérisées avec détail, lorsqu'il mérite d'être mis en valeur par ces images.
Le cas particulier des incunables est intéressant, car leur numérisation s'accompagne d'enrichissements qui tirent tout le parti d'un média électronique dynamique : indexation détaillée, transcription en français moderne, correspondance des noms de localités citées, glossaire et explication. La numérisation quitte ainsi le strict cadre de la disponibilité en ligne de données publique pour rentrer dans le champ de l'édition culturelle multimédia.

- Documents codés

Reste le fourre-tout des documents audiovisuels et informatiques, dont la disponibilité en ligne n'est pas forcément la plus difficile, mais qui imposent à chaque fois un processus de numérisation ou de recodage propre à leur cas. Les données informatiques sont probablement les plus difficiles à conserver, car elle sont par essence dynamiques, et s'accommodent mal de l'obsolescence des logiciels et des plates-formes informatiques dont elles étaient issues.
A moyen terme, pour les logiciels eux-mêmes, une solution efficace serait la disponibilité au format XML des manuels décrivant leurs fonctionnalités. Ainsi, même si le code exécutable ne trouve plus de plate-forme pour tourner, les fonctions qu'avaient ces "ancêtres" resteront accessibles. On peut peut-être aussi imaginer la disponibilité de logiciels d'émulation, permettant de faire fonctionner un logiciel ancien dans un environnement matériel qui n'a plus rien à voir, en intercalant entre lui et le hardware une couche logicielle destinée à recréer son environnement d'origine ; l'augmentation des puissances de traitement le permet aisément. Pour toutes ces hypothèses, on est là dans le domaine de la conservation-fiction"
Les données audiovisuelles sont plus aisées à diffuser en numérique, mais pas forcément à conserver. Si aujourd'hui les normes de codage audio permettent de conserver dans de parfaites conditions le son numérique, il n'est est pas de même pour le film. La résolution d'un internégatif de 35 mm ne pourra être pleinement retranscrite en vidéo numérique, car les formats actuels n'offrent qu'une image théorique de 768x576 pixels (ou 1920x1250 pour la TVHD).
Mais ces préoccupations de qualité sont celles du conservateur et non du diffuseur. Ce dernier se heurtant aux débits insuffisants du réseau, le choix des équipements à basse résolution sera encore à l'ordre du jour pour plusieurs années.
Enfin, méfiance vis-à-vis des objets tridimensionnels, qui, a moins de rester simplets, deviennent lourds, chers, et insatisfaisants par leur rendu approximatif des textures (cf. reconstitution de l'abbaye de Cluny). Conclusion : être très circonspect.

sommaire haut de page précédent suivant

© Ministère de l'Économie, des Finances et de l'Industrie, 19/05/1999