2.2. Les formats de documents

Le choix de formats est et doit être de plus en plus indépendant des systèmes matériels et logiciels. C'est la seule manière de garantir la pérennité des investissements et des systèmes dans un monde de communication où les outils de restitution technique vont constamment progresser.
Or, de tels formats existent. Leur utilisation représente souvent une dépense d'investissement supérieure. Pourtant, les risques sont bien plus grands lorsqu'un format "propriétaire" est adopté. En fait, dans toute la mesure du possible, il est essentiel de se conformer à des normes véritables, ouvertes, publiques au lieu d'utiliser des formats propres à tel ou tel logiciel, même si celui-ci est un standard de marché.
Il faut aussi distinguer, souvent, les formats de gestion des documents et les formats de transport et de restitution.
Enfin, il n'y a pas de format universel. Les formats retenus dépendront de la nature des documents et de leur usage.
Les formats sont déterminés à la fois par la nature et la structure des documents eux-mêmes, les conditions de leur obtention et de leur mise à disposition, et enfin les usages.
Comme cela a été indiqué ("chaîne de traitement"), les origines diverses des documents vont conduire à deux types de questions : que faire à partir des formats numériques entrants (les conserver si possible, les unifier etc.) et dans quel format stocker les documents numérisés.

2.2.1. Le document : points de vue et analyse du contenu

L'administrateur de fonds d'information va d'abord définir les unités documentaires qu'il entend traiter.
En effet, il peut s'agir d'éléments de texte très limités ou de rapports volumineux. Il peut s'agir de tableaux créés à la demande ou préexistants (cf. partie consacrée spécifiquement au Web).
L'analyse des fonds de documents va s'effectuer à partir de quelques critères qui tiennent à la structure et à l'utilisation des documents.

Rappel : les différents aspects d'un document textuel
Les documents électroniques dérivent aujourd'hui pour la plupart des documents papier (y compris quand ceux-ci sont produits à partir du document électronique). Le papier est toujours la forme dominante pour l'accès final au document, et c'est donc lui qui en détermine la forme.
Les documents principalement textuels ne relèvent pas du domaine de la donnée structurée. Pourtant, quels qu'ils soient, ils ont, implicitement ou explicitement, trois systèmes de référence :
- ils ont une structure logique, qui comprend le découpage en méta-texte et texte, les titres, paragraphes, listes d'items, notes etc.
- ils ont une structure sémantique, puisant dans un ou plusieurs dictionnaires linguistiques, et ont peut ajouter une structure syntaxique, l'ensemble permettant une analyse linguistique
- enfin, ils ont des caractéristiques de présentation - polices typographiques, caractéristiques typo (gras etc.), disposition dans la page ou sur l'écran etc.
Ces divers niveaux ne sont que partiellement indépendants.
Le méta-texte
Tous les documents papier disposent de deux éléments fondamentaux : un méta-texte et une structure reconnus par tous. Le méta-texte est ce qui entoure la rédaction elle-même et permet précisément de la gérer. Dans le livre : titres, références d'éditeur et d'impression, sommaire, index, bibliographie, rappel de titre en haut de page, pagination etc. Mais ce méta-texte existe aussi, par exemple, pour un document bureautique - référence de lettre, date etc. Ces informations sont perceptibles au travers de la structure d'ensemble des documents, et ce même sans tenir compte de la langue. Sans le comprendre, chacun repérera le méta-texte d'un livre en allemand, voire en arabe à condition d'inverser l'écriture. La date d'une lettre est en haut à droite, le sommaire d'un livre au début ou à la fin et il donne l'impression d'une liste etc. La reconnaissance de la structure ne se limite pas au méta-texte. Tout lecteur sait identifier les objets que sont les titres, les paragraphes, les encarts, les notes, les renvois de schémas etc.
Toutes ces caractéristiques, sans lesquelles l'écrit ne serait pas utilisable, sont tellement connues qu'elles paraissent naturelles, alors qu'il s'agit uniquement de conventions formées au cours des siècles.
L'informatique soit les a ignorées et non remplacées, soit les a utilisées. Les banques de données de référence ne sont en fait en pratique qu'un méta-texte et reprennent largement celui des ouvrages.
Certains éléments du méta-texte dépendent de la structure logique (comme les sommaires), d'autres de la structure sémantique (glossaire), d'autres enfin de la présentation et de la mise en page (pagination, table des matières). Il faut prendre en compte ces éléments lors des manipulations des documents. En même temps, les éléments du méta-texte sont essentiels pour l'indexation et la constitution de fiches d'information.

2.2.1.1 Structuration initiale des documents

Quelques grandes catégories peuvent être distinguées.
- Les documents textuels, ou à dominante textuelle, insuffisamment ou incorrectement structurés
La plus grande partie des documents textuels est supposée avoir une structure minimale. Malheureusement, dans de nombreux cas, la structure est non cohérente au long du document, peu de règles sont respectées - c'est-à-dire que la structure en chapitres, titres, paragraphes, encarts, listes etc. peut varier au long d'un même document. En sus, elle sera souvent seulement indiquée par la typographie, qui plus est fluctuante (utilisation de gras, italique etc.).
Un autre type de documents textuels est trop complexe pour identifier une structure unique : ce sont les pages de journaux et en général tous les documents organisés en deux dimensions.
Pour tous ces types de documents, les solutions techniques qui exploitent la structure pour gérer les documents seront d'application plus difficile, voire impossible.
- Les documents textuels respectant des règles rigoureuses de structuration
Ils résultent en général de programmes de structuration, qui ont commencé d'être mis en place dans plusieurs domaines, comme la documentation technique. Ainsi, les rapports des organismes de recherche ont fait l'objet d'un programme (partie scientifique du programme GRISELI) qui a permis de définir des fiches d'information structurées. Comme on le verra, ces structures s'appuient sur des normes tant pour leur définition que pour le contenu même des informations. Un des exemples les plus remarquables est donné par les fiches des catalogues de bibliothèques. Elles peuvent s'échanger dans l'ensemble du monde grâce à une structure de fiche, UNIMARC parfaitement reconnue par tous les acteurs.
Pour les ouvrages, ceux qui ont été composés rigoureusement par des éditeurs professionnels suivront des règles cohérentes.
Comme cela a été indiqué, les éditeurs ont d'ailleurs également commencé de demander aux auteurs de se conformer, par le biais de formats numériques qui leur ont été transmis, à des structures uniformes.
Remarque : la plupart des documents de type tableau ou schéma issus de la bureautique et des tableurs n'ont pas de structure définie et vont donc poser de difficiles problèmes.
- Les documents à structure rigide
Ce sont par exemple les formulaires, et en général tout document susceptible d'être traité ou produit par un système de gestion de base de données, dont les données comptables. Beaucoup de fonds comprennent ce type de documents, qui vont relever de la gestion dans des bases de données.
- Les documents image
Il existe plusieurs types de documents image. Ce sont des dessins et photographies, des textes manuscrits, mais ce peut être aussi les textes et documents divers numérisés (scannés) sans reconnaissance de caractères, ainsi que les télécopies, par exemple.
Tous ces documents partagent la caractéristique de n'avoir aucune structure interne. Ils sont cependant souvent accompagnés d'une fiche qui, elle, est au contraire, structurée.
- Les documents graphiques
Ce sont des schémas, des plans, des cartes, qui ne sont en fait pas des images mais des ensembles d'éléments signifiants, définis. Ces documents seront en général numérisés ou numérisables sous forme vectorielle, c'est-à-dire avec gestion des caractéristiques des divers éléments (un carré, une courbe, une aire etc.). Ce n'est que s'il est impossible de disposer de cette structure que le graphique sera stocké sous forme image.
- Les documents ayant une dimension synchrone
Ce sont les enregistrements sonores, les vidéos etc. Ils ne seront pas abordés ici, parce qu'ils relèvent de démarches techniques et économiques très différentes, du moins actuellement.

Rappel : questions de taille pour les documents numériques
Les tailles des documents, une fois numérisés, varient très fortement. Quelques grandes catégories peuvent être identifiées :
- Les documents textuels en mode caractère occupent un espace plus grand que le nombre d'octets équivalent au nombre de caractères, à cause des codes qu'introduisent les différents logiciels, mais cette expansion demeure raisonnable (de 10% à 100 % en général). Une page A4 avec un texte de 2000 caractères occupera en moyenne 3K.
- Les documents textuels sous forme image occupent une place beaucoup plus grande. Elle dépend de la définition retenue. A 300 points par pouce (12 pts/mm), définition des imprimantes laser, une page A4 correspond, en informatique, avant compression, à quelques 1,1 Mo. La compression, par exemple en format télécopie, va ramener ce volume à 110 Ko (dépend beaucoup du contenu). Si la page est d'origine photocomposeuse (livre, magazine), elle correspond à une définition d'au moins 1200 points par pouce, soit 16 fois la taille précédente, ou encore plus de 17 Mo.
- Les schémas en mode vectoriel (logiciels de dessin) sont peu volumineux, étant stockés sous forme de codes.
- En revanche, les images photographiques sont redoutables. Le film est le support ayant la plus haute définition, équivalente à 2400 points par pouce. Même avec une définition inférieure au texte et en général suffisante, de 200 points par pouce, l'image est bien plus lourde que le texte, en raison de la couleur. En effet, l'oeil humain distingue 16 millions de nuances et, en dessous de ce niveau, les images apparaissent plates ou de mauvaise qualité. Dès lors, chaque point de l'image doit être associé à un nombre supportant ces nuances, soit 2 24. Il faut donc consacrer trois octets à cette information - on dit encore que l'image est stockée sur 24 bits. Dès lors, une page de magazine en haute définition correspond, en informatique, à un ordre de grandeur supérieur au Md d'octets (1 Go) (record détenu par des ouvrages d'art, des magazines de luxe). Même avec une définition plus raisonnable, ces documents occupent encore quelques dizaines de Mo. Une diapositive représente 23 Mo d'information. La compression s'impose...
(remarque : le stockage en niveau de gris exige déjà un traitement sur 8 bits)
- p.m. la vidéo est un flot de 24 images par seconde... Certes, ces images sont de faible résolution, mais le débit devient vraiment impressionnant (minimum, en format TV actuel, 10 à 20 Mo à traiter par seconde)
Aujourd'hui, la compression JPEG pour l'image fixe (principalement) et MPEG pour la vidéo permettent de comprimer ces objets dans des rapports variables mais pouvant sans dégradation importante dépasser 30 pour l'image fixe, 150 pour la vidéo.

2.2.1.2 Mise en page et présentation

En fonction des usages des documents, il sera plus ou moins important de conserver très exactement la mise en page et la présentation du document.
C'est une possibilité importante des nouveaux outils que de pouvoir proposer des documents interprétables - c'est à dire pas en format image et donc interrogeables par le contenu - tout en préservant l'apparence initiale.
La préservation de l'apparence est intéressante pour les utilisateurs, familiarisés avec la forme papier, et elle garantit que toutes les informations placées par les auteurs/éditeurs primaires ont bien été conservées. En effet, la présentation n'est pas qu'esthétique, elle véhicule du sens.
En outre, le fait de conserver la mise en page permet de mieux garantir l'intégrité des documents et rend plus difficiles des altérations.
Enfin, dans certains cas, le document lui-même fait référence explicite à la mise en page, essentiellement en prenant en compte la pagination. Si les renvois, les notes etc. sont référencés par numéros de page, il faudra les convertir en références de paragraphes si le document est présenté sous un format différent.
Polices On ne se méfiera jamais assez des problèmes de polices de caractères. Leur nombre est impressionnant, et en outre des polices de même nom peuvent être différentes, sur le papier mais aussi et surtout dans les différents systèmes informatiques. Or, changer de police va modifier en général la chasse (largeur) des caractères et donc détruire la mise en page. Par ailleurs, certaines polices sont en fait des ensembles de symboles. Elles sont employées pour les jeux de caractères étrangers (cyrillique, grec), pour les mathématiques ou la physique, mais aussi pour des textes courants, avec en particulier les symboles utilisés dans des listes. Ainsi, le transfert de certains documents fait apparaître des "n" là où l'auteur avait placé un petit carré. Il est donc recommandé de n'utiliser dans la mesure du possible que les polices les plus largement utilisées, mais ce ne sera pas toujours possible. Pour les documents scientifiques, comportant des mots étrangers etc., des précautions particulières doivent être prises.

2.2.1.3 Interactivité

C'est encore l'usage des documents et des informations qui conduit à proposer des documents permettant une certaine interactivité à l'utilisateur. Cependant, ici encore, il faut tenir compte des évolutions et des exigences croissantes.
Le cas le plus fréquent est celui des tableaux et graphiques, et moins souvent celui des formules. Il est en général souhaitable que les tableaux - et dans une moindre mesure les graphiques - puissent être récupérés par les utilisateurs dans leurs propres logiciels. Pour les formules, les devis, les documents de réglementation technique, une caractéristique intéressante pour l'utilisateur est de pouvoir placer ses propres paramètres pour calculer un taux, une taxe etc.
De telles applications peuvent être réalisées avec divers systèmes logiciels (cf. le paragraphe consacré à ces documents)

2.2.1.4 Documents dynamiques

Ce sont les documents constitués à la volée par les serveurs, en réponse à une requête. L'exemple premier est constitué par les pages HTML de réponse des moteurs de recherche.
Ces documents vont souvent être des présentations de résultats de banques de données, des extractions d'annuaires, de catalogues etc.
Le document dynamique pourra aussi être la combinaison par le serveur de plusieurs documents présents dans la base, par exemple l'association entre des cartes et des valeurs d'enquête par zones géographiques.

2.2.2. Les formats propriétaires, les formats des logiciels du marché

Il est tentant et relativement facile de conserver dans la base des formats standards de marché. La grande simplification de celui-ci, actuellement, et la domination de Microsoft sur les grands logiciels bureautiques, sur PC et Macintosh, conduisent à privilégier Word et Excel (et bientôt aussi Power Point pour stocker des présentations, conférences etc.). En outre, les utilisateurs peuvent très généralement récupérer ces fichiers directement dans leurs propres applications.
Cependant, ce choix présente des risques et des difficultés. En effet, ces logiciels mêlent les notions de structure et de mise en page et sont à la fois trop puissants et insuffisamment contrôlés. Surtout, l'évolution des versions, la diversité des polices de caractère conduisent à des incompatibilités partielles ou totales - impossibilité de transférer un schéma, perte d'en-têtes etc. Le changement des polices détruit la mise en page, et celle-ci, en outre, n'est pas stable d'une machine à l'autre. De toutes façons, dans les traitements de texte, la pagination, par exemple, n'est pas mémorisée mais effectuée à chaque affichage ou impression et ne sera donc pas stable, tout en paraissant un repère sûr.
En fait, ces formats ne distinguent pas vraiment les différents niveaux que sont les informations, les types de structures et d'objets dans le texte, les règles typographiques et les corrections typographiques, et leurs fichiers ne sont pas interprétables par des logiciels de traitement. Ces fichiers ne sont en effet pas aisément manipulables.
Pour parer à certaines de ces difficultés et assurer en particulier la cohérence des fichiers Word des différentes versions, Microsoft a introduit un format pivot, Rich Text File (RTF). De très nombreux logiciels peuvent sauver un texte en format RTF. Malgré tout, des problèmes continuent de se poser, par exemple à l'occasion des transferts de documents par messagerie. En outre, de nouveaux systèmes apparaissent pour accéder à l'information (petites machines portables, nouveaux ordinateurs sous Ws CE, machines sous Linux etc.).
Dès lors, il paraît que, malgré l'investissement que cela impose, il sera souvent plus raisonnable d'aller vers un format normalisé, ou en tout cas dépendant d'un groupe de standardisation ouvert multi-partenaires (comme c'était le cas pour les groupes déterminant les standards d'Internet, avant que l'ISO ne les reconnaisse comme tierce partie associée pour la normalisation).
Souvent, lorsque cela sera possible économiquement, plusieurs formats seront proposés (RTF, HTML, PDF). Il n'est cependant pas possible de proposer plusieurs solutions pour des bases importantes. Pour de telles bases, la pérennité est essentielle, et il est prudent d'envisager la conversion vers un format normalisé.
Le problème est le même dans d'autres domaines, comme par exemple celui des plans. Ici, le rôle de société dominante est tenu par Autodesk avec le format DXF pour la CAO. Il est difficile de ne pas s'y conformer, ici aussi, mais il est bon de se regrouper autour d'adaptations au moins standardisées en France (cf. les travaux de Media Construct par exemple pour les plans du bâtiment).

2.2.3. Les formats structurés

Autour de la norme SGML, norme ISO, toute une famille de formats se développe, qui garantit beaucoup mieux la pérennité et la maniabilité des fichiers.

2.2.3.1 SGML

[Standard Generalized Markup Language : Langage normalisé de balisage généralisé]
La caractéristique de SGML est de séparer rigoureusement le texte de l'information de structure, et de considérer celle-ci indépendamment de la présentation.

SGML est une syntaxe. Un document au format SGML est en fait un document ASCII où les différents objets isolables dans le texte sont repérés par des balises (du type <Titre> N..............</Titre>). La définition des balises et des règles de leur fonctionnement fait l'objet d'un véritable programme, la Définition type de document (DTD). Elle contrôle que les règles d'organisation du document sont respectées - ordre des balises, emboîtement des différents objets etc. Les DTD sont définies pour des classes de documents - dictionnaires, rapports de recherche, documentation technique d'avions etc. SGML permet de définir des objets particuliers précis, comme une citation, une adresse, une énumération de composants dans un ensemble etc.
Ainsi, dans le cas où l'auteur travaille directement avec un éditeur SGML (ces traitements de texte existent mais sont réservés actuellement au monde de la documentation technique), il ne se pose surtout pas de questions sur la typographie (mettre ceci en italique parce que c'est important, mettre ceci en encart etc.) mais il définit strictement des objets et des relations (dans ce cas l'objet "important" inclus dans un objet "paragraphe" et l'objet "encart avec exemple" et il ne peut qu'utiliser les objets qu'il définit de manière générale. L'objet peut parfaitement être défini par un contenu sémantique (par ex : nom de personne, adresse, théorème etc. peuvent être des objets, que les logiciels manipulant les fichiers SGML reconnaîtront et traiteront en conséquence, en fonction des informations fournies par la DTD et par les utilisateurs).
Le document SGML ne contient pas d'information de mise en page. Ce sont les logiciels d'affichage qui vont réaliser celle-ci en interprétant les balises et en fonction des règles qui leur seront communiquées. Une base SGML est donc a priori capable de fournir des documents pour utilisation en télématique, sur CD ou pour des éditions très sophistiquées sur papier. Les logiciels se chargent d'afficher avec les polices et les positions correspondantes les différents objets du texte, du titre aux notes, en fonction des possibilités des systèmes de restitution.

Ainsi, SGML est très intéressant, pour une base de documents, si une structure stable peut être identifiée sur un sous-ensemble suffisant de documents et, de préférence sur l'ensemble. La pérennité est alors garantie, SGML étant une norme ISO destinée précisément à ce que les documentations aient une durée de vie sans commune mesure avec celle des matériels et logiciels informatiques. Un fichier SGML, à la différence des fichiers de traitement de texte, ne contient que des caractères ASCII imprimables et il peut donc être exploité par un simple éditeur de texte, dans le pire des cas. En outre, SGML est donc évidemment totalement indépendant de tout système d'exploitation.
SGML impose une discipline, mais en même temps il permet un contrôle d'erreurs et il garantit une meilleure qualité des documents - à condition que ceux-ci aient à l'origine une certaine rigueur d'organisation. S'il manque une définition en face d'un item qui doit en avoir une, le "parser" (programme de vérification) s'en apercevra et l'indiquera.
La finesse d'information sur les éléments du texte permet par ailleurs d'obtenir une mise en page très précise de ces différents éléments.
Enfin, un autre avantage de la gestion de documents en SGML est qu'elle permet des recherches documentaires beaucoup plus puissantes. Il devient en effet très facile de demander une recherche dans un type d'objet particulier (par ex un titre de chapitre) ou encore d'exclure des objets - par exemple demander une recherche sur une personne dans le texte, mais pas dans les notes ou dans la bibliographie. SGML permet d'ajouter beaucoup d'informations sous forme de méta-données complémentaires, dans les balises.
SGML n'est capable de gérer que des éléments de texte. Cependant, il peut organiser, dans certaines limites, les autres types de documents, en plaçant une balise dans le texte pour indiquer le renvoi vers un autre format, par exemple une image. Des développements plus puissants sont en cours de ce point de vue (norme Hytime pour les documents multimédia mêlant plusieurs structures et liés en outre à une échelle temporelle).
La réalisation de documents SGML oblige soit à utiliser dès le départ des éditeurs spéciaux, soit à convertir des documents, en général d'origine traitement de texte, à partir d'outils permettant une conversion largement automatique. Il faudra souvent disposer d'un outil permettant d'écrire ou de modifier des DTD et d'un vérificateur (parser). Il faut noter que la conversion du traitement de texte vers SGML sera d'autant plus aisée que les auteurs auront respecté une feuille de style et n'auront pas "forcé" des variations, ce qui est toujours possible dans un traitement de texte, et malheureusement fréquent.
(cf. "numérisation").
Pour réaliser une base de documents SGML, il faut de toutes façons s'adresser à des sociétés ou experts spécialisés - l'ampleur de la tâche dépendant de la complexité des documents, de l'existence de DTD pour le domaine considéré, etc.
L'important est ici le travail d'analyse, pour lequel ces professionnels devront coopérer étroitement avec les responsables du projet. Analyser un document pour identifier tous les éléments pertinents de structure n'est pas une tâche informatique mais un travail d'organisation qui exige de bien connaître le domaine, les sources, la nature exacte des documents, les éléments stables et les éléments contingents. Cet investissement intellectuel est nécessaire pour assurer la pérennité de la base.
Par ailleurs, si le document est complexe, contenant notamment des images, des schémas etc., un travail supplémentaire sera requis pour créer des fichiers complémentaires vers lequel pointeront des balises spéciales.
L'utilisation d'une base de documents SGML suppose de reconvertir les documents dans un format affichable et lisible par les utilisateurs. Si ceux-ci sont dans des entreprises disposant de moyens techniques importants, dans un domaine spécialisé, ils pourront disposer d'un logiciel de lecture et d'affichage, en plug-in du browser notamment. En dehors donc de domaines limités, SGML est un outil de gestion de documents, pas de diffusion. Il suppose toujours un logiciel qui interprète les balises et produise un document affichable, qui peut être en HTML, PDF (cf. infra), RTF etc. L'avantage est que plusieurs utilisations et plusieurs afficheurs sont possibles, pour différents supports et types de machines. L'autre avantage, de ce point de vue, est l'indifférence entre PC, Mac et UNIX (et éventuellement autres).

2.2.3.2 HTML

[Hypertext Markup Langage : Langage de balisage hypertexte]
Le langage du World Wide Web est une DTD particulière de SGML. Contrairement à l'esprit même de SGML, HTML donne quelques indications de structure, mais aussi des indications de présentation. C'est cependant tout à fait autorisé : la balise précédant un bloc de texte pouvant donner une indication de présentation au lieu d'une information sur la structure logique. C'est ainsi que des balises vont indiquer les caractères en gras ou italique, au lieu d'indiquer le type d'objet et de laisser un autre programme déterminer s'il doivent être en gras ou en italique.
Ici, c'est le browser qui connaît la DTD, laquelle est particulièrement simple, et vise avant tout à permettre au browser d'interpréter les balises représentant les différents objets pour réaliser la mise en page.
Cependant, HTML fait une place évidemment toute particulière aux liens hypertexte.
Enfin, il contient quelques très maigres informations sur le document en tête, sous forme de balises spéciales (balises meta), le texte qu'elles repèrent n'apparaissant pas dans la page.
Déjà pauvre pour l'utilisation dans des pages Web, HTML est vraiment insuffisant pour structurer des documents, puisqu'il ne distingue que des niveaux simples de titres, paragraphes etc. Aucun objet spécial ne peut être décrit sans sortir de la DTD.
En revanche, HTML peut être utilisé pour ce qu'il sait faire, l'affichage. Au sortir de toute base de données interrogée aujourd'hui sur le Web, ce sont en général, en fait, des pages HTML qui sont générées pour présentation.
Ce sera vrai pour une base SGML, et particulièrement facile. Il est possible d'écrire très simplement un traducteur qui produise des pages - l'information de sortie étant beaucoup moins riche que celle d'entrée.
Pour d'autres types de documents, des convertisseurs sont proposés, souvent gratuits. Il faut cependant vérifier leur qualité.
S'il s'agit de présenter des documents d'origine traitement de texte en HTML pour visualisation immédiate par le visiteur, la tâche est relativement lourde si l'on veut obtenir une présentation réellement utilisable. Il faut fragmenter le document en pages, vérifier la conversion des images et des schémas etc. Le travail est plus délicat encore pour des documents d'origine éditique (PAO) et sera très vite impossible, ces documents relevant plutôt de PDF (cf. infra) s'ils mêlent des colonnes et des cadres dans les pages. Il faut sinon décider de les ramener à une forme plus séquentielle avant de procéder à la conversion.
Enfin, jusqu'ici, le browser contrôlait seul la mise en page, et non le site éditeur. Les "Cascading Style Sheet" permettent au serveur d'indiquer des règles au browser.
Dans les conditions actuelles, et même en général dans l'avenir, HTML est bien un outil de présentation, et il a permis le transfert d'informations à toutes sortes de systèmes différents dans une forme très utilisable. Néanmoins, c'est un outil relativement pauvre, et surtout il ne permet pas une très bonne qualité d'impression.
Or, l'impression reste, il faut le rappeler, la destination ultime de la plupart des documents déchargés, et elle doit en tout cas être toujours facilitée.

2.2.3.3 XML

[Extended Markup Language : Langage de balisage étendu]
Une nouvelle évolution de SGML, XML, est maintenant à l'ordre du jour.
XML ne vise pas la présentation mais place des balises, comme SGML, qui vont fournir des indications de structure et de sémantique, interprétables par les browsers et applications capables de lire le langage.
Deux principes de base ont présidé à la définition de XML dans le Web Consortium (W3C). Le premier est la simplicité : moins simple qu'HTMl, XML l'est beaucoup plus que SGML. En fait, XML est une version simplifiée de SGML. Le second principe était de différencier et mieux gérer les liens hypertexte dans les documents, ce qui a été fait en définissant un fichier, externe au document, et contenant les liens, avec simplement des balises de renvoi dans le texte. Ce fichier est écrit dans une autre variante de SGML/XML, XLL (Link, pour lien). Il permet des liens conditionnels, contextuels. Il permet d'indiquer le type du lien (vers une référence de même type, vers une définition, vers l'extérieur etc.).
En général, XML utilise une DTD comme tout sous-ensemble de SGML, mais ce n'est pas indispensable. Dans le cas contraire, les balises devront être autosuffisantes et cohérentes.
Un autre fichier externe est associé aux documents XML, celui de la présentation (ce fichier est en XSL - Extensible Style Language).
XML va donc permettre, comme SGML, de révéler la structure du document et, suivant une tendance forte de SGML, d'en révéler aussi le sens aux outils automatiques. Les balises vont être de plus en plus précises, et un logiciel comprenant XML saura trouver, dans un document médical, le diagnostic principal ou la description d'un protocole, dans un brevet les revendications etc.
La tâche est alors de définir des ensembles de balises et de règles pour les différents domaines, et de très nombreux groupes de travail se sont mis en place. Ils vont pouvoir standardiser la structure d'un document chimique comme d'un type de contrat. XML permet également d'indiquer quelles zones du document contiennent une donnée qui peut être mise à jour depuis une base de données (au lieu de recharger toute une page). XML permet donc de tenir à jour les documents, de les intégrer directement dans des bases d’information, textuelles, numériques etc. (par exemple : compte-rendu normalisé d’expériences, brevets, dossier médical etc.).
XML est très vraisemblablement la voie d'avenir pour les documents. En dehors de domaines particulièrement exigeants comme la documentation technique des avions ou des armements, XML peut remplacer SGML.
Il devra donc être pris en considération avec beaucoup d'attention dès qu'il sera stabilisé et normalisé. XML n'est en effet une recommandation du Web Consortium que depuis le début de 1998. Il est déjà intégré dans les browsers de génération récente (Navigator ou Explorer 4.X) et devrait rapidement se diffuser.
De nombreux usages sont à envisager, et à ne pas confondre
La richesse et la flexibilité d'XML - et toute l'expérience acquise depuis bientôt 20 ans en SGML - permettent de nombreux usages, qu'il faut distinguer. Cette adaptabilité peut en effet être source de confusion.
Structuration des données et documents
XML, comme SGML, est un langage de définition de structure. Il peut donc être utilisé comme outil pour organiser des bases de données, ce qui est déjà largement le cas en documentation technique. Ce type d'application ne se diffusera que progressivement et à moyen terme, parce qu'il faut travailler sur les documents.
Méta-données
XML peut être utilisé pour créer des fiches attachées à des documents. Ainsi, sur le Web, de nombreux documents vont recevoir une étiquette structurée en XML. En effet, il est beaucoup plus facile de rattacher ce genre de fiche que de changer les documents. C'est avec des informations ainsi structurées et reconnues par les browsers que les sites peuvent recevoir des notations permettant par exemple de les déconseiller aux enfants. Des normes sont en cours de constitution (Resource Description Format - RDF - cf. "méta-données). Ici aussi, XML permet d'être très flexible et d'avoir une même DTD permettant de transmettre des fiches diverses (repérage bibliographique, évaluation scientifique, texte réglementaire etc.).
Moyen de transport et mise à jour de l'information
Mieux que HTML, XML permet de transférer l'information et les documents vers des browsers et donc vers un grand nombre d'utilisateurs. XML peut représenter un format pivot important, comme il peut permettre de suivre la mise à jour de parties de documents ou de données, une balise indiquant au browser les zones susceptibles de changer et indiquant au serveur les parties à retransmettre.
Mécanisme pour déclencher et organiser des actions
C'est par des balises spécialisées XML que sont définis les transferts automatiques d'information des systèmes "push" (Channel Definition Format)
La réalisation de documents XML s'apparente évidemment de très près à la réalisation de documents SGML. L'intervention de professionnels, dans l'administration ou extérieurs, est nécessaire. La caractéristique de XML étant d'être dès le départ prévu pour la communication, avec une recherche de simplicité, les DTD seront souvent communes à des groupes d'intérêt et des domaines.
Il est donc très important de chercher, pour un domaine donné, si des travaux sont en cours. Sinon, il sera souvent très profitable de se rapprocher d'autres acteurs manipulant le même type de données pour définir en commun des DTD et des référentiels. Sachant qu'une base XML sera accédée par des personnes ou des entreprises d'un domaine donné, cette préoccupation accompagne l'analyse des besoins et des cibles potentielles. Dans tout domaine, qu'il s'agisse de l'agriculture, de l'aménagement de l'espace, des affaires sociales, des marchés de travaux etc., l'emploi d'une même DTD facilitera énormément la communication.
Les outils techniques sont en général proposés par les sociétés du domaine SGML, et il est d'ailleurs préférable de s'adresser à ces sociétés, qui ont une forte expérience dans le domaine de la structuration.
L'utilisation, enfin, est, il faut le rappeler, très différente de celle de SGML, parce qu'il est prévu que tous les systèmes récepteurs potentiels soient dotés de capacités d'interprétation et d'affichage de documents XML. La simplicité du langage permet d'intégrer l'interpréteur dans les browsers et dans divers logiciels. XML permet donc la réalisation de systèmes entièrement automatisés et sans rupture de format. Il est même vraisemblable que des traitements de texte vont se développer qui auront XML comme format natif (c'est en tout cas ce que Microsoft a esquissé comme possibilité pour de futures versions de Word).

2.2.4. Le format PDF et la conservation de l'apparence

[Portable document format]
PDF a actuellement beaucoup de succès sur le Web et même pour gérer de grandes bases de documents (par exemple le projet Gallica de la Bibliothèque nationale de France).
PDF part d'un principe relativement simple, mais difficile à mettre en oeuvre : pouvoir visualiser partout les documents avec une même apparence, de même que tous les systèmes sont capables d'imprimer des fichiers produits par de multiples logiciels mais tous décrits, pour le résultat imprimé, dans le langage PostScript. PDF est une variante de ce langage, proposée par Adobe. C'est donc un langage propriétaire, sous le contrôle d'une seule société - même si des normalisations sont vraisemblables à terme. Cependant, l'inconvénient est moindre que pour des formats liés à un logiciel : PDF est par nature protégé contre des évolutions compromettant la compatibilité ascendante (avec les versions précédentes) puisque son objectif même est d'être trans-systèmes. Des normalisations sont sans doute à espérer à moyen terme.
Malgré sa richesse typographique, PDF est beaucoup plus compact que PostScript, tout en restant plus de trois fois plus volumineux que le fichier ASCII correspondant - c'est donc encore un format relativement encombrant sur les réseaux.
L'avantage de PDF est qu'il conserve strictement l'apparence du document papier - et il est donc très lié à une diffusion papier. Il est de ce fait incontournable dans la presse, car en outre il véhicule évidemment l'information de mise en page, particulièrement difficile à gérer dans les formats structurés. PDF va véhiculer des pages contenant des textes et des images.
L'autre avantage est qu'il conserve l'apparence même si la machine réceptrice n'a pas, par exemple, les bonnes polices de caractères. Il règle la plupart des problèmes des textes scientifiques ou ceux des caractères étrangers. En outre, il conserve la sémantique, car il ne s'agit pas d'une image mais d'un fichier vectoriel. Il est donc possible de récupérer le texte, de faire des recherches avec des moteurs documentaires. Cependant, ceci n'est pas vrai, évidemment, pour des textes qui seraient en format image, ce qui est possible puisque PDF peut mêler tous les types de formats dans une page.
En revanche, PDF ne véhicule pas l'information sur la structure, non plus que des balises désignant les objets textuels. Il se contente de quelques maigres méta-informations en début de document.
Ainsi, PDF est avant tout fait pour transférer des documents que l'utilisateur ne pourra manipuler, même s'il peut en extraire une citation (qui perd alors sa mise en page). L'utilisateur peut cependant ajouter des notes, qui apparaissent dans des fenêtres spéciales. Il peut également imprimer le document en l'état. PDF est donc, dans son principe, très intéressant pour l'éditeur et pour le service administratif qui souhaite protéger l'intégrité d'un document et éviter les manipulations et altérations, la page se conservant telle qu'elle apparaissait imprimée. Il est aussi très adapté si des informations liées à la mise en page, comme une pagination, doivent être conservées.
Il apparaît ainsi que PDF est un bon outil de régénération d'une information papier mais un outil médiocre pour archiver des documents que le service administratif souhaiterait lui-même corriger ou manipuler dans l'avenir. Pour ce qui concerne la transmission, PDF s'avère aussi relativement lourd, ce qui est un handicap dans un réseau qui, même en croissance rapide, demeure et demeurera sujet à de gros embouteillages. Des optimisations sont possibles mais elles exigent analyse et investissement. Quoi qu'il en soit, PDF est actuellement devenu un standard incontournable du marché dès qu'il s'agit de transmettre des pages reproduisant des documents papier existants et qu'on ne souhaite pas voir modifier mais pour lesquelles il demeure possible d'effectuer des recherches sur le texte.
La production de documents PDF est simple, l'opération se substituant à l'ordre d'impression, ou le complétant. Elle exige de disposer des logiciels de création d'Adobe - création directe avec Acrobat Writer ou conversion depuis PostScript avec Acrobat Distiller. La création à partir de fichiers image numérisés est possible avec Acrobat Capture (cf. "Numérisation"). L'utilisation d'Acrobat Exchange permet enfin d'ajouter des liens, d'annoter les fichiers, d'optimiser les fichiers etc.
L'utilisation est également très simple, puisque l'outil de lecture, Acrobat, est déchargeable gratuitement et pratiquement livré sur CD avec tous les browsers du marché.

2.2.5. Les formats "image"

Deux types principaux de formats sont à considérer : ceux portant sur l'image photographique et ceux concernant le texte numérisé, télécopié etc.
Ici encore, il faut distinguer la production, le stockage et la diffusion.
En production, les scanners fournissent des fichiers au format TIFF (Tagged Image File Format - Format de fichier d'images balisé), qu'il s'agisse de texte ou d'image noir/blanc, niveau de gris ou couleur. Ce format, très volumineux, peut être utilisé en stockage pour le texte numérisé mais devient franchement ingérable sur des masses importantes d'images photographiques. Ce format ouvert représente pratiquement une norme.
Le stockage va donc exiger une compression, non seulement pour économiser des espaces mais pour permettre un accès et une manipulation plus rapide. Les images volumineuses encombrent aussi bien les bus des micro-ordinateurs que les réseaux internes et externes.
Pour le texte, la compression qui sera appliquée sera souvent celle de la télécopie Groupe IV.
Pour l'image photographique, la norme actuelle est JPEG (Joint Picture Expert Group). Ce format entraînant une perte d'information, ce sera au gestionnaire d'arbitrer entre l'encombrement et la perte de qualité, en choisissant un taux de compression, lequel peut raisonnablement atteindre 30. Une photographie de 2 Mo - taille raisonnable - se trouvera ainsi réduite à 66 Ko.
Cependant, pour certaines applications, il sera demandé que la compression soit garantie sans perte. Il faut prendre garde à ce type d'exigence. En tout état de cause, le point de départ est par exemple une photographie, qui n'est qu'une représentation de la réalité et qui a introduit elle-même de nombreux artefacts. Dès lors, il faut savoir si la compression représente une perte réelle par rapport à l'information recherchée. Le mot de perte inquiète souvent de façon injustifiée des utilisateurs ou responsables non prévenus.
Quoi qu'il en soit, si une telle demande est raisonnable, il faut en revenir à des outils de compression "sans perte" qui sont les outils de compression de fichiers de l'informatique. La réduction de taille est alors bien moindre (quelques dizaines de %).
D'autres techniques existent, à part JPEG, et notamment les compressions par ondelettes ou par fractales. Cette dernière technique est très puissante mais fortement dissymétrique : le temps de compression est beaucoup plus long que le temps de décompression. La compression va donc exiger de très fortes puissances, tandis que la décompression sera très aisée. Les fractales permettent d'obtenir des taux voisins de 100 sans dégradation très sensible. Elles pourront par exemple être très utiles pour des éditions de CD-ROM.
De multiples variantes existent pour ces différentes techniques - par exemple en JPEG, le format pyramidal, qui permet de stocker plusieurs niveaux de définition, de la petite imagette à consulter jusqu'à la plus haute définition pour impression. Ici encore, l'expertise de spécialistes est nécessaire, pour tenir compte de la qualité du fonds documentaire et des usages envisagés.
Les usages vont déterminer les choix, avec des options claires pour les images (les textes ne posent pratiquement pas ce type de problèmes).
- Simple consultation d'un fonds, pour savoir qu'une image existe, qui peut par exemple être commandée sur support film : dans ce cas, une imagette suffit (ordre de grandeur 2K).
- Visualisation sur écran d'ordinateur, évaluation de l'image avant achat : dans ce cas, une compression élevée est possible (ordre de grandeur des images 100 K).
- Diffusion d'une image pouvant être imprimée sur imprimante ; cela signifie une bonne qualité à 300 points par pouce, ce qui permet encore une compression forte, en fonction de la qualité de la numérisation.
- Diffusion d'une image pour impression photocomposeuse (magazines, ouvrages) : choix lourd, qui impose de disposer d'une image peu comprimée et ayant une haute définition (1200 points par pouce) - ordre de grandeur 1 à 2 Mo.
Cependant, il faut toujours, dans l'incertitude, choisir une définition de stockage élevée, car il est toujours possible de comprimer pour transmettre, pas de retrouver, pour un nouvel usage, des informations perdues.
Remarque : aucune des techniques spécifiques de l'image photographique n'est adaptée à l'image d'un texte ou d'un schéma, qui sont, à taux de compression égal, de mauvaise qualité. Il faut se rappeler que l'image photographique n'exige pas une forte définition au niveau des traits mais une très bonne définition des couleurs, l'inverse étant vrai pour textes et schémas.
La diffusion des images peut s'effectuer avec une compression supérieure à celle du stockage, et avec des techniques spécifiques - notamment pour le CD et le Web.
Sur le Web, un format à tout faire est GIF. Il permet de transmettre aussi bien des textes et schémas que des photos mais il offre moins de possibilités et une moins bonne qualité que JPEG. La compression et la décompression GIF sont très rapides et simples, et seront utilisées pour les illustrations des pages comme pour de petites images. La principale limite est que GIF ne code les images que sur un octet, en 256 couleurs.
Une très importante différence entre GIF et JPEG provient des algorithmes de compression (sans perte pour GIF) qui interdisent en pratique d'utiliser JPEG pour les images contenant des textes et des schémas à échelle moyenne (sauf très gros caractères) - GIF s'impose alors.
De nouveaux formats graphiques vont apparaître sur le Web, pour étendre les possibilités tout en respectant une normalisation. Ces formats sont en discussion au Web Consortium.
Le premier concerne les images en mode point (bit-map), pour éventuellement succéder à GIF, c'est Portable Network Graphic (PNG).
Le second concerne le transport des graphiques vectoriels (cf. infra "Schémas..").
Spécialement pour la transmission des images photographiques, un format important est en voie de devenir un standard : c'est FlashPix. Il s'agit d'un mode d'organisation et de transport, qui peut supporter, comme format de base, JPEG, mais aussi d'autres compressions. Il s'agit bien d'une méthode de transport.

FlashPix permet de choisir la résolution de l'image en fonction de l'utilisation, de l'imagette à l'image haute résolution. FlashPix est basé sur un format (d'origine française) de la société Live Picture, destiné au traitement des images. Ce format a été adapté à la transmission pour donner FlashPix, développé conjointement par Kodak, Microsoft, Hewlett-Packard et Live Picture. Il supporte la compression JPEG et les liens OLE (communication entre logiciels du monde Microsoft). Il est accompagné d'un protocole de transport appelé Internet Imaging Protocol, développé par HP, Kodak et Live Picture.
L'intérêt est que l'image est stockée en haute résolution mais transmise en fonction des besoins. Même, des manipulations peuvent être demandées sur une image moyenne résolution et appliquées à l'image de haut de gamme.

L'association des images et du texte dans des pages numérisées ou des logiciels de PAO pose des problèmes au moment du stockage comme pour la restitution. Certains formats, comme PDF ou bien sûr RTF ou le scanning en TIFF, vont maintenir tous les éléments à l'intérieur de la page. L'autre méthode consiste à séparer les deux types de fichiers, en plaçant des liens. Elle présente à terme plus de souplesse, comme chaque fois que les différents éléments sont séparés, peuvent être traités et gérés indépendamment. Les arbitrages se feront en fonction du niveau de définition et des usages recherchés.
Les formats multimédia ne sont pas abordés ici. Il est possible de rappeler que, pour l'image vidéo, MPEG, de même origine que JPEG, est une norme largement acceptée, avec divers niveaux de qualité et de compression - MPEG1 pour la vidéo de moyenne qualité, MPEG2 pour la télévision, MPEG4 pour la basse définition. Les images animées sur le Web sont du GIF animé ou du FlashPix (format de la société Macromedia). Les fichiers son de faible qualité sont souvent en RealAudio (autre format propriétaire, de la société RealNetworks) tandis que les fichiers de qualité CD sont au format MP3, qui est le format son de MPEG.

2.2.6. Les documents interactifs

(cf. "Interactivité" in 2.1 - L'état et la vie des documents)
C'est du point de vue de l'utilisateur que le document est interactif ou dynamique.
Il s'agira d'abord de documents générés dynamiquement et contenant des données, textes ou chiffres, produits à la volée à partir de bases de données.
L'utilisation de XML permettra de mémoriser de nombreux formats de pages en indiquant, à l'intérieur d'un texte, les valeurs qui doivent être recherchées périodiquement sur le serveur, ou remplies à l'occasion de chaque requête. Ces valeurs sont précédées par une balise indiquant que la donnée doit être mise à jour, donnant le nom de cette donnée. Le logiciel de production de page dynamique effectue une requête vers la base de données (cf. "Architecture d'ensemble d'un système de fourniture de documents). Ce type de fonctionnement permet des applications très puissantes : ainsi, un rapport d'activité, un tableau de bord, la description d'une zone peuvent être produits automatiquement avec les données à jour (et de là des tableaux, des graphiques, des dates à jour), tout en conservant une présentation riche, grâce aux règles de mise en page transmises par le fichier XSL (cf. "XML").
Ces applications ne sont pas encore opérationnelles sur une large échelle au début de 1999 mais devraient l'être dès la fin de cette année, à la vitesse de développement qui est celle des technologies du Web.
Pour transmettre des tableaux et graphiques récupérables par l'utilisateur dans ses propres applications, il est nécessaire de transmettre un format de tableau qui ne soit pas celui de HTML.
Une première solution, la plus fréquente, va être de faire confiance au standard de marché qui est celui d'Excel. C'est souvent une solution acceptable actuellement, qui présente les inconvénients déjà signalés de l'utilisation d'un format propriétaire et dont les évolutions provoquent souvent des incompatibilités.
Lorsque les tableaux sont plus lourds et plus complexes, des logiciels plus puissants seront utilisés. Dans ce cas, l'utilisateur, par définition un professionnel, devra se procurer le logiciel de lecture ou un outil de récupération. Ainsi, l'INSEE, comme les autres offices statistiques, transmet les tableaux au travers du Web en utilisant le format du tableur Beyond 20/20.
La pleine interactivité de documents peut être obtenue avec l'utilisation d'appliquettes Java ou d'appels d'objets ActiveX. De telles appliquettes peuvent d'ailleurs être utilisées pour rendre actif un tableau, sans avoir besoin d'appeler Excel ou un autre logiciel important. Ces outils seront surtout utiles pour la diffusion d'information numérique, de documents techniques etc., pour lesquels un outil d'affichage et d'exploitation par les utilisateurs pourrait être conçu.
Remarque . Java semble bien devoir être le moyen d'adjoindre des applications aux documents, sur le moyen terme, mais les évolutions exactes , et notamment la normalisation, sont encore incertaines. L'avantage est l'indépendance par rapport au système de la machine réceptrice, effective dans beaucoup de cas.

2.2.7. Les plans, les schémas, les cartes

La transmission de graphismes vectoriels et associés à une information de structure pose des problèmes similaires.
Parmi ces objets, la carte est sans doute celui qui est le plus complexe, et qui est très utilisé sur le Web. En effet, une carte comprend des fonds de carte qui sont des images, des objets graphiques, des textes. Elle est en outre associée à des informations, qui permettent par exemple de faire apparaître des zones, des informations marketing associées etc.
Les cartes sont gérées par des logiciels particuliers, qui sont des Systèmes d'information géographique (SIG). Leur affichage est effectué par un outil spécial qui va produire, en général, une page HTML en associant un certain nombre d'éléments, en fonction des demandes de l'utilisateur (qui veut positionner des hôtels, connaître un trajet ou des indicateurs de consommation, par exemple). Pour aller plus loin, il faut décharger des logiciels de lecture adaptés au logiciel créateur, pour des applications professionnelles.
Compte tenu de l'importance du rôle de l'Etat en matière d'aménagement de l'espace, le suivi des différentes offres en matière de SIG est très important pour de nombreux organismes publics. Une politique d'ensemble doit être suivie, notamment autour des orientations définies par le ministère de l'Equipement , le Conseil national de l'information géographique et l'Institut géographique national, engagé dans un vaste programme de numérisation.
Pour les plans, comme cela a été indiqué ("formats propriétaires"), le format DXF est un standard mais les travaux des différents groupes de normalisation menés en France et dans le monde laissent envisager la convergence d'abord vers des standards adaptés puis vers une norme riche, en cours d'élaboration, qui est STEP (Standard for exchange of product information). Quoi qu'il en soit, DXF sera souvent aujourd'hui une solution acceptable pour tous - dans la limite d'implémentations prédéfinies - et meilleure que la transmission en format image.
En revanche, et en l'absence de normes pour les graphismes, c'est en général en format image GIF que sont transmis les schémas, lorsqu'ils ne sont pas au format interne de Word, ou transportés en DXF. Ils peuvent également être transférés dans les formats spécifiques de Windows ou du Macintosh. La diversité ramène très souvent au format image, pour éviter les incompatibilités, particulièrement fréquentes dans ce domaine. Cependant, une normalisation est en cours au W3C pour le transfert de graphiques en mode vectoriel ("dessine un carré") dans ce que le W3C appelle un format Scalable Vector Graphic (SVG). Deux propositions ont été déposées : Precision Graphics Markup Language (PGML) et Vector Markup Language (VML). Toutes deux font appel au langage XML.

2.2.8. Le choix des formats

Les options sont donc nombreuses.
La règle la plus importante est de ne pas être dépendant d'un système de diffusion. Il suffit de se rappeler tous les choix qui ont été faits dans le passé et qui ont entraîné la création de bases de documents rapidement obsolètes parce que liées à un format propriétaire, ou encore conçues pour la gestion des images sur vidéodisque analogique etc.
Désormais, l'évolution des techniques et la rapidité des changements dans les pratiques sociales ne laissent qu'une issue : concevoir des bases pour le long terme, ce qui signifie respecter des standards, procéder à une analyse en profondeur des fonds disponibles, de leurs usages sociaux et non de leur seul usage technique, de leur composition.
Il est certainement préférable d'entamer un plan de long terme, par tranches budgétairement limitées, que de vouloir réaliser une opération vitrine très visible, en limitant l'analyse et les capacités de la base numérisée pour tenir dans les enveloppes budgétaires.
Un exemple d'un plan de long terme, fondé sur des bases solides, est le programme de numérisation du patrimoine par le ministère de la Culture (cf. "Exemples").
Le choix des formats de diffusion est donc second par rapport au choix des formats de stockage. Les premiers doivent seulement offrir un ensemble de possibilités qui permettent de produire les seconds.
L'analyse du fonds de documents doit permettre d'identifier des ensembles homogènes, pour lesquels les avantages et inconvénients des principaux formats possibles seront confrontés.
Compte tenu des avantages et inconvénients considérés en général - mais il faut prendre garde à tenir compte des spécificités de chaque fonds - la démarche la plus importante est de rechercher s'il existe une structure commune à un grand ensemble de documents et si les données existantes permettent d'appliquer un format structuré pour exploiter et gérer les documents.
NB : la structure peut exister mais il peut être préférable de ne pas l'exploiter. Un exemple extrême : dans le cas d'une base de documents d'archive manuscrits, une structure très stricte peut exister - pour des documents administratifs anciens mais il est clair qu'on ne pourra utiliser que le format image, et que ce sera à tous points de vue préférable.
Par ailleurs (cf. "Numérisation"), il peut être trop coûteux de récupérer la structure, et il peut aussi être impératif de gérer des documents dans un format reproduisant sans possibilité d'altération l'état initial. Chaque cas doit être étudié en fonction des besoins et des contraintes économiques, administratives, juridiques.
En ce qui concerne les formats structurés, il faut aussi tenir compte de l'existence de DTD dans d'autres organismes, qui pourraient être utilisées.
Il faut enfin tenir compte des règles définies par les programmes nationaux éventuels - cas par exemple du programme de numérisation du patrimoine qui définit des règles applicables par les établissements détenant des fonds inscrits au Patrimoine.
Pour les formats de diffusion, les critères sont ceux de l'utilisation : s'agit-il de simple consultation, avec impossibilité d'obtenir les documents en ligne, de déchargement de documents pour visualisation en ligne ou pour impression. L'utilisateur doit il être dans l'impossibilité de réutiliser le document et de le modifier, ou au contraire doit il pouvoir ré-exploiter un maximum d'informations ; faut il privilégier la vitesse d'obtention ou la qualité de restitution etc.
Le choix doit être placé dans une perspective d'ensemble En effet, c'est tout le projet qui doit faire l'objet d'une évaluation, pour l'investissement comme pour les coûts associés.
Ainsi, par exemple, il peut sembler que le choix de stockage en format image est moins coûteux. Il exige cependant, pour des documents textuels, de réaliser des fiches et d'indexer, puisque le format image ne peut être exploité par les logiciels de recherche documentaire.

Rappel des principaux critères
- Fonction de la base : archivage strict, rééditions possibles, fonction documentaire forte
Les formats image et PDF sont bien adaptés à l'archivage, avec une réserve pour la pérennité de PDF, propriétaire. Les formats texte autorisent la recherche sur le texte intégral et les formats structurés permettent recherche et traitements puissants.
- Type d'usage
Si la base se substitue pratiquement aux supports papier, film etc., elle doit en retenir le maximum d'information. Pour les images, cela signifie une forte résolution. Pour les textes, le problème est toujours le choix entre l'information de structure (privilégiée) et l'information de présentation (si elle est fondamentale)
- Pérennité
Les formats pérennes sont les formats normalisés, aujourd'hui SGML, JPEG, GIF etc. Demain sans doute XML
- Intégrité des documents
En diffusion, PDF et l'image sont évidemment préférables si le critère d'intégrité est fondamental. Cependant, les futures potentialités d'XML vont réduire l'écart, et en outre la fidélité par rapport au papier perdra de son importance à moyen terme.
- Facilité de transfert et de manipulation
Les formats image (pour le texte) et même PDF sont lourds et non manipulables aisément.
- Coûts
Ils sont dépendants de multiples facteurs, et il faut tenir compte des coûts d'investissement à la création de la base, des coûts d'exploitation etc. - [cf. "L'analyse économique, in 4. Mise en oeuvre"]

Des solutions mixtes sont souvent recommandées. Il faut de ce point de vue prendre garde à ce que les techniciens ne sont pas toujours rationnels et adoptent des positions de principe quant au choix de tel ou tel format.
Ainsi, pour des documents dans lesquels une structure générale s'accompagne d'éléments non structurés, de textes difficiles à reconnaître, d'images etc., une solution est de retenir une combinaison SGML + PDF. Des objets PDF sont repérés dans le document SGML comme des objets externes et contiennent les éléments dont l'apparence prime sur la structure, ou qui n'ont pu faire l'objet d'une analyse, d'une reconnaissance. [Cette solution est adoptée par exemple par Jouve dans certaines de ses opérations de numérisation].
En règle générale, la diffusion sur le Web, et en particulier l'utilisation d'XML comme mécanisme général d'enveloppe favoriseront souvent ces solutions mixtes. Un autre exemple en est donné par la transmission d'informations médicales en radiologie, où des enveloppes XML permettent de véhiculer des images en format standard (DICOM, format de radiologie) (proposition de la société ETIAM).
Au total, dans toute la mesure du possible, XML est à considérer avec beaucoup d'attention. Les progrès dans cette technique sont impressionnants et tout laisse à penser que le langage sera le pivot des circulations d'information dans les années à venir. Le langage n'est pas complètement stabilisé mais le sera bientôt et la prolifération des outils fera rapidement d'XML une solution majeure.

sommaire haut de page précédent suivant

© Ministère de l'Économie, des Finances et de l'Industrie, 19/05/1999