Quelques situations et développements
Documentation Française
Les premiers services
Historiquement, la Banque d'information publique et d'actualité (BIPA) a commercialisé sur Questel les notices bibliographiques de lensemble des ouvrages que la Documentation Française traitait, que ceux-ci soient dorigine externe (livres, périodiques, discours politiques, rapports administratifs...), ou interne (synthèses darticles, ses propres périodiques sociologiques ou économiques...).
Sont aujourdhui disponibles dans Logos sur Questel quelques 450.000 références, dont 28% sont accessibles en texte intégral (livres de droit, communiqués officiels). Le fonds senrichit de 2000 références administratives par an en moyenne.
Pour le moment, un utilisateur qui trouve sur Questel un document peut relever sa référence microfiche, et demander par e-mail à en obtenir copie par la poste, toujours contre paiement. Les étudiants et autres chercheurs peuvent venir au centre de documentation du quai Voltaire poser leur question aux documentalistes, qui se chargeront dinterroger pour eux Logos ; ce service est payant.
La BIPA travaille actuellement à rendre Logos accessible depuis Télétel et Internet.
Un programme de numérisation et de mise en ligne est engagé pour la médiathèque : numérisation des fonds et possibilité de consulter et de passer commande de la photo (version dégradée en ligne). Un annuaire sélectif des sites Internet privés qui traitent de photo est également proposé.
admiFrance
La DF est un pivot essentiel pour l'ensemble des sites de l'Administration, avec admiFrance. Ce site comprend notamment un annuaire guide des sites administratifs, une base d'information sur les démarches (Vos Droits) et un annuaire de sites publics étrangers. Vos Droits est lié à Legifrance et aux formulaires du CERFA.
Se conformant à un avis de la CNIL, la DF n'a pas établi de liens vers des sites privés, car sa responsabilité est engagée si les sites lient eux-mêmes vers d'autres sites. De même, il n'y a pas de liens vers des partis politiques.
Mission littérature grise
La DF a reçu une mission de centralisation de la littérature grise, par circulaire du Premier ministre du 10 avril 1995. Celle-ci demande aux administrations de remettre systématiquement copie de leurs rapports et publications à la Documentation Française, sauf dans les cas où ils sont confidentiels, au sens de la loi du 17 juillet 1978, afin quils puissent alimenter régulièrement la base Logos. La mise en ligne des rapports en texte intégral sur le Web est donc une extension à cette mission.
La base se trouve à la DF, le service lui-même étant hébergé.
La commercialisation des rapports sur le Web seffectue sans signature de contrat avec ladministration qui en est lauteur. Par comparaison, toute publication sur papier donne lieu à la signature dun contrat dédition, dans lequel lauteur cède ses droits patrimoniaux pour telle et telle forme de diffusion.
Il est prévu quun rapport vendu en ligne par la Documentation Française sera retiré sil vient ultérieurement à être proposé en téléchargement par ladministration qui en est lauteur. Au contraire, si ce même rapport est édité sur papier par la Documentation Française, le contrat dédition stipule que lauteur sinterdit de le diffuser lui-même.
Le fonds est déjà important. A raison dun lot dune trentaine de rapports envoyés en numérisation chez un prestataire extérieur tous les 2 à 3 mois (en rythme de croisière), ce sont aujourdhui 370 rapports qui pourraient se trouver accessibles en ligne sur le site de la Documentation Française (145 rapports officiels, 215 rapports internes), dont 318 en texte intégral. Leur prix dobtention se situera entre 120 et 300 FF, avec une moyenne autour de 150 FF, mais on peut aussi les acquérir par chapitre.
Les documents sont soit gratuits, en format HTML, soit payants, et ils pourront être proposés dans ce cas sous 5 formats.
Le type de numérisation varie avec la qualité du document. Selon leur intérêt ou leur présentation, cest tout ou partie du rapport qui passe la phase de la reconnaissance de caractères ; la BIPA transmet avec chaque lot une notice précisant pour chaque rapport quelles sections doivent être restituées en caractères alphanumériques, en HTML, ou simplement numérisés en image. Ainsi, le corps du rapports peut être transcrit en texte, tandis que ses annexes seront consultables en images, ou bien seul le résumé peut être édité en HTML. Les rapports qui ne dépassent pas une reconnaissance de 95% de leur texte par OCR automatique sont déclassés, cest à dire renvoyés non traités à la BIPA ; les autres sont corrigés par relecture manuelle, pour atteindre 99,98% de texte correct (soit deux coquilles tous les 1000 caractères). Dans le cas où les rapports ont été remis à la Documentation Française sur disquette, le prestataire sassure de leur cohérence, et les homogénéise dans le format souhaité par la BIPA. Tout ce travail est restitué à la BIPA sur CD-Roms.
Ces règles sont un compromis entre coût et efficacité, car, selon la complexité des rapports, le compteur tourne parfois vite. Le prestataire facture son travail sur différents critères, et il est difficile d'évaluer les coûts réels par opération. La reconnaissance de caractères et la remise en forme restent des tâches quelque peu artisanales et coûteuses.
Le mécanisme de paiement a retardé le démarrage du service. L'hébergeur proposait un système de facturation en ligne mais largent du client transitait par le compte bancaire de ce prestataire avant dêtre reversé à la Documentation Française. Or, ce type de montage ne peut exister que dans le cadre dune délégation de service public. La Direction de la Comptabilité Publique sest donc opposée à sa mise en place.
Le service est maintenant hébergé chez un autre prestataire, dont le système de facturation en ligne permet de créditer directement le compte de la Documentation Française.
En ce qui concerne les prix, la BIPA souhaite que chaque administration puisse accéder à ses propres rapports à un tarif préférentiel, mais étudie encore les modalités techniques qui permettent dy parvenir (comment authentifier que tel acheteur appartient bien à ladministration concerné ? Usage dun code promotionnel qui sera vite diffusé ailleurs ? Comment éviter aux administrations lusage de la carte bancaire ?).
La demande potentielle semble forte. Aujourdhui le site de la Documentation Française donne gratuitement accès en ligne à 13 rapports officiels (dont certains avaient déjà été publiés), cette sélection correspondant à une décision politique. Ces quelques rapports ont déjà donné lieu à quelques 9000 téléchargements (ou tentatives). Cette activité tend à montrer que, dans ce cas, la disponibilité gratuite en ligne cannibalise les ventes de lédition papier correspondante.
INPI
L'Institut National de la Propriété Industrielle propose l'accès, gratuitement sur Internet, aux brevets français publiés depuis deux ans, ainsi qu'à des réumés des brevets de l'Office Européen des Brevets, et de brevets internationaux. Le site à été développé avec le concours des sociétés Jouve et Erli.
L'INPI a depuis longtemps travaillé à la numérisation des brevets et les a distribués sur des banques de données et sur des CD-ROM. Cette numérisation est effectuée en tenant compte de la structure connue d'une demande de brevet. L'exploitation des éléments obligatoires et des mots du texte après reconnaissance des caractères permet à un automate informatique de détecter les blocs de texte correspondant à tel ou tel volet de la demande. Le complément, comme les vérifications, est effectué par des opérateurs.
Le mouvement de mise des brevets sur le Web a été amorcé notamment par l'Office américain (US patent and Trademark Office) ainsi que par une société, IBM, qui a décidé de placer sa base en accès libre, "IBM Patent Server". Il en est désormais de même pour les brevets français.
L'accès est gratuit et ne nécessite qu'un navigateur traditionnel. La recherche se fait sur la notice, par interrogation des champs (Titre, Abrégé, Déposant, Inventeur, code de la classification internationale, numéro) mais il est également possible de formuler une requête en langage naturel. Cette requête est guidée. Le système, à partir de la question, aide l'utilisateur à identifier les codes pertinents de la Classification Internationale des Brevets (CIB), adoptée par tous les Offices de la propriété industrielle et dont sont familiers les spécialistes du brevet.
Les résultats affichés sous forme de liste, donnent accès aux notices bibliographiques détaillées. Les brevets français sont visualisables dans leur texte intégral, et comportent un schéma explicatif.
L'INPI dispose donc maintenant d'une offre diversifiée, et un équilibre sera trouvé avec les bases traditionnelles, dont le Web ne devrait pas gêner la diffusion. Ces bases sont FPAT, EPAT et PCTPAT, accessibles par le serveur QUESTEL. FPAT recense les brevets déposés et publiés en FRANCE, avec une couverture de 1966 à nos jours. EPAT diffuse les brevets européens, de 1978 à nos jours. PCTPAT couvre les brevets mondiaux (Patent Cooperation Treaty) sur la même période. Enfin, PHARMSEARCH concerne les brevets de chimie pharmaceutique. Ces bases payantes, destinées aux professionnels et spécialistes du brevet, sont procédurales (sauf PHARMSEARCH) ; les demandes de brevets sont mises en ligne le jour même de leur publication. Elles ne devraient pas souffrir de la gratuité du service Web, car elles ne couvrent pas les mêmes périodes et ne présentent pas les mêmes notices. De son côté, le Minitel 3616 INPI reste un outil d'information complémentaire d'Internet.
INSEE
La diffusion de données numérisées par l'INSEE correspond à une forte demande. Elle s'effectue actuellement sur des banques de données "traditionnelles", par télématique, sur CD-ROM standard et sur CD gravé à la demande.
L'objectif de l'INSEE est de permettre l'utilisation la plus large possible des données du système statistique public français, et l'Institut s'efforce donc de participer à l'amélioration des conditions de mise à disposition de ces données. Actuellement, l'essentiel de la diffusion se fait par les banques de données "traditionnelles" et par la télématique.
L'INSEE insiste sur l'importance du contrôle des données.
Pour ce qui concerne les tarifs, l'INSEE distingue entre le droit d'usage (rendre les données diffusables) et les frais de mise à disposition (livrer les données) ainsi qu'entre l'usage final (utilisation propre) et la rediffusion. Il distingue aussi entre des informations générales et la réponse à des demandes spécifiques.
Ainsi l'INSEE ne fait pas supporter à l'usager le coût de production des données, et le principe de base pour la tarification est celui de la couverture des coûts engagés pour assurer la diffusion . Cette diffusion suppose en effet un effort particulier de mise en forme.
Pour les produits créés à la demande, des coûts de mise à disposition sont ajoutés au droit d'accès.
Par ailleurs, la cession des données de l'INSEE n'est effectuée que pour l'usage de l'utilisateur final. Si les données doivent être rediffusées, une licence spécifiant précisément les conditions dans lesquelles cette rediffusion doit s'exercer doit être établie (et notamment le montant de la redevance). En effet, l'INSEE, du fait de ses objectifs décrits plus haut, ne souhaite pas garder le monopole de la diffusion de ses données, et en encourage la diffusion par d'autres opérateurs, notamment privés.
Les rediffuseurs peuvent donc accéder à l'intégralité des informations diffusées par l'INSEE. Un changement s'est opéré depuis peu : auparavant, la redevance pour les rediffuseurs était forfaitaire, alors que maintenant les redevances sont proportionnelles (les rediffuseurs ne payent qu'en fonction de ce qu'ils diffusent).
Le CD-ROM pose le problème de la quantité de données qu'il transporte, et que les utilisateurs n'utiliseront que très partiellement. Une perspective possible est l'interdiction du déchargement massif et la possibilité d'utiliser le CD par éléments, en ayant un compteur d'usage.
Pour le Web, le problème est de savoir comment élargir le domaine (en liant vers d'autres ressources du réseau), et surtout comment et à quel niveau facturer, en tenant compte du fait que le coût de mise à disposition diminue, alors que le nombre de données disponibles augmente.
Legifrance
Pour que les citoyens puissent disposer d'un accès facile et gratuit à l'information juridique, le gouvernement a décidé la création du site Legifrance. Il propose une sélection des données juridiques essentielles. Seule la version à jour est affichée (les utilisateurs ne se noient pas dans la masse et il n'y a pas de risque d'erreur). Le site est officiel mais c'est toujours le papier qui fait foi.
Legifrance devrait contenir à terme la totalité des codes, le JO du jour et les archives depuis janvier 1998, une sélection de jurisprudence (grands arrêts, Conseil d'Etat), l'actualité juridique (mais dans le cadre d'un service grand public).
Ce service s'adresse aux particuliers, pas aux spécialistes du droit. Des liens sont établis avec le site de la Documentation française, qui comprend le service Vos Droits, pour envoyer directement les citoyens vers le bon texte juridique à partir d'une recommandation de Vos Droits. C'est l'illustration d'une démarche qui n'était pas possible avec le papier.
Legifrance répond à une démarche pédagogique pour diffuser le droit auprès d'un large public. D'où une volonté de ne pas mettre tous les textes. Ceci illustre la nécessité de sélection en fonction des objectifs et des publics concernés.
Legifrance illustre aussi la différence entre la fourniture d'information et une banque de données destinée aux professionnels, qui permet les liens entre textes, la reconstitution de l'état du droit à une date antérieure etc.
Ministère de la Culture
Le programme de numérisation des images du Patrimoine fait l'objet d'un développement par son responsable dans le guide (in "Numérisation..- Un exemple...").
Le site du ministère de la Culture est fréquenté par 250 000 visiteurs par mois, qui regardent en moyenne 32 pages, et restent connectés 15 mn.
1 million d'images numérisées seront accessibles sur le Web du ministère de la Culture d'ici fin 98.
Pour que les images ne soient pas piratées, seules des images de moyenne résolution sont accessibles en ligne, insuffisantes pour faire de l'édition de livres d'art. Le projet est de mettre en place un système de vente des images en haute définition.
Une base de littérature grise est également prévue (textes non publiés).
Ministère de la santé
Pour ce qui concerne la mise en ligne de documents, le travail a commencé par l'Intranet, avec 30 000 pages, dont BO et circulaires (1000 pages sont produites par jour).
Les dossiers thématiques sont réécrits pour Internet, avec différents niveaux de lecture (pour les particuliers, le professionnel ou les équipes internes).
Pour les documents de travail avec des partenaires, mais pas dans le domaine public, un accès (un Extranet) est organisé. Les documents sont déposés dans des étagères virtuelles et mis à la disposition de chacun. La gestion des droits d'accès est assurée par un administrateur. Un système de recherche a été mis en place. Le système permet la visualisation des différentes versions du document (des ajouts et suppressions qui ont été faits). Une fonction de résumés automatiques pertinents (faits sur mesure en fonction de l'approche que l'on souhaite avoir du texte) utilise la solution de Verity.
La production du contenu du site est décentralisée.
La rubrique la plus fréquentée : dossiers de presse.
Le site Intranet a été créé avant le site Internet. Pour que le personnel se familiarise avec le système, des micros étaient installés à la cafétéria.
© Ministère de l'Économie, des Finances et de l'Industrie, 19/05/1999