RECHERCHE :
Bienvenue sur le site de Michel VOLLE
Powered by picosearch  


Vous êtes libre de copier, distribuer et/ou modifier les documents de ce site, à la seule condition de citer la source.
 GNU Free Documentation License.

Physique des données et physique de l'information

"Frequently the messages have meaning; that is they refer to or are correlated according to some system with certain physical or conceptual entities. These semantic aspects of communication are irrelevant to the engineering problem".
(Claude E. Shannon, The Mathematical Theory of Communication, University of Illinois Press, 1963, p. 31.

La quantité d'information qu'apporte un texte serait, selon la "théorie de l'information" de Shannon, d'autant plus grande que le texte est plus long et moins redondant. Une suite de lettres tirées au hasard ne comporte aucune redondance ; elle contiendrait donc, si on veut la reproduire exactement, plus d'information que n'importe quel texte de même longueur. "wan trus be lifx", que j'ai tapé au hasard sur mon clavier, contient plus d'information (au sens de Shannon) que la phrase de même longueur "le pape est mort". Évidemment pour le lecteur il n'en est pas de même ; la seconde phrase a un sens, la première ne lui dit rien. Shannon pensait non à l'être humain, mais à l'ordinateur et aux réseaux. Sa théorie est une "théorie des données" ; l'expression "théorie de l'information" suscite des contresens qui empêchent que l'on distingue deux concepts également utiles. Les mots "information" et "données" sont parmi ces "faux amis" qui abondent en informatique. 

Physique des données

Ce qui nous est donné, c'est le monde dans lequel nous vivons et l'expérience que nous en faisons ; ce que l'on appelle "donnée" en informatique, c'est le résultat d'une observation faite sur l'une des entités de ce monde, donc la mesure d'une variable sur un individu. Cette mesure n'est pas "donnée", mais obtenue à l'issue d'un processus d'abstraction qui comporte plusieurs étapes : nous avons décidé (1) d'observer telle population, puis (2) d'observer telle sélection de variables sur les individus qui la composent, (3) de coder chaque variable de telle façon (unité de mesure, format de la donnée, "nomenclature" pour les variables qualitatives), (4) d'identifier tel individu au sein de cette population, enfin (5) de mesurer sur cet individu la valeur de telle variable.

Que l'on veuille bien nous excuser de rappeler ces choses simples : il fallait le faire, parce que bien des personnes prennent les "données" pour la réalité même et oublient qu'elles résultent d'une construction. Cela ne veut pas dire qu'elles soient fausses, subjectives etc. : elles peuvent être exactes, mais dans le cadre de l'abstraction, de la sélection dont elles résultent. 

L'informatique enregistre, traite, stocke des données ; l'utilisateur les saisit ou les consulte, et lance des traitements qui produisent d'autres données. Les flux qui en résultent dans les processeurs et les réseaux, les stocks qui s'accumulent dans les mémoires, les délais de mise à disposition, tout cela pose des problèmes de physique, la "physique des données".

La physique des données est le domaine propre de l'informatique. Celle-ci fait des choix sur le dimensionnement des ressources (débit des réseaux, puissance des processeurs, taille et délai d'accès des mémoires). Les ressources sont hiérarchisées selon l'ordre des performances et des coûts : les mémoires d'accès rapide, coûteuses, sont de faible volume et réservées aux utilisations urgentes, le gros des données est stocké sur des mémoires peu coûteuses dont l'accès demande plus de temps. Le système d'exploitation transfère automatiquement les données entre les divers types de mémoire pour faciliter la tâche de l'utilisateur. Le réseau est dimensionné par arbitrage entre le coût du haut débit et le besoin de transferts volumineux et rapides, etc. 

Les données sont organisées selon des architectures diverses : ici l'on a réalisé un système en mode objet, là on a une base de données relationnelles ; ici on a utilisé telle nomenclature ou tel typage, là une autre nomenclature, un autre typage. La communication entre les diverses parties du système d'information demande des transcodages et restructurations effectués par des interfaces. Savoir définir ces architectures, savoir interpréter les offres des fournisseurs de solutions, c'est un métier de spécialiste. 

Les données sont parfois fausses : des erreurs se produisent lors de la saisie ne serait-ce qu'en raison des fautes de frappe - c'est pourquoi les doubles saisies constituent un point de fragilité du système d'information. Lorsqu'une nomenclature change, il est parfois nécessaire de procéder à des corrections rétrospectives de données pourtant correctes lors de leur élaboration. 

Physique de l'information

Prenons le mot "information" non au sens qu'il a dans la théorie de Shannon, mais au sens qu'il a dans le langage courant : une information, c'est quelque chose qui vous informe, c'est-à-dire qui modifie ou complète la forme même de votre représentation du monde. L'information a un effet sur celui qui la reçoit ; elle suscite une action de sa part ou du moins modifie les conditions de son action. 

Une donnée ne peut donner naissance à une information que si elle est communiquée au destinataire dans des conditions telles qu'il puisse l'interpréter, la situer dans son propre monde et lui attribuer un sens. C'est bien là le but implicite de nos bases de données, de nos systèmes d'aide à la décision, mais avons nous compris à quelles conditions une donnée peut devenir une information ? La pratique du statisticien  comporte le travail à faire pour interpréter les données : les recouper avec d'autres, les ranger en série chronologique, calculer des corrélations, revenir sur les définitions et conditions de l'observation etc. Comment font pour interpréter les tableaux de nombres ceux qui ne disposent pas de cet arsenal de méthodes ? La réponse est simple : ces tableaux, la plupart des gens ne les regardent pas, sauf s'ils sont accompagnés par les synthèses en langage naturel qui permettent de les faire parler, sauf aussi si l'information utile est concentrée dans un petit nombre de cases du tableau (le propriétaire qui consulte l'indice du coût de la construction pour réévaluer un loyer n'utilise qu'un seul nombre).

Les données ont une autre utilisation que la statistique : elles servent à régler des cas particuliers. Des décisions concernant chacun de nous sont prises à partir de dossiers où  nous sommes représentés par quelques données plus ou moins bien choisies, plus ou moins exactes. La personne qui traitera notre dossier pourra-t-elle transformer, dans son esprit, ces données en informations pour comprendre notre cas ? comment se comportera-t-elle ? 

Ce mot de "comportement" assure la transition entre la physique des données à la physique de l'information. L'utilisateur d'une information n'est pas une chose qui obéit aux lois de la physique. Il évalue et agit en fonction de ce qu'il a compris. Il se comporte. La physique de l'information ressemble à celle du transport routier où les conducteurs, eux aussi, se "comportent". Voici des exemples :

1) La route qui relie telle banlieue au centre ville est encombrée, et on décide de l'élargir : mais elle sera tout aussi encombrée, car comme elle est plus large davantage de personnes prendront leur voiture. 

2) Vous affichez sur un panneau de l'autoroute "bouchon à 6 km" ; certains conducteurs prendront la prochaine sortie, d'autres resteront sur l'autoroute, leur comportement est aléatoire. 

3) Vous dimensionnez largement le réseau de PC pour faciliter la tâche des utilisateurs, et le nouveau réseau sera tout aussi encombré parce que de nouveaux usages s'y installeront. 

4) Le serveur de messagerie tombe en panne, les utilisateurs utiliseront le serveur de télécopie ; si vous avez sous-dimensionné celui-ci, il tombera également en panne ; si par malheur vous l'avez conçu solidaire du serveur applicatif, tout le système d'information sera bloqué. 

5) Vous avez installé un routeur de messages dans votre entreprise en utilisant un "firewall" modeste : des "hackers" sauteront cette barrière pour utiliser votre routeur gratuitement. Vous augmentez la puissance de votre "firewall" : ce sont vos propres utilisateurs qui sont gênés, etc. 

La conception du système d'information doit tenir compte du comportement des utilisateurs : c'est cela, la "physique de l'information". Le système d'information définit d'ailleurs le langage de l'entreprise et sculpte les comportements des personnes. Vous avez organisé de telle façon l'annuaire de l'organisation, vous avez découpé de telle sorte les zones géographiques, vous avez choisi telle nomenclature de produits : c'est ainsi que votre entreprise parlera, se pensera, s'organisera, communiquera. Certaines décisions, prises à la va-vite dans un modeste groupe de travail, déterminent à long terme le cadre des représentations selon lesquelles l'entreprise définit ses priorités. 

La délimitation des populations décrites dans le SI, la gestion des identifiants, des nomenclatures, des classes d'objets, que l'on a coutume d'appeler "administration des données" ou "référentiels", conditionne la physique de l'information. Ceux qui en sont chargés doivent anticiper les comportements des utilisateurs. C'est la tâche propre des maîtres d'ouvrage du système d'information que d'assurer l'articulation entre le système d'information et les pratiques, les comportements des personnes de l'entreprise. 

Prendre en compte la physique des données, c'est  indispensable : aucun système d'information ne peut fonctionner si la plate-forme technique n'a pas les performances nécessaires. Mais le SI n'est construit que si l'on considère aussi la physique de l'information