Vocabulaire de l’informatique

15 novembre 2002

(Cours à l'Université Libre de Bruxelles)

Quelle est la qualité descriptive et explicative du concept d’« ordinateur » ? Correspond-il à la réalité historique à laquelle nous confronte l’histoire de l’informatique ?

A tout concept est attaché un mot ; à tout mot sont attachés d’une part l’image centrale qui sert de pivot au concept, d'autre part le faisceau de connotations qui lui associe d’autres concepts et d’autres images. Lorsque l’on examine un concept on doit d'abord se demander si le pivot est bien placé, si l’image qu’évoque le mot correspond bien à la réalité historique et pratique qu’il s’agit de décrire ; puis on doit se demander si les connotations sont correctes, si les associations d’idées que le mot suggère sont de nature à enrichir sa compréhension ou à égarer l’imagination sur de fausses pistes.

Le vocabulaire de l'informatique est frappé d'une sorte de malédiction : presque tous les termes qui le composent sont de faux amis, au sens où l’on dit qu’un mot d’une langue étrangère a un « faux ami » en français, un mot qui lui ressemble mais qui n'a pas le même sens[1]. Un phénomène aussi général ne peut pas être dû au seul hasard : soit ces termes datent d'une époque révolue et font référence à des usages qui n’ont plus cours ; soit leurs inventeurs avaient des idées confuses, ont été maladroits, ou encore ont délibérément cherché à créer la confusion.

Dans le vocabulaire de l’informatique seul le mot « informatique » lui-même nous semble sans reproche. « Ordinateur » est un faux ami tout comme « langage », « objet », « numérique », « donnée » et « information » ; en anglais, « computer » est lui aussi un faux ami. L'usage dictant sa loi nous utiliserons ces termes, mais nous aurons soin de remplacer mentalement leurs connotations malencontreuses par d'autres plus exactes. En les passant en revue nous allons aborder quelques questions importantes.

Informatique

Philippe Dreyfus, ingénieur chez Bull, voulait en 1962 traduire l’expression « computer science ». Il a construit le mot « informatique » en contractant les mots « information » et « automatique ». Ce néologisme a été adopté par plusieurs pays[2]. La terminaison « tique » renvoie à « automatique », donc au processus de traitement des données. La première partie du mot indique qu’il s’agit d’automatiser le traitement de l’information (et non des données, car Philippe Dreyfus aurait alors dû construire le mot « datamatique ») : or une donnée ne peut devenir une information que quand un être humain l’interprète[3] (cf. ci-dessous). La conjonction des mots « information » et « automatique » suggère donc la coopération entre l’être humain et l’automate, à condition bien sur de faire entre « donnée » et « information » une distinction sur laquelle nous reviendrons.

La qualité du mot « informatique » semble donc supérieure à celle de l’expression « computer science » qu’il traduit[4] : ce mot accumule en effet un ensemble de notions plus riche que celle de « calculateur », de « computer », même si dans l’expression « computer science » apparaît la notion de science.

Il est vrai que l’on a souvent donné au mot « informatique » le sens de « traitement des données », l’interprétation de celles-ci (la « sémantique ») relevant alors du « système d’information ». Mais cette restriction fait perdre la richesse que comporte l’étymologie du mot « informatique », la coopération et la tension qu’elle implique entre l’être humain et l’automate. Il est opportun, pensons-nous, de rendre à ce mot toute sa portée[5].

Le terme « télématique[6] » suggère la synergie entre l’informatique et les télécommunications ; il a été traduit en anglais (« telematics ») et utilisé en France pour qualifier le programme Minitel que la direction générale des télécommunications (DGT) a lancé en 1981. Mais comme presque tous les ordinateurs travaillent aujourd’hui en réseau l’automate a acquis l’ubiquité : l’apport du terme « télématique » s’est ainsi résorbé dans le terme « informatique » lui-même.

L’expression « système d’information » oriente l’intuition vers un « système », donc vers une structure[7], alors même que l’on entend désigner un être qui, lié de façon organique à l’entreprise, évolue avec elle. Le mot « informatique », grâce à la tension qui le sous-tend, convient mieux pour représenter une dynamique.

Il faut, pour rendre au mot « informatique » la rigueur et la vigueur que comporte son étymologie, s’affranchir des connotations qui s’y sont accolées par la suite. L’« informatique », dans l’entreprise, est trop souvent considérée comme un centre de coût ; les « informaticiens », comme une corporation sur la défensive. Si la plupart des entreprises se sont informatisées, on ne peut pas dire qu’elles aient toutes donné à l’informatique, dans leur culture et leurs priorités, la place que celle-ci mérite. La mauvaise qualité du vocabulaire résulte de cette confusion des valeurs.

L’ordinateur, « automate programmable doué d’ubiquité »

« Computer » signifie « calculateur ». Ce mot représente-t-il convenablement le concept d’« ordinateur » ? Non, car lorsque nous utilisons l’ordinateur pour faire du traitement de texte, du dessin, ou encore pour consulter la Toile, les opérations qu’il exécute ne relèvent pas du calcul même si elles sont comme on dit « numérisées ».

La dénomination « computer » correspondait bien à la mission de l’ENIAC (calculer des tables pour aider les artilleurs à régler leurs tirs) mais elle ne décrit pas exactement la mission des ordinateurs qui l’ont suivi.

Computer : « A programmable electronic device that can store, retrieve, and process data » (Merriam Webster’s Collegiate Dictionary)

« A general-purpose machine that processes data according to a set of instructions that are stored internally either temporarily or permanently. The computer and all equipment attached to it are called “hardware". The instructions that tell it what to do are called “software". A set of instructions that perform a particular task is called a “program” or “software program". »

En 1954 IBM voulait trouver un nom français pour ses machines et éviter le mot « calculateur » qui lui semblait mauvais pour son image. Le linguiste Jacques Perret a proposé, dans une lettre du 16 avril 1955, d’utiliser « ordinateur[8] », mot ancien et passé d’usage qui signifiait « celui qui met en ordre » ; en liturgie il désigne celui qui confère un ordre sacré.

« Ordinateur » est un mot élégant mais c’est un faux ami peut-être plus dangereux encore que « computer ». L’ordinateur met-il vos affaires en ordre ? Certes non. C’est vous qui devez les mettre en ordre si vous le souhaitez ; et si vous n’y prenez pas garde, un désordre inouï se créera dans vos dossiers électroniques. L’ordre ne peut venir que de l’opérateur humain, non de la machine. Mais voyons comment les dictionnaires usuels définissent l’ordinateur :

Ordinateur : « Machine capable d’effectuer automatiquement des opérations arithmétiques et logiques (à des fins scientifiques, administratives, comptables etc.) à partir de programmes définissant la séquence de ces opérations » (Dictionnaire Hachette).

« Machines automatiques de traitement de l'information permettant de conserver, d'élaborer et de restituer des données sans intervention humaine en effectuant sous le contrôle de programmes enregistrés des opérations arithmétiques et logiques. » (Quid)

Il ressort de ces définitions que l’ordinateur, c’est essentiellement un « automate programmable ». Pour indiquer que cet automate est accessible depuis n’importe quel poste de travail en réseau, il faut ajouter l’adjectif « doué d’ubiquité[9] ». L’« ordinateur », c’est un « automate programmable doué d’ubiquité », « APU ». Dans une entreprise, ce singulier désigne non chaque machine isolément (le « mainframe », le poste de travail, les routeurs etc.), mais l’ensemble technique, logique et fonctionnel que constituent ces machines et qui est mis à la disposition de l’utilisateur sous la seule contrainte des habilitations de celui-ci. Lorsque nous sommes devant notre poste de travail, les ressources de puissance et de mémoire dont nous disposons ne sont pas seulement celles qui se trouvent dans le processeur, la RAM ou le disque dur de cette machine[10], mais aussi celles auxquelles le réseau nous donne accès : c’est cet ensemble que nous appellerons « ordinateur », au singulier. Dans les entreprises, lorsque cet ensemble est en panne, on entend les agents dire « l’informatique est en panne ».

Si nous avons à l’esprit l’expression « automate programmable doué d’ubiquité » chaque fois que nous prononcerons ou entendrons le mot « ordinateur », nous ne ferons pas d’erreur. Encore faut-il bien sûr s’entendre sur le sens à donner à l’expression « automate programmable ».

Un automate, c’est une machine qui accomplit exactement, et dans l’ordre, les opérations pour lesquelles elle a été conçue. La liste de ces opérations n’est pas nécessairement écrite sous la forme d’un programme : elle peut résulter de l’enchaînement d’une série d’actions mécaniques. Le « Canard Digérateur » de Vaucanson (1739) savait picorer des grains de maïs, les broyer, les mêler à de l’eau et les rejeter ; il imitait ainsi le vrai canard qui mange et rejette des excréments sans bien sûr lui ressembler en rien du point de vue de l’anatomie. Le métier Jacquard (1801) est un automate qui obéit à un programme inscrit sur un carton perforé, mais il ne sait accomplir qu’un type d’opération : le tissage.

Il a fallu un étonnant effort d’abstraction pour oser mettre entre parenthèses toute application possible et concevoir l’automate pur et absolu, construit pour obéir à tout type de programme et commander à d’autres machines l’exécution des opérations les plus diverses (hauts parleurs, écrans et imprimantes de l’ordinateur, bras articulés des robots, ailerons des avions en pilotage automatique, commande des moteurs, suspension et freins des automobiles etc.).

Cet automate absolu, c’est l’ordinateur. Il est essentiellement programmable[11] ; on peut l’utiliser pour faire du traitement de texte, du dessin, du calcul, de la musique, il est incorporé dans les équipements électromécaniques les plus divers. Le programme se substitue, de façon économiquement efficace, aux engrenages et ressorts auparavant nécessaires pour commander mécaniquement l’exécution d’une série d’actions.

La diversification que procure à l’ordinateur son caractère programmable ne doit pas faire oublier qu’il s’agit d’un automate : il exécute les instructions dans l’ordre où elles lui ont été données et, contrairement à l’être humain, il est insensible aux connotations. Cela lui confère à la fois une grande précision et une extrême raideur. Pour comprendre ce qui se passe d'une part dans la tête du programmeur, d'autre part dans le processeur de l'automate, il faut avoir fait l’expérience de la programmation ; à défaut on peut lire l'excellent livre d’initiation « Karel the Robot[12] » :

A propos du rapport entre le programmeur et l’ordinateur

(Richard E. Pattis, Karel the Robot, Wiley, 1995)

On part d'un jeu : il s'agit de commander un robot nommé Karel qui se déplace dans un monde simple. Le plan de ce monde est un quadrillage semblable aux rues d'une ville américaine ; Karel peut se déplacer dans ce monde en avançant d'un carré et en tournant d'un quart de tour à droite (en répétant les quarts de tour il peut faire des virages ou des demi-tours). Le chemin lui est parfois barré par un mur qu'il ne perçoit que lorsque il se trouve juste devant. Il porte enfin un sac contenant des balises qu'il peut déposer à certains carrefours.

Karel obéit exactement aux ordres qu'on lui donne. Quand on lui donne un ordre impossible (avancer dans un mur, poser une balise alors que son sac est vide), il envoie un message et s'arrête. Bref : Karel est infiniment travailleur et patient, jamais rebuté par une tâche répétitive, mais il ne fait que ce qu'on lui ordonne et ne peut prendre aucune décision. Celui qui programme Karel dispose, lui, d'un langage de commande.

L'auteur nous invite à programmer Karel. Il s'agit d'abord d'accomplir des tâches simples (parcourir la diagonale entre deux points, longer un rectangle entouré d’un mur etc.). Puis on écrit un programme un peu plus difficile : faire sortir Karel d'une « pièce» rectangulaire entourée de murs percés d'une porte, quels que soient la forme de la pièce, l'emplacement de la porte et l'emplacement initial de Karel, etc. Pour traiter tous les cas particuliers en un seul programme il faut décomposer des tâches complexes en tâches élémentaires : nous voici dans la programmation structurée avec des « subroutines» emboîtées, comme en Pascal.

En lisant ce livre on s'habitue à la coopération entre le programmeur humain, avec sa créativité, et un robot stupide mais d'une patience inlassable. L'intuition découvre le langage qu'il convient de parler à l'ordinateur si l'on veut qu'il obéisse : on apprend à la fois à concevoir un tel langage et à l'utiliser.

Cela permet d’entrevoir les possibilités ouvertes à l'« être humain assisté par ordinateur », concept plus intéressant et plus puissant que ceux d'intelligence artificielle, ou encore d'automatisation, qui ont tant coûté et tant déçu.

Langage

On utilise en informatique le terme « langage » pour désigner la liste des instructions et les règles d'écriture qui permettent de composer un programme pour ordinateur. Ce langage, c'est le dispositif de commande de l‘automate.

Il existe une différence importante entre un tel « langage » et les langages qui nous servent à nous, êtres humains, pour formuler ou communiquer notre pensée. Un texte énoncé ou écrit par un être humain est fait pour être compris par celui qui le reçoit ; il s’appuie sur les « connotations », ces diffractions de sens secondaires ou dérivés qui entourent chaque mot et confèrent au texte une profondeur, un « plein », bien au delà du sens littéral des mots qu'il contient.

Par contre un programme n'est pas fait pour être lu et compris : il sera souvent incompréhensible, même (après quelques jours) pour celui qui l'a écrit. Il est fait pour être exécuté à la lettre par un automate, non pour être lu[13]. Les expressions qu'il contient ont toutes un sens et un seul, car l'automate ne sait pas interpréter les connotations et ne peut exécuter que des instructions non ambiguës.

Il est vrai que les êtres humains, lorsqu'ils préparent une action, doivent utiliser eux-mêmes un langage précis et donc éviter les connotations : la technique, la guerre, la science, utilisent des textes aussi « secs » et parfois aussi incompréhensibles à première vue qu'un programme informatique. Le mathématicien qui relit une de ses propres démonstrations après quelques mois a autant de mal à la comprendre que le programmeur qui relit un de ses programmes. Cependant, même technique, le langage humain est fait pour être entendu par des êtres humains et non pour être exécuté par un automate ; les mathématiciens ont recours pour faciliter la lecture à des « abus de langage » qui court-circuitent certaines étapes, jugées évidentes, du raisonnement[14]. Par contre un programme informatique doit toujours être parfaitement explicite.

On a pu, certes, utiliser les mots « grammaire », « syntaxe » et « vocabulaire » pour désigner la structure et les composants d'un langage de programmation ; ces mots sont ici à leur place car les règles formelles de la programmation s'expriment d’une façon analogue à celles du langage humain. Mais cette analogie n'est pas une identité : parler de « langage » pour désigner le dispositif de commande de l’automate, c'est... un abus de langage qui suscite la confusion, notamment dans les réflexions sur l'intelligence de l'ordinateur.

Interaction entre langage connoté et langage conceptuel

Le langage conceptuel est nécessaire à l'action : pour agir efficacement sur des objets du monde réel, il importe de les désigner avec une parfaite précision. Par contre, dans la phase exploratoire qui précède l'action et la construction conceptuelle, il est utile de procéder par analogies, associations d'idées, et de relier par des connotations les divers domaines de l’expérience. Le langage connoté est l'humus sur lequel se forme le langage conceptuel. Sans humus, pas de plante possible ; mais l'humus n'est pas lui-même un aliment. De même, sans langage connoté, pas de langage conceptuel et donc pas d'action possible ; mais le langage connoté ne peut pas nourrir directement l'action.

Certaines personnes, attachées à la fécondité du langage connoté et sensibles à la richesse du monde qu'il permet de représenter (car l'allusion poétique comble les lacunes du langage comme la succession rapide des images au cinéma crée la sensation du continu) refusent la « sécheresse » du langage conceptuel ; ce faisant elles se mutilent du côté de l'action (du moins de l'action consciente, voulue et pensée) et se limitent à un rôle contemplatif. Certes ce rôle peut apporter des plaisirs esthétiques, mais non les plaisirs et leçons de l'action volontaire.

D'autres personnes, attachées à des finalités pratiques et éprises d'efficacité, refusent au contraire le flou, l'ambiguïté du langage connoté, et ne veulent utiliser qu'un langage conceptuel. C'est souvent le cas des ingénieurs et des informaticiens. Ils en viennent à se couper des autres auxquels ils parlent avec la même rigueur formelle que s'ils écrivaient un programme. Steven Levy l'a illustré dans Hackers en décrivant le conflit entre un informaticien et son épouse[15].

Les deux langages constituent deux couches différentes de la pensée. Le modèle en couches (voir ci-dessous) permet d'interpréter les reproches qu'adressent les ingénieurs à ceux qu'ils qualifient de « littéraires » (philosophes, sociologues, historiens et autres « poètes »), ainsi que l'exécration vouée par certains sociologues, philosophes etc. aux ingénieurs, aux « techniciens » dont ils dénoncent la « froideur inhumaine » et le « technicisme ».

Les critiques adressées à la technique semblent étranges si l'on convoque l'étymologie. Τέχνη, en grec, veut dire « savoir faire ». Comment pourrait-on être « contre » le savoir faire, le savoir pratique, l'efficacité ? Ce n'est pas le savoir faire que visent les adversaires de la technique ; ils visent le langage conceptuel, la modélisation qui rend compte du monde de telle sorte que l'on puisse agir sur lui ; ils visent la déperdition symbolique, la perte des qualités allusives du langage dont il faut payer cette modélisation ; ils visent aussi les attitudes « froides », « inhumaines » de ceux qui se vouent au langage conceptuel. Ils voudraient que l'on pût être pratiquement efficace tout en conservant dans l’action la richesse des connotations, l'ambiguïté suggestive de la langue : mais cela, c'est impossible.

Les disputes entre « scientifiques » et « littéraires » trahissent une incompréhension envers la respiration de notre pensée. Celle-ci a besoin tantôt d'élargir la sphère de ses représentations, et pour cela de laisser aller les associations d'idées, les analogies qui forment son terreau ; et tantôt de construire, sur la base ainsi élaborée, des concepts et structures hypothético-déductives : pour cela elle doit se fermer aux sirènes de l'allusion et éliminer les connotations. Ne vouloir admettre que l'une ou l'autre des deux phases de la démarche, c'est comme dire que dans la respiration seule l'inspiration est légitime, l'expiration étant à proscrire (ou l'inverse). Celui qui applique une telle règle sera vite étouffé.

En empruntant le vocabulaire de l'économie, nous dirons que le flux qui renouvelle et alimente notre pensée passe par le langage connoté et que le langage conceptuel permet de mettre en exploitation le stock des représentations ainsi accumulées. Il n'existe pas de stock sans flux qui l'alimente et le flux se perd s'il n'alimente pas un stock.

Objet

Dans les langages de programmation « objet[16] », on appelle « objet » un petit programme contenant :

- le nom propre (ou le matricule, ou l'identifiant) qui désigne sans ambiguïté un individu du domaine étudié (un client, un produit, un établissement, une machine, une pièce détachée etc.) ;

- diverses variables observées sur cet individu et dont il a été jugé utile de noter la valeur en mémoire (par exemple date et lieu de naissance, adresse et numéro de téléphone d'une personne ; adresse, activité principale, taille d'un établissement etc.). On appelle ces variables « attributs » ;

- diverses fonctions qui, appliquées aux « attributs », lancent des traitements produisant d'autres attributs ou encore des messages d'anomalie (calculer l'âge d'une personne à partir de sa date de naissance et de la date du jour ; mettre à jour la valeur d'un attribut à partir d'une nouvelle saisie ; s'assurer que la saisie est réalisée dans un format conforme, que la donnée a une valeur acceptable etc.) ; on appelle ces fonctions « méthodes » ou encore « règles de gestion ».

Ainsi l'objet (informatique) représente une entité du monde réel ; il garde trace de certains de ses attributs (mais non de tous, car toute entité du monde réel possède une infinité d'attributs) ; il leur associe des traitements spécifiques.

Le plus souvent, l'objet est un cas particulier au sein d'une « classe » : l'objet qui représente un client est ainsi un cas particulier au sein de la classe « client ». Lorsque l'on définit une classe, on définit la liste des attributs et méthodes que l'on veut connaître sur chacun des individus de cette classe. Lorsque l'on indique les valeurs prises par l'identifiant et les attributs pour un individu quelconque, on dit que l'on « instancie » la classe dont l'objet particulier constitue une « instance ».

Ce jargon s'éclaire si l'on pense à ce qui se passe lorsque l'on fait une enquête statistique. L'individu appartenant au champ de l'enquête, c'est l'entité qu'il s'agit de représenter. Le dessin du questionnaire, c'est la définition de la classe. Remplir le questionnaire, c'est l'« instancier » pour représenter un individu particulier. Les règles de codage et de vérification automatique utilisées lors de la saisie sont des « méthodes » au sens des langages objet.

Mais le terme « objet » est un faux ami : lorsque l'informaticien l'utilise pour désigner la représentation d'une entité du monde réel, il s'écarte de l'usage courant comme de l'usage philosophique du terme « objet » qui désigne une entité, un être particulier et concret, relevant du monde réel, repéré par la perception ou visé par l'intention d'un sujet. Cet abus de langage conduit l'informaticien à prononcer une phrase qui fait se hérisser les cheveux du philosophe : « Un objet, c'est une abstraction ». Cette phrase est une tautologie si l'on comprend que le terme « objet », pour l’informaticien, désigne une représentation : toute représentation résulte d’une abstraction. Cette phrase est une absurdité si l'on donne au terme « objet » le sens qu'il a dans le langage courant comme en philosophie.

Numérique

Que d'émotions autour de ce terme ! la « fracture numérique » mettrait en péril la cohésion sociale ; l'ordinateur constituerait un danger majeur pour les arts, les représentations, qu’il priverait de leur âme en les « numérisant ». On devine le frisson qui parcourt l’échine du « littéraire » confronté à la « froideur » des mathématiques et de l’abstraction. Certes chacun est libre de ses goûts et dégoûts, mais on ne peut admettre que s’installe une erreur de jugement fondée sur un pur effet de vocabulaire.

Nous demandons pardon au lecteur de développer ici l’analyse d’une erreur triviale : des esprits par ailleurs distingués la commettent. Comme ils sont éloquents et écoutés, il en résulte dans les idées un désordre dévastateur[17].

A propos de la « fracture numérique »

Cette expression, aussi disgracieuse que « son digital », désigne la différence sociale qui s'instaurerait entre les privilégiés qui maîtriseraient l'ordinateur et les non privilégiés qui ne le maîtriseraient pas et qui, de ce fait, risqueraient l'exclusion.

Certains de ceux qui manifestent ainsi leur souci envers les exclus potentiels se flattent de n'avoir aucune pratique de l'ordinateur. Sans doute se considèrent-ils comme des privilégiés au grand cœur, préoccupés par l'inégalité entre eux et leurs inférieurs, inégalité qu’ils savourent tout en la déplorant. Comme il est délicieux de gagner à la fois sur le tableau social et sur le tableau moral ! Cela rappelle les « préceptes orgueilleusement humbles d’un snobisme évangélique » que la princesse de Parme inculque à sa fille dans « A la recherche du temps perdu[18] ».

Pourtant personne, quel que soit son niveau social, n'est embarrassé pour utiliser un distributeur automatique de billets ou un téléphone portable, outils « high tech » s'il en est. Les assistantes sont plus expertes que leur patron dans l'utilisation de l'ordinateur. Les personnes les plus calées en informatique, celles qui maîtrisent les langages de programmation et les architectures (savoir qui demande quelques années de formation), sont des cadres moyens à qui cette spécialité procure les responsabilités et la légitimité qui leur sont refusées par ailleurs. Les cadres supérieurs, sauf exception, ne feront pas l'effort de se qualifier en informatique tant que leur légitimité ne sera pas écornée par leur incompétence, et cette heure-là n'a pas encore sonné en France.

La vraie « fracture numérique » se trouve entre les dirigeants et l'ordinateur et non près de la frontière de l'exclusion sociale. Bien sûr personne ne pourra utiliser un ordinateur sans un minimum d'explications puis un minimum de pratique ; mais il ne faut pas prétendre que certains souffriraient, à cet égard, d'un handicap social : il est beaucoup plus difficile d'apprendre à parler en bon français que d'apprendre à utiliser l'ordinateur (l’apprentissage de la programmation, lui, est par contre aussi difficile que l’apprentissage d’une langue naturelle).

La confusion est pire encore lorsque l'on utilise le terme anglais « digital ». Il se traduit par « numérique » ( « digit » signifie « chiffre » en anglais) mais il désigne en français « ce qui est relatif au doigt ». L’expression « son digital » ahurit le badaud - c'est sans doute le but visé par les vendeurs péremptoires, fût-ce au prix d’une détérioration de la langue.

Il est vrai que dans l'ordinateur, au cœur du processeur qui effectue les opérations, n'existent que deux niveaux d'une tension électrique qui servent à coder des 0 et des 1, des « bits ». L'information que l'utilisateur traite (texte, images, calculs, sons) sera transformée en bits par une cascade de codages qui la traduisent ou l'interprètent pour parvenir enfin au microcode, écrit en bits, que le processeur pourra exécuter.

Ce codage a-t-il une influence sur l'information ? non, puisqu'il ne fait que la transcrire. Si je tape une fable de La Fontaine sur mon clavier, le texte de la fable s’affiche sur l'écran avec toutes ses nuances et connotations, toute sa puissance évocatrice ; le fait que les caractères soient codés en octets (huit bits) n'enlève rien à son contenu poétique ; les conventions de traitement de texte que j'utilise pour le mettre en page, elles aussi transcrites en bits pour pouvoir être exécutées, ne font que faciliter la lecture et donc le dégagement du sens par le lecteur.

L'ordinateur, faisant ici fonction de machine de traitement de texte, est bien sûr incapable d'interpréter le texte mais il aide sa présentation. On ne peut pas dire que la fable de La Fontaine soit « numérisée » : elle reste un texte poétique qui vise par ses suggestions et sa musicalité à émouvoir le lecteur et à éveiller son intelligence.

Parodions, en le transposant, le raisonnement des adversaires du « numérique »[19] : « Comment voulez-vous que l'écriture puisse reproduire la richesse et les nuances du langage humain ? comment décrire des couleurs quand on écrit en noir sur du blanc ? » etc.

Cette transposition met a nu le procédé qu’utilisent des sophistes pour susciter doute et perplexité : on feint de croire, en confondant les diverses couches du processus, que la physique du support rétroagit sur le contenu du texte. Si Marshall McLuhan a dit « the medium is the message[20] », cela ne signifie pas « les ondes électromagnétiques constituent le message de la télévision », mais « les conditions économiques, sociales, de la production des programmes télévisuels ont sur leur contenu une influence qui peut être déterminante ».

C'est en considérant les conditions pratiques, sociales, culturelles de la mise en oeuvre de l’automate programmable doué d’ubiquité, de l’utilisation de l’ordinateur, que l'on peut raisonner sur ses apports, leurs limites et leurs dangers. Ce n’est pas le mot « numérique » qui fournira la clé de ce raisonnement. Ce terme, lorsqu'il fonctionne comme un épouvantail, inhibe le discernement. Des personnes par ailleurs cultivées et intelligentes raisonnent mal quand elles parlent de la numérisation[21] : elles ne voient pas que l’architecture en couches de l’ordinateur établit une différence de nature entre ce que fait l’utilisateur et ce que fait la machine. Que diraient ces personnes si on leur disait de leurs écrits « ce sont des signes noirs dessinés sur un papier blanc », ou de leurs paroles « ce sont des ondes sonores que propagent des variations de la pression de l’air » ?

Il est vrai que l’ordinateur est pour nos sociétés une innovation aussi importante que le furent, à d’autres époques, l’invention de l’écriture ou de l’imprimerie : il modifie les conditions de création, classement, recherche et traitement des données et documents. Il ne sera pas facile d’apprendre à s’en servir, à éviter ses effets pervers. Mais avons-nous vraiment maîtrisé l’écriture, l’impression ? savons-nous vraiment lire et écrire (et compter) au sens non de la performance, mais de la vie intellectuelle et de la vie sociale ? faut-il que l’ordinateur nous inspire plus de craintes que la presse, les médias, ou même la parole ?

Données et informations

La quantité d'information qu'apporte un texte serait, selon la « théorie de l'information » de Shannon, d'autant plus grande que le texte est plus long et moins redondant. Une suite de lettres tirées au hasard ne comporte aucune redondance ; elle contiendrait donc, si l’on veut la reproduire exactement, plus d'information que n'importe quel texte de même longueur. « wan trus be lifx », tapé au hasard sur mon clavier, contient plus d'information (au sens de Shannon) que la phrase de même longueur « le pape est mort ». Évidemment pour un lecteur il n'en est pas de même ; la seconde phrase a un sens, la première ne lui dit rien. Shannon pensait non à l'être humain, mais à l'ordinateur et aux réseaux. Sa théorie est une « théorie des données » ou une « théorie des télécommunications » ; l'expression « théorie de l'information » suscite des contresens qui empêchent de distinguer deux concepts également utiles[22].

Physique des données

Ce qui nous est donné, c'est le monde dans lequel nous vivons et l'expérience que nous en faisons ; ce que l'on appelle « donnée » en informatique (comme en statistique), c'est le résultat d'une observation faite sur l'une des entités de ce monde, la mesure d'une variable sur un individu. Cette mesure n'est donc pas donnée, mais obtenue à l'issue d'un processus d'abstraction qui comporte plusieurs étapes : nous avons décidé (1) d'observer telle population[23], (2) d'observer telle sélection de variables sur les individus qui la composent, (3) de coder chaque variable de telle façon (unité de mesure, format de la donnée, nomenclature pour les variables qualitatives), (4) d'identifier tel individu au sein de cette population, enfin (5) de mesurer sur cet individu la valeur de telle variable. Que l'on nous excuse de rappeler ces choses simples : certaines personnes prennent les « données » pour la réalité même et oublient qu'elles résultent d'une construction. Cela ne veut pas dire que les données soient fausses, subjectives etc. : elles peuvent être exactes et objectives, mais dans le cadre de l'abstraction, de la sélection qui ont défini a priori les conditions et limites de l’observation.

L'informatique enregistre, traite, stocke des données ; l'utilisateur les saisit ou les consulte et lance des traitements qui produisent d'autres données. Les flux qui en résultent dans les processeurs et les réseaux, les stocks qui s'accumulent dans les mémoires, les délais de mise à disposition, tout cela pose des problèmes de physique, de la « physique des données ». C'est là le domaine propre de la technique informatique. Elle décide le dimensionnement des ressources (débit des réseaux, puissance des processeurs, taille et délai d'accès des mémoires). Ces ressources sont hiérarchisées selon l'ordre des performances et des coûts : les mémoires d'accès rapide, coûteuses, seront de faible volume et réservées aux utilisations urgentes. Le gros des données est stocké sur des mémoires peu coûteuses dont l'accès est plus lent. Le système d'exploitation transfère automatiquement les données entre les divers types de mémoire pour faciliter la tâche de l'utilisateur. Le réseau est dimensionné par arbitrage entre le coût du haut débit et le besoin de transferts volumineux et rapides, etc.

Les données sont organisées selon des architectures diverses : ici l'on a réalisé un système en mode objet, là une base de données relationnelles ; ici on a utilisé telle nomenclature ou tel typage, là une autre nomenclature, un autre typage. La communication entre les diverses parties du système d'information demande des transcodages et restructurations effectués par des interfaces. Savoir définir ces architectures, savoir interpréter les offres des fournisseurs de solutions, c'est un métier de spécialiste.

Les données sont parfois fausses : des erreurs se produisent lors de la saisie, ne serait-ce qu'en raison des fautes de frappe. C'est pourquoi les doubles saisies sont un point de fragilité du système d'information. Par ailleurs lorsqu'une nomenclature change, il est parfois nécessaire de procéder à des corrections rétrospectives de données pourtant correctes lors de leur élaboration.

Physique de l'information

Prenons le mot « information » non au sens qu'il a dans la théorie de Shannon, ni au sens qu'il a dans le langage courant (les « informations de 20 heures »), mais au sens étymologique : une information, c'est quelque chose qui vous informe, qui modifie ou complète la forme de votre représentation du monde, qui vous forme vous-même[24]. L'information ainsi conçue a une signification ; elle suscite une action de la part de celui qui la reçoit, ou du moins elle modifie (transforme) les conditions de son action future.

Une donnée ne peut donner naissance à une information que si elle est communiquée au destinataire dans des conditions telles qu'il puisse l'interpréter, la situer dans son propre monde et lui attribuer un sens. C'est là le but implicite de nos bases de données, de nos systèmes d'aide à la décision. Le statisticien connaît le travail qu’il faut fournir pour interpréter les données : les confronter avec d'autres, les organiser en série chronologique, évaluer des corrélations, revenir sur les définitions et conditions de l'observation etc. Il se publie beaucoup de tableaux de nombres, mais peu de personnes disposent de l’arsenal nécessaire pour les interpréter. En fait personne ne regarde ces tableaux, sauf s'ils sont accompagnés d’une synthèse en langage naturel qui permet de les faire parler[25].

Mais les données ne sont pas utilisées principalement pour produire des statistiques : elles servent surtout à traiter des cas particuliers. Des décisions concernant chacun de nous sont prises à partir de dossiers où nous sommes représentés par quelques données plus ou moins bien choisies, plus ou moins exactes. L'agent qui contrôlera les traitements automatisés et traitera notre cas pourra-t-il transformer ces données en informations et comprendre notre situation ? ou bien se comportera-t-il en assistant de l’automate ?

Le « comportement »

C’est ce mot de « comportement » qui fait passer de la physique des données à la physique de l'information. L'utilisateur d'une information se comporte. Il n'est pas une chose qui obéit aux lois de la physique comme le fait un paquet d’octets qui transite par un réseau : il évalue et agit en fonction de ce qu'il a compris. La physique de l'information ressemble à celle de la circulation routière où les conducteurs, eux aussi, se « comportent » :

1) La route qui relie telle banlieue au centre ville est encombrée, et on décide de l'élargir : mais elle sera tout aussi encombrée car comme elle est plus large davantage de personnes prendront leur voiture. Vous dimensionnez largement le réseau pour faciliter la tâche des utilisateurs, mais le nouveau réseau sera tout aussi encombré car de nouveaux usages s'y installeront.

2) Vous affichez sur un panneau de l'autoroute « bouchon à 6 km » ; certains conducteurs prendront la prochaine sortie et viendront encombrer le réseau des routes secondaires, d'autres resteront sur l'autoroute : ce choix est aléatoire. Vous avez installé un routeur de messages dans votre entreprise en utilisant un « firewall » modeste : des « hackers » sauteront cette barrière pour utiliser votre routeur gratuitement. Vous augmentez la puissance du « firewall » : vos utilisateurs seront gênés etc.

La conception du système d'information doit anticiper le comportement des utilisateurs, tout comme ceux qui conçoivent un réseau routier anticipent le comportement des conducteurs : c'est en cela que consiste la « physique de l'information ». Le système d'information définit d'ailleurs le langage de l'entreprise et sculpte les comportements de ses agents. Vous avez organisé de telle façon l'annuaire de l'organisation, découpé de telle sorte les zones géographiques, choisi telle nomenclature de produits : c'est ainsi que votre entreprise parlera, se pensera, s'organisera, communiquera. Certaines décisions, prises à la va-vite par un groupe de travail, déterminent à long terme le cadre des représentations selon lesquelles l'entreprise définira ses priorités.

La délimitation des populations décrites dans le système d’information, la gestion des identifiants, des nomenclatures, des classes d'objets, bref l’ensemble des opérations que l'on a coutume de nommer « administration des données » ou « gestion du référentiel », conditionnent cette physique de l'information.

[1] C’est le cas par exemple du mot « virtuel ». En anglais, « virtual » signifie « being such in essence or effect though not formally recognized or admitted (a virtual dictator)» (Merriam Webster's College Dictionnary). En français, il signifie exactement le contraire : « qui est seulement en puissance et sans effet actuel» (Littré). Il en résulte de pénibles contresens lorsque l’on parle de « circuit virtuel » en télécommunications, d’« entreprise virtuelle » en économie, d’« espace virtuel » en informatique etc.

[2] On dit « Informatik » en allemand, « informática » en espagnol et en portugais, « informatica » en italien et « информатика » (« informatika ») en russe.

[3] Certains, il est vrai, soutiennent que les mécanismes comportant une rétroaction (pilote automatique d’un avion, thermostat d’un chauffage central etc.) « décident », « agissent », et à cette fin reçoivent une information. Pour notre part, nous préférons dire qu’ils sont programmés lors de l’introduction manuelle des paramètres (cap et altitude pour le pilote automatique, température pour le thermostat), et qu’ensuite ils soulagent l’opérateur humain en traitant de façon continue les données que leur fournissent des capteurs.

[4] C’est l’un des rares points sur lesquels mon opinion diffère de celle de Donald Knuth « Computer science is known as "informatics” in French, German, and several other languages, but American researchers have been reluctant to embrace that term because it seems to place undue emphasis on the stuff that computers manipulate rather than on the processes of manipulation themselves » (Donald E. Knuth, Selected Papers on Computer Science, CSLI 1996, p.3) : or le processus de manipulation me semble correctement représenté par la terminaison « automatique ». Knuth aurait pour sa part préféré « algorithmics » (op. cit. p. 88).

[5] C’est pourquoi nous l’avons retenu pour le titre de cet ouvrage.

[6] Introduit par Simon Nora et Alain Minc, L’informatisation de la société, Documentation française, 1978.

[7] On risque de tomber dans le même travers que les structuralistes qui, des travaux de Saussure, n’ont voulu retenir que la « structure » en négligeant ce que Saussure dit sur l’évolution de la langue, donc sur la façon dont la structure se forme puis se transforme (Ferdinand de Saussure, Cours de linguistique générale, Payot 1916).

[8] Ce néologisme n’a pas connu le même succès qu’« informatique » : si l’on dit « ordenador » en espagnol, on dit « Computer » en allemand, « calcolatore » en italien, « computador » en portugais et « компьютер » (« kompioutier ») en russe, 電腦 (« cerveau électrique») en chinois, コンピューター (« computer » ) en japonais.

[9] On pourrait dire « omniprésent », mais cet adjectif n’a pas exactement le même sens que « doué d’ubiquité ». En anglais, on peut utiliser « ubiquitous ». Le « computer », c’est essentiellement un « ubiquitous programmable automat », « UPA ».

[10] La RAM (« Random Access Memory ») est la mémoire sur laquelle travaille la machine. Son accès est rapide (« random » signifie que le délai d’accès est le même quel que soit l’emplacement de la donnée dans la RAM). Le « disque dur » est une mémoire de masse à accès lent ; contrairement à la RAM il conserve les données lorsque l’ordinateur s’éteint.

[11] Au sens étymologique : son « essence », c’est d’être programmable.

[12] Cette lecture est utilement complétée par celle de Alan W. Biermann, Great Ideas in Computer Science, MIT Press 1997

[13] Les théoriciens de l’informatique disent qu’un informaticien doit savoir lire les programmes, mais c’est un abus de langage : ils veulent dire qu’il faut savoir déchiffrer les programmes : « It is exceedingly important to acquire skill in reading other people's computer programs, yet such training has been sadly neglected in too many computer courses and it has led to some horribly inefficient uses of computing machinery » (Donald Knuth , The Art of Computer Programming, Addison Wesley 1997, vol. 1, p. 170).

[14] Voir N. Bourbaki, Eléments de mathématique, Théorie des ensembles, Hermann 1966.

[15] « The logical mind-frame required for programming spilled over into more commonplace activities. You could ask a hacker a question and sense his mental accumulator processing bits until he came up with a precise answer to the question you asked. Marge Saunders would drive to Safeway every Saturday morning in the Volkswagen and upon her return ask her husband, "Would you like to help me bring in the groceries?” Bob Saunders would reply, "No". Stunned, Marge would drag in the groceries herself. After the same thing occurred a few times, she exploded, hurling curses at him and demanding to know why he said no to her question. "That's a stupid question to ask", he said. "Of course I won't like to help you bring in the groceries. If you ask me if I'll help you bring them in, that's another matter." It was as if Marge had submitted a program into the TX-0, and the program, as programs do when the syntax is improper, had crashed. It was not until she debugged her question that Bob Saunders would allow it to run successfully on his own mental computer. » (Steven Levy, Hackers, Delta Publishing 1994, pp. 37-38)

[16] On utilise souvent l’expression « orienté objet ».

[17] Paul Virilio, dans La bombe informatique, Galilée, 1998, annonce « la fin du langage ». Heureusement cette prophétie effrayante n’est étayée par aucun argument, pas plus que la dénonciation du « cybermonde » que Virilio fonde sur l’assonance des mots « interactivité » et « radioactivité ». Certains attribuent de la profondeur à ce genre de raisonnement.

[18] « Rappelle-toi que si Dieu t'a fait naître sur les marches d'un trône, tu ne dois pas en profiter pour mépriser ceux à qui la divine Providence a voulu (qu'elle en soit louée !) que tu fusses supérieure par la naissance et par les richesses. (…) Sois secourable aux malheureux. Fournis à tous ceux que la bonté céleste t'a fait la grâce de placer au-dessous de toi ce que tu peux leur donner sans déchoir de ton rang, c'est-à-dire des secours en argent, même des soins d'infirmière, mais bien entendu jamais d'invitation à tes soirées, ce qui ne leur ferait aucun bien, mais, en diminuant ton prestige, ôterait de son efficacité à ton action bienfaisante. » (Marcel Proust, A la recherche du temps perdu, Le côté de Guermantes II, 1921 ; Robert Laffont, collection « Bouquins » 1987, vol. 2 p. 352).

[19] Leur voix, quand ils téléphonent, est soumise au codage MIC qui la transforme en un flux de 64 000 bits (zéro ou un) par seconde. Il en est de même, avec un débit plus élevé, pour la musique lorsqu’ils écoutent un enregistrement sur disque compact. Leur parole, la musique, sont-elles pour autant « numériques » ?

[20] Marshall McLuhan, Understanding Media : The Extensions of Man, MIT Press, 1964.

[21] « L'ordinateur est la matérialisation de la logique mathématique : ils ont connu des développements historiques conjoints. Aux fondements de ces développements se trouve le principe d'identité. L'ordinateur calcule 0/1 mais ne sait faire que cela. Tout, en effet, est ramené à des 0/1 afin que le courant électrique passe (1) ou ne passe pas (0). L'ordinateur oblige à faire des modèles entièrement logiques. Il fonctionne comme un principe de réalité technico-logique, garant de la cohérence des modèles : un producteur de modèles hyperrationnels. » (Francis Pavé, Transformation des représentations et résistance aux changements, conférence à l’école d’été 1998 de l’IUFM de Franche-Comté). Mais quel est le modèle « hyperrationnel » à l’œuvre lorsque l’on utilise l’ordinateur pour du traitement de texte ?

[22] Pour une analyse de la théorie de Shannon, voir Robert Escarpit, L'information et la communication. Théorie générale, Hachette 1991. L’article fondateur n’a pas pour titre « théorie de l’information », mais celui, plus exact, de « théorie de la communication » (Claude E. Shannon, « A mathematical theory of communication », Bell System Technical Journal, vol. 27, juillet et octobre 1948).

[23] Au sens statistique du terme, qui est plus large que celui qu’il reçoit en démographie, et qui est synonyme d’« ensemble fini » en mathématiques.

[24] « Informer » et « instruire » sont à cet égard très proches : informer, c’est donner une forme ; instruire, c’est donner une structure.

[25] On a pu définir ainsi la fonction de la synthèse statistique : « consentir une perte en information (au sens de Shannon) pour obtenir un gain en signification (information au sens étymologique) ». Le travail du statisticien est semblable à celui du typographe. La typographie fait perdre l’information que contiennent l’écriture manuscrite, les corrections etc. ; mais la mise en forme du texte imprimé facilite sa lecture et donc le dégagement du sens par le lecteur. De même la synthèse statistique attire l’attention sur les données significatives, ce qui invite à négliger celles qui ne le sont pas : elle prépare ainsi les voies de l’interprétation (voir Michel Volle, Analyse des données, Economica 1997, p. 51).