L'étude scientifique de l'information a débuté en 1924 sous l'égide de mathématiciens et physiciens (Gabor, Hartley, Nyquist, Wiener), mais elle n'a pris toute sa dimension qu'avec l'élaboration de la théorie mathématique de l'information, publiée en 1949 par Shannon et Weaver. Le développement des transmissions télégraphiques imposait, déjà, d'optimiser l'utilisation des canaux de transmission offerts, et donc d'éliminer des données à transmettre tout ce qui n'était pas indispensable à la compréhension.
Ainsi, la théorie de l'information attribue à chaque signifiant élémentaire d'un message une mesure de sa quantité d'information théorique, d'autant plus élevée que ce signifiant est nouveau , c'est-à-dire non déductible des éléments précédents. Inversement, on attribue également une mesure de redondance à chaque élément de message, d'autant plus faible que son poids d'information est fort.
Pour faire comprendre le principe de sa théorie, on rapporte que Shannon se livrait à un petit jeu lors des soirées mondaines : un convive ayant choisi une phrase, les autres doivent, en en connaissant uniquement le début, deviner le mot suivant. Le taux de réussite de l'assistance donne une idée de ce qu'est le poids de redondance , alors que son complément à 1 (100 % - taux de réussite) illustre la notion de poids d'information . Bien que la méthode soit fort grossière, elle permet de mieux approcher des concepts, par ailleurs fort compliqués...
Les systèmes organisés comme les langues naturelles offrent des caractéristiques de redondance bien précises, qui peuvent être exploitées par les systèmes de transport de l'information pour optimiser l'utilisation des canaux disponibles. La fréquence d'utilisation de chaque lettre de l'alphabet, par exemple, constitue une première évaluation de sa probabilité d'apparition ; les caractères qui précèdent permettent également d'améliorer la prédiction (une voyelle, par exemple, est généralement suivie d'une consonne, et ce dans une proportion parfaitement mesurable). En faisant du caractère l'unité minimale d'information, le message étant composé dans une langue donnée, on peut donc parfaitement évaluer ses caractéristiques de redondance. De telles évaluations peuvent également être conduites en utilisant d'autres signifiants élémentaires, par exemple les mots dans le cadre de systèmes de communications utilisant un vocabulaire réduit.
Cependant, il ne faudrait pas déduire de ce qui précède que ce qui est redondant n'est qu'un bruit par rapport au signal principal, et peut donc être supprimé sans altérer le message. Seul un signifiant totalement redondant (situation impossible), qui serait l'illustration d'un événement certain (probabilité égale à 1), pourrait être considéré comme inutile. En outre, la redondance des langages naturels est souvent utile pour faciliter la compréhension d'un message, notamment en cas de dégradation partielle (cf. communications téléphoniques dégradées). La mesure mathématique de la quantité d'information, on l'a compris, n'a qu'un très lointain rapport avec le poids sémantique du message dans son système d'origine.
Shannon définit également l'entropie d'un message, d'une manière comparable à la notion utilisée en thermodynamique. Dans cette discipline, il s'agit d'une grandeur physique qui permet d'évaluer la dégradation de l'énergie d'un système ; on dit souvent que l'entropie mesure le degré de désordre d'un système. Dans la théorie de l'information, l'entropie d'un message indique le poids d'information mathématique qu'il porte, et donc sa compressibilité théorique.
D'un strict point de vue quantitatif, on ne peut que constater que la plupart des langues véhiculaires comprennent beaucoup moins de mots que les possibilités offertes par l'alphabet, et il en est de même de données organisées devant traduire des images et des sons.
[...] le nombre des
images informatiquement possibles en 256 couleurs, au format
512 x 512 pixels, est
gigantesque : 28 X 512 X 512=10704439 x 1073.
Or, 1073 représente le nombre de molécules dans l'univers, ce
qui "contraint" la nature à ne proposer qu'un nombre
infiniment plus faible [...] [Marseau, 1992, p.
15]
Ainsi, les codages traditionnels, qui représentent ou cherchent à représenter toutes les combinaisons théoriques, se révèlent extrêmement simplistes et peu performants. Le codage ASCII sur 7 bits, par exemple, fournit plus de 4 000 milliards de possibilités pour coder les mots de 8 lettres, alors que les dictionnaires de la langue française en comptent moins de 3 000...
En tenant compte des caractéristiques d'entropie des données à traiter, il est donc possible de définir des codages plus performants. Les travaux de Shannon et de ses collaborateurs ont conduit à développer des codages statistiques fondés sur la fréquence d'apparition d'une information.
| La théorie de
l'information s'est attachée, dès les années vingt, à
quantifier les flux nécessaires aux transferts
d'information, ainsi qu'à optimiser l'utilisation des
voies de communication en recherchant les codages les
plus adaptés. Shannon et Weaver ont développé une théorie mathématique qui attribue à chaque signifiant élémentaire un poids d'information d'autant plus élevé qu'il est non déductible du contexte. Le degré de complexité, ou, en référence à la thermodynamique, de désordre du message considéré est quantifié par son entropie. |
Que chacun se rassure cependant, il n'est pas nécessaire d'avoir lu - et compris - les uvres complètes de Shannon et Nyquist pour comprendre les principes fondamentaux des techniques de compression, pas plus d'ailleurs que pour utiliser un micro-ordinateur !
On retrouve dans les divers articles concernant la compression des évaluations de performances difficilement comparables, dans la mesure où elles ne sont pas fondées sur les mêmes principes. Il semble donc utile de préciser les moyens de mesurer la compression qui sont retenus par les spécialistes [Plume, 1993].
Le degré de réduction des données obtenu par une méthode de compression peut être évalué au moyen du quotient de compression défini par la formule :
Le taux de compression, généralement exprimé en pourcentage, est l'inverse du quotient de compression.
Le gain de compression est également exprimé en pourcentage ; c'est le complément à 1 du taux de compression.
| Un fichier original de 2 000 signes compressé en 800 signes présente un quotient de compression de 2,5, un taux de compression de 40 %, et un gain de compression de 60 %. |
| Sommaire |