La cryptographie dans la littérature :
quand des héros de fictions s’adonnent à la cryptanalyse…
A) « Les Hommes
Dansants » de Conan Doyle
B) « Le Scarabée d’Or » d ‘E.A. Poe
1) Biographie de l’auteur et résumé de
l’histoire
Né à Edimbourg le 22 mai
1859, dans une famille d’origine irlandaise, Arthur Conan Doyle fut élève de la
grande Public School catholique jésuite de Stonyhurst, puis étudiant en médecine
à l’université de sa ville natale. Après avoir, en 1881, obtenu son diplôme de
docteur, il pratique la médecine de 1882 à 1890 en Angleterre. Il s’embarque en
qualité de médecin de bord, voyageant dans les mers arctiques et le long des
côtes africaines. Il prend part aux campagnes du Soudan, de l’Afrique du Sud, à
la Première Guerre mondiale, et donne des conférences dans le monde entier.
Sous l’influence de ses amis il commence à écrire des romans policiers. La
première des soixante-huit histoires mettant en scène Sherlock Holmes paraît en
1887. La personnalité de Holmes, ses qualités de raisonnement déductif et son
ingéniosité furent inspirées à Conan Doyle par l'un de ses professeurs à
l'université. Après l'accueil mitigé fait à ce premier ouvrage, et bien qu’il
ne lui ait rapporté que la somme modique de vingt-cinq livres sterling, Conan
Doyle connut dans sa carrière littéraire un succès si rapide, qu'en 1892 il
abandonna totalement la médecine pour se consacrer à l'écriture, domaine qu’il
maîtrisera avec le talent que l’on sait.
La nouvelle intitulée «Les Hommes Dansants » raconte l’histoire de Mr Hilton Cubitt, un riche héritier récemment marié avec une femme au passé pour le moins trouble (Elsie), qui intercepte régulièrement des messages codés représentants des hommes dansants, messages à destination de sa femme. Il charge alors le célèbre Sherlock Holmes de décoder ces messages pour comprendre ce qui arrive à sa femme, de plus en plus bouleversée.
2) La cryptographie dans
« Les Hommes Dansants »
Pour des raisons de clarté et de rapidité,
nous avons choisi de ponctuer les
textes originaux (considérablement réduits), d’interventions
destinées à expliquer le cryptosystème dans le texte. Nos interventions sont
marquées par une flèche, et sont rédigés dans une police différente.
è Tout d’abord , Sherlock Holmes reçoit des visites régulières de Mr Cubitt, qui lui donne les messages qu’il reçoit tous les jours, écrits à la craie sur les murs de sa propriété. Après avoir cassé le cryptosystème, explique alors à ses amis ce qu’il a fait et comment il y est parvenu :
« J’ai ici devant moi ces œuvres singulières qui pourraient faire sourire si elles n’avaient elles-mêmes prouvé être les signes précurseurs d’une si terrible tragédie. Je connais parfaitement toute les sortes d’alphabets secrets et je suis moi-même l’auteur d’une insignifiante monographie sur le sujet , dans laquelle j’analyse cent soixante codes distincts mais j’avoue que celui-ci m’est entièrement étranger. Le but de ceux qui ont inventé ce système est apparemment de dissimuler que ces caractères délivrent un message tout en donnant l’impression qu’ils ne sont que de hasardeux dessins d’enfants.
« Après
avoir toutefois admis que les symboles représentaient des lettres et appliqué
les règles qui nous guident dans toute forme d’alphabet secret , la solution
était simple.Le premier message à m’être soumis était si court qu’il m’était
impossible de faire plus que de dire avec quelque assurance que le symbole représentait un E. »
è
Voici le premier message, reçu quelque temps
auparavant :
« Comme vous le savez, E est
la lettre la plus commune en anglais et elle domine avec une fréquence si
manifeste que , même dans une phrase courte on peut s’attendre à la trouver
plusieurs fois .Des quinze symboles du premier message, quatre étaient
identiques, il était donc raisonnable de l’identifier comme le E. Il est vrai
que, dans quelque cas, la silhouette portait un drapeau et, en d’autres, non,
mais il était probable, à la façon dont
les drapeaux étaient répartis, qu’ils servaient à couper la phrase en mots.
J’ai admis cela comme hypothèse de travail et j’ai considéré que le E était
représenté par . ».
è Il
s'agit en fait d'une simple substitution monoalphabétique, chaque lettre étant représentée
par un petit bonhomme stylisé. Ce chiffre, conçu pour être utilisé dans la rue
en traçant à la craie des messages courts sur les murs, a un intérêt évident :
une personne non-initiée peut le confondre avec des dessins d'enfants. Il
s'agit donc d'une forme de stéganographie.
« C’est ici qu’intervient la véritable difficulté de l’affaire. L’ordre des lettre anglaises après le E n’est pas très bien marqué et la prédominance que l’on peut démontrer sur un texte moyen peut être inversé dans une seule phrase courte. Approximativement, T, A, O, I, N, S, H, R, D et L est l’ordre numérique d’apparition des lettres ; mais T, A, O, et I sont presque au même rang et il serait parfaitement vain d ‘essayer chaque combinaison jusqu’à l’obtention d’un résultat significatif.
è En effet, on constate que dans la langue anglaise, et d’après le tableau qui suit, la lettre « e » s’impose très nettement par rapport aux autres lettres, tandis que l’ordre est moins marqué pour celles-ci. Un début de cryptanalyse est donc possible.
« J’ai donc attendu du matériel nouveau. Au cours de notre seconde entrevue, M. Hilton Cubitt fut en mesure de m’apporter deux autres phrases brève et un message qui semblait – étant donné l’absence de drapeau – n’être qu’un seul mot. Voici les symboles.
Dans le mot seul, j’avais déjà deux E , en deuxième et quatrième
position, dans un mot de cinq lettres. Cela pouvait « sever »,
« lever » ou « never ». Qu’il s’agisse d’une réponse à une
demande est de loin le plus probable, nous ne pouvons pas en douter. Les
circonstances le désignaient par ailleurs comme un réponse écrite par la femme.
Partant de ce postulat, nous somme à présent en mesure de dire que les symboles
représentent respectivement les lettres N, V
et R.
« J’avais
encore des difficultés considérables à résoudre mais une réflexion heureuse me
mit en possession de plusieurs autre lettres. Je me suis dit que si ces appels
émanaient , comme je le supposait , d’un proche de la jeune femme dans le
passé, une combinaison qui contenais deux E avec trois lettres d’intervalle
pouvait très bien signifier « ELSIE ». A l’examen , je
découvrais qu’une telle combinaison constituait la fin du message répété à
trois reprises. C’était certainement un appel à « ELSIE ». Dans ce
cas j’avais mes L, S et I. Mais de quel genre d’appel pouvait-il s’agir ?
Il n’y avait que quatre lettres dans le mot qui précédait « ELSIE »
et il se terminait par un E. Il s’agissait sûrement du mot « COME ».
J’ai essayé toutes les autres
combinaisons de quatre lettres terminant par E , mais aucune ne
correspondait. J’étais alors en possession du C du O
et du M et je pouvais m’attaquer de nouveau au premier message, le divisant en
mots laissant les points pour chaque symbole inconnu.
Traité
de cette façon, il apparu ainsi :
.M .ERE ..E SL.NE.
La
première lettre ne peut être qu’un A, une découverte des plus utiles, puisqu’il
apparaît rien des moins qu’à trois reprises dans cette phrase courte. Le H est
aussi évident dans les second mot. Ce qui nous donne :
AM HERE A.E SLANE.
Ou en
replissant les vides manifestes:
AM HERE ABE SLANEY
J’avais maintenant tant de lettre que je pouvais passer
avec une considérable assurance au second message, qui se déchiffrait
ainsi :
A.
ELRI.ES.
è
Le second message intercepté était le suivant :
Ici, je ne pouvais
donner de sens qu’en ajoutant T et G aux lettres manquantes et supposer que le
nom était celui de la maison ou de l’auberge où l’auteur était descendu.
L’inspecteur Martin et moi-même avions écouté avec le plus grand intérêt le
récit clair et détaillé des méthodes employées par mon ami et dont le résultat
avait conduit à la maîtrise si totale de nos problèmes.
-
Qu’avez-vous fait alors, monsieur ? S’enquit l’inspecteur.
- J’avais toutes les raisons de penser que cet
Abe Slaney était américain parce que Abe est un diminutif américain et que
c’était une lettre d’Amérique qui avait déclenché l’affaire. J’avais également toutes les raisons de croire qu’il
y avait quelque secrets criminels dans l’histoire. Les allusions de la jeune
femme à son passé et son refus de mettre son mari dans la confidence, ces deux
élément allaient dans ce sens. C’est pourquoi j’ai passé un câble à mon à mon
ami, Wilson Hargrave, de le police de New York, qui a plus d’une fois eu
recours à mes connaissances sur la criminalité londonienne. Je lui demandais si
le nom d’Abe Slaney lui était connu. Voici sa réponse : « Le
plus dangereux filou de Chicago. »Le soir ou je recevais cette réponse,
Hilton Cubitt m’envoyait le dernier message de Slaney. En lettres connues, il
donnait ceci :
ELSIE .RE.ARE TO MEET
THY GO.
L’ajout d’un P et d’un D complétait un message qui me
disait que le vaurien passait de la persuasion aux menaces et ma connaissance
des voyous de Chicago me permettait de savoir qu’il pouvait très rapidement les
mettre à exécution. Je suis immédiatement venu à Norfolk en compagnie de mon
ami et collègue, le docteur Watson, mais malheureusement, seulement à temps
pour découvrir que le pire était déjà survenu. »
è On aura donc finalement le tableau suivant, composé à partir des résolutions de l’imparable Holmes :
Le
cryptosytème par substitution monoalphabétique utilisé par Abe Slaney n’était
pas très performant : en effet, si son cassage a nécessité à Sherlock
Holmes travail et réflexion, on observe que la moindre résolution appuyé par un
tableau des fréquences dans la langue correspondante permet de trouver les
premières lettres puis de finalement casser le code. Cette faiblesse sera
encore vérifiée dans le cryptosystème suivant, c’est-à-dire dans « Le
Scarabée d’Or » d’Edgar Allan Poe.
B) « Le Scarabée
d’Or » d ‘Edgar Allan Poe
1) Biographie
de l’auteur et résumé de l’histoire
Poète, conteur, essayiste et critique
américain, Edgar Allan Poe naît à Boston en 1809 dans une famille d’acteurs
ambulants.
Son père
disparaît bientôt et sa mère, jeune première très admirée tombe malade en
tournée et meurt. Orphelin à l’âge de deux ans, il est alors recueilli par un
riche famille virginienne.
Les
contraintes financières le poussent vers le conte et les nouvelles où il
rencontre un certain succès. Il fait dans son oeuvre l’application systématique
d’une technique de la sensation poussée jusqu’aux frontières du morbide. Ainsi
il publie les Histoires extraordinaires en 1840, les Nouvelles
Histoires extraordinaires en 1845. Il décède en 1849.
C’est la
France qui l’a révélé et placé parmi les plus grands, par la voix de Baudelaire
et de ses traductions d’abord, puis par Mallarmé et Valéry.
« Le
Scarabée d’Or » raconte l’histoire de M. William Legrand,
l’ami du narrateur, qui trouve lors d’une chasse au scarabée (il est
entomologiste) découvre un parchemin apparemment vierge. Cependant, en le
passant par hasard devant un feu, il se rend compte qu’un code est inscrit
dessus. Il découvre alors le trésor d’un pirate (le Capitaine Kid), et explique
les raisons de sa découverte –sa cryptanalyse- à son ami.
2) La
cryptographie dans « Le Scarabée d’Or »
« Au bout de quelques minutes, la casserole étant
parfaitement chauffée, je retirai la bande de vélin, et je m'aperçus, avec une
joie inexprimable, qu'elle était mouchetée en plusieurs endroits de signes qui
ressemblaient à des chiffres rangés en lignes. Je replaçai la chose dans la
casserole, et l'y laissai encore une minute, et, quand je l'en retirai, elle
était juste comme vous allez la voir.
Ici, Legrand, ayant de nouveau chauffé le vélin, le soumit à mon examen. Les caractères suivants apparaissaient en rouge, grossièrement tracés entre la tête de mort et le chevreau :
53 ++++ + 305))6*
;4826)4++.)4++) ;806*;48 + 8 P 60))85 ;1 ++( ; : ++*8
+ 83(88)5* + ;46( ;88*96*?
;8)* ++( ;485) ;5* + 2:* ++( ;4956*2
(5*-4)8 P 8* ;4069285) ;)6+8)4
++++ ; 1( ++9 ;48081 ;8:8 ++1;48 + 85 ;
4)485 + 528806*81(++9 ;48 ;(88 ;4( ++?34 ;48)4++ ;161 ;:188 ; ++ ? ;
[…]
” Dans le cas actuel, - et, en somme, dans tous les cas d'écriture secrète, - la première question à vider, c'est la langue du chiffre : car les principes de solution, particulièrement quand il s'agit des chiffres les plus simples, dépendent du génie de chaque idiome, et peuvent être modifiés. En général, il n'y a pas d'autre moyen que d'essayer successivement, en se dirigeant suivant les probabilités, toutes les langues qui vous sont connues jusqu'à ce que vous ayez trouvé la bonne. Mais, dans le chiffre qui nous occupe, toute difficulté à cet égard était résolue par la signature. Le rébus sur le mot Kidd [ le pirate du texte] n'est possible que dans la langue anglaise. Sans cette circonstance, j'aurais commencé mes essais par l'espagnol et le français, comme étant les langues dans lesquelles un pirate des mers espagnoles aurait dû le plus naturellement enfermer un secret de cette nature. Mais, dans le cas actuel, je présumai que le cryptogramme était anglais.
” Vous remarquez qu'il n'y a pas d'espaces entre les mots. S'il y avait eu des espaces, la tâche eût été singulièrement plus facile. Dans ce cas, j'aurais commencé par faire une collation et une analyse des mots les plus courts, et, si j'avais trouvé, comme cela est toujours probable, un mot d'une seule lettre, a ou I (un, je) par exemple, j'aurais considéré la solution comme assurée.
è Ce principe de précaution a été, cela dit en passant, inventé par César (cf I).
Mais, puisqu'il n'y avait pas d'espaces, mon premier devoir était de relever les lettres prédominantes, ainsi que celles qui se rencontraient le plus rarement. Je les comptai toutes, et je dressai la table que voici :
Le caractère 8 se trouve 33 fois.
Le caractère ; se trouve 26 fois.
Le caractère 4 se trouve 19 fois.
Le caractère ++ et ) se trouve 16 fois.
Le caractère * se trouve 13 fois.
Le caractère 5 se trouve 12 fois.
Le caractère 6 se trouve 11 fois.
Le caractère + et 1 se trouve 8 fois.
Le caractère 0 se trouve 6 fois.
Le caractère 9 et 2 se trouve 5 fois.
Le caractère : et 3 se trouve 4 fois.
Le caractère ? se trouve 3 fois.
Le caractère P se trouve 2 fois.
Le caractère - et . se trouve 1 fois.
” Or, la lettre qui se rencontre le plus fréquemment en anglais est e. Les autres lettres se succèdent dans cet ordre : a o i d h n r s t u y c f g l m w b k p q x z. E prédomine si singulièrement, qu'il est très-rare de trouver une phrase d'une certaine longueur dont il ne soit pas le caractère principal.
è On peut ici se conférer au tableau présenté dans la nouvelle « Les Hommes Dansants ».
”Nous avons donc, tout en commençant, une base d'opérations qui donne quelque chose de mieux qu'une conjecture. L'usage général qu'on peut faire de cette table est évident ; mais, pour ce chiffre particulier, nous ne nous en servirons que très-médiocrement. Puisque notre caractère dominant est 8, nous commencerons par le prendre pour l'e de l'alphabet naturel. Pour vérifier cette supposition, voyons si le 8 se rencontre souvent double ; car l'e se redouble très-fréquemment en anglais, comme par exemple dans les mots : meet, fleet, speed, seen, been, agree, etc. Or, dans le cas présent, nous voyons qu'il n'est pas redoublé moins de cinq fois, bien que le cryptogramme soit très court.
” Donc 8 représentera e. Maintenant, de tous les mots de la langue, the est le plus utilisé ; conséquemment, il nous faut voir si nous ne trouverons pas répétée plusieurs fois la même combinaison de trois caractères, ce 8 étant le dernier des trois. Si nous trouvons des répétitions de ce genre, elles représenteront très-probablement le mot the. Vérification faite, nous n'en trouvons pas moins de 7 ; et les caractères sont ;48. Nous pouvons donc supposer que ; représente t, que 4 représente h, et que 8 représente e, - la valeur du dernier se trouvant ainsi confirmée de nouveau. Il y a maintenant un grand pas de fait.
”Nous n'avons déterminé qu'un mot, mais ce seul mot nous permet d'établir un point beaucoup plus important, c'est-à-dire les commencements et les terminaisons d'autres mots. voyons, par exemple, l'avant-dernier cas où se présente la combinaison ;48, presque à la fin du chiffre. Nous savons que le ; qui vient immédiatement après est le commencement d'un mot, et des six caractères qui suivent ce the, nous n'en connaissons pas moins de cinq. Remplaçons donc ces caractères par les lettres qu'ils représentent, en laissant un espace pour l'inconnu :
t eeth.
”
Nous devons tout d'abord écarter le th comme ne pouvant pas faire partie du mot
qui commence par le premier t, puisque nous voyons, en essayant successivement
toutes les lettres de l'alphabet pour combler la lacune, qu'il est impossible
de former un mot dont ce th puisse faire partie. Réduisons donc nos caractères
à :
t ee,
et reprenant de nouveau tout l'alphabet, s'il le faut, nous concluons au mot tree (arbre), comme à la seule version possible. Nous gagnons ainsi une nouvelle lettre, r, représentée par (, plus deux mots juxtaposés, the tree (l'arbre).
” Un peu plus loin, nous retrouvons la combinaison ;48, et nous nous en servons comme de terminaison à ce qui précède immédiatement. Cela nous donne l'arrangement suivant :
the tree ;4(t?34 the,
ou, en substituant les lettres naturelles aux caractères que nous connaissons,
the tree thr t?3h the.
”Maintenant, si aux caractères inconnus nous substituons des blancs ou des points, nous aurons :
the three thr... h the,
et le mot through (par, à travers) se dégage pour ainsi dire de lui-même. Mais cette découverte nous donne trois lettres de plus, o, u et g, représentées par t, ? et 3.
”Maintenant, cherchons attentivement dans le cryptogramme des combinaisons de caractères connus, et nous trouverons, non loin du commencement, l'arrangement suivant :
83(88, ou egree,
qui est évidemment la terminaison du mot degree (degré), et qui nous livre encore une lettre d, représentée par +.
” Quatre lettres plus loin que ce mot degree, nous trouvons la combinaison :
o 46( 088*),
dont nous traduisons les caractères connus et représentons l'inconnu par un point; cela nous donne:
th.rtee*,
arrangement qui nous suggère immédiatement le mot thirteen (treize), et nous fournit deux lettres nouvelles, 1, et n, représentées par 6 et *.
” Reportons-nous maintenant au commencement du cryptogramme, nous trouvons la combinaison :
53++++ +
”Traduisant comme nous avons déjà fait, nous obtenons
.good,
ce qui nous montre que la première lettre est un a, et que les deux premiers mots sont a good (un bon, une bonne).
” Il serait temps maintenant, pour éviter toute confusion, de disposer toutes nos découvertes sous forme de table. Cela nous fera un commencement de clef :
5 représente a
+ représente d
8 représente e
3 représente g
4 représente h
6 représente i
* représente n
++ représente o
( représente r
; représente t
? représente u
è On
constate donc que ce code est, d’après les études de la partie I, un
cryptosystème par substitution monoalphabétique simple. La facilité avec
laquelle ce code peut être cassé est encore une fois démontrée.
” Ainsi, nous n'avons pas moins de onze des lettres les plus importantes, et il est inutile que nous poursuivions la solution à travers tous ses détails.
Je vous en ai dit assez pour vous
convaincre que des chiffres de cette nature sont faciles à résoudre, et pour
vous donner un aperçu de l'analyse raisonnée qui sert à les débrouiller. Mais
tenez pour certain que le spécimen que nous avons sous les yeux appartient à la
catégorie la plus simple de la cryptographie. Il ne me reste plus qu'à vous
donner la traduction complète du document, comme si nous avions déchiffré
successivement tous les caractères. La voici :
A good glass in the bishop's hostel in the
devil's seat forty-one degrees and thirteen minutes northeast and by north main
branch seventh limb east side shoot from the left eye of the death's-head a
bee-line from the tree through the shot fifty feet out.
(Un bon verre dans l'hôtel de l'évêque
dans la chaise du diable quarante et un degrés et treize minutes nord-est quart
de nord principale tige septième branche côté est lâchez de l’œil gauche de la
tête de mort une ligne d'abeille de l'arbre à travers la balle cinquante pieds
au large.)
[…]
è Ce
message en lui-même ne signifie rien, car la précaution la plus élémentaire,
surtout pour quelqu’un qui cache un trésor de plusieurs millions de dollars,
impose de supprimer la ponctuation dans le texte codé. Il
faut donc la rétablir.