top of page
  • Photo du rédacteurBeink

Comment j'en suis venue à stocker des données dans de l'ADN

Sommaire:

1- Rencontres et projets

a- Qu'est-ce que l'ADN ?

b- Que signifie "encoder dans de l'ADN" ?

c- Pourquoi stocker de l'information numérique dans de l'ADN ?

2- Encoder la Déclaration des Droits de l'Homme et du Citoyen

a- Un projet d'une grande dimension philosophique et historique

b- Un projet alliant la biologie avec la physique, la chimie et l'informatique

3- Et la suite de cette grande aventure, c'est quoi ?

a- Remise des capsules d'ADN aux Archives Nationales : une première mondiale

b- Création de Biomemory pour valoriser le brevet d'encodage de données numériques dans l'ADN



Rencontres et projets


Janvier 2018, je suis étudiante en 3ème année d'école d'ingénieur en agronomie (ENSAIA), spécialisée en biotechnologies. Tandis que je serai diplômée dès octobre, je souhaite poursuivre mes études par une thèse. Mais pas n'importe quelle thèse, je cherche un sujet suffisamment original complet pour m'inspirer et me donner l'envie d'y investir toutes mes compétences. Alors plutôt que de répondre à des appels d'offre qui ne m'inspiraient qu'à moitié, j'ai pris le problème dans l'autre sens, selon moi, le vrai sens, et je suis partie à la rencontre d'équipes de recherche qui travaillent sur des sujets qui me passionnent. Pour les contacter, j'envoyais un mail racontant qui j'étais, quel était mon parcours, ce que je cherche et leur demandant s'ils seraient disponibles pour une rencontre, afin d'échanger à propos de leurs recherches. Et bien sûr, mon but sous-jacent était de me créer un réseau de contact suffisamment vaste pour dénicher le poste qui me ferait vibrer. C'est dans ce contexte que j'ai rencontré Stéphane Lemaire, directeur de recherche et chef de l'équipe de recherche Biologie de Synthèse et des Systèmes des Microalgues au CNRS. Dans son équipe, pas de poste à pourvoir pour une doctorante, en revanche... une opportunité incroyable, et joliment amenée : apparemment mon CV est celui qu'on attendait pour lancer un projet hors du commun : stocker des données dans l'ADN, il faut bien reconnaitre qu’à ce moment-là, je suis flattée et carrément enthousiaste, vous vous en doutez : j’accepte.


Me voilà donc pas du tout en thèse mais ingénieur d'étude, seule personne travaillant à plein temps sur un projet hors du commun : encoder la Déclaration des Droits de l'Homme et du Citoyen (1789) et la Déclaration des Droits de la Femme et de la Citoyenne (1791) dans de l'ADN.


"Ok c'est bien gentil, on dirait qu'on parle d'un truc de fou, mais qu'est-ce que ça veut dire "encoder dans de l'ADN" en fait ?"


Qu'est-ce que l'ADN ?

JeanneLePeillet©

L'ADN est une jolie molécule, en forme de double hélice, qui se trouve être le support de notre information génétique (c'est une sorte de bibliothèque dans laquelle est rangée chacun de nos gènes). ADN est un acronyme, pour Acide DésoxyRibonucléique, autrement dit : un acide auquel il manque un oxygène ("désoxy") sur une molécule de sucre (le ribose) L'ADN varie d'un individu à un autre (surtout si ceux-ci n'appartiennent pas à la même espèce), en revanche il est le même pour chacune de nos cellules. Chaque cellule de notre corps lit le même ADN.


Mais du coup, vous allez me dire "Comment ça se fait que chacune de nos cellules lise la même information génétique, alors qu'on a plein de cellules différentes ?". Effectivement, une cellule d'oeil n'est pas une cellule de cuir chevelu, car on n'a jamais vu quelqu'un avoir des cheveux qui lui poussent dans les yeux. Et bien l'existence de types de cellules différentes au sein d'un même individu s'explique par le fait que chaque type de cellule lit un chapitre dédié de l'ADN, et non pas tous les chapitre. Une cellule d'oeil lira donc le chapitre "Comment être une bonne cellule d'oeil", mais ne lira pas le chapitre "Quels sont mes droits et mes devoirs en tant que cellule du cuir chevelu".


"Ok, les cellules lisent un gros bouquin appelé ADN donc... Mais elles le lisent dans quelle langue ?". Le langage génétique ne repose pas sur 26 lettres comme l'alphabet français ou anglais, mais juste de 4 lettres, chaque lettre désignant en fait une petite molécule appelée base de l'ADN : A pour adénine, T pour thymine, G pour guanine et C pour cytosine. (Petite précision: on a dit précédemment que l'ADN était une double hélice : aussi, en face de chaque base, se trouve une autre base qui lui fait face. Cette correspondance base-base n'est pas hasardeuse : en face d'un A on trouvera toujours un T et en face d'un C toujours un G !). C'est la juxtaposition de ces lettres qui forme la molécule d'ADN. A certains endroits, cette juxtaposition de lettres formes un "mot génétique" qui a du sens pour la cellule, c'est-à-dire qu'en lisant cette partie là de l'ADN, la cellule sera capable de produire une protéine associée, comme si elle lisait le mode d'emploi de la construction d'un édifice de LEGO par exemple. Ces parties particulières de l'ADN sont appelées les gènes. Il y en a plusieurs répartis le long de l'ADN, séparés par de longues suites de A, T, G et C qui elles en revanche n'ont pas de signification particulière pour la cellule.

JeanneLePeillet©

Que signifie "encoder dans de l'ADN" ?


L'ADN a donc un langage quaternaire, de 4 lettres. Les données numériques (par exemple, cet article de blog que vous êtes en train de lire) sont lues par l'ordinateur dans un langage binaire, constitué uniquement de 0 et de 1. Encoder des données numériques dans l'ADN, c'est donc trouver une correspondance entre le langage numérique et le langage génétique. Plusieurs correspondances ont été imaginées, par exemple :


- Exemple de correspondance compacte : A = 00, T = 11, G = 10, C = 01

Code employé par Georges Church, qui permet d'encoder un maximum d'information dans un minimum de bases d'ADN. Mais n’oublions pas que l’ADN que nous fabriquerons dans le cadre précis de notre projet va être mis dans un organisme vivant (une bactérie) pour sa duplication, il peut avoir un sens biologiquement parlant. Avec ce code-là, il n'existe qu'une seule traduction possible. Ce qui veut dire qui si par malchance (bien que ce soit assez imbrobable) la cellule peut comprendre cette séquence d'ADN et créer une protéine toxique (que ce soit pour l'expérimentateur ou la bactérie) on ne peut pas y remédier.


- Exemple de correspondance flexible : A = 0, C = 0, T = 1, G = 1

Code que j'ai employé au sein de l'équipe de Stéphane Lemaire, permettant d'encoder la même information numérique de plusieurs façons en langage génétique. J'expliquerai l'intérêt de cette méthode ci-après.


Toutes sortes de données peuvent être numériques. Par exemple, le texte de la Déclaration des Droits de l'Homme et du Citoyen peut être réécrit à l'ordinateur (format numérique de type texte) ou bien numérisé (format numérique de type image). Mais on peut aussi citer la musique ou encore les films par exemple.


Une fois qu'on a la séquence génétique que nous avons générée en correspondance avec le fichier numérique que nous souhaitions coder, nous le faisons synthétiser. C'est-à-dire que nous envoyons la séquence de A, T, G, C à une entreprise de séquençage, qui s'occupe d'assembler les bases (molécules qui constitueront ce bout d'ADN) dans l'ordre indiqué. Twist Bioscience est une des entreprises dont l'activité est de synthétiser des bouts d'ADN par exemple. C'est d'ailleurs à eux que nous nous sommes adressés pour réaliser notre projet d'encodage de données dans l'ADN.


Capsules DNA Shell, Imagene

Les fragments d'ADN synthétisés sont ensuite assemblés chimiquement par des enzymes, dans des structures d'ADN circulaires appelées plasmides. Ce sont ces plasmides qui sont ensuite intégrés dans des bactéries, qui vont faire office de moines copistes redoutablement efficaces : elles vont multiplier ces ADN en des milliers de copies, et ce en l'espace de quelques heures seulement. Les plasmides ainsi amplifiés sont ensuite extraits des bactéries afin de s'affranchir de tout être vivant au moment du stockage. Puis il est lyophilisé et encapsulé, dans des capsules conçues spécialement pour stocker de l'ADN, technologie développée par Imagene. Et si on souhaite lire son contenu ? On ouvre la capsule avec un décapsuleur, on dépose une goutte d'eau à l'intérieur pour remettre les molécules d'ADN en suspension, on en prélève une partie et on la dépose sur le lecteur d'un séquençeur d'ADN (nous avons utilisé le MinION développé par Nanopore et qui n'est pas plus grand qu'une clef USB, directemement relié à notre ordinateur !).


Grâce au programme informatique que nous avons développé, ces longues séquences de A, T, G et C sont ensuites retraduites en binaire avant d'être reconverties en texte (ou image selon le fichier de départ) lisible par l'oeil humain.


"Et voilà !"

JeanneLePeillet©

Pourquoi stocker de l'information numérique dans de l'ADN ?


On pourrait se dire que c'est juste de l'esbrouffe pour faire des trucs cools. Alors oui, c'est vrai que c'est très cool, mais en plus ça a un réel intérêt !


Aujourd'hui, comment stockons nous nos données numériques ?

Aujourd'hui, les données numériques que nous stockons (nos photos enregistrées sur notre Drive, nos musiques dans le Cloud, nos vidéos sur Internet, dont les réseaux sociaux, etc) sont hébergées dans des Data Centers, ou centres de données, qui sont de grands hangars renfermant des disques durs en permanence alimentés en électricité. Internet consomme donc en fait énormément d'énergie, rien que pour maintenir tous ces disques de stockage en perpétuel fonctionnement et dans les meilleures conditions de préservation possibles (température et humidité constantes, refroidissement des machines). En fait, si Internet était un pays, il ne serait rien de moins que le 3ème consommateur d'électricité au monde, tout juste derrière la Chine et les Etats-Unis.


A l'intérieur d'un Data Center - OVHCloud

Ces Data Centers présentent de plus l'inconvénient d'une importante emprise au sol. L'ensemble des Data Centers du monde occupe plus de 42 millions de m², soit 1.4 fois la taille de la Belgique entière, et cela sans produire, ni bière, ni frite, ni chocolat... Donc tout un espace qui ne peut être utilisé pour l'agriculture, les forêts ou le logement par exemple.


Et puis les disques durs utilisés actuellement pour stocker nos données numériques doivent être régulièrement changés, déjà parce qu'ils ont des dates de péremption assez courtes, mais aussi parce que les technologies changent (bandes magnétiques, disques SSD, etc...), générant autant de déchets.


En résumé, les méthodes de stockage des données numériques actuelles présentent les limites suivantes :

- elles consomment énormément d'énergie

- prennent de l'espace au sol considérable

- doivent être fréquemment renouvelées


Pourquoi l'ADN est un support de stockage super sexy

L'ADN est le support de l'information génétique depuis le début de la vie sur Terre. Cela fait donc presque 4 milliards d'années que ce support de stockage des données est mis à l'épreuve et perdure. Alors forcément, autant s'en inspirer pour nos propres stockages de données non ?


L'ADN humain contient environ 3.2 milliards de bases (pour rappel, une base est soit un A, un T, un G ou un C). En utilisant le système de correspondance compacte énoncé plus haut, ces 3.2 milliards de bases pourraient stocker 0.8 Go (giga octets) de données. Or, notre ADN on ne le voit même pas à l'oeil nu tellement il s'agit d'une molécule compacte ! Si bien qu'avec une telle technologie, on pourrait stocker l'entièreté d'Internet dans un volume pas plus grand qu'un litre.


(Parenthèse nerd :

Pour la séquence un peu nerd de cet article, voici un court déptail de la capacité de compaction du stockage ADN : avec une densité maximale de 4,5x1020 octets, soit 0,45 Zettabytes (ZB) équivalent à 450 x106 Terabytes (TB) par gramme d'ADN, toutes les données numériques de l'humanité (45 ZB) pourraient tenir dans 100 g d'ADN.

Fin de la parenthèse nerd)


Et les avantages ne s'arrêtent pas là ! Alors qu'on parvient à lire de l'ADN de mammouths à partir de vestiges figés dans la glace pendant des milliers d'années, a-t-on déjà réussi à lire un CD conservé dans de telles conditions, ne serait-ce que quelques années ? L'ADN est une molécule extrêmement stable dans le temps, conservable à température ambiante. Ce qu'il faut en revanche c'est