Comment fonctionne le stockage de données numériques grâce à l’ADN ?

Stockage des données numériques de l’ADN : Ces dernières années, les données numériques ont pris une place très importante dans notre vie. Nos données personnelles telles que nos informations personnelles, nos clés numériques, les informations de notre portefeuille numérique, nos mots de passe et nos coordonnées bancaires sont quelques-unes des données cruciales qui doivent être stockées de manière très sécurisée.

L’ordinateur stocke nos données sur ses dispositifs de stockage physique d’une capacité de plusieurs gigaoctets. Le premier dispositif de stockage de données était le tube de Williams, qui a ensuite été remplacé par des tambours magnétiques.

Les cassettes, les CD-Roms, les disquettes, les pan drive, les cartes micro SD et maintenant le stockage dans le cloud sont quelques-unes des unités de stockage connues que nous utilisons depuis longtemps. Séquentiellement dans le temps, la taille de l’unité de stockage se réduit et la capacité de stockage augmente. La totalité des données du monde est stockée sur des supports magnétiques et optiques.

Les unités de stockage de données traditionnelles présentent plusieurs limites : chaque unité de stockage a une capacité de stockage de données limitée, elle peut être perdue ou endommagée, elle peut être corrompue et nous ne pouvons pas stocker de données même pour une période plus longue. Quel sera donc l’avenir du stockage des données numériques ?

L’ADN sera la prochaine grande nouveauté pour le stockage des données numériques à l’avenir. L’ADN est l’avenir de la technologie de stockage des données. Oui, le stockage de données dans l’ADN est désormais une réalité.

Dans cet article, nous allons discuter du processus réel de stockage des données numériques dans l’ADN.

« Un gramme d’ADN peut stocker 1 exaoctet de données pendant 2 000 ans ».

La charge mondiale de données augmente chaque jour et les entreprises de stockage de données doivent investir chaque année des millions d’euros dans de nouvelles installations de stockage.

Comment les données numériques sont-elles stockées dans l’ADN ?

L’ADN est l’unité d’hérédité de tous les organismes vivants de la planète. Il transmet les caractères des parents à la génération suivante, ce qui en fait presque un dispositif de stockage de la mémoire de tous les organismes vivants. En prenant ces informations comme base pour le stockage de données dans l’ADN, le scientifique soviétique Mikhail Neiman a publié en 1964 un article sur l’utilisation de l’ADN comme unité de stockage de données numériques.

La première forme de données codées dans l’ADN était sous la forme d’un modèle de texte HTML, publié par George Church à l’université de Harvard en 2012. Il s’agissait de la première découverte importante dans la technologie de stockage de données dans l’ADN.

« Une molécule organique utilisée pour stocker des données numériques est appelée un stockage de données organique. Il peut s’agir d’ADN, d’ARN ou de protéines ».

Comparaison de différents types de stockage de données :

Type de stockage

Capacité de stockage

Densité de stockage par mm3

Bande magnétique

185 TB

10GB/mm3

Disque optique

1PB

100GB/mm3

Séquence ADN

>1XB

1EB/mm3

Comment fonctionne le stockage des données numériques dans l’ADN ?

Les données numériques sont codées dans une séquence d’ADN, les informations de la séquence correspondante sont synthétisées dans un ADN artificiel et les informations sont décodées en séquençant le brin d’ADN artificiel. C’est le processus exact de stockage et de récupération des données numériques à partir de l’ADN.

L’image représente le processus général de stockage des données numériques de l’ADN

Comment l’ADN conserve-t-il les informations ?

Voici les différentes étapes, permettant aux données numériques d’être stockées dans l’ADN.

Encodage des données dans la séquence d’ADN :

L’ordinateur fonctionne sur un système binaire de 1 et 2. Dans la toute première étape, les données numériques sont incorporées dans l’ADN. L’ADN possède 4 bases azotées : Adénine (A), Cytosine (C), Guanine (G) et Thymine (T). Pour stocker des données dans l’ADN, les bases A, T, G et C de l’ADN sont d’abord converties en codes binaires 1 et 0.

00 pour A, 01 pour G, 10 pour C et 11 pour T sont les codes binaires permettant de stocker les informations. L’information sous forme binaire est convertie en séquence de A, T, G, C. Nous avons maintenant la longue séquence numérique de l’ADN.

Synthèse d’ADN artificiel :

La séquence d’ADN arbitraire peut être alors synthétisée chimiquement sous forme d’un simple brin d’ADN. Sur la base des données de la séquence numérique, chaque nucléotide est ajouté au nucléotide adjacent. Cependant, l’efficacité de la synthèse de l’ADN artificiel est de 99% mais l’erreur de 1% peut créer un problème majeur dans le stockage des données numériques.

Pour surmonter ce problème, un grand nombre de sites de départ parallèles sont mis en place pour produire des copies multiples de la séquence de donnée. Ainsi, si il y a une erreur dans une seule copie, de nombreuses autres copies exactes peuvent être produites.

L’ADN polymérase Taq est une enzyme utilisée dans la synthèse artificielle de l’ADN.

Stockage de l’échantillon :

Nous avons maintenant notre sauvegarde de données sous la forme d’une goutte liquide de plusieurs nanogrammes d’ADN. L’ADN peut être stocké dans un congélateur où il peut être conservé pendant 100 ans ou nous pouvons l’envoyer dans des systèmes de stockage externes (fournis par certaines entreprises) qui peuvent stocker notre ADN pendant plus de mille ans.

L’ADN reste stable dans toutes les conditions difficiles pendant des millions d’années. Néanmoins, certaines séquences peuvent être perdues au fil du temps.

Séquençage de l’ADN :

Pour extraire les données numériques et les ramener à leur forme originale, nous devons séquencer l’ensemble de l’ADN. Le séquençage de l’ADN est un processus qui consiste à lire une séquence d’ADN pour en faire une séquence numérique.

Les nucléotides marqués sont ajoutés de manière complémentaire à notre brin d’ADN. Chaque nucléotide est marqué avec un colorant fluorescent différent. L’intensité de la couleur émise par chaque colorant est enregistrée par le détecteur.

Le processus est répété plusieurs fois avec différents sites de départ, ce qui donne plusieurs séquences parallèles de notre ADN. La séquence qui correspond exactement à notre ADN est sélectionnée et envoyée au décodeur.

Information de décodage :

Enfin, la séquence est renvoyée au décodeur qui décode la séquence d’ADN en langage binaire. Après le décodage, nous pouvons récupérer nos données.

Comparaison des unités de stockage de données en ce qui concerne le temps d’accès et la durabilité.

Durabilité

Type de stockage

Temps d’accès à l’information

3 ans

Disque Flash

Milliseconde

5 ans

HDD (hard disk)

10 seconde

Jusqu’à 30 ans

Bande magnétique

1 minute

Plus de 100 ans

Stockage ADN

Plus de 12 heures

Les scientifiques de Microsoft Research, en collaboration avec l’université de Washington, travaillent sur une technologie de stockage de données numériques sur l’ADN. Cependant, les lacunes dans le séquençage de l’ADN constituent l’erreur majeure dans la récupération des données dans leur forme originale.

Néanmoins, en 2015, Microsoft a annoncé la récupération réussie de 100 % des données stockées dans l’ADN. Les 200 Mo de données de 35 types de fichiers différents ont été récupérés de l’ADN sans aucune erreur et maintiennent l’avenir du stockage de données numériques de l’ADN en vie.

La technique de stockage des données numériques de l’ADN a plusieurs applications très intéressantes.

  • Elle permet de stocker des fichiers divers, tels que des dossiers médicaux antérieurs, des documents juridiques et des dossiers officiels.
  • Dans toutes les conditions, les données stockées dans l’ADN peuvent durer plus de 10 000 ans et c’est garanti.
  • Nous pouvons également stocker l’ensemble de ces données dans de petites bibliothèques de répliquons car elles occupent très peu d’espace.
  • En créant une réalisation d’ADN dans une seule pièce, nous pouvons stocker l’ensemble des données du monde.

Il s’agit d’une énorme unité de stockage de données futuriste, bien que limitée. Le système de stockage de données numériques ADN présente plusieurs limites,

  • Il prend beaucoup de temps pour le stockage, le traitement et le calcul des données.
  • En moyenne, l’ensemble du processus est réalisé en 3 à 4 jours.
  • Le coût est une autre limite majeure. Environ 15MB de stockage de données coûtent jusqu’à 100 000 euros.
  • Il ne peut pas être utilisé comme une clé USB ou une bande magnétique.
  • Si nous voulons extraire un type de fichier spécifique de l’ensemble des archives d’ADN, nous devons séquencer et lire l’ensemble des archives de données d’ADN. Comment pouvons-nous extraire le type spécifique de fichier ?

Le géant technologique Google a déjà lancé un projet de stockage de données numériques sur l’ADN sous le nom de « google genomics ». Cependant, le projet est en phase bêta mais Microsoft aurait acheté 10 millions de brins d’ADN pour mettre en place la technologie de stockage de données numériques par ADN.

Twist Bioscience est maintenant activement impliqué commercialement dans la technologie de stockage des données numériques de l’ADN. Jusqu’à présent, elle a créé environ 2000 exaoctets de données et expédié (décodé) environ 800 exaoctets de données.

Mon guide ultime pour le stockage de données avec l’ADN

Le stockage de données dans une séquence d’ADN n’est pas aussi facile que je l’ai mentionné, mais il n’est pas impossible. Pour stocker des données dans l’ADN, nous devons développer un tout nouveau système d’exploitation pour coder et décoder les séquences d’ADN.

J’ai déjà posé une question : comment extraire le type spécifique de fichier ? Nous devons séquencer l’archive entière pour chaque type de fichier.

Pour extraire un type de fichier spécifique, la technologie PCR peut nous aider à le faire. La technologie PCR permet d’amplifier le type spécifique de fragment d’ADN qui nous intéresse à l’aide de dNTP, d’une amorce, d’un ADN matrice, d’une ADN polymérase Taq et d’un tampon PCR.

Supposons que nous ayons stocké deux fichiers, un fichier audio et un autre fichier texte sur une séquence d’ADN particulière. En marquant le début et la fin de chaque fichier, nous pouvons concevoir un ensemble d’amorces spécifiques pour le type de fichier en question.

La PCR est effectuée à une température de recuit appropriée en utilisant un ensemble d’amorces spécifiques pendant 35 cycles. Dans chaque cycle de PCR, la copie du fragment d’ADN (qui nous intéresse) est amplifiée 2n fois.

À la fin de la PCR, nous avons des millions de copies du fragment d’ADN pour un type de fichier spécifique. Nous pouvons maintenant envoyer un produit PCR pour le séquençage. Les données sont décodées à l’aide des informations de la séquence d’ADN.

Un échantillon d’ADN peut être perdu ou endommagé dans des conditions extrêmes. Pour surmonter ce problème, nous pouvons stocker nos informations numériques d’ADN dans le plasmide spécifique.

Le plasmide est un petit ADN circulaire présent dans les bactéries. À l’aide d’une endonucléase de restriction, nous pouvons couper notre ADN en petits fragments (ou en fonction des différents types de fichiers stockés sur l’ADN).

L’insertion de petits fragments d’ADN dans le plasmide permet de stocker les informations de notre séquence d’ADN dans les bactéries. Nous pouvons conserver ces souches de bactéries pendant une période plus longue.

Nous pouvons également étiqueter chaque type de fichier.

En incorporant un gène marqueur spécifique à notre séquence d’ADN (qui contient des informations spécifiques), nous pouvons étiqueter chaque fichier.

Supposons que nous ayons une séquence d’ADN contenant le fichier texte « Bienvenue dans le nouveau monde ». Avec cette séquence d’ADN, nous avons incorporé un gène marqueur qui code pour la protéine d’enveloppe de la bactérie verte.

Si le gène est exprimé, des colonies de couleur verte sont observées, ce qui indique que notre ADN contenant le fichier texte est présent dans ce génome bactérien.

Bien que la technologie de stockage numérique des données dans l’ADN soit actuellement coûteuse et longue à mettre en œuvre. Néanmoins, elle s’avérera très utile dans un avenir proche.

En conclusion, le stockage de données numériques par ADN sera le seul espoir de stockage de données dans un avenir proche. Il révolutionnera à coup sûr la technologie numérique. J’espère que vous appréciez cet article. Commentez dans la section ci-dessous en vous connectant et dites-nous ce que vous pensez de l’avenir du stockage numérique des données par ADN.