
En juin 2000, deux groupes rivaux de chercheurs serré la main dans le succès partagé d'une étape importante en biologie - la livraison d'un brouillon du génome humain.
Ce qui a commencé avec une carte incomplète de nos chromosomes s'est depuis transformé en un vaste trésor de séquences individualisées de tous les coins du globe,et dans de nombreuxcasremonte loin dans le temps.
Quelque part dans cet océan d'ADN décodé se trouve l'histoire de notre humanité commune.
Malheureusement, le lire est plus facile à dire qu'à faire. Non seulement la masse de données est un problème, mais les différences subtiles dans les échantillons, les formats divers et les techniques d'analyse donnant la priorité à différents types d'erreurs présentent tous des obstacles à une interprétation unifiée.
Aujourd'hui, des chercheurs du Big Data Institute (BDI) de l'Université d'Oxford au Royaume-Uni ont pris un départ significatif en fusionnant une forêt de plus de 3 600 séquences individuelles de 215 populations en un seul arbre énorme.
Les branches de l'arbre comprennent 231 millions de lignées ancestrales époustouflantes. À sa base se trouve une propagation de racines représentées par huit séquences anciennes et très détaillées du génome humain, avec des milliers d'extraits plus petits utilisés pour confirmer leur place au plus profond de notre passé.
Parmi eux se trouvent trois Néandertal génomes, un génome d'un Dénisovien , et une petite famille qui vivait en Sibérie il y a plus de quatre mille ans.
'Essentiellement, nous reconstruisons les génomes de nos ancêtres et les utilisons pour former une série d'arbres évolutifs liés que nous appelons une' séquence d'arbres '', dit le généticien Anthony Wilder Wohns, qui a dirigé l'étude tout en terminant son doctorat au BDI.
'Nous pouvons alors estimer quand et où ces ancêtres ont vécu.'
Leur méthode de séquence arborescente utilise ce qu'on appelle une structure de données succincte - un concept informatique qui vise à représenter les données dans un espace optimal qui limite également le temps nécessaire pour tout sonder avec des questions.
Nous pourrions appliquer une réflexion similaire lors de l'enregistrement de fichiers sur notre propre ordinateur, en trouvant un compromis entre la compression de documents et leur compression dans de longues listes de dossiers, ou simplement en sauvegardant tout sur le bureau.
Dans ce cas précis, une séquence d'arbres trouve des corrélations entre les différentes branches d'un arbre pour faciliter l'étude des grands pools d'informations.
En transformant les données en graphiques avec des nœuds représentant diverses lignées et en cartographiant les mutations le long des bords, les bases de données génétiques massives peuvent non seulement être comprimées dans un espace relativement petit, mais peuvent être consultées plus facilement par des algorithmes conçus pour rechercher des statistiques intéressantes.
'La puissance de notre approche est qu'elle fait très peu d'hypothèses sur les données sous-jacentes et peut également inclure des échantillons d'ADN modernes et anciens', dit Wohns, qui explique plus en détail leur travail dans la vidéo ci-dessous.
L'incorporation d'étiquettes sur les emplacements géographiques des séquences a permis à l'équipe d'estimer où certains ancêtres communs auraient pu vivre et comment ils se déplaçaient.
Non seulement cela révèle des événements que nous soupçonnons déjà, comme la façon dont les populations humainesémigré d'Afrique, il fait allusion à des changements dans les densités de population au sein des groupes ancestraux que nous apprenons encore, comme le Dénisoviens .
Grâce à l'efficacité de ce processus, l'arbre déjà impressionnant a beaucoup de place pour se développer à mesure que davantage de données génétiques seront disponibles à l'avenir.
L'ajout de millions de génomes supplémentaires ne fera que rendre les résultats plus précis, en identifiant exactement où une nouvelle séquence s'inscrit dans une généalogie qui s'étend à travers le monde.
«Cette généalogie nous permet de voir comment la séquence génétique de chaque personne est liée à l'autre, le long de tous les points du génome», dit Généticien évolutionnaire BDI, Yan Wong.
En pensant encore plus grand, il n'y a aucune raison pour que la même approche ne puisse pas êtreappliqué à d'autres espèces, contribuant peut-être un jour à une tapisserie mondiale de la vie sur Terre.
«Alors que les humains sont au centre de cette étude, la méthode est valable pour la plupart des êtres vivants; des orangs-outans aux bactéries,' dit Résidentiel
'Cela pourrait être particulièrement bénéfique en génétique médicale, en séparant les véritables associations entre les régions génétiques et les maladies des fausses connexions découlant de notre histoire ancestrale commune.'
Cette recherche a été publiée dans La science .