Définition

Chaque cellule vivante contient des molécules d'ADN au sein desquelles sont stockées l'ensemble de son information génétique. Une partie correspond à des éléments codants pour des protéines fonctionnelles : les gènes. L'autre partie, longtemps appelée à tort ADN poubelle, contient des éléments qui vont principalement intervenir dans la structure de l'ADN, dans des mécanismes de polymorphisme, d'auto-défense et de régulation. On appelle génome, l'ensemble des molécules d'ADN d'une cellule. Ces molécules peuvent être de natures différentes : chromosome, plasmide et structure virale au sens large. La compréhension et l'analyse des génomes, la génomique, permet de lister l'ensemble des fonctions biologiques d'un organisme et de réaliser des études phylogénétiques complexes.

Les étapes biologiques

Pour accéder au génome, il faut tout d'abord s'assurer que les cellules isolées correspondent bien à un seul individu. Une mauvaise sélection dès le départ pourra générer la reconstruction d'éléments génétiques chimériques. L'ADN est ensuite isolé par des méthodes d'extraction qui vont lyser les membranes plasmiques (et nucléaires chez les eucaryotes) et purifier les molécules d'ADN. Un contrôle qualité de l'extraction est réalisée par une approche spectrale pour estimer la proportion d'ADN et de protéines co-purifiées. Cette étape ne permet pas de détecter d'éventuels inhibiteurs de la PCR qui pourraient être présents également.
L'ADN est ensuite fragmenté en morceau d'environ 500 pb car les technologies de séquençage NGS ont une limite dans la taille de lecture des molécules d'ADN. Elles présentent également une autre limite : pour séquencer un fragment d'ADN, il faut que la machine ait une quantité suffisante pour obtenir un signal robuste. Une étape d'amplification est donc réalisée et permettra à la fois l’isolement des fragments et la fixation d'adaptateurs pour le séquençage. Puis le séquençage à proprement parlé débute et produira un jeu de données de séquences avec leur score de qualité.

Les étapes bioinformatiques

On distingue deux types de traitement de l'information : la qualification des données brutes du séquenceur et la valorisation de l'information génétique. Les premières étapes sont des phases de filtrage qui consistent en la sélection des séquences de bonne qualité (filtering) et/ou la sélection des bases de bonne qualité (trimming). En fonction de la nature de l'expérience, des étapes de détection de chimères de PCR peuvent être également ajoutées.
La seconde étape est la reconstruction des molécules d'ADN à partir des fragments. Il existe deux stratégies : l'utilisation d'un génome de référence comme modèle (mapping) ou la recherche de zone de chevauchement entre les séquences (de novo). Il est également possible de recourir aux deux stratégies pour améliorer la découverte de nouvelles régions inconnues. En fonction de la qualité de la couverture de séquençage, des contigs (assemblage de fragments) sont obtenus et correspondent totalement ou partiellement au chromosome. Si des régions restent manquantes, il est possible d'estimer la taille de la zone manquante pour concaténer les contigs (scaffold).
La dernière étape de la qualification des données brutes est la phase d'annotation. Elle est souvent réalisée à partir du génome de référence de l'espèce, mais une approche plus exhaustive au niveau du royaume est également envisageable. L'annotation des Bactéries et des Archaea reste plus facile car la définition des zones codantes (ORF) est plus constante. Chez les Eucaryotes, il faut tenir compte de contextes génétiques (eg. Kozack) moins contraints.
La phase de valorisation des données de génomique est très vaste et dépend de l'objectif biologique recherché. On trouve :

les analyses phylogénétiques et synténiques pour l'évaluation de proximité entre deux individus ;
les analyses de data-mining fonctionnelles ;
les recherches de structures génétiques (zones répétées, transposons, plasmides, îlots de pathogénicité, etc.) ;
l'assignation phénotypique ;
etc.

Les applications dans le secteur de l'alimentation

La génomique et la bioinformatique ont plusieurs applications dans le domaine de l'agro-alimentaire :

la recherche de l'origine de contamination (microbial source tracking) ;

l'amélioration génétique ;

la recherche de capacités métaboliques (virulence, fermentation, etc.).

Il est également possible de réaliser des analyses bioinformatiques sur l'ensemble des données de génomique disponible afin de réaliser des screenings in-silico selon des fonctions ou des capacités de pathogénicité.
Il est cependant important de noter que la présence d'éléments génétiques ou d'un plasmide n'implique pas obligatoirement une utilisation de cette capacité dans les conditions environnementales. En effet, une régulation génétique et épigénétique s'appliquent sur les gènes. Un plasmide sur-enroulé n'est par exemple pas utilisable par la bactérie tant qu'il n'est pas relaxé via une topo-isomérase.

Les applications de la génomique en agroalimentaire

Définition

Les étapes biologiques

Les étapes bioinformatiques

Les applications dans le secteur de l'alimentation