Friday, June 26, 2015

Introduction à la biologie computationnelle//Macherki M E

Préambule

Le but de biologie computationnelle est la compréhension et l’interprétation de l’information codée et exprimée par le complément génétique tout entier des organismes biologiques. L’inventaire complète de tout l’ADN qui détermine l’identité d’un organisme est noté génome. Les systèmes biologiques sont compliqués qui interagie sous forme d’un réseau multi varié. Ils sont peut être considérés selon différent nivaux, repartis de la population des organismes vers les molécules. La nature, l’anatomie, la structure, la physiologie, la biochimie et l’histoire évolutive d’un organisme définie les types des problèmes à résoudre. Il existe des raisons médicales et évolutives significatives pour comprendre la biologie humaine tout en passant pour des buts comparatifs et explicatifs par d’autres organismes.
1. Aperçu biologique
Les zoos ne donnent pas une impression correcte de ce que la vie sur Terre, ils surreprésentent les mammifères et des autres vertébrés. Les organismes vont de bactéries aux plantes et aux animaux multicellulaires, et ces organismes peuvent employer une variété de stratégies pour extraire l'énergie de leur environnement, allant de la réduction du sulfate dissous pour produire H2S jusqu’à la  photosynthèse et la respiration aérobie. Certains organismes peuvent exister à des températures proches du point d'ébullition (à la pression atmosphérique) ou au dessous du point de congélation de l'eau. D'autres peuvent être trouvés dans les roches 3 km au dessous de la surface de la Terre (bactéries lithotrophes) ou survolant l'Himalaya (oies des neiges).
Néanmoins, l'analyse de séquences d'ARN ribosomique suggère qu'il existe trois grands domaines connexes des organismes: les Eubactéries (organismes tels que Escherichia coli ou Bacillus subtilis), l’Archaea (bactéries notables pour l'extrême Les environnements dans lesquels ils peuvent vivre), et les eucaryotes (organismes avec véritables noyaux, chromosomes hiérarchiquement structurés et complexés avec des histones, et des organelles liées à la membrane-organismes tels que les êtres humains ou les champignons). Les relations entre ces groupes et entre leurs membres représentatifs sont indiquées sur la figure. 1. Deux des trois grands domaines de la vie sont procaryotes (Eubactéries et les archéobactéries). Les procaryotes ne contiennent pas un vrai noyau ou organites liés à la membrane, et leur ADN n’est pas aussi  structuré comme les chromosomes eucaryotes. Les bactéries sont reparties sur une vaste gamme d'environnements et sont considérées comme la forme de vie la plus réussie sur cette planète.
Figure 1 : Les relations phylogénétiques entre les organismes (panneau A) et parmi les animaux (panneau B). Les relations ancêtre-descendant sont présentées comme un arbre avec des ancêtres communs partagés correspondant aux nœuds à la gauche de groupes descendants. L'arbre a été considérablement simplifié. Toute "brindille" donnée sur le droit peut encore être subdivisé pour indiquer les groupes descendants plus en détail. Il y a habituellement une bifurcation à chaque nœud, mais dans les cas pour lesquels l'ordre de ramification est inconnu, il peut y avoir trois (ou plus) des groupes de descendants issus d'un nœud particulier. Le groupe B indique les groupes des animaux sur la base du plan de corps (Bilateria), de processus de développement embryologique (protostomes ou deuterostomes), et les caractéristiques physiologiques ou anatomiques. Ecdysozoa versé leur enveloppe extérieure, Lophotrochozoa partager un type d'alimentation appendice ou le type larvaire, et possèdent une chordata notocorde à un certain stade de développement. Les données de Pennisi (2003) et Knoll et Carroll (1999).



Parmi les eucaryotes, il ya une abondance de formes unicellulaires, appelé protistes. La plupart des  organismes ayant cette forme sont marins. Les données ultrastructurale et moléculaire indiquent que les différents types de protistes peuvent différer l'une de l'autre plus que les plantes différer des animaux. Néanmoins, les eucaryotes unicellulaires sont conventionnellement regroupés dans un royaume appelé "protistes." les groupes multicellulaires majeurs sont des champignons, des plantes et des animaux. Il ya environ 300.000 des espèces de plantes et d'environ un million d'espèces d'animaux décrites. C'est un échantillon biaisé de la biodiversité de la planète. Parmi les animaux, les mammifères représentent un nombre assez petit d'espèces. Il ya environ 5000 espèces de mammifères, mais il ya trois fois plus d'espèces connues de vers plats. Le trois quarts des espèces des animaux et  des insectes sont décrits. En termes de nombre d'espèces, les insectes pourraient être considérés comme la forme la plus réussie des animaux terrestres. Il ya des similitudes partagées par tous les organismes sur cette planète:
- L'unité de base de la vie est la cellule.
- L'énergie chimique est stockée dans l'ATP.
- L'information génétique est codée par l'ADN.
- L'information est transcrite en ARN.
- Il ya un code génétique triplet commune (avec quelques exceptions).
- La traduction en protéines implique ribosomes.
- Ils sont partagés des voies métaboliques semblables (par exemple, la glycolyse), avec des étapes catalysées par des protéines.
- Les protéines similaires sont largement distribuées parmi les divers groupes d'organismes.
Ces propriétés partagées reflètent les relations évolutives entre les organismes, qui peuvent être utiles pour la compréhension de l'importance des procédés partage biologique. Par exemple, il existe des relations entre les voies de la photosynthèse bactérienne avec la photosynthèse des cyanobactéries et  des plantes. Certains caractères, tels que les voies biochimiques de base, sont tellement centraux à la vie qu'ils se trouvent dans presque tous les organismes. Des procédés tels que réplication, réparation de l'ADN, et de la glycolyse (extraction de l'énergie par la fermentation de glucose) sont présents et mécaniquement similaire dans la plupart des organismes, et les connaissances générales dans ces fonctions peuvent être obtenues en étudiant les organismes plus simples tels que les levures et les bactéries. Il est inutile de tout recommencer à partir de zéro en essayant de comprendre les fonctions codées dans les génomes des nouveaux organismes expérimentaux. Pour une étude efficace, les biologistes ont généralement porté sur des organismes modèles qui idéalement incarner et illustrer les phénomènes sous enquête. Les organismes modèles sont choisis pour des raisons pratiques, économiques et médicales. Des études sur ces organismes sont souvent applicables à d'autres organismes qui pourraient être difficile à étudier expérimentalement. Par exemple, la génération d'anticorps chez l'être humain est équivalente au processus qui peut être génétiquement étudié chez la souris. D'abord, il a été surprenant de découvrir que le développement des gènes (gènes Hox) commandant la spécification de segment pour le  Drosophila a été reflété par des gènes similaires chez les mammifères, y compris les humains. Les organismes modèle comprennent des bactéries telles que E. coli et B. subtilis (maintenant rejoints par de nombreuses autres bactéries dont les génomes ont été séquencés), des champignons tels que la levures Saccharomyces cerevisiae et Schizosaccharomyces pombe, des animaux simples tels que les nématodes Caenorhabditis elegans, des insectes tels que Drosophila melanogaster (la mouche des fruits), des vertébrés reproduisant rapidement tels que Danio rerio (Poisson zèbre) et des souris (Mus musculus), et des plantes telles que Arabidopsis thaliana (Moutarde mauvaises herbes). En plus des plantes qui sont importantes sur le plan agricole (par exemple, le maïs, ou Zea mays), des  animaux d’intérêts  et des humains  (pour des raisons médicales).

Après cette brève description de la complexité et de la portée des systèmes biologiques et des organismes, dans le reste de ce document, nous tournons vers les niveaux de la complexité la plus pertinente à la biologie computationnelle. Tout d'abord, nous discutons de cellules, et nous suivons cela avec une introduction aux macromolécules d'information. Enfin, nous indiquons certaines des méthodes expérimentales qui définissent la structure et la portée des approches computationnelles.
2. Les cellules
Sauf pour les virus, toute vie sur cette planète est basée sur les cellules. Typiquement les cellules ont une taille allant de 2 × 10-6 m à 20 x 10-6 m de diamètre (certaines cellules, telles que les neurones, peut être beaucoup plus grande). Les  cellules séquestrent des réactions biochimiques dans  l'environnement, en maintenant les  composants biochimiques à des concentrations élevées (Ce qui facilite les taux de réaction rapides) tout dans le but d’amplifier l’information génétique. De pont de vu  structural, il existe deux types différents de cellules: procaryotes et eucaryotes. Les procaryotes ont des membranes cellulaires et du cytoplasme, mais  l'ADN est non séparé du cytoplasme par une membrane nucléaire. Au lieu de cela, l'ADN est condensé dans le nucléoïde, qui est moins très structuré de chromosomes eucaryotes et apparaît comme une désorganisation "Blob" par microscopie électronique. Les procaryotes manquent aussi des organelles liées à la membrane telles que les mitochondries et les chloroplastes. Les cellules procaryotes sont généralement de petite taille, et ils peuvent avoir une régénération, ou un dédoublage pendant un temps aussi court que 20-30 minutes. Les eucaryotes (champignons, les mouches, les souris et les hommes) ont un vrai noyau et des organites liés à la membrane. La plupart des eucaryotes ont des mitochondries observables, où les grandes étapes de la respiration aérobie se produisent. Les cellules plante peuvent contenir des chloroplastes, où il se produit la photosynthèse. Ils peuvent aussi avoir des vacuoles éminentes et des parois cellulaires composées de cellulose. Le temps typique  de doublement des cellules eucaryotes à partir d'organismes complexes est nettement plus longue par rapport aux procaryotes: pour une cellule de mammifère en culture tissulaire, c’est d'environ 24 heures (même si certaines cellules, telles que les neurones, ne peuvent pas se diviser en tout). Les cellules sont organisées en un nombre de composants et compartiments (Figure 2). 
Figure 2 : Certains des principaux composants d'une cellule animale (pas nécessairement dessinés à l'échelle). Certaines fonctions (par exemple, les filaments intermédiaires, centrioles, les peroxysomes) n’ont pas été représenté. Dans les organismes multicellulaires, les cellules sont fréquemment en contact et en communication avec d'autres cellules dans les tissus, mais les jonctions intercellulaires et les contacts avec le matrice extracellulaire ne sont pas représentés.




La membrane du plasma «visage» que la cellule montre à l'extérieur le monde est décoré avec des protéines de transport capables de se déplacer particulier classes de molécules dans et hors de la cellule. En raison de leur structure plus compliqué, les cellules eucaryotes ont un partitionnement spatial plus complexe de différentes réactions biochimiques. Par exemple, la traduction d’une molécule d'ARNm particulières (acides ribonucléiques issus des copies de l'ADN codant pour des protéines) se produit sur le réticulum endoplasmique, et la transformation des polypeptides peut se produire dans l'appareil de Golgi. Le cytosquelette cellulaire (composé de microtubules, microfilaments, et d'autres assemblages macromoléculaires) aides pour le trafic des protéines et d'autres composants cellulaires de point à une autre dans la cellule. La respiration (la production de la molécule ATP par énergique l'oxydation de composés carbonés en présence d'oxygène) est localisée sur la membrane des mitochondries. Toutes ces caractéristiques n’impliquent que des protéines particulières  localisées pour une fonction dans certains compartiments de la cellule, mais pas autres.
Les exigences «alimentaires» les plus simples sont révélés pour des bactéries. Par exemple, E. coli peut se développer dans  l'eau contenant du chlorure d'ammonium, le nitrate d'ammonium, du sulfate de sodium, le phosphate de potassium et le sulfate de magnésium (NH4Cl, NH4NO3, Na2SO4, KH2PO4 et MgSO4, respectivement) à un  pH de 7,2 avec du glucose comme le seule source de carbone et d'énergie. L'eau contient généralement des ions métalliques nécessaires à l'état de traces. Ces substances se jettent dans la cellule à travers les membranes intérieure et extérieure. D'un seul type de sucre et avec des précurseurs inorganiques, une seule cellule bactérienne peut produire environ 109 bactéries dans environ 20 heures. E. coli est également capable d'importer d'autres  composés organiques dans la cellule de l'extérieur, y compris d'autres types des sucres et des acides aminés, lorsqu'elles sont disponibles.
Pour faire croître les cellules animales (par exemple, des cellules humaines) en culture de tissu, il est nécessaire d’offrir non seulement de glucose et de sels minéraux, mais aussi une dizaine d'acides aminés et huit ou plusieurs vitamines (plus d'autres ingrédients). Les cellules eucaryotes doit importer une grande variété de composants de l'environnement extérieur parce qu’il sont généralement 10 fois plus grande en dimension linéaire que les cellules procaryotes, leurs volumes sont environ 103 supérieure à volumes de cellules procaryotes, et la diffusion peuvent ne pas suffire à déplacer des molécules dans, sur, ou à travers les cellules. Par conséquent, les cellules eucaryotes utilisent des mécanismes de protéine et le transport des vésicules pour faciliter l'écoulement de la matière.
Une autre caractéristique déterminante des eucaryotes est la machinerie nécessaire pour la gestion du génome pendant la mitose et la méiose (décrit ci-dessous). Contrairement aux procaryotes, les  eucaryotes conditionnent leur ADN dans des chromosomes hautement ordonnés, qui sont condensés sous forme des molécules linéaires d'ADN enroulé autour de protéines octamères appelées histones. Comme il ya souvent beaucoup de chromosomes, les mécanismes de faire en sorte que chaque cellule fille reçoit un ensemble complet sont nécessaires. Des fuseaux mitotiques sont alors impliqués qui comprenant des microtubules que sont contribués également au cytosquelette de la cellule. En outre, des mécanismes de régulation sont nécessaires pour coordonner la mitose avec la synthèse d'ADN, l’état physiologique et la taille de la cellule. Ces sont des processus fondamentaux qui sont partagées par toutes les cellules eucaryotes.
Cette section a brièvement présenté une variété d'informations sur la structure et la biochimie des cellules. Les séquences d'ADN, d'ARN, de protéines et avec qui traitent les bioinformaticiens sont importants principalement en raison des fonctions qu'ils ont à l'intérieur de la cellule. Comme nous le verrons, les fonctions relatives à des macromolécules et des séquences est l'un des problèmes abordés dans le calcul biologie
3. Héritage
3.1 Mitose et la méiose
Chaque chromosome eucaryote contient une molécule d'ADN duplex  avec des protéines histones pour former un complexe macromoléculaire. Les séquences de bases contenues dans les molécules d'ADN chromosomiques sont le résultat d'un ensemble des processus évolutifs qui ont eu lieu au fil du temps. Ces processus sont intimement liés à la façon dont les chromosomes se recombinent et la façon dont ils sont copiés lors de la synthèse d'ADN qui se termine par la division cellulaire. Les procaryotes sont généralement haploïde lorsqu'ils ne sont pas en division active, et ils ont souvent (mais pas dans tous les cas)  un seul chromosome circulaire ADN contenant 106 à 107 pb (paires de bases) de l'ADN. L'ADN est typiquement hérité verticalement, ce qui signifie que la transmission est de parents aux cellules fille. Dans des conditions de croissance rapide ou avant la division cellulaire, il peut avoir  des multiples copies de tout ou une partie du chromosome procaryote, et à l'exception pour les erreurs de réplication à basse fréquence, les séquences d'ADN sont généralement identiques.
Dans de telles circonstances, la recombinaison ne produit pas de nouveaux assemblages des gènes. L'héritage est clonale dans le sens que les descendants sont plus ou moins des copies fidèles d'un ADN ancestrale. Ce mode d'hérédité apparemment statique peut être modifié par des éléments transposables, par des systèmes de conjugaison et par acquisition de l'ADN externe (transformation), mais ces phénomènes intéressants sont au-delà de la portée de cette introduction. Les organismes sexuels tels que les mammifères sont habituellement diploïde, ce qui signifie qu’ils contiennent des N paires de chromosomes (visibles en microscopie optique comme chromatine souillé). Si le nombre haploïde de chromosomes d'un organisme est N, le corps (somatiques) des cellules de cet organisme contiennent 2n chromosomes. Il y a deux types fonctionnels de chromosomes: autosomes, qui ne sont pas associés à la détermination du sexe, et les chromosomes sexuels. Les humains, par exemple, ont 22 paires des autosomes et deux chromosomes sexuels: deux chromosomes X chez les femelles, et  X + Y pour les hommes. Pendant le cycle de reproduction des organismes sexuels, les tissus de la lignée germinale produisent des cellules sexuelles ou gamètes haploïdes: ovules de femelles et  spermatozoïdes mâles. La  Fusion des gamètes après l'accouplement produit un zygote, qui fera l'objet de développement pour former un nouvel organisme.
Le cycle sexuel implique une alternance entre les cellules ayant 2N chromosomes ou N chromosomes:
Parent 1: 2N Gamete 1: N
                                                                     +                                    Zygote: 2N
Parent 2: 2N Gamete 2: N
Le procédé de la réplication et de la réduction de nombre de chromosomes de 2N à N est appelé la méiose, qui se limite aux cellules germinales. La méiose réduit le nombre de chromosomes de moitié parce que le doublement des chromosomes est suivi par deux divisions cellulaires. La croissance et le développement du zygote est en grande partie effectué par un processus répété de doublement chromosomique suivie par une division cellulaire d'un processus appelé mitose. Les cellules destinées à devenir des cellules germinales sont habituellement soumises à des différents mécanismes  de contrôles différents  des corps typique, ou des cellules somatiques. La mitose des cellules somatiques n’est pas génétiquement significative sauf pour les contributions que ces cellules peuvent apporter à la réussite de la reproduction (par exemple, la mitose menant à coloré le plumage dans certains oiseaux mâles). Les mécanismes génétiques opèrent principalement au cours la formation et la fusion des gamètes.

Vue d'ensemble de la méiose (voir Fig. 1.3)
Figure 3 suivie de  deux chromosomes lors de la méiose. Il est particulièrement processus important qui se produisent au cours de la prophase I, le début de la première division méiotique. À la suite de la synthèse de l'ADN qui a eu lieu au cours de l'interphase, chaque chromosome a été déjà dupliqué pour générer une paire de chromatides sœurs. (Chromatides sont des précurseurs de chromosomes qui ne sont pas encore séparés par méiose.) Les chromosomes Correspondant de chaque parent (maternelle et paternels copies du chromosome 7, par exemple), sont alignés les uns avec les autres, et la recombinaison se produit entre la mère et les chromatides correspondant paternels (À savoir, entre chromatides nonsister). La recombinaison est un processus de rupture et de rejoindre des chromosomes ou de l'ADN, et quand cela se produit au nivaux de des régions correspondant d'une paire de molécules semblables, le résultat est un échange de ces régions entre les deux molécules. Ce type de recombinaison est dite recombinaison homologue entre des séquences pratiquement identiques.



Etape A: chromatides de chromosomes partenaires correspondant de chaque parent à recombiner. Étape B: recombinaison des  chromosomiques partenaires (appelés bivalents) dans le milieu de la cellule lors de  préparation de la première division cellulaire méiotique. Étape C: les bivalents se séparent, et un chromosome de chaque type se déplace aux pôles opposés de la cellule. Un ou les deux peuvent être des chromatides recombinant. Étape D: l’achèvement de la première division méiotique produit deux cellules, chacune contenant un certain nombre haploïde de chromosomes, mais chaque chromosome a deux chromatides. Étape E: ségrégation de  chromosomes jusqu'à au centre de la cellulaire en préparation pour la deuxième division de la méiose. Etape F: Lors de la deuxième division de la méiose, les bivalents dans chaque chromosome dupliqué sont divisés, et l'un de chaque type est dirigée vers l'une des deux cellules filles. Les cellules résultantes sont haploïdes par rapport au nombre de chromosomes, et ils ne contiennent qu'un seul équivalent génome. Les chromosomes sont reproduits une seule fois, avant la prophase I. Ainsi, il existe quatre copies de chaque chromosome par cellule au début d'un processus qui, à travers deux divisions cellulaires, va augmenter le nombre de cellules par 4. La métaphase I / anaphase I conduit à la séparation des chromosomes homologues, tout en métaphase II / anaphase II conduit à la séparation des chromatides sœurs. La recombinaison (prophase I) peut impliquer de multiples croisements avec deux chromatides. Notez qu'à l’anaphase I et II, les chromosomes d'origine d'un parent n'a pas besoin de migrer vers le même pôle: l’assortiment est indépendant et aléatoire. Seul l'un des produits de la méiose II devient l'œuf dans vertébrés femelles.
3.2 Recombinaison et Variation
La recombinaison entre les chromatides non sœurs a des conséquences génétiques extrêmement importantes. Les fréquences et les contraintes de ce processus déterminent la carte génétique, les haplotypes et les blocs de synténie conservée. (Nous allons définir ces termes dans les paragraphes suivants.) Ce sont des propriétés importantes en génétique, analyse génétique des populations et du génome. Chaque ADN chromosomique  peut contenir des formes alternatives de gènes donnés (une forme alternative d'un gène particulier est appelé un allèle de ce gène). En raison de la recombinaison au cours de la méiose, des combinaisons d'allèles dans les chromosomes de gamètes sont habituellement différent des combinaisons trouvées dans les chromosomes parentaux. Ainsi, chaque gamète produit par les parents tirés d'une population représente un roman de combinaison d'allèles qui étaient présents dans la population, et la résultante variation produite dans les générations successives est évolutivement "testé" contre l'environnement. Une autre source de variation est la production de nouveaux allèles par mutation (changement dans la séquence de base; voir ci-dessous). En outre, il est possible pour des processus de recombinaisons normales "dérailler", conduisant à des insertions, délétions, ou duplications de séquences plus longues de la séquence d'ADN chromosomique. Ces changements aussi sont des matières premières pour le changement évolutif.
Les chromosomes analysés lors de projets de génome présentent des caractéristiques pour le processus de recombinaison. L'une des premières tâches consiste à établir une correspondance entre la séquence d'ADN et la carte génétique. La carte génétique enregistre l'ordre des gènes et les distances approximatives entre eux sur leurs chromosomes respectifs. Les gènes sont identifiés dans la génétique classique par mutations particulières, parfois appelées marqueurs génétiques. L'ordre des gènes est déterminé par croisements génétiques (de l'accouplement intentionnel d'organismes ayant des gènes mutants), et les distances sont mesurées en termes de fréquences de recombinaison (Souvent mesurée en centimorgans). Un centimorgan correspond à une fréquence de combinaison de 1%, ce qui signifie que deux marqueurs ou des gènes qui apparaissent en même temps sur le même chromosome sont séparées l'une de l'autre par recombinaison à une fréquence de 0,01 au cours de la méiose. La recombinaison est plus probable pour séparer deux marqueurs éloignés que deux proches, et la fréquence recombinaison entre deux marqueurs est liée à la distance physique séparant eux. Les gènes qui ont tendance à être hérités ensembles sont dits être génétiquement lié. Si les allèles génétiquement liés de plusieurs gènes sur un chromosome sont si rapprochées qu'elles sont rarement séparées par recombinaison, cette constellation d'allèles peuvent persister pendant une longue période de temps. Des combinaisons particulières des allèles portés sur les chromosomes simples sont appelés haplotypes, et des fréquences de divers haplotypes au sein d'une population permet de caractériser la structure de populations et peuvent permettre la reconstruction de l'histoire de l'évolution d'une population.
Sur une échelle de temps plus longue, la recombinaison peut brouiller les cartes génétiques des espèces apparentées. Par exemple, si les espèces B et C sont tous deux les descendants de l'ancêtre A, l'ordre des gènes sur les chromosomes de B et C peut ne pas être identiques. Néanmoins, il peut y avoir des groupes de gènes liés sur un seul chromosome dans B et qui sont également liés à un chromosome particulier de C. Cette circonstance est appelé synténie conservée (figure 1.4A). Si l'ordre d'un ensemble de gènes est la même dans les deux B et C,  l’ensemble de gènes est décrit comme un segment conservé, et si une haute densité "points de repère" apparaissent dans le même ordre sur un chromosome unique dans chacun des deux espèces, cet ensemble de monuments définit un segment synténique. (Dans certains contextes, les segments conservés et les segments synténiques sont aussi appelés des liens conservés ou des groupes de gènes colinéaires). Un ensemble de segments adjacents est synténiques sont appelés un bloc synténique, ils peuvent comporter des inversions et des permutations des segments synténiques C par rapport à B (Fig. 1.4B). 

Figue. 1.4. Co-occurrence des gènes ou des séquences emblématiques au sein des chromosomes simples ou lorsque les régions chromosomiques de chromosomes de chacun des deux organismes différents sont comparés. Groupe A: synténie conservée. Dans ce cas, gB1, ..., Gb3 représentent gènes dans B espèces qui ont des homologues GC1, ..., CG3 en espèce C. Panneau B:  segments synteniques et les blocs de synténie. Dans ce cas, gB1, ..., GB5 et similaires des séquences dans l'espèces C en se référant à des séquences historiques sur le génome, qui peut être plus nombreux que les gènes pour produire une densité plus élevée du marqueur.  Les segments synténiquessont sont conceptuellement similaire aux segments conservés, sauf que dans ce dernier cas, il peut y avoir des microrearrangements inaperçues en raison de la densité de marqueur faible.


Les nombres et les tailles de ces blocs synténiques sont révélés lorsque des séquences du génome de deux organismes sont comparées, et ces blocs sont des signatures de l’événement évolutif séparant B et C de A. Il est possible de comparer les génomes de plusieurs organismes connexes et faire des déductions sur leurs relations évolutives (à savoir, les degrés comparatifs de parenté). Un calcul significatif du problème est la construction d'arbres phylogénétiques sur la base de séquences ou les commandes de gènes.
Même si il n'y avait pas de recombinaison, l'ADN des gamètes différerait à partir de l'ADN des cellules en raison d'erreurs de parents qui se produisent à basse fréquence lors de la réplication de l'ADN. Ces erreurs se produisent à une fréquence de 10-6-10-10 par paire de base pour chaque division cellulaire (en fonction de la cellule, de génome, et d'ADN polymérase impliquée). Si des erreurs se produisent au sein d'un gène, le résultat peut être une mutation reconnaissable (altération de la séquence de bases dans un  gène ou de ses éléments de commande). La base de changements au niveau de la séquence d'ADN n’est pas mené toujours à des phénotypes reconnaissables, en particulier si elles affectent la troisième position d'un codon (trois bases successives de l'ADN qui codent pour un acide aminé particulier lors de la traduction). À la suite des mutations qui se produisent dans le temps, une position dans l'ADN (que ce soit dans les gènes ou dans d'autres régions du génome) peuvent contenir des paires de bases différentes pour des représentants différents d'une population, et cette variation peut être mesurée à des positions particulières de nucléotides dans les génomes de nombreux membres de cette population. Cette variation, lorsqu'elle se produit comme une substitution isolée de paires de bases, est appelé un seul polymorphisme de nucléotide, ou SNP (en anglais prononcer "snip").