Préambule
Le but de biologie computationnelle est la compréhension et
l’interprétation de l’information codée et exprimée par le complément génétique
tout entier des organismes biologiques. L’inventaire complète de tout l’ADN qui
détermine l’identité d’un organisme est noté génome. Les systèmes biologiques
sont compliqués qui interagie sous forme d’un réseau multi varié. Ils sont peut
être considérés selon différent nivaux, repartis de la population des
organismes vers les molécules. La nature, l’anatomie, la structure, la
physiologie, la biochimie et l’histoire évolutive d’un organisme définie les
types des problèmes à résoudre. Il existe des raisons médicales et évolutives
significatives pour comprendre la biologie humaine tout en passant pour des
buts comparatifs et explicatifs par d’autres organismes.
1. Aperçu biologique
Les zoos ne donnent pas une impression correcte de ce que
la vie sur Terre, ils surreprésentent les mammifères et des autres vertébrés.
Les organismes vont de bactéries aux plantes et aux animaux multicellulaires,
et ces organismes peuvent employer une variété de stratégies pour extraire
l'énergie de leur environnement, allant de la réduction du sulfate dissous pour
produire H2S jusqu’à la
photosynthèse et la respiration aérobie. Certains organismes peuvent
exister à des températures proches du point d'ébullition (à la pression
atmosphérique) ou au dessous du point de congélation de l'eau. D'autres peuvent
être trouvés dans les roches 3 km au dessous de la surface de la Terre
(bactéries lithotrophes) ou survolant l'Himalaya (oies des neiges).
Néanmoins, l'analyse de séquences d'ARN ribosomique suggère
qu'il existe trois grands domaines connexes des organismes: les Eubactéries
(organismes tels que Escherichia
coli ou Bacillus
subtilis), l’Archaea (bactéries notables pour l'extrême Les
environnements dans lesquels ils peuvent vivre), et les eucaryotes (organismes
avec véritables noyaux, chromosomes hiérarchiquement structurés et complexés
avec des histones, et des organelles liées à la membrane-organismes tels que
les êtres humains ou les champignons). Les relations entre ces groupes et entre
leurs membres représentatifs sont indiquées sur la figure. 1. Deux des trois
grands domaines de la vie sont procaryotes (Eubactéries et les
archéobactéries). Les procaryotes ne contiennent pas un vrai noyau ou organites
liés à la membrane, et leur ADN n’est pas aussi
structuré comme les chromosomes eucaryotes. Les bactéries sont reparties
sur une vaste gamme d'environnements et sont considérées comme la forme de vie
la plus réussie sur cette planète.
Parmi les eucaryotes, il ya une abondance de formes
unicellulaires, appelé protistes. La plupart des organismes ayant cette forme sont marins. Les
données ultrastructurale et moléculaire indiquent que les différents types de
protistes peuvent différer l'une de l'autre plus que les plantes différer des
animaux. Néanmoins, les eucaryotes unicellulaires sont conventionnellement
regroupés dans un royaume appelé "protistes." les groupes
multicellulaires majeurs sont des champignons, des plantes et des animaux. Il
ya environ 300.000 des espèces de plantes et d'environ un million d'espèces
d'animaux décrites. C'est un échantillon biaisé de la biodiversité de la
planète. Parmi les animaux, les mammifères représentent un nombre assez petit
d'espèces. Il ya environ 5000 espèces de mammifères, mais il ya trois fois plus
d'espèces connues de vers plats. Le trois quarts des espèces des animaux
et des insectes sont décrits. En termes
de nombre d'espèces, les insectes pourraient être considérés comme la forme la
plus réussie des animaux terrestres. Il ya des similitudes partagées par tous
les organismes sur cette planète:
- L'unité de base de la vie est la cellule.
- L'énergie chimique est stockée dans l'ATP.
- L'information génétique est codée par l'ADN.
- L'information est transcrite en ARN.
- Il ya un code génétique triplet commune (avec quelques
exceptions).
- La traduction en protéines implique ribosomes.
- Ils sont partagés des voies métaboliques semblables (par
exemple, la glycolyse), avec des étapes catalysées par des protéines.
- Les protéines similaires sont largement distribuées parmi
les divers groupes d'organismes.
Ces propriétés partagées reflètent les relations évolutives
entre les organismes, qui peuvent être utiles pour la compréhension de
l'importance des procédés partage biologique. Par exemple, il existe des
relations entre les voies de la photosynthèse bactérienne avec la photosynthèse
des cyanobactéries et des plantes.
Certains caractères, tels que les voies biochimiques de base, sont tellement centraux
à la vie qu'ils se trouvent dans presque tous les organismes. Des procédés tels
que réplication, réparation de l'ADN, et de la glycolyse (extraction de
l'énergie par la fermentation de glucose) sont présents et mécaniquement
similaire dans la plupart des organismes, et les connaissances générales dans
ces fonctions peuvent être obtenues en étudiant les organismes plus simples
tels que les levures et les bactéries. Il est inutile de tout recommencer à
partir de zéro en essayant de comprendre les fonctions codées dans les génomes
des nouveaux organismes expérimentaux. Pour une étude efficace, les biologistes
ont généralement porté sur des organismes modèles qui idéalement incarner et
illustrer les phénomènes sous enquête. Les organismes modèles sont choisis pour
des raisons pratiques, économiques et médicales. Des études sur ces organismes
sont souvent applicables à d'autres organismes qui pourraient être difficile à
étudier expérimentalement. Par exemple, la génération d'anticorps chez l'être
humain est équivalente au processus qui peut être génétiquement étudié chez la
souris. D'abord, il a été surprenant de découvrir que le développement des
gènes (gènes Hox) commandant la spécification de segment pour le Drosophila a été reflété par des gènes
similaires chez les mammifères, y compris les humains. Les organismes modèle
comprennent des bactéries telles que E.
coli et B. subtilis (maintenant
rejoints par de nombreuses autres bactéries dont les génomes ont été
séquencés), des champignons tels que la levures Saccharomyces cerevisiae et Schizosaccharomyces
pombe, des animaux simples tels que les nématodes Caenorhabditis elegans, des insectes tels que Drosophila melanogaster (la mouche des fruits), des vertébrés
reproduisant rapidement tels que Danio
rerio (Poisson zèbre) et des souris (Mus
musculus), et des plantes telles que Arabidopsis thaliana (Moutarde mauvaises herbes). En plus des
plantes qui sont importantes sur le plan agricole (par exemple, le maïs, ou Zea mays), des animaux
d’intérêts et des humains (pour des raisons médicales).
Après cette brève
description de la complexité et de la portée des systèmes biologiques et des
organismes, dans le reste de ce document, nous tournons vers les niveaux de la
complexité la plus pertinente à la biologie computationnelle. Tout d'abord,
nous discutons de cellules, et nous suivons cela avec une introduction aux
macromolécules d'information. Enfin, nous indiquons certaines des méthodes
expérimentales qui définissent la structure et la portée des approches computationnelles.
2. Les cellules
Sauf pour les virus, toute vie sur cette planète est basée
sur les cellules. Typiquement les cellules ont une taille allant de 2 × 10-6
m à 20 x 10-6 m de diamètre (certaines cellules, telles que les
neurones, peut être beaucoup plus grande). Les cellules séquestrent des réactions biochimiques
dans l'environnement, en maintenant les composants biochimiques à des concentrations
élevées (Ce qui facilite les taux de réaction rapides) tout dans le but d’amplifier
l’information génétique. De pont de vu
structural, il existe deux types différents de cellules: procaryotes et
eucaryotes. Les procaryotes ont des membranes cellulaires et du cytoplasme,
mais l'ADN est non séparé du cytoplasme
par une membrane nucléaire. Au lieu de cela, l'ADN est condensé dans le
nucléoïde, qui est moins très structuré de chromosomes eucaryotes et apparaît
comme une désorganisation "Blob" par microscopie électronique. Les procaryotes
manquent aussi des organelles liées à la membrane telles que les mitochondries
et les chloroplastes. Les cellules procaryotes sont généralement de petite
taille, et ils peuvent avoir une régénération, ou un dédoublage pendant un
temps aussi court que 20-30 minutes. Les eucaryotes (champignons, les mouches,
les souris et les hommes) ont un vrai noyau et des organites liés à la
membrane. La plupart des eucaryotes ont des mitochondries observables, où les
grandes étapes de la respiration aérobie se produisent. Les cellules plante peuvent
contenir des chloroplastes, où il se produit la photosynthèse. Ils peuvent aussi
avoir des vacuoles éminentes et des parois cellulaires composées de cellulose.
Le temps typique de doublement des
cellules eucaryotes à partir d'organismes complexes est nettement plus longue par
rapport aux procaryotes: pour une cellule de mammifère en culture tissulaire, c’est
d'environ 24 heures (même si certaines cellules, telles que les neurones, ne peuvent
pas se diviser en tout). Les cellules sont
organisées en un nombre de composants et compartiments (Figure 2).
La membrane
du plasma «visage» que la cellule montre à l'extérieur le monde est décoré avec
des protéines de transport capables de se déplacer particulier classes de
molécules dans et hors de la cellule. En raison de leur structure plus
compliqué, les cellules eucaryotes ont un partitionnement spatial plus complexe
de différentes réactions biochimiques. Par exemple, la traduction d’une molécule
d'ARNm particulières (acides ribonucléiques issus des copies de l'ADN codant
pour des protéines) se produit sur le réticulum endoplasmique, et la
transformation des polypeptides peut se produire dans l'appareil de Golgi. Le
cytosquelette cellulaire (composé de microtubules, microfilaments, et d'autres
assemblages macromoléculaires) aides pour le trafic des protéines et d'autres
composants cellulaires de point à une autre dans la cellule. La respiration (la
production de la molécule ATP par énergique l'oxydation de composés carbonés en
présence d'oxygène) est localisée sur la membrane des mitochondries. Toutes ces
caractéristiques n’impliquent que des protéines particulières localisées pour une fonction dans certains
compartiments de la cellule, mais pas autres.
Les exigences «alimentaires» les plus simples sont révélés
pour des bactéries. Par exemple, E.
coli peut se développer dans l'eau
contenant du chlorure d'ammonium, le nitrate d'ammonium, du sulfate de sodium,
le phosphate de potassium et le sulfate de magnésium (NH4Cl, NH4NO3,
Na2SO4, KH2PO4 et MgSO4,
respectivement) à un pH de 7,2 avec du
glucose comme le seule source de carbone et d'énergie. L'eau contient généralement des ions
métalliques nécessaires à l'état de traces. Ces substances se jettent dans la
cellule à travers les membranes intérieure et extérieure. D'un seul type de
sucre et avec des précurseurs inorganiques, une seule cellule bactérienne peut
produire environ 109 bactéries dans environ 20 heures. E. coli est
également capable d'importer d'autres composés organiques dans la cellule de
l'extérieur, y compris d'autres types des sucres et des acides aminés,
lorsqu'elles sont disponibles.
Pour faire croître
les cellules animales (par exemple, des cellules humaines) en culture de tissu,
il est nécessaire d’offrir non seulement de glucose et de sels minéraux, mais
aussi une dizaine d'acides aminés et huit ou plusieurs vitamines (plus d'autres
ingrédients). Les cellules eucaryotes doit importer une grande variété de
composants de l'environnement extérieur parce qu’il sont généralement 10 fois
plus grande en dimension linéaire que les cellules procaryotes, leurs volumes
sont environ 103 supérieure à volumes de cellules procaryotes, et la diffusion
peuvent ne pas suffire à déplacer des molécules dans, sur, ou à travers les
cellules. Par conséquent, les cellules eucaryotes utilisent des mécanismes de
protéine et le transport des vésicules pour faciliter l'écoulement de la
matière.
Une autre caractéristique déterminante des eucaryotes est
la machinerie nécessaire pour la gestion du génome pendant la mitose et la
méiose (décrit ci-dessous). Contrairement aux procaryotes, les eucaryotes conditionnent leur ADN dans des
chromosomes hautement ordonnés, qui sont condensés sous forme des molécules
linéaires d'ADN enroulé autour de protéines octamères appelées histones. Comme
il ya souvent beaucoup de chromosomes, les mécanismes de faire en sorte que chaque cellule fille
reçoit un ensemble complet sont nécessaires. Des fuseaux mitotiques sont alors
impliqués qui comprenant des microtubules que sont contribués également au
cytosquelette de la cellule. En outre, des mécanismes de régulation sont
nécessaires pour coordonner la mitose avec la synthèse d'ADN, l’état physiologique
et la taille de la cellule. Ces sont des processus fondamentaux qui sont
partagées par toutes les cellules eucaryotes.
Cette section a brièvement présenté une variété
d'informations sur la structure et la biochimie des cellules. Les séquences
d'ADN, d'ARN, de protéines et avec qui traitent les bioinformaticiens sont
importants principalement en raison des fonctions qu'ils ont à l'intérieur de
la cellule. Comme nous le verrons, les fonctions relatives à des macromolécules
et des séquences est l'un des problèmes abordés dans le calcul biologie
3. Héritage
3.1 Mitose et la méiose
Chaque chromosome eucaryote contient une
molécule d'ADN duplex avec des protéines
histones pour former un complexe macromoléculaire. Les séquences de bases
contenues dans les molécules d'ADN chromosomiques sont le résultat d'un
ensemble des processus évolutifs qui ont eu lieu au fil du temps. Ces processus
sont intimement liés à la façon dont les chromosomes se recombinent et la façon
dont ils sont copiés lors de la synthèse d'ADN qui se termine par la division
cellulaire. Les procaryotes sont généralement haploïde lorsqu'ils ne sont pas
en division active, et ils ont souvent (mais pas dans tous les cas) un seul chromosome circulaire ADN contenant
106 à 107 pb (paires de bases) de l'ADN. L'ADN est typiquement hérité
verticalement, ce qui signifie que la transmission est de parents aux cellules
fille. Dans des conditions de croissance rapide ou avant la division
cellulaire, il peut avoir des multiples
copies de tout ou une partie du chromosome procaryote, et à l'exception pour
les erreurs de réplication à basse fréquence, les séquences d'ADN sont
généralement identiques.
Dans de telles circonstances, la
recombinaison ne produit pas de nouveaux assemblages des gènes. L'héritage est
clonale dans le sens que les descendants sont plus ou moins des copies fidèles
d'un ADN ancestrale. Ce mode d'hérédité apparemment statique peut être modifié
par des éléments transposables, par des systèmes de conjugaison et par
acquisition de l'ADN externe (transformation), mais ces phénomènes intéressants
sont au-delà de la portée de cette introduction. Les organismes sexuels tels
que les mammifères sont habituellement diploïde, ce qui signifie qu’ils
contiennent des N paires de chromosomes (visibles en microscopie optique comme
chromatine souillé). Si le nombre haploïde de chromosomes d'un organisme est N,
le corps (somatiques) des cellules de cet organisme contiennent 2n chromosomes.
Il y a deux types fonctionnels de chromosomes: autosomes, qui ne sont pas
associés à la détermination du sexe, et les chromosomes sexuels. Les humains,
par exemple, ont 22 paires des autosomes et deux chromosomes sexuels: deux
chromosomes X chez les femelles, et X +
Y pour les hommes. Pendant le cycle de reproduction des organismes sexuels, les
tissus de la lignée germinale produisent des cellules sexuelles ou gamètes
haploïdes: ovules de femelles et
spermatozoïdes mâles. La Fusion
des gamètes après l'accouplement produit un zygote, qui fera l'objet de
développement pour former un nouvel organisme.
Le cycle sexuel implique une alternance
entre les cellules ayant 2N chromosomes ou N chromosomes:
Parent 1: 2N → Gamete 1: N
+
→ Zygote: 2N
Parent 2: 2N → Gamete 2: N
Le procédé de la réplication et de la réduction de nombre
de chromosomes de 2N à N est appelé la méiose, qui se limite aux cellules
germinales. La méiose réduit le nombre de chromosomes de moitié parce que le
doublement des chromosomes est suivi par deux divisions cellulaires. La
croissance et le développement du zygote est en grande partie effectué par un
processus répété de doublement chromosomique suivie par une division cellulaire
d'un processus appelé mitose. Les cellules destinées à devenir des cellules
germinales sont habituellement soumises à des différents mécanismes de contrôles différents des corps typique, ou des cellules
somatiques. La mitose des cellules somatiques n’est pas génétiquement
significative sauf pour les contributions que ces cellules peuvent apporter à
la réussite de la reproduction (par exemple, la mitose menant à coloré le
plumage dans certains oiseaux mâles). Les mécanismes génétiques opèrent
principalement au cours la formation et la fusion des gamètes.
Vue d'ensemble de la méiose (voir Fig. 1.3)
Etape A: chromatides de chromosomes partenaires
correspondant de chaque parent à recombiner. Étape B: recombinaison des chromosomiques partenaires (appelés
bivalents) dans le milieu de la cellule lors de
préparation de la première division cellulaire méiotique. Étape C: les
bivalents se séparent, et un chromosome de chaque type se déplace aux pôles
opposés de la cellule. Un ou les deux peuvent être des chromatides recombinant.
Étape D: l’achèvement de la première division méiotique produit deux cellules, chacune
contenant un certain nombre haploïde de chromosomes, mais chaque chromosome a
deux chromatides. Étape E: ségrégation de
chromosomes jusqu'à au centre de la cellulaire en préparation pour la
deuxième division de la méiose. Etape F: Lors de la deuxième division de la
méiose, les bivalents dans chaque chromosome dupliqué sont divisés, et l'un de
chaque type est dirigée vers l'une des deux cellules filles. Les cellules
résultantes sont haploïdes par rapport au nombre de chromosomes, et ils ne
contiennent qu'un seul équivalent génome. Les chromosomes sont reproduits une
seule fois, avant la prophase I. Ainsi, il existe quatre copies de chaque
chromosome par cellule au début d'un processus qui, à travers deux divisions
cellulaires, va augmenter le nombre de cellules par 4. La métaphase I /
anaphase I conduit à la séparation des chromosomes homologues, tout en
métaphase II / anaphase II conduit à la séparation des chromatides sœurs. La
recombinaison (prophase I) peut impliquer de multiples croisements avec deux
chromatides. Notez qu'à l’anaphase I et II, les chromosomes d'origine d'un
parent n'a pas besoin de migrer vers le même pôle: l’assortiment est
indépendant et aléatoire. Seul l'un des produits de la méiose II devient l'œuf
dans vertébrés femelles.
3.2 Recombinaison et
Variation
La recombinaison entre
les chromatides non sœurs a des conséquences génétiques extrêmement
importantes. Les fréquences et les contraintes de ce processus déterminent la
carte génétique, les haplotypes et les blocs de synténie conservée. (Nous
allons définir ces termes dans les paragraphes suivants.) Ce sont des
propriétés importantes en génétique, analyse génétique des populations et du
génome. Chaque ADN chromosomique peut
contenir des formes alternatives de gènes donnés (une forme alternative d'un
gène particulier est appelé un allèle de ce gène). En raison de la
recombinaison au cours de la méiose, des combinaisons d'allèles dans les
chromosomes de gamètes sont habituellement différent des combinaisons trouvées
dans les chromosomes parentaux. Ainsi, chaque gamète produit par les parents
tirés d'une population représente un roman de combinaison d'allèles qui étaient
présents dans la population, et la résultante variation produite dans les
générations successives est évolutivement "testé" contre
l'environnement. Une autre source de variation est la production de nouveaux
allèles par mutation (changement dans la séquence de base; voir ci-dessous). En
outre, il est possible pour des processus de recombinaisons normales "dérailler",
conduisant à des insertions, délétions, ou duplications de séquences plus
longues de la séquence d'ADN chromosomique. Ces changements aussi sont des
matières premières pour le changement évolutif.
Les chromosomes analysés
lors de projets de génome présentent des caractéristiques pour le processus de
recombinaison. L'une des premières tâches consiste à établir une correspondance
entre la séquence d'ADN et la carte génétique. La carte génétique enregistre
l'ordre des gènes et les distances approximatives entre eux sur leurs
chromosomes respectifs. Les gènes sont identifiés dans la génétique classique
par mutations particulières, parfois appelées marqueurs génétiques. L'ordre des
gènes est déterminé par croisements génétiques (de l'accouplement intentionnel
d'organismes ayant des gènes mutants), et les distances sont mesurées en termes
de fréquences de recombinaison (Souvent mesurée en centimorgans). Un
centimorgan correspond à une fréquence de combinaison de 1%, ce qui signifie
que deux marqueurs ou des gènes qui apparaissent en même temps sur le même
chromosome sont séparées l'une de l'autre par recombinaison à une fréquence de
0,01 au cours de la méiose. La recombinaison est plus probable pour séparer
deux marqueurs éloignés que deux proches, et la fréquence recombinaison entre
deux marqueurs est liée à la distance physique séparant eux. Les gènes qui ont
tendance à être hérités ensembles sont dits être génétiquement lié. Si les
allèles génétiquement liés de plusieurs gènes sur un chromosome sont si
rapprochées qu'elles sont rarement séparées par recombinaison, cette
constellation d'allèles peuvent persister pendant une longue période de temps.
Des combinaisons particulières des allèles portés sur les chromosomes simples
sont appelés haplotypes, et des fréquences de divers haplotypes au sein d'une
population permet de caractériser la structure de populations et peuvent
permettre la reconstruction de l'histoire de l'évolution d'une population.
Sur une échelle de temps
plus longue, la recombinaison peut brouiller les cartes génétiques des espèces
apparentées. Par exemple, si les espèces B et C sont tous deux les descendants
de l'ancêtre A, l'ordre des gènes sur les chromosomes de B et C peut ne pas
être identiques. Néanmoins, il peut y avoir des groupes de gènes liés sur un
seul chromosome dans B et qui sont également liés à un chromosome particulier
de C. Cette circonstance est appelé synténie conservée (figure 1.4A). Si
l'ordre d'un ensemble de gènes est la même dans les deux B et C, l’ensemble de gènes est décrit comme un
segment conservé, et si une haute densité "points de repère"
apparaissent dans le même ordre sur un chromosome unique dans chacun des deux
espèces, cet ensemble de monuments définit un segment synténique. (Dans
certains contextes, les segments conservés et les segments synténiques sont
aussi appelés des liens conservés ou des groupes de gènes colinéaires). Un
ensemble de segments adjacents est synténiques sont appelés un bloc synténique,
ils peuvent comporter des inversions et des permutations des segments
synténiques C par rapport à B (Fig. 1.4B).
Les nombres et les tailles de ces
blocs synténiques sont révélés lorsque des séquences du génome de deux
organismes sont comparées, et ces blocs sont des signatures de l’événement
évolutif séparant B et C de A. Il est possible de comparer les génomes de
plusieurs organismes connexes et faire des déductions sur leurs relations
évolutives (à savoir, les degrés comparatifs de parenté). Un calcul
significatif du problème est la construction d'arbres phylogénétiques sur la
base de séquences ou les commandes de gènes.
Même si il n'y avait pas
de recombinaison, l'ADN des gamètes différerait à partir de l'ADN des cellules
en raison d'erreurs de parents qui se produisent à basse fréquence lors de la
réplication de l'ADN. Ces erreurs se produisent à une fréquence de 10-6-10-10
par paire de base pour chaque division cellulaire (en fonction de la cellule,
de génome, et d'ADN polymérase impliquée). Si des erreurs se produisent au sein
d'un gène, le résultat peut être une mutation reconnaissable (altération de la
séquence de bases dans un gène ou de ses
éléments de commande). La base de changements au niveau de la séquence d'ADN
n’est pas mené toujours à des phénotypes reconnaissables, en particulier si
elles affectent la troisième position d'un codon (trois bases successives de
l'ADN qui codent pour un acide aminé particulier lors de la traduction). À la
suite des mutations qui se produisent dans le temps, une position dans l'ADN
(que ce soit dans les gènes ou dans d'autres régions du génome) peuvent
contenir des paires de bases différentes pour des représentants différents
d'une population, et cette variation peut être mesurée à des positions
particulières de nucléotides dans les génomes de nombreux membres de cette population.
Cette variation, lorsqu'elle se produit comme une substitution isolée de paires
de bases, est appelé un seul polymorphisme de nucléotide, ou SNP (en anglais
prononcer "snip").