# Travaux pratiques de génétique humaine 
# Identification d'un gène impliqué dans des infertilités ovariennes prématurées

Dans ce notebook, vous allez commencez l'analyse génétique de la famille consanguine MO1.  
Ce TP vous permettra de mettre en pratique et d'approfondir les notions vues en cours.   

<div class="alert alert-block alert-info"> 
   
<em>   <b>Commencez par faire une copie de ce notebook, par sécurité. </b><br>
Rappel : Vous pouvez prendre des notes directement dans ce notebook, en ajoutant une cellule Markdown en cliquant sur l'icône <kbd>➕</kbd> dans la barre des menus, et en choisissant son format dans le menu déroulant. 
</em>
</div>

<mark>Si vous ajoutez des cellules avec vos commentaires, ou que vous modifiez des cellules existantes, **n'oubliez pas d'enregistrer votre notebook**.<mark>

---
### Introduction générale aux Travaux Pratiques de Génétique Humaine

Vous cherchez à identifier le gène en cause dans des cas d'insuffisance ovarienne prématurée (IOP) observés au sein d'une même famille (codée MO1 par souci de confidentialité). Une **analyse de liaison** va servir à mettre en évidence les régions du génome partagées entre individus atteints. En troisième séance, vous réaliserez une analyse de résultats d'un **séquençage d'exome** afin d'identifier le  variant en cause dans la famille. Cette famille présente une boucle de consanguinité. Vous disposez des données de génotypage de microsatellites et de SNPs (Single Nucleotide Polymorphisms) répartis sur la totalité du génome.
Les séances 3 et 4 des travaux pratiques vous aideront à vous familiariser avec les techniques de séquençage massif (NGS) et les analyses de ces données.

Les notions abordées pendant les quatre séances de TP seront :
- TP1 : l'analyse de liaison génétique entre les marqueurs (microsatellites et SNP) et le variant génétique en cause dans l'IOP et l’identification des régions de liaison génétique ;
- TP2 : la délimitation des régions de liaison et des loci en cause sur les cartes génétique et physique du génome et la reconstitution des haplotypes transmis des parents aux enfants ; les gènes présents dans les régions liées à l'IOP et leur type.
- TP3 : la collecte des informations fonctionnelles sur les gènes candidats, l'introduction au séquançage d'exomes, les types de variants et leur visualisation
- TP4 : le filtrage des variants et l'identification du variant causal de l'IOP dans la famille étudiée.

---
## TP1 : Analyse de liaison


Le but de ce premier TP est de vous familiariser avec :
- l'analyse de liaison génétique adaptée à l'espèce humaine, par la méthode des lod-scores
- les paramètres importants pour cette méthode
- l'interprétation de vos résultats de liaison
- des analyses sur génome entier, grâce au programme d'analyse génétique MERLIN


### __A - Première partie : réflexion sur le modèle de maladie__  


L'analyse de liaison par la méthode du Lod score repose sur un **modèle** reflétant le mode de transmission du caractère étudié (ici l'IOP).   Le choix du modèle, ou des différents modèles possibles, s’effectue sur la base de l’observation de l’arbre généalogique et des caractéristiques des patients (par exemple l’âge d’apparition de la maladie, l’observation de symptômes identiques ou au contraire seulement similaires avec variabilité phénotypique, etc…).   
  
Les différents paramètres à prendre en compte pour une analyse de liaison sont :
- la fréquence de l'allèle maladie, estimée sur la base des informations disponibles sur la prévalence de la maladie  
- le modèle probable de transmission de la maladie
- les valeurs des différentes pénétrances qui découle de ce modèle

Ces paramètres sont fournis dans le fichier **modele.txt**, fourni dans cet environnement (à gauche).  
Affichez son contenu avec la commande suivante (c'est à dire exécutez la cellule Code suivante)

In [1]:
### Cellule Code n° 1
# Affichage du contenu du fichier modele.txt (le nom du fichier est fourni en argument de la commande)
# la commande head permet de lire le début d'un fichier. 
# Sans autre précision (par défaut), elle affiche les 10 premières lignes du fichier indiqué. 

head modele.txt


POF	0.01	0,0.8,1.6	modele1
POF	0.01	*	modele2
	SEX = FEMALE	0,0,0.5
	OTHERWISE	0,0,0



 **Question 1 -** <span style="color:blue">  Examinez les valeurs indiquées. <br>
Vous paraissent-elles correctes ?  <br> 
Dans la cellule raw qui suit, copiez le contenu du fichier modele.txt, et corrigez les valeurs. </span>

<span style="color:blue"> Puis, au choix : <br>
a- dupliquez le fichier modele.txt, modifiez le nom de la copie (par exemple en ***modele2.txt***), et ajustez les valeurs dans cette copie  <br>
b- créez un nouveau fichier texte à l'aide du launcher, renommez-le (par exemple en ***modele2.txt***), et copiez-y les lignes modifiées dans la cellule raw ci-dessus.  </span>

### __B - Deuxième partie : préparation de l'analyse par le programme MERLIN__  

Vous allez réaliser une analyse de liaison sur génome entier en utilisant le programme MERLIN, qui a la capacité de réaliser des calculs sur un grand nombre de marqueurs génétiques. Pour pouvoir effectuer les tests de liaison génétique, MERLIN a besoin d'informations familiales, des données de génotypage des marqueurs génétiques, de leur position sur la carte génétique et des paramètres d'analyse. Ces données sont renseignées dans quatre « fichiers d'entrée ».

- Informations familiales (correspondant au pedigree) et génotypes des marqueurs pour chaque individu génotypé : **fichier MO1.ped**  
- Position des marqueurs sur la carte génétique : **fichier MO1.map**  
- Fichier donnant l'ordre des locus (marqueurs génétiques) et, s'il est renseigné, la position du statut vis à vis de la maladie dans le fichier MO1.ped : **fichier MO1.dat**
- Fichier donnant les paramètres nécessaires au calcul des Lod scores : **fichier modele.txt** (celui que vous venez de corriger)

Les programmes informatiques ne peuvent exploiter les données des fichiers d'entrée que s'ils respectent des formats précis. Les informations concernant la structure de ces fichiers sont disponibles sur le site de l'University of Michigan et dans le fichier **Tutoriel_Merlin.pdf** (fourni dans l'environnement, à gauche).



Nous allons examiner ces fichiers les uns après les autres pour comprendre leur structure et les informations qui y sont indiqués. 
Ces fichiers sont lourds et ne sont pas contenus dans cet environnement, mais sont disponibles sur Plasma, dans le dossier 
/srv/data/meg-l3-gh/DataTP1/SNP/  

Exécutez la commande suivante pour avoir leur liste :

In [2]:
### Cellule Code n° 2

ls -lh /srv/data/meg-l3-gh/DataTP1/SNP/

total 29M
-rw-rw-r-- 1 scaburet 1005 4.8M Feb 18 11:43 MO1.dat
-rw-rw-r-- 1 scaburet 1005  478 Feb 18 11:43 MO1.don
-rw-rw-r-- 1 scaburet 1005 8.6M Feb 18 11:43 MO1.map
-rw--w-r-- 1 scaburet 1005  15M Feb 18 12:09 MO1.ped
-rw-rw-r-- 1 scaburet 1005 1.3M Feb 18 11:43 MO1.ped.gz
-rw-rw-r-- 1 scaburet 1005   86 Feb 18 11:43 modele.txt


  

---  
**1- Fichier MO1.ped**

Le fichier MO1.ped est trop grand pour être lu facilement dans un tableur ou éditeur de texte, donc n’essayez pas de l’ouvrir !   

Le fichier **MO1.don** contient les dix premières colonnes de ce fichier, c’est celui que vous allez analyser.
Il est fourni directement dans cet environnement (à gauche, dans le dossier **Data**).  

- Lisez avant tout la rubrique « Describing Phenotypes and Genotypes (.ped) » du tutoriel Merlin.
- Ouvrez le fichier **MO1.don** dans le dossier **Data**, en faisant un clic droit sur son nom et en choisissant Open. Le fichier va s'ouvrir dans un nouvel onglet de cette partie de la fenêtre.


 **Question 2-** <span style="color:blue">  En utilisant les données fournies dans ce fichier, reconstituez l'arbre généalogique sur cette page :  <br>
    (Une seule page commune pour tout le groupe)
  <br>  </span>


Groupe du Lundi - A (présentiel) : https://docs.google.com/presentation/d/1VVL2RzDHh8SCXqL6WeRCSdBa16z42Eu6ixSSI6fvybc/edit?usp=sharing    
Groupe du Lundi - B (zoom) : https://docs.google.com/presentation/d/1vOvKXIhv1olHuTC8kFmyj58wpNRiQhCgYqlzqujUYmo/edit?usp=sharing    

Groupe du Lundi - A (présentiel, salle FF) : https://docs.google.com/presentation/d/1kjPSgZTbtS299Cc0IjAlYpy_vN40ccgbQxMzN4_2Sdo/edit?usp=sharing  
Groupe du Lundi - B (présentiel, salle SC) :  https://docs.google.com/presentation/d/19j76XhiOCa627yXz-arr5KyVPSLeTHfdBjXbw2c-qMM/edit?usp=sharing  
Groupe du Lundi - C (zoom) : https://docs.google.com/presentation/d/1kjPSgZTbtS299Cc0IjAlYpy_vN40ccgbQxMzN4_2Sdo/edit?usp=sharing

---  
**Fichier MO1.dat**

Le fichier MO1.dat décrit la position dans le fichier MO1.ped (et donc dans le fichier MO1.don pour les 10 premières colonnes) du statut vis à vis de la maladie et des marqueurs génétiques successifs.

- Lisez avant tout la rubrique « Describing the pedigree file » du tutoriel Merlin.
- Affichez le début du fichier MO1.dat avec la commande suivante : 


In [3]:
### Cellule Code n° 3
# L'argument -n ajouté à la commande head permet de modifier le nombre de lignes affichées. 
# Ici on indique qu'on veut voir les 20 premières lignes du fichier MO1.dat

head -n 20 /srv/data/meg-l3-gh/DataTP1/SNP/MO1.dat

A	POF
 M  SNP_A-1780619 
 M  SNP_A-1780618 
 M  SNP_A-1780617 
 M  SNP_A-1780778 
 M  SNP_A-1780616 
 M  SNP_A-1780613 
 M  SNP_A-1780419 
 M  SNP_A-1780612 
 M  SNP_A-1780418 
 M  SNP_A-1780611 
 M  SNP_A-1780610 
 M  SNP_A-1780415 
 M  SNP_A-1780576 
 M  SNP_A-1780413 
 M  SNP_A-1780412 
 M  SNP_A-1780574 
 M  SNP_A-1780379 
 M  SNP_A-1780572 
 M  SNP_A-1780378 


   

**Question 3 -** <span style="color:blue">En utilisant les données fournies dans les fichiers MO1.don et MO1.dat ainsi que les paramètres corrigiés du fichier de modèle, placez sur votre arbre :  <br>- le génoype attendu au locus maladie <br>- les génotypes des individus pour le marqueur SNP_A-1780618  <br>- les génotypes des individus pour le marqueur SNP_A-1780616 <br>
 </span>

--- 
**Fichier MO1.map**

La fonction du fichier MO1.map est d'indiquer la localisation des marqueurs génétiques dans le génome. Sur votre ordinateur, vous pourriez ouvrir ce fichier dans un tableur (avec des tabulations comme séparateurs de colonnes) ou dans un éditeur de texte simple (pas Microsoft Word, qui ajoute des caractères de formatage invisibles posant problèmes).

- Lisez avant tout la rubrique « Genetic Maps » du tutoriel Merlin.
- Affichez le début du fichier MO1.map avec la commande suivante : 


In [4]:
### Cellule Code n° 4
# L'argument -n ajouté à la commande head permet de modifier le nombre de lignes affichées. 
# Ici on indique qu'on veut voir les 20 premùières lignes du fichier MO1.map

head -n 20 /srv/data/meg-l3-gh/DataTP1/SNP/MO1.map

1	SNP_A-1780619	72.030224900657 
4	SNP_A-1780618	108.086324698038 
18	SNP_A-1780617	52.2532540364436 
5	SNP_A-1780778	78.336700651046 
12	SNP_A-1780616	102.6944788942 
12	SNP_A-1780613	47.2127875126134 
1	SNP_A-1780419	108.402547694204 
1	SNP_A-1780612	190.889722445617 
5	SNP_A-1780418	161.231323294181 
4	SNP_A-1780611	82.9843790042536 
9	SNP_A-1780610	1.98740609553776 
5	SNP_A-1780415	162.620806994332 
1	SNP_A-1780576	119.382918462232 
11	SNP_A-1780413	43.2004618152885 
5	SNP_A-1780412	127.289670065713 
3	SNP_A-1780574	150.666286650988 
13	SNP_A-1780379	72.4507520730385 
8	SNP_A-1780572	23.7189191388835 
8	SNP_A-1780378	119.275532398441 
11	SNP_A-1780377	10.069054565366 


   
**Question 4 -** <span style="color:blue">  Après avoir lu le tutoriel, indiquez les positions des marqueurs " SNP_A-1780619" et " SNP_A-1780618".  <br> A quel type de carte ces positions font-elles référence ?  <br>
 </span>


<div class="alert alert-block alert-info"> 
<b><em> Point de Rendez-vous n°1 :</em></b><br> <br>
    (un petit <kbd>Ctrl</kbd> + <kbd>s</kbd> en passant, histoire d'enregistrer votre notebook :-D)<br>
<br>
    <b>- Mise en commun de vos résultats : </b>comparez vos arbres, sont-ils identiques ? <br>
- Combien de filles atteintes avez-vous placées ? Quels numéros portent-elles ? <br>
   <br> 
<a href="https://www.wooclap.com/L3GHTP1" title="Wooclap Question 4">Wooclap Question 4</a>  <br>  

<br>      
- Votre arbre est-il similaire à celui montré sur les diapos de présentation ? <br>
    - Sinon, pourquoi ? <br>
<br>   
<a href="https://www.wooclap.com/L3GHTP1" title="Wooclap Question 5">Wooclap Question 5</a>  <br>  
<br>
- Pourquoi ne pas avoir génotypé tout le monde ?  <br>
- Quelles conséquences cela peut avoir sur l'analyse de liaison ?<br>
<br>
Localisations possibles du locus maladie :  <br>
<a href="https://www.wooclap.com/L3GHTP1" title="Wooclap Questions 6 et 7">Wooclap Questions 6 et 7</a>  <br>
- Quelle justification pouvez-vous fournir pour vos réponses ? <br>

<br> 
<em>     
N'oubliez pas que vous pouvez prendre des notes directement dans ce notebook, en ajoutant une cellule Markdown sous celle-ci ou en modifiant les cellules Markdown présentes.
</em>
</div>


---

### __C - Troisième partie : analyse de laison avec MERLIN__  

Vous allez maintenant utiliser Merlin pour réaliser l'analyse de liaison sur génome entier. Merlin va effectuer la même démarche que vous venez d'avoir pour les 2 marqueurs, mais avec les 250 000 marqueurs utilisés pour le génotypage.   

Pour faire tourner Merlin, il vous suffit de lancer la commande **merlin** dans un cellule de code. Ce notebook étant un notebook *bash*, la commande sera comprise par Plasma, et lancée directement par le serveur.  
Exécutez la cellule suivante pour voir le résultat.


In [5]:
### Cellule Code n° 5

merlin

MERLIN 1.1.2 - (c) 2000-2007 Goncalo Abecasis

References for this version of Merlin:

   Abecasis et al (2002) Nat Gen 30:97-101        [original citation]
   Fingerlin et al (2004) AJHG 74:432-43          [case selection for association studies]
   Abecasis and Wigginton (2005) AJHG 77:754-67   [ld modeling, parametric analyses]
   Fingerlin et al (2006) Gen Epidemiol 30:384-96 [sex-specific maps]
   Chen and Abecasis (2007) AJHG 81:913-26        [qtl association analysis, qtl simulation]


The following parameters are in effect:
                     Data File :      merlin.dat (-dname)
                 Pedigree File :      merlin.ped (-pname)
            Missing Value Code :         -99.999 (-xname)
                      Map File :      merlin.map (-mname)
            Allele Frequencies : ALL INDIVIDUALS (-f[a|e|f|m|file])
                   Random Seed :          123456 (-r9999)

Data Analysis Options
         General : --error, --information, --likelihood, --model [param.tbl]
    

: 1

   
**Question 5 -** <span style="color:blue">  Que s'est-il passé ? <br> Que pouvez-vous faire pour remédier à ce problème ?  <br>
 </span>

Vous allez donc composer la commande correcte.   
Lisez la documentation, puis composez votre commande dans la cellule Raw ci-dessous, en indiquant à Merlin les différents éléments dont il a besoin :   
- le chemin vers les différents fichiers d'entrée
- le fait de faire une analyse **simple point**
- l'option permettant d'avoir une sortie vers **un pdf** pour les graphiques
- l'option permettant d'avoir une sortie vers **un fichier tabulé** pour les résultats chiffrés
- l'option permettant d'indiquer les **noms des marqueurs** dans ce fichier tabulé
- l'option permettant de donner un **préfixe** à vos fichiers de sortie
- l'option permettant de **ne pas** afficher tous les résultats dans le notebook ! **TRES important :-D**   


Une fois que votre commande est composée, comparez-la à la commande dans la cellule suivante.    
Pour l'afficher, cliquez sur les 3 **...** ci-dessous.

La commande est maintenant prête à être lancée pour exécution.   
Vous pouvez soit créer une cellule Code et l'y copier, soit exécuter la cellule suivante.

In [None]:
# Cellule Code n°6

merlin -d /srv/data/meg-l3-gh/DataTP1/SNP/MO1.dat -p /srv/data/meg-l3-gh/DataTP1/SNP/MO1.ped -m /srv/data/meg-l3-gh/DataTP1/SNP/MO1.map --model modele2.txt --singlepoint --pdf --prefix MO1-snp --tabulate --markerNames --quiet 


Pendant que Merlin tourne, répondez à la question <a href="https://www.wooclap.com/L3GHTP1" title="Question Wooclap 8">Question Wooclap 8</a>  <br>

Quand Merlin a fini de tourner, ouvrez le fichier résultat **.pdf** (avec un double clic ).   
Laissez un peu de temps pour l'affichage.

**Question 6 -** <span style="color:blue">  Voyez-vous des pics de liaison ?<br> 
   Sur quel(s) chromosome(s) ? <br>
   A quelle valeur de lodscore (environ) ? <br>
</span>

Vous travaillerez sur ces régions de liaison génétique au cours du TP2.   

----  

D'ici là, n'oubliez pas de faire le travail demandé :   


<div class="alert alert-block alert-warning">
  
<b>Travail "à la maison"  à réaliser par groupe de trois étudiants.</b>  

Vous allez écrire un Matériel et Méthodes, concevoir une figure à partir de la courbe de Lod scores générée pendant le TP puis écrirez un petit paragraphe résultats.<br>   
Ce travail doit respecter la forme suivante :  <br>

- le travail est à remettre sous la forme d’un **fichier .pdf** (tout autre format sera refusé) sur Moodle <br> 
<br>    
- **Matériel et Méthodes :** deux paragraphes de quelques lignes qui décrivent : <br>
    - les individus génotypés pour l’analyse de liaison, la nature des marqueurs et la technologie de génotypage  <br>
    - la façon dont vous avez réalisé l’analyse de liaison (le programme utilisé, les fichiers d’entrée dont vous décrirez très brièvement les informations qu’ils contiennent).  <br> 
    NB : pensez à mentionner les paramètres importants pour votre analyse !  <br>
    Remarque : votre lecteur doit être capable de répliquer votre analyse s’il a en sa possession vos données de génotypage. <br>
<br>   
- **Une figure légendée** : la figure est la courbe des Lod scores que vous avez générée pendant le TP. Choisissez un seul chromosome. <br>
  La figure est à légender selon le format classique d’un article, c’est à dire : <br>
   - le numéro de la figure (Figure 1 par exemple…), <br>
   - un titre en gras décrivant rapidement ce qu’illustre la figure, <br>
   - puis quelques lignes décrivant précisément la figure.  <br>
  Votre lecteur doit être capable de lire et interpréter la figure sans aucun autre support que la légende. <br>    
<br>
- **un texte de 10 lignes maximum de résultats.** Ce texte doit indiquer rapidement ce que vous avez fait (une analyse de liaison) sans aller dans des détails techniques. Dans ce texte vous décrivez les résultats obtenus en vous appuyant sur votre figure (et en la citant dans le texte). <br> 
Certains détails importants pour l’interprétation n’apparaissant pas clairement dans la figure doivent être mentionnés dans le texte (par exemple la valeur de Lod score maximum trouvée).   <br>
Après avoir décrit ces résultats vous achèverez ce paragraphe par votre conclusion. <br>
 
</div>

---

<div class="alert alert-block alert-success"><b>Bravo, vous voici arrivés à la fin de votre premier TP sur Plamsa !</b> <br>
    N'oubliez pas de sauver ce notebook pour garder vos notes. <br>
    Vous pouvez en faire un export en format html : 
- Ouvrez "File" dans le Menu<br>
- Selectionnez "Export Notebook As"<br>
- Exportez votre notebook en HTML<br>
- Vous pouvez maintenant l'ouvrir dans un navigateur sans être connecté à Plasma! 
</div>

---

<div class="alert alert-block alert-info"> 
<b><em> Rappels sur les notebooks jupyter :</em></b><br>
- To add a new cell, click on the <kbd>➕</kbd> icon in the toolbar above your notebook <br>
- You can "click and drag" to move a cell up or down <br>
- You choose the type of cell in the toolbar above your notebook: <br>  
        'Code' to enter command lines to be executed <br>
        'Markdown' cells to add text, that can be formatted with some characters <br><br>
- To execute a 'Code' cell, press <kbd>SHIFT</kbd>+<kbd>ENTER</kbd> or click on the <kbd>▶︎</kbd> icon  <br>
- To display a 'Markdown' cell, press <kbd>SHIFT</kbd>+<kbd>ENTER</kbd> or click on the <kbd>▶︎</kbd> icon  <br>
- To modify a 'Markdown' cell, double-click on it <br>
<br>    
<em>  
To make nice html reports with markdown: <a href="https://dillinger.io/" title="dillinger.io">html visualization tool 1</a> or <a href="https://stackedit.io/app#" title="stackedit.io">html visualization tool 2</a>, <a href="https://www.tablesgenerator.com/markdown_tables" title="tablesgenerator.com">to draw nice tables</a>, and the <a href="https://medium.com/analytics-vidhya/the-ultimate-markdown-guide-for-jupyter-notebook-d5e5abf728fd" title="Ultimate guide">Ultimate guide</a>. <br>
Further reading on JupyterLab notebooks: <a href="https://jupyterlab.readthedocs.io/en/latest/user/notebook.html" title="Jupyter Lab">Jupyter Lab documentation</a>.<br>
Here we are using JupyterLab interface implemented as part of the <a href="https://plasmabio.org/" title="plasmabio.org">Plasmabio</a> project led by Sandrine Caburet, Pierre Poulain and Claire Vandiedonck.
</em>
</div>
