<a href="https://colab.research.google.com/github/dridk/notebook/blob/master/Mooc_TP_alignment.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TP Mooc 

Ce notebook vous guidera pas à pas, afin d'effectuer l'alignement des reads d'un fichier fastq sur un génome de réference et produire un fichier bam visualisable sur IGV.
Pour réduire le temps de calcul, nous travaillerons sur le génome d'Escherichia coli en utilisant des reads générés in silico.

## Comment utiliser ce notebook ? 
Ce notebook est composé de plusieurs cellules pouvant executant des lignes de commandes. Cliquer sur la cellule puis sur la flèche pour executer la commande.    
A tout moment, vous pouvez voir vos fichier en cliquant dans la colonnes de gauche sur l'icone "*dossier*". N'hesitez pas à cliquer sur "*actualiser*" si vous ne voyez pas vos fichiers.



## Installation de l'environement de travail 
La cellule suivante permet de configurer un environement de travail en installant l'outil bwa et samtools.    
Il n'est pas necessaire ici de comprendre les détails de ces commandes.

In [0]:
!wget https://repo.continuum.io/miniconda/Miniconda3-4.5.4-Linux-x86_64.sh && bash Miniconda3-4.5.4-Linux-x86_64.sh -bfp /usr/local
!conda config --add channels bioconda
!conda install -y -q bwa samtools
import sys
sys.path.append('/usr/local/lib/python3.6/site-packages')

# Téléchargement du génome de référence

Cette cellule télécharge un fichier fasta contenant le génome de référence de la bactérie E. coli.     
Vous pouvez le télécharger sur votre ordinateur et l'ouvrir avec un editeur de texte en cliquant sur le lien ci-dessous   
https://raw.githubusercontent.com/dridk/tp_snakemake/master/genom/ecoli.fa

#### Question 1 : 
Combien de base contient ce génome ? 

In [0]:
!wget https://raw.githubusercontent.com/dridk/tp_snakemake/master/genom/ecoli.fa

# Téléchargement du fichier fastq 
Ce fichier fastq contient les reads d'un séquençage d'E. coli.      
Vous pouvez le télécharger sur votre ordinateur et l'ouvrir avec un editeur de texte. 
https://raw.githubusercontent.com/dridk/tp_snakemake/master/sample1.fastq

#### Question 2 : 
Combien de reads contient ce fichier fastq ? 

In [0]:
!wget https://raw.githubusercontent.com/dridk/tp_snakemake/master/sample1.fastq

# Indexation du génome de référence 
En utilisant bwa, nous indexons le fichier ecoli.fa

In [17]:
!bwa index ecoli.fa 

[bwa_index] Pack FASTA... 0.00 sec
[bwa_index] Construct BWT for the packed sequence...
[bwa_index] 0.00 seconds elapse.
[bwa_index] Update BWT... 0.00 sec
[bwa_index] Pack forward-only FASTA... 0.00 sec
[bwa_index] Construct SA from BWT and Occ... 0.00 sec
[main] Version: 0.7.17-r1188
[main] CMD: bwa index ecoli.fa
[main] Real time: 0.036 sec; CPU: 0.010 sec


# Alignement des reads
Nous pouvons maintenant aligner le fichier fastq sur le génome ecoli.fa.
Cette commande produit un fichier SAM, contenant les reads et leurs positions sur le génome. Après l'execution, vous pourez télécharger ce fichier.

#### Question 3 :
- Localiser dans ce fichier les reads et leurs positions.

In [19]:
!bwa mem ecoli.fa sample1.fastq > sample1.sam 

[M::bwa_idx_load_from_disk] read 0 ALT contigs
[M::process] read 1000 sequences (70000 bp)...
[M::mem_process_seqs] Processed 1000 reads in 0.022 CPU sec, 0.022 real sec
[main] Version: 0.7.17-r1188
[main] CMD: bwa mem ecoli.fa sample1.fastq
[main] Real time: 0.030 sec; CPU: 0.026 sec


# Transformation du fichier SAM en BAM 
Le fichier BAM est la forme binaire du fichier SAM, plus souvent utiliser par les autre outils. 
Les commande suivante transforme le fichier SAM en fichier BAM, le trie par ordre des positions et l'index pour créer un fichier sample1.bam.bai.

In [0]:
!samtools view -bS sample1.sam > sample1.unsorted.bam
!samtools sort sample1.unsorted.bam > sample1.bam 
!samtools index sample1.bam

# Visualisation de l'alignement sur IGV
## Télécharger IGV 
- Sur votre ordinateur télécharger IGV : https://software.broadinstitute.org/software/igv/download

## Télécharger vos données
Dans un même dossier : 

- Télécharger le fichier ecoli.fa
- Télécharger le fichier sample1.bam 
- Télécharger le fichier sample1.bam.bai 

## Importer le génome de référence sur IGV
Genome > Load Genome from File ...

![import IGV](https://framapic.org/60dlPcfCjt79/DOh3aM1JoQe4.png)

## Importer le fichier BAM
File > Load from file
![Texte alternatif…](https://framapic.org/bxmSHH5a6qQO/nqYSn1mo6oMP.png)

## Visualiser les reads alignés 

![Texte alternatif…](https://framapic.org/Q82cZbvoYn5Q/xObfqulJABTK.png)


#### Question 4 : 
- Voyez vous une mutation ? Si oui, à quel position ?

