# Extraction des séquences codantes (CDS) annotées sur le génome de la levure *Saccharomyces Cerevisiae*
    
## Enoncé du mini-projet

Le fichier [S_cerevisiae_chromosomes.fna](./S_cerevisiae_chromosomes.fna) est un fichier multi-FASTA qui contient les 16 **séquences chromosomiques** de la levure *Saccharomyces cerevisiae*.

```
>BK006935.2 TPA_inf: Saccharomyces cerevisiae S288c chromosome I, complete sequence
ccacaccacacccacacacccacacaccacaccacacaccacaccacacccacacacacacatCCTAACACTACCCTAAC
ACAGCCCTAATCTAACCCTGGCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTACCCTGTCCCAT
TCAACCATACCACTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATC
...
```

Le fichier [S_cerevisiae_annotations.gff](./S_cerevisiae_annotations.gff) contient les **annotations** du génome de la levure *Saccharomyces cerevisiae*.

```
##gff-version 3
#!gff-spec-version 1.20
#!processor NCBI annotwriter
#!genome-build R64-1-1
#!genome-build-accession NCBI_Assembly:GCA_000146045.2
##sequence-region BK006935.2 1 230218
##species http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=559292
BK006935.2	tpg	region	1	230218	.	+	.	ID=id0;Dbxref=taxon:559292;Name=I;chromosome=I;gbkey=Src;genome=chromosome;mol_type=genomic DNA;strain=S288c
BK006935.2	tpg	region	1	801	.	-	.	ID=id1;Dbxref=SGD:S000028862;Note=TEL01L%3B Telomeric region on the left arm of Chromosome I%3B composed of an X element core sequence%2C X element combinatorial repeats%2C and a short terminal stretch of telomeric repeats;gbkey=telomere
BK006935.2	tpg	gene	1807	2169	.	-	.	ID=gene0;Name=PAU8;gbkey=Gene;gene=PAU8;locus_tag=YAL068C
BK006935.2	tpg	mRNA	1807	2169	.	-	.	ID=rna0;Parent=gene0;gbkey=mRNA;gene=PAU8;product=seripauperin PAU8
BK006935.2	tpg	exon	1807	2169	.	-	.	ID=id3;Parent=rna0;gbkey=mRNA;gene=PAU8;product=seripauperin PAU8
BK006935.2	tpg	CDS	1807	2169	.	-	0	ID=cds0;Parent=rna0;Dbxref=SGD:S000002142,NCBI_GP:DAA06918.1;Name=DAA06918.1;Note=hypothetical protein%3B member of the seripauperin multigene family encoded mainly in subtelomeric regions;gbkey=CDS;gene=PAU8;product=seripauperin PAU8;protein_id=DAA06918.1
...
```

L'objectif de ce mini-projet est de créer un **fichier multi-FASTA** contenant les **séquences** des **CDS** annotées (c'est-à-dire quand la 3e colonne contient "CDS" dans le fichier d'annotations).

Vous trouverez le **nom de la séquence de référence** (1re colonne), les **positions de début** (4e colonne) et **de fin** (5e colonne), le **sens** de la séquence (7e colonne) ainsi que l'**identifiant** associé à la séquence codante (sous-partie "ID=" de la 9e colonne) dans le fichier d'annotations.

Vous pourrez ainsi récupérer la portion de séquence d'intérêt dans le fichier multi-FASTA.

**Exemple de sortie :**

```
>cds0
ATGGTCAAATTAACTTCAATCGCCGCTGGTGTCGCTGCCATCGCTGCTACTGCTTCTGCA
ACCACCACTCTAGCTCAATCTGACGAAAGAGTCAACTTGGTGGAATTGGGTGTCTACGTC
TCTGATATCAGAGCTCACTTAGCCCAATACTACATGTTCCAAGCCGCCCACCCAACTGAA
ACCTACCCAGTCGAAGTTGCTGAAGCCGTTTTCAACTACGGTGACTTCACCACCATGTTG
ACCGGTATTGCTCCAGACCAAGTGACCAGAATGATCACCGGTGTTCCATGGTACTCCAGC
AGATTAAAGCCAGCCATCTCCAGTGCTCTATCCAAGGACGGTATCTACACTATCGCAAAC
TAG
>cds1
ATGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTT
CCTTTTTCGGTCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTAT
TGTCTAAGCCTGAATTCAGTCTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTC
TTGAATTCGTACAACATTAAACGTGTGTTGGGAGTCGTATACTGTTAG
```

## Import des librairies

Voici les librairies qui peuvent vous être utiles.

In [2]:
from Bio import SeqIO
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
import pandas as pd
import matplotlib.pyplot as plt

## Lecture du fichier multi-FASTA

La lecture du fichier multi-FASTA peut se faire de différentes manières. Au choix, vous pouvez utiliser :

1. [Biopython](https://biopython.org/)

    Utilisez l'interface [SeqIO](https://biopython.org/wiki/SeqIO) de [Biopython](https://biopython.org/) afin de convertir le fichier multi-FASTA contenant les séquences des chromosomes de *Saccharomyces cerevisiae* en dictionnaire.

2. Les fonctionnalités de base du langage Python en suivant ces deux grandes étapes :

    - Parcourez en lecture le fichier multi-FASTA,
    - puis créez un dictionnaire (clé : nom de la séquence chromosomique , valeur : séquence chromosomique).

    Point d'attention : dans un fichier au format FASTA, la séquence est souvent répartie sur plusieurs lignes.
    
Dans les deux cas, la dernière ligne de la cellule de code ci-dessous affichera les clés de votre dictionnaire.

In [1]:
# À vous de jouer !

## Lecture du fichier GFF3

### Création du *dataframe*

Créez un *dataframe* avec la librairie [Pandas](https://python.sdv.univ-paris-diderot.fr/17_modules_interet_bioinfo/#174-module-pandas) à partir du fichier au [format GFF3](http://gmod.org/wiki/GFF3) contenant les annotations.

Les colonnes seront nommées de la manière suivante pour plus de lisibilité :

* colonne 1 : seqname
* colonne 2 : source
* colonne 3 : type
* colonne 4 : start
* colonne 5 : end
* colonne 6 : score
* colonne 7 : strand
* colonne 8 : frame
* colonne 9 : attributes

Le format GPP3 n'étant pas un fichier TSV parfait, pensez à bien lire la [documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) de la fonction `.read_csv()`.

La dernière ligne de la cellule de code ci-dessous affichera les 5 premières lignes du *dataframe* créé.

In [2]:
# À vous de jouer !

### Filtrage du *dataframe*

Filtrez le *dataframe* afin de ne conserver que les *features* de type **CDS** et les colonnes d'intérêt suivantes :

* seqname : identifiant de la séquence de référence
* start : position de début de la séquence codante
* end : position de fin de la séquence codante
* strand : brin de la séquence codante
* attributes : informations supplémentaires dont l'identifiant (ID) de la séquence

La dernière ligne de la cellule de code ci-dessous affichera les 5 premières lignes du nouveau dataframe créé.

In [3]:
# À vous de jouer !

## Écriture du fichier multi-FASTA

La sortie attendue doit contenir l'ensemble des séquences codantes (CDS) du génome au **format FASTA**. Le nom du fichier de sortie sera `S_cerevisiae_cds.fasta`.

Les informations de chaque CDS présentes dans le *dataframe* vont permettre d'extraire leurs séquences à partir du dictionnaire contenant les séquences de référence.

Grâce aux positions de début et de fin du *feature* de type CDS, vous pouvez extraire sa séquence à partir du dictionnaire préalablement créé. Dans le cas où l'élement est positionné sur le brin **-**, il faudra « inverse complémenter » la séquence :

```
séquence initiale :               5'-ATGC-3'
séquence complémentaire :         3'-TACG-5'
séquence inverse complémentaire : 5'-GCAT-3'
```

Plusieurs possibilités s'offrent à vous :

1. Si vous avez utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, utilisez également l'interface [SeqIO](https://biopython.org/wiki/SeqIO) et l'objet [SeqRecord](https://biopython.org/wiki/SeqRecord) de [Biopython](https://biopython.org/) afin d'écrire le fichier de sortie au format attendu. La fonction `reverse_complement()` vous sera d'une grande aide.

2. Si vous n'avez pas utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, implémentez vous-même le *reverse complement* avec les fonctionnalités de base du langage Python.

Dans les deux cas, vous aurez besoin d'itérez sur chaque ligne du *dataframe* que vous avez créé. Voici un morceau de code qui pourra vous y aider :
```
# On suppose que le dataframe qui ne contient que les CDS s'appelle cds.
for idx in cds.index:
    seq_ref = cds.loc[idx,"seqname"]
    debut = cds.loc[idx,"start"]
    fin = cds.loc[idx,"end"]
    print(seq_ref, debut, fin)
```

In [5]:
# À vous de jouer !

## Répartition des différents types de *features* sur le génome

Récupérez le nombre de chaque *features* à partir de votre *dataframe*.

Créez un graphique sous forme de barre horizontale via la librairie [Matplotlib](https://matplotlib.org/3.2.1/gallery/lines_bars_and_markers/barh.html) afin de représenter le nombre des différents types de *features* annotés sur le génome.

In [4]:
# À vous de jouer !