# Projet d’Algorithmique pour la Génomique

## Développement d’une solution de mapping de données de séquençage à haut-débit sur un génome de référence

### Nicolas Parisot & Sergio Peignier
### (D’après Alban Mancheron et Vincent Ranwez)

## Lecture des données de séquençage avec le package *Biopython*

### Génome entier, chromosome par chromosme, de l'organisme *P.falciparum*

Avec le package *Biopython*, chacun des 15 chromosomes de *Plasmodium falciparum* est stocké sous la forme d'une chaîne de caractère dans une liste python appelée **chromosomes**. </p>
C'est sur chacun de ces chromosomes que sera réalisé les opérations de mapping et des transformations préalables au mapping.

In [1]:
from Bio import SeqIO

chromosomes = []

for record in SeqIO.parse("SEQUENCES/P_fal_genome.fna", format="fasta"):
    chromosomes.append(record.seq)


Le code suivant nous donne le nombre total de chromosomes, ainsi que leur taille respective :

In [2]:
print(f"Nombre de chromosomes : {len(chromosomes)}")
print("Taille de chaque chromosomes, de 1 à 15 :")
i = 1
for chromo in chromosomes:
    print(f"Taille du chromosome {i: >2} : {len(chromo):<7} paires de bases")
    i += 1

Nombre de chromosomes : 15
Taille de chaque chromosomes, de 1 à 15 :
Taille du chromosome  1 : 640851  paires de bases
Taille du chromosome  2 : 947102  paires de bases
Taille du chromosome  3 : 1067971 paires de bases
Taille du chromosome  4 : 1200490 paires de bases
Taille du chromosome  5 : 1343557 paires de bases
Taille du chromosome  6 : 1418242 paires de bases
Taille du chromosome  7 : 1445207 paires de bases
Taille du chromosome  8 : 1472805 paires de bases
Taille du chromosome  9 : 1541735 paires de bases
Taille du chromosome 10 : 1687656 paires de bases
Taille du chromosome 11 : 2038340 paires de bases
Taille du chromosome 12 : 2271494 paires de bases
Taille du chromosome 13 : 2925236 paires de bases
Taille du chromosome 14 : 3291936 paires de bases
Taille du chromosome 15 : 34250   paires de bases


### Les *reads*, issus du séquençage à haut-débit du génome d'un individu *P.falciparum*
De la même manière que précédemment, les *reads* sont extraits à l'aide de *Biopython* puis stockés dans une liste python **reads**.

In [3]:
reads = []

for record in SeqIO.parse("SEQUENCES/P_fal_reads.fq", format="fastq"):
    reads.append(record.seq)

In [4]:
print(f"Nombre total de reads : {len(reads)}")
print(f"Taille des reads: {len(reads[0])}")

Nombre total de reads : 1500000
Taille des reads: 100


Comme nous pouvons le voir, le séquençage haut-débit a généré 1.5 millions de *reads*, d'une taille de 100 nucléotides. Pour affiner le mapping, les reads vont être divisés en fragments encore plus petit, appelés **kmer**. 

_____________________

# DC3 on genome

In [5]:
from y_dc3 import dc3
import File_handler

To store all DC3 result, the following comands.

In [10]:
for i,chr in enumerate(chromosomes):
    name = f"P_fal_chromosome_{i+1}"
    file = File_handler.File_handler(name)
    file.export_dc3_result(list(dc3(chr))) # List(numpy) pour régler mais bon 
