# Gestion de différents formats avec biopython

L'interface [biopython](https://biopython.org/) [Bio.SeqIO](https://biopython.org/wiki/SeqIO) permet la manipulation des formats les plus utilisés en bioinformatique.

[Bio.SeqIO](https://biopython.org/wiki/SeqIO) fournit une interface simple et uniforme mais ne traitera que les séquences en tant qu'objets [SeqRecord](https://biopython.org/wiki/SeqRecord). Il existe une autre interface [Bio.AlignIO](https://biopython.org/wiki/AlignIO) pour traiter des fichiers d'alignement de séquences.

Voici quelques exemples d'utilisation de l'interface [Bio.SeqIO](https://biopython.org/wiki/SeqIO).

## Import des librairies

In [1]:
# Gestion des fichiers (Input/Output)
from Bio import SeqIO
# Gestion des séquences
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
# Gestion des features (éléments annotés)
from Bio.Alphabet import generic_dna
from Bio.SeqFeature import FeatureLocation, SeqFeature
# Gestion des fichiers GFF
from BCBio import GFF

## Format FASTA

### Description du format FASTA

Un format [FASTA](https://fr.wikipedia.org/wiki/FASTA_(format_de_fichier)) est composé obligatoirement d'un identifiant de séquence précédé du symbole `>` (et éventuellement suivi d'une description) puis d'une séquence (sur une ou plusieurs lignes).

```
>Identifiant Description
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
```

Pour plus d'informations : [https://fr.wikipedia.org/wiki/FASTA_(format_de_fichier)](https://fr.wikipedia.org/wiki/FASTA_(format_de_fichier)).

### Lecture d'un fichier au format FASTA

Le fichier `Sample_UP000008816_93061.fasta` est issu du protéome de *Staphylococcus Aureus* : https://www.uniprot.org/proteomes/UP000008816.
Seules les 2ères protéines ont été extraites.

#### Parcours avec une boucle

La méthode `parse()` au sein d'une boucle `for` permet de parcourir le fichier FASTA séquence par séquence. A chaque itération de la boucle, un objet [SeqRecord](https://biopython.org/wiki/SeqRecord) est créé à partir duquel on peut accèder à l'identifiant de la séquence, sa description et la séquence elle-même.

In [2]:
# Parcours du fichier FASTA via la fonction parse()
for record in SeqIO.parse("../data/Sample_UP000008816_93061.fasta", "fasta"):
    # Object SeqRecord
    print(record)
    print('---------')
    # Identifiant de la séquence
    print(record.id)
    print('---------')
    # Description de la séquence
    print(record.description)
    print('---------')
    # Séquence (objet Bio.Seq.Seq)
    print(record.seq)
    print('-*-*-*-*-')

ID: sp|O05154|TAGX_STAA8
Name: sp|O05154|TAGX_STAA8
Description: sp|O05154|TAGX_STAA8 Putative glycosyltransferase TagX OS=Staphylococcus aureus (strain NCTC 8325) OX=93061 GN=tagX PE=3 SV=2
Number of features: 0
Seq('MRFTIIIPTCNNEATIRQLLISIESKEHYRILCIDGGSTDQTIPMIERLQRELK...LKR', SingleLetterAlphabet())
---------
sp|O05154|TAGX_STAA8
---------
sp|O05154|TAGX_STAA8 Putative glycosyltransferase TagX OS=Staphylococcus aureus (strain NCTC 8325) OX=93061 GN=tagX PE=3 SV=2
---------
MRFTIIIPTCNNEATIRQLLISIESKEHYRILCIDGGSTDQTIPMIERLQRELKHISLIQLQNASIATCINKGLMDIKMTDPHDSDAFMVIKPTSIVLPGKLDRLTAAFKNNDNIDMVIGQRAYNYHGEWKLKSADEFIKDNRIVTLTEQPDLLSMMSFDGKLFSAKFAELQCDETLANTYNHAILVKAMQKATDIHLVSQMIVGDNDIDTHATSNDEDFNRYITEIMKIRQRVMEMLLLPEQRLLYSDMVDRILFNNSLKYYMNEHPAVTHTTIQLVKDYIMSMQHSDYVSQNMFDIINTVEFIGENWDREIYELWRQTLIQVGINRPTYKKFLIQLKGRKFAHRTKSMLKR
-*-*-*-*-
ID: sp|O05204|AHPF_STAA8
Name: sp|O05204|AHPF_STAA8
Description: sp|O05204|AHPF_STAA8 Alkyl hydroperoxide reductase subunit F OS=Staphylococcus aureus (st

#### Stockage dans une liste

Il est possible de stocker dans une liste, le retour de la méthode `parse()`.
Chaque indice de la liste correspond à un objet [SeqRecord](https://biopython.org/wiki/SeqRecord) et par conséquent à une séquence du fichier [FASTA](https://fr.wikipedia.org/wiki/FASTA_(format_de_fichier)).

In [3]:
# Stockage du fichier FASTA dans une liste
records_list = list(SeqIO.parse("../data/Sample_UP000008816_93061.fasta", "fasta"))
# Identifiant de la première séquence
print(records_list[0].id)
# Identifiant de la dernière séquence
print(records_list[-1].id)

sp|O05154|TAGX_STAA8
sp|O05204|AHPF_STAA8


#### Stockage dans un dictionnaire

La méthode `to_dict()` de SeqIO permet de stocker dans un dictionnaire le contenu du fichier [FASTA](https://fr.wikipedia.org/wiki/FASTA_(format_de_fichier)).
En clé, l'identifiant de la séquence et en valeur, l'objet [SeqRecord](https://biopython.org/wiki/SeqRecord) associé.

In [4]:
# Stockage du fichier FASTA dans un dictionnaire
record_dict = SeqIO.to_dict(SeqIO.parse("../data/Sample_UP000008816_93061.fasta", "fasta"))
print(record_dict["sp|O05204|AHPF_STAA8"])

ID: sp|O05204|AHPF_STAA8
Name: sp|O05204|AHPF_STAA8
Description: sp|O05204|AHPF_STAA8 Alkyl hydroperoxide reductase subunit F OS=Staphylococcus aureus (strain NCTC 8325) OX=93061 GN=ahpF PE=3 SV=1
Number of features: 0
Seq('MLNADLKQQLKQLLELMEGNVEFVASLGSDDKSKELKDLLTEITDMSPRLSLSE...IRN', SingleLetterAlphabet())


### Ecriture d'un fichier au format FASTA

La méthode `write()` de l'interface [Bio.SeqIO](https://biopython.org/wiki/SeqIO) permet d'écrire au format [FASTA](https://fr.wikipedia.org/wiki/FASTA_(format_de_fichier)). Il faut cependant définir en amont les séquences en tant que [SeqRecord](https://biopython.org/wiki/SeqRecord).

La méthode `write()` permet de gérer automatiquement :

* le `>` avant l'identifiant de la séquence
* le saut de ligne entre l'identifiant et la séquence
* le découpage de la séquence

In [5]:
# Liste contenant les séquences à écrire au format FASTA
sequences = []

# Données initiales sous forme de dictionnaire
features = {'cds1' : 'ATGCATGCATGCA', 'cds2' : 'ATCGATGCTAGC', 'cds3' : 'ATCGATCGATCGTAG'}

# Parcours du dictionnaire (des séquences)
for feature in features:
    # Création d'une séquence Seq
    sequence = Seq(features[feature])
    # Ajout des séquences (SeqRecord) dans la liste
    sequences.append(SeqRecord(sequence, id=feature, description=''))

# Ecriture au format FASTA
with open("../data/Output.fasta", "w") as fasta_output:
    SeqIO.write(sequences, fasta_output, "fasta")

## Format FASTQ

### Description du format FASTQ

Un fichier [FASTQ](https://fr.wikipedia.org/wiki/FASTQ) utilise en principe 4 lignes par séquence :
* ligne 1 : commence par un caractère "@" suivi de l'identifiant de la séquence et éventuellement d'une description (de la même façon qu'un fichier au format FASTA, le "@" remplaçant ici le ">")
* ligne 2 : contient la séquence nucléique brute
* ligne 3 : commence par un caractère "+", parfois suivi par la répétition de l'identifiant de la séquence et de sa description si celle-ci est présente
* ligne 4 : contient les scores de qualité associés à chacune des bases de la séquence de la ligne 2 et doit avoir exactement le même nombre de symboles que la ligne 2

```
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
```

Pour plus d'informations : [https://fr.wikipedia.org/wiki/FASTQ](https://fr.wikipedia.org/wiki/FASTQ).

### Lecture d'un fichier au format FASTQ

Le parcours d'un fichier [FASTQ](https://fr.wikipedia.org/wiki/FASTQ) est identique au parcours d'un fichier [FASTA](https://fr.wikipedia.org/wiki/FASTA_(format_de_fichier)).

In [6]:
# Parcours du fichier FASTA via la fonction parse()
for record in SeqIO.parse("../data/Sample.fastq", "fastq"):
    # Object SeqRecord
    print(record)
    print('---------')
    # Identifiant de la séquence
    print(record.id)
    print('---------')
    # Description de la séquence
    print(record.description)
    print('---------')
    # Séquence (objet Bio.Seq.Seq)
    print(record.seq)
    print('-*-*-*-*-')

ID: ERR022486.8
Name: ERR022486.8
Description: ERR022486.8 IL37_5141:3:1:2077:948/1
Number of features: 0
Per letter annotation for: phred_quality
Seq('NGAGTTCTGCTGTGTGCAAGATTTAGGCACAATAAGTAATAATTCTGTTTTGTC...TTG', SingleLetterAlphabet())
---------
ERR022486.8
---------
ERR022486.8 IL37_5141:3:1:2077:948/1
---------
NGAGTTCTGCTGTGTGCAAGATTTAGGCACAATAAGTAATAATTCTGTTTTGTCTGAGTTTAAGAGAAGAAAATTG
-*-*-*-*-
ID: ERR022486.41
Name: ERR022486.41
Description: ERR022486.41 IL37_5141:3:1:4471:938/1
Number of features: 0
Per letter annotation for: phred_quality
Seq('NATTATTAAAAATTTTAACAAAAAAATAATTAATTATTTTGAGTCTATTGCTCT...AAA', SingleLetterAlphabet())
---------
ERR022486.41
---------
ERR022486.41 IL37_5141:3:1:4471:938/1
---------
NATTATTAAAAATTTTAACAAAAAAATAATTAATTATTTTGAGTCTATTGCTCTGTTTGTGGTTGTAAAAAAAAAA
-*-*-*-*-
ID: ERR022486.42
Name: ERR022486.42
Description: ERR022486.42 IL37_5141:3:1:4568:947/1
Number of features: 0
Per letter annotation for: phred_quality
Seq('NTCAAAATATGATTTTGGCATAATAAGTTA

### Récupération de la qualité

La méthode `get_raw()` permet de récupérer la 4è ligne correspondant aux scores de qualité de la séquence.

In [7]:
# Création d'un dictionnaire
fastq_dict = SeqIO.index("../data/Sample.fastq", "fastq")

# Scores de qualité de la séquence
raw = fastq_dict.get_raw("ERR022486.41")
print(raw)

b'@ERR022486.41 IL37_5141:3:1:4471:938/1\nNATTATTAAAAATTTTAACAAAAAAATAATTAATTATTTTGAGTCTATTGCTCTGTTTGTGGTTGTAAAAAAAAAA\n+\n!*+.,6754488:<<8:<<:::44444444:::::337414;<<:<=6==;;<<<<;:::537946551161101&\n'


## Format GenBank

### Description du format GenBank

Le format [GenBank](https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html) permet de stocker une séquence et ses annotations.

Pour plus d'informations : [https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html](https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html).

### Lecture d'un fichier au format GenBank

Le fichier `Sample_GCF_000007825.1_ASM782v1_genomic.gbff` est issu de l'annotation de *Bacillus cereus* : [https://www.ncbi.nlm.nih.gov/genome?LinkName=nuccore_genome&from_uid=1679390359](https://www.ncbi.nlm.nih.gov/genome?LinkName=nuccore_genome&from_uid=1679390359).

La méthode `parse()` est utilisée pour lire un fichier au format [GenBank](https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html).
Elle retourne des objets [SeqRecord](https://biopython.org/wiki/SeqRecord) contenant les séquences annotées présentes dans le fichier [GenBank](https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html).
A partir de ces objets [SeqRecord](https://biopython.org/wiki/SeqRecord), il est possible d'accéder aux éléments annotés sur chaque séquence, sous forme d'objets SeqFeature.

In [8]:
# Parcours du fichier GenBank via la fonction parse()
for record in SeqIO.parse("../data/Sample_GCF_000007825.1_ASM782v1_genomic.gbff", "genbank"):
    
    # Affichage
    # de l'identifiant de la séquence de référence
    # de la longueur de la séquence de référence
    # du nombre de features annotés sur cette séquence de référence
    print("------\nID = %s, length %i, with %i features\n------"
          % (record.id, len(record.seq), len(record.features)))
    
    # Parcours des features annotés sur chaque séquence
    for feature in record.features:
        # Objet Bio.SeqFeature.SeqFeature
        print(feature)
        print('---------')
        # Type de features
        print(feature.type)
        print('---------')
        # Qualifier 'organism'
        if 'organism' in feature.qualifiers:
            print(feature.qualifiers['organism'])
        print('-*-*-*-*-')

------
ID = NC_004722.1, length 5411809, with 3 features
------
type: source
location: order{[0:1804669](+), [1866064:2526678](+), [2565150:5411809](+)}
qualifiers:
    Key: db_xref, Value: ['ATCC:14579', 'taxon:226900']
    Key: focus, Value: ['']
    Key: mol_type, Value: ['genomic DNA']
    Key: organism, Value: ['Bacillus cereus ATCC 14579']
    Key: strain, Value: ['ATCC 14579']
    Key: type_material, Value: ['type strain of Bacillus cereus']

---------
source
---------
['Bacillus cereus ATCC 14579']
-*-*-*-*-
type: gene
location: [280:1621](+)
qualifiers:
    Key: gene, Value: ['dnaA']
    Key: locus_tag, Value: ['BC_RS00005']
    Key: old_locus_tag, Value: ['BC0001', 'BC_0001']

---------
gene
---------
-*-*-*-*-
type: CDS
location: [280:1621](+)
qualifiers:
    Key: codon_start, Value: ['1']
    Key: gene, Value: ['dnaA']
    Key: inference, Value: ['COORDINATES: similar to AA sequence:RefSeq:NP_387882.1']
    Key: locus_tag, Value: ['BC_RS00005']
    Key: note, Value: ['Deriv

### Ecriture au format GenBank

D'autres modules sont nécessaires à l'écriture au format [Genbank](https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html) :

* `generic_dna` de `Bio.Alphabet` pour préciser le type d'alphabet (nucléique, protéique)
* `FeatureLocation` et `SeqFeature` de `Bio.SeqFeature` pour la gestion des éléments annotés et leurs positions

In [9]:
# Positions du feature de type CDS
location = FeatureLocation(0, 10, strand=+1)
# Feature 1 de type CDS
feat1 = SeqFeature(location, type="CDS")
# Feature 2 de type mRNA
feat2 = SeqFeature(FeatureLocation(0, 15, strand=-1), type="mRNA")
# Déclaration de nouveaux qualifiers
# Ici un qualifier 'name' pour chaque feature
feat1.qualifiers["name"] = "cds1"
feat2.qualifiers["name"] = "mRNA1"

# Initialisation d'une liste pour l'ensemble des features
features = []
# Ajout des features à la liste
features.append(feat1)
features.append(feat2)

# Objet Seq avec la séquence de référence
sequence = Seq("ATGGCGGTAGATGGCGGTAGATGGCGGTAGATGGCGGTAGATGGCGGTAGATGGCGGTAGATGGCGGTAGATGGCGGTAGATGGCGGTAGATGGCGGTAGATGGCGGTAG", generic_dna)
# Objet SeqRecord pour la séquence de référence
seqrecord = SeqRecord(sequence,
                        id="CHR01",
                        description="Chromosome 1")

# Ajout des features à la séquence de référence
seqrecord.features = features

# Affichage au format GenBank
print(seqrecord.format("gb"))

LOCUS       CHR01                    110 bp    DNA              UNK 01-JAN-1980
DEFINITION  Chromosome 1.
ACCESSION   CHR01
VERSION     CHR01
KEYWORDS    .
SOURCE      .
  ORGANISM  .
            .
FEATURES             Location/Qualifiers
     CDS             1..10
                     /name="cds1"
     mRNA            complement(1..15)
                     /name="mRNA1"
ORIGIN
        1 atggcggtag atggcggtag atggcggtag atggcggtag atggcggtag atggcggtag
       61 atggcggtag atggcggtag atggcggtag atggcggtag atggcggtag
//



## Format GFF

### Description du format GFF

La format [GFF](https://fr.wikipedia.org/wiki/General_feature_format) est un format tabulé à 9 colonnes. Il peut être notamment manipulé avec :
* la librairie [BCBio.GFF](https://biopython.org/wiki/GFF_Parsing),
* la librairie [Pandas](https://pandas.pydata.org/) comme un fichier tabulé grâce à la méthode `read_csv()` en précisant que le séparateur est la tabulation (option `sep = "\t"`) et que l'on ignore les lignes de commentaires (option `comment="#"`).

Ici, nous allons voir comment parcourir le fichier `Sample_Bacillus_subtilis.gff3` (extrait de l'annotation de *Bacillus subtilis*) au format [GFF](https://fr.wikipedia.org/wiki/General_feature_format) à l'aide de la librairie [BCBio.GFF](https://biopython.org/wiki/GFF_Parsing) car vous savez déjà comment faire avec la librairie [Pandas](https://pandas.pydata.org/) ;)

### Lecture d'un fichier au format GFF

La méthode `parse()`retourne un objet [SeqRecord](https://biopython.org/wiki/SeqRecord) par séquence.

In [10]:
# Lecture du fichier au format GFF
with open('../data/Sample_Bacillus_subtilis.gff3', 'r') as gff_file:
    # Parcours des séquences de référence
    for rec in GFF.parse(gff_file):
        # Objet SeqRecord
        print(rec)
        # Parcours des features annotés
        for feature in rec.features:
            # Objet Bio.SeqFeature.SeqFeature
            print(feature)
            print('---------')
            # Type de features
            print(feature.type)
            print('---------')
            # Qualifier 'ID'
            if 'ID' in feature.qualifiers:
                print(feature.qualifiers['ID'])
            print('-*-*-*-*-')

ID: NC_000964.3
Name: <unknown name>
Description: <unknown description>
Number of features: 2
/gff-version=['3']
/sequence-region=[('NC_000964.3', 0, 4215606)]
/species=['https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=224308']
UnknownSeq(4215606, character='?')
type: region
location: [0:4215606](+)
id: id0
qualifiers:
    Key: Dbxref, Value: ['taxon:224308']
    Key: ID, Value: ['id0']
    Key: Is_circular, Value: ['true']
    Key: gbkey, Value: ['Src']
    Key: genome, Value: ['genomic']
    Key: mol_type, Value: ['genomic DNA']
    Key: source, Value: ['RefSeq']
    Key: strain, Value: ['168']
    Key: sub-species, Value: ['subtilis']

---------
region
---------
['id0']
-*-*-*-*-
type: gene
location: [409:1750](+)
id: gene0
qualifiers:
    Key: ID, Value: ['gene0']
    Key: Name, Value: ['dnaA']
    Key: gbkey, Value: ['Gene']
    Key: gene, Value: ['dnaA']
    Key: gene_biotype, Value: ['protein_coding']
    Key: locus_tag, Value: ['BSU_00010']
    Key: old_locus_tag, V

### Ecriture au format GFF

On retrouve les mêmes modules que pour l'écriture au format GenBank : `Bio.Seq`, `Bio.SeqRecord`et `Bio.SeqFeature` pour la gestion des séquences et des éléments annotés.

In [11]:
# Sequence de référence 'ID1'
seq = Seq("GATCGATCGATCGATCGATC")
record = SeqRecord(seq, "ID1")

# Qualifiers de l'élément du rang le plus haut (ici le gène 'gene1')
# source : colonne 2
# score : colonne 6
# other : colonne 9
# ID : colonne 1
qualifiers = {"source": "prediction", "score": 10.0, "other": ["Some", "annotations"],
              "ID": "gene1"}
# Elément du rang le plus haut (ici le gène 'gene1')
top_feature = SeqFeature(FeatureLocation(0, 20), type="gene", strand=1,
                         qualifiers=qualifiers)
sub_qualifiers = {"source": "prediction"}

# Sous-éléments de l'élément le plus haut (ici les exons du gène)
top_feature.sub_features = [SeqFeature(FeatureLocation(0, 5), type="exon", strand=1,
                                       qualifiers=sub_qualifiers),
                            SeqFeature(FeatureLocation(15, 20), type="exon", strand=1,
                                       qualifiers=sub_qualifiers)]

# Ajout du feature 'gene1' à la séquence de référence 'ID1'
record.features = [top_feature]

# Ecriture au format GFF
with open("../data/Output.gff", "w") as output_gff:
    GFF.write([record], output_gff)