# Calcul du pourcentage de GC sur un g√©nome complet

## Partie 1 : Calcul du %GC pour le g√©nome du Sars-Cov-2

Le g√©nome de r√©f√©rence du Sars-Cov-2 est disponible sous l'identifiant [NC_045512](https://www.ncbi.nlm.nih.gov/nuccore/NC_045512) sur le site du NCBI. Il est constitu√© de 29903 bases.

Le fichier `sars-cov-2.txt` contient le g√©nome de ce virus. Toute la s√©quence se trouve sur une seule ligne.

Ouvrez ce fichier en double-cliquant sur son nom dans l'explorateur de fichiers (√† gauche du notebook). Parcourez ensuite ce fichier.

Nous esp√©rons que vous √™tes convaincu de la n√©cessit√© d'automatiser le comptage des diff√©rentes bases ü§î.

Ex√©cutez le code suivant pour :

- lire ce fichier,
- extraire la s√©quence du g√©nome de Sars-Cov-2,
- et la stocker dans la variable `sequence`.

In [None]:
with open("sars-cov-2.txt", "r") as txt_file:
    sequence = txt_file.read()

Affichez la taille de la s√©quence lue dans la variable `sequence` :

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
len(sequence)
```

Vous devriez obtenir `29903` qui correspond bien √† la taille du g√©nome indiqu√©e en introduction.

:::

Affichez les 10 premi√®res bases de la s√©quence :

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
print(sequence[0:10])
```

Vous devriez obtenir `ATTAAAGGTT`. N'h√©sitez pas √† le v√©rifier dans le fichier du g√©nome `sars-cov-2.txt`.

Rappels :

- Le premier √©l√©ment d'une liste (et d'une cha√Æne de caract√®res) porte l'indice 0.
- Dans une tranche de liste (et de cha√Æne de caract√®res), l'√©l√©ment du second indice n'est pas inclus.

Le code suivant est aussi correct :

```python
print(sequence[:10])
```

:::

Affichez les 10 derni√®res bases de la s√©quence :

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
print(sequence[-10:])
```

Vous devriez obtenir `AAAAAAAAAA`. N'h√©sitez pas √† le v√©rifier dans le fichier du g√©nome `sars-cov-2.txt`.

Rappels :

- Les indices n√©gatifs permettent tr√®s facilement d'acc√©der aux derniers √©l√©ments d'une liste ou aux derniers caract√®res d'une cha√Æne de caract√®res.
- Dans une tranche de liste (et de cha√Æne de caract√®res), l'√©l√©ment du second indice n'est pas inclus. Pour √™tre certain d'aller jusqu'au bout de la s√©quence (donc de la cha√Æne de caract√®res), ne mettez pas de second indice.

:::

En utilisant le code du notebook pr√©c√©dent, calculez le %GC de cette sequence :

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
nb_A = 0
nb_T = 0
nb_C = 0
nb_G = 0

for base in sequence:
    if base == "A":
        nb_A = nb_A + 1
    elif base == "T":
        nb_T = nb_T + 1
    elif base == "C":
        nb_C = nb_C + 1
    elif base == "G":
        nb_G = nb_G + 1

GC = (nb_G + nb_C)/(nb_A + nb_T + nb_G + nb_C) * 100
```

:::

Affichez la valeur du %GC avec **deux chiffres** apr√®s la virgule, sous la forme :

```
Le pourcentage de GC est : xx.xx
```

(*Respectez scrupuleusement le format d'affichage demand√©.*)

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
print(f"Le pourcentage de GC est : {GC:.2f}")
```

Vous devriez obtenir le message suivant :

```none
Le pourcentage de GC est : 37.97
```

:::

## Partie 2 : Calcul du %GC pour le g√©nome du Sars-Cov-2 √† partir d'un fichier au format FASTA

### Qu'est-ce que le format FASTA ?

En biologie, les s√©quences ne se trouvent jamais sous la forme d'une s√©quence par ligne.

Un format classique pour partager des s√©quences est le format FASTA :

```none
>ent√™te
s√©quence avec un nombre maximum de caract√®res par ligne
s√©quence avec un nombre maximum de caract√®res par ligne
s√©quence avec un nombre maximum de caract√®res par ligne
s√©quence avec un nombre maximum de caract√®res par ligne
s√©quence avec un nombre max
```

La premi√®re ligne est toujours une ligne d'ent√™te qui d√©bute par le caract√®re `>` et qui contient des informations sur la s√©quence (identifiant, nom...).

Les lignes suivantes sont constitu√©es de la s√©quence r√©partie sur plusieurs lignes avec un nombre fixe de bases par ligne (sauf la toute derni√®re ligne).

Dans le cas du g√©nome du Sars-cov-2 stock√© au format FASTA dans le fichier `sars-cov-2.fasta`, les premi√®res lignes sont :

```none
>NC_045512.2 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome
ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAA
CGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAAC
TAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCGTCCGTG
TTGCAGCCGATCATCAGCACATCTAGGTTTCGTCCGGGTGTGACCGAAAGGTAAGATGGAGAGCCTTGTC
CCTGGTTTCAACGAGAAAACACACGTCCAACTCAGTTTGCCTGTTTTACAGGTTCGCGACGTGCTCGTAC
GTGGCTTTGGAGACTCCGTGGAGGAGGTCTTATCAGAGGCACGTCAACATCTTAAAGATGGCACTTGTGG
CTTAGTAGAAGTTGAAAAAGGCGTTTTGCCTCAACTTGAACAGCCCTATGTGTTCATCAAACGTTCGGAT
```

Sachant que :

- La s√©quence du Sars-cov-2 contient 29903 bases.
- Le fichier `sars-cov-2.fasta` est format√© avec 70 bases par ligne.

D√©terminez combien de lignes devrait contenir le fichier `sars-cov-2.fasta` de la s√©quence du g√©nome du Sars-cov-2 au format FASTA. 

Pensez √† compter la ligne d'ent√™te.

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Si on divise le nombre de bases du g√©nome par le nombre de bases par ligne, on obtient 29903 / 70 = 427,18571...

Il faudra donc 428 lignes pour √©crire le g√©nome complet dans le fichier. 

Ce √† quoi il faut ajouter 1 pour la ligne d'ent√™te qui est obligatoire.

Le fichier `sars-cov-2.fasta` devrait donc contenir 429 lignes.

:::

Ouvrez maintenant le fichier `sars-cov-2.fasta` en double-cliquant sur le nom du fichier dans le navigateur de fichiers √† gauche.

V√©rifiez que le nombre de lignes que vous avez calcul√© correspond bien au nombre de lignes dans le fichier.

Remarque : le num√©ro de la ligne est affich√© en gris √† gauche de chaque ligne.

### Lecture d'un s√©quence au format FASTA

Pour lire une s√©quence au format FASTA avec Python, il faut se souvenir :
- que la premi√®re ligne contient l'ent√™te (l'identifiant + le nom + d'autres informations) ;
- que la s√©quence est r√©partie sur les lignes suivantes.

Ex√©cutez le code suivant pour lire l'en-t√™te et la s√©quence du fichier `sars-cov-2.fasta` :

In [None]:
with open("sars-cov-2.fasta", "r") as fasta_file:
    header = ""
    sequence = ""
    for line in fasta_file:
        if line.startswith(">"):
            header = line.strip()
        else:
            sequence += line.strip()

L'ent√™te est stock√© dans la variable `header`. La s√©quence est stock√©e dans la variable `sequence`.

Reprenez les notebooks `TP2_2_boucles_tests.ipynb` et `TP2_3_fichiers.ipynb`, puis prenez quelques minutes pour comprendre le fonctionnement de ce code Python.

Affichez ensuite l'ent√™te :

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
print(header)
```

Vous devriez obtenir le message suivant :

```none
>NC_045512.2 Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome
```

:::

Affichez la taille de la s√©quence :

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
print(len(sequence))
```

Vous devriez obtenir :

```none
29903
```

:::

Affichez les 10 premi√®res bases de la s√©quence :

(*V√©rifiez votre r√©ponse dans le fichier `sars-cov-2.fasta`*)

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
print(sequence[0:10])
```

Vous devriez obtenir :

```none
ATTAAAGGTT
```

:::

Affichez les 10 derni√®res bases de la s√©quence :

(*V√©rifiez votre r√©ponse dans le fichier `sars-cov-2.fasta`*)

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
print(sequence[-10:])
```

Vous devriez obtenir :

```none
AAAAAAAAAA
```

:::

R√©utilisez le code de la partie 1 pour calculer le %GC de la s√©quence du Sars-Cov-2.

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
nb_A = 0
nb_T = 0
nb_C = 0
nb_G = 0

for base in sequence:
    if base == "A":
        nb_A = nb_A + 1
    elif base == "T":
        nb_T = nb_T + 1
    elif base == "C":
        nb_C = nb_C + 1
    elif base == "G":
        nb_G = nb_G + 1

GC = (nb_G + nb_C)/(nb_A + nb_T + nb_G + nb_C) * 100
```

:::

Affichez la valeur du %GC avec deux chiffres apr√®s la virgule, sous la forme :
```
Le pourcentage de GC est : xx.xx
```

(*Respectez scrupuleusement le format d'affichage demand√©.*)

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
print(f"Le pourcentage de GC est : {GC:.2f}")
```

Vous devriez obtenir le message suivant :

```none
Le pourcentage de GC est : 37.97
```

:::

Vous devriez obtenir exactement la m√™me valeur que celle obtenue dans la partie 1.

## Partie 3 : Comparaison de g√©nomes

La m√™me proc√©dure peut √™tre utilis√©e pour √©tudier le g√©nome d'un autre coronavirus : le [MERS-CoV](https://www.ncbi.nlm.nih.gov/nuccore/NC_019843).

R√©utilisez et adaptez le code pr√©c√©dant pour effectuer les √©tapes suivantes :

1. Lire le fichier `mers-cov.fasta` et extraire la s√©quence du g√©nome du MERS-Cov.
2. Afficher la taille du g√©nome et v√©rifier qu'elle correspond √† celle indiqu√©e sur [la page du NCBI](https://www.ncbi.nlm.nih.gov/nuccore/NC_019843).
3. Calculer le %GC de ce g√©nome.
4. Afficher la valeur du %GC avec deux chiffres apr√®s la virgule, sous la forme :

```none
Le pourcentage de GC est : xx.xx
```

### √âtape 1

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
with open("mers-cov.fasta", "r") as fasta_file:
    header = ""
    sequence = ""
    for line in fasta_file:
        if line.startswith(">"):
            header = line.strip()
        else:
            sequence += line.strip()
```

:::

### √âtape 2

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
print(len(sequence))
```

Vous devriez obtenir :

```none
30119
```

Sur le site du NCBI, on trouve l'information suivante :

```none
LOCUS       NC_019843              30119 bp    RNA     linear   VRL 08-AUG-2020
```

avec `30119 bp` qui correspond √† la m√™me taille de g√©nome.

:::

### √âtape 3

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
nb_A = 0
nb_T = 0
nb_C = 0
nb_G = 0
for base in sequence:
    if base == "A":
        nb_A = nb_A + 1
    elif base == "T":
        nb_T = nb_T + 1
    elif base == "C":
        nb_C = nb_C + 1
    elif base == "G":
        nb_G = nb_G + 1

GC = (nb_G + nb_C)/(nb_A + nb_T + nb_G + nb_C) * 100
```

:::

### √âtape 4

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
print(f"Le pourcentage de GC est : {GC:.2f}")
```

Vous devriez obtenir :

```none
Le pourcentage de GC est : 41.24
```

:::

## Partie 4 : Comparaison avec des virus herpes

En reprenant la proc√©dure pour calculer les pourcentages de GC pour les g√©nomes SARS-Cov et MERS-Cov, calculez les pourcentages de GC pour les deux g√©nomes de virus herpes humain (fichier `human_herpesvirus.fasta`) et de la baleine beluga (fichier `belugawhale_herpesvirus.fasta`).


:::{attention}

Quand on programme, on √©vite de r√©p√©ter les m√™mes instructions plusieurs fois car cela peut occasionner de nombreuses erreurs de copier / coller et que cela occupe beaucoup de place. On utilise √† la place des fonctions. Les fonctions ne font pas partie de ce cours de simulation, utilisez donc le copier / coller avec pr√©caution.

:::

R√©alisez les √©tapes suivantes pour le fichier `human_herpesvirus.fasta` :

- Lire la s√©quence du virus depuis un fichier FASTA.
- Compter les bases.
- Calculer le pourcentage de GC.
- Afficher le pourcentage de GC avec deux d√©cimales.

Codez toutes ces √©tapes dans la cellule suivante :

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
with open("human_herpesvirus.fasta", "r") as fasta_file:
    header = ""
    sequence = ""
    for line in fasta_file:
        if line.startswith(">"):
            header = line.strip()
        else:
            sequence += line.strip()

nb_A = 0
nb_T = 0
nb_C = 0
nb_G = 0
for base in sequence:
    if base == "A":
        nb_A = nb_A + 1
    elif base == "T":
        nb_T = nb_T + 1
    elif base == "C":
        nb_C = nb_C + 1
    elif base == "G":
        nb_G = nb_G + 1

GC = (nb_G + nb_C)/(nb_A + nb_T + nb_G + nb_C) * 100

print(f"Le pourcentage de GC est : {GC:.2f}")
```

Vous devriez obtenir :

```none
Le pourcentage de GC est : 68.30
```

:::

Et la m√™me chose dans la cellule suivante pour le fichier `belugawhale_herpesvirus.fasta` :

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Voici un exemple de code possible :
    

```python
with open("belugawhale_herpesvirus.fasta", "r") as fasta_file:
    header = ""
    sequence = ""
    for line in fasta_file:
        if line.startswith(">"):
            header = line.strip()
        else:
            sequence += line.strip()

nb_A = 0
nb_T = 0
nb_C = 0
nb_G = 0
for base in sequence:
    if base == "A":
        nb_A = nb_A + 1
    elif base == "T":
        nb_T = nb_T + 1
    elif base == "C":
        nb_C = nb_C + 1
    elif base == "G":
        nb_G = nb_G + 1

GC = (nb_G + nb_C)/(nb_A + nb_T + nb_G + nb_C) * 100

print(f"Le pourcentage de GC est : {GC:.2f}")
```

Vous devriez obtenir :

```none
Le pourcentage de GC est : 73.41
```

:::

√Ä partir des valeurs de pourcentage de GC pour les 4 virus, arrivez-vous √† les regrouper par famille ?

:::{admonition} √âl√©ments de r√©ponse
:class: tip
:class: dropdown

Rappelons les valeurs obtenues pour les %GC :

- sars-cov-2 : 37,97 %
- mers-cov : 41,24 %
- human_herpesvirus : 68,30 %
- belugawhale_herpesvirus : 73,41 %

Les virus respiratoires de type coronavirus ont des %GC inf√©rieurs √† 50%, alors que les virus de type herpes ont des %GC beaucoup plus √©lev√©s.

Le %GC peut donc √™tre utilis√© pour regrouper des g√©nomes par famille. Pour autant, cette mesure est assez grossi√®re et n'est pas toujours suffisante.

:::

## Pour terminer avec un peu d'humour

![](https://imgs.xkcd.com/comics/coronavirus_genome.png)

Source : [XKCD](https://xkcd.com/2298/), licence Creative Commons BY-NC