# Pourcentage de GC (*GC content*)

Pour une séquence d'ADN, le %GC est la proportion de bases G et C, c'est-à-dire le rapport entre le nombre de bases G et C et le nombre total de bases, multiplé par 100 :

$$
\%GC = \frac{nbG + nbC}{nbA + nbT + nbC + nbG} \times 100
$$

Soit la séquence d'ADN :
```
ACGCGATTAGCTAGCCGG
```

On définit 4 variables qui contiennent le nombre de bases A, T, C et G :

In [None]:
nb_A = 4
nb_T = 3
nb_C = 5
nb_G = 6

Affichons d'abord la longueur de cette séquence avec une écriture formatée :

In [None]:
print(f"Longueur de la séquence : {nb_A + nb_T + nb_G + nb_C} bases")

On définit ensuite une nouvelle variable (`GC`) qui calcule le %GC !

In [None]:
GC = (nb_G + nb_C)/(nb_A + nb_T + nb_G + nb_C) * 100

In [None]:
print(GC)

Un meilleur affichage avec les *f-strings* :

In [None]:
print(f"Le %GC vaut : {GC}")

In [None]:
print(f"Le %GC vaut : {GC:.1f}")

## Utilité du %GC en PCR

### Rappel des principaux concepts de la PCR

La *Polymerase chain reaction* (PCR) est technique d'amplification de séquences d'ADN. Familièrement, on parle parfois de « photocopieur à ADN ».

![](https://media.giphy.com/media/oCCLHVNt8YO64/giphy.gif)

Une PCR comprend plusieurs cycles successifs composés chacun de 3 phases :

1. **Dénaturation**. Séparation du brin d'ADN. Température : 92-95 °C.

2. **Hybridation**. Appariement spécifique des amorces. Température : 50-60 °C,  
    mais dépend de la température de fusion (Tm) des amorces.

3. **Extension**. Élongation par l'ADN polymérase. Température : 70-72 °C.

![](https://upload.wikimedia.org/wikipedia/commons/thumb/a/ab/Polymerase_chain_reaction-en.svg/1920px-Polymerase_chain_reaction-en.svg.png)

*Source : By Enzoklop - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=96042657*

### Liaison A-T

![](https://upload.wikimedia.org/wikipedia/commons/thumb/d/db/Base_pair_AT.svg/320px-Base_pair_AT.svg.png)

*Source : By [Yikrazuul - Base pair Adenine Thymine (AT)](https://commons.wikimedia.org/wiki/File:Base_pair_AT.svg), Public domain*

### Liaison G-C

![](https://upload.wikimedia.org/wikipedia/commons/thumb/6/64/Base_pair_GC.svg/320px-Base_pair_GC.svg.png)

*Source : By [Yikrazuul - Base pair guanine cytosine (GT)](https://commons.wikimedia.org/wiki/File:Base_pair_GC.svg), Public domain*

La liaison G-C est constituée de trois liaisons hydrogènes, contre deux pour la liaison A-T. Par conséquence, il faudra proportionnellement plus d'énergie pour rompre une liaison G-C par rapport à une liaison A-T. On s'attend donc que la température de fusion soit proportionnelle avec le %GC : **plus il y a de bases G et C dans une séquence, plus la température de fusion est elevée**.

### Calcul de la température de Fusion

Pour une séquence de plus de 13 nucléotides, la température de fusion peut se calculer avec l'équation :

$$
Tm = 64.9 + 0.41 \times \%GC - \frac{672.4}{nbA + nbT + nbG + nbC}
$$

C'est formule se traduit en Python par :

In [None]:
Tm = 64.9 + 0.41 * GC - 672.4/(nb_A + nb_T + nb_G + nb_C)

Remarque : les noms des variables utilisées ci-dessus se rapprochent de ceux de la formule mathématique, sans pour autant être identiques.
Par exemple, le nom d'une variable en Python ne peut pas commencer par un `%`.

On peut maintenant afficher la température de fusion calculée :

In [None]:
print(Tm)

Et même utiliser l'écriture formatée par une *f-string* :

In [None]:
print(f"Tm vaut : {Tm:.1f} °C")

Afficher la température de fusion d'une amorce de PCR avec 1 chiffre significatif paraît largement suffisant.

## Quiz

*Exécutez les deux cellules ci-dessous, puis répondez aux questions.*

In [None]:
%pip install -q jupyterquiz
from jupyterquiz import display_quiz

In [None]:
display_quiz("quiz_gc.json")

## Importance du %GC pour caractériser un ensemble de gènes ou des génomes complets

Le %GC n'est pas utile qu'en PCR. Il est aussi pertinent pour caractériser les propriétés d'un ensemble de gènes, voir des génomes complets.

Voici quelques exemples, tirés de la littérature scientifique, qui illustrent ce rôle du %GC :

### A relationship between GC content and coding-sequence length

Oliver et Marin, *Journal of Molecular Evolution*, 43: 216–223 (1996). [lien](https://link.springer.com/article/10.1007/BF02338829)

> Since base composition of translational stop codons (TAG, TAA, and TGA) is biased toward a low G+C content, a differential density for these termination signals is expected in random DNA sequences of different base compositions. The expected length of reading frames (DNA segments of sense codons flanked by in-phase stop codons) in random sequences is thus a function of GC content. The analysis of DNA sequences from several genome databases stratified according to GC content reveals that the longest coding sequences—exons in vertebrates and genes in prokaryotes—are GC-rich, while the shortest ones are GC-poor. Exon lengthening in GC-rich vertebrate regions does not result, however, in longer vertebrate proteins, perhaps because of the lower number of exons in the genes located in these regions. The effects on coding-sequence lengths constitute a new evolutionary meaning for compositional variations in DNA GC content.

### GC content shapes mRNA storage and decay in human cells

Courel *et al.*, eLife, 8: e49708 (2019). [lien](https://elifesciences.org/articles/49708)

> mRNA translation and decay appear often intimately linked although the rules of this interplay are poorly understood. In this study, we combined our recent P-body transcriptome with transcriptomes obtained following silencing of broadly acting mRNA decay and repression factors, and with available CLIP and related data. This revealed the central role of GC content in mRNA fate, in terms of P-body localization, mRNA translation and mRNA stability: P-bodies contain mostly AU-rich mRNAs, which have a particular codon usage associated with a low protein yield; AU-rich and GC-rich transcripts tend to follow distinct decay pathways; and the targets of sequence-specific RBPs and miRNAs are also biased in terms of GC content. Altogether, these results suggest an integrated view of post-transcriptional control in human cells where most translation regulation is dedicated to inefficiently translated AU-rich mRNAs, whereas control at the level of 5’ decay applies to optimally translated GC-rich mRNAs.

### GC usage of SARS-CoV-2 genes might adapt to the environment of human lung expressed genes

Li *et al.*, *Molecular Genetics and Genomics volume*, 295: 1537–1546 (2020). [lien](https://link.springer.com/article/10.1007/s00438-020-01719-0)

> Understanding how SARS-CoV-2 (Severe Acute Respiratory Syndrome Coronavirus 2) efficiently reproduces itself by taking resources from the human host could facilitate the development of drugs against the virus. SARS-CoV-2 translates its own proteins by using the host tRNAs, so that its GC or codon usage should fit that of the host cells. It is necessary to study both the virus and human genomes in the light of evolution and adaptation. The SARS-CoV-2 virus has significantly lower GC content and GC3 as compared to human. However, when we selected a set of human genes that have similar GC properties to SARS-CoV-2, we found that these genes were enriched in particular pathways. Moreover, these human genes have the codon composition perfectly correlated with the SARS-CoV-2, and were extraordinarily highly expressed in human lung tissues, demonstrating that the SARS-CoV-2 genes have similar GC usage as compared to the lung expressed human genes. RSCU (relative synonymous codon usage) and CAI (codon adaptation index) profiles further support the matching between SARS-CoV-2 and lungs. Our study indicates that SARS-CoV-2 might have adapted to the human lung environment by observing the high correlation between GC usage of SARS-CoV-2 and human lung genes, which suggests the GC content of SARS-CoV-2 is optimized to take advantage of human lung tissues.