# üß¨ **AI for Biology** üß¨

<a href="https://ibb.co/Cs0GsQD"><img src="https://i.ibb.co/mFzWF4g/d3ccc3f8-69e2-428f-8ec4-896221936735.webp" alt="Scifi collage of AI in biology" border="0"></a>

<a href="https://colab.research.google.com/github/deep-learning-indaba/indaba-pracs-2024/blob/main/practicals/AI_for_Biology/AI_for_Biology_French.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

¬© Deep Learning Indaba 2024. Apache License 2.0.

**Auteurs :** Natasha Latysheva

**Sujets :** Biologie, ADN, mod√®les de langage de grande taille, plongements (embeddings) , apprentissage supervis√© et auto-supervis√©.

**Niveau :** D√©butant

**Objectifs :** Comprendre les plongements d'ADN et entra√Æner un mod√®le en les utilisant pour r√©soudre un probl√®me biologique pratique

# AI for Biology
Bienvenue dans le tutoriel pratique **AI for Biology** ! Dans cette session, nous allons :
- D√©couvrir certains des principaux domaines d'application de l'IA dans les biosciences
- Examiner le r√¥le de l'ADN et la mani√®re dont les mod√®les de langage d'ADN sont entra√Æn√©s
- Extraire et explorer les plongements (embeddings) de l'ADN en utilisant un mod√®le de langage d'ADN pr√©-entra√Æn√© √† la pointe de la technologie
- Se plonger dans un probl√®me pratique de mod√©lisation des s√©quences d'ADN et de leurs propri√©t√©s

**Pr√©requis :**

1. Connaissances de base en Python
2. Aucune connaissance en biologie requise

**Plan du tutoriel pratique :**

<div align="left">
<a href="https://ibb.co/jryGWdL"><img src="https://i.ibb.co/kS409ph/Screenshot-2024-07-23-at-21-48-22.png" alt="Screenshot-2024-07-23-at-21-48-22" width="400" border="0"></a>
</div>



**Avant de commencer :**

Pour ce tutoriel pratique, vous devrez utiliser un GPU pour acc√©l√©rer l'entra√Ænement. Pour ce faire, allez dans le menu "Ex√©cution" de Colab, s√©lectionnez "Changer le type d'ex√©cution", puis dans le menu contextuel, choisissez "GPU" dans la zone "Acc√©l√©rateur mat√©riel".


Nous pouvons √©galement d√©j√† installer et importer tous les packages requis :
    


In [None]:
## Installer et importer tout ce qui est requis, t√©l√©charger les mod√®les, t√©l√©charger les donn√©es.
# @title Installer et importer les packages n√©cessaires. (Ex√©cuter la cellule)
%%capture

# Installations.
!pip install transformers datasets
!pip install biopython requests h5py
!pip install jax
!pip install flax

# Importations.
import os
import random
import tqdm

import jax
import jax.numpy as jnp
from jax import grad, jit, vmap
import flax.linen as nn
import optax
import torch


import numpy as np
import pandas as pd
import h5py

import matplotlib.pyplot as plt
import seaborn as sns

from Bio import Entrez, SeqIO

from sklearn.manifold import TSNE

from transformers import AutoTokenizer, AutoModelForMaskedLM


# T√©l√©charger le mod√®le de langage d'ADN et le tokenizer.
tokenizer = AutoTokenizer.from_pretrained(
    "InstaDeepAI/nucleotide-transformer-v2-50m-multi-species",
    trust_remote_code=True)

language_model = AutoModelForMaskedLM.from_pretrained(
    "InstaDeepAI/nucleotide-transformer-v2-50m-multi-species",
    trust_remote_code=True)

# T√©l√©charger les plongements pr√©-extraits pour des cha√Ænes d'ADN al√©atoires.
ROOT_DIR = "https://raw.githubusercontent.com/deep-learning-indaba/indaba-pracs-2024/main/practicals/AI_for_Biology/data/"

import pandas as pd
dna_sequences = pd.read_csv(os.path.join(ROOT_DIR, "dna_sequences.csv"))
# (train_df) Donn√©es d'entra√Ænement
train_df = pd.read_feather(os.path.join(ROOT_DIR, "train_embeddings.feather"))
# (valid_df) Donn√©es de validation
valid_df = pd.read_feather(os.path.join(ROOT_DIR, "valid_embeddings.feather"))


In [None]:
# @title V√©rifier TPU/GPU. (Ex√©cuter la cellule)
import jax
num_devices = jax.device_count()
device_type = jax.devices()[0].device_kind
print(f"Trouv√© {num_devices} dispositif(s) JAX de type {device_type}.")

## 1. Applications de l'IA en Biologie

L'IA devient de plus en plus courante dans le domaine biologique et a connu des avanc√©es r√©centes vraiment passionnantes. Cependant, le domaine en est encore √† ses d√©buts - cela signifie qu'il reste beaucoup de travail int√©ressant √† faire et que c'est un excellent moment pour s'y impliquer !

Voici un rapide aper√ßu de quelques travaux r√©cents int√©ressants en IA appliqu√©e √† la biologie dans diff√©rents domaines.



### Diagnostics m√©dicaux

Les mod√®les de classification du cancer de la peau tels que [celui du MIT](https://www.science.org/doi/10.1126/scitranslmed.abb3652) atteignent des performances comparables √† celles de dermatologues certifi√©s¬†:
<div align="center">
    <img src="https://wp.technologyreview.com/wp-content/uploads/2021/06/automated-melanoma-detection-small2.gif?w=400" alt="GIF de d√©tection automatis√©e du m√©lanome">
</div>


Un [mod√®le de DeepMind](https://www.nature.com/articles/s41591-018-0107-6) de segmentation et de classification des maladies de la r√©tine est capable de diagnostiquer de nombreuses affections ophtalmiques √† partir de scans r√©tiniens 3D. Ses performances sont similaires √† celles des meilleurs sp√©cialistes de la r√©tine et surpassent celles de certains experts humains¬†:



<div align="center">
    <img src="https://miro.medium.com/v2/resize:fit:1400/format:webp/1*cnyoA2T8BFZRBYWnUlYEtQ.gif" alt="GIF de segmentation du scan r√©tinien">
</div>

[Le mod√®le SynthSR de Harvard et de l'UCL](https://www.science.org/doi/10.1126/sciadv.add3607) peut prendre des IRM c√©r√©brales cliniques avec n'importe quel contraste, orientation et r√©solution et les transformer en images 3D haute r√©solution¬†:

<div align="center">
    <img src="https://www.science.org/cms/10.1126/sciadv.add3607/asset/7a6c5ed9-af95-41d2-b888-2b5a653ea55b/assets/images/large/sciadv.add3607-f1.jpg" alt="Mod√®le de scan IRM SynthSR" width="400">
</div>


### Pharmacie et d√©veloppement de m√©dicaments

[Exscientia](https://www.exscientia.com/) a d√©velopp√© le premier m√©dicament con√ßu par l'IA √† entrer dans des essais cliniques (DSP-1181, destin√© au traitement du trouble obsessionnel-compulsif).

De nombreux efforts de d√©couverte de m√©dicaments assist√©s par l'IA utilisent des mod√®les pour pr√©dire la force avec laquelle les petites mol√©cules se lieront √† diff√©rentes r√©gions d'une prot√©ine cible impliqu√©e dans une maladie donn√©e :

<div align="center">
    <img src="https://developer-blogs.nvidia.com/wp-content/uploads/2023/03/bionemo_featured.jpeg" alt="representation d'une poche g√©n√©rale" width="400">
</div>


[BenevolentAI](https://www.benevolent.com/about-us/sustainability/covid-19/) a utilis√© l'IA pour identifier le Baricitinib, √† l'origine un m√©dicament contre l'arthrite, comme traitement potentiel contre la COVID-19 en 48¬†heures en utilisant son graphique de connaissances.


<div align="center">
    <img src="https://www.benevolent.com/application/files/6616/7458/5885/Corona_Baricitinib.png" alt="BenevolentAI Baricitinib" width="400">
</div>

[Lien vers une vid√©o YouTube intitul√©e ¬´¬†BenevolentAI ¬∑ AI-Enabled Drug Discovery¬†¬ª](https://www.youtube.com/watch?v=RPBDhogTIT0)

[Recursion Pharmaceuticals](https://www.recursion.com/) est r√©put√©e pour son criblage et son optimisation √† haut d√©bit, et a d√©velopp√© des mod√®les avanc√©s d'imagerie cellulaire :

<div align="center">
    <img src="https://miro.medium.com/v2/resize:fit:1400/0*yVLwEtfojWdnMZfA" alt="Recursion" width="800">
</div>


Ils entra√Ænent des mod√®les pour pr√©dire les pixels manquants dans les images de cellules de la m√™me mani√®re que les grands mod√®les de langage pr√©disent les mots manquants ou masqu√©s dans les phrases :

<div align="center">
    <img src="https://blogs.nvidia.com/wp-content/uploads/2024/05/Recursion-Phenom-AI-model-animation.gif" alt="Recursion" width="800">
</div>

Parmi les autres startups qui font de l'apprentissage profond pour la d√©couverte de m√©dicaments, citons Atomwise, insitro, Insilico Medicine, Deep Genomics et Deepcell.

En outre, de grandes soci√©t√©s pharmaceutiques comme Illumina, GSK et Genentech ont mis en place des √©quipes internes d'apprentissage profond et ont d√©velopp√© des mod√®les influents tels que [SpliceAI](https://www.cell.com/cell/pdf/S0092-8674(18)31629-5.pdf) (un mod√®le qui comprend l'√©pissage) et [PrimateAI](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6237276/) (un mod√®le qui pr√©dit l'effet clinique des mutations dans les prot√©ines), ce qui t√©moigne de l'int√©gration croissante de l'apprentissage profond dans les flux de travail en biologie.


### Biologie mol√©culaire

Le [mod√®le AlphaFold de DeepMind](https://www.nature.com/articles/s41586-021-03819-2) a r√©volutionn√© le domaine de la pr√©diction de la structure des prot√©ines, gagnant une adoption et une reconnaissance g√©n√©ralis√©es dans les milieux universitaires, biotechnologiques et pharmaceutiques :

<div align="center">
    <img src="https://spectrum.ieee.org/media-library/two-examples-of-protein-targets-in-the-free-modelling-category-in-green-is-the-experimental-result-in-blue-is-the-computationa.gif?id=25559695&width=2400&height=1358" alt="Pr√©dictions d'AlphaFold" width="800">
</div>


Des chercheurs d'[EvolutionaryScale](https://www.evolutionaryscale.ai/blog/esm3-release) ont utilis√© leur mod√®le de langage prot√©ique ESM3 pour concevoir une nouvelle prot√©ine fluorescente assez distincte des prot√©ines fluorescentes pr√©sentes dans la nature :

<div align="center">
    <img src="https://cdn.prod.website-files.com/6606dc3fd5f6645318003e20/667a5bb780d0ada7dc37d1c0_image%20(1).png" alt="ESM3" width="400">
</div>


### √âcologie et conservation

[Rainforest Connection (RFCx)](https://rfcx.org/) est un projet innovant qui place des smartphones modifi√©s dans les arbres, enregistre des donn√©es audio, puis utilise des mod√®les pour identifier les diff√©rentes esp√®ces pr√©sentes dans la zone. Cela permet de surveiller la biodiversit√© et de d√©tecter les activit√©s ill√©gales comme l'exploitation foresti√®re en temps r√©el.

<div align="center">
    <img src="https://www.huawei.com/~/media/CORPORATE/Images/case-studies/case1/photo-grid.jpg" alt="Configuration de Rainforest connection" width="600">
</div>

<div align="center">
    <img src="https://cdn.ttgtmedia.com/visuals/LeMagIT/Forest1.png" alt="Audio de Rainforest connection" width="600">
</div>



[Project CETI](https://www.projectceti.org/) (Cetacean Translation Initiative) utilise l'IA pour analyser et d√©coder les sons des baleines afin de comprendre leur communication et leur comportement.


<div align="center">
    <img src="https://i0.wp.com/www.josephdelpreto.com/wp-content/uploads/2023/09/Project-CETI_s-Approach-_-Illustration-%C2%A9-2023-Alex-Boersma.jpg?resize=1024%2C912" alt="Baleine CETI" width="600">
</div>


Un concours Zindi appel√© [Turtle Recall](https://zindi.africa/competitions/turtle-recall-conservation-challenge) a mis les utilisateurs au d√©fi de construire un mod√®le capable d'identifier les tortues marines individuelles √† partir des motifs d'√©cailles sur leur t√™te, ce qui pourrait contribuer √† am√©liorer les efforts de conservation des tortues marines :

<div align="center">
    <img src="https://lh3.googleusercontent.com/9J6DZgiuGyYr3N1DoJBmZMVpBkTlGOq19QUws7G2fbFcuHeIJKQ3plFh-R2xkxB1OpVaqZhcglM6hWWl5x7PuuxbtnDlIWlCgoCr0LGVM4S-loaj_Jc=w1232-rw" alt="Rappel des tortues" width="600">
</div>


**Sondage** : Levez la main, lequel de ces sous-domaines de l'IA pour la biologie trouvez-vous le plus int√©ressant ?
1. üè• **Diagnostics m√©dicaux** üè•
2. üíä **Pharmacie et d√©veloppement de m√©dicaments** üíä
3. üß¨ **Biologie mol√©culaire** üß¨
4. üå≥ **√âcologie et conservation** üå≥
5. **Autre** (lequel ? :)

**Question** : quelles autres initiatives int√©ressantes dans le domaine de l'IA en biologie connaissez-vous ?


### Lectures compl√©mentaires

Ces exemples ne sont pas exhaustifs et visent simplement √† vous donner un aper√ßu de certaines applications actuelles de l'IA en biologie. Si vous souhaitez en savoir plus sur ce domaine, voici quelques ressources int√©ressantes √† lire :

- Un article de revue de *Nature Communications* de 2022 intitul√© ["Current progress and open challenges for applying deep learning across the biosciences"](https://www.nature.com/articles/s41467-022-29268-7)
- Un article de revue un peu plus ancien (2018) intitul√© [‚ÄúOpportunities and obstacles for deep learning in biology and medicine‚Äù](https://royalsocietypublishing.org/doi/10.1098/rsif.2017.0387). Celui-ci a √©t√© cit√© plus de 2 000 fois !
- ["Deep Learning for the Life Sciences"](https://www.oreilly.com/library/view/deep-learning-for/9781492039822/), un livre d'O'Reilly de 2019, qui fournit des informations pratiques et des applications du deep learning en g√©nomique, en chimie et en bio-informatique.


## 2. Introduction √† l'ADN

    


Nous esp√©rons que cette introduction vous a suffisamment enthousiasm√© pour les applications de l'apprentissage profond en biologie ! Pour le reste de cette s√©ance pratique, nous allons nous plonger nous-m√™mes dans le travail d'IA appliqu√© √† la biologie, en nous concentrant sur le sujet de l'ADN.


<div align="center">
    <img src="https://i.pinimg.com/originals/c7/90/76/c79076215950e968828f663e1b69fe67.gif" alt="DNA gif" width="200">
</div>

    


**L'ADN est la mol√©cule de l'h√©r√©dit√©, la base de toute vie telle que nous la connaissons.**

Sa structure a √©t√© d√©couverte pour la premi√®re fois en 1953, marquant un moment crucial dans les sciences biologiques. La premi√®re √©bauche du g√©nome humain a √©t√© publi√©e en 2001, jetant les bases de la g√©nomique moderne.

Mais ces dates sont assez r√©centes, et bien que nous connaissions maintenant une partie du "quoi" du g√©nome, nous sommes tr√®s loin de conna√Ætre le "comment" de son fonctionnement r√©el.

Par exemple, nous savons que l'ADN est compos√© de 4 "lettres" diff√©rentes, √† savoir A (ad√©nine), C (cytosine), G (guanine) et T (thymine) et que le g√©nome humain est compos√© de 3,2 milliards de lettres qui sont r√©parties sur 23 paires de chromosomes. L'ADN est compact√© de diff√©rentes mani√®res afin de tenir dans le noyau de la cellule :

<div align="center">
    <img src="https://miro.medium.com/v2/resize:fit:1400/1*EUKrGpPzUAwp2sOOPZOcqA.jpeg" alt="DNA text" width="400">
</div>

Si nous devions ouvrir le "livre" du g√©nome humain, nous verrions quelque chose comme ceci :

<div align="center">
    <img src="https://cms.wellcome.org/sites/default/files/styles/image_full_hi/public/WI_C0035768_GenomeEditing_20150902_News_600x600.jpg?itok=FCedpedU" alt="DNA text" width="400">
</div>

**Ceci peut √™tre tr√®s difficile √† interpr√©ter**. Et il y a beaucoup d'ADN √† interpr√©ter - assez pour remplir une biblioth√®que s'il √©tait imprim√© dans des volumes de livres :

<div align="center">
    <img src="https://live.staticflickr.com/3265/2569126918_b68047a65b_b.jpg" alt="DNA bookcase" width="400">
</div>

Parmi les principales questions ouvertes que nous nous posons sur l'ADN, citons :
- Que font les 3,2 milliards de lettres du g√©nome humain ? Sont-elles toutes biologiquement fonctionnelles ?
- Comment chaque cellule du corps humain peut-elle avoir exactement le m√™me g√©nome, mais avoir des fonctions tr√®s diff√©rentes ? Par exemple, pensez √† la diff√©rence entre un neurone et une cellule musculaire.
- Nous savons que seulement 2 % environ de l'ADN du g√©nome code pour des prot√©ines, √† quoi servent les 98 % restants ?
- Comment la variation g√©n√©tique conduit-elle √† la maladie ou aux diff√©rences que nous observons entre les individus ?

Pour r√©sumer :

***Le g√©nome humain peut √™tre consid√©r√© comme un tr√®s long livre dont les mots sont compos√©s des lettres A, T, C et G. Les mod√®les de deep learning sont tr√®s prometteurs pour la compr√©hension du g√©nome en raison de leur capacit√© √† saisir le signal dans des donn√©es volumineuses, complexes et potentiellement bruyantes.***
    


## Mod√®les de langage ADN
    



## Mod√®les de langage ADN

**Les mod√®les de langage ADN (LMs)** sont tr√®s similaires aux mod√®les de langage de grande taille que vous connaissez peut-√™tre, tels que ChatGPT, Gemini, Claude, etc. Au lieu d'√™tre entra√Æn√©s sur de grandes quantit√©s de texte en langage naturel, les LMs d'ADN sont entra√Æn√©s sur de grandes quantit√©s de s√©quences d'ADN.

De nombreux LLMs et LMs d'ADN sont entra√Æn√©s en **masquant** de mani√®re al√©atoire certains jetons dans le texte, puis en demandant au mod√®le de pr√©dire ce qu'est le jeton¬†:

<div align="center">
<a href="https://ibb.co/M9d9GM0"><img src="https://i.ibb.co/25J5sg4/Screenshot-2024-07-23-at-22-18-57.png" alt="Screenshot-2024-07-23-at-22-18-57" width="800" border="0"></a>
</div>

De la m√™me mani√®re que les LLMs acqui√®rent une compr√©hension du langage qui peut ensuite √™tre utile pour de nombreuses t√¢ches en aval, les mod√®les de langage ADN peuvent capturer les sch√©mas et les structures complexes au sein de l'ADN, ce qui les rend pr√©cieux pour diverses t√¢ches g√©nomiques en aval telles que l'analyse des mutations et la compr√©hension des √©l√©ments r√©gulateurs¬†:


## Quelques mod√®les de langage ADN populaires

Tout comme les LLMs ont connu un succ√®s massif, de plus en plus de personnes s'int√©ressent √† l'entra√Ænement de mod√®les de langage ADN. Parmi les plus c√©l√®bres, citons :

- [DNABERT](https://academic.oup.com/bioinformatics/article/37/15/2112/6128680) (2021) - DNABERT adapte le mod√®le BERT, qui a connu un grand succ√®s en PNL (NLP), pour comprendre les s√©quences d'ADN.
- [HyenaDNA](https://arxiv.org/abs/2306.15794) (2023) - Sp√©cialis√© dans les longues s√©quences d'ADN, avec des contextes allant jusqu'√† 1¬†million de jetons au niveau du nucl√©otide unique.
- [Nucleotide Transformer](https://www.biorxiv.org/content/10.1101/2023.01.11.523679v1) (2023) - une architecture bas√©e sur un transformateur sp√©cifiquement con√ßue pour les s√©quences de nucl√©otides.

Certaines personnes ont √©galement affin√© des LLMs en langage naturel existants sur des s√©quences d'ADN, par exemple [Mistral-DNA](https://github.com/raphaelmourad/Mistral-DNA).

Pour ce TP, nous utiliserons le mod√®le Nucleotide Transformer
(NT) car il est assez performant, populaire et facilement disponible sur la [plateforme Hugging Face ü§ó](https://huggingface.co/).


## Le mod√®le Nucleotide Transformer (NT)
    


Nucleotide Transformer a √©t√© entra√Æn√© sur 3 202 g√©nomes humains divers, ainsi que sur 850 g√©nomes provenant d'un large √©ventail d'esp√®ces. Le mod√®le g√©n√®re des repr√©sentations transf√©rables et contextuelles de s√©quences d'ADN.

Voici quelques d√©tails suppl√©mentaires sur le mod√®le¬†:
- NT est une architecture de transformateur √† encodeur uniquement, form√©e √† l'aide de l'approche BERT (masquage de parties de s√©quences d'ADN). Les s√©quences d'ADN ont √©t√© tokenis√©es en 6-mers.
- Il s'agit d'un mod√®le non supervis√©, mais ses repr√©sentations seules √©galent ou surpassent les m√©thodes sp√©cialis√©es sur 11¬†t√¢ches de pr√©diction sur¬†18, telles que la pr√©diction de la pr√©sence de certains √©l√©ments r√©gulateurs connus sous le nom de promoteurs et d'amplificateurs dans un fragment d'ADN donn√©.
- Les donn√©es d'entra√Ænement pour la version `nucleotide-transformer-v2-50m-multi-species` de NT ont √©t√© entra√Æn√©es sur un total de **174¬†milliards de nucl√©otides**, soit environ **29¬†milliards de jetons (tokens)**. Voici les statistiques par groupe d'organismes¬†:

| Classe                | Nombre d'esp√®ces | Nombre de nucl√©otides (milliards) |
| ---------------------| -------------------| --------------------------|
| Bact√©ries            | 667                | 17,1                      |
| Champignons           | 46                 | 2,3                       |
| Invert√©br√©s          | 39                 | 20,8                      |
| Protozoaires          | 10                 | 0,5                       |
| Vert√©br√©s mammif√®res | 31                 | 69,8                      |
| Autres vert√©br√©s      | 57                 | 63,4                      |

Il existe d'autres versions plus volumineuses du mod√®le disponibles sur Hugging Face [ici](https://huggingface.co/collections/InstaDeepAI/nucleotide-transformer-65099cdde13ff96230f2e592). Nous utilisons ici un mod√®le relativement petit pour des raisons de vitesse.
    


## Exploration des plongements d'ADN dans diff√©rentes esp√®ces
    


Chargeons le mod√®le Nucleotide Transformer (NT) depuis HuggingFace et commen√ßons √† l'utiliser¬†!

Nous avons d√©j√† charg√© le tokenizer et le mod√®le dans la premi√®re cellule du notebook. Ce sont ces deux objets¬†:
    


In [None]:
type(tokenizer)

In [None]:
type(language_model)

    
Voyons ce que le mod√®le a appris sur l'ADN de diff√©rentes esp√®ces. Nous pouvons prendre des s√©quences d'ADN al√©atoires provenant de diff√©rentes esp√®ces, utiliser le mod√®le pour extraire une repr√©sentation **embedding** de l'ADN, et voir si les esp√®ces similaires ont tendance √† avoir un ADN avec des repr√©sentations similaires.

Cr√©ons une liste d'esp√®ces qui nous int√©ressent¬†:
    


In [None]:
organismes = [
    'Homo sapiens',  # Humain
    'Pan troglodytes',  # Chimpanz√©
    'Pan paniscus',     # Bonobo
    'Gorilla gorilla',  # Gorille
    'Tursiops truncatus',  # Dauphin (√† gros nez)
    'Hydrochoerus hydrochaeris',  # Capybara
    'Escherichia coli',  # Bact√©rie E. coli
    'Lactobacillus acidophilus',  # Bact√©rie probiotique commune
    'Salmonella enterica',  # Pathog√®ne d'origine alimentaire courant
    'Pseudomonas aeruginosa',  # Bact√©rie pr√©sente dans le sol et l'eau
]

print(len(organismes))

On peut utiliser la biblioth√®que Python `Entrez` pour effectuer une recherche dans la base de donn√©es pour une cha√Æne d'ADN al√©atoire pour un organisme donn√©¬†:


In [None]:
organism = 'Homo sapiens'
gene = 'BRCA1'  # Nom de g√®ne exemple.

Entrez.email = "your.email@example.com"  # Requis. Peut √™tre un espace r√©serv√©.

# Recherche des enregistrements d'ADN pour l'organisme.
query = f'({gene}[Gene Name]) AND {organism}[Organism] AND "RefSeq"[filter]'
handle = Entrez.esearch(db='nucleotide', term=query, retmax=10)
record = Entrez.read(handle)
handle.close()

# R√©cup√©rer un enregistrement al√©atoire.
np.random.seed(42)
random_record_id = np.random.choice(record['IdList'])

# Lire l'ADN.
handle = Entrez.efetch(
    db='nucleotide', id=random_record_id, rettype='fasta', retmode='text')
seq_record = SeqIO.read(handle, 'fasta')

print(seq_record)

On peut facilement extraire la cha√Æne d'ADN de cette entr√©e :
    


In [None]:
dna_sequence = str(seq_record.seq)
dna_sequence

Le mod√®le NT peut √™tre utilis√© pour calculer une repr√©sentation num√©rique de la signification de cette s√©quence d'ADN. Nous allons simplement passer la s√©quence d'ADN en entr√©e, la tokeniser, et extraire les activations de la derni√®re couche cach√©e du mod√®le¬†:


In [None]:
#¬†Tokenisation de la s√©quence d'ADN.
max_length = tokenizer.model_max_length

token_ids = tokenizer.batch_encode_plus(
  [dna_sequence], return_tensors='pt',
  padding='max_length', max_length=max_length,
  truncation=True)['input_ids']

token_ids

Vous pouvez voir que la s√©quence d'ADN a √©t√© tokenis√©e et compl√©t√©e (padded) avec le token `1` jusqu'√† la longueur maximale de 2048¬†:


In [None]:
len(token_ids[0])

In [None]:
token_ids[0][-50:]  # Afficher les 50 derniers jetons.

Voyons maintenant la sortie du mod√®le √©tant donn√© cette entr√©e d'ADN¬†:
    


In [None]:
masque_attention = token_ids != tokenizer.pad_token_id

torch_outs = language_model(
  token_ids,
  attention_mask=masque_attention,
  encoder_attention_mask=masque_attention,
  output_hidden_states=True,
)

On peut voir que 13 sorties d'√©tats cach√©s diff√©rentes sont pr√©sentes, repr√©sentant les sorties de 13 couches diff√©rentes dans le mod√®le¬†:


In [None]:
len(torch_outs['hidden_states'])

Prenons le dernier √©tat cach√© √† l'index `-1` car il est susceptible d'√™tre informatif (mais peut-√™tre pas de mani√®re optimale pour chaque t√¢che - nous pourrions essayer l'avant-dernier √©tat cach√©, ou le troisi√®me √† partir de la fin, etc.) :
    


In [None]:
embeddings = torch_outs['hidden_states'][-1].detach()
embeddings = np.squeeze(embeddings.numpy())
embeddings.shape

On peut voir que le plongement est une matrice de forme 2048 par 512. C'est une grande matrice numpy¬†!
    


In [None]:
embeddings

Au sein de cette large matrice de nombres, le mod√®le a captur√© un certain sens de la signification de la cha√Æne d'ADN.

Rappelons que notre cha√Æne d'ADN avait une longueur de 2048 ‚Äì cela signifie que chaque position a son propre vecteur de plongement (embeddings) de longueur 512 qui est contextuel.

Nous pourrions visualiser cette matrice de nombres, mais cela en soi ne serait pas tr√®s significatif :

    


In [None]:
plt.imshow(embeddings)
plt.show()

Une fa√ßon courante de r√©sumer un plongement comme celui-ci est de calculer le **plongement moyen**¬†: nous pouvons prendre la moyenne sur l‚Äôaxe spatial et obtenir un plongement de longueur 512 qui repr√©sente la s√©quence d‚ÄôADN enti√®re.


In [None]:
# D√©placer l'axe pour que le broadcasting fonctionne.
masque_attention = np.moveaxis(masque_attention.numpy(), 0, -1)

# Calcul du plongement (embeddings) moyen.
mean_embeddings = np.sum(
    masque_attention * embeddings, axis=0) / np.sum(masque_attention)

plt.plot(mean_embeddings, color='grey')
plt.show()

**C'est pratique de pouvoir condenser une s√©quence d'ADN en 512 nombres comme ceci, mais c'est encore difficile de vraiment savoir ce que ces nombres signifient.**

La valeur des plongements (embeddings) de s√©quences se r√©v√®le vraiment lorsque vous les **comparez les uns aux autres**. Donc, √©crivons la fonction `fetch_random_dna` qui va extraire des s√©quences d'ADN al√©atoires pour une esp√®ce donn√©e¬†:
    


In [None]:
def fetch_random_dna(
  organism: str,
  min_length: int,
  max_length: int,
  num_sequences: int,
  max_attempts: int = 50) -> list[str]:
  """R√©cup√®re un certain nombre de s√©quences d'ADN d'une longueur donn√©e pour une esp√®ce."""
  # Recherche des entr√©es nucl√©otidiques pour l'organisme comme nous l'avons fait pr√©c√©demment.
  handle = Entrez.esearch(
      db='nucleotide', term=f'{organism}[Organism]', retmax=max_attempts)
  record = Entrez.read(handle)
  handle.close()
  if not record['IdList']:
    return []

  # Nous pouvons collecter nos s√©quences d'ADN dans cette liste.
  sequences = []  # (s√©quences)
  attempts = 0  # (tentatives)

  while len(sequences) < num_sequences and attempts < max_attempts:
    random_record_id = random.choice(record['IdList'])
    handle = Entrez.efetch(
        db='nucleotide', id=random_record_id, rettype='fasta', retmode='text')
    try:
      seq_record = SeqIO.read(handle, 'fasta')
      handle.close()

      if len(seq_record.seq) >= min_length:
        seq = str(seq_record.seq) # (seq)
        if len(seq) > max_length:
          seq = seq[:max_length]
        sequences.append(seq)

    # G√®re le cas o√π aucun enregistrement FASTA valide n'a √©t√© trouv√©.
    except ValueError:
      handle.close()
    attempts += 1

  return sequences

Utilisons cela pour r√©cup√©rer une courte s√©quence d'ADN pour l'homme :
    


In [None]:
fetch_random_dna(
    organism='Homo sapiens', min_length=10, max_length=50, num_sequences=1)

Maintenant, on peut facilement l'utiliser pour r√©cup√©rer des s√©quences d'ADN pour les organismes dans notre liste ci-dessus. Le code pour faire cela ressemblerait √† ceci :
    


In [None]:
NUM_SEQUENCES = 1
MIN_LENGTH = 100
MAX_LENGTH = 1000
random.seed(42)

# (first_organisms) : premiers organismes
first_organisms = organismes[0:3]

print(f'Fetching {NUM_SEQUENCES} random DNA sequences of min length '
      f'{MIN_LENGTH} and max length {MAX_LENGTH} for {len(first_organisms)} '
      'organisms...\n')

dna_sequences_small = []
# (organism_labels) : √©tiquettes des organismes
organism_labels = []

# (organism) : organisme
for organism in tqdm.tqdm(first_organisms, desc='Organisms'):
  print(organism, flush=True)
  # (sequences) : s√©quences
  sequences = fetch_random_dna(
      organism, min_length=MIN_LENGTH, max_length=MAX_LENGTH,
      num_sequences=NUM_SEQUENCES)
  dna_sequences_small += sequences
  organism_labels += [organism] * len(sequences)

# (sequence) : s√©quence
dna_sequences_small = pd.DataFrame({'sequence': dna_sequences_small, 'organism': organism_labels})

Mais cela prend quelques minutes √† s'ex√©cuter si nous voulons par exemple 20 s√©quences d'ADN pour chacun des 10 organismes, donc par souci de rapidit√©, nous avons pr√©-r√©cup√©r√© certaines s√©quences pour plus de commodit√©¬†:
    


In [None]:
dna_sequences

Nous pouvons nous appuyer sur notre code pr√©c√©dent pour extraire les plongements moyens des s√©quences d'ADN :
    



In [None]:
def _compute_mean_sequence_embeddings(
  dna_sequences: list[str],
  tokenizer: AutoTokenizer,
  model: AutoModelForMaskedLM):

  max_length = tokenizer.model_max_length
  tokens_ids = tokenizer.batch_encode_plus(
    dna_sequences, return_tensors="pt", padding="max_length",
    max_length=max_length)["input_ids"]

  # Calcul des plongements.
  attention_mask = tokens_ids != tokenizer.pad_token_id

  # D√©placement du mod√®le et des tenseurs vers le GPU.
  model = model.to('cuda')
  tokens_ids = tokens_ids.to('cuda')
  attention_mask = attention_mask.to('cuda')

  # Par d√©faut, PyTorch conserve le graphe de calcul pour la passe arri√®re, mais cela
  # remplit la RAM et nous n'en avons pas besoin, nous le d√©sactivons donc avec torch.no_grad().
  with torch.no_grad():
    torch_outs = model(
      tokens_ids,
      attention_mask=attention_mask,
      encoder_attention_mask=attention_mask,
      output_hidden_states=True,
    )

  # Calcul des plongements de s√©quences.
  embeddings = torch_outs['hidden_states'][-1].detach().cpu()

  # Ajout d'une dimension de plongement.
  attention_mask_cpu = torch.unsqueeze(attention_mask.cpu(), dim=-1)

  # Calcul des plongements moyens par s√©quence
  mean_sequence_embeddings = torch.sum(
    attention_mask_cpu * embeddings, axis=-2) / torch.sum(attention_mask_cpu, axis=1)

  return mean_sequence_embeddings.numpy()


def compute_mean_sequence_embeddings(
    dna_sequences: list[str],
    tokenizer: AutoTokenizer,
    model: AutoModelForMaskedLM,
    batch_size: int = 20) -> np.ndarray:
  """Calcule les plongements moyens de s√©quences pour une liste de cha√Ænes d'ADN."""
  all_mean_embeddings = []

  # (batch_sequences: lots de s√©quences, batch_mean_embeddings: plongements moyens des lots)
  for i in tqdm.tqdm(range(0, len(dna_sequences), batch_size)):
    batch_sequences = dna_sequences[i:i+batch_size]
    batch_mean_embeddings = _compute_mean_sequence_embeddings(
        batch_sequences, tokenizer, model)
    all_mean_embeddings.extend(batch_mean_embeddings)

  return np.vstack(all_mean_embeddings)

In [None]:
embeddings = compute_mean_sequence_embeddings(
    dna_sequences['sequence'], tokenizer, language_model, batch_size=7)

Cela nous donne un encodage de longueur 512 pour chacune des 200 cha√Ænes d'ADN¬†:


In [None]:
embeddings.shape

Ce serait formidable de pouvoir visualiser ces donn√©es. Mais comme les humains ne peuvent pas vraiment visualiser des choses dans un espace √† 512 dimensions, utilisons d'abord une technique de r√©duction de dimensionnalit√© telle que tSNE pour projeter les donn√©es sur 2 dimensions. Cela donne 2 nombres pour chaque s√©quence d'ADN originale qui capturent encore une certaine notion de sens dans l'ADN :
    


In [None]:
tsne = TSNE(n_components=2, learning_rate='auto', random_state=0)
embeddings_tsne = tsne.fit_transform(embeddings)

# (embeddings_tsne_df) : DataFrame des embeddings apr√®s tSNE
embeddings_tsne_df = pd.DataFrame(
    embeddings_tsne, columns=['first_dim', 'second_dim'])

# (organism) : Organisme
embeddings_tsne_df['organism'] = dna_sequences['organism']
embeddings_tsne_df

# On peut √©tiqueter chaque token avec son esp√®ce ou une √©tiquette plus g√©n√©rale, comme "animal" ou "plante".
    # Cela nous permet de voir si des s√©quences similaires provenant d'esp√®ces similaires se regroupent.
    # On peut ensuite redessiner le graphique et le colorer par √©tiquette :


In [None]:
labels = {
    'Homo sapiens': 'animal',
    'Pan paniscus': 'animal',
    'Pan troglodytes': 'animal',
    'Tursiops truncatus': 'animal',
    'Hydrochoerus hydrochaeris': 'animal',
    'Escherichia coli': 'bact√©rie',
    'Pseudomonas aeruginosa': 'bact√©rie',
    'Lactobacillus acidophilus': 'bact√©rie',
    'Salmonella enterica': 'bact√©rie',
    }

embeddings_tsne_df['label'] = embeddings_tsne_df['organism'].map(labels)

ax = sns.scatterplot(data=embeddings_tsne_df,
                x='first_dim',
                y='second_dim',
                hue='label', color=None,
                s=200, alpha=0.7, palette='Set2')

plt.legend(loc='center left', bbox_to_anchor=(1, 0.5))

plt.tight_layout()

Il semble que, bien que les s√©quences animales et bact√©riennes aient tendance √† occuper des parties quelque peu diff√©rentes de l'espace d'incorporation, il existe certainement beaucoup de chevauchements, ce qui sugg√®re que les g√©nomes de l'arbre de vie partagent de nombreuses similitudes¬†!

**Question¬†**: Est-ce ce √† quoi vous vous attendiez¬†?

Si vous souhaitez en savoir plus sur les g√©nomes animaux et bact√©riens, voici quelques faits amusants¬†:
- ***Similitudes***¬†:
  - **Code g√©n√©tique de base**¬†: les g√©nomes animaux et bact√©riens utilisent le m√™me code g√©n√©tique, avec des s√©quences d'ADN compos√©es des quatre m√™mes nucl√©otides¬†: ad√©nine (A), cytosine (C), guanine (G) et thymine (T).
  - **G√®nes conserv√©s**¬†: De nombreux g√®nes fondamentaux impliqu√©s dans des processus essentiels, tels que la r√©plication de l'ADN, la transcription et la traduction, sont conserv√©s chez les animaux et les bact√©ries.
- ***Diff√©rences***¬†:
  - **Taille du g√©nome**¬†: les g√©nomes animaux sont g√©n√©ralement beaucoup plus gros (les humains ont 3,2¬†milliards de bases d'ADN) tandis que les g√©nomes bact√©riens sont plus petits (de quelques centaines de milliers √† quelques millions).
  - **Chromosomes**¬†: les animaux ont plusieurs chromosomes lin√©aires, tandis que les bact√©ries ont g√©n√©ralement un seul chromosome circulaire.
  - **Densit√© des g√®nes**¬†: les g√©nomes bact√©riens sont plus denses en g√®nes, tandis que les g√©nomes animaux sont plus rares et comportent plus d'√©l√©ments r√©gulateurs.
  - **Structure des g√®nes**¬†: les g√®nes animaux contiennent souvent des introns (r√©gions non codantes au sein des g√®nes) contrairement aux g√®nes bact√©riens en g√©n√©ral.

**Question :** Lesquelles de ces diff√©rences pourraient √™tre captur√©es par les embeddings mentionn√©s ci-dessus ?


**T√¢che**¬†:
- Essayez de saisir des s√©quences d'ADN pour d'autres esp√®ces, par exemple des esp√®ces v√©g√©tales. Voici quelques noms scientifiques de plantes¬†:
```python
 plants = [
  'Oryza sativa',  # Riz
  'Vitis vinifera',  # Raisin
  'Rosa chinensis',  # Rose
  'Musa acuminata',  # Banane
  'Solanum lycopersicum', # Tomate
 ]
 ```
- Dans quelle mesure le nuage de points est-il sensible aux changements de germe al√©atoire ou aux autres param√®tres¬†? Essayez une technique de r√©duction de dimensionnalit√© diff√©rente telle que UMAP au lieu de tSNE. Le nuage de points est-il diff√©rent¬†?
    

## 3. R√©glage fin d'un mod√®le de langage ADN



Dans cette derni√®re section, nous allons adapter notre mod√®le de langage ADN √† une nouvelle t√¢che par **r√©glage fin** (fine-tuning).

### Qu'est-ce que le r√©glage fin ?
Le r√©glage fin est le processus qui consiste √† prendre un **mod√®le pr√©-entra√Æn√©** et √† y apporter de l√©g√®res modifications afin qu'il puisse effectuer une nouvelle t√¢che sp√©cialis√©e.

Au lieu d'entra√Æner un mod√®le √† partir de z√©ro, ce qui peut prendre beaucoup de temps et n√©cessiter beaucoup de donn√©es, nous commen√ßons par un mod√®le qui comprend d√©j√† certains concepts g√©n√©raux. Nous l'entra√Ænons ensuite sur un ensemble de donn√©es plus petit et sp√©cifique √† la t√¢che.

Le **pr√©-entra√Ænement suivi d'un r√©glage fin** est un mod√®le g√©n√©ral dans le domaine du ML. Voici quelques exemples tir√©s du langage naturel et du langage ADN :


<a href="https://ibb.co/tpd50VH"><img src="https://i.ibb.co/CKrFjRw/ML-for-bio-06.png" alt="NLP vs DNA" border="0" width="400"></a>


### Le probl√®me biologique

--> **Nous allons entra√Æner un mod√®le pour pr√©dire si une cha√Æne donn√©e de 200 bases d'ADN va se lier √† un facteur de transcription donn√©**.

Les facteurs de transcription (FT) sont des prot√©ines sp√©ciales qui se lient √† l'ADN et jouent un r√¥le crucial dans l'activation ou la d√©sactivation des g√®nes. Ils sont essentiels car ils contr√¥lent l'expression des g√®nes, qui √† son tour affecte le fonctionnement, le d√©veloppement et la r√©ponse des cellules √† leur environnement. Par exemple, ils peuvent d√©terminer si une cellule devient une cellule musculaire, un neurone ou une cellule cutan√©e.

Voici une image d'un facteur de transcription (en violet) se liant √† une certaine r√©gion de l'ADN (surlign√©e en jaune) :

<div align="center">
    <img src="https://www.nichd.nih.gov/sites/default/files/2022-05/TranscriptionFactor-400px.jpg" alt="DNA TF binding" width="400">
</div>






Chaque facteur de transcription a une certaine **pr√©f√©rence de liaison** - il pr√©f√®re se lier √† une s√©quence sp√©cifique de bases d'ADN et pas √† d'autres. Cela est d√ª au fait que les formes 3D du FT et de la r√©gion de l'ADN peuvent bien s'assembler ou non.

L'homme poss√®de plus de 1 000 facteurs de transcription. Nous allons nous int√©resser √† un facteur de transcription sp√©cifique appel√© CTCF, qui a tendance √† se lier √† des s√©quences similaires √† CCACCAGGGGGCGC (avec une certaine variation possible √† certaines positions).

Voici le probl√®me de pr√©diction en termes visuels :


- Pour une cha√Æne sp√©cifique de 200 paires de bases d'ADN, nous voulons pr√©dire la probabilit√© qu'un **facteur de transcription** donn√© se lie dans cette r√©gion.


## Le jeu de donn√©es
    


Voici √† quoi ressemble le jeu de donn√©es que nous allons utiliser¬†:

<a href="https://ibb.co/1ZbY3SF"><img src="https://i.ibb.co/PxtsRSq/ML-for-bio-05.png" alt="dataset description" border="0"></a>

La t√¢che est une **t√¢che de classification binaire** ‚Äì √©tant donn√© 200¬†bases d'ADN, nous pr√©disons s'il se liera √† un facteur de transcription sp√©cifique appel√© CTCF. Le CTCF est en fait un facteur de transcription particuli√®rement int√©ressant, car il est impliqu√© dans l‚Äô**architecture du g√©nome**, c'est-√†-dire le repliement 3D √©labor√© du g√©nome en compartiments sp√©cifiques.

Le probl√®me est inspir√© de l'une des t√¢ches d'√©valuation de ce r√©cent [pr√©-impression d'article de 2024](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10925287/), qui a tir√© le jeu de donn√©es de cet [article d'interpr√©tation de la g√©nomique de 2023](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10169356/)
    


#### Chargement du jeu de donn√©es.
    


Le jeu de donn√©es d'entra√Ænement a d√©j√† √©t√© construit pour vous¬†:
- Nous avons 20¬†000 exemples d'entra√Ænement.
- Chacun est un encodage (embedding) moyen de l'ADN qui a √©t√© extrait √† l'aide du mod√®le de langage NT.
- La derni√®re colonne du dataframe est l'√©tiquette, indiquant si l'ADN se lie ou non √† la prot√©ine CTCF.


In [None]:
train_df

En g√©n√©ral, on observe que les 2 classes sont assez √©quilibr√©es (repr√©sent√©es de mani√®re √©gale) dans le jeu de donn√©es d'entra√Ænement, ce qui signifie que nous n'aurons pas besoin de faire de r√©√©quilibrage ici¬†:
    


In [None]:
train_df['label'].value_counts()

Si cela vous int√©resse, vous pouvez consulter le code qui a permis de g√©n√©rer ce jeu de donn√©es, mais vous n'avez pas besoin de l'ex√©cuter ici.


#### [Vous n'avez pas besoin d'ex√©cuter ceci] Code de cr√©ation du jeu de donn√©es.

```python
# 1. Charger le fichier h5 contenant les jeux de donn√©es CTCF.
file_path = os.path.join(ROOT_DIR, 'CTCF_200.h5')

with h5py.File(file_path, 'r') as h5file:
  print("Keys: %s" % list(h5file.keys()))

  # Acc√©der √† chaque jeu de donn√©es et le convertir en tableaux numpy.
  x_train = h5file['x_train'][()] # donn√©es d'entra√Ænement
  y_train = h5file['y_train'][()] # √©tiquettes d'entra√Ænement
  x_valid = h5file['x_valid'][()] # donn√©es de validation
  y_valid = h5file['y_valid'][()] # √©tiquettes de validation
  x_test = h5file['x_test'][()] # donn√©es de test
  y_test = h5file['y_test'][()] # √©tiquettes de test

# Chaque s√©quence d'ADN est encod√©e en one-hot. Visualiser le premier exemple d'entra√Ænement¬†:
fig, ax = plt.subplots(figsize=(12, 12))
plt.imshow(x_train[0, :, :])
plt.show()

# 2. √âtant donn√© que notre mod√®le de langage d'ADN prend en r√©alit√© des lettres en entr√©e, nous pouvons annuler
# l'encodage one-hot avec une fonction¬†:

def one_hot_to_dna_batch(one_hot_encoded_batch: np.ndarray):
  """
  Convertir un lot de s√©quences d'ADN encod√©es en one-hot en cha√Ænes de s√©quences d'ADN.

  Args:
    one_hot_encoded_batch (numpy.ndarray): Un tableau numpy 3D avec des s√©quences d'ADN
      encod√©es en one-hot. La forme doit √™tre (nombre_de_s√©quences, longueur_de_la_s√©quence, 4).

  Returns:
    list: Une liste de s√©quences d'ADN.
  """
  # D√©finir une correspondance entre l'encodage one-hot et les nucl√©otides.
  one_hot_mapping = {
      (1, 0, 0, 0): 'A',
      (0, 1, 0, 0): 'C',
      (0, 0, 1, 0): 'G',
      (0, 0, 0, 1): 'T',
  }

  dna_sequences = []

  for one_hot_encoded in one_hot_encoded_batch:
    dna_sequence = []
    for one_hot in one_hot_encoded:
      one_hot_tuple = tuple(one_hot)
      dna_sequence.append(one_hot_mapping[one_hot_tuple])

    dna_sequences.append(''.join(dna_sequence))

  return dna_sequences

NUM_TRAIN_EXAMPLES = 20_000
NUM_VALID_EXAMPLES = 5_000

# exemples d'entra√Ænement (x_train), √©tiquettes d'entra√Ænement (y_train), exemples de validation (x_valid), √©tiquettes de validation (y_valid)
x_train = one_hot_to_dna_batch(
    np.moveaxis(x_train, 1, -1)[0:NUM_TRAIN_EXAMPLES])
y_train = y_train[0:NUM_TRAIN_EXAMPLES]

x_valid = one_hot_to_dna_batch(
    np.moveaxis(x_valid, 1, -1)[0:NUM_VALID_EXAMPLES])
y_valid = y_valid[0:NUM_VALID_EXAMPLES]

# Jeter un coup d'≈ìil aux exemples d'entra√Ænement et aux √©tiquettes¬†:
print(x_train[0:5])
print(y_train[0:5])

# 3. Calculer les plongements moyens du mod√®le de langage d'ADN des s√©quences.
train_embeddings = compute_mean_sequence_embeddings(
    x_train, tokenizer, language_model)
train_df = pd.DataFrame(train_embeddings)
train_df['label'] = y_train[:, 0]

valid_embeddings = compute_mean_sequence_embeddings(
    x_valid, tokenizer, language_model)
valid_df = pd.DataFrame(valid_embeddings)
valid_df['label'] = y_valid[:, 0]
```
    


## Convertir les donn√©es en un jeu de donn√©es TensorFlow
    


Nous devrons convertir ces dataframes en un jeu de donn√©es TensorFlow sur lequel nous pourrons facilement it√©rer lors de l'entra√Ænement du mod√®le¬†:
    


In [None]:
import tensorflow as tf
import numpy as np

def convert_to_tfds(df: pd.DataFrame, batch_size: int=32,
                    is_training: bool=False):
    """Convertit les plongements et les √©tiquettes en un jeu de donn√©es TensorFlow.""" # embeddings: plongements, labels: √©tiquettes
    embeddings = np.array(df.iloc[:, :-1])
    labels = np.array(df.iloc[:, -1])[:, None]

    ds = tf.data.Dataset.from_tensor_slices(
        {'embeddings': embeddings, 'labels': labels})

    if is_training:
      ds = ds.shuffle(buffer_size=len(df)).repeat()

    ds = ds.batch(batch_size).prefetch(tf.data.experimental.AUTOTUNE)

    return iter(ds)

BATCH_SIZE = 32

train_ds = convert_to_tfds(
    train_df, batch_size=BATCH_SIZE, is_training=True)
valid_ds = convert_to_tfds(
    valid_df, batch_size=BATCH_SIZE, is_training=False)

Jetons un coup d'≈ìil √† un lot de donn√©es d'entra√Ænement¬†:
    



In [None]:
batch = next(train_ds)
batch

Le jeu de donn√©es est pr√™t pour l'entra√Ænement du mod√®le¬†!


## R√©glage fin du mod√®le


Nous allons maintenant entra√Æner un mod√®le lin√©aire [flax](https://flax.readthedocs.io/en/latest/) simple sur les plongements d'ADN moyens.

Flax est assez similaire √† de nombreux autres frameworks de deep learning (en particulier [Haiku](https://dm-haiku.readthedocs.io/en/latest/), si vous l'avez d√©j√† rencontr√©). Dans notre configuration, notez que notre mod√®le n'est qu'un MLP (perceptron multicouche, qui est constitu√© de plusieurs couches lin√©aires avec quelques non-lin√©arit√©s) - nous ne modifions pas (r√©tropropagation dans) le mod√®le linguistique d'ADN original.
    


In [None]:
class Model(nn.Module):
  dim: int = 128

  @nn.compact
  def __call__(self, x):
    x = nn.Dense(self.dim * 2)(x)
    x = nn.gelu(x)
    x = nn.Dense(self.dim)(x)
    x = nn.gelu(x)
    x = nn.Dense(1)(x)
    return x

In [None]:
mlp = Model()

### Boucle d'entra√Ænement (Training loop)

Avec le mod√®le et les donn√©es mis en place, nous pouvons maintenant initialiser les param√®tres de notre mod√®le, notre optimiseur, et √©crire une fonction pour effectuer une seule √©tape d'entra√Ænement (qui englobe une passe avant du mod√®le (model forward pass), un calcul de la perte (loss computation), un calcul du gradient (gradient computation) et une mise √† jour des param√®tres du mod√®le √† l'aide des gradients) :
    



In [None]:
LEARNING_RATE = 0.0001

init_rng = jax.random.PRNGKey(42)
variables = mlp.init(init_rng, batch['embeddings']) # batch: lot
params = variables['params']

optimiser = optax.adam(LEARNING_RATE)
opt_state = optimiser.init(params)

Vous pouvez v√©rifier les noms des couches dans notre r√©seau de neurones comme ceci :


In [None]:
params.keys()

Et v√©rifiez que la forme de cette couche correspond √† ce que vous attendez comme ceci¬†:
    



In [None]:
for layer_name in ['Dense_0', 'Dense_1', 'Dense_2']:
      print(params[layer_name]['kernel'].shape)

**Question** : Pouvez-vous d√©terminer d'o√π proviennent ces formes, √©tant donn√© notre code dans notre `class Model` ci-dessus ?


Nous pourrions d√©j√† faire des pr√©dictions en utilisant ces param√®tres initialis√©s al√©atoirement (seulement, les pr√©dictions seront al√©atoires)¬†:
    


In [None]:
preds = mlp.apply({'params': params}, batch['embeddings'])
nn.sigmoid(preds)

D√©finissons maintenant une fonction de perte que nous pouvons utiliser pour entra√Æner ces param√®tres¬†:
    


In [None]:
def loss_fn(params, embeddings, labels):
  """Applique la fonction sigmo√Øde aux logits et calcule la perte d'entropie crois√©e binaire (binary cross-entropy loss)."""
  logits = mlp.apply({'params': params}, embeddings)
  loss = optax.sigmoid_binary_cross_entropy(
      logits=logits, labels=labels).mean()
  return loss

Calculons un exemple de perte¬†:
     


In [None]:
embeddings = jnp.array(batch['embeddings'])
labels = jnp.array(batch['labels']) # (labels: √©tiquettes)
loss_fn(params, embeddings, labels)

Donc, nous nous attendons √† une perte autour de 0.6-0.7 pour des poids initialis√©s al√©atoirement. Avec un peu de chance, avec l'entra√Ænement du mod√®le, nous devrions voir des pertes plus faibles que cela √† mesure que le mod√®le apprend le signal dans les donn√©es¬†! :)


Finalement, nous pouvons √©crire une fonction √©tape d'entra√Ænement¬†:
    


In [None]:
@jax.jit
def train_step(params, opt_state, embeddings, labels):
  """Une seule √©tape d'entra√Ænement qui calcule les gradients et met √† jour les param√®tres du mod√®le."""
  loss, grads = jax.value_and_grad(loss_fn)(params, embeddings, labels)
  updates, opt_state = optimiser.update(grads, opt_state)
  params = optax.apply_updates(params, updates)
  return params, opt_state, loss

### Entra√Ænons le mod√®le¬†!


In [None]:
NUM_EPOCHS = 5
NUM_TRAINING_STEPS = (len(train_df) // BATCH_SIZE) * NUM_EPOCHS
LEARNING_RATE = 0.001

# R√©initialise le mod√®le pour s'assurer qu'il d√©marre √† z√©ro √† chaque fois que la cellule est ex√©cut√©e.
init_rng = jax.random.PRNGKey(42)
variables = mlp.init(init_rng, batch['embeddings'])
params = variables['params']

optimiser = optax.adam(LEARNING_RATE)
opt_state = optimiser.init(params)

# Conserve un enregistrement des pertes.
running_train_loss = None
running_train_losses = []
valid_losses = []

for epoch in tqdm.tqdm(range(NUM_EPOCHS)):

  # Boucle d'entra√Ænement.
  for step in range(NUM_TRAINING_STEPS):
    batch = next(train_ds)
    embeddings = jnp.array(batch['embeddings'])
    labels = jnp.array(batch['labels'])
    params, opt_state, loss = train_step(params, opt_state, embeddings, labels)

    if running_train_loss is None:
      running_train_loss = loss.item()
    else:
      running_train_loss = 0.99 * running_train_loss + (1 - 0.99) * loss.item()
    running_train_losses.append(running_train_loss)

  # Boucle de validation.
  valid_ds = convert_to_tfds(valid_df, batch_size=BATCH_SIZE, is_training=False)
  for batch in valid_ds:
    embeddings = jnp.array(batch['embeddings'])
    labels = jnp.array(batch['labels'])
    loss = loss_fn(params, embeddings, labels)
    valid_losses.append(loss.item())

  valid_loss = np.mean(valid_losses)
  print(f'[Epoch {epoch}]: Valid loss (Perte de validation)={valid_loss:.3f}, '
        f'Train loss (Perte d\'entra√Ænement)={running_train_loss:.3f}\n')

print('Entra√Ænement termin√©.')

üéâ üéâ **Et voil√†, l'entra√Ænement de base du mod√®le est termin√©¬†!** üéâ üéâ
    


## V√©rification du mod√®le

Nous pouvons essayer d'inf√©rer le mod√®le entra√Æn√© sur n'importe quelle nouvelle s√©quence d'ADN d'int√©r√™t. Par exemple, comme nous savons gr√¢ce √† des exp√©riences biologiques que la prot√©ine CTCF se lie aux s√©quences d'ADN contenant des motifs similaires √† ¬´¬†CCACCAGGGGGCGC¬†¬ª, le mod√®le devrait pr√©dire une probabilit√© tr√®s √©lev√©e de liaison pour l'ADN contenant ces motifs.

Construisons la cha√Æne d'ADN de 200¬†bases et r√©cup√©rons son incorporation¬†:
    


In [None]:
ctcf_motif_dna = 'CCACCAGGGGGCGC'*14 + 'AAAA'
print('Longueur de la cha√Æne d\'ADN remplie de motifs CTCF¬†:', len(ctcf_motif_dna))

# (ctcf_motif_dna, ctcf_motif_embedding) -> (s√©quence_adn_motif_ctcf, incorporation_motif_ctcf)
ctcf_motif_embedding = compute_mean_sequence_embeddings(
    [ctcf_motif_dna], tokenizer, language_model)

Nous pouvons maintenant calculer la probabilit√© que l'ADN se lie au CTCF¬†:
    


In [None]:
jax.nn.sigmoid(mlp.apply({'params': params}, ctcf_motif_embedding))

Succ√®s ! Cette probabilit√© est tr√®s proche de 1. Cela signifie que le mod√®le a appris √† identifier une repr√©sentation de ce motif et √† l'associer √† la liaison de CTCF √† l'ADN.

Inversement, les cha√Ænes d'ADN al√©atoires devraient avoir une faible probabilit√© de liaison avec CTCF¬†:
    


In [None]:
%%capture
random_dna_strings = [
    'ACGTACGT'*25,
    'CGGCCGCG'*25,
    'TCGATCGT'*25,
    'TTTTTTTT'*25,
]

probabilities = []

# (random_dna_string:cha√Æne d'ADN al√©atoire)
for random_dna_string in random_dna_strings:
  # (random_dna_embedding:plongement d'ADN al√©atoire)
  random_dna_embedding = compute_mean_sequence_embeddings(
    [random_dna_string], tokenizer, language_model)

  probabilities.append(
      jax.nn.sigmoid(mlp.apply({'params': params}, random_dna_embedding))[0])

In [None]:
probabilities

G√©nial, celles-ci ressemblent toutes √† des probabilit√©s proches de z√©ro, ce √† quoi nous nous attendions üòé.


## [Suivis Facultatifs]
    




1. **[Trac√© des pertes]** Essayez de tracer la perte d'entra√Ænement et la perte de validation au fil du temps. Qu'observez-vous ? Devrions-nous l'entra√Æner plus longtemps ? Y a-t-il un surajustement √† l'ensemble d'entra√Ænement ? Si oui, comment pourriez-vous am√©liorer la situation ?
 - **Indice** : essayez `plt.plot(train_losses, c='grey')`.
2. **[M√©triques d'√©valuation]** Jusqu'√† pr√©sent, nous n'avons surveill√© que les pertes pendant l'entra√Ænement du mod√®le, mais celles-ci sont un peu difficiles √† interpr√©ter. Comment pourriez-vous impl√©menter et suivre une mesure de **pr√©cision** pendant l'entra√Ænement ?
 - **Indice** : N'oubliez pas que si vous utilisez `jax.nn.sigmoid` sur les pr√©dictions du mod√®le, cela donne la probabilit√© que la s√©quence d'ADN se lie √† la prot√©ine CTCF. Vous pouvez traiter toute probabilit√© sup√©rieure √† 0,5 comme une pr√©diction de '1', et toute probabilit√© inf√©rieure √† 0,5 comme une pr√©diction de '0'.
3. **[R√©glage des hyperparam√®tres]** Essayez de faire varier le taux d'apprentissage, la taille du lot (batch size) et le nombre d'√©tapes d'entra√Ænement. Comment ces changements affectent-ils la convergence et la performance finale du mod√®le ?
4. **[Augmentation des donn√©es]** Pouvez-vous penser √† un moyen d'√©largir (ou d'augmenter) l'ensemble d'entra√Ænement ? Comment mesureriez-vous si cela est utile pour la performance du mod√®le ?
5. **[Architectures diff√©rentes]** Exp√©rimentez avec diff√©rentes architectures de mod√®le, comme l'ajout de couches suppl√©mentaires ou l'utilisation de diff√©rentes fonctions d'activation.
 - **D√©fi** : si vous vous sentez tr√®s aventureux, essayez d'impl√©menter un CNN capable d'apprendre directement √† partir de s√©quences d'ADN (cod√©es en one-hot) !


## Commentaires

N'h√©sitez pas √† nous faire part de vos commentaires afin que nous puissions am√©liorer nos ateliers pratiques √† l'avenir.
    

In [None]:
# @title G√©n√©rer un formulaire de commentaires (Ex√©cuter la cellule)
from IPython.display import HTML

HTML(
    """
<iframe
	src="https://forms.gle/WUpRupqfhFtbLXtN6",
  width="80%"
	height="1200px" >
	Loading...
</iframe>
"""
)

<img src="https://baobab.deeplearningindaba.com/static/media/indaba-logo-dark.d5a6196d.png" width="50%" />