# TP base de l'IA: application de l'IA dans le domaine de la chimie

Il existe plusieurs applications de l'intelligence artificielle dans le domaine de la chimie. Le domaine de la chimie comprend entre autres, les laboratoires pharmaceutiques, de cosmétiques, de produits phytosanitaires. 

Comme dans n'importe quelle domaine, grâce à l'IA on peut créer de modèles :
- de classification, pour prédire la classe d'une molécule. Par exemple, est ce que ma molécule est toxique ou non ?
- de régression, pour prédire une valeur. Par exemple, a quelle concentration une molécule est active ?
- de clusterisation, pour grouper les molécules qui se ressemblent
- génératifs, pour créer des molécules ayant certaines propriétés. 

Dans ce TP , nous allons créer des modèles de classification pour prédire la toxicité aigüe d'une molécule. 
La toxicité aigüe d'une molécule, est l'effet toxique d'une molécule après une absorption unique d'une certaine dose du composé chimique. 
En particulier, un des effets toxiques aigue mesuré est la létalité. Pour évaluer cette toxicité, historiquement l'industrie chimique utilise des animaux (études in vivo). Depuis plusieurs années, pour des raisons éthiques, mais aussi économiques, des modèles appelés 'in silico', c'est à dire utilisant les ordinateurs sont utilisés. 
Nous allons travailler sur un modèle dit 'in silico', pour prédire si une molécule est toxique ou non.

Le jeu de données que nous allons utiliser provient du projet Catmos, une collaboration de plusieurs laboratoires du monde entier pour créer un modéle in silico pour la prédiction de la toxicité aigüe. Voir https://doi.org/10.1289/EHP8495 

# Installation de rdkit

Pour travailler sur des molécules, nous allons installer le package python rdkit. Il permet de visualiser des molécules, et de créer un vecteur binaire décrivant une molécule. 

In [None]:
# pip install rdkit

Une molécule est une structure en 3 dimensions faite d'atome, mais sa structure en 2 dimensions est suffisante pour créer des modéles de prédiction. Une facon de décrire la structure en 2 dimensions d'une molécule, est d'utiliser la notation 'smiles'.(https://fr.wikipedia.org/wiki/Simplified_Molecular_Input_Line_Entry_Specification). 

Vous pouvez trouver toutes les molecules publiques sur pubchem: https://pubchem.ncbi.nlm.nih.gov/

Cherchez l'aspirine (aspirin en anglais) et trouvez sa notation 'smiles' (rechercher "Canonical SMILES" sur la page pubchem sur l'aspirine. La notation smiles est une chaîne de caractéres. 

In [1]:
smiles_apirin = ""

Nous allons maintenant afficher la molécule de l'aspirine avec le package rdkit

In [None]:
from rdkit import Chem
from rdkit.Chem import Draw
# on crée un objet rdkit à partir de la notation smiles de l'aspirine
m = Chem.MolFromSmiles(smiles_apirin)
# on dessine la molécule
Draw.MolToImage(m)

rdkit permet de 'vectoriser' une molécule. Rdkit propose plusieurs façons de le faire, nous allons utiliser ce que l'on appelle le morgan fingerprint d'une molécule: c'est une description de la molécule sur un vecteur binaire de 1024 bits. 

In [4]:
from rdkit.Chem import AllChem
import numpy as np
# on crée le fingerprint sur 1024 bits
fp1 = AllChem.GetMorganFingerprintAsBitVect(m,2,nBits=1024)
# on récupére le vecteur binaire
aspirin_fp = np.array(fp1)

AfficheZ le vecteur binaire. Quelle est sa longueur. Quelles sont les valeurs possibles de chaque colonne?

## Préparation du jeu de données

Nous allons préparer un jeu de données que nous allons utiliser pour créer des modèles de prediction de toxicité. 

Utilisez pandas pour créer une dataframe à partir du fichier 'chemicalToxicity.csv'. 

Combien y a-t-il de molécules? 

Combien de molécules trés toxiques? 

Combien de molécules non trés toxiques? 

Est-ce qu'il y a autant de produits trés toxiques et non trés toxiques?

En utilisant une list comprehension (https://docs.python.org/3/tutorial/datastructures.html)  et rdkit, créez une liste de fingerprint des molécules à partir des smiles des molécules (colonne 'Canonical_QSARr'). 

Transformez cette liste en numpy array et ensuite en dataframe. 
Concaténez ensuite cette dataframe avec le jeu de données, afin de rajouter 1024 colonnes au jeu de données.

In [19]:
chemicalToxicity_fp = 

In [None]:
chemicalToxicity_fp.head()

## Représentation 2D des similarités entre molécules

Nous allons représenter en 2D la similarité des molécules en utilisant l'alogithme du TSNE, et le package seaborn pour l'affichage. 

Utiliser la fonction TSNE de sickit learn pour calculer les coordonnées en 2 dimensions de la similarité entre molécules, en utilsant la distance euclidienne et en utilisant les vecteur sur 1024 bits des molécules. 

Installez seaborn. 

Utilisez scatterplot pour afficher les molécules avec les coordonnées du TSNE. Colorez les points en utilisant la valeur de la colonne 'very_toxic'.

Avez vous l'impression que les molécules qui se ressemblent (c'est à dire proches sur le graphe) ont la même toxicité? 
Pour vous en convaincre, refaite le même graphe, mais cette fois-ci mélanger aléatoirement les lignes de la colonne 'very_toxic' avec la méthode sample de pandas. 

Refaite un graphique, mais cette fois en calculant les coordonnées TSNE avec la distance cosinus

Avez vous l'impression que les molécules qui se ressemblent (c'est à dire proche sur le graphe) ont la même toxicité? 

## Modèle de classification

Nous allons créer un modèle de classification pour prédire la toxicité de molécules. 

Création d'un training set et testing set avec train_test_split(X, y) de sickit learn, gardant 20% des données pour le test set. 

Utilisez l'algorithme KNN (KNeighborsClassifier de Sickit learn) avec comme parametres: 
n_neighbors  = 1
metric = euclidean

Entrainez le modèle avec X_train et y_train. 

Prédisez les classes du test set avec X_test. 

Utilisez accuracy_score de sickit learn pour calculer l'accuracy du modéle en utisant y_test et les prédictions. 

Metric pour mesurer la performance du modele: accuracy, entre 0 et 1. 
0: le model n'est pas bon
1: le model classifie parfaitement

Quelle aurait été l'accuracy si on avait assigné aléatoirement une classe à chaque molécule. Vous pouvez utiliser la méthode sample d'une dataframe pandas pour 'mélanger' aléatoirement l'ordre des lignes.

Est-ce un bon modèle?

### Explication de l'algorithme. 
KNN est trés simple. Pour classifier une nouvelle molécule, l'algorithme  recherche la molécule la plus proche (plus courte distance). La classe de la molécule la plus proche est assignée à la molécule à classiffier. 

Travaillons sur un exemple: la molécule ayant le CASRN 824-11-3.

Trouvez cette molécule dans le jeu de données. 
Quel est son smiles? 
Quelle est sa toxicité?

En utilisant son Morgan fingerprint (les 1024 valeurs binaires), calculez toutes les distances euclidiennes entre cette molécule et toutes les autres molécules (en utilisant scipy.spatial)

Trouvez la molécule la plus proche de notre molécule. 

Utilisez rdkit pour afficher notre molécule et sa plus proche molécule. Est-ce que les 2 molécules se ressemblent? 

Quelle est la classe de la plus proche molécule? 

Pour classifier notre molécule, KNN va lui donner la classe de la plus proche molécule. Dans cet exemple, est-ce que la classification est correcte?  

Faites la même chose mais cette fois ci avec la distance cosine. 

### On teste le modèle de classification sur un jeu de validation externe

Le partage du jeu de données en training set et test set est utile pour le choix d'un algorithme de classification et pour le choix des paramètres de l'algorithme. Une fois le modèle prêt on teste une dernière fois sur un autre jeu de données. 

Créer une dataframe à partir du fichier 'very_toxic_eval_fp.csv'. Nommez la 'very_toxic_eval_fp'.
Les fingerprint ont déjà été générés. 

Utilisez votre modéle KNN pour prédire les classes des molécules de ce dataset

In [135]:
X_eval = 

In [83]:
# on importe le script eval pour utiliser la fonction eval_accuracy qui va retourner l'accuracy des prédictions 
# (ceci a été fait dans le but de cacher les vrais classes, jouez le jeu et n'ouvrez pas le fichier eval.py)
import eval
eval.eval_accuracy (y_pred_eval)

### On améliore le classifieur

Essayez d'améliorer le classifieur :
- en modifiant la valeur du nombre de voisins
- en modifiant la distance utilisée (comme nous travaillons sur des vecteurs binaires, nous avons plus de choix dans les distances, voir la documentation sickit learn qui renvoie sur scipy)

Procédez de la même façon : 
- vous créez un jeu de données training et un jeu de données test (déjà fait plus haut)
- vous calculez l'accuracy sur le jeu de test
- une fois que vous avez trouvé les paramètres qui donnent la meilleure accuracy sur le jeu de test, vous testez votre modèle sur le jeu de données évaluation.


Avez vous de meilleurs résultats?

## On essaye d'autres algorithmes

Maintenant essayez d'autres algorithmes de sickit learn. Par exemple RandomForestClassifier. Le principe dans sickit learn est toujours le même: 
- on entraine le modèle avec .fit sur le jeu de données training
- on prédit avec le modèle les classes en utilisant les données de test
- on compare les prédictions et les vraies classes en calculant l'accuracy. 

Avez-vous de meilleurs résultats? 

## Ce que l'on peut encore faire
- essayez le fingerprint sur plus de bits (2048)
- essayer un autre type de fingerprint, par exemple Chem.RDKFingerprint(x)
- faire de la reduction de dimensionalité: PCA, feature selection
- couper le dataset plusieurs fois en training et testing sets: cross validation. Ceci permet d'avoir une meilleure estimation de la performance du modéle. 

## Utilisez votre meilleur modèle
 Allez sur pubchem https://pubchem.ncbi.nlm.nih.gov/, recherchez la molécule de votre choix. Récupérez son smiles, et générez le fingerprint. 

D'après votre modèle, est-ce que votre molécule est très toxique ?

        

Télécharger le csv 'last_eval.csv'. 

Faites les prédictions, et mettez les sur Moodle, sous la forme d'une liste. 
Exemple: 

[False, False, True, True, False, False, True, True, True, True,
       False, True, False, True, False, False, False, True, True, False,
       False, False, False, False, False, True, True, False, False, True,
       False, True, True, False, False, False, False, True, False, True,
       True, True, False, False, False, False, False, True, True, False,
       False, True, True, True, True, False, False, False, True, False,
       False, False, True, False, True, True, True, True, True, True,
       True, False, True, True, False, False, True, False, False, False,
       True, True, False, True, False, True, True, False, False, False,
       False, True, False, True, True, True, True, True, True, False]