## ACP sur le dataset des médicaments

In [None]:
import sys
sys.path.insert(1, f'../corrections/exercices')

In [None]:
import numpy as np
import pandas as pd
from rdkit import Chem
from rdkit.Chem import PandasTools
from rdkit.Chem import Descriptors
PandasTools.RenderImagesInAllDataFrames(images=True)
from rdkit.Chem.Draw import IPythonConsole # Needed to show molecules
from IPython import display
import matplotlib.pyplot as plt 
import prince # bibliothèque équivalente à FactoMineR

### On commence par ouvrir le dataset

In [None]:
df_meds = PandasTools.LoadSDF('./data/meds.sdf', isomericSmiles=True)
df_meds = df_meds.drop(columns=['molecule_synonyms']) # remove annoying column
df_meds.head()

### Préparation du dataset

In [None]:
# On regarde d'abord ce qu'on a, notamment les types de molécules
print(len(df_meds))

In [None]:
## Avec la méthode value_counts on regarde ce qu'on a dans la colonne 'molecule_type'


In [None]:
# On peut regarder une catégorie précise avec un filtre
df_meds[df_meds['molecule_type'] == 'Oligosaccharide']

In [None]:
## On s'intéresse uniquement au 'Small molecule'
## Filtrer pour ne garder que cette catégorie


In [None]:
len(df_meds)

In [None]:
from PCA import exo_frags_number

In [None]:
exo_frags_number.example() # les objects molecules n'apparaissent pas

In [None]:
## On va compter le nombre de fragments pour chaque molécules
def get_frags_number(df):
    ## Itérer sur le dataframe et utiliser la fonction Chem.rdmolops.GetMolFrags
    
    ## Compter le nombre de fragment pour la molécule
    
    ## Retourner un dataframe constitué d'une colonne contenant le nombre de fragments
    ## Utiliser la méthode set_index(df.index) pour obtenir le bon indexage de votre dataframe
    return

In [None]:
exo_frags_number.correction(get_frags_number) # les objects molecules n'apparaissent pas

In [None]:
PandasTools.ChangeMoleculeRendering(renderer='Images')
df_meds['Frags_number'] = get_frags_number(df_meds)
df_meds.head()

In [None]:
## Regarder la distribution des molécules en fonction de leur nombre de fragments avec la méthode value_counts


In [None]:
## On garde uniquement les molécules avec 1 seul fragment
df_meds = 
len(df_meds)

In [None]:
# On peut aussi regarder les dates d'approbation des médicaments
df_meds['first_approval'] = df_meds['first_approval'].astype(float) #On transforme la colonne en float
df_meds['first_approval'].value_counts()

In [None]:
# On supprime les dates non précisées
df_meds.dropna(subset=['first_approval'], inplace=True)
len(df_meds)

In [None]:
## Et pour finir on garde que les médicaments sortis après les années 2000 (2000 et +)


In [None]:
%matplotlib inline

# On peut regarder sous forme d'histogramme
df_meds['first_approval'].hist()


In [None]:
# On garde seulement les colonnes nécessaire pour l'ACP : 'natural_product', 'ROMol'
df_PCA = df_meds[['natural_product', 'ROMol']]
df_PCA.head()

### Calcul des descripteurs

In [None]:
# On importe les modules nécessaires 
from rdkit.Chem import Descriptors, rdMolDescriptors, Lipinski

# La liste des fonctions a utiliser pour calculer les descripteurs

# round(Descriptors.ExactMolWt(m), 1)
# round(Descriptors.MolLogP(m), 1)
# round(Descriptors.TPSA(m), 1)
# round(Descriptors.LabuteASA(m), 1)
# Descriptors.NumHAcceptors(m)
# Descriptors.NumHDonors(m)
# Lipinski.FractionCSP3(m)
# rdMolDescriptors.MQNs_(m)[7]
# rdMolDescriptors.MQNs_(m)[9]
# Lipinski.NumAromaticRings(m)
# Descriptors.NumRotatableBonds(m)

In [None]:
from PCA import exo_df_descriptors

In [None]:
exo_df_descriptors.example()

In [None]:
## créer une fonction permettant de calculer les propriétés physico-chimique suivantes :
## MW, LogP, TPSA, LabuteASA, HBA, HBD, FCSP3, MQN8, MQN10, NAR, NRB

def get_descriptors(df):
        
    # Calculer les propriétés chimiques à partir de la colonne ROMol

    # Retourner un dataframe avec chaque descripteurs dans de nouvelles colonnes
    
    return

In [None]:
exo_df_descriptors.correction(get_descriptors)

In [None]:
PandasTools.ChangeMoleculeRendering(renderer='Images')
df_PCA = df_PCA.join(get_descriptors(df_PCA))

In [None]:
df_PCA.head()

### Visualisation des descripteurs

In [None]:
## Visualiser la distribution des poids moléculaire avec la méthode hist


In [None]:
## Garder seulement les molécules avec un poids moléculaire compris entre 200 et 700
## Vous pouvez utiliser la méthode between


In [None]:
## On peut vérifier avec un histogramme


In [None]:
# On peut regarder la projection des molécules selon différentes variables avec plot
df_PCA[['MW', 'LogP']].plot();

In [None]:
# Il faut préciser le type de plot
df_PCA.plot(x='MW', y='LogP', kind='scatter'); #similaire à df_PCA.plot.scatter(x='MW', y='LogP');

In [None]:
# On peut donner des couleurs différentes aux points selon le type de molécules
ax = df_PCA[df_PCA['natural_product'] == '0'].plot.scatter(x='MW', y='LogP', color='skyblue', label='Non Natural')
df_PCA[df_PCA['natural_product'] == '1'].plot.scatter(x='MW', y='LogP', color='Green', label='Natural', ax=ax);

In [None]:
## On peut regarder les valeurs des différents descripteurs en utilisant des boxplots (boite à moustache)
## Utiliser la méthode plot.box


In [None]:
# On retire les valeurs trop élevées pour comparer les plus petites
x = list(range(7,13))
x.append(3)
df_PCA.iloc[:, x].plot.box();

In [None]:
# La librairie seaborn peut-être plus adaptée pour les graphiques
import seaborn as sns

sns.distplot(df_PCA.MW,);

In [None]:
# On peut regarder la distribution sur le même graphique selon la catégorie
sns.distplot(df_PCA[df_PCA['natural_product'] == '0']['MW'] , color="skyblue", label="Non Natural", kde=False)
sns.distplot(df_PCA[df_PCA['natural_product'] == '1']['MW'] , color="green", label="Natural", kde=False)
plt.legend();

In [None]:
# Pour regarder tous les descripteurs :
plt.figure(figsize=(20, 16))

j=1
for i in df_PCA.iloc[:, 3:].columns:
    plt.subplot(4, 4, j)
    sns.distplot(df_PCA[df_PCA['natural_product'] == '0'][i] , color="skyblue", label="Non Natural", kde=False)
    sns.distplot(df_PCA[df_PCA['natural_product'] == '1'][i] , color="green", label="Natural", kde=False)
    plt.legend()
    j += 1


In [None]:
## On peut obtenir une matrice de corrélation avec la méthode corr


In [None]:
## Visualiser la distributions des données en fonction des deux variables les mieux correlées 
## Utiliser un scatter plot


## Début de l'ACP

In [None]:
# Demonstration avec un exemple classique 

df = pd.read_csv('https://raw.githubusercontent.com/kormilitzin/Prince/master/examples/data/iris.csv')

pca = prince.PCA(df, n_components=4)

fig1, ax1 = pca.plot_cumulative_inertia()
fig2, ax2 = pca.plot_correlation_circle()
fig3, ax3 = pca.plot_rows(axes=[0,1], color_by='class', ellipse_fill=True)

plt.show()

### On reprend notre dataframe de médicaments

In [None]:
# On commence par faire une copie de notre dataframe car Prince va effectuer des changements dessus
df_PCA2 = df_PCA.copy()

In [None]:
# Pour faire l'ACP on passe notre dataframe à la fonction PCA du module prince
pca1 = prince.PCA(df_PCA2, n_components=4)

In [None]:
# L'attribut X nous donne les valeurs standardisées des descripteurs
pca1.X.head()

In [None]:
## Les fonctions pour représenter l'ACP sont incluses dans le package. 
## Visualiser l'inertie cumulative


In [None]:
## Visualisation des variables en fonction des 2 composantes principales (PC1 et PC2)
## Visualiser le cercle des corrélations 


In [None]:
# Visualisation des indivdues en fonction des 2 composantes principales (PC1 et PC2)
fig3, ax3 = pca1.plot_rows(axes=[0,1], color_by='natural_product', ellipse_fill=True)
plt.show()

In [None]:
# Il est aussi possible de représenter en 3D

# Besoin des indexes pour chaque catégorie
non_nat = pca1.categorical_columns[pca1.categorical_columns.natural_product == '0'].index
nat = pca1.categorical_columns[pca1.categorical_columns.natural_product == '1'].index


%pylab inline
from mpl_toolkits.mplot3d import Axes3D
from mpl_toolkits.mplot3d import proj3d

fig = plt.figure(figsize=(8,8))
ax = fig.add_subplot(111, projection='3d')
plt.rcParams['legend.fontsize'] = 10   
ax.plot(pca1.row_principal_coordinates[0][non_nat], pca1.row_principal_coordinates[1][non_nat], pca1.row_principal_coordinates[2][non_nat], 'o', markersize=8, color='red', alpha=0.5, label='Non-Natural')
ax.plot(pca1.row_principal_coordinates[0][nat], pca1.row_principal_coordinates[1][nat], pca1.row_principal_coordinates[2][nat], '^', markersize=8, alpha=0.5, color='green', label='Natural')

plt.title('3D PCA Projection for drugs approved since 2000')
ax.legend(loc='lower right')

plt.show();

### Analyse

In [None]:
# Pour obtenir les corrélations des variables dans les composantes
pca1.column_correlations

In [None]:
# Pour obtenir le cos2 des variables 
cos2 = np.square(pca1.column_correlations)
cos2

In [None]:
# Pour obtenir les contributions de chaque variable, il faut diviser le cos2 par la somme totale des cos2
contrib  = (cos2*100) / cos2.sum()
contrib

In [None]:
## On peut aussi visualiser la distributions des données en fontion des autres composantes
## Visualiser la distributions des individues et le cercle des corrélations en fonction des composantes 1 et 2


### Essayons avec moins de descripteurs

In [None]:
df_PCA_new = df_PCA[['natural_product', 'TPSA', 'HBA', 'HBD', 'FCSP3', 'MQN10', 'NAR']]
df_PCA2 = df_PCA_new.copy()
pca1 = prince.PCA(df_PCA2, n_components=4)

fig1, ax1 = pca1.plot_cumulative_inertia()
fig2, ax2 = pca1.plot_correlation_circle()
fig3, ax3 = pca1.plot_rows(axes=[0,1], color_by='natural_product', ellipse_fill=True)

plt.show()

### Peut-on séparer les méthodes d'administrations ?

In [None]:
df_meds.head()

In [None]:
from PCA import exo_get_administration_type
exo_get_administration_type.example()

In [None]:
## on précise pour chaque médicament la méthode d'administration

def get_administration_type(df):
    ## Parcourir le dataframe en utilisant df.iterrows()
    ## On utilisera les colonnes 'oral', 'parenteral' et 'topical'
    
    ## Retourner un dataframe constitué d'une colonne contenant 'O' pour les molécules oral, 'P' pour les parentérales
    ## 'T' pour les topicales et 'M' (mixte) pour les molécules ayant plusieurs modes d'administrations
    return

In [None]:
exo_get_administration_type.correction(get_administration_type)

In [None]:
PandasTools.ChangeMoleculeRendering(renderer='Images')

# on ajoute la nouvelle colonne
df_meds['Administration'] = get_administration_type(df_meds)

In [None]:
## Retirer toutes les molécules avec un type d'administration mixte


In [None]:
df_meds.head()

In [None]:
# On recalcule des descripteurs

df_PCA = df_meds[['ROMol', 'Administration']]

df_PCA['FCSP3'] = df_PCA.ROMol.map(lambda m: Lipinski.FractionCSP3(m))
df_PCA['NAR'] = df_PCA.ROMol.map(lambda m: Lipinski.NumAromaticRings(m))
df_PCA['Chi0'] = df_PCA.ROMol.map(lambda m: Chem.Descriptors.Chi0(m))
df_PCA['LogP'] = df_PCA.ROMol.map(lambda m: round(Chem.Descriptors.MolLogP(m), 1))
df_PCA['TPSA'] = df_PCA.ROMol.map(lambda m: round(Chem.Descriptors.TPSA(m), 1))
df_PCA['HBA'] = df_PCA.ROMol.map(lambda m: Chem.Descriptors.NumHAcceptors(m))
df_PCA['Bertz'] = df_PCA.ROMol.map(lambda m: Chem.Descriptors.BertzCT(m))
len(df_PCA)

In [None]:
df_PCA2=df_PCA.copy()
df_PCA2['Administration'].value_counts()

In [None]:
## Faites l'ACP


In [None]:
## Visualiser l'inertie cumulative, le cercle des corrélations


In [None]:
## Visualiser la distribution des individus et colorer en fonction du type d'administration

In [None]:
from nbautoeval import run_yaml_quiz

In [None]:
run_yaml_quiz(f"../corrections/quiz/PCA.yaml", "theoric-quiz")

In [None]:
run_yaml_quiz(f"../corrections/quiz/PCA.yaml", "code-quiz")