# Préparation de notre jeu de données pour la modélisation 

In [None]:
train_enz_num=train_enz.drop(axis=1, columns=['seq_id','protein_sequence','tm'])
Cible=train_enz['tm']

## Standardisation de notre DF 

In [None]:
from sklearn.preprocessing import StandardScaler
Scaler=StandardScaler()
train_enz_num_std = pd.DataFrame(Scaler.fit_transform(train_enz_num), columns=train_enz_num.columns)

## Observation de notre cible 

In [None]:
sns.distplot(Cible)

In [None]:
from scipy.stats import skew

for i in range(0,10):
    Cible_log=np.log(Cible+i)
    asym=skew(Cible_log)
    if abs(asym) <0.05 :
        print(i,':',asym)

In [None]:
Cible_log=np.log(Cible+7)
sns.distplot(Cible_log)

On voit ici, que les données sont plus centrées que précédemment, nous continuerons donc avec ce df comme cible.

## Séparation de notre train set en train et test

In [None]:
from sklearn.model_selection import train_test_split
xtrain_log, xtest_log, ytrain_log, ytest_log = train_test_split(train_enz_num_std, Cible_log, train_size=0.8, random_state = 21)
xtrain, xtest, ytrain, ytest = train_test_split(train_enz_num_std, Cible, train_size=0.8, random_state = 21)

# Test d'un premier algorithme avec les paramètres par défaut

## Dummy Regressor

### Avec notre cible loguée

In [None]:
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from math import sqrt
from sklearn.dummy import DummyRegressor

Dummy=DummyRegressor()
modele=Dummy.fit(xtrain_log,ytrain_log)
ypredict_log=modele.predict(xtest_log)

# Description R carré
print("R-squared:", np.round(r2_score(ytest_log, ypredict_log),3))
# mesure des erreurs entre des observations appariées exprimant le même phénomène
print("MAE:", np.round(mean_absolute_error(ytest_log, ypredict_log),3))
# mesure caractérisant la « précision » de cet estimateur
print("MSE:", np.round(mean_squared_error(ytest_log, ypredict_log),3))
# Mesure qui nous indique l'écart moyen entre les valeurs prédites et les valeurs observées dans un modèle
print('RMSE:', np.round(sqrt(mean_squared_error(ytest_log, ypredict_log)),3))

In [None]:
# Pour avoir une visualisation de l'ajustement du modèle et de la prédiction en fonction des valeurs de test
sns.regplot(x=ypredict_log,y=ytest_log)
# Pour avoir la ligne des données des valeurs de test à comparer
plt.plot(ytest_log,ytest_log)
plt.xlabel("Tm - Prediction (blue)")
plt.ylabel("Tm - Prediction (orange)")
plt.title('Tm - Prediction vs Test')

In [None]:
# Graphique de répartition des résidus
sns.residplot(x=ytest_log,y=ypredict_log)
plt.xlabel("Tm")
plt.ylabel("Residus")
plt.title('Distribution des résidus selon la Tm')

### Avec notre cible non loguée

In [None]:
modele=Dummy.fit(xtrain,ytrain)
ypredict=modele.predict(xtest)

# Description R carré
print("R-squared:", np.round(r2_score(ytest, ypredict),3))
# mesure des erreurs entre des observations appariées exprimant le même phénomène
print("MAE:", np.round(mean_absolute_error(ytest, ypredict),3))
# mesure caractérisant la « précision » de cet estimateur
print("MSE:", np.round(mean_squared_error(ytest, ypredict),3))
# Mesure qui nous indique l'écart moyen entre les valeurs prédites et les valeurs observées dans un modèle
print('RMSE:', np.round(sqrt(mean_squared_error(ytest, ypredict)),3))

In [None]:
# Pour avoir une visualisation de l'ajustement du modèle et de la prédiction en fonction des valeurs de test
sns.regplot(x=ypredict,y=ytest)
# Pour avoir la ligne des données des valeurs de test à comparer
plt.plot(ytest,ytest)
plt.xlabel("Tm - Prediction (blue)")
plt.ylabel("Tm - Prediction (orange)")
plt.title('Tm - Prediction vs Test')

In [None]:
# Graphique de répartition des résidus
sns.residplot(x=ytest,y=ypredict)
plt.xlabel("Tm")
plt.ylabel("Residus")
plt.title('Distribution des résidus selon la Tm')

Même si ce modèle sert de base, il ne nous permet pas de voir l'impact de manière visuelle d'une transformation logarithmique sur notre jeu de données. Cependant au niveau des scores, nous voyons que les données loguées donnent de meilleurs résultats. Afin d'observer cela de manière visuelle, nous allons faire la même chose sur le modèle SVR.

## SVR

### Avec notre cible loguées

In [None]:
from sklearn.svm import SVR
Svr = SVR()
modele=Svr.fit(xtrain_log, ytrain_log)
ypredict_log = modele.predict(xtest_log)

In [None]:
# Description R carré
print("R-squared:", np.round(r2_score(ytest_log, ypredict_log),3))
# mesure des erreurs entre des observations appariées exprimant le même phénomène
print("MAE:", np.round(mean_absolute_error(ytest_log, ypredict_log),3))
# mesure caractérisant la « précision » de cet estimateur
print("MSE:", np.round(mean_squared_error(ytest_log, ypredict_log),3))
# Mesure qui nous indique l'écart moyen entre les valeurs prédites et les valeurs observées dans un modèle
print('RMSE:', np.round(sqrt(mean_squared_error(ytest_log, ypredict_log)),3))

In [None]:
# Pour avoir une visualisation de l'ajustement du modèle et de la prédiction en fonction des valeurs de test
sns.regplot(x=ypredict_log,y=ytest_log)
# Pour avoir la ligne des données des valeurs de test à comparer
plt.plot(ytest_log,ytest_log)
plt.xlabel("Tm - Prediction (blue)")
plt.ylabel("Tm - Prediction (orange)")
plt.title('Tm - Prediction vs Test')

In [None]:
# Graphique de répartition des résidus
sns.residplot(x=ytest_log,y=ypredict_log)
plt.xlabel("Tm")
plt.ylabel("Residus")
plt.title('Distribution des résidus selon le Tm')

### Avec notre cible non loguée

In [None]:
modele=Svr.fit(xtrain, ytrain)
ypredict = modele.predict(xtest)

In [None]:
# Description R carré
print("R-squared:", np.round(r2_score(ytest, ypredict),3))
# mesure des erreurs entre des observations appariées exprimant le même phénomène
print("MAE:", np.round(mean_absolute_error(ytest, ypredict),3))
# mesure caractérisant la « précision » de cet estimateur
print("MSE:", np.round(mean_squared_error(ytest, ypredict),3))
# Mesure qui nous indique l'écart moyen entre les valeurs prédites et les valeurs observées dans un modèle
print('RMSE:', np.round(sqrt(mean_squared_error(ytest, ypredict)),3))

In [None]:
# Pour avoir une visualisation de l'ajustement du modèle et de la prédiction en fonction des valeurs de test
sns.regplot(x=ypredict,y=ytest)
# Pour avoir la ligne des données des valeurs de test à comparer
plt.plot(ytest,ytest)
plt.xlabel("Tm - Prediction (blue)")
plt.ylabel("Tm - Prediction (orange)")
plt.title('Tm - Prediction vs Test')

In [None]:
# Graphique de répartition des résidus
sns.residplot(x=ytest,y=ypredict)
plt.xlabel("Tm")
plt.ylabel("Residus")
plt.title('Distribution des résidus selon le Tm')

On voit ainsi, que l'utilisation de la transformation logarithmique, nous donne de meilleur résultats visuel et mathématiques. Nous allons donc continuer avec notre cible loguée.