# Sklearn et ses differentes méthodes pour fitter des modèles
Les méthodes que nous avons vu pour l'instant permet de visualiser et de comprendres nos données. 
Cette partie est essentiel pour pouvoir ensuite développer un modèle predictif. Nous allons voir que c'est finalement assez simple. 

    1. Importer le modèle, fit, predict, 
    2. Diviser le jeu de données en train et test set
    3. Evaluer la performance
    4. les pipelines? 

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
%matplotlib inline

In [2]:
dataset = pd.read_csv('pima-indians-diabetes.csv', header=None)
dataset[[1,2,3,4,5]] = dataset[[1,2,3,4,5]].replace(0, np.NaN)
dataset.columns = ['num_pregnant', 'glucose', 'pressure', 'tricep', 'insulin', 'bmi', 'pedigree' , 'age', 'diab_class']
dataset = dataset.dropna()

Pour faire simple on travaille sur le jeu de données reduit.

Maintenant sklearn !

On se donne deux objectifs : 
    1. prédire le bmi à l'aide de tous les variables sauf 'diab_class'
    2. prédire le diab_class à l'aide de tous les variables
    
On va diviser le jeu de données dans un jeu d'entrainement et un jeu de test


In [3]:
from sklearn.model_selection import train_test_split
X_all = dataset.iloc[:,[0,1,2,3,4,6,7]]
y_all = dataset.iloc[:,5]

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size=0.20, random_state=42)

In [5]:
from sklearn.linear_model import LinearRegression
linear_model1 = LinearRegression()
linear_model1.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [6]:
print 'le R2 train est de %s' % linear_model1.score(X_train, y_train)
print 'le R2 test est de %s' % linear_model1.score(X_test, y_test)


le R2 train est de 0.5163712850056772
le R2 test est de 0.3914613215162702


In [7]:
from sklearn.linear_model import RidgeCV
linear_model2 = RidgeCV()
linear_model2.fit(X_train, y_train)

RidgeCV(alphas=(0.1, 1.0, 10.0), cv=None, fit_intercept=True, gcv_mode=None,
    normalize=False, scoring=None, store_cv_values=False)

In [8]:
print 'le R2 train est de %s' % linear_model2.score(X_train, y_train)
print 'le R2 test est de %s' % linear_model2.score(X_test, y_test)

le R2 train est de 0.5161683355682238
le R2 test est de 0.3935008917514784


In [9]:
from sklearn.ensemble import RandomForestRegressor
model3 = RandomForestRegressor()
model3.fit(X_train, y_train)

  from numpy.core.umath_tests import inner1d


RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
           oob_score=False, random_state=None, verbose=0, warm_start=False)

In [10]:
print 'le R2 train est de %s' % model3.score(X_train, y_train)
print 'le R2 test est de %s' % model3.score(X_test, y_test)

le R2 train est de 0.8988975836226638
le R2 test est de 0.4550685619074504


In [None]:
from sklearn.metrics import mean_squared_error

In [None]:
y_pred1 = linear_model1.predict(X_test)
mean_squared_error(y_pred1, y_test)

In [None]:
y_pred2 = linear_model2.predict(X_test)
mean_squared_error(y_pred2, y_test)

In [None]:
y_pred3 = model3.predict(X_test)
mean_squared_error(y_pred3, y_test)

Quel modèle choisir ? 

On passe à une regression logistique

In [11]:
from sklearn.model_selection import train_test_split
X_all = dataset.iloc[:,:8]
y_all = dataset.iloc[:,8]
X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size=0.20, random_state=42)

In [12]:
from sklearn.linear_model import LogisticRegression
logistic_model1 = LogisticRegression()
logistic_model1.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [13]:
print 'le score train est de %s' % logistic_model1.score(X_train, y_train)
print 'le score test est de %s' % logistic_model1.score(X_test, y_test)

le score train est de 0.7859424920127795
le score test est de 0.7468354430379747
