## Modèles de machine learning

### Amaury Fournier

In [2]:
from sklearn import datasets
from sklearn.datasets.mldata import fetch_mldata
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import GradientBoostingClassifier
from sklearn import cross_validation
from sklearn.svm import SVC
import numpy as np

### Chargement de deux jeux de donées

In [3]:
iris = datasets.load_iris()
breast_cancer = datasets.load_breast_cancer()

print "dataset Iris :"
print "taille du dataset :", iris.data.shape[0]
print "nombre de features :", iris.data.shape[1]
print "nombre de labels :", np.unique(iris.target).size


print("--------------------")
print "dataset breast_cancer :"
print "taille du dataset :", breast_cancer.data.shape[0]
print "nombre de features :", breast_cancer.data.shape[1]
print "nombre de labels :", np.unique(breast_cancer.target).size

dataset Iris :
taille du dataset : 150
nombre de features : 4
nombre de labels : 3
--------------------
dataset breast_cancer :
taille du dataset : 569
nombre de features : 30
nombre de labels : 2


### Naive Bayes

In [4]:
kf = cross_validation.KFold(n=iris.data.shape[0], n_folds=5, shuffle=True)
tmp_acc=[]
for train, test in kf:
    Xtrain, Xtest, ytrain, ytest = iris.data[train], iris.data[test], iris.target[train], iris.target[test]
    gnb = GaussianNB()
    y_pred = gnb.fit(Xtrain,ytrain)
    pred = gnb.predict(Xtest)
    tmp_acc.append(np.sum(ytest == pred)*1. / Xtest.shape[0])
    
acc = np.mean(tmp_acc)

print 'pour le dataset Iris avec le modèle naive Bayes '
print "nombre d'exemples :", iris.data.shape[0]
print "nombre de features :", iris.data.shape[1]
print "performance en cross-validation (5 folds) :"
print tmp_acc 
print "performance moyenne : ", acc

pour le dataset Iris avec le modèle naive Bayes 
performance en cross-validation (5 folds) :
[0.93333333333333335, 0.96666666666666667, 0.96666666666666667, 0.96666666666666667, 0.96666666666666667]
performance moyenne :  0.96


In [5]:
#avec le dataset breast_cancer

kf = cross_validation.KFold(n=breast_cancer.data.shape[0], n_folds=5, shuffle=True)
tmp_acc=[]
for train, test in kf:
    Xtrain, Xtest, ytrain, ytest = breast_cancer.data[train], breast_cancer.data[test], breast_cancer.target[train], breast_cancer.target[test]
    gnb = GaussianNB()
    y_pred = gnb.fit(Xtrain,ytrain)
    pred = gnb.predict(Xtest)
    tmp_acc.append(np.sum(ytest == pred)*1. / Xtest.shape[0])
    
acc = np.mean(tmp_acc)

print 'pour le dataset breast_cancer avec le modèle naive Bayes '
#print "nombre d'exemples :", breast_cancer.data.shape[0]
#print "nombre de features :", breast_cancer.data.shape[1]
print "performance en cross-validation (5 folds) :", tmp_acc 
print "performance moyenne : ", acc

pour le dataset breast_cancer avec le modèle naive Bayes 
performance en cross-validation (5 folds) : [0.92982456140350878, 0.94736842105263153, 0.93859649122807021, 0.95614035087719296, 0.92920353982300885]
performance moyenne :  0.940226672877


### Gradient boosting

In [6]:
kf = cross_validation.KFold(n=iris.data.shape[0], n_folds=5, shuffle=True)
tmp_acc=[]
for train, test in kf:
    Xtrain, Xtest, ytrain, ytest = iris.data[train], iris.data[test], iris.target[train], iris.target[test]
    gboost = GradientBoostingClassifier(n_estimators=200, max_depth=4)
    y_pred = gboost.fit(Xtrain,ytrain)
    pred = gboost.predict(Xtest)
    tmp_acc.append(np.sum(ytest == pred)*1. / Xtest.shape[0])
    
acc = np.mean(tmp_acc)

print 'pour le dataset Iris avec le modèle Gradient Boosting '
#print "nombre d'exemples :", iris.data.shape[0]
#print "nombre de features :", iris.data.shape[1]
print "performance en cross-validation (5 folds) :", tmp_acc 
print "performance moyenne : ", acc

pour le dataset Iris avec le modèle Gradient Boosting 
performance en cross-validation (5 folds) : [0.90000000000000002, 1.0, 0.96666666666666667, 0.93333333333333335, 0.96666666666666667]
performance moyenne :  0.953333333333


In [7]:
#avec le dataset breast_cancer

kf = cross_validation.KFold(n=breast_cancer.data.shape[0], n_folds=5, shuffle=True)
tmp_acc=[]
for train, test in kf:
    Xtrain, Xtest, ytrain, ytest = breast_cancer.data[train], breast_cancer.data[test], breast_cancer.target[train], breast_cancer.target[test]
    gboost = GradientBoostingClassifier(n_estimators=300, max_features=12)
    y_pred = gboost.fit(Xtrain,ytrain)
    pred = gboost.predict(Xtest)
    tmp_acc.append(np.sum(ytest == pred)*1. / Xtest.shape[0])
    
acc = np.mean(tmp_acc)

print 'pour le dataset breast_cancer avec le modèle Gradient Boosting '
#print "nombre d'exemples :", breast_cancer.data.shape[0]
#print "nombre de features :", breast_cancer.data.shape[1]
print "performance en cross-validation (5 folds) :", tmp_acc 
print "performance moyenne : ", acc

pour le dataset breast_cancer avec le modèle Gradient Boosting 
performance en cross-validation (5 folds) : [0.97368421052631582, 0.96491228070175439, 0.94736842105263153, 0.98245614035087714, 0.96460176991150437]
performance moyenne :  0.966604564509


### SVM

In [8]:
kf = cross_validation.KFold(n=iris.data.shape[0], n_folds=5, shuffle=True)
tmp_acc=[]
for train, test in kf:
    Xtrain, Xtest, ytrain, ytest = iris.data[train], iris.data[test], iris.target[train], iris.target[test]
    svm = SVC(kernel='linear', decision_function_shape='ovr')
    y_pred = svm.fit(Xtrain,ytrain)
    pred = svm.predict(Xtest)
    tmp_acc.append(np.sum(ytest == pred)*1. / Xtest.shape[0])
    
acc = np.mean(tmp_acc)

print 'pour le dataset Iris avec le modèle SVM '
#print "nombre d'exemples :", iris.data.shape[0]
#print "nombre de features :", iris.data.shape[1]
print "performance en cross-validation (5 folds) :", tmp_acc 
print "performance moyenne : ", acc

pour le dataset Iris avec le modèle SVM 
performance en cross-validation (5 folds) : [1.0, 0.93333333333333335, 0.96666666666666667, 0.96666666666666667, 0.96666666666666667]
performance moyenne :  0.966666666667


In [9]:
#avec le dataset breast_cancer

kf = cross_validation.KFold(n=breast_cancer.data.shape[0], n_folds=5, shuffle=True)
tmp_acc=[]
for train, test in kf:
    Xtrain, Xtest, ytrain, ytest = breast_cancer.data[train], breast_cancer.data[test], breast_cancer.target[train], breast_cancer.target[test]
    svm = SVC(kernel='linear', decision_function_shape="ovo")
    y_pred = svm.fit(Xtrain,ytrain)
    pred = svm.predict(Xtest)
    tmp_acc.append(np.sum(ytest == pred)*1. / Xtest.shape[0])
    
acc = np.mean(tmp_acc)

print 'pour le dataset breast_cancer avec le modèle SVM '
#print "nombre d'exemples :", breast_cancer.data.shape[0]
#print "nombre de features :", breast_cancer.data.shape[1]
print "performance en cross-validation (5 folds) :", tmp_acc 
print "performance moyenne : ", acc

pour le dataset breast_cancer avec le modèle SVM 
performance en cross-validation (5 folds) : [0.99122807017543857, 0.96491228070175439, 0.96491228070175439, 0.95614035087719296, 0.90265486725663713]
performance moyenne :  0.955969569943
