# Introduction aux Machine Learning : Application1
Email : <a href='mailto:madani.a@ucd.ac.ma'>madani.a@ucd.ac.ma</a>
<img src='images/robot.png'>

## Objectif
<p>
L'objectif de cette application est d'appliquer les concepts de base de machine learning :
</p>
<ul>
    <li>Charger un dataset externe : fichier csv dans notre cas</li>
    <li>Entraîner deux algorithme de classification, à savoir KNN et SVM sur notre dataset</li>
    <li>Evaluer les modèles</li>
    <li>Enregistrer le modèle entraîné</li>
    <li>Chargé le modèle pré-entraîné pour faire des prédictions</li>
</ul>

### Charger les modules nécessaires

In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC
import joblib

### Récupérer le dataset à utiliser

In [5]:
df = pd.read_csv("datasets/diabetes.csv")
df.head()

Unnamed: 0,npreg,plasma,pressure,triceps,insulin,mass,diabetes,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Afficher les colonnes du dataset

In [6]:
df.columns

Index(['npreg', 'plasma', 'pressure', 'triceps', 'insulin', 'mass', 'diabetes',
       'age', 'class'],
      dtype='object')

### Afficher des statistiques

In [7]:
df.describe()

Unnamed: 0,npreg,plasma,pressure,triceps,insulin,mass,diabetes,age,class
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [8]:
df.count()

npreg       768
plasma      768
pressure    768
triceps     768
insulin     768
mass        768
diabetes    768
age         768
class       768
dtype: int64

### Utiliser le dataset pour récupérer les données X et les classes correspondantes y

In [9]:
X = df[["npreg","plasma","pressure","triceps","insulin","mass","diabetes","age"]]
X.shape

(768, 8)

In [10]:
y=df['class']
y.shape

(768,)

### Utiliser la méthode hold out pour diviser le dataset en deux parties : train et test

In [11]:
Xtrain, Xtest, ytrain, ytest = train_test_split(X,y,test_size=0.2)
print(Xtrain.shape)
print(Xtest.shape)
print(ytrain.shape)
print(ytest.shape)

(614, 8)
(154, 8)
(614,)
(154,)


### Créer un premier classifieur : KNN

In [12]:
knn = KNeighborsClassifier(3)
knn.fit(Xtrain, ytrain)

KNeighborsClassifier(n_neighbors=3)

In [13]:
ypred = knn.predict(Xtest)
accuracy_score(ypred, ytest)

0.6688311688311688

### Créer un deuxième classifieur : SVC (SVM pour la classification)

In [14]:
svm = SVC()
svm.fit(Xtrain, ytrain)

SVC()

In [15]:
ypred = svm.predict(Xtest)
accuracy_score(ypred, ytest)

0.7272727272727273

### Enregistrer les modèles entraînés pour les utiliser par la suite dans ce fichier ou dans un autre fichier

In [16]:
joblib.dump(knn,"datasets/knn.pkl")

['datasets/knn.pkl']

In [17]:
joblib.dump(svm,"datasets/svm.pkl")

['datasets/svm.pkl']

Les modèles entraînés sont enregistrés dans le dossier datasets sous les noms <b>knn.pkl</b> et <b>svm.pkl</p> respectivement

### Utiliser les modèles pré-entraînés pour faire des prédictions

In [18]:
model_knn = joblib.load("datasets/knn.pkl")
model_svm = joblib.load("datasets/svm.pkl")

In [19]:
model_knn.predict([[0,6,9,0,0,56,7,9]])

array([0], dtype=int64)

In [20]:
model_svm.predict([[0,6,9,0,0,56,7,9]])

array([0], dtype=int64)