# TP7 - Evaluation Partie 1

Cette 1ère partie du TP est consacrée à l'étude d'un jeu de données simple. Dont la tâche est décrite ci-après. Vous devrez proposer un "cahier d'expérience" qui vous amènera à la définition d'un "modèle final". 

Le fichier `breast_cancer_dev.csv` contient les descriptions de 478 échantillons de tumeurs du sein, décrits par 9 attributs différents, tels que la taille de la tumeur, la texture, la compacité, la symétrie, la dimension fractale, etc. 

La dernière colonne du fichier, contient la classe binaire à prédire:

    + valeur 2 : les tumeurs bénignes

    + valeur 4 : les tumeurs malignes



## Votre cahier d'expériences

Vous devez proposer dans cette partie toutes les expérimentations que vous allez entreprendre pour tenter de mettre au point le meilleur modèle de prédiction possible.

Structurez votre notebook (**alternez cellules markdown puis cellules de codes**) de sorte à ce qu'il puisse être lu comme un compte-rendu de TP et exécuté.

In [27]:
# TODO

I) Transformation du csv en dataframe

In [28]:
import pandas as pd
cancers = pd.read_csv('donnees/breast_cancer_dev.csv')
print("head:")
print(cancers.head())
print("shape:")
print(cancers.shape)

head:
   Clump_Thickness  Cell_Size  Cell_Shape  Marginal_Adhesion  Epithelial_Size  \
0                2          1           1                  2                2   
1                1          1           2                  1                2   
2                3          1           2                  1                2   
3                5          3           2                  1                3   
4                6          8           8                  1                3   

   Bare_Nuclei  Bland_Chromatin  Normal_Nucleoli  Mitoses  Class  
0          1.0                3                1        1      2  
1          2.0                4                2        1      2  
2          1.0                2                1        1      2  
3          1.0                1                1        1      2  
4          4.0                3                7        1      2  
shape:
(478, 10)


II) Couper le dataframe en 2 (un pour l'entrainement et un pour le test) (et séparer les labels des données)

(j'ai testé plusieurs test_size et 0.2 semble être le meilleur)

In [29]:
from sklearn.model_selection import train_test_split

X = cancers.drop(columns=['Class'])
y = cancers['Class']

print("X:", X.shape)
print("y:", y.shape)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

print("X_train:", X_train.shape)
print("X_test:", X_test.shape)
print("y_train:", y_train.shape)
print("y_test:", y_test.shape)

X: (478, 9)
y: (478,)
X_train: (382, 9)
X_test: (96, 9)
y_train: (382,)
y_test: (96,)


III) Normaliser les données

In [30]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

print("Moyenne de X_train:", X_train.mean())
print("Ecart type de X_train:", X_train.std())
print("Moyenne de X_test:", X_test.mean())
print("Ecart type de X_test:", X_test.std())

Moyenne de X_train: -5.838520152769875e-17
Ecart type de X_train: 0.9999999999999999
Moyenne de X_test: 0.14266920682068687
Ecart type de X_test: 1.0995447835833536


IV) Utiliser KNN pour prédire les labels

In [31]:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

maxi = 0
best_k = 0
for i in range(1, 21):
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(X_train, y_train)

    y_pred = knn.predict(X_test)

    precision = np.mean(y_pred == y_test)
    if precision > maxi:
        maxi = precision
        best_k = i

    print("Précision pour", i, ":", precision)

print()
print("Meilleur k:", best_k)
print("Meilleure précision:", maxi)

Précision pour 1 : 0.9895833333333334
Précision pour 2 : 0.9791666666666666
Précision pour 3 : 0.9895833333333334
Précision pour 4 : 0.9895833333333334
Précision pour 5 : 0.9895833333333334
Précision pour 6 : 0.9895833333333334
Précision pour 7 : 0.9895833333333334
Précision pour 8 : 0.9895833333333334
Précision pour 9 : 0.9895833333333334
Précision pour 10 : 0.9895833333333334
Précision pour 11 : 0.9895833333333334
Précision pour 12 : 0.9895833333333334
Précision pour 13 : 0.9895833333333334
Précision pour 14 : 0.9895833333333334
Précision pour 15 : 0.9895833333333334
Précision pour 16 : 0.9895833333333334
Précision pour 17 : 0.9895833333333334
Précision pour 18 : 0.9895833333333334
Précision pour 19 : 0.9895833333333334
Précision pour 20 : 0.9791666666666666

Meilleur k: 1
Meilleure précision: 0.9895833333333334


V) Taux d'erreur

In [32]:
from sklearn.metrics import accuracy_score

error_rate = 1 - accuracy_score(y_test, y_pred)
print("Taux d'erreur:", error_rate)

Taux d'erreur: 0.02083333333333337


## Votre modèle final

In [33]:
# définissez ici le modèle que vous aurez finalement choisi
X = cancers.drop(columns=['Class'])
y = cancers['Class']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
model = KNeighborsClassifier(n_neighbors=5)
model.fit(X_train, y_train)

In [34]:
# prédictions de votre modèle sur de nouvelles données
import pandas as pd
eval_set = pd.read_csv('donnees/breast_cancer_eval.csv')  # ne pas modifier cette ligne

# votre traitement sur eval_set (à adapter)
X_eval = np.array(eval_set)
print("X_eval:", X_eval.shape)
predictions = model.predict(X_eval)

print(predictions)

X_eval: (205, 9)
[4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4]


Ça ne devrait probablement pas prédire que des 4 mais je ne trouve pas le problème 

In [35]:
# cadre réservé à votre enseignant pour l'évaluation des prédictions de votre modèle
# 
# 