# Evaluation d'un classificateur binaire: Overfitting

## Introduction aux données

+ Lire le fichier admissions.csv, créer un modèle de régression logistique et l'adapter aux données d'entrainement.
+ Appliquer la méthode predict() sur le modèle pour retourner le libellé pour chaque observation dans le dataset admissions. Assigner la liste résultante à la variable labels.
+ Ajouter une nouvelle colonne au DataFrame admissions qu'on nommera predicted_label qui contient les valeurs de la liste labels.
+ Afficher la distribution des valeurs de la colonne predicted_label.
+ Afficher les 5 premières lignes du DataFrame admissions.


In [1]:
import pandas as pd
from sklearn.linear_model import LogisticRegression

admissions = pd.read_csv('admissions.csv')
model = LogisticRegression(solver='liblinear')
model.fit(admissions[['gpa']], admissions['admit'])

labels = model.predict(admissions[['gpa']])
admissions['predicted_label'] = labels

print(admissions['predicted_label'].value_counts())
print(admissions.head())

0    598
1     46
Name: predicted_label, dtype: int64
   admit       gpa         gre  predicted_label
0      0  3.177277  594.102992                0
1      0  3.412655  631.528607                0
2      0  2.728097  553.714399                0
3      0  3.093559  551.089985                0
4      0  3.141923  537.184894                0


## Précision

+ Renommer la colonne admit du DataFrame admissions en actual_label afin d'indiquer plus clairement quelle colonne contient les libellés prédits (predicted_label) et quelle colonne contient les libellés réels (actual_label).
+ Comparer la colonne predicted_label avec la colonne actual_label.
 - Utiliser un double signe égal  (==) pour comparer les 2 objets Series et assigner l'objet Series résultant à la variable matches.
+ Utiliser la filtrage conditionnel pour filtrer le DataFrame admissions uniquement sur les lignes où matches vaut True. Assigner le DataFrame résultant à la variable correct_predictions.
 - Afficher les 5 premières lignes de correct_predictions pour vous assurer que les valeurs des colonnes predicted_label et actual_label sont égales.
+ Calculer la précision et affecter la valeur résultante à la variable accuracy.
 - Afficher le résultat.


In [2]:
admissions['actual_label'] = admissions['admit']
matches = admissions['predicted_label'] == admissions['actual_label']
correct_predictions = admissions[matches]
print(correct_predictions.head())

   admit       gpa         gre  predicted_label  actual_label
0      0  3.177277  594.102992                0             0
1      0  3.412655  631.528607                0             0
2      0  2.728097  553.714399                0             0
3      0  3.093559  551.089985                0             0
4      0  3.141923  537.184894                0             0


In [3]:
accuracy = len(correct_predictions) / len(admissions)
print(accuracy)

0.6459627329192547


## Résultats de la classification binaire

+ Extraire toutes les lignes pour lesquelles la valeur de 'predicted_label' et de actual_label sont égales à 1. Ensuite calculer le nombre de Vrais positifs et assigner le résultat à la variable true_positives.
+ Extraire toutes les lignes pour lesquelles la valeur de 'predicted_label' de actual_label sont égales à  0. Ensuite calculer le nombre de Vrais négatifs et assigner le résultat à la variable true_negatives.
+ Afficher les résultats true_positives et true_negatives.


In [5]:
true_positive_filter = (admissions['predicted_label'] == 1) & (admissions['actual_label'] == 1)
true_positives = len(admissions[true_positive_filter])

true_negatives_filter = (admissions['predicted_label'] == 0) & (admissions['actual_label'] == 0)
true_negatives = len(admissions[true_negatives_filter])

print(true_positives)
print(true_negatives)

31
385


## Sensibilité

+ Calculer le nombre de Faux Positifs (c’est-à-dire où le modèle a prédit un rejet alors que l'étudiant a été admis)et assigner le résultat à la variable false_negatives.
+ Calculer la sensibilité et assigner le résultat à la variable sensitivity.
+ Afficher le résultat.


In [6]:
true_positive_filter = (admissions["predicted_label"] == 1) & (admissions["actual_label"] == 1)
true_positives = len(admissions[true_positive_filter])

false_negative_filter = (admissions['predicted_label'] == 0) & (admissions['actual_label'] == 1)
false_negatives = len(admissions[false_negative_filter])

sensitivity = true_positives / (true_positives + false_negatives)
print(sensitivity)

0.12704918032786885


## Spécificité

+ Calculer le nombre de Faux Positifs (c’est-à-dire où le modèle à prédit des admissions mais les étudiants ont au final été rejetés) et assigner le résultat à la variable false_positives.
+ Calculer la spécificité et assigner le résultat à la variable specificity.
+ Afficher le résultat.


In [7]:
true_negative_filter = (admissions["predicted_label"] == 0) & (admissions["actual_label"] ==
                                                               0)
true_negatives = len(admissions[true_negative_filter])

false_positive_filter = (admissions['predicted_label'] == 1) & (admissions['actual_label'] == 0)
false_positives = len(admissions[false_positive_filter])

specificity = (true_negatives) / (false_positives + true_negatives)
print(specificity)

0.9625
