### Table de matières
- Lecture du fichier de données
- Entrainement du modèle et prédiction
- Calcul de la précision (accuracy) du modèle
- Résultats de la classification binaire
- Sensibilité
- Spécificité


##### Lecture du fichier de données

In [1]:
import pandas as pd
admissions = pd.read_csv('admissions.csv')
admissions

Unnamed: 0,admit,gpa,gre
0,0,3.177277,594.102992
1,0,3.412655,631.528607
2,0,2.728097,553.714399
3,0,3.093559,551.089985
4,0,3.141923,537.184894
...,...,...,...
639,1,3.381359,720.718438
640,1,3.083956,556.918021
641,1,3.114419,734.297679
642,1,3.549012,604.697503


##### Entrainement du modèle et prédiction

In [2]:
# Entrainement du modèle
from sklearn.linear_model import LogisticRegression 
logistic_model = LogisticRegression(solver='liblinear')
logistic_model.fit(admissions[['gpa']], admissions['admit'])

LogisticRegression(solver='liblinear')

In [3]:
# Prediction
labels = logistic_model.predict(admissions[['gpa']])
admissions['predicted_label'] = labels

In [4]:
admissions['predicted_label'].value_counts()

0    598
1     46
Name: predicted_label, dtype: int64

In [5]:
print(admissions.head())

   admit       gpa         gre  predicted_label
0      0  3.177277  594.102992                0
1      0  3.412655  631.528607                0
2      0  2.728097  553.714399                0
3      0  3.093559  551.089985                0
4      0  3.141923  537.184894                0


##### Calcul de la précision (accuracy) du modèle

In [6]:
# Renommer la colonne admit du DataFrame admissions en actual_label afin d'indiquer plus clairement quelle colonne 
# contient les libellés prédits (predicted_label) et quelle colonne contient les libellés réels (actual_label).
admissions['actual_label'] = admissions['admit']

In [7]:
# Comparer la colonne predicted_label avec la colonne actual_label
matches = admissions['predicted_label'] == admissions['actual_label']
correct_predictions = admissions[matches]
print(correct_predictions.head())

   admit       gpa         gre  predicted_label  actual_label
0      0  3.177277  594.102992                0             0
1      0  3.412655  631.528607                0             0
2      0  2.728097  553.714399                0             0
3      0  3.093559  551.089985                0             0
4      0  3.141923  537.184894                0             0


In [8]:
# Calculer la précision de la prédiction et affecter la valeur résultante à la variable accuracy 
predictive_accuracy = len(correct_predictions) / len(admissions)
print(predictive_accuracy)

0.6459627329192547


##### Résultats de la classification binaire

- Vrai positif ou True positive : le modèle a prédit correctement que l'étudiant serait admis.
- Vrai négatif ou True Negative : le modèle a prédit correctement que l'étudiant serait rejeté.
- Faux positif ou False Positive : le modèle a prédit à tort que l'étudiant serait admis meme si l'étudiant a été rejeté.
- Faux négatif ou False Negative : le modèle a prédit à tort que l'étudiant serait rejeté meme s'il était effectivement admis.

In [20]:
# Extraire toutes les lignes pour lesquelles la valeur de 'predicted_label' et de 'actual_label' sont égales à 1. 
# Ensuite calculer le nombre de Vrais positifs et assigner le résultat à la variable true_positives
true_positive_filter = (admissions['predicted_label'] == 1) & (admissions['actual_label'] == 1)
true_positives = len(admissions[true_positive_filter])

print(true_positives)

31


In [15]:
# Extraire toutes les lignes pour lesquelles la valeur de 'predicted_label' et de 'actual_label' sont égales à 0. 
# Ensuite calculer le nombre de Vrais négatifs et assigner le résultat à la variable true_negatives
true_negatives_filter = (admissions['predicted_label'] == 0) & (admissions['actual_label'] == 0)
true_negatives = len(admissions[true_negatives_filter])

print(true_negatives)

385


##### Sensibilité 
Sensibilité ou taux de Vrai Positifs (True Positive Rate - TPR) : 
$$ TPR = \frac{True ~ Positives}{True ~ Positives + False ~ Negatives}$$

In [29]:
# Calculer le nombre de Faux Négatifs (c'est-à-dire ou le modèle a prédit un rejet alors que l'étudiant a été admis)
# et assigner le résultat à la variable false_negatives.
false_negative_filter = (admissions['predicted_label']) == 0 & (admissions['actual_label'] == 1)
false_negatives = len(admissions[false_negative_filter])

In [33]:
# Calculer la sensibilité et assigner le résultat à la variable sensitivity
sensitivity = (true_positives) / (true_positives + false_negatives)
print(sensitivity)

0.0492845786963434


##### Spécificité
Spécificité ou taux de Vrais Négatifs (True Negative Rate - TNR) :
$$ TNR = \frac{True ~ Negatives}{False ~ Positives + True ~ Negatives}$$

In [31]:
# Calculer le nombre de Faux Positifs (c'est-à-dire ou le modèle a prédit des admissions mais les étudiants ont au final été rejetés)
# et assigner le résultat à la variable false_positives 
false_positive_filter = (admissions['predicted_label']) == 1 & (admissions['actual_label'] == 0)
false_positives = len(admissions[false_positive_filter])

In [32]:
# Calculer la spécificité et assigner le résultat à la variable specificity
specificity = (true_negatives) / (false_positives + true_negatives)
print(specificity)

0.6280587275693311
