# Exercises XP Ninja
done 2025-07-01

What you will learn
* how to train a logistic regression model
* how to evaluate your model with metricq


* What you will create
a script to implement Python functions to calculate Accuracy, Precision, Recall, and F1-Score from scratch.


## Exercise 1 : Evaluation Metrics Implementation
### Objective:
Implement Python functions to calculate Accuracy, Precision, Recall, and F1-Score from scratch.

### Dataset:
Use any binary classification dataset, for example, the Breast Cancer Wisconsin (Diagnostic) dataset available in scikit-learn or any other binary classification dataset of your choice.

### Tasks:
* Split the dataset into training and test sets.
* Train a simple classification model (like Logistic Regression) on the training set.
* Make predictions on the test set.
* Write functions to calculate Accuracy, Precision, Recall, and F1-Score using the confusion matrix components (TP, TN, FP, FN).
* Evaluate your model using these metrics and interpret the results.

## 1 – Import des bibliothèques

In [1]:
# Importation des bibliothèques nécessaires
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix


## 2 – Chargement du jeu de données

In [2]:
# Chargement du jeu de données Breast Cancer (classification binaire)
data = load_breast_cancer()
X = data.data       # variables explicatives
y = data.target     # étiquettes (0 = maligne, 1 = bénigne)

# Affichage rapide de la forme des données
print("Forme des données :", X.shape)
print("Classes :", np.unique(y))


Forme des données : (569, 30)
Classes : [0 1]


## 3 – Séparation en train/test

In [3]:
# Division du jeu de données : 80% entraînement, 20% test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Taille train :", X_train.shape[0])
print("Taille test :", X_test.shape[0])


Taille train : 455
Taille test : 114


## 4 – Entraînement du modèle

In [4]:
# Création et entraînement d’un modèle de régression logistique
model = LogisticRegression(max_iter=10000)
model.fit(X_train, y_train)

# Prédictions sur le jeu de test
y_pred = model.predict(X_test)


## 5 – Matrice de confusion

In [5]:
# Création de la matrice de confusion : [TN, FP, FN, TP]
tn, fp, fn, tp = confusion_matrix(y_test, y_pred).ravel()

print(f"Vrai négatifs (TN): {tn}")
print(f"Faux positifs (FP): {fp}")
print(f"Faux négatifs (FN): {fn}")
print(f"Vrai positifs (TP): {tp}")


Vrai négatifs (TN): 39
Faux positifs (FP): 4
Faux négatifs (FN): 1
Vrai positifs (TP): 70


## 6 – Fonctions de calcul des métriques

In [6]:
# Calcul manuel des métriques d'évaluation

def accuracy(tp, tn, fp, fn):
    return (tp + tn) / (tp + tn + fp + fn)

def precision(tp, fp):
    return tp / (tp + fp) if (tp + fp) != 0 else 0

def recall(tp, fn):
    return tp / (tp + fn) if (tp + fn) != 0 else 0

def f1_score(prec, rec):
    return 2 * (prec * rec) / (prec + rec) if (prec + rec) != 0 else 0


## 7 – Évaluation du modèle

In [7]:
# Application des fonctions sur les résultats
acc = accuracy(tp, tn, fp, fn)
prec = precision(tp, fp)
rec = recall(tp, fn)
f1 = f1_score(prec, rec)

# Affichage
print(f"Accuracy  : {acc:.4f}")
print(f"Precision : {prec:.4f}")
print(f"Recall    : {rec:.4f}")
print(f"F1-Score  : {f1:.4f}")


Accuracy  : 0.9561
Precision : 0.9459
Recall    : 0.9859
F1-Score  : 0.9655


## Ces résultats montrent que :

* **Accuracy (95.61 %)** : Le modèle est globalement très précis sur tous les cas.
* **Precision (94.59 %)** : Parmi les cas prédits comme positifs (bénins), 94.59 % sont réellement corrects → peu de faux positifs.
* **Recall (98.59 %)** : Le modèle capte presque tous les vrais cas positifs → très peu de faux négatifs.
* **F1-Score (96.55 %)** : Excellent équilibre entre précision et rappel.

### **Interprétation** : 
Ce modèle est **très fiable** pour un cas médical où il est crucial de **ne pas rater un cas réel (recall élevé)**, tout en **limitant les fausses alertes (bonne précision)**.

