# Polymorphisme et Machine Learning en Python
## Objectifs :
- Comprendre le polymorphisme en Python
- Utiliser plusieurs modèles de Machine Learning via une interface commune
- Comparer des algorithmes sans modifier la structure du code

## Introduction
En Machine Learning, de nombreux modèles possèdent les mêmes méthodes (`fit`, `predict`).
Cette caractéristique permet de les utiliser de manière interchangeable : c’est le **polymorphisme**.

Nous allons illustrer ce concept avec la bibliothèque **scikit-learn** et le dataset Iris.


In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier

Charger les données iris à partir de sklearn.

In [3]:
X, y = load_iris(return_X_y=True)

Quel sera le rôle de `train_test_split` importée de sklearn.model_selection ?  <br>
Pourquoi est-il important de réaliser cette étape ? <br>
Préparer le jeu de données pour l'entraînement et le test. <br>


In [4]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print("Taille du jeu d'entraînement :", X_train.shape)
print("Taille du jeu de test :", X_test.shape)

Taille du jeu d'entraînement : (120, 4)
Taille du jeu de test : (30, 4)


Utiliser le StandardScaler pour mettre à l'échelle le jeu de données d'entraînement. Pour cette fois, ne pas consulter la documentation de StandardScaler.

In [5]:
scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

Instancier un modèle (estimateur) de chaque classe de modèle importée de scikit-learn.

In [6]:
models = [
    LogisticRegression(max_iter=1000),
    DecisionTreeClassifier(random_state=42),
    KNeighborsClassifier(),
]

for model in models:
    print(model.__class__.__name__)

LogisticRegression
DecisionTreeClassifier
KNeighborsClassifier


Quel est le point commun entre tous ces modèles ?

-> Ils implémentent les méthodes fit et predict.

Utiliser une seule boucle pour entraîner les modèles (pourtant très différents dans leur fonctionnement).

In [7]:
for model in models:
    model.fit(X_train_scaled, y_train)

print("Tous les modèles ont été entraînés avec succès.")

Tous les modèles ont été entraînés avec succès.


Tester les différents modèles sur le jeu d'entraînement et comparer leurs performances.

In [8]:
for model in models:
    y_pred = model.predict(X_test_scaled)
    acc = accuracy_score(y_test, y_pred)
    print(f"{model.__class__.__name__}: accuracy = {acc:.2f}")


LogisticRegression: accuracy = 1.00
DecisionTreeClassifier: accuracy = 1.00
KNeighborsClassifier: accuracy = 1.00


Choisir un des modèles et faire un pipeline scikit-learn pour l'entraînement et l'inférence. <br>
Que font les méthodes `fit` et `predict` du Pipeline ? (Ici, il est possible de consulter la documentation.)
<br>Reprendre l'entraînement sur le jeu d'entraînement et l'évaluation sur le jeu de test.

In [11]:
from sklearn.pipeline import Pipeline

pipe = Pipeline(steps=[
    ("scaler", StandardScaler()),
    ("model", LogisticRegression(max_iter=1000))
])

pipe.fit(X_train, y_train)
y_pred = pipe.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(acc)

1.0


Nous changeons d'avis et remplaçons le modèle choisi par un autre. Quelle partie du code doit changer ? Laquelle est directement utilisable ?

-> Il faut juste changer l'étape correspondante dans le Pipeline.

In [12]:
pipe = Pipeline(steps=[
    ("scaler", StandardScaler()),
    ("model", KNeighborsClassifier())
])

pipe.fit(X_train, y_train)
y_pred = pipe.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(acc)

1.0
