In [None]:
import marimo as mo

# Exploration des datasets de scikit-learn

In [None]:
from sklearn.datasets import fetch_20newsgroups

In [None]:
ds = fetch_20newsgroups()

In [None]:
type(ds)

In [None]:
dir(ds)

In [None]:
type(ds.data)

In [None]:
type(ds.target)

In [None]:
ds.data[0]

In [None]:
len(ds.data)

In [None]:
len(ds.target)

In [None]:
ds.target_names

Le dataset précédent a comme donnée

- en entrée le contenu de fichiers
- en sortie une catégorie correspondant à la thématique du sous forum où a été posté le texte

On va commencer par un dataset de classification moins ambitieux.

In [None]:
from sklearn.datasets import load_iris

In [None]:
iris = load_iris()
iris

In [None]:
print(iris.DESCR)

In [None]:
X = iris.data
y = iris.target

# Classification

**EXERCICE**

1. Séparer le dataset entre données d'entrainement et données de test
2. Faite tourner le modèle de régression logistique
1. Evaluer le résultat du modèle

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_tr, X_te, y_tr, y_te = train_test_split(X, y)

In [None]:
lr = LogisticRegression()

In [None]:
lr.fit(X_tr, y_tr)

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
confusion_matrix(y_tr, lr.predict(X_tr))

In [None]:
confusion_matrix(y_te, lr.predict(X_te))

**REMARQUE**
Les scores servent à comparer des modèles pas à évaluer un modèle dans le vide.

On va comparer au dummy classifier pour évaluer l'apport du modèle.

In [None]:
from sklearn.dummy import DummyClassifier

In [None]:
dc = DummyClassifier()

In [None]:
dc.fit(X_tr, y_tr)

In [None]:
confusion_matrix(y_tr, dc.predict(X_tr))

In [None]:
confusion_matrix(y_te, dc.predict(X_te))

In [None]:
from sklearn.metrics import classification_report

In [None]:
print(classification_report(y_true = y, y_pred = lr.predict(X)))

In [None]:
print(classification_report(y_true = y, y_pred = dc.predict(X)))

**CONCLUSION** On voit que la tâche n'était pas complètement évidente vu les scores du DummmyClassifier. La régression logistique fait donc un travail très raisonnable.

# Nouveau dataset

In [None]:
from sklearn.datasets import load_digits

In [None]:
digits = load_digits()

In [None]:
print(digits.DESCR)

**EXERCICE** Visualiser les images correspondantes aux 10 premières entrées du dataset

In [None]:
Xd, yd = digits.data, digits.target

In [None]:
Xd[0]

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.spy(Xd[0].reshape(8, 8))

In [None]:
plt.imshow(16 - Xd[0].reshape(8, 8), cmap="grey")

In [None]:
yd[0]

In [None]:
plt.imshow(16 - Xd[1].reshape(8, 8), cmap="grey")

In [None]:
yd[1]

**EXERCICE** Entrainer un modèle de classification sur ce dataset.

In [None]:
Xd_tr, Xd_te, yd_tr, yd_te = train_test_split(Xd, yd)

In [None]:
dcd = DummyClassifier(strategy="uniform")

In [None]:
dcd.fit(Xd_tr, yd_tr)

In [None]:
print(classification_report(yd, dcd.predict(Xd)))

In [None]:
lrd = LogisticRegression(max_iter=1000)

In [None]:
lrd.fit(Xd_tr, yd_tr)

In [None]:
print(classification_report(yd, lrd.predict(Xd)))

**EXERCICE** identifier et visualiser les images mal classifiées.

In [None]:
from sklearn.metrics import f1_score

In [None]:
f1_score(yd_tr, lrd.predict(Xd_tr), average=None)

In [None]:
f1_score(yd_te, lrd.predict(Xd_te), average=None)

In [None]:
masque = (yd_te != lrd.predict(Xd_te))

In [None]:
masque

In [None]:
pbx = Xd_te[masque]
nombrepb = yd_te[masque]
predpb = lrd.predict(Xd_te)[masque]

In [None]:
def visualisation(indice):
    _, rep = plt.subplots()
    rep.imshow(16 - pbx[indice].reshape(8, 8), cmap="grey")
    rep.set_title(f"prédit: {predpb[indice]}, réalité {nombrepb[indice]}")
    return rep

In [None]:
visualisation(1)

In [None]:
indice = mo.ui.slider(start=0, stop=len(nombrepb) - 1, label="indice", show_value=True)
indice

In [None]:
visualisation(indice=indice.value)

# Nouveau dataset plus ambitieux

In [None]:
from sklearn.datasets import fetch_kddcup99

In [None]:
kdd = fetch_kddcup99()

In [None]:
print(kdd.DESCR)

**EXERCICE** Répéter la démarche précédente.

In [None]:
X1, y1 = kdd.data, kdd.target

In [None]:
type(X1)

In [None]:
X1.shape

In [None]:
type(y1)

In [None]:
y1.shape

In [None]:
y1[0]

In [None]:
X1[0]

**PROBLEME** on voit que certains champs ne sont pas numériques, mais des chaines de caractéres encodées en bytes.

In [None]:
import numpy as np

In [None]:
np.unique(y1, return_counts=True)

In [None]:
from sklearn.preprocessing import OrdinalEncoder

In [None]:
oe = OrdinalEncoder()

In [None]:
y2 = oe.fit_transform(y1.reshape(-1, 1))

In [None]:
np.unique(y2, return_counts=True)

In [None]:
oex = OrdinalEncoder()
X2 = oex.fit_transform(X1)

In [None]:
X2.dtype