# Laboratorio Modulo C - scikit learn - Random forest

Proviamo ad applicare le random forest per fare classificazione con il dataset digits. L'obiettivo è quello di classificare automaticamente le cifre da 0 a 9.

In [None]:
# importo le varie librerie
import matplotlib.pyplot as plt
from sklearn import datasets, metrics
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

In [None]:
# carico il dataset digits
digits = datasets.load_digits()

# mostro le prime 6 immagini
_, axes = plt.subplots(nrows=1, ncols=6, figsize=(10, 3))
for ax, image, label in zip(axes, digits.images, digits.target):
    ax.set_axis_off()
    ax.imshow(image, cmap=plt.cm.gray_r, interpolation="nearest")
    ax.set_title(f"Training: {label}")

In [None]:
# prima operazione: trasformo le immagini rappresentate come una matrice 8x8
# in un array di 64 elementi
n_samples = len(digits.images)
data = digits.images.reshape((n_samples, -1))

# creo un random forest classifier con 10 alberi
n_trees = 10

forest = RandomForestClassifier(n_estimators=n_trees, random_state=42)

# divido training e test in 75% - 25%
X_train, X_test, y_train, y_test = train_test_split(data, digits.target, random_state=42)

# creo il classificatore partendo dal training set
forest.fit(X_train, y_train)

# predizione sul test set
predicted = forest.predict(X_test)

In [None]:
# mostro alcune metriche
_, axes = plt.subplots(nrows=1, ncols=4, figsize=(10, 3))
for ax, image, prediction in zip(axes, X_test, predicted):
    ax.set_axis_off()
    image = image.reshape(8, 8)
    ax.imshow(image, cmap=plt.cm.gray_r, interpolation="nearest")
    ax.set_title(f"Prediction: {prediction}")

print(
    f"Classification report for classifier {forest}:\n"
    f"{metrics.classification_report(y_test, predicted)}\n"
)

disp = metrics.ConfusionMatrixDisplay.from_predictions(y_test, predicted)
disp.figure_.suptitle("Confusion Matrix")
# print(f"Confusion matrix:\n{disp.confusion_matrix}")
plt.show()

# per multiclass
# Precision_i = M_{ii} / \sum_j M_{ji}
# Recall_i = M_{ii} / \sum_j M_{ij}
# Controllare che i valori siano uguali a quelli
# della matrice di confusione
# from sklearn.metrics import confusion_matrix
# import numpy as np

# cm = confusion_matrix(y_test, predicted)
# recall = np.diag(cm) / np.sum(cm, axis = 1)
# precision = np.diag(cm) / np.sum(cm, axis = 0)

# print(recall)
# print(precision)


**Domanda**: quali parametri possiamo cambiare per modificare l'andamento dell'algoritmo?

**Domanda**: mostrare un grafico dove, al variare del numero di alberi, vengono mostrati il numero di elementi classificati in maniera non corretta.