# Classificatore Tramite Iris Set in Sklearn

## Import Necessari

In [8]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import pandas as pd


## Load di Iris in csv 

In [15]:
# Carica il dataset Iris
dataset = load_iris()


df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names)
df['target'] = dataset.target

# Salva il DataFrame in un file CSV
df.to_csv('iris_dataset.csv', index=False)
#print("Dataset salvato in iris_dataset.csv")

# Riapri il file CSV
df_loaded = pd.read_csv('iris_dataset.csv')
#print("Dataset ricaricato dal file CSV:")

print(df_loaded.head(5))

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   target  
0       0  
1       0  
2       0  
3       0  
4       0  


In [32]:
X = dataset.data
Y = dataset.target

print(X.shape) # esempio di features in input 
print("Esempio di features in input al classificatore:", X[1])


print("Numero di campioni del dataset è:",Y.shape)

(150, 4)
Esempio di features in input al classificatore: [4.9 3.  1.4 0.2]
Numero di campioni del dataset è: (150,)


## Random_Forest

<h2 style="color:#2e8b57;">Random Forest Classifier - Addestramento e Importanza delle Features</h2>

<p><strong><code>.fit</code></strong> serve per <strong>addestrare il Classificatore Random Forest</strong> con i dati presenti in <strong>X</strong> e i target presenti in <strong>Y</strong>, dove:</p>

<ul>
  <li><strong>X</strong> → Rappresenta l'insieme dei dati di <strong>input</strong> (Variabili indipendenti) che verranno utilizzati per l'addestramento del modello. Ogni riga di <code>X</code> è un vettore chiamato <em>pattern</em>. Le colonne indicano le <strong>caratteristiche</strong> (ad esempio, la dimensione del petalo).</li>
  <li><strong>Y</strong> → Rappresenta l'insieme di <strong>etichette</strong> (target) associate a ciascuna osservazione di <code>X</code>.</li>
</ul>

<p>Il metodo <code>.fit</code> permette al classificatore di <strong>comprendere una mappatura</strong> tra le etichette (<code>Y</code>) e le osservazioni di dati (<code>X</code>) nel set di addestramento.</p>

<h3 style="color:#2e8b57;">Importanza delle Features (<code>.feature_importances_</code>)</h3>

<p>Il metodo <code>.feature_importances_</code> restituisce un array dove l'<strong>i-esimo elemento</strong> rappresenta l'<strong>importanza</strong> della <strong>i-esima feature</strong> nel fare predizioni. L'importanza di una feature indica quanto quest'ultima contribuisce alla decisione del modello. La somma di tutti gli elementi nell'array sarà sempre <strong>1.0</strong>.</p>

<h4 style="color:#2e8b57;">Funzionamento</h4>

<p>Random Forest calcola l'importanza di una determinata feature misurando <strong>quanto quest'ultima riduce l'impurità</strong> (ad esempio, tramite la misura di Gini o l'entropia) su ciascun nodo degli alberi decisionali.<br>Più una feature viene utilizzata per dividere i nodi degli alberi, più sarà considerata importante.</p>


In [29]:
clf = RandomForestClassifier() # creiamo il modello di classificazione Random Forest 

clf.fit(X,Y)

print(clf.feature_importances_)

[0.10887554 0.01972102 0.43692504 0.4344784 ]


## Prevision

In [33]:
print(X[0])

[5.1 3.5 1.4 0.2]


In [36]:
print(clf.predict([[5.1,3.5,1.4,0.2]])) # ci aspettiamo che sia di classe 0 poichè nel set di dati aveva questa etichetta

[0]


### Funzione `predict_proba()`

La funzione **`predict_proba()`** restituisce un vettore che indica la **probabilità** che una determinata osservazione appartenga a ciascuna delle classi del modello addestrato. Questa funzione è particolarmente utile perché ci permette di valutare non solo la classe predetta, ma anche **quanto il modello è sicuro** della sua classificazione.

#### Dettagli sul funzionamento:
Quando si utilizza **`predict_proba()`**, il modello non restituisce direttamente la classe con la probabilità più alta (come accade con **`predict()`**), ma fornisce un array in cui ogni valore rappresenta la probabilità che l'osservazione appartenga a una specifica classe.


In [37]:
print(clf.predict_proba([X[0]]))

[[1. 0. 0.]]


# Split dei dati in testing set e trianing 

Lo split dei dati viene effettuato per garaantire una porzione di dati al classificatore che permetta di comprendere le caratteristiche dei dati assieme alle etichette e la parte di testing del dati che serve per verificare se il classificatore effettua errori di classificazione.


In [40]:
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.2)

print(X_train.shape, X_test.shape) #80% di dati per il training e 20% per i dati di testing 
print(X_test.shape, Y_test.shape)

(120, 4) (30, 4)
(30, 4) (30,)


In [41]:
clf.fit(X_train,Y_train)

## Performance di classificazione di un sample di dato del training

In [42]:
print(clf.predict([[5.1,3.5,1.4,0.2]]))

[0]


In [43]:
print(clf.predict_proba([[5.1,3.5,1.4,0.2]]))

[[1. 0. 0.]]


## Predizioni sul test set 

In [44]:
print(clf.predict(X_test))

[0 1 2 1 2 0 2 0 2 1 0 1 1 1 1 1 2 2 0 2 2 1 2 0 0 0 0 0 0 1]


In [45]:
print(Y_test)

[0 1 2 1 2 0 2 0 2 1 0 1 1 1 1 1 2 2 0 2 2 1 2 0 0 0 0 0 0 1]


In [46]:
print(clf.score(X_test,Y_test))

1.0
