# Importazione delle librerie necessarie

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Caricamento del dataset

In [None]:
data = load_iris()
X = data.data # le caratteristiche
y = data.target # le etichette

# Converto dataset in DataFrame per facilità
df = pd.DataFrame(X, columns=data.feature_names)
df["target"] = y

# Prime righe del dataset
print("\n--- HEAD ---")
print(df.head())

# Informazioni generali
print("\n--- INFO ---")
print(df.info())

# Statistiche descrittive
print("\n--- DESCRIBE ---")
print(df.describe())

# Training

In [None]:
# Divisione dei dati in set di addestramento e di test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Per convenzione la 'X' è maiuscola e la 'y' minuscola
# test_size=0.2 -> test: 20% -> training: 80% (in maniera randomica con 'random_state=42')

# Creazione del modello di classificazione
model = RandomForestClassifier(n_estimators=100, random_state=42)

# Addestramento del modello
model.fit(X_train, y_train)

# Predizione delle etichette per il set di test
predictions = model.predict(X_test) # mi salva la 'y' predetta prendendo la 'X'

# Calcolo dell'accuratezza del modello
accuracy = accuracy_score(y_test, predictions)

print(f'Accuracy: {accuracy:.2f}')

# Analisi

## Distribuzione delle classi

Osservo quanti fiori ci sono per ciascuna specie

In [None]:
sns.countplot(x=df["target"])
plt.title("Distribuzione delle classi")
plt.show()

Il dataset è composto da 150 osservazioni, 50 per ciascuna delle seguenti specie:
- Iris setosa: 0
- Iris versicolor: 1
- Iris virginica: 2

## Correlazione

In [None]:
plt.figure(figsize=(8,6))
sns.heatmap(df.corr(), annot=True, cmap="viridis")
plt.title("Matrice di correlazione")
plt.show()

Target non ha una vera gerarchia -> sono categorie 0,1,2 (in generale)

## Scatter matrix

Vedo se le classi sono ben separabili o sovrapposte

In [None]:
sns.pairplot(df, hue="target")
plt.show()