# Riassunto:
- X sono i dati senza la colonna target, e y è la colonna target (quello che vogliamo predire).
-  Dividiamo i dati in training set (per addestrare il modello) e test set (per testare -  quanto il modello è bravo).
- Alleniamo il modello con fit.
- Facciamo previsioni con predict.
- Valutiamo quanto bene il modello ha imparato con score.

In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 2. Creiamo un piccolo dataset di esempio con i frutti
data = {
    "Colore": ["Rosso", "Giallo", "Rosso", "Giallo", "Giallo", "Rosso", "Giallo", "Rosso", "Giallo", "Giallo"],
    "Forma": ["Tonda", "Allungata", "Tonda", "Tonda", "Allungata", "Allungata", "Allungata", "Tonda", "Tonda", "Allungata"],
    "Frutto": ["Mela", "Banana", "Mela", "Mela", "Banana", "Mela", "Banana", "Mela", "Mela", "Banana"]
}

# 3. Convertiamo il dizionario in un DataFrame di Pandas
df = pd.DataFrame(data)

# 4. Convertiamo le colonne testuali (Colore e Forma) in numeriche usando il metodo get_dummies (dummy encoding)
df_encoded = pd.get_dummies(df, columns=["Colore", "Forma"])

# Visualizziamo il dataset
print("Il dataset dei frutti:\n", df)

Il dataset dei frutti:
    Colore      Forma  Frutto
0   Rosso      Tonda    Mela
1  Giallo  Allungata  Banana
2   Rosso      Tonda    Mela
3  Giallo      Tonda    Mela
4  Giallo  Allungata  Banana
5   Rosso  Allungata    Mela
6  Giallo  Allungata  Banana
7   Rosso      Tonda    Mela
8  Giallo      Tonda    Mela
9  Giallo  Allungata  Banana


In [16]:
X = df_encoded.drop("Frutto", axis=1)
y = df["Frutto"]

In [17]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=42)
# 6. Mostriamo le dimensioni dei dati
print(f"\nDimensioni X_train: {X_train.shape}")
print(f"Dimensioni X_test: {X_test.shape}")
print(f"Dimensioni y_train: {y_train.shape}")
print(f"Dimensioni y_test: {y_test.shape}")


Dimensioni X_train: (8, 4)
Dimensioni X_test: (2, 4)
Dimensioni y_train: (8,)
Dimensioni y_test: (2,)


In [18]:
# 7. Stampiamo i dati di training e test
print("\nDati di training (X_train):\n", X_train)
print("\nTarget di training (y_train):\n", y_train)



Dati di training (X_train):
    Colore_Giallo  Colore_Rosso  Forma_Allungata  Forma_Tonda
5          False          True             True        False
0          False          True            False         True
7          False          True            False         True
2          False          True            False         True
9           True         False             True        False
4           True         False             True        False
3           True         False            False         True
6           True         False             True        False

Target di training (y_train):
 5      Mela
0      Mela
7      Mela
2      Mela
9    Banana
4    Banana
3      Mela
6    Banana
Name: Frutto, dtype: object


In [19]:
print("\nDati di test (X_test):\n", X_test)
print("\nTarget di test (y_test):\n", y_test)


Dati di test (X_test):
    Colore_Giallo  Colore_Rosso  Forma_Allungata  Forma_Tonda
8           True         False            False         True
1           True         False             True        False

Target di test (y_test):
 8      Mela
1    Banana
Name: Frutto, dtype: object


In [20]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

clf = RandomForestClassifier()
# 8. Addestriamo il modello (fit)
clf.fit(X_train,y_train)
# 9. Usiamo il modello per fare predizioni sul test set
y_preds = clf.predict(X_test)

# 10. Valutiamo il modello
accuracy = accuracy_score(y_test, y_preds)
print(f"Accuratezza del modello: {accuracy * 100:.2f}%")

Accuratezza del modello: 100.00%


In [21]:
# Report di classificazione
print("\nClassification Report:")
print(classification_report(y_test, y_preds))


Classification Report:
              precision    recall  f1-score   support

      Banana       1.00      1.00      1.00         1
        Mela       1.00      1.00      1.00         1

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



In [22]:
# Matrice di confusione
print("Matrice di confusione:")
print(confusion_matrix(y_test, y_preds))

Matrice di confusione:
[[1 0]
 [0 1]]


In [25]:
nuovo_frutto = pd.DataFrame(
    {
        "Colore_Giallo": [0],
        "Colore_Rosso": [1],
        "Forma_Allungata": [0],
        "Forma_Tonda": [1],
    }
)
predizione = clf.predict(nuovo_frutto)
print(f"Il frutto tondo e rosso è: {predizione[0]}")

Il frutto tondo e rosso è: Mela


In [31]:
# Testiamo un frutto allungato e giallo (probabilmente una banana)
nuovo_frutto = pd.DataFrame(
    {
        "Colore_Giallo": [1],  # È giallo
        "Colore_Rosso": [0],  # Non è rosso
        "Forma_Allungata": [1],  # È allungato
        "Forma_Tonda": [0],  # Non è tondo
    }
)

# Facciamo la predizione
predizione = clf.predict(nuovo_frutto)
print(f"Il frutto allungato e giallo è: {predizione[0]}")

Il frutto allungato e giallo è: Mela
