# Classificazione dei fiori Iris con l'algoritmo K-Nearest Neighbors (KNN)
Questo notebook usa l'algoritmo KNN per classificare le immagini di fiori "iris" in tre classi: Setosa, Versicolor, Virginica.
In questo laboratorio potere provare a cambiare il valore di ```k``` per vedere come cambia l'accuratezza del modello. Inoltre, potete inserire dei valori a vostro piaciemento (lunghezza di petali e sepali) per capire come il modello ragiona.

| <img src="./Iris-Dataset.png" width="90%">  |
|--|

# Importazione delle librerie necessarie

In [None]:
# Author: Roberto Doriguzzi-Corin
# Project: Corso di Algoritmi di Machine Learning per la rilevazione di attacchi informatici
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#   http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Caricamento del dataset

In [None]:
# Carichiamo il dataset Iris
iris = datasets.load_iris()
X = iris.data[:, [0, 2]]  # Solo due Caratteristiche: lunghezza di sepali e petali (per visualizzazione)
y = iris.target  # Etichette: Specie (0 = Setosa, 1 = Versicolor, 2 = Virginica)

# Dividiamo i dati in training e test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Addestramento dell'algoritmo KNN
L'albero decisionale puo' essere configurato con un due parametri principali:
- il parametro ```k``` che indica quanti ```vicini``` tenere in considerazione per la classificazione
- il parametro ```weights```, che indica come assegnare l'importanza ai vicini. Il valore di default e' ```uniform```, cioe' i ```k``` punti vicini hanno la stessa importanza. L'alternativa e' ```distance```, per cui i punti piu' vicini hanno un'importanza maggiore (inversamente proporzionale alla distanza)

In [None]:
# Creiamo il modello KNN con k=3
k = 3
knn = KNeighborsClassifier(n_neighbors=k,weights='uniform')
knn.fit(X_train, y_train)

# Test del modello

Qui facciamo il test con campioni mai visti prima

In [None]:
y_pred = knn.predict(X_test)

print(f"Accuratezza del modello KNN (K={k}): {accuracy_score(y_test, y_pred) * 100:.2f}%")

# Matrice di confusione multi-classe

In [None]:
import matplotlib.pyplot as plt
from sklearn.metrics import ConfusionMatrixDisplay, accuracy_score, classification_report
np.set_printoptions(precision=2)

cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm,display_labels=['Setosa', 'Versicolor','Virginica'])
disp.plot(cmap='Blues')
plt.title('Confusion Matrix')
plt.show()

# Visualizzazione della decision boundary
Il decision boundary determina il confine tra una classe e l'altra che il modello KNN ha imparato durante il training.

In [None]:
# Creiamo una griglia di punti nello spazio delle caratteristiche
h = 0.02
x_min, x_max = X_train[:, 0].min() - 1, X_train[:, 0].max() + 1
y_min, y_max = X_train[:, 1].min() - 1, X_train[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = knn.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Plot della decision boundary
plt.figure(figsize=(10, 6))
plt.contourf(xx, yy, Z, alpha=0.4, cmap=plt.cm.Paired)
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, marker='o', edgecolor='k', label='Training', cmap=plt.cm.Paired)
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, marker='x', facecolor='k', label='Test', cmap=plt.cm.Paired)
plt.xlabel('Lunghezza Sepali')
plt.ylabel('Lunghezza Petali')
plt.title(f'KNN con K={k} - Confini di Decisione')
plt.legend()
plt.grid(True)
plt.show()

# Prova con nuovi dati
Inserisci dei valori di lunghezza dei sepali e dei petali e vedi come il modello KNN ragiona. 
Prova a cambiare i valori di ```k``` e/o di ```weights``` e vedi come cambia il risultato.

| <img src="./struttura-del-fiore.png" width="90%">  |
|--|

In [None]:
# Prevediamo la classe di un nuovo punto
# Inserisci qui le caratteristiche del nuovo punto da prevedere
nuovo_punto = np.array([[5.0, 2.1]])  # Esempio: lunghezza sepali = 5.0, lunghezza petali = 2.1


classe_prevista = knn.predict(nuovo_punto)
print(f"\nIl nuovo punto {nuovo_punto} è stato classificato come: {iris.target_names[classe_prevista][0]}")

# Visualizzazione della decision boundary e del nuovo punto
h = 0.02
x_min, x_max = X_train[:, 0].min() - 1, X_train[:, 0].max() + 1
y_min, y_max = X_train[:, 1].min() - 1, X_train[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = knn.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Plot della decision boundary
plt.figure(figsize=(10, 6))
plt.contourf(xx, yy, Z, alpha=0.4, cmap=plt.cm.Paired)
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, marker='o', edgecolor='k', label='Training', cmap=plt.cm.Paired)
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, marker='x', facecolor='k', label='Test', cmap=plt.cm.Paired)

# Visualizziamo il nuovo punto
plt.scatter(nuovo_punto[:, 0], nuovo_punto[:, 1], c='red', marker='*', s=200, label='Nuovo Punto', edgecolor='k')

# Troviamo ed evidenziamo i K vicini più vicini al nuovo punto
distanze, indici_vicini = knn.kneighbors(nuovo_punto)
for indice in indici_vicini[0]:
    plt.scatter(X_train[indice, 0], X_train[indice, 1], facecolors='none', edgecolors='black', s=200, linewidths=2, label='K Vicini' if indice == indici_vicini[0][0] else "")

# Impostiamo etichette e titolo del grafico
plt.xlabel('Lunghezza Sepali')
plt.ylabel('Lunghezza Petali')
plt.title(f'KNN con K={k} - Confini di Decisione')
plt.legend()
plt.grid(True)
plt.show()