# K-Nearest Neighbors
L'algoritmo K-Nearest Neighbors (K-NN) è un semplice algoritmo di apprendimento supervisionato utilizzato per la classificazione e la regressione. Ecco come funziona:

## K-Nearest Neighbors per la Classificazione:
1. Dati di Addestramento --> Si inizia con un set di dati di addestramento che contiene esempi etichettati con le loro classi.
1. Scelta del Numero di Vicini (K) --> Si sceglie un numero, indicato con K, che rappresenta il numero di vicini più prossimi che influenzeranno la previsione.
1. Calcolo della Distanza --> Per ogni punto nel set di test, calcoliamo la sua distanza rispetto a tutti i punti nel set di addestramento. La distanza può essere calcolata utilizzando diverse metriche, come la distanza euclidea o la distanza di Minkowski.
1. Selezione dei K Vicini più Prossimi --> Identifichiamo i K punti nel set di addestramento che sono più vicini al punto di test basandoci sulle distanze calcolate.
1. Voto a Maggioranza per la Classificazione --> Per la classificazione, attribuiamo all'istanza di test la classe che è più comune tra i suoi K vicini più prossimi.

## K-Nearest Neighbors per la Regressione:
1. Dati di Addestramento --> Ancora una volta, iniziamo con un set di dati di addestramento contenente esempi etichettati con i loro valori target.
1. Scelta del Numero di Vicini (K) --> Si sceglie un numero, indicato con K, che rappresenta il numero di vicini più prossimi che influenzeranno la previsione.
1. Calcolo della Distanza --> Per ogni punto nel set di test, calcoliamo la sua distanza rispetto a tutti i punti nel set di addestramento.
1. Selezione dei K Vicini più Prossimi --> Identifichiamo i K punti nel set di addestramento che sono più vicini al punto di test basandoci sulle distanze calcolate.
1. Media o Mediana dei Valori Target per la Regressione -->Per la regressione, prediciamo il valore target dell'istanza di test calcolando la media (o la mediana) dei valori target dei suoi K vicini più prossimi.

# Considerazioni Importanti:
- La scelta del parametro K è cruciale e può influenzare le prestazioni del modello.
- La distanza tra i punti può essere misurata in diverse modalità, come la distanza euclidea o altre metriche, a seconda del contesto del problema.
- K-NN può essere sensibile alla scala delle variabili, quindi spesso è buona pratica standardizzare le feature.
- K-NN è computazionalmente costoso, specialmente su grandi set di dati, poiché richiede il calcolo delle distanze per ogni punto di test rispetto a tutti i punti di addestramento.

In [17]:
# Importiamo librerie
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import confusion_matrix

In [3]:
# Prendiamo in input i dati
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

Il dataset fornito utilizza l'algoritmo K-Nearest Neighbors (K-NN) per **risolvere** un problema di previsione di acquisti ("Purchased" indica se un utente ha effettuato un acquisto o meno). L'obiettivo potrebbe essere quello di creare un modello che, basandosi su "Age" e "EstimatedSalary", preveda se un utente effettuerà o meno un acquisto.

In [24]:
print (dataset)

      User ID  Gender  Age  EstimatedSalary  Purchased
0    15624510    Male   19            19000          0
1    15810944    Male   35            20000          0
2    15668575  Female   26            43000          0
3    15603246  Female   27            57000          0
4    15804002    Male   19            76000          0
..        ...     ...  ...              ...        ...
395  15691863  Female   46            41000          1
396  15706071    Male   51            23000          1
397  15654296  Female   50            20000          1
398  15755018    Male   36            33000          0
399  15594041  Female   49            36000          1

[400 rows x 5 columns]


In [6]:
# I dati vengono divisi in un set di addestramento e un set di test utilizzando la funzione train_test_split di scikit-learn.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

In [8]:
# Le caratteristiche del set di addestramento vengono standardizzate utilizzando la StandardScaler di scikit-learn.
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [12]:
# Viene creato un classificatore K-NN con n_neighbors = 5 (utilizza i 5 vicini più prossimi), metric = 'minkowski' (usa la distanza di Minkowski) e p = 2 (usa la distanza euclidea).
classifier = KNeighborsClassifier(n_neighbors=5, metric='minkowski', p=2)
classifier.fit(X_train, y_train)

KNeighborsClassifier()

In [15]:
# I risultati del set di test vengono previsti utilizzando il modello K-NN.
y_pred = classifier.predict(X_test)

In [18]:
# Viene utilizzata la matrice di confusione per valutare le prestazioni del modello.
cm = confusion_matrix(y_test, y_pred)

In [25]:
# Stampa della matrice di confusione
print("Matrice di Confusione:")
print(cm)

# Calcolo dell'accuratezza
accuracy = (cm[0, 0] + cm[1, 1]) / np.sum(cm)
print("\nAccuratezza:", accuracy)

# Altre metriche di valutazione
from sklearn.metrics import classification_report
print("\nReport di Classificazione:")
print(classification_report(y_test, y_pred))

Matrice di Confusione:
[[64  4]
 [ 3 29]]

Accuratezza: 0.93

Report di Classificazione:
              precision    recall  f1-score   support

           0       0.96      0.94      0.95        68
           1       0.88      0.91      0.89        32

    accuracy                           0.93       100
   macro avg       0.92      0.92      0.92       100
weighted avg       0.93      0.93      0.93       100



# Ecco come interpretare i risultati ottenuti:

## Matrice di Confusione:

### La matrice di confusione mostra:
- 64 veri negativi (True Negatives) --> casi in cui il modello ha correttamente previsto che la classe è 0.
- 29 veri positivi (True Positives) --> casi in cui il modello ha correttamente previsto che la classe è 1.
- 4 falsi positivi (False Positives) --> casi in cui il modello ha erroneamente previsto che la classe è 1 quando in realtà è 0.
- 3 falsi negativi (False Negatives) --> casi in cui il modello ha erroneamente previsto che la classe è 0 quando in realtà è 1.

### Accuratezza:

L'accuratezza è il rapporto tra il numero totale di previsioni corrette e il numero totale di previsioni. In questo caso, l'accuratezza è 0.93 o 93%, il che indica che il 93% delle previsioni del modello è corretto.

### Report di Classificazione:

Il report di classificazione fornisce altre metriche di valutazione per ciascuna classe:
- Precision: la percentuale di previsioni positive corrette rispetto al totale delle previsioni positive.
- Recall: la percentuale di istanze positive correttamente previste rispetto al totale delle istanze positive.
- F1-score: una media ponderata di precision e recall.
- Support: il numero di istanze nella classe di test.

### Conclusioni:

Il modello sembra avere prestazioni generalmente buone con un'accuratezza del 93%. La precisione, il recall e l'F1-score sono anche forniti per ciascuna classe, fornendo una visione più dettagliata delle prestazioni del modello per le classi 0 e 1.
In generale, l'analisi della matrice di confusione e del report di classificazione è fondamentale per capire come il tuo modello si comporta su diverse classi e per identificare eventuali aree di miglioramento.