# K-NN

K-Nearest Neighbors, es un algoritmo de aprendizaje automático supervisado que se utiliza para clasificar datos. K-NN funciona buscando los *k* puntos de datos más cercanos a un nuevo punto de datos y luego asigna el nuevo punto de datos a la clase más común de esos *k* puntos de datos.

K-NN es adecuado en situaciones donde:

- **Estructura local importante**: Se espera que las instancias similares estén cerca unas de otras en el espacio de características.
- **Conjuntos de datos pequeños o medianos**: Es eficaz con conjuntos de datos de este tamaño, ya que el tiempo de búsqueda de vecinos puede volverse prohibitivo en conjuntos de datos muy grandes.

![KNN](https://media.geeksforgeeks.org/wp-content/uploads/20200616145419/Untitled2781.png)

#### Ventajas y desventajas

**Ventajas**

1. **Simple e intuitivo**.
2. **No requiere entrenamiento**: No tiene una fase de entrenamiento explícita; simplemente almacena los datos de entrenamiento.

**Desventajas**

1. **Sensibilidad a la escala**: Es sensible a la escala de las características, por lo que la normalización puede ser necesaria.
2. **Alto costo computacional en predicciones**: La búsqueda de vecinos más cercanos puede ser costosa computacionalmente, especialmente en conjuntos de datos grandes.
3. **Impacto de características irrelevantes**.

In [None]:
data = pd.read_csv('/content/sample_data/Social_Network_Ads.csv')
data.head()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0


In [None]:
X = data.iloc[:, [2, 3]]
y = data.iloc[:, -1].values

In [None]:
gender = data[['Gender']]


In [None]:
from sklearn.preprocessing import OneHotEncoder
cat_encoder = OneHotEncoder()
data_cat_1hot = cat_encoder.fit_transform(gender)

In [None]:
encoded_df = pd.DataFrame(data_cat_1hot.toarray(), columns = cat_encoder.get_feature_names_out())
encoded_df.head()

Unnamed: 0,Gender_Female,Gender_Male
0,0.0,1.0
1,0.0,1.0
2,1.0,0.0
3,1.0,0.0
4,0.0,1.0


In [None]:
data1 = pd.concat([X, encoded_df], axis=1)
data1.head()

Unnamed: 0,Age,EstimatedSalary,Gender_Female,Gender_Male
0,19,19000,0.0,1.0
1,35,20000,0.0,1.0
2,26,43000,1.0,0.0
3,27,57000,1.0,0.0
4,19,76000,0.0,1.0


In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data1, y, test_size=0.2, random_state=0)

In [None]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(metric='minkowski', p=1)
knn.fit(X_train, y_train)

In [None]:
y_pred = knn.predict(X_test)

In [None]:
print('Reales:', y_test[:10], 'Predicción:', y_pred[:10])

Reales: [0 0 0 0 0 0 0 1 0 0] Predicción: [0 0 0 0 0 0 0 1 0 1]


|||
|--|--|
|TN|FP|
|FN|TP|

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred)

array([[55,  3],
       [ 1, 21]])

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score
print('Precisión:', precision_score(y_test, y_pred))
print('Memoria:', recall_score(y_test, y_pred))
print('F1_score:', f1_score(y_test, y_pred))

Precisión: 0.875
Memoria: 0.9545454545454546
F1_score: 0.9130434782608695
