# Algoritmo Clasificación KNN

A continuación, se dará el código en JupyterNotebook para el algoritmo de clasificación en KNN.

In [None]:
# importar librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

1. **`pandas as pd`:** Importa la librería Pandas para manejo de datos.
2. **`numpy as np`:** Importa la librería NumPy para operaciones matemáticas
3. **`matplotlib.pyplot as plt`:** Importa la librería Matplotlib para la creación de gráficos (opcional en este caso).
4. **`from sklearn.metrics import confusion_matrix`:** Importa la función confusion_matrix de scikit-learn para crear la matriz de confusión.
5. **`from sklearn.model_selection import train_test_split`:** Importa la función train_test_split de scikit-learn para dividir datos en entrenamiento y prueba.
6. **`from sklearn.preprocessing import StandardScaler`:** Importa la clase StandardScaler de scikit-learn para el escalado de características.
7. **`from sklearn.neighbors import KNeighborsClassifier`:** Importa la clase KNeighborsClassifier de scikit-learn para la clasificac KNN.
KNN.

In [None]:
# reading dataset
dataset = pd.read_csv("user+data.csv")
x = dataset.iloc[:, 2:4].values
y = dataset.iloc[:, 4].values
dataset

1. **`dataset = pd.read_csv("user+data.csv")`:** Lee el dataset "user+data.csv" en un DataFrame de Pandas.
2. **`x = dataset.iloc[:, 2:4].values`:** Extrae las características independientes (columnas del 2 al 3 excluyendo la última) del DataFrame y las convierte en un array NumPy, almacenándolas en x.
3. **`y = dataset.iloc[:, 4].values`:** Extrae la variable dependiente (quinta columna) del DataFrame y la convierte en un array NumPy, almacenándola en y.
4. **`dataset`:** Muestra el DataFrame completo para una vista previa de los datos.

In [None]:
print(x)

print(x): Imprime las características independientes.

In [None]:
print(y)

print(y): Imprime la variable dependiente.

In [None]:
# Datos de entrenamiento y de prueba
# (Datos divididos en dos partes)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.25, random_state = 0)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.25, random_state = 0): Divide las características (x) y la variable dependiente (y) en conjuntos de entrenamiento (75%) y prueba (25%) usando random_state=0 para garantizar la reproducibilidad de la división.

In [None]:
sc_x = StandardScaler()
x_train = sc_x.fit_transform(x_train)
x_test = sc_x.fit_transform(x_test)

1. **`sc_x = StandardScaler()`:** Crea un objeto `StandardScaler` para el escalado de características.
2. **`x_train = sc_x.fit_transform(x_train)`:** Escala las características del conjunto de entrenamiento y las almacena en `x_train`.
3. **`x_test = sc_x.transform(x_test)`:** Escala las características del conjunto de prueba usando el mismo escalador `sc_x` y las almacena en `x_test`.

In [None]:
print(x_train)

print(x_train): Imprime las características entrenadas escaladas (opcional).

In [None]:
print(x_test)

print(x_test): Imprime las características de prueba escaladas (opcional).

In [None]:
classifier = KNeighborsClassifier(n_neighbors = 5, metric = "minkowski", p = 2)
classifier.fit(x_train, y_train) 

1. **`classifier = KNeighborsClassifier(n_neighbors = 5, metric = "minkowski", p = 2)`:** Crea un objeto clasificador KNN con los siguientes parámetros:
2. **`n_neighbors = 5`:** Especifica que se considerarán 5 vecinos más cercanos para la clasificación.
3. **`metric = "minkowski"`:** Indica que se utilizará la distancia Minkowski para calcular la distancia entre puntos.
4. **`p = 2`:** Define el valor de `p` para la distancia Minkowski (distancia euclidiana en este caso).
5. **`classifier.fit(x_train, y_train)`:** Entrena el clasificador KNN utilizando los datos de entrenamiento (`x_train` y `y_train`).

In [None]:
y_pred = classifier.predict(x_test)

# Creando matriz de confusion (error)
cm = confusion_matrix(y_pred, y_test)
print(cm)

1. **`y_pred = classifier.predict(x_test)`:** Utiliza el modelo entrenado para realizar predicciones sobre las características del conjunto de prueba (`x_test`) y almacena las predicciones en `y_pred`.
2. **`cm = confusion_matrix(y_pred, y_test)`:** Crea una matriz de confusión utilizando las predicciones (`y_pred`) y las etiquetas reales (`y_test`).
3. **`print(cm)`:** Imprime la matriz de confusión, la cual muestra el número de aciertos y errores en la clasificación.
    - **Fila 1 = Verdaderos** (64 verdaderos, 3 falsos)
    - **Fila 2 = Falsos** (4 verdaderos, 29 falsos)
        - 64 + 29 = 93
        - 3 + 4 = 7
        - 93 aciertos
        - 7 errores