# KNN: K-Nearest Neighbors

En este notebooks, vamos a implementar el algoritmo de clasificación de K vecinos más cercanos usando la libreria Scikit-learn. Además, vamos a evaluar los resultados obtenidos para distintos valores del hiperparámetro k (número de vecinos).

## 1. Clasificación en el dataset IRIS

Para comenzar, vamos a trabajar con un dataset que ya conocemos, el de IRIS.

### 1.1 Cargar el dataset

Primero cargamos las librerias y el dataset que vamos a usar (el cual en este caso lo traemos desde la libreria Seaborn). Separamos el dataset entre features, `X`, y labels `y`.

In [2]:
import pandas as pd
import seaborn as sns

#iris = pd.read_csv("../DataSets/iris_dataset.csv")
iris = sns.load_dataset('iris')

# Inspeccion del DataSet

In [3]:
print(iris.info())
print(iris.describe(include='all'))
print(iris.groupby(by="species").size())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB
None
        sepal_length  sepal_width  petal_length  petal_width species
count     150.000000   150.000000    150.000000   150.000000     150
unique           NaN          NaN           NaN          NaN       3
top              NaN          NaN           NaN          NaN  setosa
freq             NaN          NaN           NaN          NaN      50
mean        5.843333     3.057333      3.758000     1.199333     NaN
std         0.828066     0.435866      1.765298     0.762238     NaN
min         4.300000     2.000000      1.000000     0.1

Concluimos que el dataSet esta valanciado en clasificación

# asignamos valor a la x , y

In [4]:
x=iris.drop("species",axis=1)
y=iris["species"]

# Entrenamiento

In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.1, stratify=y, random_state=42)


In [11]:
print(pd.DataFrame(X_train).describe())
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_trainScaler = scaler.transform(X_train)
X_testScaler = scaler.transform(X_test)
print("Con Escala*****************************************")
print(pd.DataFrame(X_trainScaler,columns=X_train.columns).describe())

       sepal_length  sepal_width  petal_length  petal_width
count    135.000000   135.000000    135.000000   135.000000
mean       5.829630     3.057037      3.751111     1.205185
std        0.825171     0.444626      1.756517     0.766687
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.700000     3.000000      4.300000     1.300000
75%        6.350000     3.350000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000
Con Escala*****************************************
       sepal_length   sepal_width  petal_length   petal_width
count  1.350000e+02  1.350000e+02  1.350000e+02  1.350000e+02
mean  -3.421132e-16  5.592234e-16  1.513193e-16  8.552829e-17
std    1.003724e+00  1.003724e+00  1.003724e+00  1.003724e+00
min   -1.860617e+00 -2.386214e+00 -1.572064e+00 -1.446877e+00
25%   -8.875099e-01 -5.802497e-01 -1.229207e+00 -1.185042e+00
50%   -1.576794e-01 -1.287586e-01  3

 # Entrenar el modelo KNN

In [7]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3) 
knn.fit(X_trainScaler, y_train)

# Predecir

In [8]:
from sklearn.metrics import accuracy_score, classification_report
y_pred = knn.predict(X_test)
print("Precisión:", accuracy_score(y_test, y_pred))
print("\nReporte de clasificación:\n", classification_report(y_test, y_pred))

Precisión: 0.3333333333333333

Reporte de clasificación:
               precision    recall  f1-score   support

      setosa       0.00      0.00      0.00         5
  versicolor       0.00      0.00      0.00         5
   virginica       0.33      1.00      0.50         5

    accuracy                           0.33        15
   macro avg       0.11      0.33      0.17        15
weighted avg       0.11      0.33      0.17        15



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [9]:

nueva_flower = [[5.1, 3.5, 1.4, 0.2]]
nueva_flower_escalada = scaler.transform(nueva_flower)
prediccion = knn.predict(nueva_flower_escalada)
print("Especie predicha:",prediccion[0])

Especie predicha: setosa




Elegir Hiperparametor Correcto

In [10]:
lista_accuracy_train = []
lista_accuracy_test = []
k_vecinos = [1,2,3,4,5,6,7,8,9,10,15,20,25,30,35,40]

for k in k_vecinos:
    clf = KNeighborsClassifier(n_neighbors=k)
    clf.fit(X_train, y_train)
    y_train_pred = clf.predict(X_train)
    train_acc = accuracy_score(y_train, y_train_pred)
    y_test_pred = clf.predict(X_test)
    test_acc = accuracy_score(y_test, y_test_pred)
    lista_accuracy_train.append(train_acc)
    lista_accuracy_test.append(test_acc)

print("Precisión en entrenamiento para cada k:")
for k, acc in zip(k_vecinos, lista_accuracy_train):
    print(f"k={k}: {acc:.4f}")
print("\nPrecisión en prueba para cada k:")
for k, acc in zip(k_vecinos, lista_accuracy_test):
    print(f"k={k}: {acc:.4f}")
mejor_accuracy = max(lista_accuracy_test)
indice_mejor = lista_accuracy_test.index(mejor_accuracy)
mejor_k = k_vecinos[indice_mejor]

print(f"\nEl mejor valor de k fue: {mejor_k} con una precisión de prueba de: {mejor_accuracy:.4f}")


Precisión en entrenamiento para cada k:
k=1: 1.0000
k=2: 0.9778
k=3: 0.9556
k=4: 0.9556
k=5: 0.9630
k=6: 0.9704
k=7: 0.9704
k=8: 0.9778
k=9: 0.9778
k=10: 0.9778
k=15: 0.9852
k=20: 0.9852
k=25: 0.9704
k=30: 0.9556
k=35: 0.9481
k=40: 0.9556

Precisión en prueba para cada k:
k=1: 1.0000
k=2: 0.9333
k=3: 1.0000
k=4: 1.0000
k=5: 1.0000
k=6: 1.0000
k=7: 1.0000
k=8: 1.0000
k=9: 1.0000
k=10: 1.0000
k=15: 0.9333
k=20: 0.9333
k=25: 0.9333
k=30: 0.9333
k=35: 0.9333
k=40: 0.9333

El mejor valor de k fue: 1 con una precisión de prueba de: 1.0000
