# Clasificación de IRIS con k-vecinos más cercanos (kNN)

## Objetivo
Aplicar el algoritmo de aprendizaje supervisado k-vecinos más cercanos (kNN) al conjunto de datos IRIS, desarrollando un proceso completo de clasificación que incluya: análisis exploratorio, preparación de datos, entrenamiento, evaluación del modelo y visualización de resultados.

## Cargamos la base de datos de IRIS

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# crear directorio para guardar figuras
os.makedirs('out', exist_ok=True)

# cargar el dataset IRIS
iris = pd.read_csv('iris.csv')

## Análisis Exploratorio de Datos

In [None]:
# Mostramos las primeras 5 filas de la base de datos
iris.head()

In [None]:
# Mostramos las últimas 5 filas de la base de datos
iris.tail()

In [None]:
# Mostramos la información de la base de datos
iris.info()

In [None]:
# Mostramos la descripción estadística de la base de datos 'iris'
iris.describe()

## Preprocesamiento de datos

In [None]:
# Eliminamos la columna 'Id' de la base de datos 'iris'
iris = iris.drop('Id', axis=1)
iris.head()

## Visualización de Datos

### Comparamos las variables 'Sepal Length' y 'Sepal Width'

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(x='SepalLengthCm', y='SepalWidthCm', hue='Species', data=iris)
plt.title('Relación entre Longitud y Ancho del Sépalo')
plt.savefig('out/sepal_scatter.png', dpi=300, bbox_inches='tight')
plt.show()

### Comparamos las variables 'Petal Length' y 'Petal Width'

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(x='PetalLengthCm', y='PetalWidthCm', hue='Species', data=iris)
plt.title('Relación entre Longitud y Ancho del Pétalo')
plt.savefig('out/petal_scatter.png', dpi=300, bbox_inches='tight')
plt.show()

### Graficamos las relaciones de todas las columnas

In [None]:
# Visualizamos la relación entre las características
g = sns.pairplot(iris, hue='Species')
g.savefig('out/pairplot_iris.png', dpi=300, bbox_inches='tight')
plt.show()

## Modelado

### Aislamos las variables predictoras

In [None]:
# Aislamos las variables predictoras
X = iris.drop('Species', axis=1)
X.head()

### Aislamos la variable objetivo

In [None]:
# Aislamos la variable objetivo
y = iris['Species']
y.head()

### Dividimos los datos en sub datasets para entrenamiento y prueba

In [None]:
# Dividimos la base de datos en entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Entrenamiento: {len(X_train)} muestras")
print(f"Prueba: {len(X_test)} muestras")

### Entrenamos el clasificador k-NN

In [None]:
# Importamos el modelo k-Nearest Neighbors
from sklearn.neighbors import KNeighborsClassifier

# Creamos el modelo K-Nearest Neighbors
classifier = KNeighborsClassifier(n_neighbors=5)

# Entrenamos el modelo
classifier.fit(X_train, y_train)

In [None]:
# Realizamos la predicción en los datos de X_test
y_pred = classifier.predict(X_test)
y_pred

## Evaluación del modelo

In [None]:
# Importamos la métrica de precisión
from sklearn.metrics import accuracy_score

# Calculamos la precisión del modelo
acc = accuracy_score(y_test, y_pred)
print("Precisión del modelo:", acc)

## Matriz de Confusión

In [None]:
# Importamos la matriz de confusión
from sklearn.metrics import confusion_matrix

# Calculamos la matriz de confusión con los nombres de las especies
cf_matrix = confusion_matrix(y_test, y_pred)

# Visualizamos la matriz de confusión con los nombres de las especies de IRIS
plt.figure(figsize=(8, 6))
sns.heatmap(cf_matrix, annot=True, fmt='d', xticklabels=iris['Species'].unique(), yticklabels=iris['Species'].unique(), cmap='Blues')
plt.title('Matriz de Confusión - Modelo k-NN')
plt.ylabel('Valores Reales')
plt.xlabel('Predicciones')
plt.savefig('out/confusion_matrix.png', dpi=300, bbox_inches='tight')
plt.show()

## Experimentación con diferentes valores de k

In [None]:
# Probamos diferentes valores de k
k_values = range(1, 16)
accuracies = []

print("Precisión por valor de k:")
for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred_k = knn.predict(X_test)
    acc_k = accuracy_score(y_test, y_pred_k)
    accuracies.append(acc_k)
    print(f"k={k}: {acc_k:.4f} ({acc_k*100:.1f}%)")

# Visualizamos los resultados
plt.figure(figsize=(10, 6))
plt.plot(k_values, accuracies, marker='o', linewidth=2, markersize=6)
plt.title('Precisión del modelo k-NN para diferentes valores de k')
plt.xlabel('Valor de k')
plt.ylabel('Precisión')
plt.grid(True, alpha=0.3)
plt.xticks(k_values)
plt.savefig('out/k_values_comparison.png', dpi=300, bbox_inches='tight')
plt.show()

# Encontramos el mejor k
best_k = k_values[accuracies.index(max(accuracies))]
best_acc = max(accuracies)
print(f"\nMejor valor de k: {best_k} con precisión de {best_acc:.4f} ({best_acc*100:.1f}%)")