## Ejercicio 5-1: Creación de un modelo de clasificación multiclase con kNN elemental

El siguiente programa de ejemplo muestra la creación y entrenamiento de un clasificador multiclase.\
Se utiliza el mismo dataset de las flores de iris, pero con todas las observaciones, de manera que es un problema de clasificación multiclase con tres clases.\
El modelo de clasificación es k-NN.\
Dado que hay dos atributos predictores, cada observación se representa mediante un punto en un espacio bidimensional.\
Para clasificar cada observación se consideran los k vecinos más cercanos.\
k es un hiperparámetro del modelo cuyo valor hay que establecer antes del proceso de entrenamiento. 
La observación se asigna a la clase más frecuente entre las k observaciones más cercanas.


In [None]:
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.inspection import DecisionBoundaryDisplay
from sklearn.model_selection import train_test_split


In [None]:
df = pd.read_csv('./data/iris.csv', names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'])

In [None]:
# X, Y

x = df.drop('class', axis=1)
y = df['class']
print(x)
print(y)

In [None]:
# Partición en datos de entrenamiento y de validación
# Si eliminamos la parte de aleatoriedad, cada vez que ejecutemos la linea se van a generar dataset con eleción de datos distintos
# esto puede generar disparidad de resultados de validación en cada ejecución (podemos hacer una prueba de varias ejecuciones con K=3)

RANDOM_SEED = 10

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=RANDOM_SEED)
#x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

print(x_train.shape,'  ',y_train.shape)


In [None]:
print('Dimensiones del dataset de entrenamiento: ',x_train.shape,'  ',y_train.shape) # filas y de columnas de las features y filas y columnas del target
print('Dimensiones del dataset de validación: ',x_test.shape, '  ',y_test.shape)     # filas y de columnas de las features y filas y columnas del target

In [None]:
# Creación de un clasificador k-NN (k=5 vecinos más cercanos)
clf = KNeighborsClassifier(n_neighbors=5)  

In [None]:
clf.fit(x_train, y_train)  # Entrenamiento del clasificador

In [None]:
# Predicción para datos de validación
y_pred = clf.predict(x_test)  
print(x_test)


In [None]:
# Tasa de aciertos con los datos de validación
acc_score = accuracy_score(y_test, y_pred)  
print('Tasa de aciertos con los datos de validación es:', acc_score)

In [None]:
 # Predicción para dataset de entrenamiento
y_pred_train = clf.predict(x_train)  

In [None]:
# Tasa de aciertos con los datos de entrenamiento
acc_score_train = accuracy_score(y_train, y_pred_train) # Tasa de aciertos para dataset de entrenamiento
print('Tasa de aciertos con los datos de entrenamiento es: ',acc_score_train)

In [46]:
# Predicción para un valor introducido por el usuario

# Definir una entrada con los valores de las características de un valor que ya tenemos
v1=5.6
v2=2.9
v3=3.6
v4=1.3
x_single = [[v1,v2,v3,v4]]  

# Crear un DataFrame con los nombres de las características, como en los datos de entrenamiento
x_single_df = pd.DataFrame(x_single,columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])

# Realizar la predicción para la entrada única
y_pred_single = clf.predict(x_single_df)

print("Predicción para la entrada:", y_pred_single)


# Definir una entrada con los valores de las características de un valor nuevo
v1=6.2
v2=2.8
v3=5.7
v4=1.9
x_single = [[v1,v2,v3,v4]] 
 

# Crear un DataFrame con los nombres de las características, como en los datos de entrenamiento
x_single_df = pd.DataFrame(x_single, columns=x_train.columns)

# Realizar la predicción para la entrada única
y_pred_single = clf.predict(x_single_df)

print("Predicción para la entrada:", y_pred_single)
  

Predicción para la entrada: ['Iris-versicolor']
Predicción para la entrada: ['Iris-virginica']


In [None]:
# Crearemos una interface gráfica desde la que solicitar datos para ofrecerselos al modelo

import tkinter as tk                   # Importa el módulo tkinter para crear interfaces gráficas
from tkinter import messagebox         # Importa messagebox para mostrar mensajes emergentes

# Crear la ventana principal
ventana = tk.Tk()                      # Inicializa la ventana principal
ventana.title("Modelo de IA para predecir la clase de flores de Iris")    # Define el título de la ventana
ventana.geometry("450x350")            # Establece el tamaño de la ventana (ancho x alto)

# Función que se ejecuta al hacer clic en el botón
def mostrar_saludo():
    v1 = float(entrada_v1.get()) # Obtiene el valor ingresado en el campo de entrada1
    v2 = float(entrada_v2.get()) # Obtiene el valor ingresado en el campo de entrada2
    v3 = float(entrada_v3.get()) # Obtiene el valor ingresado en el campo de entrada3
    v4 = float(entrada_v4.get()) # Obtiene el valor ingresado en el campo de entrada4
    x_single = [[v1,v2,v3,v4]]  

    # Crear un DataFrame con los valores tecleados
    x_single_df = pd.DataFrame(x_single,columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])

    # Realizar la predicción para la entrada única
    y_pred_single = clf.predict(x_single_df)
       
    messagebox.showinfo("La clase es...", y_pred_single)  # Muestra un mensaje de saludo en una ventana emergente
    entrada_v1.delete(0,tk.END)
    entrada_v2.delete(0,tk.END)  
    entrada_v3.delete(0,tk.END)
    entrada_v4.delete(0,tk.END)
    
# Etiqueta para solicitar el nombre
etiqueta1 = tk.Label(ventana, text="Longitud del Sépalo")  # Crea una etiqueta con el texto indicado
etiqueta2 = tk.Label(ventana, text="Ancho del Sépalo")  # Crea una etiqueta con el texto indicado
etiqueta3 = tk.Label(ventana, text="Longitud del Pétalo")  # Crea una etiqueta con el texto indicado
etiqueta4 = tk.Label(ventana, text="Ancho del Pétalo")  # Crea una etiqueta con el texto indicado
# Campo de entrada de texto para el nombre
entrada_v1 = tk.Entry(ventana) # Crea un campo de entrada donde el usuario puede escribir
entrada_v2 = tk.Entry(ventana) # Crea un campo de entrada donde el usuario puede escribir
entrada_v3 = tk.Entry(ventana) # Crea un campo de entrada donde el usuario puede escribir
entrada_v4 = tk.Entry(ventana) # Crea un campo de entrada donde el usuario puede escribir

# Agregar etiquetas a la ventana
etiqueta1.pack(pady=10) # Agrega la etiqueta a la ventana con un margen vertical de 10 píxeles
entrada_v1.pack() # Agrega el campo de entrada a la ventana principal
etiqueta2.pack(pady=10) # Agrega la etiqueta a la ventana con un margen vertical de 10 píxeles
entrada_v2.pack() # Agrega el campo de entrada a la ventana principal
etiqueta3.pack(pady=10) # Agrega la etiqueta a la ventana con un margen vertical de 10 píxeles
entrada_v3.pack() # Agrega el campo de entrada a la ventana principal
etiqueta4.pack(pady=10) # Agrega la etiqueta a la ventana con un margen vertical de 10 píxeles
entrada_v4.pack() # Agrega el campo de entrada a la ventana principal

# Botón para clacular la clase
boton = tk.Button(ventana, text="Calcular", command=mostrar_saludo)  # Crea un botón y asocia la función 'mostrar_saludo' a él
boton.pack(pady=10)  # Agrega el botón a la ventana con un margen vertical de 10 píxeles

# Llamar al modelo con los datos leidos

# Ejecutar el bucle de la aplicación
ventana.mainloop() # Inicia el bucle principal de la ventana para mantenerla abierta


### Ejercicio:
Obtener la tasa de acierto validación-entrenamiento con K=1, K=3, K=5 y K=7 y determinar con qué valor de este hiperparametro es más adecuado entrenar.

### ----------------------------

## Análisis de resultados

### En general, es ideal que la tasa de acierto con el conjunto de validación sea similar a la obtenida con el conjunto de entrenamiento. 
La relación entre ambas tasas puede darnos pistas sobre el rendimiento y el ajuste del modelo:

### 1. Tasa de acierto en validación similar a la de entrenamiento (ideal)
Si la tasa de acierto en el conjunto de validación es similar a la de entrenamiento, esto indica que el modelo ha encontrado un buen equilibrio. Ha aprendido los patrones presentes en los datos de entrenamiento sin sobreajustarse, y es capaz de generalizar esos patrones a datos no vistos.
Este es el escenario ideal y generalmente indica un modelo bien ajustado. La diferencia entre ambas tasas suele ser pequeña (por ejemplo, de 1-2 puntos porcentuales o menos), lo cual es natural debido a la variabilidad entre los datos de entrenamiento y de validación.

### 2. Tasa de acierto en validación significativamente menor que en entrenamiento (indica sobreajuste)
Si la tasa de acierto en el conjunto de validación es significativamente menor que en el conjunto de entrenamiento, esto sugiere que el modelo está sobreajustado. Ha memorizado patrones específicos del conjunto de entrenamiento pero no generaliza bien a nuevos datos.

Para mejorar la generalización en este caso, se puede aumentar la cantidad de datos.

### 3. Tasa de acierto en validación superior a la de entrenamiento (raro, potencialmente problemático)
Si la tasa de acierto en el conjunto de validación es mayor que en el de entrenamiento, es un caso inusual y puede indicar problemas en la partición de los datos o una dependencia indirecta del conjunto de validación durante el entrenamiento.
Este resultado puede ocurrir cuando el conjunto de validación contiene ejemplos más sencillos o menos representativos que los de entrenamiento, o si el conjunto de validación se utilizó de alguna forma para ajustar el modelo (lo cual debe evitarse).
Si ocurre este caso, es recomendable revisar la forma en que se dividieron los datos.

### Resumen
Lo ideal es que la tasa de acierto en el conjunto de validación sea cercana a la del entrenamiento. Esto indica un modelo bien ajustado y que generaliza adecuadamente. Una diferencia significativa hacia abajo indica sobreajuste, mientras que una diferencia hacia arriba es rara y generalmente sugiere problemas en la evaluación.






