**Ejercicio 1**

En este ejercicio se trabajará con **convoluciones**, operaciones fundamentales en procesamiento de imágenes y visión por computadora. Aunque nunca se haya trabajado con imágenes, los conceptos son accesibles para alguien con conocimientos de programación.

---

*¿Qué es una convolución?*


La **convolución** es una operación matemática que permite transformar una imagen para **resaltar ciertas características**, como bordes, esquinas o texturas.  

- Una **imagen** puede considerarse como una **matriz de números**, donde cada número representa la intensidad de un píxel (en blanco y negro) o un color (en imágenes a color). En este caso, vamos a trabajar solo con imágenes en escala de grises, por lo que la imágen es una matriz 2D donde cada pixel es una celda, con un valor entre 0 y 255 que representa su color. 
- Un **kernel** (o filtro) es otra matriz de números, de menor tamaño, que se utiliza para "transformar" la imagen original.  

El procedimiento de la convolución consiste en:

1. Colocar el kernel sobre una sección de la imagen.  
2. Multiplicar cada número del kernel por el número correspondiente de la imagen.  
3. Sumar todos los resultados.  
4. Colocar ese número en la posición central de la imagen de salida.  
5. Repetir el proceso desplazando el kernel sobre toda la imagen.  

En otras palabras, el kernel “desliza” sobre la imagen y calcula **una combinación ponderada de los píxeles vecinos**.  

Puede ver este video corto para entender mejor la operación: [Video de convolución](https://www.youtube.com/shorts/-D5yuIHciO0).

Esta página interactiva muestra cómo moviendo su cursor sobre la imágen, se ve el resultado de aplicar una convolución con cierto kernel a una zona de la imágen: [Setosa](https://setosa.io/ev/image-kernels/)

---

*Matemáticamente*


Sea $I$ la imagen original, con píxeles $p_{fila,columna}$, y $K$ el kernel, con valores $k_{fila,columna}$:

$$
I =
\begin{bmatrix}
p_{0,0} & p_{0,1} & \cdots & p_{0,m} \\
p_{1,0} & p_{1,1} & \cdots & p_{1,m} \\
\vdots & \vdots & \ddots & \vdots \\
p_{n,0} & p_{n,1} & \cdots & p_{n,m}
\end{bmatrix}, \quad
K =
\begin{bmatrix}
k_{0,0} & k_{0,1} & k_{0,2} \\
k_{1,0} & k_{1,1} & k_{1,2} \\
k_{2,0} & k_{2,1} & k_{2,2}
\end{bmatrix}
$$

Se inicia recorriendo cada pixel $p$ de la imagen original, que es equivalente a recorrer una matriz. Para cada pixel primero se verifica si es un borde. Si es un borde, simplemente se ignora la iteración actual. Si no es un borde, se hace la convolución con el kernel para la región con centro en el píxel $p$ en la posición (i,j), es decir $p_{i,j}$. Para ello, se obtiene la submatriz $V$ 3x3, que representa el vecindario de pixeles de  $p_{i,j}$ en la imagen:

$$
V \text{(submatriz 3x3 centrada en } p_{i,j}):
\quad
\begin{bmatrix}
p_{i-1,j-1} & p_{i-1,j} & p_{i-1,j+1} \\
p_{i,j-1} & p_{i,j} & p_{i,j+1} \\
p_{i+1,j-1} & p_{i+1,j} & p_{i+1,j+1}
\end{bmatrix}
$$

La convolución resultante para la posición para esa posición de pixel consiste en: multiplicar cada elemento del vecindario por el elemento correspondiente del kernel, y luego sumar todos los resultados:


\begin{align*}
V * K = \;&
\underbrace{p_{i-1,j-1} k_{0,0}}_{\text{arriba izquierda}} +
\underbrace{p_{i-1,j} k_{0,1}}_{\text{arriba centro}} +
\underbrace{p_{i-1,j+1} k_{0,2}}_{\text{arriba derecha}} \\
& + \underbrace{p_{i,j-1} k_{1,0}}_{\text{medio izquierda}} +
\underbrace{p_{i,j} k_{1,1}}_{\text{centro}} +
\underbrace{p_{i,j+1} k_{1,2}}_{\text{medio derecha}} \\
& + \underbrace{p_{i+1,j-1} k_{2,0}}_{\text{abajo izquierda}} +
\underbrace{p_{i+1,j} k_{2,1}}_{\text{abajo centro}} +
\underbrace{p_{i+1,j+1} k_{2,2}}_{\text{abajo derecha}}
\end{align*}

De manera más compacta, podemos escribir $V * K \text{ como } sum(V \odot K)$ donde $\odot$ indica multiplicación elemento a elemento seguida de la suma de todos los elementos.

Note que:

$$
V \odot K =
\begin{bmatrix}
p_{i-1,j-1} & p_{i-1,j} & p_{i-1,j+1} \\
p_{i,j-1} & p_{i,j} & p_{i,j+1} \\
p_{i+1,j-1} & p_{i+1,j} & p_{i+1,j+1}
\end{bmatrix}
\odot
\begin{bmatrix}
k_{0,0} & k_{0,1} & k_{0,2} \\
k_{1,0} & k_{1,1} & k_{1,2} \\
k_{2,0} & k_{2,1} & k_{2,2}
\end{bmatrix}
$$

$$
= \begin{bmatrix}
p_{i-1,j-1} k_{0,0} & p_{i-1,j} k_{0,1} & p_{i-1,j+1} k_{0,2} \\
p_{i,j-1} k_{1,0} & p_{i,j} k_{1,1} & p_{i,j+1} k_{1,2} \\
p_{i+1,j-1} k_{2,0} & p_{i+1,j} k_{2,1} & p_{i+1,j+1} k_{2,2}
\end{bmatrix}
$$

Finalmente, sumando todos los elementos obtenemos $sum(V \odot K)$:

\begin{align*}
V * K = \;&
\underbrace{p_{i-1,j-1} k_{0,0}}_{\text{arriba izquierda}} +
\underbrace{p_{i-1,j} k_{0,1}}_{\text{arriba centro}} +
\underbrace{p_{i-1,j+1} k_{0,2}}_{\text{arriba derecha}} \\
& + \underbrace{p_{i,j-1} k_{1,0}}_{\text{medio izquierda}} +
\underbrace{p_{i,j} k_{1,1}}_{\text{centro}} +
\underbrace{p_{i,j+1} k_{1,2}}_{\text{medio derecha}} \\
& + \underbrace{p_{i+1,j-1} k_{2,0}}_{\text{abajo izquierda}} +
\underbrace{p_{i+1,j} k_{2,1}}_{\text{abajo centro}} +
\underbrace{p_{i+1,j+1} k_{2,2}}_{\text{abajo derecha}}
\end{align*}


---

*Ejemplo de aplicación*

En los **vehículos autónomos**, las convoluciones se utilizan para detectar objetos, como peatones, automóviles o semáforos.  
- Cada filtro resalta diferentes características (bordes, texturas, colores).  
- Las redes neuronales utilizan estos patrones para interpretar la escena y tomar decisiones.

Puede ver el siguiente video para ver cómo las convoluciones ayudan en la conducción autónoma. Note que cada color separa a una entidad de cierto tipo, como personas, carros, semáforos, vegetación, etc: [Video de conducción autónoma](https://www.youtube.com/shorts/11SVfSAsaHo).


---

*Kernel Sobel vertical*

En este ejercicio se utilizará el **kernel de Sobel vertical**, que permite **detectar bordes verticales**. Su matriz es:

```python
[[-1, 0, 1],
[-2, 0, 2],
[-1, 0, 1]]
```

- Al aplicarlo, las zonas de la imagen con bordes verticales aparecerán más intensas en la imagen resultante.

Este es un ejemplo de aplicar una convolución sobre una imagen, usando el kernel de sobel vertical:


| Imagen original | Después de aplicar convolución con Sobel vertical |
|-----------------|----------------|
| <img src="https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/10_computacion_numerica/imgs/capybara.png" height="350px"> | <img src="https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/10_computacion_numerica/imgs/capybara-sobel.png" height="350px"> |

*Pasos del ejercicio*

Abajo se le proporcionan varias funciones ya hechas para:
1. Leer una imagen desde su computadora y cargarla en colab. Puede utilizar esta imagen para probar si su algoritmo está correcto: [Imagen de capybara](https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/10_computacion_numerica/imgs/capybara.png).
2. Mostrar una imágen.
3. Normalizar una imágen (hay que hacer que los valores de los pixeles resultantes de la convolución estén entre 0 y 255).

Ya hay una celda de código que llama a todas estas funciones en orden para dejarla lista para ser procesada por un algoritmo de convolución.

Existe una función de convolución que debería realizar la convolución entre una imágen y un kernel. Su trabajo es hacer el código que implementa el algoritmo de convolución dentro de esta función.

---

In [None]:
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
from google.colab import files
import io


def main():
    # Leer la imagen como un np.ndarray
    img = leer_imagen()
    # Mostrar la imagen original
    mostrar_imagen(img, titulo="Imagen original")

    # Aplicar el filtro de Sobel vertical
    kernel_sobel_v = np.array(
        [[-1, 0, 1],
        [-2, 0, 2],
        [-1, 0, 1]]
    )
    # Aplicar la convolución. Esta es la función que debe implementar.
    img_sobel = convolucion2d(img, kernel_sobel_v)
    # Normalizar la imagen resultante
    img_sobel = normalizar(img_sobel)

    # Mostrar la imagen con el filtro aplicado
    mostrar_imagen(img_sobel, "Sobel vertical")
    
def leer_imagen() -> np.ndarray:
    """
    Permite al usuario subir una imagen desde su computadora en Colab y la retorna como un arreglo numpy en escala de grises.

    Returns:
        np.ndarray: Arreglo numpy que representa la imagen en escala de grises.
    """
    uploaded = files.upload()
    if not uploaded:
        print("No se subió ninguna imagen.")
        return None
    file_name = next(iter(uploaded))
    img = Image.open(io.BytesIO(uploaded[file_name])).convert('L')  # Escala de grises
    return np.array(img)

def mostrar_imagen(img: np.ndarray, titulo="Imagen") -> None:
    """
    Muestra una imagen en formato numpy usando matplotlib.

    Args:
        img (np.ndarray): Arreglo numpy que representa la imagen.
        titulo (str): Título de la imagen.

    Returns:
        None
    """
    plt.imshow(img, cmap='gray')
    plt.title(titulo)
    plt.axis('off')
    plt.show()

def normalizar(img: np.ndarray) -> np.ndarray:
    """
    Normaliza los valores de una imagen para que estén en el rango [0, 255].

    Args:
        img (np.ndarray): Arreglo numpy que representa la imagen.

    Returns:
        np.ndarray: Imagen normalizada con valores en el rango [0, 255].
    """
    img_abs = np.abs(img)
    img_norm = (img_abs / img_abs.max()) * 255
    img_norm = img_norm.astype(np.uint8)
    return img_norm

def convolucion2d(imagen: np.ndarray, kernel: np.ndarray) -> np.ndarray:
    """
    Aplica la convolución 2D entre una imagen y un kernel.
    El algoritmo básico es el siguiente:
    1. Crear un arreglo de ceros con las mismas dimensiones que la imagen para almacenar el resultado
    2. Recorrer cada pixel de la imagen (recorrer una matriz 2D) con dos ciclos for. Para cada pixel en la posición (i, j):
        a. Verificar si el pixel es un borde o no
            - Si es un borde, se ignora la iteración
            - Si no es un borde:
                - Obtener y almacenar en una variable una submatriz 3x3, que sea la region de pixeles vecinos del pixel actual, con el pixel actual siendo el centro de la matriz. Para ello, utilice operaciones de slicing en numpy.
                - Multiplicar la region por el kernel (3x3), lo que resulta en una matriz 3x3.
                - Sumar todos los elementos de la matriz 3x3 resultante y asignar el valor de la suma al pixel en la posición (i, j) del arreglo de ceros creado en el paso 2.
    
    Args:
        imagen (np.ndarray): numpy array 2D (imagen en escala de grises)
        kernel (np.ndarray): numpy array 2D (kernel de convolución)
    Returns:
        np.ndarray: Imagen resultante de la convolución.
    """
    # Acá su código

main()

**Ejercicio 3**

El algoritmo **k-Nearest Neighbors (kNN)** es uno de los métodos de **aprendizaje supervisado** más simples y no paramétricos utilizados para problemas de **clasificación** y **regresión**. Se basa en la idea de que los puntos de datos que están cerca en el espacio de características suelen tener propiedades o etiquetas similares.

*¿Cómo funciona la Clasificación con kNN?*

Para clasificar un nuevo punto de datos (el punto de consulta):

1.  **Cálculo de Distancia:** Se calcula la distancia (típicamente euclidiana) entre el nuevo punto y **todos** los puntos de datos en el conjunto de entrenamiento.
2.  **Identificación de Vecinos:** Se seleccionan los $k$ puntos de datos más cercanos, llamados los "vecinos más cercanos".
3.  **Votación por Mayoría:** La etiqueta de clase del nuevo punto se asigna mediante una **votación por mayoría** entre esos $k$ vecinos. Es decir, se le asigna la clase que es más frecuente entre ellos.

*Parámetro Clave: $k$*

El valor de $k$ (el número de vecinos) es el único parámetro del modelo y es crucial:
* Un **$k$ pequeño** (ej. $k=1$) hace que el modelo sea más sensible al ruido (sobreajuste).
* Un **$k$ grande** suaviza la frontera de decisión, reduciendo el ruido pero aumentando la posibilidad de incluir puntos de otras clases (subajuste).

---

**Ejercicio Práctico: Clasificación Binaria de Frutas**

Vamos a aplicar el algoritmo kNN para clasificar un nuevo objeto como una **"Manzana" (Clase 0)** o un **"Kiwi" (Clase 1)**, basándonos en dos características: **Peso (gramos)** y **Textura (suave=0, áspera=1)**.

**Datos de Entrenamiento (Nuestros Vecinos)**

| Fruta | Peso ($x_1$) | Textura ($x_2$) | Clase (y) |
| :---: | :----------: | :-------------: | :-------: |
| Fruta 1 | 150 | 0 (Suave) | 0 (Manzana) |
| Fruta 2 | 160 | 0 (Suave) | 0 (Manzana) |
| Fruta 3 | 120 | 1 (Áspera) | 1 (Kiwi) |
| Fruta 4 | 130 | 1 (Áspera) | 1 (Kiwi) |

**Punto de Consulta (El Misterio)**

| Característica | Valor |
| :------------: | :---: |
| Peso ($x_1'$) | 145 |
| Textura ($x_2'$) | 1 |

---

### **El Programa Requerido**

Tiene crear un programa en Python que resuelva la clasificación utilizando la **Distancia Euclidiana** y el valor **$k=3$**.

La fórmula para la **Distancia Euclidiana** entre un punto $P=(x_1, x_2)$ y un punto $Q=(x_1', x_2')$ es:

$$
d(P, Q) = \sqrt{(x_1 - x_1')^2 + (x_2 - x_2')^2}
$$

**Implementación (Usando NumPy para operaciones vectorizadas):**

1.  Crear una función `clasificar_knn(datos_entrenamiento, etiquetas, punto_consulta, k)` que reciba:
    * `datos_entrenamiento`: Un arreglo 2D de NumPy con las características ($x_1$, $x_2$) de las frutas de entrenamiento.
    * `etiquetas`: Un arreglo 1D de NumPy con las clases ($y$) de las frutas de entrenamiento.
    * `punto_consulta`: Un arreglo 1D de NumPy con las características del punto a clasificar.
    * `k`: El número de vecinos a considerar (debe ser $3$).
2.  La función debe realizar los siguientes pasos (sin usar ciclos `for` o `while`):
    * **Calcular Distancias:** Utilizar **operaciones vectorizadas de NumPy** para calcular la distancia euclidiana entre el `punto_consulta` y **todos** los puntos en `datos_entrenamiento`. Esto debe resultar en un arreglo 1D con las 4 distancias.
    * **Obtener Índices de los Vecinos:** Obtener los **índices** de las $k$ distancias más pequeñas. La función `np.argsort` seguida de un *slicing* (`[:k]`) es la herramienta adecuada.
    * **Identificar Etiquetas:** Usar los índices obtenidos para seleccionar las **etiquetas** correspondientes de los $k$ vecinos más cercanos.
    * **Votación (Clasificación):** Determinar la clase final (0 o 1) contando cuál es la etiqueta más frecuente entre los $k$ vecinos. La función `np.bincount` puede ser útil para contar ocurrencias, y luego `np.argmax` para encontrar el índice (que es la clase) con el recuento más alto.
    * **Retornar la Clase Asignada.**

3.  En la función `main`, definir los arreglos de datos de entrenamiento y el punto de consulta, llamar a `clasificar_knn`, e imprimir el resultado de la clasificación.

**NOTA:** Deberás **importar `numpy`** y resolver todo el cálculo de distancias y la identificación de vecinos sin utilizar **ciclos** explícitos.

---

In [None]:
import numpy as np

def clasificar_knn(datos_entrenamiento: np.ndarray, etiquetas: np.ndarray, punto_consulta: np.ndarray, k: int) -> int:
    """
    Clasifica un punto de consulta usando el algoritmo k-Nearest Neighbors (kNN).

    Args:
        datos_entrenamiento: Arreglo 2D de características (N_puntos, N_caracteristicas).
        etiquetas: Arreglo 1D de etiquetas de clase (N_puntos).
        punto_consulta: Arreglo 1D del punto a clasificar.
        k: Número de vecinos a considerar.

    Returns:
        La clase asignada al punto de consulta (0 o 1).
    """

    # 1. Calcular Distancias Euclidianas (Vectorizado)
    # Diferencia entre el punto de consulta y todos los puntos de entrenamiento
    diferencia = datos_entrenamiento - punto_consulta
    # Cuadrado de las diferencias
    cuadrado_diferencia = diferencia**2
    # Suma de los cuadrados a lo largo de las características (axis=1)
    suma_cuadrados = np.sum(cuadrado_diferencia, axis=1)
    # Raíz cuadrada para obtener la distancia euclidiana
    distancias = np.sqrt(suma_cuadrados)
    
    # 2. Obtener Índices de los k Vecinos más Cercanos
    # np.argsort devuelve los índices que ordenarían el arreglo.
    # Tomamos los primeros 'k' para obtener los índices de las distancias más pequeñas.
    indices_vecinos = np.argsort(distancias)[:k]
    
    # 3. Identificar Etiquetas de los k Vecinos
    etiquetas_vecinos = etiquetas[indices_vecinos]
    
    # 4. Votación por Mayoría (Clasificación)
    # np.bincount cuenta las ocurrencias de cada valor no negativo en el arreglo.
    # np.argmax devuelve el índice del valor más alto (la clase más frecuente).
    conteo_clases = np.bincount(etiquetas_vecinos)
    clase_final = np.argmax(conteo_clases)
    
    return clase_final

def main():
    # Definición de las constantes y datos
    K = 3 # Número de vecinos
    
    # Datos de Entrenamiento: [Peso, Textura]
    datos_entrenamiento = np.array([
        [150, 0],  # Manzana
        [160, 0],  # Manzana
        [120, 1],  # Kiwi
        [130, 1]   # Kiwi
    ])
    
    # Etiquetas de Entrenamiento: 0=Manzana, 1=Kiwi
    etiquetas = np.array([0, 0, 1, 1])
    
    # Punto de Consulta: [Peso=145, Textura=1]
    punto_consulta = np.array([145, 1])
    
    print("--- Clasificador kNN de Frutas ---")
    print(f"Datos de Entrenamiento:\n{datos_entrenamiento} (Etiquetas: {etiquetas})")
    print(f"Punto a clasificar: {punto_consulta}")
    print(f"Parámetro k: {K}\n")
    
    # Llamada a la función de clasificación
    clase_asignada = clasificar_knn(datos_entrenamiento, etiquetas, punto_consulta, K)
    
    # Muestra de resultados
    if clase_asignada == 0:
        nombre_clase = "Manzana!"
    else:
        nombre_clase = "Kiwi!"
        
    print(f"Resultado de la clasificación (k={K}):")
    print(f"Clase Asignada (0=Manzana, 1=Kiwi): **{clase_asignada}**")
    print(f"Conclusión: El punto {punto_consulta} se clasifica como **{nombre_clase}**.")
    
if __name__ == "__main__":
    main()

**Ejercicio 1**

El género de plantas **Iris**, cuyo nombre deriva de la palabra griega para **"arcoíris"**, es un género de plantas conocido por la impresionante y variada coloración de sus flores. Se encuentran en el hemisferio norte y han sido históricamente valoradas.

*Anatomía Floral: Los Atributos de Medición*

Con frecuencia, los botánicos clasifican los Iris para organizar su diversidad, entender su evolución, proteger las especies y usarlas mejor en ciencia y jardinería. Esta clasificación de las plantas se hace por especies. Es muy común que para clasificar una especie, los botánicos se centren en las mediciones de las siguientes dos estructuras fundamentales de la flor, que son las **características** o **atributos** que las diferencian más claramente entre especies:

1.  **Sépalos (*Sepals*):** Las hojas modificadas externas que protegen el capullo.
2.  **Pétalos (*Petals*):** Las estructuras internas, usualmente más vistosas y encargadas de atraer polinizadores.

![Iris parts](https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/11_manipulacion_de_archivos/imgs/iris.jpg)

Nótese que cada tipo de especie tiene longitudes y anchos diferentes. Visualmente al menos se pueden diferenciar entre sí.

---

***El Dataset Iris: El Registro Botánico Estructurado***

El **conjunto de datos Iris** es un registro de datos creado por el botánico Edgar Anderson y popularizado por el estadístico Ronald Fisher en 1936, en su artículo científico [The Use of Multiple Measurements in Taxonomic Problems](http://rcs.chemometrics.ru/Tutorials/classification/Fisher.pdf). 

El registro consta de un total de **150 observaciones** o **alistamientos** (filas), donde cada uno documenta una flor individual encontrada. Está guardado en un `.csv` generalmente, y tiene la siguiente forma:

| sepal_length (cm) | sepal_width (cm) | petal_length (cm) | petal_width (cm) | species |
| :---------------- | :--------------- | :---------------- | :--------------- | :------- |
| 5.1 | 3.5 | 1.4 | 0.2 | Iris-setosa |
| 4.9 | 3.0 | 1.4 | 0.2 | Iris-setosa |
| 5.4 | 3.9 | 1.7 | 0.4 | Iris-setosa |
| 6.4 | 3.2 | 4.5 | 1.5 | Iris-versicolor |
| 5.5 | 2.3 | 4.0 | 1.3 | Iris-versicolor |
| 6.3 | 3.3 | 6.0 | 2.5 | Iris-virginica |
| 6.3 | 2.9 | 5.6 | 1.8 | Iris-virginica |
| ... | ... | ... | ... | ... |
| 6.5 | 3.0 | 5.8 | 2.2 | Iris-virginica |

Cada una de estas filas es una planta individual resgitrada, que tiene anotada la longitud del sépalo (*sepal length*), ancho del sépalo (*sepal width*), longitud del pétalo (*petal length*), ancho del pétalo (*petal_width*) y la especie a la que pertenece (Iris-setosa, Iris-versicolor o Iris-virginica).

Haga código python para resolver cada una de las siguientes tareas:
1. Cargue el conjunto de datos de `iris.csv` en un Pandas `Dataframe`.
2. Muestre en pantalla la cantidad de plantas de cada especie en el conjunto de datos.
3. Muestre en pantalla la media, mediana, varianza y moda de las siguientes columnas:
    - `sepal_length`
    - `sepal_width`
    - `petal_length`
    - `petal_width`
4. Cambie los valores de la columna `species` para que ahora sean datos numéricos. A esta operación se le llama `codificar`:
    - Cambie el valor "Iris-setosa" por un 0.
    - Cambie el valor "Iris-versicolor" por un 1.
    - Cambie el valor "Iris-virgnica" por un 2.
5. Guarde el `Dataframe` modificado en un nuevo archivo, llamado `iris-codificado.csv`.

---

In [None]:
# Acá su código

**Ejercicio 1.1 (Continuación)**

Un desafío común en la botánica es la identificación rápida de la especie. Los botánicos gastan mucho tiempo intentando clasificar la especie a la que pertenece una planta nueva, examinando datos como la longitud del sépalo (*sepal length*), ancho del sépalo (*sepal width*), longitud del pétalo (*petal length*), ancho del pétalo (*petal_width*).

Así, el propósito del **dataset iris** es facilitar la vida a los botánicos, permitiendo la creación de un **programa informático** que clasifique **automáticamente la especie de una flor** (la **etiqueta**) basándose únicamente en los **cuatro valores de sus atributos** (sus mediciones).

Esta es un área de la computación llamada **Aprendizaje Automático**. La idea es crear un algoritmo que utilice datos históricos para predecir atributos de nuevas observaciones. En este caso, se quiere predecir la especie de una planta dados sus cuatro características. Para esto, se va a usar el algoritmo **kNN**.

---

***El Algoritmo k-Nearest Neighbors (kNN)***

El algoritmo **k-Nearest Neighbors (kNN)** es un método de **clasificación** simple, basado en la idea de que los objetos con atributos similares están cerca en el espacio de datos.

*Funcionamiento en la Clasificación*

Para determinar la especie de una flor desconocida (el punto de consulta):

1.  **Medición de Distancia:** Se calcula la **distancia** (típicamente **Euclidiana**) entre el arreglo de atributos (un arreglo de 4 elementos, uno por cada medición de la planta) de la nueva flor y *cada* registro de flor en el dataset. Para ello, dada una nueva flor por clasificar $p$ que es un vector de 4 elementos, y un registro de flor $q$ en el dataset, se puede calcular la distancia entre ambos como:
    $$
    d(\mathbf{p}, \mathbf{q}) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}
    $$

![Euclidian distance](https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/11_manipulacion_de_archivos/imgs/euclidiana.png)


2.  **Selección de Vecinos ($k$):** Se identifican los **$k$ registros de flores más cercanos** (aquellos con la menor distancia).
3.  **Votación por Mayoría:** La nueva flor hereda la **especie más frecuente** (la etiqueta más votada) entre esos $k$ vecinos.

Si la clasificación dependiera solo de 2 variables o atributos, se podría visualizar en 2D:

![kNN Gif](https://raw.githubusercontent.com/EnriqueVilchezL/principios_de_info/main/11_manipulacion_de_archivos/imgs/knn.gif)
