## 2. Aprendizaje Automático (Machine Learning - ML)

## 2.1 Conceptos Fundamentales

#### Definición de Machine Learning (ML)


El **Aprendizaje Automático (Machine Learning)** es una rama de la inteligencia artificial que se enfoca en la creación de sistemas que pueden **aprender de los datos**, identificar patrones y tomar decisiones o hacer predicciones con una mínima intervención humana.

> **Analogía:** Es como enseñar a un niño. En lugar de darle reglas explícitas ("Si es rojo, detente"), le muestras muchos ejemplos de tráfico y lo dejas aprender qué acciones son correctas o incorrectas.

#### Ciclo de Vida de un Proyecto de ML


Un proyecto de ML sigue generalmente las siguientes etapas:

1.  **Definición del Problema y Recolección de Datos:**
    * Entender el objetivo (¿clasificación, regresión, clustering?) y los requisitos.
    * Recolectar los datos necesarios (pueden ser estructurados o no estructurados).
2.  **Preparación de Datos (Data Preprocessing):**
    * Limpieza, manejo de valores faltantes y *outliers*.
    * Transformación, normalización/estandarización y codificación de variables.
    * División en conjuntos de entrenamiento, validación y prueba.
3.  **Selección y Entrenamiento del Modelo:**
    * Elegir un algoritmo adecuado (Regresión Logística, k-NN, etc.).
    * **Ajustar (entrenar)** el modelo utilizando el **conjunto de entrenamiento**.
4.  **Evaluación del Modelo:**
    * Utilizar el **conjunto de validación** (o prueba) y **métricas de evaluación** (precisión, MSE, etc.) para medir el rendimiento.
5.  **Ajuste y Optimización (Hyperparameter Tuning):**
    * Modificar los **hiperparámetros** (parámetros que no se aprenden de los datos) para mejorar la precisión.
6.  **Despliegue (Deployment) y Monitoreo:**
    * Integrar el modelo en un entorno de producción para que haga predicciones en tiempo real.
    * Monitorizar su rendimiento para detectar el **desfase de datos (data drift)**.


### Conjuntos de Datos: Entrenamiento, Validación y Prueba

Para asegurar que un modelo generalice bien a datos no vistos (evitando el **sobreajuste** o *overfitting*), los datos se dividen en tres subconjuntos principales:

| Conjunto | Uso Principal | Propósito Clave |
| :--- | :--- | :--- |
| **Entrenamiento (Training Set)** | **Entrenar** el modelo, ajustando sus parámetros internos. | El modelo **aprende** de estos datos. |
| **Validación (Validation Set)** | **Evaluar** el modelo *durante* el entrenamiento y **ajustar hiperparámetros**. | Ayuda a **seleccionar** el mejor modelo/hiperparámetros antes de la prueba final. |
| **Prueba (Test Set)** | **Evaluación final** del modelo *después* de que ha sido completamente entrenado y ajustado. | Proporciona una estimación **imparcial** del rendimiento en el mundo real. |


## 2.2 Tipos de Aprendizaje

El ML se clasifica comúnmente en tres paradigmas:


### Supervisado (Supervised Learning)


* **Definición:** El modelo se entrena con un conjunto de datos que incluye **etiquetas** (valores de salida) previamente conocidas.
* **Objetivo:** Aprender una función que mapee la entrada a la salida.

#### 1. Regresión (Regression)
* **Problema:** Predecir un **valor continuo** (número real).
* **Ejemplo:** Predecir el **precio** de una casa, la **temperatura** de mañana.

#### 2. Clasificación (Classification)
* **Problema:** Predecir una **etiqueta discreta** o una categoría.
* **Ejemplos:**
    * **Clasificación Binaria:** Sí/No, Spam/No Spam.
    * **Clasificación Multi-clase:** Gato/Perro/Pájaro.

### No Supervisado (Unsupervised Learning)

* **Definición:** El modelo se entrena con datos **sin etiquetas**.
* **Objetivo:** Descubrir estructuras, patrones o relaciones ocultas en los datos.

#### 1. Clustering
* **Problema:** Agrupar puntos de datos similares para formar **grupos (clusters)**.
* **Ejemplo:** Segmentación de clientes en función de sus hábitos de compra.

#### 2. Reducción de Dimensionalidad
* **Problema:** Reducir el número de características (variables) manteniendo la mayor parte de la información relevante.
* **Ejemplo:** Simplificar un dataset con cientos de variables para facilitar la visualización o acelerar el entrenamiento del modelo. **Análisis de Componentes Principales (PCA)**.



### Aprendizaje por Refuerzo (Reinforcement Learning - RL)

* **Definición:** El agente de *software* aprende a tomar decisiones secuenciales en un **entorno** para maximizar una **recompensa**. No hay un conjunto de datos de entrenamiento fijo.
* **Conceptos Clave:**
    * **Agente:** El modelo que toma las decisiones.
    * **Entorno:** El *mundo* en el que opera el agente.
    * **Recompensa:** La señal que indica qué tan buena fue la última acción.
* **Ejemplo:** Enseñar a un robot a caminar, entrenamiento de IA para jugar videojuegos (AlphaGo).


## 2.3 Preparación de Datos (Data Preprocessing)


Esta es la etapa más crucial y consume la mayor parte del tiempo de un científico de datos (a menudo, 70-80% del tiempo).


### Limpieza de Datos y Manejo de Valores Faltantes

* **Identificación:** Buscar valores nulos (`NaN`, `None`), inconsistencias (ej. "NY" y "Nueva York"), y *outliers* (valores atípicos).
* **Manejo de Valores Faltantes:**
    * **Eliminación:** Eliminar la fila o columna (solo si faltan pocos datos).
    * **Imputación:** Rellenar los valores faltantes con una estimación:
        * Para variables numéricas: la media, mediana o moda.
        * Para variables categóricas: la moda o una nueva categoría ("Desconocido").

### Normalización y Estandarización

Ambas técnicas escalan los valores de las características para que contribuyan de manera equitativa al modelo.

| Técnica | Fórmula/Concepto | Rango Típico | Cuándo Usarla |
| :--- | :--- | :--- | :--- |
| **Normalización (Min-Max)** | Escala los datos al rango $[0, 1]$. | $[0, 1]$ | Cuando se requiere un rango específico o la distribución no es Gaussiana. |
| **Estandarización (Z-Score)** | Transforma los datos para que tengan media ($\mu$) = 0 y desviación estándar ($\sigma$) = 1. | Sin límite | Cuando los datos siguen una distribución Gaussiana o se usan modelos basados en distancias (k-NN). |

### Codificación de Variables Categóricas

Los modelos de ML solo trabajan con números, por lo que las categorías textuales deben convertirse:

1.  **One-Hot Encoding:**
    * Crea una **nueva columna binaria (0 o 1)** para **cada** categoría única.
    * **Mejor para:** Variables nominales (sin orden, ej. color: Rojo, Azul).
    * **Riesgo:** Introduce la **Maldición de la Dimensionalidad** si hay muchas categorías.
2.  **Label Encoding (Codificación por Etiqueta):**
    * Asigna un número entero único a cada categoría (ej. Rojo=1, Azul=2).
    * **Mejor para:** Variables ordinales (con orden, ej. Calidad: Baja=1, Media=2, Alta=3).
    * **Riesgo:** El modelo puede interpretar el orden numérico como una relación de magnitud (ej. que 3 es el triple de 1), incluso si no la hay.

### División de Datos (*Train/Test Split, Cross-Validation*)



#### 1. Train/Test Split
La forma más básica de dividir los datos (típicamente 70-80% entrenamiento, 20-30% prueba).

#### 2. Validación Cruzada (Cross-Validation - CV)
Un método más robusto para evaluar el rendimiento, especialmente en datasets pequeños.

* **K-Fold Cross-Validation:**
    1.  El conjunto de entrenamiento se divide en **K** subconjuntos (folds) de igual tamaño.
    2.  El modelo se entrena **K veces**. En cada iteración, se usa **un fold** diferente como conjunto de validación y los **K-1 folds restantes** para el entrenamiento.
    3.  El rendimiento final es el **promedio** de las K evaluaciones.
    * **Ventaja:** Asegura que cada punto de datos se use tanto para entrenamiento como para validación, reduciendo la varianza del error de estimación.


## 2.4 Métricas de Evaluación

La elección de la métrica depende del tipo de problema (clasificación o regresión) y del contexto del negocio.


### Métricas de Clasificación (Basadas en la Matriz de Confusión)

La **Matriz de Confusión** es una tabla que resume el rendimiento de un algoritmo de clasificación.

| | Predicción Positiva | Predicción Negativa |
| :--- | :--- | :--- |
| **Real Positivo** | **Verdaderos Positivos (VP)** | **Falsos Negativos (FN)** |
| **Real Negativo** | **Falsos Positivos (FP)** | **Verdaderos Negativos (VN)** |

* **Exactitud (*Accuracy*):** Proporción de predicciones correctas sobre el total de casos.
 $$\text{Accuracy} = \frac{VP + VN}{VP + VN + FP + FN}$$
* **Precisión (*Precision*):** De todas las instancias predichas como Positivas, ¿cuántas lo fueron realmente? (Minimizar los FP).
    $$\text{Precision} = \frac{VP}{VP + FP}$$
* **Recall (*Sensibilidad/Exhaustividad*):** De todas las instancias Positivas reales, ¿cuántas fueron identificadas correctamente? (Minimizar los FN).
    $$\text{Recall} = \frac{VP}{VP + FN}$$
* **F1-Score:** La media armónica de la Precisión y el Recall. Útil cuando se busca un equilibrio entre ambas, especialmente en datos desbalanceados.
    $$\text{F1-Score} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$$


### Curvas ROC y AUC


* **Curva ROC (*Receiver Operating Characteristic*):** Grafica la tasa de Verdaderos Positivos (Recall) frente a la tasa de Falsos Positivos (FP / Total Reales Negativos) en varios umbrales de clasificación.
* **AUC (*Area Under the Curve*):** Mide el área bajo la curva ROC.
    * **Interpretación:** Un valor de AUC $\approx 1$ indica un clasificador excelente; $\approx 0.5$ es un clasificador aleatorio.
    * **Ventaja:** Permite evaluar el rendimiento independientemente del umbral de clasificación elegido.

### Métricas de Regresión


* **Error Cuadrático Medio (*Mean Squared Error* - MSE):** Mide el promedio de los errores al cuadrado (la diferencia entre el valor predicho y el valor real). Castiga más fuertemente los errores grandes.

$$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2$$

> Donde $\hat{y}_i$ es la predicción e $y_i$ es el valor real.

* **R² (*Coeficiente de Determinación*):** Indica la proporción de la varianza en la variable dependiente que es predecible a partir de la variable(s) independiente(s).
    * **Interpretación:** Un valor entre $0$ y $1$. Un $R^2$ de $0.8$ significa que el $80\%$ de la varianza en *y* es explicada por el modelo.

## 2.5 Modelos Iniciales

Estos son los "Hola Mundo" del Machine Learning, fundamentales para entender la base de modelos más complejos.


### Regresión Lineal y Logística


#### Regresión Lineal (Lineal Regression)
* **Tipo:** Aprendizaje Supervisado - **Regresión**.
* **Concepto:** Encuentra la **mejor línea recta** (*línea de mejor ajuste*) que describe la relación entre las características de entrada (*x*) y la variable de salida continua (*y*).
* **Fórmula:** $y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \epsilon$

#### Regresión Logística (Logistic Regression)
* **Tipo:** Aprendizaje Supervisado - **Clasificación**.
* **Concepto:** Aunque se llama "regresión," es un algoritmo de clasificación binaria que utiliza una **función logística (Sigmoide)** para *transformar* la salida lineal en una **probabilidad** entre $0$ y $1$.
* **Decisión:** Si la probabilidad es $> 0.5$, clasifica como 1 (Positivo); si es $< 0.5$, clasifica como 0 (Negativo).

### k-Vecinos Más Cercanos (k-Nearest Neighbors - k-NN)


* **Tipo:** Aprendizaje Supervisado - **Clasificación o Regresión**.
* **Concepto:** Es un algoritmo de **"Aprendizaje Perezoso"** (*Lazy Learning*) porque no entrena un modelo explícito, sino que *memoriza* el conjunto de entrenamiento.
* **Mecánica:**
    1.  Para clasificar un nuevo punto, calcula su **distancia** (ej. euclidiana) a todos los puntos del conjunto de entrenamiento.
    2.  Identifica los **k** puntos de datos más cercanos (*vecinos*).
    3.  **Clasificación:** Asigna la etiqueta que es la **mayoría** entre los $k$ vecinos.
    4.  **Regresión:** Asigna el **promedio** de los valores de los $k$ vecinos.
* **Parámetro clave:** El valor de **k**.

### Naïve Bayes (Clasificador Bayesiano Ingenuo)


* **Tipo:** Aprendizaje Supervisado - **Clasificación**.
* **Concepto:** Se basa en el **Teorema de Bayes** y asume una **"ingenuidad"** (de ahí su nombre): que **todas las características son independientes** entre sí.
* **Utilidad:** A pesar de su simplificación, es muy efectivo, rápido y popular para problemas de clasificación de texto (ej. filtro de *spam*).
* **Fórmula (Teorema de Bayes):**
    $$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$
    * $P(A|B)$: Probabilidad de la clase *A* dado el evento *B* (la predicción).