# <span style="color:#f6f794"> Algoritmos de clasificación </span> 📚 

## <span style="color:#c69005"> 1. Cómo funcionan y en qué se diferencian </span>

### <span style="color:#c69005"> 1.1 **Regresión logística** </span>

##### <span style="color:#f6f794">**Concepto**</span>

A pesar de su nombre, la regresión logística es un algoritmo de clasificación que estima la probabilidad de que una instancia pertenezca a una clase particular.

##### <span style="color:#f6f794">**Cómo funciona**</span>
1. Calcula una combinación lineal de las características (similar a regresión lineal)
2. Aplica la función logística (sigmoide) para transformar el resultado en una probabilidad entre 0 y 1
3. Asigna la clase según un umbral (típicamente 0.5)

##### <span style="color:#f6f794">**Fundamentos matemáticos**</span>
  - **Función logísitica**:
  $$\sigma(z) = \frac{1}{1 + e^{-z}}, \quad \text{donde } z = \beta_0 + \beta_1 x_1 + \dots + \beta_n x_n$$
  - **Probabilidad**:  
    $$p(y=1 \mid \mathbf{x}) = \sigma(z)$$
  - **Función de costo** (log-loss o entropía cruzada binaria):  
    $$J(\beta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(\hat{y}^{(i)}) + (1 - y^{(i)}) \log(1 - \hat{y}^{(i)}) \right]$$
  - **Optimización**:  
    Típicamente mediante **descenso de gradiente**:
    $$\beta_j := \beta_j - \alpha \frac{\partial J(\beta)}{\partial \beta_j}$$

##### <span style="color:#f6f794">**Ventajas**</span>
- Proporciona probabilidades, no solo predicciones de clase
- Relativamente simple y eficiente
- Los coeficientes son interpretables como log-odds
- Funciona bien con grandes conjuntos de datos

##### <span style="color:#f6f794">**Limitaciones**</span>
- Asume relación lineal entre variables y el logaritmo de odds
- No maneja bien relaciones no lineales sin transformación de características
- Puede tener problemas con clases desbalanceadas

### <span style="color:#c69005"> 1.2 **K Nearest Neighbors** </span>

##### <span style="color:#f6f794">**Concepto**</span>

KNN es un algoritmo simple pero efectivo que clasifica una nueva instancia según la clase mayoritaria de sus k vecinos más cercanos en el espacio de características.

##### <span style="color:#f6f794">**Cómo funciona**</span>
1. Almacena todos los datos de entrenamiento
2. Para una nueva instancia:
   - Calcula la distancia a todas las instancias de entrenamiento
   - Identifica los k vecinos más cercanos
   - Asigna la clase por voto mayoritario entre estos vecinos

##### <span style="color:#f6f794">**Fundamentos matemáticos**</span>
- Típicamente utiliza **distancia euclidiana**:  
    $$d(\mathbf{x}, \mathbf{y}) = \sqrt{\sum (x_i - y_i)^2}$$
- Otras métricas incluyen distancia de Manhattan, Minkowski o similitud del coseno.
- La predicción es:  
    $$\hat{y} = \arg\max \left( \sum \mathbb{I}(y_i = c) \right)$$  
    donde \( \mathbb{I} \) es una función indicadora.

##### <span style="color:#f6f794">**Ventajas**</span>
- Simple y fácil de entender
- No hace suposiciones sobre la distribución de los datos
- Funciona bien con clases bien separadas
- Naturalmente maneja clasificación multiclase

##### <span style="color:#f6f794">**Limitaciones**</span>
- Computacionalmente intensivo para grandes conjuntos de datos
- Sensible a características irrelevantes y a la escala
- Requiere selección cuidadosa del parámetro k
- No produce un modelo explícito (aprendizaje "perezoso")

### <span style="color:#c69005"> 1.3 **SVM (Máquinas de vectores de soporte)s** </span>

##### <span style="color:#f6f794">**Concepto**</span>

SVM busca encontrar el hiperplano óptimo que maximiza el margen entre clases en el espacio de características, potencialmente transformado por una función kernel.

##### <span style="color:#f6f794">**Cómo funciona**</span>
1. Encuentra el hiperplano que maximiza la distancia entre las clases
2. Los puntos más cercanos al hiperplano se llaman "vectores de soporte"
3. Para problemas no linealmente separables:
   - Utiliza una función kernel para mapear los datos a un espacio de mayor dimensión
   - Encuentra un hiperplano separador en ese espacio

##### <span style="color:#f6f794">**Fundamentos matemáticos**</span>
- Busca maximizar el margen:  
  $$\frac{2}{\|\mathbf{w}\|}$$
- Con restricción:  
  $$y_i(\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1 \quad \text{para todos los puntos}$$
- Parámetro \( C \) controla el equilibrio entre maximizar el margen y minimizar el error
- Kernels comunes: lineal, polinómico, RBF (base radial), sigmoide


##### <span style="color:#f6f794">**Ventajas**</span>
- Efectivo en espacios de alta dimensionalidad
- Robusto cuando hay una clara separación entre clases
- Usa solo un subconjunto de puntos (vectores de soporte)
- Versátil a través de diferentes funciones kernel

##### <span style="color:#f6f794">**Limitaciones**</span>
- Selección de parámetros y kernel crítica
- No escalable a grandes conjuntos de datos
- No proporciona directamente probabilidades
- Sensible a ruido y sobreajuste con ciertos kernels

### <span style="color:#c69005"> 1.4 **Árboles de decisión para clasificación** </span>

##### <span style="color:#f6f794">**Concepto**</span>

Los árboles de decisión para clasificación crean un modelo con estructura de árbol donde cada nodo interno representa una prueba sobre una característica, cada rama representa el resultado de esa prueba, y cada hoja representa una clase.

##### <span style="color:#f6f794">**Cómo funciona**</span>
1. Comienza con todos los datos en el nodo raíz
2. Para cada división potencial:
   - Calcula una medida de impureza (Gini o entropía)
   - Selecciona la división que maximiza la reducción en impureza
3. Repite recursivamente en los nodos hijos hasta alcanzar un criterio de parada

##### <span style="color:#f6f794">**Fundamentos matemáticos**</span>
- **Índice Gini**: Mide la probabilidad de clasificar incorrectamente un elemento  
  $$\text{Gini} = 1 - \sum p_i^2$$  
  donde \( p_i \) es la proporción de la clase \( i \)
- **Entropía**: Mide la incertidumbre o desorden en los datos  
  $$\text{Entropía} = -\sum p_i \log_2(p_i)$$
- **Ganancia de información**:  
  $$IG = \text{Entropía}_{\text{Padre}} - \sum \left( \frac{n_j}{n} \cdot \text{Entropía}_{\text{Hijo}_j} \right)$$

##### <span style="color:#f6f794">**Ventajas**</span>
- Fácil de entender e interpretar
- Requiere poca preparación de datos
- Maneja naturalmente variables categóricas y numéricas
- Puede capturar relaciones no lineales

##### <span style="color:#f6f794">**Limitaciones**</span>
- Propenso al sobreajuste, especialmente con árboles profundos
- Inestable (pequeños cambios en los datos pueden generar árboles muy diferentes)
- Sesgado hacia características con muchas categorías
- Dificultad para capturar relaciones lineales simples

### <span style="color:#c69005"> 1.5 **Random Forest para clasificación** </span>

##### <span style="color:#f6f794">**Concepto**</span>

Random Forest para clasificación es un algoritmo de ensamble que combina múltiples árboles de decisión para crear un modelo más robusto y preciso.

##### <span style="color:#f6f794">**Cómo funciona**</span>
1. Crea múltiples árboles de decisión utilizando bootstrap aggregating (bagging):
   - Para cada árbol, selecciona una muestra aleatoria con reemplazo del conjunto de datos original
   - Para cada división, considera solo un subconjunto aleatorio de características
2. La clase predicha es la moda (voto mayoritario) de las clases predichas por los árboles individuales

##### <span style="color:#f6f794">**Fundamentos matemáticos**</span>
- La diversidad entre los árboles se logra mediante:
  - Bootstrap sampling: Cada árbol se entrena con una muestra diferente
  - Feature randomness: En cada nodo, solo se considera un subconjunto aleatorio de características
- Para m características, típicamente se seleccionan √m características en cada división para clasificación
- La probabilidad de cada clase se puede estimar como la proporción de árboles que votaron por esa clase

##### <span style="color:#f6f794">**Ventajas**</span>
- Mayor precisión que los árboles individuales
- Reduce significativamente el sobreajuste
- Robusto a outliers y ruido
- Proporciona medidas de importancia de características
- Funciona bien sin mucho ajuste de hiperparámetros

##### <span style="color:#f6f794">**Limitaciones**</span>
- Menos interpretable que un árbol individual
- Computacionalmente intensivo
- Puede ser lento para predicciones en tiempo real con muchos árboles
- Sigue siendo sensible al desbalance de clases

### <span style="color:#c69005"> 1.6 **Gradient Boosting para clasificación** </span>

##### <span style="color:#f6f794">**Concepto**</span>

Gradient Boosting es un algoritmo de ensamble que construye modelos secuencialmente, donde cada nuevo modelo intenta corregir los errores del conjunto de modelos anteriores.

##### <span style="color:#f6f794">**Cómo funciona**</span>
1. Inicia con un modelo simple (generalmente un árbol poco profundo)
2. Calcula los errores residuales de este modelo
3. Entrena un nuevo modelo para predecir estos residuales
4. Añade este nuevo modelo al ensamble con un peso determinado
5. Repite los pasos 2-4 hasta alcanzar un número específico de modelos o hasta que los errores no mejoren significativamente

##### <span style="color:#f6f794">**Fundamentos matemáticos**</span>
- Optimiza una función de pérdida (como entropía cruzada para clasificación)
- Utiliza descenso de gradiente para minimizar esta función
- Cada nuevo modelo se ajusta para reducir el gradiente negativo de la función de pérdida
- Aplica un factor de aprendizaje (learning rate) para controlar la contribución de cada modelo

##### <span style="color:#f6f794">**Variantes importantes**</span>
- **XGBoost**: Implementación optimizada y eficiente que incluye regularización
- **LightGBM**: Enfoque en eficiencia con división basada en histogramas
- **CatBoost**: Maneja bien variables categóricas y reduce el sobreajuste

##### <span style="color:#f6f794">**Ventajas**</span>
- Generalmente ofrece mejor precisión que Random Forest
- Maneja bien diferentes tipos de datos
- Proporciona medidas de importancia de características
- Versátil para diferentes funciones de pérdida

##### <span style="color:#f6f794">**Limitaciones**</span>
- Puede sobreajustar si no se configuran bien los parámetros
- Más sensible a valores atípicos que Random Forest
- Más parámetros para ajustar
- Secuencial por naturaleza (difícil de paralelizar)

### <span style="color:#c69005"> 1.7 **Redes neuronales para clasificación** </span>

##### <span style="color:#f6f794">**Concepto**</span>

Las redes neuronales son modelos inspirados en la estructura del cerebro humano, compuestos por capas de neuronas interconectadas que pueden aprender representaciones complejas de los datos.

##### <span style="color:#f6f794">**Cómo funciona**</span>
1. La red consta de:
   - Capa de entrada: Recibe las características
   - Capas ocultas: Transforman los datos a través de funciones de activación
   - Capa de salida: Produce las probabilidades para cada clase
2. Durante el entrenamiento:
   - Forward pass: Los datos pasan a través de la red para obtener predicciones
   - Cálculo del error: Se comparan las predicciones con las etiquetas reales
   - Backpropagation: Se actualizan los pesos para minimizar el error

##### <span style="color:#f6f794">**Fundamentos matemáticos**</span>
- Cada neurona aplica una transformación lineal seguida de una función de activación no lineal
- Las funciones de activación comunes incluyen ReLU, sigmoide y tanh
- Para clasificación multiclase, la capa de salida utiliza la función softmax
- La función de pérdida típica es la entropía cruzada
- Los pesos se actualizan mediante descenso de gradiente y backpropagation

##### <span style="color:#f6f794">**Ventajas**</span>
- Puede capturar relaciones extremadamente complejas y no lineales
- Escalable a grandes conjuntos de datos
- Excelente para problemas donde las características tienen jerarquías o patrones
- Versátil para diferentes tipos de datos (imágenes, texto, series temporales)

##### <span style="color:#f6f794">**Limitaciones**</span>
- Requiere gran cantidad de datos para generalizar bien
- Computacionalmente intensivo para entrenar
- Difícil de interpretar ("caja negra")
- Muchos hiperparámetros para ajustar

### <span style="color:#c69005"> 1.8 **Naive Bayes** </span>

##### <span style="color:#f6f794">**Concepto**</span>

Naive Bayes es un clasificador probabilístico basado en el teorema de Bayes con la suposición "ingenua" de que las características son independientes entre sí dado el valor de la clase.

##### <span style="color:#f6f794">**Cómo funciona**</span>
1. Utiliza el **teorema de Bayes**:  
   $$P(Y \mid X) = \frac{P(X \mid Y) \cdot P(Y)}{P(X)}$$
2. Asume **independencia condicional entre características**:  
   $$P(X \mid Y) = P(X_1 \mid Y) \cdot P(X_2 \mid Y) \cdot \dots \cdot P(X_n \mid Y)$$
3. Clasifica eligiendo la clase con **mayor probabilidad posterior**

##### <span style="color:#f6f794">**Fundamentos matemáticos**</span>
- **Teorema de Bayes**:  
  $$P(Y \mid X) = \frac{P(X \mid Y) \cdot P(Y)}{P(X)}$$
- La clase predicha es:  
  $$y = \arg\max_y \left[ P(y) \cdot \prod P(x_i \mid y) \right]$$
- \( P(X) \) es constante para todas las clases, por lo que se puede omitir en la maximización

##### <span style="color:#f6f794">**Variantes principales**</span>
- **Gaussiano**: Asume que los valores de características siguen una distribución normal
- **Multinomial**: Adecuado para datos de conteo (frecuencias)
- **Bernoulli**: Para características binarias/booleanas

##### <span style="color:#f6f794">**Ventajas**</span>
- Simple y rápido de entrenar
- Funciona bien con conjuntos de datos pequeños
- Eficiente con alta dimensionalidad
- Maneja bien la clasificación multiclase
- No sensible al ruido irrelevante

##### <span style="color:#f6f794">**Limitaciones**</span>
- La suposición de independencia rara vez es cierta en la práctica
- Puede ser superado por modelos más sofisticados cuando hay suficientes datos
- No captura interacciones entre características
- Puede tener problemas con características continuas si no siguen la distribución asumida

## <span style="color:#c69005"> 2. Cómo evaluamos nuestros algoritmos: métricas de evaluación </span>

### <span style="color:#c69005"> 2.1 **Métricas básicas** </span>

- **Exactitud (Accuracy)**: Proporción de predicciones correctas.
- **Precisión (Precision)**: De los casos que predijo como positivos, cuántos eran realmente positivos.
- **Recall (Sensibilidad)**: De todos los casos realmente positivos, cuántos identificó correctamente.
- **F1-Score**: Media armónica entre precisión y recall.
- **Especificidad**: De todos los casos realmente negativos, cuántos identificó correctamente.

### <span style="color:#c69005"> 2.1 **Matriz de confusión** </span>
- **Verdaderos Positivos (TP)**: Casos positivos correctamente identificados.
- **Falsos Positivos (FP)**: Casos negativos incorrectamente clasificados como positivos.
- **Verdaderos Negativos (TN)**: Casos negativos correctamente identificados.
- **Falsos Negativos (FN)**: Casos positivos incorrectamente clasificados como negativos.

### <span style="color:#c69005"> 2.3 **Métricas avanzadas** </span>

- **Curva ROC**: Representa la tasa de verdaderos positivos vs. falsos positivos.
- **Área Bajo la Curva (AUC)**: Medida del rendimiento del clasificador con diferentes umbrales.
- **Log Loss**: Evalúa la calidad de las probabilidades predichas.
- **Coeficiente Kappa de Cohen**: Mide la concordancia entre las etiquetas predichas y reales, teniendo en cuenta la posibilidad de acuerdo por azar.