# Algoritmos de Clasificación y Regresión

## 1. Algoritmos de Aprendizaje Supervisado
En el aprendizaje supervisado, se entrenan modelos con un conjunto de datos etiquetados.

### Clasificación (Variable objetivo categórica)
- **Regresión Logística**: Para problemas de clasificación binaria o multiclase.✅
- **Árboles de Decisión**: Divide los datos en subconjuntos basados en reglas simples. ✅
- **Random Forest**: Conjunto de árboles de decisión para mejorar la precisión. ✅
- **K-Nearest Neighbors (KNN)**: Clasifica en función de los K vecinos más cercanos. ✅ 
- **Support Vector Machines (SVM)**: Encuentra el hiperplano óptimo que separa las clases. ✅
- **Naive Bayes**: Basado en la probabilidad condicional, adecuado para datos de texto.✅()
- **Redes Neuronales Artificiales (ANN)**: Modelos complejos para datos no lineales.
- **Gradient Boosting Machines (GBM)**: Combina árboles débiles para clasificación. ✅
- **XGBoost**: Variante eficiente y rápida del boosting. 

### Regresión (Variable objetivo continua)
- **Regresión Lineal**: Predice valores continuos basados en una o más características.
- **Regresión Polinómica**: Extiende la regresión lineal para relaciones no lineales.
- **Regresión Ridge y Lasso**: Con regularización para evitar el sobreajuste.
- **Árboles de Decisión para Regresión**: Predicen valores numéricos mediante divisiones.
- **Random Forest para Regresión**: Promedio de muchos árboles para predicciones.
- **K-Nearest Neighbors (KNN) para Regresión**: Predice el valor medio de los K vecinos más cercanos.
- **Support Vector Regression (SVR)**: Extiende SVM para predecir valores continuos.
- **Redes Neuronales para Regresión**: Predicen valores continuos con datos no lineales.
- **Gradient Boosting Machines (GBM) para Regresión**: Conjunto de árboles para predicción.
- **XGBoost para Regresión**: Variante de GBM optimizada.

---

## 2. Algoritmos de Aprendizaje No Supervisado
En el aprendizaje no supervisado, no se proporcionan etiquetas ni clases.

### Clasificación (Clustering)
- **K-Means**: Agrupa datos en K clusters basados en su proximidad a los centroides.
- **Clustering Jerárquico**: Forma una jerarquía de clusters.
- **DBSCAN**: Clustering basado en la densidad de los datos.
- **Gaussian Mixture Models (GMM)**: Modelos probabilísticos basados en distribuciones gaussianas.

### Regresión relacionada (Reducción de dimensionalidad)
- **Análisis de Componentes Principales (PCA)**: Reduce la dimensionalidad de los datos.
- **Autoencoders**: Redes neuronales para compresión y reducción de dimensionalidad.

---

## Resumen

### Supervisado
- **Clasificación**: Regresión logística, árboles de decisión, Random Forest, KNN, SVM, Naive Bayes, redes neuronales, GBM, XGBoost.
- **Regresión**: Regresión lineal, polinómica, Ridge/Lasso, árboles de decisión, Random Forest, KNN, SVR, redes neuronales, GBM, XGBoost.

### No supervisado
- **Clasificación/Clustering**: K-Means, clustering jerárquico, DBSCAN, GMM.
- **Regresión relacionada**: PCA, autoencoders.
---


### 1. Matriz de Confusión

La matriz de confusión es una tabla que permite visualizar el rendimiento de un algoritmo de clasificación, mostrando los verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.

- **Verdaderos Positivos (VP o TP - True Positives):** Son las instancias correctamente clasificadas como positivas.
- **Falsos Positivos (FP):** Son las instancias incorrectamente clasificadas como positivas.
- **Verdaderos Negativos (VN o TN - True Negatives):** Son las instancias correctamente clasificadas como negativas.
- **Falsos Negativos (FN):** Son las instancias incorrectamente clasificadas como negativas.



<img src="https://i.imgur.com/UM28BCN.png" width="480">

Ejemplo:
Supongamos que estás entrenando un modelo para predecir si un correo electrónico es spam o no. Tienes un conjunto de 100 correos electrónicos:

- 70 no son spam (Negativos).
- 30 son spam (Positivos).
El modelo hace las siguientes predicciones:

- Clasifica 65 correos como no spam y 35 como spam.
- De los 65 no spam, 60 eran realmente no spam (VN) y 5 eran spam (FN).
- De los 35 spam, 25 eran realmente spam (VP) y 10 no eran spam (FP).

La matriz de confusión sería:


|60 TN|10 FP|
|-----|-----|
|5 FN |25 TP|

---

|                       |Predicción Positiva (Spam)|Predicción Negativa (No Spam)|
|-----------------------|--------------------------|-----------------------------|
|Positivo Real (Spam)   |	25 (VP)	               |5 (FN)                       |
|Negativo Real (No Spam)|	10 (FP)	               |60 (VN)                      |

## 2. Precisión (Precision)
La precisión mide qué porcentaje de las predicciones positivas son realmente positivas.


$$\text{Precisión} = \frac{VP}{VP + FP}$$


En nuestro ejemplo:


$$\text{Precisión} = \frac{25}{25 + 10} = \frac{25}{35} \approx 0.71$$


**Interpretación:** El 71% de los correos que el modelo clasificó como spam realmente eran spam.

## 3. Recall (Sensibilidad o Exhaustividad)
El recall mide qué porcentaje de las instancias positivas reales fueron correctamente clasificadas.

$$
\text{Recall} = \frac{VP}{VP + FN}
$$

En nuestro ejemplo:

$$
\text{Recall} = \frac{25}{25 + 5} = \frac{25}{30} \approx 0.83
$$

**Interpretación:** El modelo identificó correctamente el 83% de los correos que realmente eran spam.

## 4. F1-Score
El F1-score es la media armónica entre la precisión y el recall, proporcionando una medida balanceada del rendimiento del modelo.

$$
F1 = 2 \times \frac{\text{Precisión} \times \text{Recall}}{\text{Precisión} + \text{Recall}}
$$

En nuestro ejemplo:

$$
F1 = 2 \times \frac{0.71 \times 0.83}{0.71 + 0.83} \approx 0.77
$$

**Interpretación:** El F1-score de 0.77 indica un buen equilibrio entre la precisión y el recall.

## Resumen
- **Matriz de Confusión:** Te da una visión general de cómo se comporta tu modelo.
- **Precisión:** Indica la exactitud de las predicciones positivas.
- **Recall:** Indica la capacidad del modelo para identificar correctamente las instancias positivas.
- **F1-Score:** Combina precisión y recall en una sola métrica para tener una idea general del rendimiento del modelo.

Estas métricas son cruciales para evaluar modelos de clasificación y elegir el que mejor se ajuste a tus necesidades, especialmente en situaciones donde un tipo de error (falso positivo o falso negativo) es más costoso que el otro.
