# Problemas de regresión y clasificación

**Regresión y clasificación** son dos tipos fundamentales de problemas que se abordan en el aprendizaje supervisado de Machine Learning. La elección entre uno u otro depende del tipo de variable objetivo o respuesta que se quiera predecir.

### Regresión
Regresión es una técnica utilizada para predecir un valor continuo, es decir, un número. El objetivo de los modelos de regresión es encontrar una función matemática que relacione las variables de entrada (también llamadas características o predictores) con una variable de salida continua.

### Modelos Comunes de Regresión:
- **Regresión Lineal:** Estima la relación lineal entre las variables de entrada y la variable de salida.
- **Regresión Polinómica:** Una extensión de la regresión lineal que puede modelar relaciones no lineales.
- **Regresión Ridge y Lasso:** Variaciones de la regresión lineal que incluyen regularización para evitar el sobreajuste.
- **Árboles de Decisión para Regresión:** Modelos que dividen el espacio de características en regiones y predicen un valor para cada región.

### Clasificación

**Clasificación** es una técnica utilizada para predecir categorías o clases discretas. Aquí, la variable de salida es cualitativa, lo que significa que pertenece a uno de varios grupos o categorías.

**Modelos Comunes de Clasificación:**

- **Regresión Logística:** Predice la probabilidad de que una instancia pertenezca a una clase particular, generalmente en problemas binarios.
- **Máquinas de Soporte Vectorial (SVM):** Encuentra el mejor hiperplano que separa las clases en el espacio de características.
- **Árboles de Decisión para Clasificación:** Clasifican los datos basándose en una serie de reglas derivadas de las características de entrada.
- **K-Vecinos Más Cercanos (KNN):** Clasifica una instancia basándose en la mayoría de las clases de sus vecinos más cercanos.
- **Redes Neuronales:** Utilizan múltiples capas de neuronas para aprender patrones complejos y realizar tareas de clasificación.

### 1. Matriz de Confusión

La matriz de confusión es una tabla que permite visualizar el rendimiento de un algoritmo de clasificación, mostrando los verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.

- **Verdaderos Positivos (VP o TP - True Positives):** Son las instancias correctamente clasificadas como positivas.
- **Falsos Positivos (FP):** Son las instancias incorrectamente clasificadas como positivas.
- **Verdaderos Negativos (VN o TN - True Negatives):** Son las instancias correctamente clasificadas como negativas.
- **Falsos Negativos (FN):** Son las instancias incorrectamente clasificadas como negativas.

Ejemplo:
Supongamos que estás entrenando un modelo para predecir si un correo electrónico es spam o no. Tienes un conjunto de 100 correos electrónicos:

- 70 no son spam (Negativos).
- 30 son spam (Positivos).
El modelo hace las siguientes predicciones:

- Clasifica 65 correos como no spam y 35 como spam.
- De los 65 no spam, 60 eran realmente no spam (VN) y 5 eran spam (FN).
- De los 35 spam, 25 eran realmente spam (VP) y 10 no eran spam (FP).

La matriz de confusión sería:

|                       |Predicción Positiva (Spam)|Predicción Negativa (No Spam)|
|-----------------------|--------------------------|-----------------------------|
|Positivo Real (Spam)   |	25 (VP)	               |5 (FN)                       |
|Negativo Real (No Spam)|	10 (FP)	               |60 (VN)                      |

## 2. Precisión (Precision)
La precisión mide qué porcentaje de las predicciones positivas son realmente positivas.


$$\text{Precisión} = \frac{VP}{VP + FP}$$


En nuestro ejemplo:


$$\text{Precisión} = \frac{25}{25 + 10} = \frac{25}{35} \approx 0.71$$


**Interpretación:** El 71% de los correos que el modelo clasificó como spam realmente eran spam.

## 3. Recall (Sensibilidad o Exhaustividad)
El recall mide qué porcentaje de las instancias positivas reales fueron correctamente clasificadas.

$$
\text{Recall} = \frac{VP}{VP + FN}
$$

En nuestro ejemplo:

$$
\text{Recall} = \frac{25}{25 + 5} = \frac{25}{30} \approx 0.83
$$

**Interpretación:** El modelo identificó correctamente el 83% de los correos que realmente eran spam.

## 4. F1-Score
El F1-score es la media armónica entre la precisión y el recall, proporcionando una medida balanceada del rendimiento del modelo.

$$
F1 = 2 \times \frac{\text{Precisión} \times \text{Recall}}{\text{Precisión} + \text{Recall}}
$$

En nuestro ejemplo:

$$
F1 = 2 \times \frac{0.71 \times 0.83}{0.71 + 0.83} \approx 0.77
$$

**Interpretación:** El F1-score de 0.77 indica un buen equilibrio entre la precisión y el recall.

## Resumen
- **Matriz de Confusión:** Te da una visión general de cómo se comporta tu modelo.
- **Precisión:** Indica la exactitud de las predicciones positivas.
- **Recall:** Indica la capacidad del modelo para identificar correctamente las instancias positivas.
- **F1-Score:** Combina precisión y recall en una sola métrica para tener una idea general del rendimiento del modelo.

Estas métricas son cruciales para evaluar modelos de clasificación y elegir el que mejor se ajuste a tus necesidades, especialmente en situaciones donde un tipo de error (falso positivo o falso negativo) es más costoso que el otro.
