## **Modelos y sus métricas**

### A. Clasificación (Predecir una clase - binaria / multinomial)
  - **Matriz de confusión:** Evalúa cómo un modelo clasifica correctamente e incorrectamente las instancias según las predicciones y los valores reales.
  - **Exactitud (Accuracy):** Proporción de predicciones correctas sobre el total de muestras.
  - **Precisión:** Proporción de instancias predichas como positivas que son realmente positivas.
  - **Sensibilidad (Recall):** Proporción de instancias positivas que fueron correctamente predichas por el modelo.
  - **Media Armónica Precisión-Sensibilidad (F1 Score):** Combina precisión y recall en una medida única, útil para evaluar la precisión general del modelo.

### B. Regresión (Predecir un número cuantitativo - entero / continuo)
  - **Error Absoluto Medio (MAE):** Media de las diferencias absolutas entre las predicciones y los valores reales.
  - **Error Cuadrático Medio (MSE):** Media de las diferencias al cuadrado entre las predicciones y los valores reales.
  - **Raíz del Error Cuadrático Medio (RMSE):** Raíz cuadrada del MSE, proporciona una métrica en la misma escala que los valores originales.
  - **Coeficiente de Determinación (R2):** Indica qué tan bien se ajustan las predicciones del modelo a los valores observados.


### **Métricas de Clasificación (Binario / Multinomial)**

#### **Matriz de Confusión**

La matriz de confusión es una herramienta fundamental para evaluar el rendimiento de un modelo de clasificación al comparar las predicciones con los valores reales. Proporciona una visión detallada de cómo el modelo clasifica correctamente e incorrectamente las instancias.

|                | Predicción Positiva | Predicción Negativa |
|----------------|---------------------|---------------------|
| Real Positivo  | True Positive (TP)  | False Negative (FN) |
| Real Negativo  | False Positive (FP) | True Negative (TN)  |

- **True Positive (TP):** Instancias que fueron correctamente predichas como positivas.
- **False Negative (FN):** Instancias que fueron incorrectamente predichas como negativas.
- **False Positive (FP):** Instancias que fueron incorrectamente predichas como positivas.
- **True Negative (TN):** Instancias que fueron correctamente predichas como negativas.

#### **Exactitud (Accuracy)**

La exactitud mide la proporción de predicciones correctas realizadas por el modelo sobre el total de muestras.

$ \text{Accuracy (Acc)} = \frac{TP + TN}{TP + TN + FP + FN} $

Es una medida general de la precisión del modelo, pero puede ser engañosa en conjuntos de datos desequilibrados.

#### **Precisión (Precision)**

La precisión mide la proporción de instancias predichas como positivas que son realmente positivas.

$ \text{Precision (P)} = \frac{TP}{TP + FP} $

Es útil cuando el coste de los falsos positivos es alto, como en el diagnóstico médico.

#### **Sensibilidad (Recall)**

La sensibilidad, también conocida como recall o tasa de verdaderos positivos, mide la proporción de instancias positivas que fueron correctamente predichas por el modelo.

$ \text{Recall (R)} = \frac{TP}{TP + FN} $

Es importante en casos donde la detección de positivos es crucial, como en pruebas de enfermedades.

#### **Puntuación F1 (F1 Score)**

El F1 Score es la media armónica de precisión y recall. Proporciona una medida única que combina ambos aspectos del rendimiento del modelo. Un valor más cercano a 1 indica un modelo más preciso y sensible.

$ \text{F1 Score} = 2 \cdot \frac{P \cdot R}{P + R} $

Es especialmente útil cuando hay desigualdad en la distribución de las clases en los datos.

Estas métricas proporcionan una evaluación completa del rendimiento de un modelo de clasificación desde diferentes perspectivas: exactitud general, capacidad para predecir correctamente clases específicas y la combinación de precisión y sensibilidad en el F1 Score.


### **Metricas de Regresión (cuantitativo)**

#### **MAE**

El Error Absoluto Medio (MAE) se define como la media del valor absoluto de las diferencias entre las predicciones y los valores reales.

$ \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| $

Donde:
- $( n )$ es el número total de muestras.
- $( y_i )$ es el valor real de la muestra $( i )$.
- $( \hat{y}_i )$ es la predicción para la muestra $( i )$.

#### **MSE**

El Error Cuadrático Medio (MSE) es otra métrica comúnmente utilizada para evaluar la precisión de un modelo de regresión. Se define como la media de las diferencias al cuadrado entre las predicciones y los valores reales.

$ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $

Donde:
- $( n )$ es el número total de muestras.
- $( y_i )$ es el valor real de la muestra $( i )$.
- $( \hat{y}_i )$ es la predicción para la muestra $( i )$.

#### **RMSE**

El Error Cuadrático Medio de la Raíz (RMSE) es una métrica comúnmente utilizada en problemas de regresión para evaluar la precisión de las predicciones. Se calcula como la raíz cuadrada del MSE (Error Cuadrático Medio).

$ \text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} $

Donde:
- $( n )$ es el número total de muestras.
- $( y_i )$ es el valor real de la muestra $( i )$.
- $( \hat{y}_i )$ es la predicción para la muestra $( i )$.

#### **Coeficiente de determinación $( R^2 )$**

El coeficiente de determinación $( R^2 )$ es una medida estadística que indica qué tan bien se ajustan los valores predichos por el modelo a los valores observados. 

$ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} $

Donde:
- $( n )$ es el número total de muestras.
- $( y_i )$ es el valor real de la muestra $( i )$.
- $( \hat{y}_i )$ es la predicción para la muestra $( i )$.
- $( \bar{y} )$ es la media de los valores reales $( y_i )$.

#### **Coeficiente de determinación ajustado $( R^2_{\text{ajustado}} )$**

El coeficiente de determinación ajustado $( R^2_{\text{ajustado}} )$ es una versión corregida del $( R^2 )$ estándar que tiene en cuenta el número de variables explicativas en el modelo.

$ R^2_{\text{ajustado}} = 1 - \frac{(1 - R^2) \cdot (n - 1)}{n - p - 1} $

Donde:
- $( R^2 )$ es el coeficiente de determinación estándar.
- $( n )$ es el número total de muestras.
- $( p )$ es el número de variables predictoras en el modelo.
