# PIPELINES Y TRANSFORMADORES

## TRANSFORMADORES
Los transformadores en machine learning son herramientas fundamentales para la preparación y procesamiento de datos antes de entrenar modelos. Un transformador es un objeto que implementa métodos para ajustar (fit) y transformar (transform) datos, permitiendo aplicar operaciones como escalado, normalización, codificación de variables categóricas, imputación de valores faltantes, entre otros.

### Características principales de los transformadores

- **Ajuste (`fit`)**: Analiza los datos de entrada para aprender parámetros necesarios para la transformación (por ejemplo, calcular la media y desviación estándar para normalizar).
- **Transformación (`transform`)**: Aplica la transformación aprendida a los datos, modificando su representación.
- **Composición**: Los transformadores pueden combinarse en secuencias (pipelines) para aplicar múltiples transformaciones de manera ordenada y reproducible.

### Ejemplos comunes de transformadores

- **StandardScaler**: Normaliza los datos para que tengan media cero y desviación estándar uno.
- **MinMaxScaler**: Escala los datos a un rango específico, generalmente entre 0 y 1.
- **OneHotEncoder**: Convierte variables categóricas en variables binarias.
- **SimpleImputer**: Rellena valores faltantes con la media, mediana o un valor constante.

### Importancia en el flujo de trabajo

El uso de transformadores garantiza que el preprocesamiento de los datos sea consistente y reproducible, especialmente cuando se integran en pipelines. Esto facilita la validación cruzada, la automatización y la implementación de modelos en producción.

En resumen, los transformadores son esenciales para preparar los datos de manera adecuada, mejorar el rendimiento de los modelos y asegurar la integridad del proceso de machine learning.

## PIPELINES
Los **pipelines** en machine learning son estructuras que permiten encadenar múltiples pasos de procesamiento y modelado de datos en un flujo ordenado y reproducible. Un pipeline integra transformadores y modelos en una sola entidad, facilitando la automatización y la gestión del ciclo completo de aprendizaje automático.

### Características principales de los pipelines

- **Secuencia de pasos**: Un pipeline está compuesto por una serie de pasos, donde cada paso puede ser un transformador (preprocesamiento) o un estimador (modelo de machine learning).
- **Reproducibilidad**: Al definir el flujo completo en un solo objeto, se garantiza que el procesamiento de datos y el entrenamiento del modelo sean consistentes en cada ejecución.
- **Automatización**: Permite aplicar el mismo flujo de trabajo a nuevos datos sin necesidad de repetir manualmente cada transformación.
- **Validación cruzada integrada**: Facilita la validación cruzada de todo el proceso, evitando el riesgo de fugas de datos entre el preprocesamiento y el entrenamiento.

### Ejemplo de pipeline típico

Un pipeline puede incluir los siguientes pasos:
1. **Imputación de valores faltantes** (por ejemplo, con `SimpleImputer`)
2. **Escalado de características** (por ejemplo, con `StandardScaler`)
3. **Codificación de variables categóricas** (por ejemplo, con `OneHotEncoder`)
4. **Entrenamiento de un modelo** (por ejemplo, con `RandomForestClassifier`)

### Ventajas de usar pipelines

- **Simplicidad**: Reduce la complejidad del código y mejora la legibilidad.
- **Prevención de fugas de datos**: Asegura que las transformaciones se ajusten solo en los datos de entrenamiento.
- **Facilidad de despliegue**: El pipeline puede guardarse y reutilizarse en producción.
- **Optimización conjunta**: Permite ajustar hiperparámetros de todo el flujo mediante herramientas como `GridSearchCV`.

### Implementación en scikit-learn

En `scikit-learn`, los pipelines se implementan mediante la clase `Pipeline`. Ejemplo:

```python
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier

pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier())
])
```

### Conclusión

Los pipelines son herramientas esenciales para estructurar, automatizar y asegurar la calidad de los procesos de machine learning, desde el preprocesamiento hasta la predicción final. Facilitan la colaboración, el mantenimiento y el despliegue de soluciones robustas y reproducibles.

# Evaluacion de Resultados
La evaluación de resultados en machine learning es el proceso de medir el desempeño de un modelo sobre datos de prueba o validación. Es fundamental para determinar si el modelo cumple con los objetivos planteados y para comparar diferentes enfoques.

## Objetivos de la evaluación

- **Medir la precisión y utilidad del modelo**
- **Detectar sobreajuste o subajuste**
- **Comparar modelos y seleccionar el mejor**
- **Ajustar hiperparámetros y mejorar el rendimiento**

## Tipos de métricas de evaluación

Las métricas varían según el tipo de problema:

### 1. **Clasificación**
- **Accuracy (Exactitud):** Proporción de predicciones correctas.
- **Precision (Precisión):** Proporción de verdaderos positivos entre los predichos como positivos.
- **Recall (Sensibilidad):** Proporción de verdaderos positivos entre los casos realmente positivos.
- **F1-score:** Media armónica entre precisión y recall.
- **Matriz de confusión:** Tabla que muestra los aciertos y errores por clase.
- **ROC-AUC:** Área bajo la curva ROC, mide la capacidad de discriminación.

### 2. **Regresión**
- **Mean Absolute Error (MAE):** Promedio de errores absolutos.
- **Mean Squared Error (MSE):** Promedio de errores al cuadrado.
- **Root Mean Squared Error (RMSE):** Raíz cuadrada del MSE.
- **R² (Coeficiente de determinación):** Proporción de la varianza explicada por el modelo.

### 3. **Clustering**
- **Silhouette Score:** Mide la separación entre los grupos.
- **Davies-Bouldin Index:** Evalúa la compacidad y separación de los clusters.

## Validación cruzada

La **validación cruzada** es una técnica para evaluar el modelo de manera más robusta, dividiendo los datos en varios subconjuntos y entrenando/evaluando el modelo en diferentes particiones. La más común es la **k-fold cross-validation**.

## Consideraciones importantes

- **Evitar fugas de datos:** Las métricas deben calcularse sobre datos no vistos por el modelo durante el entrenamiento.
- **Balance de clases:** En problemas desbalanceados, métricas como accuracy pueden ser engañosas; es mejor usar precisión, recall y F1-score.
- **Interpretabilidad:** Elegir métricas que sean comprensibles y relevantes para el problema de negocio.

## Visualización de resultados

- **Curvas ROC y Precision-Recall**
- **Gráficos de residuales en regresión**
- **Matriz de confusión**

## Conclusión

La evaluación de resultados es esencial para validar la calidad y utilidad de los modelos de machine learning. Permite tomar decisiones informadas sobre ajustes, selección y despliegue de modelos en producción.

## Matriz de confusion
La **matriz de confusión** es una herramienta fundamental para evaluar el desempeño de modelos de clasificación. Permite visualizar el número de predicciones correctas e incorrectas realizadas por el modelo, comparando las clases reales con las clases predichas.

### ¿Cómo se interpreta?

Una matriz de confusión para un problema de clasificación binaria tiene la siguiente estructura:

|                | Predicción Positiva | Predicción Negativa |
|----------------|--------------------|--------------------|
| **Real Positiva** | Verdadero Positivo (TP) | Falso Negativo (FN) |
| **Real Negativa** | Falso Positivo (FP)     | Verdadero Negativo (TN) |

- **TP (True Positive):** Casos positivos correctamente clasificados.
- **TN (True Negative):** Casos negativos correctamente clasificados.
- **FP (False Positive):** Casos negativos clasificados incorrectamente como positivos.
- **FN (False Negative):** Casos positivos clasificados incorrectamente como negativos.

### Ejemplo visual

Supongamos que tenemos los siguientes resultados:

|                | Predicción: Sí | Predicción: No |
|----------------|:-------------:|:--------------:|
| **Real: Sí**   |      50       |      10        |
| **Real: No**   |      5        |      35        |

- **TP = 50**
- **FN = 10**
- **FP = 5**
- **TN = 35**

### ¿Por qué es útil?

La matriz de confusión permite calcular métricas como **accuracy**, **precision**, **recall** y **F1-score**, proporcionando una visión más detallada de los errores del modelo y ayudando a identificar posibles problemas como el desbalance de clases.

### Visualización en Python

Se puede generar fácilmente con `scikit-learn`:

```python
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# y_true: etiquetas reales, y_pred: etiquetas predichas
cm = confusion_matrix(y_true, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()
```

La matriz de confusión es esencial para entender cómo y dónde el modelo está fallando, permitiendo mejorar su desempeño y tomar decisiones informadas.

**Precision**
- Se calcula dividiendo el numero de verdaderos positivos por la suma del numero de verdaderos positivos y numero de falsos positivos.
$$
Presicion=\frac{VerdaderosPositivos}{VerdaderosPositivos+FalsosPostivos}
$$
**Exhaustividad**
- Se calcula dividiendo el numero de verdaderos positivos por la suma del numero de verdaderos positivos y numero de falsos negativos.
$$
Recall=\frac{VerdaderosPositivos}{VerdaderosPositivos+FalsosNegativos}
$$
**F1-score**
- Se puede interpretar como un promedio ponderado de la precision y la exactitud recall, donde el F1-score alcanza su mejor valor en 1 y el peor puntaje en 0.
- La contribucion relativa de la precision y la exactitud al F1-score es la misma.
- La formula es:
$$
F1=2*\frac{precision*recall}{precision+recall}
$$

**Curvas ROC (Receiver Operating Characteristic)**
- Las curvas ROC suelen representar la tasa de verdaderos positivos en el eje Y y la una tasa de falsos positivos en el eje X. Esto significa que la esquina superior izquierda de la gráfica es el punto "ideal", una tasa de falsos positivos de cero y una tasa de verdaderos positivos de uno. Como consecuencia un área más grande debajo de la curva (AUC) suele ser mejor.

Las **curvas ROC** son una herramienta gráfica utilizada para evaluar el rendimiento de modelos de clasificación binaria. Permiten visualizar la relación entre la **tasa de verdaderos positivos** (sensibilidad o recall) y la **tasa de falsos positivos** a diferentes umbrales de decisión.

- **Interpretación:** Una curva ROC que se acerca a la esquina superior izquierda indica un modelo con buen poder de discriminación. El área bajo la curva (**AUC**) cuantifica este desempeño: un AUC de 1 representa un modelo perfecto, mientras que un AUC de 0.5 indica un modelo sin capacidad de discriminación.

- **Utilidad:** Las curvas ROC son especialmente útiles cuando las clases están desbalanceadas, ya que muestran cómo varía el rendimiento del modelo según el umbral de clasificación.

- **Visualización en Python:** Se pueden generar fácilmente con `scikit-learn` usando las funciones `roc_curve` y `RocCurveDisplay`:

```python
from sklearn.metrics import roc_curve, RocCurveDisplay

# y_true: etiquetas reales, y_score: probabilidades predichas
fpr, tpr, thresholds = roc_curve(y_true, y_score)
RocCurveDisplay(fpr=fpr, tpr=tpr).plot()
```
Las curvas ROC ayudan a seleccionar el umbral óptimo y comparar diferentes modelos de clasificación.

**Curvas PR (Precision-Recall)**
- Curva PR: Un área grande debajo de la curva representa tanto alta exactitud como alta precisión, donde la alta precisión se relaciona con una baja tasa de falsos positivos, y la alta exactitud se relaciona con una baja tasa de falsos negativos. La esquina superior izquierda de la gráfica es el punto "ideal".

Las **curvas Precision-Recall (PR)** son herramientas gráficas que muestran la relación entre la **precisión** y la **exhaustividad (recall)** de un modelo de clasificación a diferentes umbrales de decisión. Son especialmente útiles en problemas con clases desbalanceadas, donde la métrica de precisión puede ser más informativa que la exactitud global.

- **Interpretación:** Una curva PR que se acerca a la esquina superior derecha indica un modelo con alto rendimiento, es decir, alta precisión y alta exhaustividad. El área bajo la curva (**AUC-PR**) resume el desempeño general del modelo: valores cercanos a 1 indican mejor rendimiento.

- **Utilidad:** Las curvas PR permiten identificar el umbral óptimo para maximizar la precisión y la exhaustividad, y comparar modelos en contextos donde los falsos positivos y falsos negativos tienen diferentes costos.

- **Visualización en Python:** Se pueden generar fácilmente con `scikit-learn` usando las funciones `precision_recall_curve` y `PrecisionRecallDisplay`:

```python
from sklearn.metrics import precision_recall_curve, PrecisionRecallDisplay

# y_true: etiquetas reales, y_score: probabilidades predichas
precision, recall, thresholds = precision_recall_curve(y_true, y_score)
PrecisionRecallDisplay(precision=precision, recall=recall).plot()
```

Las curvas PR son fundamentales para evaluar modelos en escenarios donde la clase positiva es poco frecuente y la precisión es crítica.
