# üß† Entendimiento del problema de negocio

## ‚úÖ Pasos generales en un problema de clasificaci√≥n

1. **Entendimiento del problema** (selecci√≥n de la m√©trica m√°s adecuada)  
2. **Obtenci√≥n de datos y primer contacto**  
3. **Divisi√≥n en Train y Test**  
4. **MiniEDA**: An√°lisis del target, an√°lisis bivariante, entendimiento de las features, selecci√≥n de las mismas (si es necesario)  
5. **Preparaci√≥n del dataset de Train**: Conversi√≥n de categ√≥ricas, tratamiento de num√©ricas  
6. **Selecci√≥n e instanciaci√≥n de modelos**. Baseline.  
7. **Comparaci√≥n de modelos** (por validaci√≥n cruzada o tras optimizaci√≥n de hiperpar√°metros)  
8. **Selecci√≥n de modelo final**: Optimizaci√≥n de hiperpar√°metros  
9. **Equilibrado del train set**  
10. **Evaluaci√≥n contra test**  
11. **An√°lisis de errores y acciones futuras**  
12. **Persistencia del modelo en disco**

---

## üß© Gu√≠a pr√°ctica: ¬øQu√© m√©trica usar seg√∫n el problema?

### 1. Clasificaci√≥n binaria

| Negocio te dice... | Qu√© es importante | M√©trica principal | M√©tricas complementarias |
|--------------------|-------------------|-------------------|---------------------------|
| "Evita tratar a quien no lo necesita" | Minimizar FP | **Precision** | F1, matriz de confusi√≥n |
| "No podemos dejar sin tratar a un enfermo" | Minimizar FN | **Recall** | F1, curva PR |
| "Queremos equilibrio entre FP y FN" | Balance | **F1-score** | ROC-AUC, curva PR |
| "Queremos minimizar costes" | Costes espec√≠ficos | **Custom loss** | Coste por predicci√≥n |

> ‚ö†Ô∏è **Evitar accuracy si hay desbalance**

---

### 2. Clasificaci√≥n multiclase

| Escenario | M√©tricas clave |
|----------|----------------|
| Clases equilibradas | Accuracy, macro F1 |
| Clases desbalanceadas | Recall por clase, weighted F1 |
| Coste desigual por clase | M√©tricas ponderadas (confusi√≥n por clase) |

---

### 3. Regresi√≥n

| Negocio te dice... | Qu√© medir | M√©trica recomendada | Alternativas |
|--------------------|-----------|----------------------|--------------|
| "Que no se equivoque mucho de media" | Error medio | **MAE** | MSE |
| "Castiga m√°s los errores grandes" | Errores extremos | **RMSE** | MAE |
| "Nos importa el porcentaje de error" | Escala relativa | **MAPE** | MAE, RMSE |
| "Queremos saber si mejora la media" | Explicaci√≥n global | **R¬≤** | RMSE, MAE |

---

### 4. Agrupamiento (Clustering)

| Tipo de validaci√≥n | M√©trica recomendada |
|--------------------|---------------------|
| Interna (sin etiquetas reales) | Silhouette Score, Davies-Bouldin |
| Externa (con etiquetas reales) | ARI, NMI, Homogeneity |

---

### 5. Series temporales

| Requisito de negocio | M√©trica recomendada |
|----------------------|---------------------|
| Error absoluto | MAE |
| Penalizar errores altos | RMSE |
| Comparaci√≥n relativa | sMAPE, MASE |
| Evaluaci√≥n visual | Gr√°fico real vs predicci√≥n |

---

## üìå Esquema r√°pido de decisi√≥n

```markdown
# ¬øQu√© tipo de problema tengo?
- Binario ‚Üí Precision / Recall / F1
- Multiclase ‚Üí Accuracy / macro F1
- Regresi√≥n ‚Üí MAE, RMSE, MAPE
- Clustering ‚Üí Silhouette, ARI
- Series temporales ‚Üí MAE, RMSE, sMAPE

# ¬øQu√© me pide negocio?
- ¬øEvitar errores graves? ‚Üí Precision / Recall
- ¬øEvitar errores grandes? ‚Üí RMSE
- ¬øMedir error medio? ‚Üí MAE
- ¬øMedir % de error? ‚Üí MAPE
- ¬øExplicabilidad? ‚Üí R¬≤

# ¬øQu√© hago para comparar?
- M√©trica principal + matriz de confusi√≥n o gr√°fico
- Validaci√≥n cruzada si hay pocos datos


# üß† SPRINT 14: ML - Modelos No Supervisados II

## üîª Reducci√≥n de Dimensionalidad

### üåå Maldici√≥n de la Dimensionalidad

- Cada instancia de un dataset es un vector en un espacio de `n` dimensiones.
- A mayor n√∫mero de features, mayor complejidad y **dispersi√≥n** de los datos.
- El n√∫mero de muestras necesarias para representar correctamente la informaci√≥n **crece exponencialmente** con el n√∫mero de dimensiones.

#### Consecuencias:
- Las instancias se alejan entre s√≠ ‚Üí m√°s dif√≠cil detectar patrones.
- Riesgo de **overfitting**: nuevas observaciones se encuentran demasiado lejos de los datos originales.
- Modelos menos robustos y generalizables.

#### Soluci√≥n parcial:
- Incrementar el conjunto de entrenamiento.
- Aplicar **reducci√≥n de dimensionalidad** para simplificar el espacio de representaci√≥n.

---

## üéØ Objetivos de la Reducci√≥n de Dimensionalidad

- Reducir la complejidad del modelo.
- Mejorar la **capacidad de generalizaci√≥n**.
- Disminuir el tiempo de procesamiento.
- Eliminar ruido e irrelevancia.
- Hacer m√°s robustos los modelos ante datos nuevos.

---

## üß∞ Tipos de Reducci√≥n

### 1. Selecci√≥n de Features (Feature Selection)

- Se **mantienen las variables originales**, seleccionando solo las m√°s relevantes.
- Puede hacerse con m√©todos **supervisados o no supervisados**.
- Pros:
  - Interpretabilidad total.
- Contras:
  - Se pierde la informaci√≥n de las relaciones entre features descartadas.
  - Riesgo de no capturar combinaciones informativas.

### 2. Transformaci√≥n de Features (Feature Extraction)

- Se **crean nuevas variables** a partir de combinaciones de las originales.
- Las nuevas variables pueden ser no interpretables directamente.
- Proceso de **transformaci√≥n + selecci√≥n**.
- Se busca condensar la informaci√≥n conservando la m√°xima varianza.

---

## üßÆ T√©cnicas de Transformaci√≥n: Proyecci√≥n

La proyecci√≥n transforma los datos a un espacio de menor dimensi√≥n preservando la mayor cantidad posible de informaci√≥n.

### üìå PCA (An√°lisis de Componentes Principales)

- Crea nuevas variables (componentes) como combinaciones lineales de las originales.
- Se ordenan por varianza explicada.
- Permite elegir cu√°ntas componentes mantener seg√∫n la varianza acumulada deseada.
- Muy √∫til para visualizaci√≥n en 2D o 3D y como paso previo a clustering.

```python
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
```

## üßÆ Introducci√≥n a PCA (Principal Component Analysis)

### üìå ¬øQu√© es PCA?

El An√°lisis de Componentes Principales (PCA) es una t√©cnica estad√≠stica de **proyecci√≥n** que:

- Transforma un conjunto de variables originales correlacionadas en un conjunto nuevo de **componentes principales** no correlacionadas.
- Busca **reducir la dimensionalidad** de un dataset manteniendo la **mayor cantidad posible de varianza** (informaci√≥n).
- Es muy √∫til para simplificar espacios con muchas dimensiones, reduciendo ruido y facilitando el an√°lisis.

---

### üéØ Objetivo de PCA

> Dado un dataset con `n` individuos y `p` variables (X‚ÇÅ, X‚ÇÇ, ..., X‚Çö), PCA intenta encontrar un n√∫mero `z < p` de **factores subyacentes** que expliquen casi la misma informaci√≥n que las `p` variables originales.

Cada una de estas nuevas variables se llama **componente principal (CP)**.

---

### ‚öôÔ∏è ¬øC√≥mo funciona?

1. **Transformaci√≥n**:
   A partir de `m` features originales (x‚ÇÅ, x‚ÇÇ, ..., x‚Çò), PCA genera **m componentes principales**, combinando las variables originales:

CP1 = c‚ÇÅ‚ÇÄ¬∑z‚ÇÄ + c‚ÇÅ‚ÇÅ¬∑z‚ÇÅ + c‚ÇÅ‚ÇÇ¬∑z‚ÇÇ + ... + c‚ÇÅ‚Çò¬∑z‚Çò


2. **Orden de importancia**:
- Las componentes est√°n ordenadas por **varianza explicada**.
- `CP1` es la m√°s informativa, `CP2` la segunda, y as√≠ sucesivamente.
- Se seleccionan las `n` primeras componentes que explican un **porcentaje deseado** de la varianza original.

3. **Reducci√≥n**:
- Cada nueva observaci√≥n se representa por sus valores en las `n` componentes seleccionadas.
- Es decir, las features pasan a ser los valores proyectados en el nuevo espacio.

---

### üìä ¬øQu√© representa la "informaci√≥n"?

En PCA, la **informaci√≥n** se asocia a la **varianza**:

- Se intenta **maximizar la varianza** capturada por cada componente.
- Se preservan tambi√©n las **covarianzas** entre variables, reflejando la estructura interna del dataset.

> **Cuanta m√°s varianza conserva un componente, m√°s "informativo" es.**

---

### üìê ¬øQu√© hace PCA exactamente?

- Identifica los **hiperplanos** del espacio de variables que **maximizan la varianza**.
- **Proyecta** los datos sobre esos hiperplanos, minimizando la p√©rdida de informaci√≥n.
- Reduce el n√∫mero de dimensiones manteniendo la estructura de los datos.

---

### üß† ¬øPara qu√© se utiliza PCA?

- üîç **Extracci√≥n de patrones**: permite detectar similitudes y diferencias en los datos.
- ‚úÇÔ∏è **Reducci√≥n de dimensionalidad**: √∫til en datasets con cientos o miles de variables.
- üìâ **Visualizaci√≥n**: transforma datos de muchas dimensiones a 2D o 3D para facilitar su representaci√≥n gr√°fica.
- ‚öôÔ∏è **Preprocesamiento previo a clustering o modelos supervisados**: mejora eficiencia y reduce sobreajuste.

---

### üìå Ejemplo pr√°ctico en c√≥digo

```python
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Escalado de los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Aplicaci√≥n de PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Varianza explicada
print(pca.explained_variance_ratio_)
```

‚úÖ Resumen: PCA es una t√©cnica de transformaci√≥n no supervisada que permite simplificar datasets complejos sin perder informaci√≥n esencial. Ideal para visualizar, reducir dimensionalidad y preparar datos para clustering o modelado.


## ‚öôÔ∏è Algoritmo PCA

### üß† Conceptos matem√°ticos clave

---

#### üìä Matriz de Covarianza

La **covarianza** mide en qu√© medida dos variables var√≠an conjuntamente respecto a sus medias:

- Si `Cov(X, Y) > 0`: ambas variables tienden a aumentar juntas (relaci√≥n positiva).
- Si `Cov(X, Y) < 0`: cuando una sube, la otra tiende a bajar (relaci√≥n negativa).
- Si `Cov(X, Y) = 0`: no hay relaci√≥n lineal entre las variables.

**F√≥rmula de la covarianza:**

\[
\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})
\]

- La **matriz de covarianza** recoge todas las covarianzas posibles entre pares de variables.
- Es similar a la **matriz de correlaci√≥n**, pero sin escalar los valores. La correlaci√≥n est√° acotada entre -1 y 1, la covarianza no.

Ejemplo para un dataset con dos features `b‚ÇÄ` y `b‚ÇÅ`:

\[
\text{CovMatrix} =
\begin{bmatrix}
\text{Cov}(b_0, b_0) & \text{Cov}(b_0, b_1) \\
\text{Cov}(b_1, b_0) & \text{Cov}(b_1, b_1)
\end{bmatrix}
\]

---

#### üß© Autovalores y Autovectores

En √°lgebra lineal:

- Un **autovector** de una matriz es un vector que no cambia de direcci√≥n al multiplicarse por dicha matriz.
- El escalar asociado se llama **autovalor** (Œª).

\[
A \cdot v = \lambda \cdot v
\]

Donde:
- `A` es una matriz cuadrada.
- `v` es un autovector (|v| = 1).
- `Œª` es el autovalor (potencia explicativa).

**Propiedades:**
- La matriz debe ser cuadrada.
- Hay tantos autovalores como dimensiones tenga la matriz.
- Los autovectores son ortogonales entre s√≠.
- Cada autovalor indica cu√°nta **varianza** (informaci√≥n) aporta el autovector asociado.

En PCA:
- Los **autovectores** de la matriz de covarianza se convierten en los **componentes principales**.
- Los **autovalores** indican la **importancia relativa** de cada componente.

---

### üßÆ Pasos del algoritmo PCA

1. **Estandarizar los datos**  
   PCA es sensible a la escala ‚Üí imprescindible escalar con `StandardScaler` o similar.

2. **Calcular la matriz de covarianza**  
   Analiza c√≥mo var√≠an conjuntamente las variables del dataset.

3. **Obtener autovalores y autovectores**  
   Se descompone la matriz de covarianza para obtener las **direcciones de m√°xima varianza**.

4. **Ordenar los componentes**  
   Los autovectores se ordenan seg√∫n sus autovalores de mayor a menor ‚Üí obtenemos los **componentes principales**.

5. **Construir el nuevo espacio**  
   Se seleccionan los `k` primeros componentes principales seg√∫n la **varianza acumulada deseada**.

6. **Transformar el dataset**  
   Aplicamos los autovectores seleccionados al dataset original ‚Üí obtenemos el dataset reducido.

---

### üß≠ Elecci√≥n del n√∫mero de componentes

- Seleccionamos cu√°ntos componentes mantener seg√∫n el porcentaje de **varianza explicada acumulada**.
- Si nos quedamos con todos los componentes, simplemente transformamos el dataset sin p√©rdida de informaci√≥n.
- **El objetivo es reducir**, no solo transformar, por lo que tiene sentido quedarse con los componentes m√°s explicativos.

---

### ‚ö†Ô∏è Consideraciones importantes

- **Escalado de variables**  
  PCA maximiza la varianza ‚Üí hay que asegurarse de que todas las variables est√©n en la misma escala.

- **Outliers**  
  La varianza es muy sensible a valores at√≠picos ‚Üí estudiar y tratar los outliers antes de aplicar PCA.

- **Varianza explicada**  
  Permite saber cu√°nta informaci√≥n se pierde al reducir la dimensionalidad. Lo ideal es usar el menor n√∫mero de componentes que expliquen un alto porcentaje (por ejemplo, 90-95%).

```python
# Ejemplo en c√≥digo
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

pca = PCA(n_components=0.95)  # Mantener el 95% de la varianza
X_pca = pca.fit_transform(X_scaled)

print(pca.explained_variance_ratio_)  # Varianza explicada por componente
```
‚úÖ Resumen:
El algoritmo PCA transforma el espacio de datos buscando las direcciones que maximizan la varianza, y permite comprimir datasets muy complejos en un espacio reducido con m√≠nima p√©rdida de informaci√≥n.

La obtenci√≥n de la PCA siguentes pasos:  
1. Escalado de las variables  
2. Instanciaci√≥n PCA   
3. "Entrenamiento"  
4. Mostrar valores PCA [No siempre es necesario] en funci√≥n de las features iniciales
5. An√°lisis de la varianza Explicada: Selecci√≥n del n√∫mero de componentes necesarias [Depende de la aplicaci√≥n]  
6. Generaci√≥n del dataset "PCAdo"