## Normalizaci√≥n

Cuando se normalizan las features de un DataFrame con StandardScaler de scikit-learn, cada feature se transforma de forma independiente usando su propio factor de escala (desviaci√≥n est√°ndar) y su propio valor de desplazamiento (media).

### ¬øC√≥mo funciona StandardScaler?

StandardScaler transforma cada feature $ x_i $ de la siguiente manera:

$$
x_i^{\text{scaled}} = \frac{x_i - \mu_i}{\sigma_i}
$$

Donde:

- $ \mu_i $ es la **media** de la feature $ i $, calculada como:

  $$
  \mu_i = \frac{1}{n} \sum_{j=1}^{n} x_{ij}
  $$

- $ \sigma_i $ es la **desviaci√≥n est√°ndar** de la feature $ i $, calculada como:

  $$
  \sigma_i = \sqrt{\frac{1}{n} \sum_{j=1}^{n} (x_{ij} - \mu_i)^2}
  $$

Aqu√≠:

- $ x_{ij} $ es el valor de la feature $ i $ para el ejemplo $ j $
- $ n $ es el n√∫mero total de muestras


Cada feature se escala (y desplaza) con sus propios valores de media y desviaci√≥n est√°ndar.
Esto garantiza que cada columna del DataFrame resultante tenga media 0 y desviaci√≥n est√°ndar 1, permitiendo comparaciones m√°s justas entre features con escalas diferentes.

No se ajusta el modelo para que funcione con las features sin normalizar.
En su lugar, se normalizan tambi√©n las features nuevas (de entrada) antes de usarlas con el modelo entrenado.

### ¬øPor qu√© no se "des-normaliza" el modelo?
Cuando entren√°s un modelo con features normalizadas (por ejemplo, usando `StandardScaler`), los par√°metros internos del modelo se ajustan a esas escalas. Cambiar las escalas de las features despu√©s sin volver a entrenar el modelo afectar√≠a directamente su desempe√±o y precisi√≥n.

### Flujo correcto:

1. Durante el entrenamiento

```python
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline

scaler = StandardScaler()
model = LinearRegression()

# Encapsular todo en un pipeline
pipeline = make_pipeline(scaler, model)

# Entrenar
pipeline.fit(X_train, y_train)
```

2. Durante la predicci√≥n (en producci√≥n):

```python
# Las nuevas features sin normalizar
X_new = ...

# El pipeline ya sabe c√≥mo escalar porque guarda los par√°metros del scaler
y_pred = pipeline.predict(X_new)
```

**‚úÖ El StandardScaler guarda internamente la media y desviaci√≥n est√°ndar, y se usa para transformar los datos nuevos de forma coherente.**

**¬øY si ya ten√©s el modelo entrenado pero quer√©s hacerlo funcionar con features sin escalar?**  
Tendr√≠as que reentrenar el modelo directamente con los datos sin escalar, o hacer ingenier√≠a inversa para "desescalar" los coeficientes del modelo, lo cual es complicado y propenso a errores (y solo posible en modelos lineales simples).

### Conclusi√≥n
* Nunca "desnormalices" el modelo.

* Siempre normaliz√° las nuevas features igual que las del entrenamiento.

* Us√° un `Pipeline` de `scikit-learn` para que esto sea autom√°tico y robusto.

## C√≥mo **guardar** y **cargar** un `Pipeline` con `StandardScaler` y un modelo, usando `joblib` (recomendado por `scikit-learn` para este tipo de tareas).

### ‚úÖ Paso 1: Entrenar, crear y guardar el pipeline

```python
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
import joblib

# Entrenamiento
scaler = StandardScaler()
model = LinearRegression()

# Crear pipeline
pipeline = make_pipeline(scaler, model)

# Ajustar con los datos de entrenamiento
pipeline.fit(X_train, y_train)

# Guardar el pipeline en un archivo
joblib.dump(pipeline, 'modelo_entrenado.pkl')

```

### ‚úÖ Paso 2: Cargar el pipeline entrenado y hacer predicciones

```python
# Cargar el pipeline entrenado desde el archivo
pipeline_cargado = joblib.load('modelo_entrenado.pkl')

# Nuevos datos sin escalar
X_nuevo = ...

# Predecir directamente (el pipeline aplica el StandardScaler internamente)
y_pred = pipeline_cargado.predict(X_nuevo)

```

### üîê ¬øPor qu√© esto es √∫til?
* No necesit√°s preocuparte por guardar `mean_` y `scale_` del scaler.

* Todo est√° encapsulado: el escalado y el modelo.

* Es ideal para producci√≥n o integraci√≥n con APIs.

## Aqu√≠ va un ejemplo completo y funcional con datos ficticios:

### üß™ Ejemplo completo: `StandardScaler` + `LinearRegression` + Pipeline  
### üì¶ Librer√≠as necesarias

```python
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
import joblib

```

### üß∑ 1. Generar datos ficticios

```python
# Datos: 100 samples, 2 features
X = np.random.rand(100, 2) * 100  # Valores entre 0 y 100
y = 3 * X[:, 0] + 2 * X[:, 1] + np.random.randn(100) * 10  # y con algo de ruido

# Separar en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

```

### ‚öôÔ∏è 2. Crear, entrenar y guardar el pipeline

```python
# Crear pipeline con StandardScaler y regresi√≥n lineal
pipeline = make_pipeline(StandardScaler(), LinearRegression())

# Entrenar el pipeline
pipeline.fit(X_train, y_train)

# Guardar el pipeline en un archivo
joblib.dump(pipeline, 'modelo_escalado.pkl')

```

### üß† 3. Cargar y usar el modelo en producci√≥n

```python
# Cargar el pipeline entrenado
modelo_cargado = joblib.load('modelo_escalado.pkl')

# Simular nuevos datos crudos (sin escalar)
X_nuevos = np.array([[10, 20], [50, 60]])

# Predecir
predicciones = modelo_cargado.predict(X_nuevos)

print("Predicciones:", predicciones)

```

### ‚úÖ Salida esperada
Vas a ver las predicciones que el modelo entrenado genera para los datos `[10, 20]` y `[50, 60]`, aplicando internamente el `StandardScaler` con los par√°metros aprendidos durante el entrenamiento.

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline
import joblib

# Datos: 100 samples, 2 features
X = np.random.rand(100, 2) * 100  # Valores entre 0 y 100
y = 3 * X[:, 0] + 2 * X[:, 1] + np.random.randn(100) * 10  # y con algo de ruido

# Separar en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear pipeline con StandardScaler y regresi√≥n lineal
pipeline = make_pipeline(StandardScaler(), LinearRegression())

# Entrenar el pipeline
pipeline.fit(X_train, y_train)

# Guardar el pipeline en un archivo
joblib.dump(pipeline, 'modelo_escalado.pkl')

# Cargar el pipeline entrenado
modelo_cargado = joblib.load('modelo_escalado.pkl')

# Simular nuevos datos crudos (sin escalar)
X_nuevos = np.array([[10, 20], [50, 60]])

# Predecir
predicciones = modelo_cargado.predict(X_nuevos)

print("Predicciones:", predicciones)


Predicciones: [ 64.80315401 268.28548109]


# ¬øPara qu√© sirve `joblib`?

`joblib` es una biblioteca de Python muy usada para:

---

## ‚úÖ Guardar y cargar objetos grandes y complejos de forma eficiente

Especialmente √∫til cuando trabaj√°s con:

- Modelos entrenados (`scikit-learn`, `XGBoost`, etc.)
- `Pipeline`s (escaladores + modelos)
- Objetos de NumPy grandes (como matrices o vectores)
- Listas, diccionarios, funciones, clases, etc.

---

## üì¶ ¬øPara qu√© se usa normalmente?

### 1. Guardar modelos entrenados

```python
import joblib

joblib.dump(modelo_entrenado, 'modelo.pkl')
```

### 2. Cargar modelos ya entrenados

```python
modelo = joblib.load('modelo.pkl')
```

### üÜö ¬øPor qu√© no pickle?
* joblib est√° optimizado para trabajar con arrays grandes de NumPy, lo cual es muy com√∫n en machine learning.

* Es m√°s r√°pido y eficiente que pickle para objetos como modelos de scikit-learn.

üîß Internamente, joblib usa compresi√≥n y almacenamiento binario eficiente.

### üß† ¬øCu√°ndo usar joblib?

| Situaci√≥n                                | ¬øUsar `joblib`?                |
| ---------------------------------------- | ------------------------------ |
| Guardar modelo de ML                     | ‚úÖ S√≠                           |
| Guardar grandes arrays de NumPy          | ‚úÖ S√≠                           |
| Guardar objetos comunes (texto, n√∫meros) | ‚ùå Mejor usar `pickle` o `json` |
| Reutilizar pipelines o transformadores   | ‚úÖ S√≠                           |
