# Fase 2: Limpieza y Transformaci√≥n de Datos

Objetivo: Corregir los problemas identificados en la Fase 1 y enriquecer el dataset para prepararlo para el modelado. La calidad y el rendimiento de tu futuro modelo dependen casi por completo de la calidad de esta fase.



### Manejo de nulos
* **C√≥digo de Ejemplo:** `df['col'].fillna(df['col'].median())` o `df.dropna()`
* **Consejo Profesional:** Usa la mediana si hay valores at√≠picos (outliers). Eliminar filas o columnas es el √∫ltimo recurso.

---

### Conversi√≥n de tipos
* **C√≥digo de Ejemplo:** `df['fecha'] = pd.to_datetime(df['fecha'])`
* **Consejo Profesional:** Los identificadores (IDs) num√©ricos deber√≠an tratarse como texto (strings) para evitar c√°lculos incorrectos.

---

### Eliminar duplicados
* **C√≥digo de Ejemplo:** `df.drop_duplicates(inplace=True)`
* **Consejo Profesional:** Revisa los duplicados antes de eliminarlos, ya que su presencia puede indicar errores en el proceso de recolecci√≥n de datos.

---

### Detecci√≥n y tratamiento de outliers
* **C√≥digo de Ejemplo:**
    ```python
    Q1 = df['col'].quantile(0.25)
    Q3 = df['col'].quantile(0.75)
    IQR = Q3 - Q1
    df = df[df['col'] < Q3 + 1.5*IQR]
    ```
* **Consejo Profesional:** Visualiza los datos con un `boxplot` de Seaborn (`sns.boxplot`). Otras t√©cnicas incluyen la transformaci√≥n logar√≠tmica o la winsorizaci√≥n.

---

### Ingenier√≠a de variables
* **C√≥digo de Ejemplo:** `df['volumen_total'] = df['sets'] * df['reps']` o `df['dia_semana'] = df['fecha'].dt.dayofweek`
* **Consejo Profesional:** En este paso es donde aplicas tu conocimiento del negocio para crear nuevas caracter√≠sticas relevantes.

---

### Codificar categ√≥ricas
* **C√≥digo de Ejemplo:** `pd.get_dummies(df, columns=['cat1'], drop_first=True)`
* **Consejo Profesional:** Usa `drop_first=True` para evitar la multicolinealidad. Para variables con un orden inherente (ordinales), considera usar `OrdinalEncoder`.

---

### Escalado de datos
* **C√≥digo de Ejemplo:**
    ```python
    from sklearn.preprocessing import StandardScaler
    scaler = StandardScaler()
    ```
* **Consejo Profesional:** Tambi√©n puedes considerar otras t√©cnicas como `MinMaxScaler` (para escalar a un rango espec√≠fico) o `RobustScaler` (si hay outliers).

---

### Guardar datos procesados
* **C√≥digo de Ejemplo:** `df.to_csv('data/processed/datos_limpios.csv', index=False)`
* **Consejo Profesional:** Usa `index=False` para evitar que el √≠ndice del DataFrame se guarde como una columna en el archivo CSV.

---


## [__] verificar nombres de columnas 
## [__] Identificar columnas con un solo valor
## [__] datos a minuscula

---


## [__] 1. Eliminar duplicados


In [None]:
# [   ]Calcula el n√∫mero de duplicados antes de eliminarlos.
dups_before = df_clean.duplicated().sum()

#[    ] Elimina las filas duplicadas, manteniendo la primera aparici√≥n.
df_clean.drop_duplicates(inplace=True)

#Consejo Profesional: A veces, las filas pueden estar duplicadas
# solo en un subconjunto de columnas clave (ej., id_cliente y 
# fecha_compra). Puedes especificar estas columnas con el par√°metro
# subset: df_clean.drop_duplicates(subset=['id_cliente', 
# 'fecha_compra'], inplace=True).



## [__] Revisar duplicados parciales : mismo nombre y correo pero diferente ID
## [__] Revisar claves primarias  ¬øhay valores repetidos

---

## [__] 2. Eliminar o imputar valores nulos


In [None]:
# [   ] --- Estrategia 1: Imputaci√≥n para columnas num√©ricas ---
# Si la distribuci√≥n es sesgada (como viste en el histograma), la mediana es m√°s robusta que la media.
median_value = df_clean['columna_numerica_con_nulos'].median()
df_clean['columna_numerica_con_nulos'].fillna(median_value, inplace=True)

# [   ] --- Estrategia 2: Imputaci√≥n para columnas categ√≥ricas ---
# La moda (el valor m√°s frecuente) es la mejor opci√≥n para imputar categor√≠as.
mode_value = df_clean['columna_categorica_con_nulos'].mode()[0]
df_clean['columna_categorica_con_nulos'].fillna(mode_value, inplace=True)

# [   ] --- Estrategia 3: Eliminaci√≥n de filas ---
# √ösalo como √∫ltimo recurso si una fila tiene demasiados datos importantes faltantes.
# 'subset' especifica la columna a revisar para la eliminaci√≥n.
df_clean.dropna(subset=['columna_clave_con_nulos'], inplace=True)

#[  ]Consejo Profesional: La decisi√≥n de imputar o eliminar 
# depende del contexto del negocio y la cantidad de datos 
# faltantes. Si una columna tiene >50% de nulos, considera 
# eliminar la columna por completo.



---

## [__] 3. Correcci√≥n de Tipos de Datos (Dtypes)
Meta: Asegurarse de que cada columna tenga el tipo de dato correcto para poder realizar operaciones y an√°lisis adecuados.




In [None]:
#[____] --- Convertir a tipo Fecha (datetime) ---
# Es fundamental para poder realizar operaciones de series de tiempo.
# 'errors='coerce'' convertir√° las fechas no v√°lidas en NaT (Not a Time),
# que puedes manejar despu√©s.
df_clean['columna_fecha'] = pd.to_datetime(df_clean['columna_fecha'], errors='coerce')


# [___]--- Convertir a tipo Categ√≥rico (category) ---
# Es m√°s eficiente en memoria que el tipo 'object' para columnas con un n√∫mero 
# limitado de valores √∫nicos.
df_clean['columna_a_categoria'] = df_clean['columna_a_categoria'].astype('category') 


# [___] --- Convertir a tipo Num√©rico (int, float) ---
# √ötil si tienes n√∫meros almacenados como texto (ej. '$1,200.50').
# Primero, necesitas limpiar los caracteres no num√©ricos.
df_clean['columna_dinero'] = df_clean['columna_dinero'].replace({'\$': '', ',': ''}, regex=True).astype(float)

### [__] Eliminar simbolos no numericos
### [__] Detectar valores negativos donde no deberia
### [__] elimianr caracteres especiales si es posible


---

# [__] 4. Corregir formatos


In [None]:
df['col'] = df['col'].str.strip().str.lower().str.replace('  ', ' ')

---

## [___] 5. Manejo de Outliers en An√°lisis de Datos




### [__] Detecci√≥n de Outliers
    M√©todos:
    --    * Boxplot / Gr√°ficos
       * Z-Score
            ¬øQu√© es? Calcula cu√°ntas desviaciones est√°ndar se aleja un punto de la media. Un umbral com√∫n es un Z-score de +/- 3.
            Ideal para: Datos que siguen una distribuci√≥n normal (Gaussiana). Es sensible a los propios outliers que inflan la media y la desviaci√≥n est√°ndar.
        * IQR
                ¬øQu√© es? Un outlier es cualquier valor que cae fuera del siguiente rango: [Q1 - 1.5 * IQR, Q3 + 1.5 * IQR].
                Ideal para: Distribuciones asim√©tricas o cuando no quieres asumir una distribuci√≥n normal. Es el m√©todo m√°s com√∫n y robusto.
        Distribuci√≥n y visualizaci√≥n
        MAD (desviaci√≥n absoluta de la mediana)
            se utiliza para medir la dispersi√≥n de un conjunto de datos, especialmente cuando se busca una medida robusta que no sea sensible a valores at√≠picos o extremos

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

#[__] Visualizar
sns.boxplot(data=df[['columna1', 'columna2']])
plt.title('Boxplot para detectar outliers')
plt.show()

# [__] Z-Score
from scipy import stats
import numpy as np

z_scores = np.abs(stats.zscore(df.select_dtypes(include='number')))
df_outliers_z = df[(z_scores > 3).any(axis=1)]


#[__] IQR
Q1 = df['columna'].quantile(0.25)
Q3 = df['columna'].quantile(0.75)
IQR = Q3 - Q1
lim_inf = Q1 - 1.5 * IQR
lim_sup = Q3 + 1.5 * IQR
outliers_iqr = df[(df['columna'] < lim_inf) | (df['columna'] > lim_sup)]


### [__] ‚úÇÔ∏è 2. Eliminaci√≥n de Outliers

    Cu√°ndo usar:
        Cuando el outlier es un error de medici√≥n evidente.
        Cuando es poco probable que ese valor se repita.
        Cuando distorsiona demasiado las m√©tricas estad√≠sticas.

In [None]:
# IQR para eliminar
df_filtrado = df[(df['columna'] >= lim_inf) & (df['columna'] <= lim_sup)]
# Z-score para eliminar
df_filtrado = df[(z_scores < 3).all(axis=1)]


‚úÖ Recomendaciones:
*    Documenta cu√°ntos valores se eliminaron.
*    Eval√∫a el impacto en el tama√±o del dataset.
*    Guarda copia del dataset original.

### [___] üîÅ 3. Reemplazo (Winsorizaci√≥n)

üìå Objetivo: Sustituir outliers por valores extremos v√°lidos sin perder la fila.

* Qu√© es? Se "aplanan" los outliers. Cualquier valor por encima del percentil 95 (por ejemplo) se reemplaza por el valor del percentil 95. Lo mismo para el extremo inferior (ej. percentil 5).
* Cu√°ndo usarla? Cuando crees que los outliers son leg√≠timos pero su magnitud extrema est√° afectando negativamente al modelo (especialmente modelos lineales). Conservas la idea de que es un valor "alto" o "bajo" sin que su escala domine.

Cu√°ndo usar:

    Cuando quieres mantener todos los datos pero reducir la influencia de extremos.

    Cuando el outlier puede ser real pero necesitas controlarlo estad√≠sticamente.

‚úÖ Recomendaciones:

    Winsorizar especialmente √∫til si vas a usar modelos sensibles (como regresi√≥n lineal).

    Anota los l√≠mites usados (lim_inf, lim_sup).

In [None]:
from scipy.stats.mstats import winsorize

# Winsoriza al 5% en cada extremo (deja el 90% de los datos centrales intactos)
df['columna_winsorizada'] = winsorize(df['columna'], limits=[0.05, 0.05])

df['columna'] = np.where(df['columna'] > lim_sup, lim_sup,
                  np.where(df['columna'] < lim_inf, lim_inf, df['columna']))



### [__] üîÑ 4. Imputaci√≥n de valores Mediana o Media

üìå Objetivo: Sustituir outliers por valores estad√≠sticos como la media o mediana.

* ¬øQu√© es? Se sustituye el valor at√≠pico por la mediana (m√°s robusta) o la media de la columna.
* ¬øCu√°ndo usarla? Cuando no quieres perder los datos de las otras columnas de esa fila. Es un m√©todo simple y r√°pido. Prefiere la mediana sobre la media si la distribuci√≥n es asim√©trica.

Cu√°ndo usar:

    Cuando los outliers son errores pero no puedes eliminar datos.

    Si los datos son escasos o cr√≠ticos y no quieres perder informaci√≥n

 Recomendaciones:

    Usa la mediana en vez de la media si los datos est√°n sesgados.

    Documenta los valores imputados.

In [None]:
mediana = df['columna'].median()
df['columna_imputada'] = df['columna'].apply(lambda x: mediana if x < limite_inferior or x > limite_superior else x)


### [__] üîÅ 5. Transformaciones de datos

Aplicas una funci√≥n matem√°tica a toda la variable para reducir el impacto de los outliers.

¬øQu√© es? Funciones como la logar√≠tmica, ra√≠z cuadrada o Box-Cox comprimen la escala de la variable, acercando los outliers al resto de los datos.

¬øCu√°ndo usarla?

        Cuando la variable tiene una fuerte asimetr√≠a positiva (una cola larga a la derecha).

        En modelos que asumen normalidad o linealidad (como la regresi√≥n lineal).

        Cuando los outliers son una caracter√≠stica intr√≠nseca de la distribuci√≥n (ej. ingresos, tama√±os de empresas).

‚úÖ Recomendaciones:

    Usa log1p si hay ceros.

    Visualiza despu√©s de transformar (histplot, boxplot).

    No olvides destransformar al interpretar resultados.

In [None]:
# Logaritmo
df['columna_log'] = np.log1p(df['columna'])

# Ra√≠z cuadrada
df['columna_sqrt'] = np.sqrt(df['columna'])

# Box-Cox (requiere valores > 0)
from scipy.stats import boxcox
df['columna_boxcox'], _ = boxcox(df['columna'] + 1)


### [__] üõ°Ô∏è 6. Uso de Modelos Robustecidos
üìå Objetivo: Modelar sin eliminar ni transformar outliers directamente.
üí° Cu√°ndo usar:

    Cuando los outliers son inevitables.

    Cuando usas modelos resistentes como √°rboles o medianas.

üíª Modelos comunes:

    RandomForest, XGBoost, GradientBoosting

    HuberRegressor, RANSACRegressor (de sklearn.linear_model)

    IsolationForest (para detecci√≥n autom√°tica)

Modelos Robustos:

    √Årboles de Decisi√≥n y ensambles (Random Forest, Gradient Boosting): Son naturalmente robustos a los outliers porque dividen el espacio de caracter√≠sticas en regiones y no se ven afectados por la magnitud de los valores.

    Regresiones Robustas (ej. RANSAC, Huber Regressor): Modelos lineales que ponderan menos los errores grandes, reduciendo la influencia de los outliers.

    Recomendaci√≥n: Si eliges esta v√≠a, simplemente alimenta los datos originales (o con m√≠nima limpieza) a uno de estos modelos

### [__] 7. An√°lisis Individual o Validaci√≥n del Outlier
üìå Objetivo: Determinar si un outlier es realmente un error o un caso especial.
üí° Cu√°ndo usar:

    Cuando un valor parece raro pero puede ser leg√≠timo.

    En √°reas sensibles como medicina, fraude, accidentes, etc.

‚úÖ Recomendaciones:

    Revisa el caso completo: ¬øotros campos est√°n bien?

    Consulta con el dominio experto si es posible.

    Nunca elimines autom√°ticamente sin investigar.

### [___] 8. Documentaci√≥n del tratamiento

    üîé ¬øC√≥mo se detectaron?

    üîÅ ¬øQu√© m√©todo se aplic√≥?

    üìâ ¬øCu√°ntos valores se afectaron?

    üßæ ¬øQu√© decisiones se tomaron?

---
## [___] 6. Crear variables √∫tiles (feature engineering)

In [None]:
df['duracion_total'] = df['dias'] * df['horas_dia']

| T√©cnica                          | Descripci√≥n breve                                            | Ejemplo de c√≥digo                                                       | ¬øCu√°ndo usar?                                             |
| -------------------------------- | ------------------------------------------------------------ | ----------------------------------------------------------------------- | --------------------------------------------------------- |
| üî¢ Transformaci√≥n matem√°tica     | Aplica log, ra√≠z, potencias para normalizar o ajustar escala | `df['log_precio'] = np.log1p(df['precio'])`                             | Cuando hay sesgo o colas largas                           |
| ‚ûó Variables combinadas/derivadas | Combina columnas para crear relaciones √∫tiles                | `df['precio_m2'] = df['precio'] / df['area']`                           | Cuando dos columnas est√°n relacionadas                    |
| üîÅ Encoding categ√≥rico           | Convierte texto a n√∫meros                                    | `pd.get_dummies(df, columns=['genero'])`                                | Al usar modelos que requieren datos num√©ricos             |
| üìÜ Variables de fecha            | Extrae partes de una fecha o calcula duraci√≥n                | `df['mes'] = df['fecha'].dt.month`                                      | Si tienes fechas (ventas, eventos, registros, etc.)       |
| üî¢ Frecuencia o conteo           | Crea una nueva variable con la frecuencia de ocurrencia      | `df['freq'] = df['ciudad'].map(df['ciudad'].value_counts())`            | Para capturar importancia o rareza de categor√≠as          |
| üß± Binning / Discretizaci√≥n      | Convierte valores continuos a rangos                         | `pd.cut(df['edad'], bins=[0,18,35,60], labels=[...])`                   | Para segmentar poblaciones o estabilizar valores extremos |
| ‚úÖ Indicadores (flags)            | Crea columnas booleanas seg√∫n condiciones                    | `df['es_vip'] = df['gasto'] > 100000`                                   | Para marcar eventos o atributos clave                     |
| üìä Estad√≠sticas por grupo        | Calcula medias, desv√≠os por grupo                            | `df['media_ciudad'] = df.groupby('ciudad')['precio'].transform('mean')` | Para contextualizar los datos dentro de grupos            |
| ‚úñÔ∏è Interacciones entre variables | Multiplica o combina variables para capturar relaciones      | `df['edad_x_ingresos'] = df['edad'] * df['ingresos']`                   | Cuando sospechas relaciones no lineales o sin√©rgicas      |


----
## [___] 7. Escalar datos (si es necesario)

| Escenario                                                    | ¬øEscalar?                                           | ¬øQu√© tipo?                      |
| ------------------------------------------------------------ | --------------------------------------------------- | ------------------------------- |
| √Årboles (Decision Tree, Random Forest, XGBoost)              | ‚ùå No necesario                                      | Ninguno                         |
| Regresiones lineales / log√≠sticas                            | ‚úÖ S√≠                                                | Estandarizaci√≥n o normalizaci√≥n |
| Modelos de ML sensibles a distancia (KNN, SVM, PCA, K-means) | ‚úÖ S√≠                                                | Recomendado                     |
| Redes neuronales (MLP, Deep Learning)                        | ‚úÖ Imprescindible                                    | Normalizaci√≥n (0-1)             |
| Datos categ√≥ricos codificados (one-hot)                      | ‚ùå No                                                | -                               |
| Datos con outliers                                           | ‚ö†Ô∏è Escalar con RobustScaler o usar m√©todos robustos | S√≠                              |

----------------------------------------------

| Escalador          | ¬øC√≥mo funciona?                            | Cu√°ndo usarlo                  | C√≥digo                             |
| ------------------ | ------------------------------------------ | ------------------------------ | ---------------------------------- |
| **StandardScaler** | Media = 0, desviaci√≥n est√°ndar = 1         | Datos normalmente distribuidos | `StandardScaler().fit_transform()` |
| **MinMaxScaler**   | Escala entre 0 y 1                         | Redes neuronales o im√°genes    | `MinMaxScaler().fit_transform()`   |
| **RobustScaler**   | Usa mediana y IQR (no sensible a outliers) | Datos con muchos outliers      | `RobustScaler().fit_transform()`   |
| **Normalizer**     | Normaliza filas (norma L2 = 1)             | Series temporales, clustering  | `Normalizer().fit_transform()`     |


üéõÔ∏è Tipos de escalado (los m√°s usados)
### [__] 1. StandardScaler (Estandarizaci√≥n)

    Lo que hace: centra los datos en media cero y los escala con varianza uno. Esto quiere decir que convierte tus datos a una distribuci√≥n est√°ndar (z-score).

    F√≥rmula:
    z=x‚àíŒºœÉ
    z=œÉx‚àíŒº‚Äã

    donde Œº es la media y œÉ la desviaci√≥n est√°ndar.

    Cu√°ndo usarlo:

        Cuando tus datos est√°n cercanos a una distribuci√≥n normal (campana).

        En modelos lineales (regresi√≥n lineal, log√≠stica), PCA, SVM, redes neuronales.

    Cuidado: no es robusto frente a outliers. Los valores extremos distorsionan la media y œÉ.

    üß† Consejo: Antes de usarlo, puedes graficar un histograma o sns.kdeplot para verificar la forma de la distribuci√≥n.
    

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import pandas as pd

# Asumiendo que 'X' son tus caracter√≠sticas y 'y' tu objetivo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()

# Ajusta el escalador SOLO con los datos de entrenamiento
X_train_scaled = scaler.fit_transform(X_train)

# Transforma los datos de prueba con el escalador ya ajustado
X_test_scaled = scaler.transform(X_test)

# El resultado es un array de NumPy, puedes convertirlo de nuevo a DataFrame si lo deseas
X_train_scaled = pd.DataFrame(X_train_scaled, columns=X_train.columns)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=X_test.columns)

### [__]  2. MinMaxScaler (Normalizaci√≥n)

    Lo que hace: escala todos los valores en un rango definido, usualmente entre 0 y 1.

    F√≥rmula:
    x‚Ä≤=x‚àímin‚Å°(x)max‚Å°(x)‚àímin‚Å°(x)
    x‚Ä≤=max(x)‚àímin(x)x‚àímin(x)‚Äã

    Cu√°ndo usarlo:

        En modelos basados en gradientes como redes neuronales (MLP, CNN, etc.).

        En datos de im√°genes (por ejemplo, pixel values de 0 a 255 ‚Üí escalar a 0-1).

        Cuando necesitas mantener la forma de la distribuci√≥n, pero limitar el rango.

    Cuidado: es muy sensible a outliers porque usa los valores extremos para definir los l√≠mites del rango.

    üß† Consejo: Si usas MinMaxScaler, aseg√∫rate de haber tratado outliers antes (con IQR, winsorizaci√≥n, etc.).
    

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(0, 1)) # El rango es personalizable

# Ajusta y transforma de la misma manera que StandardScaler
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

### [__]  3. RobustScaler

    Lo que hace: utiliza la mediana y el rango intercuart√≠lico (IQR) en lugar de la media y desviaci√≥n est√°ndar. Esto hace que sea resistente a valores extremos.

    F√≥rmula:
    x‚Ä≤=x‚àímedianaIQR
    x‚Ä≤=IQRx‚àímediana‚Äã

    Cu√°ndo usarlo:

        Cuando sabes que tu dataset tiene outliers fuertes que no deseas eliminar.

        En an√°lisis financiero, donde los datos suelen tener colas largas o picos de valores.

    üß† Consejo: Muy √∫til como paso previo a modelos de ML donde no puedes permitir que los outliers distorsionen tu resultado, pero no puedes o no quieres eliminarlos.



In [None]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()

# Ajusta y transforma
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

### [__]  4. Normalizer

    Lo que hace: normaliza cada fila del dataset en lugar de cada columna. Se usa la norma L1 o L2 para hacer que el vector tenga una longitud de 1.

    Ejemplo: √∫til para datos donde cada fila representa un vector, como en texto (TF-IDF), series temporales o clustering de comportamiento.

    Cu√°ndo usarlo:

        En algoritmos que dependen de la direcci√≥n del vector m√°s que de su magnitud, como clustering, t√©cnicas de texto, etc.

    ‚ö†Ô∏è Consejo: No confundas Normalizer con MinMaxScaler. Uno normaliza por fila, otro por columna.

Escala cada fila (es decir, cada muestra) para que su norma (longitud del vector) sea igual a 1.

Se usa en algoritmos que trabajan con direcci√≥n del vector m√°s que con su magnitud:

    Similaridad de texto (TF-IDF, Word embeddings)

    Clustering (KMeans)

    Datos temporales o de sensores

In [None]:
from sklearn.preprocessing import Normalizer
import pandas as pd
import numpy as np

# Supongamos un DataFrame con 3 caracter√≠sticas por muestra
data = np.array([
    [3.0, 4.0, 0.0],
    [1.0, 2.0, 2.0],
    [0.0, 0.0, 10.0]
])

df = pd.DataFrame(data, columns=['feature1', 'feature2', 'feature3'])

# Inicializar el normalizador con norma L2 (por defecto)
normalizer = Normalizer(norm='l2')  # Tambi√©n puedes usar 'l1' o 'max'

# Aplicar normalizaci√≥n por fila
data_normalized = normalizer.fit_transform(df)

# Convertir a DataFrame para ver resultados
df_normalizado = pd.DataFrame(data_normalized, columns=df.columns)

print("Original:")
print(df)
print("\nNormalizado (L2):")
print(df_normalizado)


¬øC√≥mo escalar correctamente un dataset?

    Trata los NaN antes. El escalador no puede trabajar con valores faltantes.

    Separa tu dataset en entrenamiento y prueba antes de escalar.

    Ajusta (fit) el escalador solo con el set de entrenamiento.

    Transforma (transform) tanto entrenamiento como prueba con ese mismo escalador.

    Guarda el escalador (si el modelo va a producci√≥n).

üö´ Errores comunes

    Escalar despu√©s de entrenar el modelo (esto genera data leakage).

    Escalar sin eliminar o tratar outliers (afecta a StandardScaler y MinMaxScaler).

    Escalar variables categ√≥ricas convertidas a dummies (one-hot), cuando no hace falta.

    Aplicar fit_transform() al set de prueba. ¬°Solo se usa transform()!

üß† Consejos pr√°cticos

    En proyectos de IA o deep learning, usa MinMaxScaler o normaliza a [-1, 1] para que la red converja mejor.

    En modelos financieros o con valores dispersos, prueba primero con RobustScaler.

    Si vas a usar PCA o clustering, escalado previo es obligatorio para que no domine una variable.

    Si no sabes qu√© usar, prueba con StandardScaler y compara resultados.

    Guarda tu escalador con joblib.dump(scaler, 'nombre_scaler.pkl') para reproducibilidad.

| Punto                             | Estandarizaci√≥n            | Normalizaci√≥n                                                 |
| --------------------------------- | -------------------------- | ------------------------------------------------------------- |
| Centrado en media                 | ‚úÖ S√≠                       | ‚ùå No                                                          |
| Rango controlado (ej: 0 a 1)      | ‚ùå No                       | ‚úÖ S√≠                                                          |
| Forma de distribuci√≥n se mantiene | ‚ùå No (transforma la forma) | ‚úÖ S√≠ (solo cambia el rango)                                   |
| Robusto contra outliers           | ‚ùå No                       | ‚ùå No (ambos son sensibles, usar RobustScaler si hay outliers) |
| Escenarios t√≠picos                | PCA, SVM, regresi√≥n        | Deep Learning, im√°genes, magnitudes distintas                 |
| Afecta unidades                   | S√≠                         | S√≠                                                            |


---
## [___] 8. Guardar archivo limpio

In [None]:
df.to_csv("data/processed/dataset_limpio.csv", index=False)
