# Limpieza de Datos

En este notebook, realizamos la limpieza del dataset `House Prices: Advanced Regression Techniques`. Los pasos incluyen la eliminación de duplicados, el manejo de valores faltantes y la justificación de cada acción tomada.

## Objetivos
- Eliminar filas duplicadas.
- Manejar valores faltantes rellenando con la media para columnas numéricas y con el modo para columnas categóricas.
- Justificar cada paso de limpieza.
- Guardar el dataset limpio en `data/processed/train_clean.csv` y `data/processed/test_clean.csv`.

## Carga del Dataset


In [24]:
import pandas as pd
import numpy as np

train_df = pd.read_csv('data/raw/train.csv')
test_df = pd.read_csv('data/raw/test.csv')

# Inspección inicial para verificar duplicados y valores faltantes
print(f'Número de filas duplicadas antes de la limpieza: {train_df.duplicated().sum()}')
print(f'Valores faltantes antes de la limpieza:\n{train_df.isnull().sum()[train_df.isnull().sum() > 0]}')


Número de filas duplicadas antes de la limpieza: 0
Valores faltantes antes de la limpieza:
LotFrontage      259
Alley           1369
MasVnrType       872
MasVnrArea         8
BsmtQual          37
BsmtCond          37
BsmtExposure      38
BsmtFinType1      37
BsmtFinType2      38
Electrical         1
FireplaceQu      690
GarageType        81
GarageYrBlt       81
GarageFinish      81
GarageQual        81
GarageCond        81
PoolQC          1453
Fence           1179
MiscFeature     1406
dtype: int64


## Eliminación de Duplicados

Eliminamos las filas duplicadas para asegurar que cada registro en el dataset sea único y evitar sesgos en el análisis.


In [13]:
train_df.drop_duplicates(inplace=True)

# Verificación de duplicados
print(f'Número de filas duplicadas después de la limpieza: {train_df.duplicated().sum()}')


Número de filas duplicadas después de la limpieza: 0


## Manejo de Valores Faltantes

Rellenamos los valores faltantes para evitar problemas en el análisis y modelado posterior. Utilizamos la media para columnas numéricas y el modo para columnas categóricas.


In [25]:
# Rellenar valores faltantes con la media para columnas numéricas
numeric_cols = train_df.select_dtypes(include=[np.number]).columns
train_df[numeric_cols] = train_df[numeric_cols].fillna(train_df[numeric_cols].mean())

# Rellenar valores faltantes con el modo para columnas categoricas
categorical_cols = train_df.select_dtypes(include=[object]).columns
train_df[categorical_cols] = train_df[categorical_cols].apply(lambda x: x.fillna(x.mode()[0]))

# Verificación de valores faltantes despues de la limpieza
print(f'Valores faltantes después de la limpieza:\n{train_df.isnull().sum()[train_df.isnull().sum() > 0]}')


Valores faltantes después de la limpieza:
Series([], dtype: int64)


## Guardado del Dataset Limpio

Guardamos el dataset limpio para su uso posterior en los análisis y modelado.


In [26]:
train_df.to_csv('data/processed/train_clean.csv', index=False)
test_df.to_csv('data/processed/test_clean.csv', index=False)