# Limpieza de Datos

En este notebook, realizamos la limpieza del dataset `House Prices: Advanced Regression Techniques`. Los pasos incluyen la eliminación de duplicados, el manejo de valores faltantes y la justificación de cada acción tomada.

## Objetivos
- Eliminar filas duplicadas.
- Manejar valores faltantes rellenando con la media para columnas numéricas y con el modo para columnas categóricas.
- Justificar cada paso de limpieza.
- Guardar el dataset limpio en `data/processed/train_clean.csv` y `data/processed/test_clean.csv`.

## Carga del Dataset


In [11]:
import pandas as pd
import numpy as np

# Cargar los datos
train_df = pd.read_csv('data/raw/train.csv')
test_df = pd.read_csv('data/raw/test.csv')

# Inspección inicial para verificar duplicados y valores faltantes
duplicated_count = train_df.duplicated().sum()
missing_values = train_df.isnull().sum()
missing_values = missing_values[missing_values > 0].sort_values(ascending=False)

# Crear un DataFrame para mostrar información inicial
info_df = pd.DataFrame({
    'Descripción': ['Filas duplicadas', 'Columnas con valores faltantes'],
    'Cantidad': [duplicated_count, len(missing_values)]
})

# Mostrar información inicial en una tabla
print("=== Información Inicial del Dataset ===")
display(info_df)

# Crear un DataFrame para los valores faltantes
if not missing_values.empty:
    missing_df = pd.DataFrame({
        'Columna': missing_values.index,
        'Valores Faltantes': missing_values.values
    })
    
    # Mostrar DataFrame de valores faltantes
    print("\n=== Valores Faltantes por Columna ===")
    display(missing_df)
else:
    print("\nNo hay valores faltantes en el dataset.")

=== Información Inicial del Dataset ===


Unnamed: 0,Descripción,Cantidad
0,Filas duplicadas,0
1,Columnas con valores faltantes,19



=== Valores Faltantes por Columna ===


Unnamed: 0,Columna,Valores Faltantes
0,PoolQC,1453
1,MiscFeature,1406
2,Alley,1369
3,Fence,1179
4,MasVnrType,872
5,FireplaceQu,690
6,LotFrontage,259
7,GarageType,81
8,GarageYrBlt,81
9,GarageFinish,81


## Eliminación de Duplicados

Eliminamos las filas duplicadas para asegurar que cada registro en el dataset sea único y evitar sesgos en el análisis.


In [8]:
train_df.drop_duplicates(inplace=True)

# Verificación de duplicados
print(f'Número de filas duplicadas después de la limpieza: {train_df.duplicated().sum()}')


Número de filas duplicadas después de la limpieza: 0


## Manejo de Valores Faltantes

Rellenamos los valores faltantes para evitar problemas en el análisis y modelado posterior. Utilizamos la media para columnas numéricas y el modo para columnas categóricas.


In [12]:
# Rellenar valores faltantes con la media para columnas numéricas
numeric_cols = train_df.select_dtypes(include=[np.number]).columns
train_df[numeric_cols] = train_df[numeric_cols].fillna(train_df[numeric_cols].mean())

# Rellenar valores faltantes con el modo para columnas categoricas
categorical_cols = train_df.select_dtypes(include=[object]).columns
train_df[categorical_cols] = train_df[categorical_cols].apply(lambda x: x.fillna(x.mode()[0]))

# Verificación de valores faltantes despues de la limpieza
print(f'Valores faltantes después de la limpieza:\n{train_df.isnull().sum()[train_df.isnull().sum() > 0]}')


Valores faltantes después de la limpieza:
Series([], dtype: int64)


## Guardado del Dataset Limpio

Guardamos el dataset limpio para su uso posterior en los análisis y modelado.


In [13]:
train_df.to_csv('data/processed/train_clean.csv', index=False)
test_df.to_csv('data/processed/test_clean.csv', index=False)