In [1]:
# ==============================================================================
# PASO 1: IMPORTACIÓN DE LIBRERÍAS
# ==============================================================================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import os

print("Librerías importadas.")

Librerías importadas.


In [2]:
# ==============================================================================
# PASO 2: CARGA DE DATOS CRUDOS (RAW DATA)
# ==============================================================================
print("\nCargando el dataset crudo...")
try:
    df = pd.read_csv("../data/raw/house_data.csv")
    print("Dataset cargado exitosamente.")
    print(f"Forma inicial del dataset: {df.shape}")
    print("\nVista previa de los datos crudos:")
    display(df.head())
except FileNotFoundError:
    print("ERROR: Archivo no encontrado. Asegúrate de que la ruta '../data/raw/house_data.csv' es correcta.")
    exit()


Cargando el dataset crudo...
Dataset cargado exitosamente.
Forma inicial del dataset: (84, 7)

Vista previa de los datos crudos:


Unnamed: 0,price,sqft,bedrooms,bathrooms,location,year_built,condition
0,495000,1527,2,1.5,Suburb,1956,Good
1,752000,2526,3,2.5,Downtown,1998,Excellent
2,319000,1622,2,1.5,Rural,1975,Fair
3,1210000,3102,4,3.0,Waterfront,2005,Excellent
4,462000,1835,2,2.0,Urban,1982,Good


In [3]:
# ==============================================================================
# PASO 3: LIMPIEZA Y ESTANDARIZACIÓN
# ==============================================================================

# 3.1: Estandarización de Nombres de Columnas
# Es una buena práctica para evitar errores por mayúsculas o espacios.
print("\nEstandarizando nombres de columnas...")
df.columns = df.columns.str.strip().str.lower().str.replace(" ", "_")
print(f"Nombres de columnas estandarizados: {df.columns.tolist()}")


Estandarizando nombres de columnas...
Nombres de columnas estandarizados: ['price', 'sqft', 'bedrooms', 'bathrooms', 'location', 'year_built', 'condition']


In [4]:
# 3.2: Verificación de Nulos y Tipos de Datos
print("\nVerificando tipos de datos y valores nulos...")
print("\nInformación del DataFrame:")
df.info()


# print("\n Valores missing por columna:")
# print(df.isnull().sum())

if df.isnull().sum().any():
    print(f"\nSe encontraron valores nulos. Total por columna:\n{df.isnull().sum()[df.isnull().sum() > 0]}")
    df = df.dropna()
    print("Filas con valores nulos eliminadas.")
else:
    print("\nNo se encontraron valores nulos.")


Verificando tipos de datos y valores nulos...

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84 entries, 0 to 83
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   price       84 non-null     int64  
 1   sqft        84 non-null     int64  
 2   bedrooms    84 non-null     int64  
 3   bathrooms   84 non-null     float64
 4   location    84 non-null     object 
 5   year_built  84 non-null     int64  
 6   condition   84 non-null     object 
dtypes: float64(1), int64(4), object(2)
memory usage: 4.7+ KB

No se encontraron valores nulos.


In [5]:
# 3.3: Eliminación de Duplicados
print("\nVerificando filas duplicadas...")
num_duplicates = df.duplicated().sum()
if num_duplicates > 0:
    print(f"Se encontraron {num_duplicates} filas duplicadas. Eliminándolas...")
    df = df.drop_duplicates(keep='first')
    print(f"Duplicados eliminados. Nueva forma del dataset: {df.shape}")
else:
    print("No se encontraron filas duplicadas.")


Verificando filas duplicadas...
No se encontraron filas duplicadas.


In [7]:
# ==============================================================================
# PASO 4: VALIDACIÓN Y CORRECCIÓN DE TIPOS DE DATOS
# ==============================================================================

# 4.1: Chequeos de Sanidad (Valores no realistas)
print("\nRealizando chequeos de sanidad de los datos...")
initial_rows = len(df)
df = df[df['price'] > 1000] # Precios deben ser positivos y realistas
df = df[df['sqft'] > 100]    # Superficies deben ser positivas y realistas
rows_removed = initial_rows - len(df)
if rows_removed > 0:
    print(f"Se eliminaron {rows_removed} filas que no pasaron los chequeos de sanidad.")
else:
    print("Todos los datos pasaron los chequeos de sanidad básicos.")

print(f"Forma del dataset después de los chequeos de sanidad: {df.shape}")


Realizando chequeos de sanidad de los datos...
Todos los datos pasaron los chequeos de sanidad básicos.
Forma del dataset después de los chequeos de sanidad: (84, 7)


In [8]:
# 4.2: Conversión explícita de tipos de datos para optimización
print("\nConvirtiendo tipos de datos para optimización...")
df['location'] = df['location'].astype('category')
df['condition'] = df['condition'].astype('category')
df['bedrooms'] = df['bedrooms'].astype(int)
print("Tipos de datos optimizados.")
df.dtypes


Convirtiendo tipos de datos para optimización...
Tipos de datos optimizados.


price            int64
sqft             int64
bedrooms         int64
bathrooms      float64
location      category
year_built       int64
condition     category
dtype: object

In [9]:
# ==============================================================================
# PASO 5: GUARDADO DE DATOS PROCESADOS
# ==============================================================================
print("\nGuardando el dataset limpio en la carpeta 'processed'...")
output_dir = "../data/processed"
output_path = os.path.join(output_dir, "cleaned_house_data.csv")

# Asegurarse de que el directorio de salida exista
os.makedirs(output_dir, exist_ok=True)

# Guardar el DataFrame limpio
df.to_csv(output_path, index=False)
print(f"Proceso de limpieza de datos completado. Archivo guardado en: {output_path}")
print(f"Forma final del dataset: {df.shape}")
print("\nVista previa de los datos limpios:")
print(df.head())


Guardando el dataset limpio en la carpeta 'processed'...
Proceso de limpieza de datos completado. Archivo guardado en: ../data/processed\cleaned_house_data.csv
Forma final del dataset: (84, 7)

Vista previa de los datos limpios:
     price  sqft  bedrooms  bathrooms    location  year_built  condition
0   495000  1527         2        1.5      Suburb        1956       Good
1   752000  2526         3        2.5    Downtown        1998  Excellent
2   319000  1622         2        1.5       Rural        1975       Fair
3  1210000  3102         4        3.0  Waterfront        2005  Excellent
4   462000  1835         2        2.0       Urban        1982       Good
