In [None]:
# Fase 3 - Preparación de los Datos

En esta fase se limpiarán los datasets BMW, tratando valores nulos, duplicados y outliers.  
También se crearán variables nuevas (feature engineering) y se dejarán listos los datos para modelado.


In [4]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

In [5]:
# Cargamos el dataset limpio desde la fase anterior (01_raw)
df = pd.read_csv("../data/01_raw/bmw_sales.csv")

print("✅ Datos cargados:")
print(df.head())
print("\nColumnas disponibles:", df.columns.tolist())

✅ Datos cargados:
      Model  Year         Region  Color Fuel_Type Transmission  Engine_Size_L  \
0  5 Series  2016           Asia    Red    Petrol       Manual            3.5   
1        i8  2013  North America    Red    Hybrid    Automatic            1.6   
2  5 Series  2022  North America   Blue    Petrol    Automatic            4.5   
3        X3  2024    Middle East   Blue    Petrol    Automatic            1.7   
4  7 Series  2020  South America  Black    Diesel       Manual            2.1   

   Mileage_KM  Price_USD  Sales_Volume Sales_Classification  
0      151748      98740          8300                 High  
1      121671      79219          3428                  Low  
2       10991     113265          6994                  Low  
3       27255      60971          4047                  Low  
4      122131      49898          3080                  Low  

Columnas disponibles: ['Model', 'Year', 'Region', 'Color', 'Fuel_Type', 'Transmission', 'Engine_Size_L', 'Mileage_KM', 'Pr

In [6]:
# Verificar nulos
print("Valores nulos por columna:\n", df.isnull().sum())

# Eliminar duplicados
print("Duplicados antes:", df.duplicated().sum())
df = df.drop_duplicates()
print("Duplicados después:", df.duplicated().sum())

Valores nulos por columna:
 Model                   0
Year                    0
Region                  0
Color                   0
Fuel_Type               0
Transmission            0
Engine_Size_L           0
Mileage_KM              0
Price_USD               0
Sales_Volume            0
Sales_Classification    0
dtype: int64
Duplicados antes: 0
Duplicados después: 0


In [7]:
# Crear nueva variable: edad del auto
df["car_age"] = 2025 - df["Year"]

# Codificar variables categóricas con OneHotEncoder (dummy variables)
df_encoded = pd.get_dummies(df, columns=["Transmission","Fuel_Type","Region","Color"], drop_first=True)

# Escalar variables numéricas
scaler = StandardScaler()
num_cols = ["Engine_Size_L", "Mileage_KM", "Price_USD", "Sales_Volume", "car_age"]
df_encoded[num_cols] = scaler.fit_transform(df_encoded[num_cols])

print("✅ Transformaciones aplicadas")
df_encoded.head()

✅ Transformaciones aplicadas


Unnamed: 0,Model,Year,Engine_Size_L,Mileage_KM,Price_USD,Sales_Volume,Sales_Classification,car_age,Transmission_Manual,Fuel_Type_Electric,...,Region_Asia,Region_Europe,Region_Middle East,Region_North America,Region_South America,Color_Blue,Color_Grey,Color_Red,Color_Silver,Color_White
0,5 Series,2016,0.250548,0.887814,0.911817,1.13153,High,0.234876,True,False,...,True,False,False,False,False,False,False,True,False,False
1,i8,2013,-1.632377,0.368717,0.160951,-0.573911,Low,0.928611,False,False,...,False,False,False,True,False,False,False,True,False,False
2,5 Series,2022,1.241561,-1.541504,1.470514,0.674365,Low,-1.152595,False,False,...,False,False,False,True,False,True,False,False,False,False
3,X3,2024,-1.533276,-1.260805,-0.54095,-0.357231,Low,-1.615085,False,False,...,False,False,True,False,False,True,False,False,False,False
4,7 Series,2020,-1.136871,0.376656,-0.966867,-0.695729,Low,-0.690105,True,False,...,False,False,False,False,True,False,False,False,False,False


In [8]:
# Guardar dataset limpio (sin features avanzadas)
df.to_csv("../data/03_primary/bmw_sales_clean.csv", index=False)

# Guardar dataset con features listos para modelado
df_encoded.to_csv("../data/04_feature/bmw_sales_features.csv", index=False)

print("✅ Archivos guardados en 03_primary y 04_feature")

✅ Archivos guardados en 03_primary y 04_feature
