##
LIMPIEZA Y PREPROCESAMIENTO - DATASET BMW PRICING

Autor: Gabriela Alberico

Fecha: 25.11.2025

Descripción: Proceso completo de limpieza de datos para preparar
             el dataset BMW para modelado predictivo de precios.



## 1. IMPORTS Y CONFIGURACIÓN

In [3]:
# Librerías estándar de Python
import os
import sys
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Librerías de análisis de datos
import pandas as pd
import numpy as np

# Librerías de visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Librerías de machine learning
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from scipy import stats
from scipy.stats import zscore

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

# Configuración de reproducibilidad
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

In [4]:
# ✅ Configuración estándar para todos
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10
plt.rcParams['axes.titlesize'] = 12
plt.rcParams['axes.labelsize'] = 11

## 2. CARGA DE DATOS

In [5]:
# Ruta al archivo de datos
DATA_PATH = '/content/bmw_pricing_v3 (1).csv'

# Cargar dataset
print("Cargando dataset...")
df = pd.read_csv(DATA_PATH)

# Información básica
print(f"Dataset cargado exitosamente")
print(f"  - Filas: {df.shape[0]:,}")
print(f"  - Columnas: {df.shape[1]}")
print(f"  - Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

Cargando dataset...
Dataset cargado exitosamente
  - Filas: 4,843
  - Columnas: 18
  - Memoria: 2.92 MB


## 3. ANÁLISIS EXPLORATORIO INICIAL

### 3.1 Información general

### 3.2 Estadísticas Descriptivas

### 3.3 Análisis de Tipo de Datos

## 4. ANÁLISIS DE CALIDAD DE DATOS

### 4.1 Duplicados

4.2 Valores Nulos

### 4.3 Valores Inconsistentes

## 5. LIMPIEZA DE DUPLICADOS

## 6. TRATAMIENTO DE VALORES NULOS

### 6.1 Análisis de Patrones

### 6.2 Estrategias de Imputación

### 6.3 Implementación

## 7. DETECCIÓN Y TRATAMIENTO DE OUTLIERS

### 7.1 Variables numéricas

### 7.2 Visualización

### 7.3 Tratamiento

## 8. TRANSFORMACIÓN DE VARIABLES

### 8.1 Variables Categóricas

### 8.3 Variables Numéricas

## 9. FEAUTE ENGINEERING

## 10. VALIDACIÓN FINAL

## 11. EXPORTACIÓN DE DATOS LIMPIOS

## 12. RESUMEN Y CONCLUSIONES