In [1]:
import pandas as pd
import os

# Configuración para mostrar todas las columnas
pd.set_option('display.max_columns', None)

print("Librerías importadas correctamente")

Librerías importadas correctamente


In [4]:
# 1. Definir la ruta a los datos
folder_path = '../data/raw/' # Asumiendo que el notebook está en la carpeta 'notebooks'

# 2. Cargar las tablas principales de Olist
df_orders = pd.read_csv(folder_path + 'olist_orders_dataset.csv')
df_items = pd.read_csv(folder_path + 'olist_order_items_dataset.csv')
df_products = pd.read_csv(folder_path + 'olist_products_dataset.csv')

# 3. Cargar tu segunda fuente (Festivos)
df_holidays = pd.read_csv(folder_path + 'br_holidays.csv')

# 4. Verificación rápida
print("--- Carga Inicial ---")
print(f"Ordenes: {df_orders.shape} (Filas, Columnas)")
print(f"Items: {df_items.shape}")
print(f"Productos: {df_products.shape}")
print(f"Festivos: {df_holidays.shape}")

--- Carga Inicial ---
Ordenes: (99441, 8) (Filas, Columnas)
Items: (112650, 7)
Productos: (32951, 9)
Festivos: (33, 2)


In [5]:
# 1. Unir Items con Orders (para tener las fechas de cada venta)
df_total = df_items.merge(df_orders, on='order_id', how='inner')

# 2. Unir el resultado con Products (para saber qué categoría es cada item)
df_total = df_total.merge(df_products, on='product_id', how='inner')

# 3. Comprobación final de requisitos
print("--- RESULTADO FINAL ---")
print(f"Filas: {df_total.shape[0]} (Requisito: > 50.000) ✅")
print(f"Columnas: {df_total.shape[1]} (Requisito: > 20) ✅")

# Muestra las primeras 5 filas para ver que todo tiene sentido
df_total.head()

--- RESULTADO FINAL ---
Filas: 112650 (Requisito: > 50.000) ✅
Columnas: 22 (Requisito: > 20) ✅


Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29,3ce436f183e68e07877b285a838db11a,delivered,2017-09-13 08:59:02,2017-09-13 09:45:35,2017-09-19 18:34:16,2017-09-20 23:43:48,2017-09-29 00:00:00,cool_stuff,58.0,598.0,4.0,650.0,28.0,9.0,14.0
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93,f6dd3ec061db4e3987629fe6b26e5cce,delivered,2017-04-26 10:53:06,2017-04-26 11:05:13,2017-05-04 14:35:00,2017-05-12 16:04:24,2017-05-15 00:00:00,pet_shop,56.0,239.0,2.0,30000.0,50.0,30.0,40.0
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87,6489ae5e4333f3693df5ad4372dab6d3,delivered,2018-01-14 14:33:31,2018-01-14 14:48:30,2018-01-16 12:36:48,2018-01-22 13:19:16,2018-02-05 00:00:00,moveis_decoracao,59.0,695.0,2.0,3050.0,33.0,13.0,33.0
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79,d4eb9395c8c0431ee92fce09860c5a06,delivered,2018-08-08 10:00:35,2018-08-08 10:10:18,2018-08-10 13:28:00,2018-08-14 13:32:39,2018-08-20 00:00:00,perfumaria,42.0,480.0,1.0,200.0,16.0,10.0,15.0
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14,58dbd0b2d70206bf40e62cd34e84d795,delivered,2017-02-04 13:57:51,2017-02-04 14:10:13,2017-02-16 09:46:09,2017-03-01 16:42:31,2017-03-17 00:00:00,ferramentas_jardim,59.0,409.0,1.0,3750.0,35.0,40.0,30.0


In [6]:
# 1. Ver valores nulos (¿Qué nos falta?)
print("--- VALORES NULOS ---")
null_counts = df_total.isnull().sum()
print(null_counts[null_counts > 0]) # Solo mostramos las columnas que tienen nulos

# 2. Ver duplicados (¿Hay filas repetidas?)
print("\n--- DUPLICADOS ---")
duplicates = df_total.duplicated().sum()
print(f"Filas duplicadas: {duplicates}")

# 3. Ver tipos de datos (¿Las fechas son fechas o texto?)
print("\n--- TIPOS DE DATOS ---")
print(df_total.dtypes)

--- VALORES NULOS ---
order_approved_at                  15
order_delivered_carrier_date     1194
order_delivered_customer_date    2454
product_category_name            1603
product_name_lenght              1603
product_description_lenght       1603
product_photos_qty               1603
product_weight_g                   18
product_length_cm                  18
product_height_cm                  18
product_width_cm                   18
dtype: int64

--- DUPLICADOS ---
Filas duplicadas: 0

--- TIPOS DE DATOS ---
order_id                             str
order_item_id                      int64
product_id                           str
seller_id                            str
shipping_limit_date                  str
price                            float64
freight_value                    float64
customer_id                          str
order_status                         str
order_purchase_timestamp             str
order_approved_at                    str
order_delivered_carrier_date    

In [7]:
# --- 1. CONVERSIÓN DE FECHAS ---
cols_date = ['order_purchase_timestamp', 'order_approved_at', 
             'order_delivered_carrier_date', 'order_delivered_customer_date', 
             'order_estimated_delivery_date']

for col in cols_date:
    df_total[col] = pd.to_datetime(df_total[col], errors='coerce')

# --- 2. TRATAMIENTO DE NULOS ---
# Rellenar categorías vacías con 'otros'
df_total['product_category_name'] = df_total['product_category_name'].fillna('otros')

# Eliminar las poquitas filas (18) que no tienen peso ni dimensiones (son insignificantes)
df_total = df_total.dropna(subset=['product_weight_g'])

# --- 3. CREACIÓN DE NUEVAS COLUMNAS (Feature Engineering) ---
# Extraer el mes y año para análisis temporales (Ej: 2017-01)
df_total['month_year'] = df_total['order_purchase_timestamp'].dt.to_period('M')

# Calcular tiempo de entrega real en días (Fecha entrega - Fecha compra)
df_total['delivery_days'] = (df_total['order_delivered_customer_date'] - df_total['order_purchase_timestamp']).dt.days

# Calcular si el envío se retrasó (1 = Sí, 0 = No)
# Si la fecha de entrega real es mayor a la estimada
df_total['is_late'] = df_total['order_delivered_customer_date'] > df_total['order_estimated_delivery_date']

print("--- TRANSFORMACIÓN COMPLETADA ---")
print(f"Nuevas columnas creadas: month_year, delivery_days, is_late")
print(f"Tipos de datos corregidos. Muestra de fechas:")
print(df_total['order_purchase_timestamp'].head(3))

--- TRANSFORMACIÓN COMPLETADA ---
Nuevas columnas creadas: month_year, delivery_days, is_late
Tipos de datos corregidos. Muestra de fechas:
0   2017-09-13 08:59:02
1   2017-04-26 10:53:06
2   2018-01-14 14:33:31
Name: order_purchase_timestamp, dtype: datetime64[us]


In [8]:
# Definir la ruta de guardado
ruta_guardado = '../data/processed/olist_processed.csv'

# Guardar el CSV (index=False para no guardar el índice numérico de pandas)
df_total.to_csv(ruta_guardado, index=False)

print(f"✅ Archivo guardado con éxito en: {ruta_guardado}")

✅ Archivo guardado con éxito en: ../data/processed/olist_processed.csv
