# Loading data 

In [2]:
import pandas as pd

# 1. Definir la ruta de tu archivo (asegúrate de que el nombre coincida)
path = r"C:\Users\Jesus Sanchez\Desktop\ALEXIS\1. Pre-Trabajo\1. Supply Chain Intelligence\data\raw\online_retail_II.xlsx"

# 2. Leer todas las hojas del archivo de Excel
# sheet_name=None le dice a pandas que cargue TODAS las pestañas en un diccionario
df_dict = pd.read_excel(path, sheet_name=None)

# 3. Concatenar las hojas (2009-2010 y 2010-2011) en un solo DataFrame
# .values() obtiene los DataFrames de cada hoja y concat los une verticalmente
df = pd.concat(df_dict.values(), ignore_index=True)

# 4. Ver las dimensiones finales para confirmar que se unieron correctamente
print(f"Registros totales cargados: {df.shape[0]}")
print(f"Columnas detectadas: {df.shape[1]}")

Registros totales cargados: 1067371
Columnas detectadas: 8


# Inspecting data

In [4]:
# 1. Ver tipos de datos y nulos por columna
print("--- Resumen de Columnas y Nulos ---")
print(df.info())

# 2. Ver cuántos nulos hay exactamente por columna
print("\n--- Conteo de Valores Nulos ---")
print(df.isnull().sum())

# 3. Ver una muestra de los datos para entender las columnas
print("\n--- Muestra de los datos ---")
print(df.head())

--- Resumen de Columnas y Nulos ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067371 entries, 0 to 1067370
Data columns (total 8 columns):
 #   Column       Non-Null Count    Dtype         
---  ------       --------------    -----         
 0   Invoice      1067371 non-null  object        
 1   StockCode    1067371 non-null  object        
 2   Description  1062989 non-null  object        
 3   Quantity     1067371 non-null  int64         
 4   InvoiceDate  1067371 non-null  datetime64[ns]
 5   Price        1067371 non-null  float64       
 6   Customer ID  824364 non-null   float64       
 7   Country      1067371 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 65.1+ MB
None

--- Conteo de Valores Nulos ---
Invoice             0
StockCode           0
Description      4382
Quantity            0
InvoiceDate         0
Price               0
Customer ID    243007
Country             0
dtype: int64

--- Muestra de los datos ---
  I

# Cleaning data

In [5]:
# 1. Eliminar filas sin Descripción
# Si no sabemos qué es el producto, no podemos predecir su demanda.
df_clean = df.dropna(subset=['Description'])

# 2. Filtrar transacciones negativas (Devoluciones)
# En el dataset, las devoluciones tienen cantidades negativas. 
# Para el modelo de inventarios base, nos interesan las ventas reales.
df_clean = df_clean[df_clean['Quantity'] > 0]

# 3. Filtrar precios de cero
# A veces hay ajustes de inventario o regalos con precio 0.0 que sesgan los ingresos.
df_clean = df_clean[df_clean['Price'] > 0]

# 4. Ver el resultado final de la limpieza
print(f"Registros después de la limpieza: {len(df_clean):,}")
print(f"Registros eliminados: {len(df) - len(df_clean):,}")

Registros después de la limpieza: 1,041,671
Registros eliminados: 25,700
