# Proyecto empresa aliada: entregable 1

Paso a paso:

----
## **Cargar las tablas de datos en Pandas:**

Utiliza la función de Pandas para cargar cada tabla de datos desde el archivo csv o xlsx (DIM_CATEGORY, DIM_PRODUCT, DIM_SEGMENT, DIM_CALENDAR, FACT_SALES) en un DataFrame.

----

In [79]:
import pandas as pd
import numpy as np
# --- 1. Cargar los Datos ---
try:
    df_dim_category = pd.read_csv('DIM_CATEGORY (2).csv')
    df_dim_product = pd.read_excel('DIM_PRODUCT (1).xlsx')
    df_dim_segment = pd.read_excel('DIM_SEGMENT (1).xlsx')
    df_fact_sales = pd.read_csv('FACT_SALES (1).csv')
    
    # Crear una lista de DataFrames para iterar fácilmente (opcional)
    dataframes = {
        "Category": df_dim_category,
        "Product": df_dim_product,
        "Segment": df_dim_segment,
        "Sales": df_fact_sales
    }
    print("DataFrames cargados exitosamente.")

except FileNotFoundError as e:
    print(f"Error: No se encontró el archivo {e.filename}. Asegúrate de que los archivos estén en la ruta correcta.")
    # Salir o manejar el error como prefieras
    exit()
except Exception as e:
    print(f"Ocurrió un error al cargar los archivos: {e}")
    exit()

DataFrames cargados exitosamente.


Vamos a explorar las tablas.

- 1. `DIM_CATEGORY`

In [80]:
print("\nInformación general de DIM_CATEGORY:")
df_dim_category.info()

print("\nPrimeras filas DIM_CATEGORY:")
df_dim_category.head()

df_dim_category.describe()


Información general de DIM_CATEGORY:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ID_CATEGORY  5 non-null      int64 
 1   CATEGORY     5 non-null      object
dtypes: int64(1), object(1)
memory usage: 212.0+ bytes

Primeras filas DIM_CATEGORY:


Unnamed: 0,ID_CATEGORY
count,5.0
mean,3.0
std,1.581139
min,1.0
25%,2.0
50%,3.0
75%,4.0
max,5.0


- 2. `DIM_PRODUCT`

In [81]:
print("\n Información general de DIM_PRODUCT:")
df_dim_product.info()

print("\nPrimeras filas de DIM_PRODUCT:")
df_dim_product.head()

df_dim_product.describe()


 Información general de DIM_PRODUCT:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 505 entries, 0 to 504
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   MANUFACTURER      505 non-null    object
 1   BRAND             505 non-null    object
 2   ITEM              503 non-null    object
 3   ITEM_DESCRIPTION  505 non-null    object
 4   CATEGORY          505 non-null    int64 
 5   FORMAT            505 non-null    object
 6   ATTR1             499 non-null    object
 7   ATTR2             505 non-null    object
 8   ATTR3             499 non-null    object
dtypes: int64(1), object(8)
memory usage: 35.6+ KB

Primeras filas de DIM_PRODUCT:


Unnamed: 0,CATEGORY
count,505.0
mean,1.0
std,0.0
min,1.0
25%,1.0
50%,1.0
75%,1.0
max,1.0


- 3. `DIM_SEGMENT`

In [82]:
print("\nInformación general de DIM_SEGMENT:")
print(df_dim_segment.info())

print("\nPrimeras filas de DIM_SEGMENT:")
print(df_dim_segment.head())

print(df_dim_segment.describe())


Información general de DIM_SEGMENT:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53 entries, 0 to 52
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   CATEGORY  53 non-null     int64 
 1   ATTR1     53 non-null     object
 2   ATTR2     53 non-null     object
 3   ATTR3     52 non-null     object
 4   FORMAT    53 non-null     object
 5   SEGMENT   53 non-null     object
dtypes: int64(1), object(5)
memory usage: 2.6+ KB
None

Primeras filas de DIM_SEGMENT:
   CATEGORY  ATTR1  ATTR2      ATTR3   FORMAT SEGMENT
0         1  CLORO  CLORO    BAMBINO  LIQUIDO  BLEACH
1         1  CLORO  CLORO  GERMICIDA  LIQUIDO  BLEACH
2         1  CLORO  CLORO   MASCOTAS  LIQUIDO  BLEACH
3         1  CLORO  CLORO  MULTIUSOS      GEL  BLEACH
4         1  CLORO  CLORO  MULTIUSOS  LIQUIDO  BLEACH
       CATEGORY
count      53.0
mean        1.0
std         0.0
min         1.0
25%         1.0
50%         1.0
75%         1.0
max         1.0


- 4. `FACT_SALES`

In [83]:
print("\nPrimeras filas de FACT_SALES:")
print(df_fact_sales.head())
print("\nInformación general de FACT_SALES:")
print(df_fact_sales.info())
print(df_fact_sales.describe())


Primeras filas de FACT_SALES:
    WEEK         ITEM_CODE  TOTAL_UNIT_SALES  TOTAL_VALUE_SALES  \
0  34-22  7501058792808BP2             0.006              0.139   
1  34-22     7501058715883             0.487            116.519   
2  34-22     7702626213774             1.391             68.453   
3  34-22     7501058716422             0.022              1.481   
4  34-22     7501058784353             2.037            182.839   

   TOTAL_UNIT_AVG_WEEKLY_SALES              REGION  
0                        1.000  TOTAL AUTOS AREA 5  
1                        2.916  TOTAL AUTOS AREA 5  
2                        5.171  TOTAL AUTOS AREA 5  
3                        1.833  TOTAL AUTOS AREA 5  
4                        5.375  TOTAL AUTOS AREA 5  

Información general de FACT_SALES:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122002 entries, 0 to 122001
Data columns (total 6 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       ---------

----
## **Limpieza de Datos**

- Corrige posibles inconsistencias en los datos, como errores tipográficos o formatos incorrectos.

- Identifica y maneja valores nulos en cada DataFrame (si es que los hay)

- Identifica si hay duplicados de los DataFrames y en caso de que los haya, eliminalos.

----

In [84]:
# --- 1. Cargar los Datos ---
try:
    # Asegúrate de que las rutas sean correctas o los archivos estén en el mismo directorio
    df_dim_category = pd.read_csv('DIM_CATEGORY (2).csv')
    df_dim_product = pd.read_excel('DIM_PRODUCT (1).xlsx')
    df_dim_segment = pd.read_excel('DIM_SEGMENT (1).xlsx')
    df_fact_sales = pd.read_csv('FACT_SALES (1).csv')

    print("DataFrames cargados exitosamente.")

except FileNotFoundError as e:
    print(f"Error: No se encontró el archivo {e.filename}. Asegúrate de que los archivos estén en la ruta correcta.")
    exit()
except Exception as e:
    print(f"Ocurrió un error al cargar los archivos: {e}")
    exit()

DataFrames cargados exitosamente.


## 1. Limpieza df_dim_category


In [85]:
# --- 2.1 Limpieza df_dim_category ---
print("\n--- Limpiando DataFrame: DIM_CATEGORY ---")
df = df_dim_category.copy() # Trabajar con una copia
print(f"Tamaño original: {df.shape}")
print(f"Nulos originales:\n{df.isnull().sum()}")
print(f"Duplicados originales: {df.duplicated().sum()}")

# 2.1.1 Corregir Inconsistencias en 'CATEGORY'
# - Eliminar caracteres '\r\n'
# - Eliminar espacios extra al inicio/final
# - Estandarizar a minúsculas (o mayúsculas si prefieres)
if 'CATEGORY' in df.columns:
    print("Limpiando columna 'CATEGORY'...")
    df['CATEGORY'] = df['CATEGORY'].str.replace('\r\n', '', regex=False) # Quitar saltos de línea
    df['CATEGORY'] = df['CATEGORY'].str.strip() # Quitar espacios extra
    df['CATEGORY'] = df['CATEGORY'].str.lower() # Convertir a minúsculas
    # Podrías añadir más .replace() aquí si detectas otros errores específicos

# 2.1.2 Manejo de Nulos (No hay según info, pero es buena práctica verificar)
nulos_categoria = df.isnull().sum().sum()
if nulos_categoria > 0:
    print(f"Advertencia: Se encontraron {nulos_categoria} nulos inesperados en DIM_CATEGORY.")
    # Decide cómo manejarlos si aparecen, ej: df.dropna(inplace=True)

# 2.1.3 Manejo de Duplicados
duplicados_antes = df.duplicated().sum()
if duplicados_antes > 0:
    # Considera si el duplicado debe basarse solo en 'ID_CATEGORY' o en ambas columnas
    df.drop_duplicates(inplace=True) # Elimina duplicados basados en todas las columnas
    print(f"Se eliminaron {duplicados_antes} filas duplicadas.")

print(f"Nulos finales: {df.isnull().sum().sum()}")
print(f"Duplicados finales: {df.duplicated().sum()}")
print(f"Tamaño final: {df.shape}")
df_dim_category_clean = df




--- Limpiando DataFrame: DIM_CATEGORY ---
Tamaño original: (5, 2)
Nulos originales:
ID_CATEGORY    0
CATEGORY       0
dtype: int64
Duplicados originales: 0
Limpiando columna 'CATEGORY'...
Nulos finales: 0
Duplicados finales: 0
Tamaño final: (5, 2)


## 2 df_dim_product

In [86]:
# --- 2.2 Limpieza df_dim_product ---
print("\n--- Limpiando DataFrame: DIM_PRODUCT ---")
df = df_dim_product.copy()
print(f"Tamaño original: {df.shape}")
print(f"Nulos originales:\n{df.isnull().sum()}")
print(f"Duplicados originales: {df.duplicated().sum()}")

# 2.2.1 Corregir Inconsistencias y Tipos
print("Limpiando columnas de texto...")
text_cols_product = ['MANUFACTURER', 'BRAND', 'ITEM', 'ITEM_DESCRIPTION', 'FORMAT', 'ATTR1', 'ATTR2', 'ATTR3']
for col in text_cols_product:
    if col in df.columns:
        # Convertir a string por si acaso hay números interpretados como float/int
        df[col] = df[col].astype(str) 
        df[col] = df[col].str.strip()
        df[col] = df[col].str.lower()
        # Reemplazar 'nan' (texto) que puede resultar de la conversión a str de nulos
        df[col] = df[col].replace('nan', np.nan) 
        # Estandarizar 'no definido' (observado en ATTR3)
        df[col] = df[col].replace('no definido', 'desconocido') 

# La columna 'CATEGORY' es int64 y parece correcta (aunque todos son 1)
# No requiere limpieza de formato/tipo por ahora.

# 2.2.2 Manejo de Nulos
print("Manejando nulos...")
# ITEM: Tiene 2 nulos. Un producto sin código es problemático. Eliminamos esas filas.
nulos_item_antes = df['ITEM'].isnull().sum()
if nulos_item_antes > 0:
    df.dropna(subset=['ITEM'], inplace=True)
    print(f"  - Se eliminaron {nulos_item_antes} filas con 'ITEM' nulo.")

# ATTR1 y ATTR3: Tienen 6 nulos cada uno. Imputamos con 'desconocido'.
cols_imputar_desc = ['ATTR1', 'ATTR3']
for col in cols_imputar_desc:
    if col in df.columns and df[col].isnull().any():
        nulos_antes_col = df[col].isnull().sum()
        df[col].fillna('desconocido', inplace=True)
        print(f"  - Columna '{col}': {nulos_antes_col} nulos imputados con 'desconocido'.")

# Verificar si quedan nulos inesperados
nulos_producto = df.isnull().sum().sum()
if nulos_producto > 0:
    print(f"Advertencia: Quedaron {nulos_producto} nulos inesperados en DIM_PRODUCT:")
    print(df.isnull().sum()[df.isnull().sum() > 0])

# 2.2.3 Manejo de Duplicados
duplicados_antes = df.duplicated().sum()
if duplicados_antes > 0:
    # Decide si el duplicado se basa en todas las columnas o en una clave como 'ITEM'
    # df.drop_duplicates(subset=['ITEM'], keep='first', inplace=True) # Opción por clave
    df.drop_duplicates(inplace=True) # Opción por fila completa
    print(f"Se eliminaron {duplicados_antes} filas duplicadas.")

print(f"Nulos finales: {df.isnull().sum().sum()}")
print(f"Duplicados finales: {df.duplicated().sum()}")
print(f"Tamaño final: {df.shape}")
df_dim_product_clean = df


--- Limpiando DataFrame: DIM_PRODUCT ---
Tamaño original: (505, 9)
Nulos originales:
MANUFACTURER        0
BRAND               0
ITEM                2
ITEM_DESCRIPTION    0
CATEGORY            0
FORMAT              0
ATTR1               6
ATTR2               0
ATTR3               6
dtype: int64
Duplicados originales: 0
Limpiando columnas de texto...
Manejando nulos...
  - Se eliminaron 2 filas con 'ITEM' nulo.
  - Columna 'ATTR1': 6 nulos imputados con 'desconocido'.
  - Columna 'ATTR3': 6 nulos imputados con 'desconocido'.
Nulos finales: 0
Duplicados finales: 0
Tamaño final: (503, 9)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna('desconocido', inplace=True)


## 3 Limpieza df_dim_segment 

In [87]:
# --- 2.3 Limpieza df_dim_segment ---
print("\n--- Limpiando DataFrame: DIM_SEGMENT ---")
df = df_dim_segment.copy()
print(f"Tamaño original: {df.shape}")
print(f"Nulos originales:\n{df.isnull().sum()}")
print(f"Duplicados originales: {df.duplicated().sum()}")

# 2.3.1 Corregir Inconsistencias
print("Limpiando columnas de texto...")
text_cols_segment = ['ATTR1', 'ATTR2', 'ATTR3', 'FORMAT', 'SEGMENT']
for col in text_cols_segment:
     if col in df.columns:
        df[col] = df[col].astype(str).str.strip().str.lower()
        df[col] = df[col].replace('nan', np.nan) # Reemplazar 'nan' texto si aparece
        # Podrías añadir más .replace() específicos aquí

# La columna 'CATEGORY' es int64 y parece correcta (todos son 1)

# 2.3.2 Manejo de Nulos
print("Manejando nulos...")
# ATTR3: Tiene 1 nulo. Imputar con 'desconocido'.
if 'ATTR3' in df.columns and df['ATTR3'].isnull().any():
    nulos_attr3_antes = df['ATTR3'].isnull().sum()
    df['ATTR3'].fillna('desconocido', inplace=True)
    print(f"  - Columna 'ATTR3': {nulos_attr3_antes} nulos imputados con 'desconocido'.")

# Verificar nulos restantes
nulos_segment = df.isnull().sum().sum()
if nulos_segment > 0:
    print(f"Advertencia: Quedaron {nulos_segment} nulos inesperados en DIM_SEGMENT:")
    print(df.isnull().sum()[df.isnull().sum() > 0])

# 2.3.3 Manejo de Duplicados
duplicados_antes = df.duplicated().sum()
if duplicados_antes > 0:
    # Probablemente un duplicado aquí deba considerar todas las columnas relevantes
    df.drop_duplicates(inplace=True)
    print(f"Se eliminaron {duplicados_antes} filas duplicadas.")

print(f"Nulos finales: {df.isnull().sum().sum()}")
print(f"Duplicados finales: {df.duplicated().sum()}")
print(f"Tamaño final: {df.shape}")
df_dim_segment_clean = df


--- Limpiando DataFrame: DIM_SEGMENT ---
Tamaño original: (53, 6)
Nulos originales:
CATEGORY    0
ATTR1       0
ATTR2       0
ATTR3       1
FORMAT      0
SEGMENT     0
dtype: int64
Duplicados originales: 0
Limpiando columnas de texto...
Manejando nulos...
  - Columna 'ATTR3': 1 nulos imputados con 'desconocido'.
Nulos finales: 0
Duplicados finales: 0
Tamaño final: (53, 6)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['ATTR3'].fillna('desconocido', inplace=True)


## 4 Limpieza df_fact_sales

In [88]:
print("\n--- Limpiando DataFrame: FACT_SALES ---")
df = df_fact_sales.copy()
print(f"Tamaño original: {df.shape}")
print(f"Nulos originales:\n{df.isnull().sum()}")
print(f"Duplicados originales: {df.duplicated().sum()}")

# 2.4.1 Corregir Inconsistencias y Tipos
print("Limpiando columnas de texto...")
# WEEK: Limpiar espacios, mantener formato original por ahora
if 'WEEK' in df.columns:
    df['WEEK'] = df['WEEK'].astype(str).str.strip()

# ITEM_CODE: Limpiar espacios. NO convertir a minúsculas por si es sensible a mayúsculas/minúsculas.
if 'ITEM_CODE' in df.columns:
     df['ITEM_CODE'] = df['ITEM_CODE'].astype(str).str.strip()

# REGION: Limpiar espacios y estandarizar a minúsculas
if 'REGION' in df.columns:
     df['REGION'] = df['REGION'].astype(str).str.strip().str.lower()

# Columnas numéricas (float64) parecen correctas según .info() y .describe()
# No se requiere conversión de tipo ni manejo de nulos según la info inicial.

# 2.4.2 Manejo de Nulos (Verificación)
nulos_sales = df.isnull().sum().sum()
if nulos_sales > 0:
    print(f"Advertencia: Se encontraron {nulos_sales} nulos inesperados en FACT_SALES:")
    print(df.isnull().sum()[df.isnull().sum() > 0])
    # Decide cómo manejarlos si aparecen. Podría ser eliminar la fila:
    # df.dropna(inplace=True)

# 2.4.3 Manejo de Duplicados
duplicados_antes = df.duplicated().sum()
if duplicados_antes > 0:
    # Un registro de venta idéntico (misma semana, item, región, valores) suele ser un error
    df.drop_duplicates(inplace=True)
    print(f"Se eliminaron {duplicados_antes} filas duplicadas.")

print(f"Nulos finales: {df.isnull().sum().sum()}")
print(f"Duplicados finales: {df.duplicated().sum()}")
print(f"Tamaño final: {df.shape}")
df_fact_sales_clean = df



--- Limpiando DataFrame: FACT_SALES ---
Tamaño original: (122002, 6)
Nulos originales:
WEEK                           0
ITEM_CODE                      0
TOTAL_UNIT_SALES               0
TOTAL_VALUE_SALES              0
TOTAL_UNIT_AVG_WEEKLY_SALES    0
REGION                         0
dtype: int64
Duplicados originales: 0
Limpiando columnas de texto...
Nulos finales: 0
Duplicados finales: 0
Tamaño final: (122002, 6)


## Resumen de limpieza

In [89]:
# --- Resumen Final y Verificación ---
cleaned_dataframes = {
    "Category": df_dim_category_clean,
    "Product": df_dim_product_clean,
    "Segment": df_dim_segment_clean,
    "Sales": df_fact_sales_clean
}

print("\n--- Verificación Rápida Post-Limpieza General ---")
for nombre, df_clean in cleaned_dataframes.items():
    print(f"\nDataFrame Limpio: {nombre}")
    df_clean.info()
    print(f"Nulos totales: {df_clean.isnull().sum().sum()}")
    print(f"Duplicados totales: {df_clean.duplicated().sum()}")
    print(f"Primeras filas:\n{df_clean.head()}")


--- Verificación Rápida Post-Limpieza General ---

DataFrame Limpio: Category
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ID_CATEGORY  5 non-null      int64 
 1   CATEGORY     5 non-null      object
dtypes: int64(1), object(1)
memory usage: 212.0+ bytes
Nulos totales: 0
Duplicados totales: 0
Primeras filas:
   ID_CATEGORY                    CATEGORY
0            1  fabric treatment and sanit
1            2                    air care
2            3                lavavajillas
3            4            mega superficies
4            5         lavatory care & brc

DataFrame Limpio: Product
<class 'pandas.core.frame.DataFrame'>
Index: 503 entries, 0 to 504
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   MANUFACTURER      503 non-null    object
 1   BRAND             50

## Aplicar transformaciones necesarias:

- Estandariza los formatos de las columnas, como las fechas o categorías, para asegurar la consistencia en todo el conjunto de datos.
- Realiza cualquier transformación adicional requerida para preparar los datos para el análisis, como la creación de nuevas columnas calculadas o la agrupación de datos.

In [90]:
# --- Verificar que los DataFrames limpios existen ---
# (Si no ejecutaste el código de limpieza justo antes, necesitarás cargarlos como arriba)
try:
    _ = df_dim_category_clean
    _ = df_dim_product_clean
    _ = df_dim_segment_clean
    _ = df_fact_sales_clean
    print("DataFrames limpios encontrados en memoria. Procediendo a unir.")
except NameError:
    print("Error: Los DataFrames limpios no se encontraron en memoria.")
    print("Asegúrate de haber ejecutado el script de limpieza o de cargar los archivos limpios guardados.")
    exit()

DataFrames limpios encontrados en memoria. Procediendo a unir.


## 1. Unir Ventas con Productos 

In [91]:
# --- 1. Unir Ventas con Productos ---
print("\n--- Uniendo Ventas con Productos ---")
# Clave izquierda: ITEM_CODE en df_fact_sales_clean
# Clave derecha: ITEM en df_dim_product_clean
# Usamos how='left' para mantener todos los registros de ventas,
# incluso si algún producto no se encuentra en la tabla de dimensiones (resultará en NaN)
df_merged = pd.merge(
    df_fact_sales_clean,
    df_dim_product_clean,
    left_on='ITEM_CODE',
    right_on='ITEM',
    how='left'
)

# Verificar si hubo ventas sin producto correspondiente
productos_no_encontrados = df_merged['ITEM'].isnull().sum()
if productos_no_encontrados > 0:
    print(f"Advertencia: {productos_no_encontrados} registros de venta no encontraron un producto correspondiente en DIM_PRODUCT.")
    # Opcional: Investigar df_merged[df_merged['ITEM'].isnull()]['ITEM_CODE'].unique()

# Limpieza post-merge: Eliminar la columna 'ITEM' redundante de la tabla de productos
if 'ITEM' in df_merged.columns:
    df_merged.drop(columns=['ITEM'], inplace=True)

print(f"Tamaño después de unir con productos: {df_merged.shape}")
# print(df_merged.head()) # Descomentar para ver las primeras filas



--- Uniendo Ventas con Productos ---
Advertencia: 9193 registros de venta no encontraron un producto correspondiente en DIM_PRODUCT.
Tamaño después de unir con productos: (122002, 14)


## 2. Unir con Categorias

In [92]:
# --- 2. Unir con Categorías ---
print("\n--- Uniendo con Categorías ---")
# Clave izquierda: CATEGORY (que vino de df_dim_product) en df_merged
# Clave derecha: ID_CATEGORY en df_dim_category_clean
# Renombrar columna CATEGORY de df_dim_category_clean para evitar conflicto
df_dim_category_renamed = df_dim_category_clean.rename(columns={'CATEGORY': 'CATEGORY_NAME'})

df_merged = pd.merge(
    df_merged,
    df_dim_category_renamed,
    left_on='CATEGORY',          # ID de categoría del producto
    right_on='ID_CATEGORY',      # ID de categoría de la dimensión
    how='left'
)

# Verificar si hubo productos sin categoría correspondiente (poco probable si CATEGORY_ID=1 siempre)
categorias_no_encontradas = df_merged['ID_CATEGORY'].isnull().sum()
if categorias_no_encontradas > 0:
     print(f"Advertencia: {categorias_no_encontradas} registros no encontraron una categoría correspondiente en DIM_CATEGORY.")

# Limpieza post-merge: Eliminar la columna 'ID_CATEGORY' redundante y quizás 'CATEGORY' (el ID) si solo quieres el nombre
if 'ID_CATEGORY' in df_merged.columns:
    df_merged.drop(columns=['ID_CATEGORY'], inplace=True)
# Opcional: si no necesitas el ID numérico de categoría, puedes eliminarlo también
# if 'CATEGORY' in df_merged.columns:
#    df_merged.drop(columns=['CATEGORY'], inplace=True)

print(f"Tamaño después de unir con categorías: {df_merged.shape}")
# print(df_merged.head())


--- Uniendo con Categorías ---
Advertencia: 9193 registros no encontraron una categoría correspondiente en DIM_CATEGORY.
Tamaño después de unir con categorías: (122002, 15)


## 3. Unir con Segmentos

In [93]:
# --- 3. Unir con Segmentos ---
print("\n--- Uniendo con Segmentos ---")
# Clave: Múltiples columnas que deben coincidir en ambas tablas.
# Estas columnas vinieron de df_dim_product y deben coincidir con las de df_dim_segment
segment_key_columns = ['CATEGORY', 'ATTR1', 'ATTR2', 'ATTR3', 'FORMAT']

# Verificar que las columnas clave existen en ambos DataFrames antes de unir
missing_keys_left = [col for col in segment_key_columns if col not in df_merged.columns]
missing_keys_right = [col for col in segment_key_columns if col not in df_dim_segment_clean.columns]

if missing_keys_left or missing_keys_right:
     print("Error: Faltan columnas clave para la unión con segmentos.")
     if missing_keys_left: print(f"  - Faltan en tabla izquierda (df_merged): {missing_keys_left}")
     if missing_keys_right: print(f"  - Faltan en tabla derecha (df_dim_segment_clean): {missing_keys_right}")
else:
    df_merged = pd.merge(
        df_merged,
        df_dim_segment_clean,
        on=segment_key_columns, # Usar 'on' cuando los nombres de columna coinciden
        how='left'
    )

    # Verificar si hubo productos/atributos sin segmento correspondiente
    segmentos_no_encontrados = df_merged['SEGMENT'].isnull().sum()
    # Es normal que haya algunos NaN aquí si no todas las combinaciones ATTR1-3/FORMAT tienen un segmento definido
    print(f"Info: {segmentos_no_encontrados} registros no encontraron un segmento correspondiente directo en DIM_SEGMENT (pueden ser combinaciones no listadas).")
     
    print(f"Tamaño después de unir con segmentos: {df_merged.shape}")
    # print(df_merged.head())


--- Uniendo con Segmentos ---
Info: 12565 registros no encontraron un segmento correspondiente directo en DIM_SEGMENT (pueden ser combinaciones no listadas).
Tamaño después de unir con segmentos: (122002, 16)


Dataframe Final

In [94]:
# --- DataFrame Final Consolidado ---
print("\n--- Proceso de Unión Completado ---")
df_final_consolidado = df_merged.copy() # Crear una copia final

print("Información del DataFrame final consolidado:")
df_final_consolidado.info()


--- Proceso de Unión Completado ---
Información del DataFrame final consolidado:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122002 entries, 0 to 122001
Data columns (total 16 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   WEEK                         122002 non-null  object 
 1   ITEM_CODE                    122002 non-null  object 
 2   TOTAL_UNIT_SALES             122002 non-null  float64
 3   TOTAL_VALUE_SALES            122002 non-null  float64
 4   TOTAL_UNIT_AVG_WEEKLY_SALES  122002 non-null  float64
 5   REGION                       122002 non-null  object 
 6   MANUFACTURER                 112809 non-null  object 
 7   BRAND                        112809 non-null  object 
 8   ITEM_DESCRIPTION             112809 non-null  object 
 9   CATEGORY                     112809 non-null  float64
 10  FORMAT                       112809 non-null  object 
 11  ATTR1                        112809

In [95]:
print("\nVerificación de Nulos en el DataFrame final:")
null_counts = df_final_consolidado.isnull().sum()
print(null_counts[null_counts > 0]) # Mostrar solo columnas con nulos

print("\nPrimeras filas del DataFrame final consolidado:")
print(df_final_consolidado.head())


Verificación de Nulos en el DataFrame final:
MANUFACTURER         9193
BRAND                9193
ITEM_DESCRIPTION     9193
CATEGORY             9193
FORMAT               9193
ATTR1                9193
ATTR2                9193
ATTR3                9193
CATEGORY_NAME        9193
SEGMENT             12565
dtype: int64

Primeras filas del DataFrame final consolidado:
    WEEK         ITEM_CODE  TOTAL_UNIT_SALES  TOTAL_VALUE_SALES  \
0  34-22  7501058792808BP2             0.006              0.139   
1  34-22     7501058715883             0.487            116.519   
2  34-22     7702626213774             1.391             68.453   
3  34-22     7501058716422             0.022              1.481   
4  34-22     7501058784353             2.037            182.839   

   TOTAL_UNIT_AVG_WEEKLY_SALES              REGION MANUFACTURER   BRAND  \
0                        1.000  total autos area 5          NaN     NaN   
1                        2.916  total autos area 5      reckitt  vanish   
2   

----
## **Guardar el conjunto de datos consolidado:**

- Guarda el DataFrame consolidado en un nuevo archivo CSV o Excel para su uso posterior en el análisis.
----

In [96]:
# --- Guardar el DataFrame consolidado ---
df_final_consolidado.to_csv('ventas_finales.csv', index=False)
df_final_consolidado.to_excel('ventas_finales.xlsx', index=False)
print("\nDataFrame final guardado.")


DataFrame final guardado.
