#### Paso 1 Cargar tablas de datos en Pandas:

In [1]:
import pandas as pd

# cargar tablas 
df_dim_category = pd.read_csv("DIM_CATEGORY.csv")
df_dim_product = pd.read_excel("DIM_PRODUCT.xlsx")
df_dim_segment = pd.read_excel("DIM_SEGMENT.xlsx")
df_dim_calendar = pd.read_excel("DIM_CALENDAR.xlsx")
df_fact_sales = pd.read_csv("FACT_SALES.csv")

# Mostrar las primeras filas de cada DataFrame para verificar la carga
print("DIM_CATEGORY:\n", df_dim_category.head())
print("\nDIM_PRODUCT:\n", df_dim_product.head())
print("\nDIM_SEGMENT:\n", df_dim_segment.head())
print("\nDIM_CALENDAR:\n", df_dim_calendar.head())
print("\nFACT_SALES:\n", df_fact_sales.head())

DIM_CATEGORY:
    ID_CATEGORY                        CATEGORY
0            1  FABRIC TREATMENT and SANIT\r\n
1            2                       AIR CARE 
2            3                    LAVAVAJILLAS
3            4                MEGA SUPERFICIES
4            5             LAVATORY CARE & BRC

DIM_PRODUCT:
   MANUFACTURER     BRAND           ITEM  \
0   INDS. ALEN  CLORALEX  0000075000592   
1   INDS. ALEN  CLORALEX  0000075000608   
2   INDS. ALEN  CLORALEX  0000075000615   
3   INDS. ALEN  CLORALEX  0000075000622   
4   INDS. ALEN  CLORALEX  0000075000639   

                                    ITEM_DESCRIPTION  CATEGORY   FORMAT  \
0  CLORALEX EL RENDIDOR BOT.PLAST. 250ML NAL. 000...         1  LIQUIDO   
1  CLORALEX EL RENDIDOR BOT.PLAST. 500ML NAL. 000...         1  LIQUIDO   
2  CLORALEX EL RENDIDOR BOT.PLAST. 950ML NAL. 000...         1  LIQUIDO   
3  CLORALEX EL RENDIDOR BOT.PLAST. 2000ML NAL 000...         1  LIQUIDO   
4  CLORALEX EL RENDIDOR BOT.PLAST. 3750ML NAL 000...  

#### Paso 2 Revisar y entender los datos cargados:

In [3]:
# Revisión rápida de las primeras filas de cada DataFrame
print("DIM_CATEGORY - Primeras filas:\n", df_dim_category.head())
print("\nDIM_PRODUCT - Primeras filas:\n", df_dim_product.head())
print("\nDIM_SEGMENT - Primeras filas:\n", df_dim_segment.head())
print("\nDIM_CALENDAR - Primeras filas:\n", df_dim_calendar.head())
print("\nFACT_SALES - Primeras filas:\n", df_fact_sales.head())

# Información general de cada DataFrame
print("\nDIM_CATEGORY - Información general:")
df_dim_category.info()
print("\nDIM_PRODUCT - Información general:")
df_dim_product.info()
print("\nDIM_SEGMENT - Información general:")
df_dim_segment.info()
print("\nDIM_CALENDAR - Información general:")
df_dim_calendar.info()
print("\nFACT_SALES - Información general:")
df_fact_sales.info()

# Descripción estadística de cada DataFrame
print("\nDIM_CATEGORY - Descripción estadística:\n", df_dim_category.describe())
print("\nDIM_PRODUCT - Descripción estadística:\n", df_dim_product.describe())
print("\nDIM_SEGMENT - Descripción estadística:\n", df_dim_segment.describe())
print("\nDIM_CALENDAR - Descripción estadística:\n", df_dim_calendar.describe())
print("\nFACT_SALES - Descripción estadística:\n", df_fact_sales.describe())

DIM_CATEGORY - Primeras filas:
    ID_CATEGORY                        CATEGORY
0            1  FABRIC TREATMENT and SANIT\r\n
1            2                       AIR CARE 
2            3                    LAVAVAJILLAS
3            4                MEGA SUPERFICIES
4            5             LAVATORY CARE & BRC

DIM_PRODUCT - Primeras filas:
   MANUFACTURER     BRAND           ITEM  \
0   INDS. ALEN  CLORALEX  0000075000592   
1   INDS. ALEN  CLORALEX  0000075000608   
2   INDS. ALEN  CLORALEX  0000075000615   
3   INDS. ALEN  CLORALEX  0000075000622   
4   INDS. ALEN  CLORALEX  0000075000639   

                                    ITEM_DESCRIPTION  CATEGORY   FORMAT  \
0  CLORALEX EL RENDIDOR BOT.PLAST. 250ML NAL. 000...         1  LIQUIDO   
1  CLORALEX EL RENDIDOR BOT.PLAST. 500ML NAL. 000...         1  LIQUIDO   
2  CLORALEX EL RENDIDOR BOT.PLAST. 950ML NAL. 000...         1  LIQUIDO   
3  CLORALEX EL RENDIDOR BOT.PLAST. 2000ML NAL 000...         1  LIQUIDO   
4  CLORALEX EL RENDI

#### Paso 3 Realizar Limpieza de datos:

In [32]:
import pandas as pd

# cargar tablas 
df_dim_category = pd.read_csv("DIM_CATEGORY.csv")
df_dim_product = pd.read_excel("DIM_PRODUCT.xlsx")
df_dim_segment = pd.read_excel("DIM_SEGMENT.xlsx")
df_dim_calendar = pd.read_excel("DIM_CALENDAR.xlsx")
df_fact_sales = pd.read_csv("FACT_SALES.csv")


# Función para corregir posibles inconsistencias en los datos
def clean_data(df):
    # Convertir nombres de columnas a minúsculas
    df.columns = df.columns.str.lower()
    
    # Eliminar espacios en blanco al inicio y final de los nombres de columnas
    df.columns = df.columns.str.strip()
    
    # Eliminar espacios en blanco al inicio y final de los valores de las celdas
    df = df.apply(lambda x: x.str.strip() if x.dtype == "object" else x)
    
    return df

# Limpiar datos de cada DataFrame
df_dim_category = clean_data(df_dim_category)
df_dim_product = clean_data(df_dim_product)
df_dim_segment = clean_data(df_dim_segment)
df_dim_calendar = clean_data(df_dim_calendar)
df_fact_sales = clean_data(df_fact_sales)

# Identificar y manejar valores nulos en cada DataFrame
def handle_missing_values(df):
    # Mostrar valores nulos por columna
    print("Valores nulos por columna:\n", df.isnull().sum())
    
    # Rellenar valores nulos con un valor específico o eliminar filas con valores nulos
    df.fillna('Desconocido', inplace=True)  # Ejemplo: rellenar con 'Desconocido'
    
    return df

# Manejar valores nulos en cada DataFrame
df_dim_category = handle_missing_values(df_dim_category)
df_dim_product = handle_missing_values(df_dim_product)
df_dim_segment = handle_missing_values(df_dim_segment)
df_dim_calendar = handle_missing_values(df_dim_calendar)
df_fact_sales = handle_missing_values(df_fact_sales)

# Identificar y eliminar duplicados en cada DataFrame
def remove_duplicates(df):
    # Mostrar número de duplicados
    print("Número de duplicados:", df.duplicated().sum())
    
    # Eliminar duplicados
    df.drop_duplicates(inplace=True)
    
    return df

# Eliminar duplicados en cada DataFrame
df_dim_category = remove_duplicates(df_dim_category)
df_dim_product = remove_duplicates(df_dim_product)
df_dim_segment = remove_duplicates(df_dim_segment)
df_dim_calendar = remove_duplicates(df_dim_calendar)
df_fact_sales = remove_duplicates(df_fact_sales)

# Mostrar las primeras filas de cada DataFrame para verificar la limpieza de datos
print("DIM_CATEGORY - Primeras filas:\n", df_dim_category.head())
print("\nDIM_PRODUCT - Primeras filas:\n", df_dim_product.head())
print("\nDIM_SEGMENT - Primeras filas:\n", df_dim_segment.head())
print("\nDIM_CALENDAR - Primeras filas:\n", df_dim_calendar.head())
print("\nFACT_SALES - Primeras filas:\n", df_fact_sales.head())


Valores nulos por columna:
 id_category    0
category       0
dtype: int64
Valores nulos por columna:
 manufacturer        0
brand               0
item                2
item_description    0
category            0
format              0
attr1               6
attr2               0
attr3               6
dtype: int64
Valores nulos por columna:
 category    0
attr1       0
attr2       0
attr3       1
format      0
segment     0
dtype: int64
Valores nulos por columna:
 week           0
year           0
month          0
week_number    0
date           0
dtype: int64
Valores nulos por columna:
 week                           0
item_code                      0
total_unit_sales               0
total_value_sales              0
total_unit_avg_weekly_sales    0
region                         0
dtype: int64
Número de duplicados: 0
Número de duplicados: 0
Número de duplicados: 0
Número de duplicados: 0
Número de duplicados: 0
DIM_CATEGORY - Primeras filas:
    id_category                    category
0

#### Paso 4 Unir los DataFrames reeleventes:

In [None]:
import pandas as pd
# cargar tablas 
df_dim_category = pd.read_csv("DIM_CATEGORY.csv")
df_dim_product = pd.read_excel("DIM_PRODUCT.xlsx")
df_dim_segment = pd.read_excel("DIM_SEGMENT.xlsx")
df_dim_calendar = pd.read_excel("DIM_CALENDAR.xlsx")
df_fact_sales = pd.read_csv("FACT_SALES.csv")

# Verificar los nombres de las columnas en cada DataFrame
print("Columnas en DIM_CATEGORY:", df_dim_category.columns)
print("Columnas en DIM_PRODUCT:", df_dim_product.columns)
print("Columnas en DIM_SEGMENT:", df_dim_segment.columns)
print("Columnas en DIM_CALENDAR:", df_dim_calendar.columns)
print("Columnas en FACT_SALES:", df_fact_sales.columns)


# Realizar uniones entre los DataFrames para consolidar la información

# Unir la tabla de productos con las ventas
df_merged = pd.merge(df_fact_sales, df_dim_product, left_on='ITEM_CODE', right_on='ITEM', how='left')

# Unir la tabla resultante con las categorías
df_merged = pd.merge(df_merged, df_dim_category, left_on='CATEGORY', right_on='ID_CATEGORY', how='left')

# Unir la tabla resultante con los segmentos
df_merged = pd.merge(df_merged, df_dim_segment, left_on='FORMAT', right_on='FORMAT', how='left')

# Unir la tabla resultante con las fechas
df_merged = pd.merge(df_merged, df_dim_calendar, left_on='WEEK', right_on='WEEK', how='left')

# Mostrar las primeras filas del DataFrame consolidado y la cantidad de columnas finales del dataframe
print("DataFrame consolidado - Primeras filas:\n", df_merged.head())
print("Columnas en DF_MERGED:", df_merged.columns)
df_merged.to_csv("df_merged.csv")

#### Paso 5 Aplica transformaciones necesarias

In [8]:
import pandas as pd
# cargar tablas 

df_merged1 = pd.read_csv("df_merged1.csv")

# Estandarizar formatos de columnas
def standardize_columns(df):
    # Convertir nombres de columnas a minúsculas
    df.columns = df.columns.str.lower()
    
    # Eliminar espacios en blanco al inicio y final de los nombres de columnas
    df.columns = df.columns.str.strip()
    
    return df

# Aplicar estandarización a cada DataFrame
df_dim_category = standardize_columns(df_dim_category)
df_dim_product = standardize_columns(df_dim_product)
df_dim_segment = standardize_columns(df_dim_segment)
df_dim_calendar = standardize_columns(df_dim_calendar)
df_merged1 = standardize_columns(df_merged1)

# Estandarizar formatos de fechas en df_dim_calendar
df_merged1["date"] = pd.to_datetime(df_merged1["date"], errors='coerce')

# Crear nuevas columnas calculadas
# Ejemplo: Crear una columna 'total_sales' en df_fact_sales
df_merged1['total_sales'] = df_fact_sales['total_unit_sales'] * df_fact_sales['total_value_sales']
df_merged1['total_avg_sales'] = df_fact_sales['total_unit_avg_weekly_sales'] * df_fact_sales['total_value_sales']

# Agrupar datos
# Ejemplo: Agrupar ventas por categoría y calcular el total de ventas por categoría
df_grouped = df_merged1.groupby('category')['total_sales'].sum().reset_index()

# Mostrar las primeras filas de los DataFrames transformados
print("\nDFMERGED1 - Primeras filas:\n", df_merged1.head())
print("\nVentas agrupadas por categoría:\n", df_grouped.head())


DFMERGED1 - Primeras filas:
    unnamed: 0   week         item_code  total_unit_sales  total_value_sales  \
0           0  34-22  7501058792808BP2             0.006              0.139   
1           1  34-22  7501058792808BP2             0.006              0.139   
2           2  34-22  7501058792808BP2             0.006              0.139   
3           3  34-22  7501058792808BP2             0.006              0.139   
4           4  34-22  7501058792808BP2             0.006              0.139   

   total_unit_avg_weekly_sales              region manufacturer   brand  \
0                          1.0  TOTAL AUTOS AREA 5      RECKITT  VANISH   
1                          1.0  TOTAL AUTOS AREA 5      RECKITT  VANISH   
2                          1.0  TOTAL AUTOS AREA 5      RECKITT  VANISH   
3                          1.0  TOTAL AUTOS AREA 5      RECKITT  VANISH   
4                          1.0  TOTAL AUTOS AREA 5      RECKITT  VANISH   

               item  ...     attr1_y        