# Transformamos datos

In [1]:

import pandas as pd
from pathlib import Path

# Cargar el archivo parquet que contiene los datos validados
file_path = '../data/interim/validated_range_dates_20250630.parquet'
df_fleca = pd.read_parquet(file_path)

# Ordenar la columna fecha de forma ascendente

df_fleca = df_fleca.sort_values(by='fecha')

# Eliminar la parte de horas, minutos y segundos de la columna 'fecha'
df_fleca['fecha'] = df_fleca['fecha'].dt.date

df_fleca.head()




Unnamed: 0,fecha,familia,base_imponible
87701,2023-01-02,VARIOS,1.59
107847,2023-01-02,CERVEZAS,1.41
107890,2023-01-02,BEBIDAS,1.91
148547,2023-01-02,BOCADILLOS,1.59
107979,2023-01-02,BOLLERIA,1.91


In [2]:
# Convertir la columna 'fecha' a tipo datetime
df_fleca['fecha'] = pd.to_datetime(df_fleca['fecha'])

print(df_fleca.dtypes)

fecha             datetime64[ns]
familia                   object
base_imponible           float64
dtype: object


In [3]:
# Guardar el DataFrame en formato parquet en la carpeta de datos procesados para los datos diarios
df_fleca_dia = df_fleca.to_parquet('../data/processed/ts_data_family_dia_00.parquet', index=False)

In [5]:
# Convertir la columna 'fecha' a tipo datetime
df_fleca['fecha'] = pd.to_datetime(df_fleca['fecha'])

# Calcular el inicio de semana (lunes) para cada fecha
df_fleca['semana'] = df_fleca['fecha'] - pd.to_timedelta(df_fleca['fecha'].dt.weekday, unit='d')

# Eliminar la columna 'fecha' si no se necesita
df_fleca_semana = df_fleca.drop(columns=['fecha'])


df_fleca_semana.head()

Unnamed: 0,familia,base_imponible,semana
87701,VARIOS,1.59,2023-01-02
107847,CERVEZAS,1.41,2023-01-02
107890,BEBIDAS,1.91,2023-01-02
148547,BOCADILLOS,1.59,2023-01-02
107979,BOLLERIA,1.91,2023-01-02


In [6]:
# Agrupar por semana y familia y calcular la suma de las columnas numéricas 
df_fleca_semana_agg = df_fleca_semana.groupby(['semana', 'familia']).sum().reset_index()


print(df_fleca_semana_agg.head(50))


       semana           familia  base_imponible
0  2023-01-02          AÑADIDOS            8.81
1  2023-01-02           BEBIDAS          467.96
2  2023-01-02        BOCADILLOS          864.03
3  2023-01-02          BOLLERIA          825.11
4  2023-01-02             CAFES         1617.62
5  2023-01-02          CERVEZAS           30.69
6  2023-01-02           LICORES           50.46
7  2023-01-02               PAN          366.92
8  2023-01-02        PASTELERIA          783.20
9  2023-01-02  TES & INFUSIONES           92.25
10 2023-01-02          TOSTADAS           66.56
11 2023-01-02            VARIOS           26.41
12 2023-01-09          AÑADIDOS            9.99
13 2023-01-09           BEBIDAS          393.39
14 2023-01-09        BOCADILLOS          666.06
15 2023-01-09          BOLLERIA          658.40
16 2023-01-09             CAFES         1405.42
17 2023-01-09          CERVEZAS           52.51
18 2023-01-09           LICORES           21.22
19 2023-01-09               PAN         

In [8]:
# Guardar el DataFrame agrupado en formato parquet en la carpeta de datos procesados para los datos semanales
df_fleca_semana_agg.to_parquet('../data/processed/ts_data_family_semana_00.parquet', index=False)

# A partir de aquí, es un ejemplo para poder agrupar por familias

In [90]:
# Filtrar solo los datos de la familia 'Bocadillos'
df_bocadillos = df_fleca_semana_agg[df_fleca_semana_agg['familia'] == 'BOCADILLOS'].reset_index(drop=True)

# Eliminar de la columna semana las horas, minutos y segundos
df_bocadillos['semana'] = df_bocadillos['semana'].dt.date


df_bocadillos.head(50)


Unnamed: 0,semana,familia,base_imponible
0,2024-01-01,BOCADILLOS,676.21
1,2024-01-08,BOCADILLOS,704.53
2,2024-01-15,BOCADILLOS,646.02
3,2024-01-22,BOCADILLOS,726.73
4,2024-01-29,BOCADILLOS,708.58
5,2024-02-05,BOCADILLOS,760.37
6,2024-02-12,BOCADILLOS,824.47
7,2024-02-19,BOCADILLOS,737.55
8,2024-02-26,BOCADILLOS,775.31
9,2024-03-04,BOCADILLOS,705.43
