In [158]:
import pandas as pd
import numpy as np

## Carga el DataFrame desde un archivo Excel

In [21]:
dfExcel = pd.read_excel("data_csv/ventas.xlsx")

print(dfExcel)

                                                rama  ind0122  ind0222  \
0                              Venta de motocicletas    80.56    55.35   
1                               Venta de automóviles    89.77    95.82   
2         Mantenimiento y reparación de motocicletas    59.03    87.90   
3          Mantenimiento y reparación de automóviles    53.67    71.04   
4  Comercio de repuestos y accesorios de motocicl...    75.44    94.13   
5  Comercio de repuestos y accesorios de automóviles    69.39    97.17   

   ind0322  ind0422  ind0522  ind0622  ind0722  ind0822  ind0922  ...  \
0    84.05    85.01    77.26    52.58    59.78    71.48    85.39  ...   
1    91.29    90.27    97.96    85.18    94.23    50.40    71.94  ...   
2    93.83    94.34    88.80    69.04    65.63    98.85    80.19  ...   
3    88.39    73.73    66.80    73.58    98.14    91.62    78.36  ...   
4    73.82    78.27    92.23    65.05    93.34    78.85    51.73  ...   
5    80.24    80.84    98.02    94.73    86

## Utiliza df.melt() para transformar el DataFrame de un formato ancho a un formato largo. Asegúrate de mantener la columna rama como identificador, nombrar la columna de variables como "periodo" y la de valores como "facturacion".

In [53]:
df2 = dfExcel.melt(id_vars=["rama"], var_name="periodo", value_name="facturacion")
print(df2)

                                                  rama  periodo  facturacion
0                                Venta de motocicletas  ind0122        80.56
1                                 Venta de automóviles  ind0122        89.77
2           Mantenimiento y reparación de motocicletas  ind0122        59.03
3            Mantenimiento y reparación de automóviles  ind0122        53.67
4    Comercio de repuestos y accesorios de motocicl...  ind0122        75.44
..                                                 ...      ...          ...
145                               Venta de automóviles  ind0124        70.76
146         Mantenimiento y reparación de motocicletas  ind0124        66.33
147          Mantenimiento y reparación de automóviles  ind0124        70.80
148  Comercio de repuestos y accesorios de motocicl...  ind0124        61.89
149  Comercio de repuestos y accesorios de automóviles  ind0124        81.83

[150 rows x 3 columns]


## Extrae el año y mes del nombre de la columna "periodo" utilizando expresiones regulares.

In [55]:
# hacer una col. derivada y solo coger los 4 ultimos numeros, los dos primeros el mes, y los dos ultimos el anio
## para ello, primero pasamos el valor a tipo string de numpy (con .str), y después se agrega otro patrón
df2["periodo"] = df2["periodo"].str.extract(pat=r'(\d{2})') + "/" + df2["periodo"].str.extract(pat=r'(\d{2}$)')
print(df2)

                                                  rama periodo  facturacion
0                                Venta de motocicletas   01/22        80.56
1                                 Venta de automóviles   01/22        89.77
2           Mantenimiento y reparación de motocicletas   01/22        59.03
3            Mantenimiento y reparación de automóviles   01/22        53.67
4    Comercio de repuestos y accesorios de motocicl...   01/22        75.44
..                                                 ...     ...          ...
145                               Venta de automóviles   01/24        70.76
146         Mantenimiento y reparación de motocicletas   01/24        66.33
147          Mantenimiento y reparación de automóviles   01/24        70.80
148  Comercio de repuestos y accesorios de motocicl...   01/24        61.89
149  Comercio de repuestos y accesorios de automóviles   01/24        81.83

[150 rows x 3 columns]


## Convierte los valores de "periodo" a objetos datetime utilizando el formato adecuado para año y mes

In [168]:
df3 = df2.copy()
df3["periodo"] = pd.to_datetime(arg=df3["periodo"], format="%m/%y")

print(df3)

                                                  rama    periodo  facturacion
0                                Venta de motocicletas 2022-01-01        80.56
1                                 Venta de automóviles 2022-01-01        89.77
2           Mantenimiento y reparación de motocicletas 2022-01-01        59.03
3            Mantenimiento y reparación de automóviles 2022-01-01        53.67
4    Comercio de repuestos y accesorios de motocicl... 2022-01-01        75.44
..                                                 ...        ...          ...
145                               Venta de automóviles 2024-01-01        70.76
146         Mantenimiento y reparación de motocicletas 2024-01-01        66.33
147          Mantenimiento y reparación de automóviles 2024-01-01        70.80
148  Comercio de repuestos y accesorios de motocicl... 2024-01-01        61.89
149  Comercio de repuestos y accesorios de automóviles 2024-01-01        81.83

[150 rows x 3 columns]


## Calcula el último periodo de tiempo disponible en el DataFrame.
## Luego, marca los registros de los últimos tres meses como provisionales, crea una columna "provisional"

In [205]:
ultimo_periodo = df3["periodo"].max()
tres_anteriores = ultimo_periodo-pd.DateOffset(months=3)
def es_provisional(fecha):
    return "X" if fecha >= tres_anteriores else "" #escribirá "X" en cada registro 'provisional' (esté en los 3 últimos meses)

df3["provisional"] = df3["periodo"].apply(es_provisional)
print(df3)

#comprobarlo recogiendo las fechas anteriores
print(df3.query("`provisional` == 'X'"))

                                                  rama    periodo  \
0                                Venta de motocicletas 2022-01-01   
1                                 Venta de automóviles 2022-01-01   
2           Mantenimiento y reparación de motocicletas 2022-01-01   
3            Mantenimiento y reparación de automóviles 2022-01-01   
4    Comercio de repuestos y accesorios de motocicl... 2022-01-01   
..                                                 ...        ...   
145                               Venta de automóviles 2024-01-01   
146         Mantenimiento y reparación de motocicletas 2024-01-01   
147          Mantenimiento y reparación de automóviles 2024-01-01   
148  Comercio de repuestos y accesorios de motocicl... 2024-01-01   
149  Comercio de repuestos y accesorios de automóviles 2024-01-01   

     facturacion provisional  
0          80.56              
1          89.77              
2          59.03              
3          53.67              
4          75.44

1. Extrae el año y el mes del periodo para su uso en cálculos futuros.
2. Configura el entorno local a "es_ES.UTF-8" para asegurar que los meses se presenten en español.
3. Formatea el campo "mes" para que el nombre del mes esté en español y con la primera letra en mayúscula.

In [233]:
#1. Extraer el año y mes por separado
df3FechaSep = df3.copy()
#Usando locale, cambiar el idioma de la zona horaria a España
import locale
locale.getlocale()
('en_US', 'UTF-8')

locale.setlocale(locale.LC_TIME, 'es_ES')

#hacer el formato de fecha adecuado; para ello usar el método 'dt' del Series tratado,
##y a su vez su método strftime para dar formato a la salida
df3FechaSep["periodo"] = df3FechaSep["periodo"].dt.strftime("%Y-%B-%d")

#Separar mes y anio a partir del guión como separador (usando métodos de alteración vectorial para string 'str')
periodoSplit = df3FechaSep["periodo"].astype("str").str.split(pat="-", expand=True)

#Agregando columnas derivadas al periodo
df3FechaSep["mes"] = periodoSplit[1].str.upper().str[0] + periodoSplit[1].str[1::] #utilizo los indices del método str[] para moverlo
                ## se podría hacer, también, usando .capitalize()
df3FechaSep["anio"] = periodoSplit[0]
print(df3FechaSep)

                                                  rama        periodo  \
0                                Venta de motocicletas  2022-enero-01   
1                                 Venta de automóviles  2022-enero-01   
2           Mantenimiento y reparación de motocicletas  2022-enero-01   
3            Mantenimiento y reparación de automóviles  2022-enero-01   
4    Comercio de repuestos y accesorios de motocicl...  2022-enero-01   
..                                                 ...            ...   
145                               Venta de automóviles  2024-enero-01   
146         Mantenimiento y reparación de motocicletas  2024-enero-01   
147          Mantenimiento y reparación de automóviles  2024-enero-01   
148  Comercio de repuestos y accesorios de motocicl...  2024-enero-01   
149  Comercio de repuestos y accesorios de automóviles  2024-enero-01   

     facturacion provisional    mes  anio  
0          80.56              Enero  2022  
1          89.77              Enero

## Calcula la variación interanual e intermensual de la facturación

In [249]:
df4 = df3FechaSep.copy()
df4["anterior_valor"] = df4.groupby(by="rama")["facturacion"].shift(12, fill_value=0)
df4["variacion_interanual"] = ((df4["facturacion"]- df4["anterior_valor"]) / 100).round(3).astype("str") + "%"
print(df4)

                                                  rama        periodo  \
0                                Venta de motocicletas  2022-enero-01   
1                                 Venta de automóviles  2022-enero-01   
2           Mantenimiento y reparación de motocicletas  2022-enero-01   
3            Mantenimiento y reparación de automóviles  2022-enero-01   
4    Comercio de repuestos y accesorios de motocicl...  2022-enero-01   
..                                                 ...            ...   
145                               Venta de automóviles  2024-enero-01   
146         Mantenimiento y reparación de motocicletas  2024-enero-01   
147          Mantenimiento y reparación de automóviles  2024-enero-01   
148  Comercio de repuestos y accesorios de motocicl...  2024-enero-01   
149  Comercio de repuestos y accesorios de automóviles  2024-enero-01   

     facturacion provisional    mes  anio  anterior_valor variacion_interanual  
0          80.56              Enero  2022 

In [297]:
df4 = df3FechaSep.copy()

#Agrupo por MES, pero recojo o bien los 12 meses anteriores (anterior año), o bien el mes anterior
df4["anterior_valor_anual"] = df4.groupby(by="mes")["facturacion"].shift(12, fill_value=0)
df4["anterior_valor_mens"] = df4.groupby(by="mes")["facturacion"].shift(1, fill_value=0)
df4["variacion_interanual"] = ((df4["facturacion"]- df4["anterior_valor_anual"]) / 100).round(3).astype("str") + "%"
df4["variacion_intermensual"] = ((df4["facturacion"]- df4["anterior_valor_mens"]) / 100).round(3).astype("str") + "%"
print(df4)

                                                  rama        periodo  \
0                                Venta de motocicletas  2022-enero-01   
1                                 Venta de automóviles  2022-enero-01   
2           Mantenimiento y reparación de motocicletas  2022-enero-01   
3            Mantenimiento y reparación de automóviles  2022-enero-01   
4    Comercio de repuestos y accesorios de motocicl...  2022-enero-01   
..                                                 ...            ...   
145                               Venta de automóviles  2024-enero-01   
146         Mantenimiento y reparación de motocicletas  2024-enero-01   
147          Mantenimiento y reparación de automóviles  2024-enero-01   
148  Comercio de repuestos y accesorios de motocicl...  2024-enero-01   
149  Comercio de repuestos y accesorios de automóviles  2024-enero-01   

     facturacion provisional    mes  anio  anterior_valor_anual  \
0          80.56              Enero  2022               

## Calcula la media de la facturación anual y compárala con el año anterior

In [308]:
dfAnualYComp = pd.DataFrame(data={})

dfAnualYComp["anio"] = df4["anio"]
dfAnualYComp["factMedia"] = df4.groupby("anio")["facturacion"].transform("mean")
dfAnualYComp["factMediaAnterior"] = dfAnualYComp["factMedia"].shift(1)

dfAnualYComp = dfAnualYComp.drop_duplicates()
print(dfAnualYComp)

     anio  factMedia  factMediaAnterior
0    2022  78.136528                NaN
1    2022  78.136528          78.136528
72   2023  76.124028          78.136528
73   2023  76.124028          76.124028
144  2024  74.708333          76.124028
145  2024  74.708333          74.708333


## Transforma nuevamente el DataFrame a un formato largo que incluya las medidas calculadas en los pasos anteriores.

In [332]:
dfAgrupadoLargo = df4.melt(id_vars=["rama", "provisional", "anio", "mes"], value_vars=["facturacion", "variacion_interanual", "variacion_intermensual"], var_name="medidas", value_name="valor")

print(dfAgrupadoLargo)

                                                  rama provisional  anio  \
0                                Venta de motocicletas              2022   
1                                 Venta de automóviles              2022   
2           Mantenimiento y reparación de motocicletas              2022   
3            Mantenimiento y reparación de automóviles              2022   
4    Comercio de repuestos y accesorios de motocicl...              2022   
..                                                 ...         ...   ...   
445                               Venta de automóviles           X  2024   
446         Mantenimiento y reparación de motocicletas           X  2024   
447          Mantenimiento y reparación de automóviles           X  2024   
448  Comercio de repuestos y accesorios de motocicl...           X  2024   
449  Comercio de repuestos y accesorios de automóviles           X  2024   

       mes                 medidas    valor  
0    Enero             facturacion    80.

## Renombra las columnas de medidas para que sean más descriptivas.

In [335]:
#Lo haré igual que se hace en la solución
cambio_nombre = {
    "facturacion": "Facturación (Miles de €)",
    "variacion_intermensual": "Variación intermensual (%)",
    "variacion_interanual": "Variación interanual (%)",
}
dfAgrupadoLargo.replace(cambio_nombre)

dfAgrupadoLargo

Unnamed: 0,rama,provisional,anio,mes,medidas,valor
0,Venta de motocicletas,,2022,Enero,facturacion,80.56
1,Venta de automóviles,,2022,Enero,facturacion,89.77
2,Mantenimiento y reparación de motocicletas,,2022,Enero,facturacion,59.03
3,Mantenimiento y reparación de automóviles,,2022,Enero,facturacion,53.67
4,Comercio de repuestos y accesorios de motocicl...,,2022,Enero,facturacion,75.44
...,...,...,...,...,...,...
445,Venta de automóviles,X,2024,Enero,variacion_intermensual,-0.259%
446,Mantenimiento y reparación de motocicletas,X,2024,Enero,variacion_intermensual,-0.044%
447,Mantenimiento y reparación de automóviles,X,2024,Enero,variacion_intermensual,0.045%
448,Comercio de repuestos y accesorios de motocicl...,X,2024,Enero,variacion_intermensual,-0.089%


## Define y aplica un orden específico para las medidas utilizando una columna "orden_medida"

In [343]:
dfAgrupadoLargo["orden_medida"] = dfAgrupadoLargo["medidas"].map(arg={
    "Índice": 1,
    "Variación intermensual (%)": 2,
    "Variación interanual (%)": 3,
})
dfAgrupadoLargo

Unnamed: 0,rama,provisional,anio,mes,medidas,valor,orden_medida
0,Venta de motocicletas,,2022,Enero,facturacion,80.56,
1,Venta de automóviles,,2022,Enero,facturacion,89.77,
2,Mantenimiento y reparación de motocicletas,,2022,Enero,facturacion,59.03,
3,Mantenimiento y reparación de automóviles,,2022,Enero,facturacion,53.67,
4,Comercio de repuestos y accesorios de motocicl...,,2022,Enero,facturacion,75.44,
...,...,...,...,...,...,...,...
445,Venta de automóviles,X,2024,Enero,variacion_intermensual,-0.259%,
446,Mantenimiento y reparación de motocicletas,X,2024,Enero,variacion_intermensual,-0.044%,
447,Mantenimiento y reparación de automóviles,X,2024,Enero,variacion_intermensual,0.045%,
448,Comercio de repuestos y accesorios de motocicl...,X,2024,Enero,variacion_intermensual,-0.089%,


## Exporta el DataFrame transformado a un archivo CSV 

In [349]:
import datetime as dtim

nombre_archivo = f"output_{str(dtim.datetime.now())[:10]}.csv"
dfAgrupadoLargo.to_csv(path_or_buf=nombre_archivo)