In [1]:
import pandas as pd

def get_produccion(path: str)->pd.DataFrame:
    """
    Function that reads the excel file in the path and returns a dataframe
    with the production data, for the data of producción agricola provided
    by the DANE

    todo: #9 check the provider of the data and the license

    Parameters
    ----------
    path: str
        path to the excel file

    Returns
    -------
    pd.DataFrame
        dataframe with the production data
            columns: ['código dane departamento', 'departamento', 'código dane municipio',
       'municipio', 'desagregación cultivo', 'cultivo', 'ciclo del cultivo',
       'grupo cultivo', 'subgrupo', 'año', 'periodo', 'área sembrada (ha)',
       'área cosechada (ha)', 'producción (t)', 'rendimiento (t/ha)',
       'código del cultivo', 'nombre científico del cultivo',
       'estado físico del cultivo']
            #TODO: #10 add columns
    """
    df = pd.read_excel(path)
    df.columns = df.columns.str.lower()
    # if the value of the length of the str in 'código dane municipio' is not 5
    # add a 0 at the beginning
    # and then if the value of the length of the str in 'código dane municipio' is not 5
    # add a 0 at the end
    # and then if the value of the length of the str in 'código dane municipio' is not 5
    # add a 0 at the end
    df['código dane municipio'] = df['código dane municipio'].astype(str)
    df['código dane municipio'] = df['código dane municipio'].apply(lambda x: "0"+ x if len(x) != 5 else x)
    df['código dane municipio'] = df['código dane municipio'].apply(lambda x: x + "0" if len(x) != 5 else x)
    df['código dane municipio'] = df['código dane municipio'].apply(lambda x: x + "0" if len(x) != 5 else x)
    return df

def pivot_per_municipio(df: pd.DataFrame, columns: list, values: str)->pd.DataFrame:
    """
    Function that pivots the dataframe to have the production data per
    municipio

    Parameters
    ----------
    df: pd.DataFrame
        dataframe with the production data

    Returns
    -------
    pd.DataFrame
        dataframe with the production data per municipio
    """
    index = ['código dane departamento', 'departamento', 'código dane municipio',
       'municipio']
    df = df.pivot_table(index=index, columns=columns, values=values)
    return df

df = get_produccion("produccion\produccion_agricola_2019_2022.xlsx")
df_pivot = pivot_per_municipio(df,columns=['grupo cultivo','subgrupo', 'año', 'periodo'], values='producción (t)')

display(df_pivot)



Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,grupo cultivo,Cereales,Cereales,Cereales,Cereales,Cereales,Cereales,Cereales,Cereales,Cultivos Tropicales Tradicionales,Cultivos Tropicales Tradicionales,...,Raíces y Tubérculos,Raíces y Tubérculos,Raíces y Tubérculos,Raíces y Tubérculos,Raíces y tubérculos,Raíces y tubérculos,Raíces y tubérculos,Raíces y tubérculos,Raíces y tubérculos,Raíces y tubérculos
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,subgrupo,Cereales,Cereales,Cereales,Cereales,Cereales,Cereales,Cereales,Cereales,Cultivos Tropicales Tradicionales,Cultivos Tropicales Tradicionales,...,Raíces y Tubérculos,Raíces y Tubérculos,Raíces y Tubérculos,Raíces y Tubérculos,Raíces y tubérculos,Raíces y tubérculos,Raíces y tubérculos,Raíces y tubérculos,Raíces y tubérculos,Raíces y tubérculos
Unnamed: 0_level_2,Unnamed: 1_level_2,Unnamed: 2_level_2,año,2019,2019,2020,2020,2021,2021,2022,2022,2019,2019,...,2021,2021,2022,2022,2019,2020,2021,2022,2022,2022
Unnamed: 0_level_3,Unnamed: 1_level_3,Unnamed: 2_level_3,periodo,2019A,2019B,2020A,2020B,2021A,2021B,2022A,2022B,2019,2019A,...,2021A,2021B,2022A,2022B,2019,2020,2021,2022,2022A,2022B
código dane departamento,departamento,código dane municipio,municipio,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4,Unnamed: 11_level_4,Unnamed: 12_level_4,Unnamed: 13_level_4,Unnamed: 14_level_4,Unnamed: 15_level_4,Unnamed: 16_level_4,Unnamed: 17_level_4,Unnamed: 18_level_4,Unnamed: 19_level_4,Unnamed: 20_level_4,Unnamed: 21_level_4,Unnamed: 22_level_4,Unnamed: 23_level_4,Unnamed: 24_level_4
5,Antioquia,05001,Medellín,,,,,,,,,2658.500000,,...,370.00,480.00,323.235000,360.910000,,,,,,
5,Antioquia,05002,Abejorral,200.00,150.00,200.000000,150.00,98.00,80.000,90.00,75.000000,4975.193333,,...,900.00,900.00,850.000000,800.000000,,,,,,
5,Antioquia,05004,Abriaquí,24.00,10.00,5.000000,5.00,7.80,3.600,4.20,14.400000,2437.000000,,...,8.24,2.87,7.693333,7.853333,,,,,,
5,Antioquia,05021,Alejandría,30.00,30.00,60.000000,30.00,7.83,7.830,8.40,6.000000,2701.366667,,...,112.00,112.00,70.000000,30.000000,,,,,,
5,Antioquia,05030,Amagá,8.67,3.08,14.260000,6.29,8.18,4.155,10.91,7.365000,1287.630000,,...,204.00,,0.000000,225.000000,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
97,Vaupés,97666,Taraira,32.00,,5.000000,,,,,,,,...,304.97,304.97,304.970000,304.970000,,,,,,
99,Vichada,99001,Puerto Carreño,24.00,316.50,24.000000,68.25,25.00,175.000,143.75,11.250000,680.000000,,...,60.00,23.00,72.000000,256.000000,,,,,,
99,Vichada,99524,La Primavera,336.00,276.70,66.420000,361.20,228.00,472.000,168.00,570.000000,388.500000,,...,890.00,1395.00,1330.000000,1003.000000,,,,,,
99,Vichada,99624,Santa Rosalía,48.00,69.50,49.000000,69.50,24.00,86.200,12.03,71.016667,348.700000,,...,275.00,250.00,275.000000,250.000000,,,,,,
