In [8]:
import pandas as pd

def get_produccion(path: str)->pd.DataFrame:
    """
    Function that reads the excel file in the path and returns a dataframe
    with the production data, for the data of producción agricola provided
    by the DANE

    todo: #9 check the provider of the data and the license

    Parameters
    ----------
    path: str
        path to the excel file

    Returns
    -------
    pd.DataFrame
        dataframe with the production data
            columns: ['código dane departamento', 'departamento', 'código dane municipio',
       'municipio', 'desagregación cultivo', 'cultivo', 'ciclo del cultivo',
       'grupo cultivo', 'subgrupo', 'año', 'periodo', 'área sembrada (ha)',
       'área cosechada (ha)', 'producción (t)', 'rendimiento (t/ha)',
       'código del cultivo', 'nombre científico del cultivo',
       'estado físico del cultivo']
            #TODO: #10 add columns
    """
    df = pd.read_excel(path)
    df.columns = df.columns.str.lower()
    # if the value of the length of the str in 'código dane municipio' is not 5
    # add a 0 at the beginning
    # and then if the value of the length of the str in 'código dane municipio' is not 5
    # add a 0 at the end
    # and then if the value of the length of the str in 'código dane municipio' is not 5
    # add a 0 at the end
    df['código dane municipio'] = df['código dane municipio'].astype(str)
    df['código dane municipio'] = df['código dane municipio'].apply(lambda x: "0"+ x if len(x) != 5 else x)
    df['código dane municipio'] = df['código dane municipio'].apply(lambda x: x + "0" if len(x) != 5 else x)
    df['código dane municipio'] = df['código dane municipio'].apply(lambda x: x + "0" if len(x) != 5 else x)
    return df

def pivot_per_municipio(df: pd.DataFrame, columns: list, values: str)->pd.DataFrame:
    """
    Function that pivots the dataframe to have the production data per
    municipio

    Parameters
    ----------
    df: pd.DataFrame
        dataframe with the production data

    Returns
    -------
    pd.DataFrame
        dataframe with the production data per municipio
    """
    index = ['código dane departamento', 'departamento', 'código dane municipio',
       'municipio']
    df = df.pivot_table(index=index, columns=columns, values=values)
    return df

df = get_produccion("produccion\produccion_agricola_2019_2022.xlsx")
df_pivot = pivot_per_municipio(df,columns=['grupo cultivo'], values='producción (t)')

display(df_pivot)



Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,grupo cultivo,Cereales,Cultivos Tropicales Tradicionales,Cultivos para Condimentos y Bebidas Medicinales y Aromáticas,Frutales,Hortalizas,Leguminosas,Oleaginosas,Raíces y Tubérculos,Raíces y tubérculos
código dane departamento,departamento,código dane municipio,municipio,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
5,Antioquia,05001,Medellín,,2522.785000,17.2,230.930638,409.852087,41.758235,,380.552667,
5,Antioquia,05002,Abejorral,115.500000,4848.210833,,3113.091667,,147.252500,,843.750000,
5,Antioquia,05004,Abriaquí,8.666667,2625.507500,,242.477273,113.341111,32.614375,,5.152941,
5,Antioquia,05021,Alejandría,22.507500,4098.661667,,270.225000,16.937500,30.562500,,79.875000,
5,Antioquia,05030,Amagá,7.510000,1055.816250,6.0,120.920000,100.222222,5.820000,,165.300000,
...,...,...,...,...,...,...,...,...,...,...,...,...
97,Vaupés,97666,Taraira,18.500000,9.123333,,119.713500,59.062500,,,376.673846,
99,Vichada,99001,Puerto Carreño,115.576923,1164.000000,,8446.176667,35.363636,0.000000,4.15,126.875000,
99,Vichada,99524,La Primavera,346.518333,738.525000,,3002.008333,75.675000,,15053.41,1265.375000,
99,Vichada,99624,Santa Rosalía,52.035625,448.500000,,393.857143,35.416667,15.730000,8857.60,278.375000,


array([5], dtype=int64)