In [None]:
#conecta com o seu Drive
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import os
import pandas as pd
from datetime import datetime
import numpy as np

# colocar o arquivo dentro da pasta input criada
INPUT_PATH = "/content/input/"
OUTPUT_PATH = "/content/output/"


def get_clean_data():
    df = get_df()
    df = clean_data(df)
    df = get_pivot_df(df)
    df.to_csv(OUTPUT_PATH + "br_ibge_municipios.csv", index=False)

def get_df():
    excel_files = sorted(os.listdir(INPUT_PATH))
    excel_files = [INPUT_PATH + x for x in excel_files]

    dfs = map(lambda x: pd.read_excel(x, dtype = 'string'), excel_files)
    df = pd.concat(dfs, axis=0)

    return df

def get_pivot_df(df):

    # Usando a função melt para reorganizar as colunas de origem
    id_vars_name = ['id_municipio_criado','nome_municipio_criado','lei','data_criacao',
                    'data_instalacao']
    value_vars_name =['id_municipio_origem_1', 'id_municipio_origem_2', 'id_municipio_origem_3',
                      'id_municipio_origem_4','id_municipio_origem_5', 'id_municipio_origem_6',
                      'id_municipio_origem_7', 'id_municipio_origem_8']

    melted_df = pd.melt(df, id_vars = id_vars_name, value_vars = value_vars_name, value_name='id_municipio_origem')

    # Removendo coluna 'variable'
    melted_df.drop('variable', axis=1, inplace=True)

    # Excluir as linhas com zero no id do município de origem
    indice = melted_df[melted_df['id_municipio_origem'] == "0" ].index
    melted_df.drop(indice, inplace = True)

    df = melted_df

    return df

def clean_data(df: pd.DataFrame):

    ################
    # Drop Columns #
    ################

    df = df.drop(
                columns=['UF', 'NOME_UF', 'MUNIC']
            )


    #################################
    # Rename and insert new columns #
    #################################

    # Rename
    df = df.rename(columns={
            'UF_MUNIC':'id_municipio_criado',
            'Nome_Município':'nome_municipio_criado',
            'LEI':'lei',
            'DTCRIACAO':'data_criacao',
            'DTINSTALA':'data_instalacao',
            'PROV1':'id_municipio_origem_1',
            'NOME_PROV1':'nome_municipio_origem_1',
            'PROV2':'id_municipio_origem_2',
            'NOME_PROV2':'nome_municipio_origem_2',
            'PROV3':'id_municipio_origem_3',
            'NOME_PROV3':'nome_municipio_origem_3',
            'PROV4':'id_municipio_origem_4',
            'NOME_PROV4':'nome_municipio_origem_4',
            'PROV5':'id_municipio_origem_5',
            'NOME_PROV5':'nome_municipio_origem_5',
            'PROV6':'id_municipio_origem_6',
            'NOME_PROV6':'nome_municipio_origem_6',
            'PROV7':'id_municipio_origem_7',
            'NOME_PROV7':'nome_municipio_origem_7',
            'PROV8':'id_municipio_origem_8',
            'NOME_PROV8':'nome_municipio_origem_8'
        })

    ###################
    # Type of columns #
    ###################

    # Convert pandas multiple columns to Datetime
    df[['data_criacao','data_instalacao']] = df[['data_criacao','data_instalacao']].apply(pd.to_datetime, errors='coerce')

    # ###################
    # # Reorder columns #
    # ###################
    # col_order = [
    #         "id_municipio_criado",
    #         "nome_municipio_criado",
    #         "lei",
    #         "data_criacao",
    #         "data_instalacao",
    #         "id_municipio_origem",
    #         "nome_municipio_origem"
    #     ]
    # assert len(df.columns) == len(col_order)
    # df = df[col_order]

    return df

In [None]:
get_clean_data()