# Limpeza e tratamento dos dados da [CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps?utm_source=ActiveCampaign&utm_medium=email&utm_content=%237DaysOfCode+-+Ci%C3%AAncia+de+Dados+1%2F7%3A+Data+Cleaning+and+Preparation&utm_campaign=%5BAlura+%237Days+Of+Code%5D%28Java%29+Dia+1%2F7%3A+Consumir+uma+API+de+filmes)


### Importa as bibliotecas utilizadas

In [2]:
import pandas as pd

### Cria as funções utilizadas no tratamento dos arquivos

In [44]:
def import_and_treatment_and_agregate(csvs):
    """
    Esta função realiza a leitura dos arquivos csv informados.

    Parâmetros:
    csvs (str): Lista de strings com os nomes de cada arquivo.

    Retorna:
    dataframe: Retorna a junção de todas as base de dados no formato de dataframe do Pandas.
    """
    df = pd.DataFrame()
    for csv in csvs:
        df_aux = pd.read_csv(f"Despesas CEAPS/{csv}", encoding='ISO-8859-1',delimiter=';',skiprows=1)
        df = df.append(df_aux,ignore_index=True)
    return df

def exclui_coluna(df):
    """
    Esta função realiza a exclusão da coluna 'DETALHAMENTO'.

    Parâmetros:
    df (Dataframe): O Dataframe que sofrerá a alteração.

    Retorna:
    df: O Dataframe após a exclusão da coluna.
    """
    df.drop('DETALHAMENTO',axis=1,inplace=True)
    return df

def renomeia_coluna(df):
    """
    Esta função realiza a troca dos nomes das colunas dos dataframes.

    Parâmetros:
    df (Dataframe): O Dataframe que sofrerá a alteração.

    Retorna:
    df: O Dataframe após a alteração dos nomes das colunas.
    """
    df.rename(columns={
        "ANO":"Ano",
        "MES":"Mes",
        "SENADOR":"Senador",
        "TIPO_DESPESA":"Tipo Desp.",
        "CNPJ_CPF":"CNPJ/CPF",
        "FORNECEDOR":"Fornecedor",
        "DOCUMENTO":"Documento",
        "DATA":"Data",
        "VALOR_REEMBOLSADO":"Reembolso",
        "COD_DOCUMENTO":"Cod. Documento"
    },inplace=True)
    return df

### Define quais arquivos serão lidos

In [29]:
csvs = ['despesa_ceaps_2022.csv',
        'despesa_ceaps_2021.csv',
        'despesa_ceaps_2020.csv',
        'despesa_ceaps_2019.csv']

### Executo as operações definidas anteriormente

In [43]:
df = import_and_treatment_and_agregate(csvs)
df = exclui_coluna(df)
df = renomeia_coluna(df)
df

Unnamed: 0,Ano,Mes,Senador,Tipo Desp.,CNPJ/CPF,Fornecedor,Documento,Data,Reembolso,Cod. Documento
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,6000,2173614
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,1500,2173615
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,6000,2173616
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,1000,2173618
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,000000000001772/A,17/01/2022,2000,2173617
...,...,...,...,...,...,...,...,...,...,...
69328,2019,1,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",09.296.295/0001-60,Azul,O954UL,19/01/2019,76929,2113825
69329,2019,1,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",09.296.295/0001-60,Azul,G9Z36V,24/01/2019,31062,2113828
69330,2019,1,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",07.575.651/0001-59,GOL,WNQI4A,29/01/2019,11681,2114101
69331,2019,1,ZEZÉ PERRELLA,"Passagens aéreas, aquáticas e terrestres nacio...",33.937.681/0001-78,LATAM,NCCPIM,23/01/2019,77205,2113826
