# <font color ='green' size=8>7 Days of Code 1</font>
#### Neste notebook você encontrará os passos que fiz para selecionar os dados que serão utilizados nas análises posteriores. Foram retiradas colunas que não seriam interessantes para análises, retirados os valores nulos e valores duplicados. Alguns valores tiveram seu tipo mudado e sua nomeação.

Os dados foram baixados do CEAPS: https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps

## Importando bibliotecas e dataset

In [1]:
import pandas as pd

In [2]:
df_2018 = pd.read_csv('dados/despesa_ceaps_2018.csv', sep =';', skiprows= 1)

#### Vamos observar primeiro quantos valores temos, quantos valores nulos e quantos valores únicos temos para então começar a limpar os dados

In [3]:
df_2018.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24492 entries, 0 to 24491
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ANO                24492 non-null  int64 
 1   MES                24492 non-null  int64 
 2   SENADOR            24492 non-null  object
 3   TIPO_DESPESA       24492 non-null  object
 4   CNPJ_CPF           24492 non-null  object
 5   FORNECEDOR         24492 non-null  object
 6   DOCUMENTO          23476 non-null  object
 7   DATA               24492 non-null  object
 8   DETALHAMENTO       18882 non-null  object
 9   VALOR_REEMBOLSADO  24492 non-null  object
 10  COD_DOCUMENTO      24492 non-null  int64 
dtypes: int64(3), object(8)
memory usage: 2.1+ MB


In [4]:
for i in ['CNPJ_CPF','FORNECEDOR','DOCUMENTO','COD_DOCUMENTO','DETALHAMENTO']:
    print(f'Quantidade de {i} : {len(df_2018[i].unique())}')

Quantidade de CNPJ_CPF : 3550
Quantidade de FORNECEDOR : 3934
Quantidade de DOCUMENTO : 21196
Quantidade de COD_DOCUMENTO : 24492
Quantidade de DETALHAMENTO : 10237


#### Como há muitos valores único na lista de colunas acima vou retirá-las do meu dataset. Isto irá facilitar minhas análise e deixará com que o dataset não tenha tanta informação em lista do tipo documento, detalhamento e fornecedor.

#### Logo abaixo também irei retirar as duplitas que existem no dataset para não haver dados copiados.

In [5]:
df_2018.drop(columns = ['CNPJ_CPF','FORNECEDOR','DOCUMENTO','COD_DOCUMENTO','DETALHAMENTO'], inplace = True)
df_2018.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,DATA,VALOR_REEMBOLSADO
0,2018,1,ACIR GURGACZ,"Aluguel de im�veis para escrit�rio pol�tico, c...",02/01/2018,6000
1,2018,1,ACIR GURGACZ,"Passagens a�reas, aqu�ticas e terrestres nacio...",02/01/2018,27499
2,2018,1,ACIR GURGACZ,"Passagens a�reas, aqu�ticas e terrestres nacio...",02/01/2018,109429
3,2018,1,ACIR GURGACZ,"Passagens a�reas, aqu�ticas e terrestres nacio...",24/01/2018,155399
4,2018,2,ACIR GURGACZ,"Aluguel de im�veis para escrit�rio pol�tico, c...",01/02/2018,6000


In [6]:
df_2018['TIPO_DESPESA'].unique()

array(['Aluguel de im�veis para escrit�rio pol�tico, compreendendo despesas concernentes a eles.',
       'Passagens a�reas, aqu�ticas e terrestres nacionais',
       'Divulga��o da atividade parlamentar',
       'Contrata��o de consultorias, assessorias, pesquisas, trabalhos t�cnicos e outros servi�os de apoio ao exerc�cio do mandato parlamentar',
       'Locomo��o, hospedagem, alimenta��o, combust�veis e lubrificantes',
       'Aquisi��o de material de consumo para uso no escrit�rio pol�tico, inclusive aquisi��o ou loca��o de software, despesas postais, aquisi��o de publica��es, loca��o de m�veis e de equipamentos. ',
       'Servi�os de Seguran�a Privada'], dtype=object)

In [7]:
valores_tipo_despesa={'Aluguel de im�veis para escrit�rio pol�tico, compreendendo despesas concernentes a eles.':'Aluguel Imoveis',
       'Passagens a�reas, aqu�ticas e terrestres nacionais':'Passagens',
       'Divulga��o da atividade parlamentar':'Atividade Parlamentar',
       'Contrata��o de consultorias, assessorias, pesquisas, trabalhos t�cnicos e outros servi�os de apoio ao exerc�cio do mandato parlamentar':'Apoio parlamentar',
       'Locomo��o, hospedagem, alimenta��o, combust�veis e lubrificantes':'Viagens',
       'Aquisi��o de material de consumo para uso no escrit�rio pol�tico, inclusive aquisi��o ou loca��o de software, despesas postais, aquisi��o de publica��es, loca��o de m�veis e de equipamentos. ':'Material de consumo',
       'Servi�os de Seguran�a Privada':'seguranca'}

In [8]:
df_2018['TIPO_DESPESA'] = df_2018['TIPO_DESPESA'].map(valores_tipo_despesa)

In [9]:
df_2018['VALOR_REEMBOLSADO'] = df_2018['VALOR_REEMBOLSADO'].astype(str)
df_2018['VALOR_REEMBOLSADO'] = df_2018['VALOR_REEMBOLSADO'].str.replace(',','.')
df_2018['VALOR_REEMBOLSADO'] = df_2018['VALOR_REEMBOLSADO'].astype(float)
df_2018.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,DATA,VALOR_REEMBOLSADO
0,2018,1,ACIR GURGACZ,Aluguel Imoveis,02/01/2018,6000.0
1,2018,1,ACIR GURGACZ,Passagens,02/01/2018,274.99
2,2018,1,ACIR GURGACZ,Passagens,02/01/2018,1094.29
3,2018,1,ACIR GURGACZ,Passagens,24/01/2018,1553.99
4,2018,2,ACIR GURGACZ,Aluguel Imoveis,01/02/2018,6000.0


In [10]:
df_2018['DATA'] = df_2018['DATA'].astype(str)
df_2018['DATA'] = df_2018['DATA'].str.replace('208','2018')
df_2018['DATA'] = df_2018['DATA'].astype(object)
df_2018.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,DATA,VALOR_REEMBOLSADO
0,2018,1,ACIR GURGACZ,Aluguel Imoveis,02/01/2018,6000.0
1,2018,1,ACIR GURGACZ,Passagens,02/01/2018,274.99
2,2018,1,ACIR GURGACZ,Passagens,02/01/2018,1094.29
3,2018,1,ACIR GURGACZ,Passagens,24/01/2018,1553.99
4,2018,2,ACIR GURGACZ,Aluguel Imoveis,01/02/2018,6000.0


In [11]:
df_2018['DATA'] = df_2018['DATA'].astype(str)
datas = df_2018['DATA']
datas[0:4]

0    02/01/2018
1    02/01/2018
2    02/01/2018
3    24/01/2018
Name: DATA, dtype: object

In [12]:
datas_novas = []
for i in datas:
    if i[6:] != 2018:
        datas_novas.append(str(i[:6]) +'2018')
        #print('Novidade')
    else:
        data_novas.append(i)

In [13]:
df_2018['DATA'] = datas_novas

In [14]:
df_2018['DATA'] = pd.to_datetime(df_2018['DATA'])

## Nomes de senadores errados

In [None]:
dict_nomes={}
for i in range(len(nomes)):
    dict_nomes[df_2018['SENADOR'].unique()[i]] = nomes[i]
dict_nomes

In [None]:
df = pd.read_csv('dados/despesa_ceaps_2019_alterado.csv', sep =';')
df.SENADOR.unique() ==df_2018.SENADOR.unique()

In [None]:
df_2018['SENADOR']= df_2018['SENADOR'].map(dict_nomes)

In [None]:
df_2018['SENADOR']

## Tirar as duplicatas

In [None]:
df_2018.drop_duplicates(inplace = True)
df_2018.info()

## Resuminho 

In [None]:
valores_tipo_despesa={'Aluguel de im�veis para escrit�rio pol�tico, compreendendo despesas concernentes a eles.':'Aluguel Imoveis',
       'Passagens a�reas, aqu�ticas e terrestres nacionais':'Passagens',
       'Divulga��o da atividade parlamentar':'Atividade Parlamentar',
       'Contrata��o de consultorias, assessorias, pesquisas, trabalhos t�cnicos e outros servi�os de apoio ao exerc�cio do mandato parlamentar':'Apoio parlamentar',
       'Locomo��o, hospedagem, alimenta��o, combust�veis e lubrificantes':'Viagens',
       'Aquisi��o de material de consumo para uso no escrit�rio pol�tico, inclusive aquisi��o ou loca��o de software, despesas postais, aquisi��o de publica��es, loca��o de m�veis e de equipamentos. ':'Material de consumo',
       'Servi�os de Seguran�a Privada':'seguranca'}

In [None]:
dict_nomes={}
for i in range(len(nomes)):
    dict_nomes[df_2018['SENADOR'].unique()[i]] = nomes[i]
dict_nomes

In [48]:
for y in ['2018','2019','2020','2021','2022']:
    df = pd.read_csv('dados/despesa_ceaps_' + y +'.csv', sep =';', skiprows= 1)
    df.drop(columns = ['CNPJ_CPF','FORNECEDOR','DOCUMENTO','COD_DOCUMENTO','DETALHAMENTO'], inplace = True)
    df['TIPO_DESPESA'] = df['TIPO_DESPESA'].map(valores_tipo_despesa)
    df['VALOR_REEMBOLSADO'] = df['VALOR_REEMBOLSADO'].astype(str)
    df['VALOR_REEMBOLSADO'] = df['VALOR_REEMBOLSADO'].str.replace(',','.')
    df['VALOR_REEMBOLSADO'] = df['VALOR_REEMBOLSADO'].astype(float)
    df['DATA'] = df['DATA'].astype(str)
    datas = df['DATA']
    datas_novas = []
    for i in datas:
        if i[6:] != 2018:
            datas_novas.append(str(i[:6]) +'2018')
            #print('Novidade')
        else:
            data_novas.append(i)
    df['DATA'] = datas_novas
    df.drop_duplicates(inplace = True)
    df.to_csv('dados/despesa_ceaps_' + y +'_alterado.csv', sep =';', index = False)

## Pegando nome dos senadores

In [49]:
nomes_errados = []
for y in ['2018','2019','2020','2021','2022']:
    df_n =pd.read_csv('dados/despesa_ceaps_' + y +'_alterado.csv', sep =';')
    for i in df_n.SENADOR.unique():
        nomes_errados.append(i)

In [50]:
print(len(nomes_errados))
nomes_errados = list(set(nomes_errados))
print(len(nomes_errados))

468
158


In [51]:
type(nomes_errados)

list

In [52]:
nomes_certos = ['ACIR GURGACZ',
 'AIRTON SANDOVAL',
 'ALESSANDRO VIEIRA',
 'ALEXANDRE SILVEIRA',
 'ALOYSIO NUNES FERREIRA',
 'ALVARO DIAS',
 'ANA AMALIA',
 'ANGELO CORONEL',
 'ANTONIO ANASTASIA',
 'ANTONIO CARLOS VALADARES',
 'ARMANDO MONTEIRO',
 'AROLDE DE OLIVEIRA',
 'ATAIDES OLIVEIRA',
 'AECIO NEVES',
 'BENEDITO DE LIRA',
 'BLAIRO MAGGI',
 'CARLOS FAVARO',
 'CARLOS PORTINHO',
 'CARLOS VIANA',
 'CHICO RODRIGUES',
 'CHIQUINHO FEITOSA',
 'CID GOMES',
 'CIDINHO SANTOS',
 'CIRO NOGUEIRA',
 'CONFUCIO MOURA',
 'CRISTOVAM BUARQUE',
 'CASSIO CUNHA LIMA',
 'DALIRIO BEBER',
 'DANIELLA RIBEIRO',
 'DAVI ALCOLUMBRE',
 'DIEGO TAVARES',
 'DARIO BERGER',
 'EDISON LOBAO',
 'EDUARDO AMORIM',
 'EDUARDO BRAGA',
 'EDUARDO GIRAO',
 'EDUARDO GOMES',
 'EDUARDO LOPES',
 'ELBER BATALHA',
 'ELIANE NOGUEIRA',
 'ELIZIANE GAMA',
 'ELMANO FERRER',
 'ESPERIDIAO AMIN',
 'FABIANO CONTARATO',
 'FERNANDO BEZERRA COELHO',
 'FERNANDO COLLOR',
 'FLEXA RIBEIRO',
 'FLAVIO ARNS',
 'FLAVIO BOLSONARO',
 'FATIMA BEZERRA',
 'GARIBALDI ALVES FILHO',
 'GIORDANO',
 'GIVAGO TENORIO',
 'GLADSON CAMELI',
 'GLEISI HOFFMANN',
 'GUARACY SILVEIRA',
 'HUMBERTO COSTA',
 'HELIO JOSE',
 'IONE GUIMARAES',
 'IRAJA',
 'IVO CASSOL',
 'IZALCI LUCAS',
 'JADER BARBALHO',
 'JAQUES WAGNER',
 'JARBAS VASCONCELOS',
 'JAYME CAMPOS',
 'JEAN PAUL PRATES',
 'JORGE VIANA',
 'JORGINHO MELLO',
 'JOSE AGRIPINO',
 'JOSE AMAURI',
 'JOSE ANIBAL',
 'JOSE MARANHAO',
 'JOSE MEDEIROS',
 'JOSE PIMENTEL',
 'JOSE SERRA',
 'JOAO ALBERTO SOUZA',
 'JOAO CAPIBERIBE',
 'JUIZA SELMA',
 'KATIA ABREU',
 'LASIER MARTINS',
 'LINDBERGH FARIAS',
 'LUCAS BARRETO',
 'LUIS CARLOS HEINZE',
 'LUIZ CARLOS DO CARMO',
 'LUIZ PASTORE',
 'LUCIA VANIA',
 'LIDICE DA MATA',
 'MAGNO MALTA',
 'MAILZA GOMES',
 'MAJOR OLIMPIO',
 'MARA GABRILLI',
 'MARCELO CASTRO',
 'MARCIO BITTAR',
 'MARCOS DO VAL',
 'MARCOS ROGERIO',
 'MARIA DO CARMO ALVES',
 'MARIA ELIZA DE AGUIAR E SILVA',
 'MARTA SUPLICY',
 'MECIAS DE JESUS',
 'NAILDE PANTA',
 'NELSINHO TRAD',
 'NEY SUASSUNA',
 'NILDA GONDIM',
 'OMAR AZIZ',
 'ORIOVISTO GUIMARAES',
 'OTTO ALENCAR',
 'PASTOR BEL',
 'PAULO ALBUQUERQUE',
 'PAULO BAUER',
 'PAULO PAIM',
 'PAULO ROCHA',
 'PEDRO CHAVES DOS SANTOS FILHO',
 'PLINIO VALERIO',
 'PRISCO BEZERRA',
 'RAIMUNDO LIRA',
 'RANDOLFE RODRIGUES',
 'REDITARIO CASSOL',
 'REGINA SOUSA',
 'RENAN CALHEIROS',
 'RENILDE BULHAES',
 'RICARDO FERRACO',
 'ROBERTO MUNIZ',
 'ROBERTO REQUIAO',
 'ROBERTO ROCHA',
 'RODRIGO CUNHA',
 'RODRIGO PACHECO',
 'RODRIGUES PALMA',
 'ROGERIO CARVALHO',
 'ROMERO JUCA',
 'ROMARIO',
 'RONALDO CAIADO',
 'ROSE DE FREITAS',
 'RUDSON LEITE',
 'SIMONE TEBET',
 'SIQUEIRA CAMPOS',
 'SORAYA THRONICKE',
 'STYVENSON VALENTIM',
 'SERGIO DE CASTRO',
 'SERGIO PETECAO',
 'TASSO JEREISSATI',
 'TELMARIO MOTA',
 'VALDIR RAUPP',
 'VANDERLAN CARDOSO',
 'VANESSA GRAZZIOTIN',
 'VENEZIANO VITAL DO REGO',
 'VICENTINHO ALVES',
 'VIRGINIO DE CARVALHO',
 'WALDEMIR MOKA',
 'WALTER PINHEIRO',
 'WELLINGTON FAGUNDES',
 'WEVERTON ROCHA',
 'WILDER MORAIS',
 'ZENAIDE MAIA',
 'ZEQUINHA MARINHO',
 'ZEZE PERRELLA',
 'ZE SANTANA',
 'ANGELA PORTELA']

In [53]:
dict_nomes={}
for i in range(len(nomes)):
    dict_nomes[nomes_errados[i]] = nomes_certos[i]
dict_nomes

{'ALEXANDRE SILVEIRA': 'ACIR GURGACZ',
 'IRAJ�': 'AIRTON SANDOVAL',
 'JAQUES WAGNER': 'ALESSANDRO VIEIRA',
 'RAIMUNDO LIRA': 'ALEXANDRE SILVEIRA',
 'TASSO JEREISSATI': 'ALOYSIO NUNES FERREIRA',
 'MARIA DO CARMO ALVES': 'ALVARO DIAS',
 'RENILDE BULH�ES': 'ANA AMALIA',
 'REDITARIO CASSOL': 'ANGELO CORONEL',
 'EDUARDO BRAGA': 'ANTONIO ANASTASIA',
 'ELIANE NOGUEIRA': 'ANTONIO CARLOS VALADARES',
 'PAULO ROCHA': 'ARMANDO MONTEIRO',
 'VANDERLAN CARDOSO': 'AROLDE DE OLIVEIRA',
 'ROM�RIO': 'ATAIDES OLIVEIRA',
 'JOS� AGRIPINO': 'AECIO NEVES',
 'CIRO NOGUEIRA': 'BENEDITO DE LIRA',
 'TELM�RIO MOTA': 'BLAIRO MAGGI',
 'JEAN PAUL PRATES': 'CARLOS FAVARO',
 'JOS� AN�BAL': 'CARLOS PORTINHO',
 'BLAIRO MAGGI': 'CARLOS VIANA',
 'L�DICE DA MATA': 'CHICO RODRIGUES',
 'ALESSANDRO VIEIRA': 'CHIQUINHO FEITOSA',
 'VIRGINIO DE CARVALHO': 'CID GOMES',
 'ANA AM�LIA': 'CIDINHO SANTOS',
 'DAVI ALCOLUMBRE': 'CIRO NOGUEIRA',
 'STYVENSON VALENTIM': 'CONFUCIO MOURA',
 '�NGELA PORTELA': 'CRISTOVAM BUARQUE',
 'H�LIO JOS�'

In [62]:
for y in ['2018','2019','2020','2021','2022']:
    df = pd.read_csv('dados/despesa_ceaps_' + y +'_alterado.csv', sep =';')
    arruma_nomes = {}
    for i in dict_nomes.key:
        if i in df.SENADOR.unique():
            print(i)
    #df.SENADOR = df.SENADOR.map(arruma_nomes)
    d#f.to_csv('dados/despesa_ceaps_' + y +'_alterado.csv', sep =';', index = False)

AttributeError: 'dict' object has no attribute 'key'

In [58]:
df = pd.read_csv('dados/despesa_ceaps_2018_alterado.csv', sep =';')
df.head(30)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,DATA,VALOR_REEMBOLSADO
0,2018,1,,Aluguel Imoveis,02/01/2018,6000.0
1,2018,1,,Passagens,02/01/2018,274.99
2,2018,1,,Passagens,02/01/2018,1094.29
3,2018,1,,Passagens,24/01/2018,1553.99
4,2018,2,,Aluguel Imoveis,01/02/2018,6000.0
5,2018,2,,Atividade Parlamentar,07/02/2018,1000.0
6,2018,2,,Atividade Parlamentar,02/03/2018,3000.0
7,2018,2,,Atividade Parlamentar,26/02/2018,2000.0
8,2018,2,,Passagens,09/02/2018,1063.42
9,2018,2,,Passagens,15/02/2018,339.02
