# Analisando as Cotas Parlamentares dos Anos de 2019, 2020, 2021, 2022

In [1]:
import pandas as pd 

In [2]:
#Abrindo os arquivos csv e transformando em dataframes
df_22 = pd.read_csv('dados/despesa_ceaps_2022.csv', sep=';',encoding= 'latin-1',skiprows=1)
df_21 = pd.read_csv('dados/despesa_ceaps_2021.csv', sep=';',encoding= 'latin-1',skiprows=1)
df_20 = pd.read_csv('dados/despesa_ceaps_2020.csv', sep=';',encoding= 'latin-1',skiprows=1)
df_19 = pd.read_csv('dados/despesa_ceaps_2019.csv', sep=';',encoding= 'latin-1',skiprows=1)

#confirmando se os nomes das colunas são iguais
eh_equal = all(df_19.columns.equals(outro_df.columns) for outro_df in [df_22, df_21, df_20])
eh_equal

True

In [3]:
#Realizando a concatenação de todos os dfs em um único arquivo. 
df = pd.concat([pd.read_csv(file, sep=';', encoding='latin-1',skiprows=1) for file in ['dados/despesa_ceaps_2019.csv',
                                                            'dados/despesa_ceaps_2020.csv',
                                                            'dados/despesa_ceaps_2021.csv',
                                                            'dados/despesa_ceaps_2022.csv']],ignore_index=True)

df.head(3)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817


In [4]:
#obtendo o tamanho do dataframe
print('Dimensões do Data Frame: ', df.shape)

Dimensões do Data Frame:  (69333, 11)


In [5]:
# obtendo informações sobre as colunas 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 69333 entries, 0 to 69332
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ANO                69333 non-null  int64 
 1   MES                69333 non-null  int64 
 2   SENADOR            69333 non-null  object
 3   TIPO_DESPESA       69333 non-null  object
 4   CNPJ_CPF           69333 non-null  object
 5   FORNECEDOR         69333 non-null  object
 6   DOCUMENTO          66370 non-null  object
 7   DATA               69333 non-null  object
 8   DETALHAMENTO       38583 non-null  object
 9   VALOR_REEMBOLSADO  69333 non-null  object
 10  COD_DOCUMENTO      69333 non-null  int64 
dtypes: int64(3), object(8)
memory usage: 5.8+ MB


### Conversão do Tipo de dado
Considerando as informações das colunas, podemos converter os atributos VALOR_REEMBOLSADO e DATA para tipos de dados mais apropriados. 

In [6]:
df['VALOR_REEMBOLSADO']= df.VALOR_REEMBOLSADO.str.replace(',', '.') #troca a vírgula por ponto em toda series
df['VALOR_REEMBOLSADO'] = pd.to_numeric(df.VALOR_REEMBOLSADO, downcast='float') #converte a string para o tipo numérico float64
df['VALOR_REEMBOLSADO'].dtype

dtype('float64')

In [7]:
df['DATA'] = pd.to_datetime(df['DATA'], format='%d/%m/%Y', errors='coerce')
df['DATA'].dtype

dtype('<M8[ns]')

In [8]:
df['VALOR_REEMBOLSADO'].describe()

count     69333.000000
mean       1413.131098
std        3098.174309
min           0.010000
25%         158.140000
50%         426.040000
75%        1570.560000
max      120000.000000
Name: VALOR_REEMBOLSADO, dtype: float64

In [9]:
df[pd.isna(df['DATA'])]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
10986,2019,1,LÚCIA VÂNIA,"Aluguel de imóveis para escritório político, c...",08.573.731/0001-38,LDE Contabilidade e Administração de Condomíni...,0107007,NaT,Taxa condominial,271.26,2114251
31996,2020,5,PLÍNIO VALÉRIO,Divulgação da atividade parlamentar,27.209.437/0001-96,Excelsior Comunicação Digital Ltda,2020/9,NaT,,1150.0,2144535
37872,2021,11,CARLOS VIANA,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,ADRIA VIAGENS E TURISMO LTDA,YK1QHD,NaT,"Companhia Aérea: AZUL, Localizador: YK1QHD. Pa...",339.9,2169237


In [10]:
print (f"A média da amostra antes da exclusão dos registros é de {df['VALOR_REEMBOLSADO'].mean()}")
print(f"A média do valor reembolsado dos registros com datas incorretas é: {df[pd.isna(df['DATA'])]['VALOR_REEMBOLSADO'].mean()}")

A média da amostra antes da exclusão dos registros é de 1413.1310983225883
A média do valor reembolsado dos registros com datas incorretas é: 587.0533333333333


Considerando que temos apenas três registros com datas preenchidas de forma incorreta e que a média do VALORE_REEMBOLSADO destes registros é inferior à media da amostra e próxima à mediana, optei por eliminar essas insconsistências. 

In [11]:
df.dropna(subset=['DATA'], inplace=True)
print (f"A média da amostra após a exclusão dos registros é de {df['VALOR_REEMBOLSADO'].mean()}")

A média da amostra após a exclusão dos registros é de 1413.1668437905666


In [12]:
df.shape

(69330, 11)

### Conseguindo algumas informações agrupadas.

In [13]:
len(df['SENADOR'].unique())

153

In [19]:
print ('Os tipos de despesas são: ')
[print(despesa) for despesa in df['TIPO_DESPESA'].unique()]

Os tipos de despesas são: 
Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.
Divulgação da atividade parlamentar
Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. 
Passagens aéreas, aquáticas e terrestres nacionais
Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar
Locomoção, hospedagem, alimentação, combustíveis e lubrificantes
Serviços de Segurança Privada


[None, None, None, None, None, None, None]

In [23]:
anos = [2019, 2020, 2021, 2022]
for ano in anos:
    print (ano)
    reembolso_por_senador = df.loc[df['ANO'] == ano].groupby('SENADOR')[['VALOR_REEMBOLSADO']].sum().sort_values(by='VALOR_REEMBOLSADO', ascending=False)
    reembolso_por_senador.boxplot(column=reembolso_por_senador['VALOR_REEMBOLSADO'])


2019


KeyError: "None of [Index([(531315.99, 519561.65, 485846.15, 485114.4, 466253.4, 459892.5, 452115.71, 448395.92, 447968.95, 444688.2, 439589.13, 428313.79, 427376.29, 426948.31, 421313.68, 420936.08, 419037.61, 414626.71, 411292.61, 402681.1, 398771.75, 390009.41, 388340.7, 386665.17, 381852.56, 365764.5, 361870.44, 361706.7, 361520.8, 356154.62, 354330.66, 344352.43, 339038.63, 338260.32, 337202.08, 337083.23, 336947.98, 334272.6, 329547.92, 324470.43, 313398.6, 309904.54, 307593.84, 305573.81, 296932.06, 295183.46, 289187.59, 287050.34, 285508.12, 277345.47, 274982.89, 274505.69, 263372.59, 251714.02, 248508.16, 234929.03, 231480.66999999998, 230497.99, 229329.59, 215835.71, 212399.08, 212065.03, 212059.18, 209862.14, 195048.87, 183431.17, 180135.58, 168256.49, 163960.35, 160530.05, 134978.27, 131429.21, 129238.22, 124143.4, 105354.33, 83825.62, 78671.84, 65246.91, 42855.2, 41844.45, 39411.85, 38678.43, 37396.6, 34974.54, 34934.45, 34016.2, 33526.85, 33263.42, 31853.02, 28663.81, 28134.75, 26222.93, 25215.2, 25215.2, 24621.579999999998, 20897.1, 20887.38, 20850.0, 20773.94, 20564.55, ...)], dtype='object')] are in the [columns]"