# Análise dados CEAPS

CEAPS - Cotas para exercício da atividade parlamentar dos Senadores.
A cota parlamentar é o valor que os membros do Poder Legislativo (deputados federais e estaduais, senadores e vereadores) têm direito a receber para cobrir despesas em função da sua atividade como parlamentar (agente público).

### Importações necessárias

In [1]:
import pandas as pd

In [2]:
df_ceaps19 = pd.read_csv('despesa_ceaps_2019.csv', on_bad_lines='skip', sep = ';', header=1)
df_ceaps20 = pd.read_csv('despesa_ceaps_2020.csv', on_bad_lines='skip', sep = ';', header=1)
df_ceaps21 = pd.read_csv('despesa_ceaps_2021.csv', on_bad_lines='skip', sep = ';', header=1)
df_ceaps22 = pd.read_csv('despesa_ceaps_2022.csv', on_bad_lines='skip', sep = ';', header=1)

In [3]:
print(df_ceaps22.shape[0])
print(df_ceaps21.shape[0])
print(df_ceaps20.shape[0])
print(df_ceaps19.shape[0])

3582
16808
14090
21634


### Validando a importação realizada

In [4]:
df_ceaps22.head(1)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de imóvel par...,6000,2173614


In [5]:
df_ceaps21.head(1)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2021,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,23.489.627,21/01/2021,Pagamento de energia elétrica para uso do escr...,7529,2158003


In [6]:
df_ceaps20.head(1)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2020,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,14764742,06/01/2020,Despesa com energia elétrica para uso do escri...,12262,2141820


In [7]:
df_ceaps19.head(1)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543


## Data Cleaning

#### As tabelas possuem a mesma quantidade de senadores que solicitaram reembolsos?

In [8]:
print(df_ceaps22.SENADOR.unique().shape[0])
print(df_ceaps21.SENADOR.unique().shape[0])
print(df_ceaps20.SENADOR.unique().shape[0])
print(df_ceaps19.SENADOR.unique().shape[0])

80
86
84
127


#### O formato dos campos estão corretos?

In [9]:
print(df_ceaps22.info())
print("***************")
print("***************")
print(df_ceaps21.info())
print("***************")
print("***************")
print(df_ceaps20.info())
print("***************")
print("***************")
print(df_ceaps19.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3582 entries, 0 to 3581
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ANO                3582 non-null   int64 
 1   MES                3582 non-null   int64 
 2   SENADOR            3582 non-null   object
 3   TIPO_DESPESA       3582 non-null   object
 4   CNPJ_CPF           3582 non-null   object
 5   FORNECEDOR         3582 non-null   object
 6   DOCUMENTO          3418 non-null   object
 7   DATA               3582 non-null   object
 8   DETALHAMENTO       1818 non-null   object
 9   VALOR_REEMBOLSADO  3582 non-null   object
 10  COD_DOCUMENTO      3582 non-null   int64 
dtypes: int64(3), object(8)
memory usage: 308.0+ KB
None
***************
***************
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16808 entries, 0 to 16807
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             -------------

O campo de valor e data não estão no formato correto

#### Juntando as tabelas

Optei por juntar as tabelas para facilitar no tratamento das bases

In [10]:
df = pd.concat([df_ceaps19, df_ceaps20, df_ceaps21, df_ceaps22])

In [11]:
df.shape[0]

56114

In [12]:
df.tail()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
3577,2022,4,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,FXMSVF,02/04/2022,"Companhia Aérea: LATAM, Localizador: FXMSVF. P...",136166,2177783
3578,2022,4,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,VLNWSC,02/04/2022,"Companhia Aérea: LATAM, Localizador: VLNWSC. P...",272323,2177780
3579,2022,4,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,QVOLRY,04/04/2022,"Companhia Aérea: GOL, Localizador: QVOLRY. Pas...",168123,2177794
3580,2022,4,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,JBHH5Y,06/04/2022,"Companhia Aérea: AZUL, Localizador: JBHH5Y. Pa...",166361,2177879
3581,2022,4,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,FRFFFI,06/04/2022,"Companhia Aérea: LATAM, Localizador: FRFFFI. P...",2324,2177912


verificando se o resultado após a concatenação está correto

In [13]:
df[(df['ANO'] == 2022)].SENADOR.unique().shape[0]

80

#### Convertendo os campos

In [14]:
df.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,04/02/2019,Despesa com pagamento de energia elétrica para...,9945,2116550


In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 56114 entries, 0 to 3581
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ANO                56114 non-null  int64 
 1   MES                56114 non-null  int64 
 2   SENADOR            56114 non-null  object
 3   TIPO_DESPESA       56114 non-null  object
 4   CNPJ_CPF           56114 non-null  object
 5   FORNECEDOR         56114 non-null  object
 6   DOCUMENTO          53921 non-null  object
 7   DATA               56114 non-null  object
 8   DETALHAMENTO       31331 non-null  object
 9   VALOR_REEMBOLSADO  56114 non-null  object
 10  COD_DOCUMENTO      56114 non-null  int64 
dtypes: int64(3), object(8)
memory usage: 5.1+ MB


primeiramente vou ter que alterar a ',' para '.'

In [16]:
df['VALOR_REEMBOLSADO'] = df['VALOR_REEMBOLSADO'].replace(',','.',regex=True)

In [17]:
df['VALOR_REEMBOLSADO'] = df['VALOR_REEMBOLSADO'].astype(float)

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 56114 entries, 0 to 3581
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   ANO                56114 non-null  int64  
 1   MES                56114 non-null  int64  
 2   SENADOR            56114 non-null  object 
 3   TIPO_DESPESA       56114 non-null  object 
 4   CNPJ_CPF           56114 non-null  object 
 5   FORNECEDOR         56114 non-null  object 
 6   DOCUMENTO          53921 non-null  object 
 7   DATA               56114 non-null  object 
 8   DETALHAMENTO       31331 non-null  object 
 9   VALOR_REEMBOLSADO  56114 non-null  float64
 10  COD_DOCUMENTO      56114 non-null  int64  
dtypes: float64(1), int64(3), object(7)
memory usage: 5.1+ MB


In [19]:
df.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,66.02,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,139.98,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000.0,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,316.39,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,04/02/2019,Despesa com pagamento de energia elétrica para...,99.45,2116550


In [20]:
df['DATA_NEW'] = pd.to_datetime(df['DATA'], format="%d/%m/%Y", errors='coerce')

Algumas datas estão com o formato errado, será necessário tratar antes da formatação

In [21]:
df[df['DATA_NEW'].isnull()]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO,DATA_NEW
10986,2019,1,LÚCIA VÂNIA,"Aluguel de imóveis para escritório político, c...",08.573.731/0001-38,LDE Contabilidade e Administração de Condomíni...,107007,31/01/0219,Taxa condominial,271.26,2114251,NaT
10362,2020,5,PLÍNIO VALÉRIO,Divulgação da atividade parlamentar,27.209.437/0001-96,Excelsior Comunicação Digital Ltda,2020/9,05/05/0202,,1150.0,2144535,NaT
2146,2021,11,CARLOS VIANA,"Passagens aéreas, aquáticas e terrestres nacio...",16.978.175/0001-08,ADRIA VIAGENS E TURISMO LTDA,YK1QHD,29/10/0202,"Companhia Aérea: AZUL, Localizador: YK1QHD. Pa...",339.9,2169237,NaT


In [22]:
df['DATA'] = df['DATA'].replace('31/01/0219','31/01/2019')
df['DATA'] = df['DATA'].replace('05/05/0202','05/05/2020')
df['DATA'] = df['DATA'].replace('29/10/0202','29/10/2020')

In [23]:
df['DATA'] = pd.to_datetime(df['DATA'], format="%d/%m/%Y")

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 56114 entries, 0 to 3581
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ANO                56114 non-null  int64         
 1   MES                56114 non-null  int64         
 2   SENADOR            56114 non-null  object        
 3   TIPO_DESPESA       56114 non-null  object        
 4   CNPJ_CPF           56114 non-null  object        
 5   FORNECEDOR         56114 non-null  object        
 6   DOCUMENTO          53921 non-null  object        
 7   DATA               56114 non-null  datetime64[ns]
 8   DETALHAMENTO       31331 non-null  object        
 9   VALOR_REEMBOLSADO  56114 non-null  float64       
 10  COD_DOCUMENTO      56114 non-null  int64         
 11  DATA_NEW           56111 non-null  datetime64[ns]
dtypes: datetime64[ns](2), float64(1), int64(3), object(6)
memory usage: 5.6+ MB


In [25]:
df = df.drop('DATA_NEW', axis=1)

In [26]:
df.head(1)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,2019-01-04,Despesa com pagamento de energia elétrica do e...,66.02,2116543


#### Verificando se tem nulos

In [27]:
df.isnull().sum()

ANO                      0
MES                      0
SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             2193
DATA                     0
DETALHAMENTO         24783
VALOR_REEMBOLSADO        0
COD_DOCUMENTO            0
dtype: int64

a feature documento não me diz muita coisa, vou preencher com -1 e depois vou avaliar se vou retirar essa feature

In [28]:
df['DOCUMENTO'] = df['DOCUMENTO'].fillna(-1)

In [29]:
df['DETALHAMENTO'] = df['DETALHAMENTO'].fillna('Nao Informado')

In [30]:
df.isnull().sum()

ANO                  0
MES                  0
SENADOR              0
TIPO_DESPESA         0
CNPJ_CPF             0
FORNECEDOR           0
DOCUMENTO            0
DATA                 0
DETALHAMENTO         0
VALOR_REEMBOLSADO    0
COD_DOCUMENTO        0
dtype: int64

#### Tem valor de reembolso negativo ou vazio?

In [31]:
df[df['VALOR_REEMBOLSADO']<0]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO


In [32]:
df[df['VALOR_REEMBOLSADO'].isnull()]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO


#### Existem linhas duplicadas?

In [33]:
df.duplicated().any()

False

#### Há nomes incorretos?

In [48]:
df['SENADOR'].unique()

array(['ACIR GURGACZ', 'AÉCIO NEVES', 'ALESSANDRO VIEIRA',
       'ALOYSIO NUNES FERREIRA', 'ALVARO DIAS', 'ANA AMÉLIA',
       'ÂNGELA PORTELA', 'ANGELO CORONEL', 'ANTONIO ANASTASIA',
       'ANTÔNIO CARLOS VALADARES', 'ARMANDO MONTEIRO',
       'AROLDE DE OLIVEIRA', 'ATAÍDES OLIVEIRA', 'BENEDITO DE LIRA',
       'BLAIRO MAGGI', 'CARLOS VIANA', 'CÁSSIO CUNHA LIMA',
       'CHICO RODRIGUES', 'CID GOMES', 'CIRO NOGUEIRA', 'CONFÚCIO MOURA',
       'DALIRIO BEBER', 'DANIELLA RIBEIRO', 'DÁRIO BERGER',
       'DAVI ALCOLUMBRE', 'EDISON LOBÃO', 'EDUARDO AMORIM',
       'EDUARDO BRAGA', 'EDUARDO GIRÃO', 'EDUARDO GOMES', 'ELIZIANE GAMA',
       'ELMANO FÉRRER', 'ESPERIDIÃO AMIN', 'FABIANO CONTARATO',
       'FERNANDO BEZERRA COELHO', 'FERNANDO COLLOR', 'FLÁVIO ARNS',
       'FLÁVIO BOLSONARO', 'FLEXA RIBEIRO', 'GARIBALDI ALVES FILHO',
       'GLEISI HOFFMANN', 'GUARACY SILVEIRA', 'HÉLIO JOSÉ',
       'HUMBERTO COSTA', 'IRAJÁ', 'IVO CASSOL', 'IZALCI LUCAS',
       'JADER BARBALHO', 'JAQUES WAGN

Fiz uma análise visual e não identifiquei nenhum nome incorreto

#### Removendo os acentos

Optei por trabalhar com a base sem caracteres especiais

In [130]:
df['SENADOR'] = df['SENADOR'].replace(['Á','Ã','Â'],'A',regex=True)
df['SENADOR'] = df['SENADOR'].replace(['É','Ê'],'E',regex=True)
df['SENADOR'] = df['SENADOR'].replace(['Í','Î'],'I',regex=True)
df['SENADOR'] = df['SENADOR'].replace(['Ó','Õ','Ô'],'O',regex=True)
df['SENADOR'] = df['SENADOR'].replace(['Ú','Û'],'U',regex=True)
df['SENADOR'] = df['SENADOR'].replace('Ç','C',regex=True)

In [131]:
df['SENADOR'].unique()

array(['ACIR GURGACZ', 'AECIO NEVES', 'ALESSANDRO VIEIRA',
       'ALOYSIO NUNES FERREIRA', 'ALVARO DIAS', 'ANA AMELIA',
       'ANGELA PORTELA', 'ANGELO CORONEL', 'ANTONIO ANASTASIA',
       'ANTONIO CARLOS VALADARES', 'ARMANDO MONTEIRO',
       'AROLDE DE OLIVEIRA', 'ATAIDES OLIVEIRA', 'BENEDITO DE LIRA',
       'BLAIRO MAGGI', 'CARLOS VIANA', 'CASSIO CUNHA LIMA',
       'CHICO RODRIGUES', 'CID GOMES', 'CIRO NOGUEIRA', 'CONFUCIO MOURA',
       'DALIRIO BEBER', 'DANIELLA RIBEIRO', 'DARIO BERGER',
       'DAVI ALCOLUMBRE', 'EDISON LOBAO', 'EDUARDO AMORIM',
       'EDUARDO BRAGA', 'EDUARDO GIRAO', 'EDUARDO GOMES', 'ELIZIANE GAMA',
       'ELMANO FERRER', 'ESPERIDIAO AMIN', 'FABIANO CONTARATO',
       'FERNANDO BEZERRA COELHO', 'FERNANDO COLLOR', 'FLAVIO ARNS',
       'FLAVIO BOLSONARO', 'FLEXA RIBEIRO', 'GARIBALDI ALVES FILHO',
       'GLEISI HOFFMANN', 'GUARACY SILVEIRA', 'HELIO JOSE',
       'HUMBERTO COSTA', 'IRAJA', 'IVO CASSOL', 'IZALCI LUCAS',
       'JADER BARBALHO', 'JAQUES WAGN

#### O campo CNPJ_CPF precisa de ajuste na formatação?

Tem algum CNPJ ou CPF com mais digitos do que o normal?

In [38]:
valid_base1 = df['CNPJ_CPF'].str.len()

In [39]:
valid_base1.value_counts()

18    54830
14     1284
Name: CNPJ_CPF, dtype: int64

Verificando se tem letras no campo

In [68]:
valid_base2 = df[df['CNPJ_CPF'].str.contains('[A-Za-z]')]

In [69]:
valid_base2[valid_base2 == True]

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO


#### O campo DOCUMENTO precisa de ajuste na formatação?

In [51]:
valid_base3 = df['DOCUMENTO'].str.match("^[a-zA-Z]")

In [52]:
valid_base3.value_counts()

False    40703
True     13218
Name: DOCUMENTO, dtype: int64

In [61]:
valid_base3.index[valid_base3 == True]

Int64Index([  36,   37,   53,   54,   55,   70,  130,  131,  132,  158,
            ...
            3572, 3573, 3574, 3575, 3576, 3577, 3578, 3579, 3580, 3581],
           dtype='int64', length=13218)

In [62]:
df.iloc[36]

ANO                                                               2019
MES                                                                  5
SENADOR                                                   ACIR GURGACZ
TIPO_DESPESA         Passagens aéreas, aquáticas e terrestres nacio...
CNPJ_CPF                                            33.937.681/0001-78
FORNECEDOR                                                       LATAM
DOCUMENTO                                                       NHWTDT
DATA                                               2019-05-21 00:00:00
DETALHAMENTO         Companhia Aérea: LATAM, Localizador: NHWTDT. P...
VALOR_REEMBOLSADO                                              2839.84
COD_DOCUMENTO                                                  2124740
Name: 36, dtype: object

Analisando as informações disponíveis, não consegui chegar a conclusão acerca da feature DOCUMENTO, nesse caso optei por não utilizar esta. Além disso, como pode ser visualizado nas verificações acima, a feature não contém um padrão, ou seja, em alguns momento tem letras e números ou somente letras.

## Data Visualization