# #7DaysOfCode - Ci√™ncia de Dados

Este notebook faz parte do desafio [7 Days of Code](https://7daysofcode.io/).
O objetivo √© explorar e transformar os dados utilizando Pandas.

Para este projeto, utilizamos os **Dados Abertos do CEAPS** (Cota para Exerc√≠cio da Atividade Parlamentar), referente ao ano de 2022, dispon√≠veis no site oficial do Senado Federal:  
üîó [ Dados Abertos CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps)  

# Dia 1: Limpeza e Prepara√ß√£o de Dados

# 0.0 Importa√ß√µes

## 0.1 Bibliotecas

In [12]:
# Importando as bibliotecas necess√°rias para an√°lise
import pandas as pd

## 0.2 Dados

O arquivo `despesa_ceaps_2022.csv` cont√©m informa√ß√µes sobre despesas parlamentares.  
Os ajustes no `read_csv` incluem:
- **`encoding='latin1'`** ‚Üí Define a codifica√ß√£o correta para evitar problemas com caracteres especiais.  
- **`sep=';'`** ‚Üí Define o ponto e v√≠rgula como separador de colunas, j√° que o formato CSV brasileiro usa `;` em vez de `,`.  
- **`quotechar='"'`** ‚Üí Define aspas duplas como delimitador de valores textuais, garantindo que campos com `;` internos sejam interpretados corretamente.  
- **`skiprows=1`** ‚Üí Pula a primeira linha do arquivo, que pode conter informa√ß√µes extras fora do cabe√ßalho.  
- **`decimal=','`** ‚Üí Define que n√∫meros decimais utilizam `,` em vez de `.` para garantir a convers√£o correta.

In [13]:
# Carregando o dataset e visualizando as primeiras linhas
df_ceaps = pd.read_csv('data/despesa_ceaps_2022.csv', encoding='latin1', sep=';', quotechar='"', skiprows=1,  decimal=',')
print(f"‚úÖ Dados carregados! O dataset cont√©m {df_ceaps.shape[0]} linhas e {df_ceaps.shape[1]} colunas.\n")
display(df_ceaps)


‚úÖ Dados carregados! O dataset cont√©m 16805 linhas e 11 colunas.



Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de im√≥veis para escrit√≥rio pol√≠tico, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de im√≥vel par...,6000.00,2173614
1,2022,1,ACIR GURGACZ,Divulga√ß√£o da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,Despesa com divulga√ß√£o da atividade parlamenta...,1500.00,2173615
2,2022,1,ACIR GURGACZ,Divulga√ß√£o da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,Despesa com produ√ß√£o de texto e edi√ß√£o de v√≠de...,6000.00,2173616
3,2022,1,ACIR GURGACZ,Divulga√ß√£o da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,Divulga√ß√£o da atividade parlamentar,1000.00,2173618
4,2022,1,ACIR GURGACZ,Divulga√ß√£o da atividade parlamentar,08.941.827/0001-01,RONDONIA DIN√ÇMICA COM. E SERV. DE INFORM√ÅTICA ...,000000000001772/A,17/01/2022,Divulga√ß√£o da atividade parlamentar,2000.00,2173617
...,...,...,...,...,...,...,...,...,...,...,...
16800,2022,12,ZEQUINHA MARINHO,"Passagens a√©reas, aqu√°ticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WIXHAI,06/12/2022,"Companhia A√©rea: LATAM, Localizador: WIXHAI. P...",2893.04,2191398
16801,2022,12,ZEQUINHA MARINHO,"Passagens a√©reas, aqu√°ticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WITOLM,09/12/2022,"Companhia A√©rea: GOL, Localizador: WITOLM. Pas...",1180.19,2192272
16802,2022,12,ZEQUINHA MARINHO,"Passagens a√©reas, aqu√°ticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,THPKVQ,20/12/2022,"Companhia A√©rea: TAM, Localizador: THPKVQ. Pas...",2671.90,2192274
16803,2022,12,ZEQUINHA MARINHO,"Passagens a√©reas, aqu√°ticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,QNN9HX,21/12/2022,"Companhia A√©rea: AZUL, Localizador: QNN9HX. Pa...",1334.31,2192244


# 1 Limpeza dos dados

## 1.1 Remo√ß√£o de duplicatas e colunas vazias

In [14]:
# Removendo valores ausentes para garantir qualidade nos dados
df_ceaps = df_ceaps.dropna(axis=1, how='all').drop_duplicates()
print(f"‚úÖ Removidas duplicatas. Linhas restantes: {df_ceaps.shape[0]}\n")

‚úÖ Removidas duplicatas. Linhas restantes: 16805



## 1.2 Tratamento de dados nulos

In [15]:
print("Valores nulos por coluna:\n", df_ceaps.isnull().sum().to_string()) #Conta os nulos por coluna

Valores nulos por coluna:
 ANO                     0
MES                     0
SENADOR                 0
TIPO_DESPESA            0
CNPJ_CPF                0
FORNECEDOR              0
DOCUMENTO             934
DATA                    0
DETALHAMENTO         7743
VALOR_REEMBOLSADO       0
COD_DOCUMENTO           0


In [16]:
#Preenchendo valores nulos
df_ceaps['DOCUMENTO'] = df_ceaps['DOCUMENTO'].fillna('Desconhecido')
df_ceaps['DETALHAMENTO'] = df_ceaps['DETALHAMENTO'].fillna('N√£o informado')
print("‚úÖ Valores nulos preenchidos!\n")

‚úÖ Valores nulos preenchidos!



## 1.3 Revis√£o dos tipos de dados

- **`VALOR_REEMBOLSADO` ‚Üí `float`**  
  - Utilizamos `pd.to_numeric()` para garantir que os valores sejam num√©ricos, convertendo qualquer erro em `NaN` (`errors='coerce'`).  
  - Isso evita problemas com valores mal formatados no dataset.  

- **`DATA` ‚Üí `datetime64`**  
  - Utilizamos `pd.to_datetime()` para transformar a coluna de data no formato correto.  
  - O par√¢metro `dayfirst=True` garante que o formato seja **DD/MM/YYYY** (padr√£o brasileiro).  
  - Caso alguma data esteja inv√°lida, ela ser√° convertida para `NaT` (nulo).  

- **Convers√£o de colunas para `string`**  
  - Definimos explicitamente que algumas colunas s√£o texto (`string`) para evitar problemas de interpreta√ß√£o.  
  - Isso garante que colunas como `SENADOR`, `TIPO_DESPESA`, `CNPJ_CPF`, `FORNECEDOR`, `DOCUMENTO` e `DETALHAMENTO` sejam tratadas corretamente como texto.  

In [17]:
print(df_ceaps.dtypes)  # Checar os tipos de dados

ANO                    int64
MES                    int64
SENADOR               object
TIPO_DESPESA          object
CNPJ_CPF              object
FORNECEDOR            object
DOCUMENTO             object
DATA                  object
DETALHAMENTO          object
VALOR_REEMBOLSADO    float64
COD_DOCUMENTO          int64
dtype: object


In [18]:
# Convertendo tipos de dados para facilitar a an√°lise
df_ceaps['VALOR_REEMBOLSADO'] = pd.to_numeric(df_ceaps['VALOR_REEMBOLSADO'], errors='coerce')  # Garante que os valores de reembolso sejam float
df_ceaps['DATA'] = pd.to_datetime(df_ceaps['DATA'], errors='coerce', dayfirst=True)  # Converte datas
df_ceaps = df_ceaps.astype({
    'SENADOR': 'string', 'TIPO_DESPESA': 'string', 'CNPJ_CPF': 'string',
    'FORNECEDOR': 'string', 'DOCUMENTO': 'string', 'DETALHAMENTO': 'string'
}) # Padroniza colunas como string
print("‚úÖ Tipos de dados ajustados.\n")
display(df_ceaps.dtypes)  # Checar os tipos de dados ap√≥s as altera√ß√µes

‚úÖ Tipos de dados ajustados.



ANO                           int64
MES                           int64
SENADOR              string[python]
TIPO_DESPESA         string[python]
CNPJ_CPF             string[python]
FORNECEDOR           string[python]
DOCUMENTO            string[python]
DATA                 datetime64[ns]
DETALHAMENTO         string[python]
VALOR_REEMBOLSADO           float64
COD_DOCUMENTO                 int64
dtype: object

### 1.3.1 Normaliza√ß√£o de CNPJ/CPF

#### Etapas realizadas:
1. Removemos caracteres especiais (pontos, tra√ßos, barras) para manter apenas os n√∫meros.   
2. Contamos a distribui√ß√£o dos tamanhos dos valores ap√≥s a normaliza√ß√£o.  
3. Identificamos poss√≠veis erros filtrando registros com tamanhos inv√°lidos (diferentes de 11 para CPF ou 14 para CNPJ).  
4. Exibimos uma mensagem de alerta caso valores inv√°lidos sejam encontrados.

In [19]:
df_ceaps['CNPJ_CPF_LIMPO'] = df_ceaps['CNPJ_CPF'].str.replace(r'\D', '', regex=True)
# Contagem de caracteres ap√≥s a limpeza
tamanhos = df_ceaps['CNPJ_CPF_LIMPO'].str.len().value_counts()
print("Distribui√ß√£o dos tamanhos de CNPJ/CPF:\n", tamanhos, "\n")

# Identificar valores inv√°lidos
df_erro = df_ceaps[~df_ceaps['CNPJ_CPF_LIMPO'].str.len().isin([11, 14])]
if not df_erro.empty:
    print("‚ö†Ô∏è Valores inv√°lidos detectados em CNPJ/CPF:")
    print(df_erro[['CNPJ_CPF', 'CNPJ_CPF_LIMPO']].head())
else:
    print("‚úÖ Todos os CNPJs/CPFs possuem tamanhos corretos (11 ou 14 caracteres).\n")


Distribui√ß√£o dos tamanhos de CNPJ/CPF:
 CNPJ_CPF_LIMPO
14    16383
11      422
Name: count, dtype: Int64 

‚úÖ Todos os CNPJs/CPFs possuem tamanhos corretos (11 ou 14 caracteres).



## 1.3 Corre√ß√£o de valores monet√°rios

### 1.3.1 An√°lise estat√≠stica b√°sica

In [20]:
descricao = df_ceaps['VALOR_REEMBOLSADO'].describe()
print("Estat√≠sticas b√°sicas de VALOR_REEMBOLSADO:\n", descricao, "\n")
#display(df_ceaps[df_ceaps['VALOR_REEMBOLSADO'] < 0])  # Confere se h√° valores negativos

Estat√≠sticas b√°sicas de VALOR_REEMBOLSADO:
 count    16805.000000
mean      1625.914093
std       3363.993049
min          0.010000
25%        200.000000
50%        481.440000
75%       2000.000000
max      77012.000000
Name: VALOR_REEMBOLSADO, dtype: float64 



### 1.3.2 Identificar outliers

In [21]:
df_ceaps.groupby('TIPO_DESPESA')['VALOR_REEMBOLSADO'].describe()  # Outliers entre tipo de despesa e valor reembolsado

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
TIPO_DESPESA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
"Aluguel de im√≥veis para escrit√≥rio pol√≠tico, compreendendo despesas concernentes a eles.",3322.0,1197.030981,1654.827671,0.2,198.295,449.42,1407.56,15000.0
"Aquisi√ß√£o de material de consumo para uso no escrit√≥rio pol√≠tico, inclusive aquisi√ß√£o ou loca√ß√£o de software, despesas postais, aquisi√ß√£o de publica√ß√µes, loca√ß√£o de m√≥veis e de equipamentos.",1226.0,802.371794,1301.944036,5.09,110.75,281.0,729.735,10000.0
"Contrata√ß√£o de consultorias, assessorias, pesquisas, trabalhos t√©cnicos e outros servi√ßos de apoio ao exerc√≠cio do mandato parlamentar",1043.0,6060.866759,8973.857893,3.9,979.275,2000.0,8000.0,77012.0
Divulga√ß√£o da atividade parlamentar,1038.0,3223.425202,5847.458499,60.0,800.0,1500.0,2800.0,72923.16
"Locomo√ß√£o, hospedagem, alimenta√ß√£o, combust√≠veis e lubrificantes",6769.0,777.068032,1903.469792,0.03,126.87,240.62,406.7,20011.0
"Passagens a√©reas, aqu√°ticas e terrestres nacionais",3383.0,2194.397319,1152.354058,0.01,1372.115,2139.12,2857.705,10871.78
Servi√ßos de Seguran√ßa Privada,24.0,509.273333,203.592827,219.0,440.24,492.22,551.98,1090.0


### 1.3.3 Remo√ß√£o de outliers com Intervalo Interquartil (IQR)

In [22]:
# Definir limites para outliers
Q1 = df_ceaps['VALOR_REEMBOLSADO'].quantile(0.25)  # Primeiro quartil (25%)
Q3 = df_ceaps['VALOR_REEMBOLSADO'].quantile(0.75)  # Terceiro quartil (75%)
IQR = Q3 - Q1  # Intervalo interquartil

# Definir os limites inferior e superior
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Filtrar os dados, removendo outliers
df_ceaps_limpo = df_ceaps[
    (df_ceaps['VALOR_REEMBOLSADO'] >= limite_inferior) & 
    (df_ceaps['VALOR_REEMBOLSADO'] <= limite_superior)
]

# Ver quantas linhas sobraram
print(f"Removendo outliers...\nLinhas antes: {len(df_ceaps)}\nLinhas depois: {len(df_ceaps_limpo)}\nRemovidos: {len(df_ceaps) - len(df_ceaps_limpo)} outliers.\n")
print("‚úÖ Dados limpos e prontos para an√°lise! üöÄ\n")

Removendo outliers...
Linhas antes: 16805
Linhas depois: 15626
Removidos: 1179 outliers.

‚úÖ Dados limpos e prontos para an√°lise! üöÄ




## üìå Conclus√£o

- Neste primeiro dia do desafio, realizamos a limpeza e prepara√ß√£o dos dados.
- Removemos valores ausentes e ajustamos os tipos de dados para garantir qualidade na an√°lise.
- Agora, com os dados tratados, podemos fazer uma primeira an√°lise na base e tentar entender como os dados est√£o relacionados.

üîú **Pr√≥ximos passos:**  
A pr√≥xima etapa ser√° a **an√°lise explorat√≥ria**, que nos ajudar√° a conhecer os dados melhor e montar uma narrativa ao redor deles. üöÄ