# #7DaysOfCode - Ciência de Dados

Este notebook faz parte do desafio [7 Days of Code](https://7daysofcode.io/).
O objetivo é explorar e transformar os dados utilizando Pandas.

Para este projeto, utilizamos os **Dados Abertos do CEAPS** (Cota para Exercício da Atividade Parlamentar), referente ao ano de 2022, disponíveis no site oficial do Senado Federal:  
🔗 [ Dados Abertos CEAPS](https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps)  

# Dia 1: Limpeza e Preparação de Dados

# 0.0 Importações

## 0.1 Bibliotecas

In [12]:
# Importando as bibliotecas necessárias para análise
import pandas as pd

## 0.2 Dados

O arquivo `despesa_ceaps_2022.csv` contém informações sobre despesas parlamentares.  
Os ajustes no `read_csv` incluem:
- **`encoding='latin1'`** → Define a codificação correta para evitar problemas com caracteres especiais.  
- **`sep=';'`** → Define o ponto e vírgula como separador de colunas, já que o formato CSV brasileiro usa `;` em vez de `,`.  
- **`quotechar='"'`** → Define aspas duplas como delimitador de valores textuais, garantindo que campos com `;` internos sejam interpretados corretamente.  
- **`skiprows=1`** → Pula a primeira linha do arquivo, que pode conter informações extras fora do cabeçalho.  
- **`decimal=','`** → Define que números decimais utilizam `,` em vez de `.` para garantir a conversão correta.

In [13]:
# Carregando o dataset e visualizando as primeiras linhas
df_ceaps = pd.read_csv('data/despesa_ceaps_2022.csv', encoding='latin1', sep=';', quotechar='"', skiprows=1,  decimal=',')
print(f"✅ Dados carregados! O dataset contém {df_ceaps.shape[0]} linhas e {df_ceaps.shape[1]} colunas.\n")
display(df_ceaps)


✅ Dados carregados! O dataset contém 16805 linhas e 11 colunas.



Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2022,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/22,03/01/2022,Despesa com pagamento de aluguel de imóvel par...,6000.00,2173614
1,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,26.320.603/0001-64,INFORMANAHORA,000000000000310/A,04/01/2022,Despesa com divulgação da atividade parlamenta...,1500.00,2173615
2,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,13.659.201/0001-47,LINHA PURPURA FOTO E VIDEO LTDA,107,14/01/2022,Despesa com produção de texto e edição de víde...,6000.00,2173616
3,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,23.652.846/0001-01,ROBERTO GUTIERREZ DA ROCHA M.E.I.,187,18/01/2022,Divulgação da atividade parlamentar,1000.00,2173618
4,2022,1,ACIR GURGACZ,Divulgação da atividade parlamentar,08.941.827/0001-01,RONDONIA DINÂMICA COM. E SERV. DE INFORMÁTICA ...,000000000001772/A,17/01/2022,Divulgação da atividade parlamentar,2000.00,2173617
...,...,...,...,...,...,...,...,...,...,...,...
16800,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WIXHAI,06/12/2022,"Companhia Aérea: LATAM, Localizador: WIXHAI. P...",2893.04,2191398
16801,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,WITOLM,09/12/2022,"Companhia Aérea: GOL, Localizador: WITOLM. Pas...",1180.19,2192272
16802,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,THPKVQ,20/12/2022,"Companhia Aérea: TAM, Localizador: THPKVQ. Pas...",2671.90,2192274
16803,2022,12,ZEQUINHA MARINHO,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,QNN9HX,21/12/2022,"Companhia Aérea: AZUL, Localizador: QNN9HX. Pa...",1334.31,2192244


# 1 Limpeza dos dados

## 1.1 Remoção de duplicatas e colunas vazias

In [14]:
# Removendo valores ausentes para garantir qualidade nos dados
df_ceaps = df_ceaps.dropna(axis=1, how='all').drop_duplicates()
print(f"✅ Removidas duplicatas. Linhas restantes: {df_ceaps.shape[0]}\n")

✅ Removidas duplicatas. Linhas restantes: 16805



## 1.2 Tratamento de dados nulos

In [15]:
print("Valores nulos por coluna:\n", df_ceaps.isnull().sum().to_string()) #Conta os nulos por coluna

Valores nulos por coluna:
 ANO                     0
MES                     0
SENADOR                 0
TIPO_DESPESA            0
CNPJ_CPF                0
FORNECEDOR              0
DOCUMENTO             934
DATA                    0
DETALHAMENTO         7743
VALOR_REEMBOLSADO       0
COD_DOCUMENTO           0


In [16]:
#Preenchendo valores nulos
df_ceaps['DOCUMENTO'] = df_ceaps['DOCUMENTO'].fillna('Desconhecido')
df_ceaps['DETALHAMENTO'] = df_ceaps['DETALHAMENTO'].fillna('Não informado')
print("✅ Valores nulos preenchidos!\n")

✅ Valores nulos preenchidos!



## 1.3 Revisão dos tipos de dados

- **`VALOR_REEMBOLSADO` → `float`**  
  - Utilizamos `pd.to_numeric()` para garantir que os valores sejam numéricos, convertendo qualquer erro em `NaN` (`errors='coerce'`).  
  - Isso evita problemas com valores mal formatados no dataset.  

- **`DATA` → `datetime64`**  
  - Utilizamos `pd.to_datetime()` para transformar a coluna de data no formato correto.  
  - O parâmetro `dayfirst=True` garante que o formato seja **DD/MM/YYYY** (padrão brasileiro).  
  - Caso alguma data esteja inválida, ela será convertida para `NaT` (nulo).  

- **Conversão de colunas para `string`**  
  - Definimos explicitamente que algumas colunas são texto (`string`) para evitar problemas de interpretação.  
  - Isso garante que colunas como `SENADOR`, `TIPO_DESPESA`, `CNPJ_CPF`, `FORNECEDOR`, `DOCUMENTO` e `DETALHAMENTO` sejam tratadas corretamente como texto.  

In [17]:
print(df_ceaps.dtypes)  # Checar os tipos de dados

ANO                    int64
MES                    int64
SENADOR               object
TIPO_DESPESA          object
CNPJ_CPF              object
FORNECEDOR            object
DOCUMENTO             object
DATA                  object
DETALHAMENTO          object
VALOR_REEMBOLSADO    float64
COD_DOCUMENTO          int64
dtype: object


In [18]:
# Convertendo tipos de dados para facilitar a análise
df_ceaps['VALOR_REEMBOLSADO'] = pd.to_numeric(df_ceaps['VALOR_REEMBOLSADO'], errors='coerce')  # Garante que os valores de reembolso sejam float
df_ceaps['DATA'] = pd.to_datetime(df_ceaps['DATA'], errors='coerce', dayfirst=True)  # Converte datas
df_ceaps = df_ceaps.astype({
    'SENADOR': 'string', 'TIPO_DESPESA': 'string', 'CNPJ_CPF': 'string',
    'FORNECEDOR': 'string', 'DOCUMENTO': 'string', 'DETALHAMENTO': 'string'
}) # Padroniza colunas como string
print("✅ Tipos de dados ajustados.\n")
display(df_ceaps.dtypes)  # Checar os tipos de dados após as alterações

✅ Tipos de dados ajustados.



ANO                           int64
MES                           int64
SENADOR              string[python]
TIPO_DESPESA         string[python]
CNPJ_CPF             string[python]
FORNECEDOR           string[python]
DOCUMENTO            string[python]
DATA                 datetime64[ns]
DETALHAMENTO         string[python]
VALOR_REEMBOLSADO           float64
COD_DOCUMENTO                 int64
dtype: object

### 1.3.1 Normalização de CNPJ/CPF

#### Etapas realizadas:
1. Removemos caracteres especiais (pontos, traços, barras) para manter apenas os números.   
2. Contamos a distribuição dos tamanhos dos valores após a normalização.  
3. Identificamos possíveis erros filtrando registros com tamanhos inválidos (diferentes de 11 para CPF ou 14 para CNPJ).  
4. Exibimos uma mensagem de alerta caso valores inválidos sejam encontrados.

In [19]:
df_ceaps['CNPJ_CPF_LIMPO'] = df_ceaps['CNPJ_CPF'].str.replace(r'\D', '', regex=True)
# Contagem de caracteres após a limpeza
tamanhos = df_ceaps['CNPJ_CPF_LIMPO'].str.len().value_counts()
print("Distribuição dos tamanhos de CNPJ/CPF:\n", tamanhos, "\n")

# Identificar valores inválidos
df_erro = df_ceaps[~df_ceaps['CNPJ_CPF_LIMPO'].str.len().isin([11, 14])]
if not df_erro.empty:
    print("⚠️ Valores inválidos detectados em CNPJ/CPF:")
    print(df_erro[['CNPJ_CPF', 'CNPJ_CPF_LIMPO']].head())
else:
    print("✅ Todos os CNPJs/CPFs possuem tamanhos corretos (11 ou 14 caracteres).\n")


Distribuição dos tamanhos de CNPJ/CPF:
 CNPJ_CPF_LIMPO
14    16383
11      422
Name: count, dtype: Int64 

✅ Todos os CNPJs/CPFs possuem tamanhos corretos (11 ou 14 caracteres).



## 1.3 Correção de valores monetários

### 1.3.1 Análise estatística básica

In [20]:
descricao = df_ceaps['VALOR_REEMBOLSADO'].describe()
print("Estatísticas básicas de VALOR_REEMBOLSADO:\n", descricao, "\n")
#display(df_ceaps[df_ceaps['VALOR_REEMBOLSADO'] < 0])  # Confere se há valores negativos

Estatísticas básicas de VALOR_REEMBOLSADO:
 count    16805.000000
mean      1625.914093
std       3363.993049
min          0.010000
25%        200.000000
50%        481.440000
75%       2000.000000
max      77012.000000
Name: VALOR_REEMBOLSADO, dtype: float64 



### 1.3.2 Identificar outliers

In [21]:
df_ceaps.groupby('TIPO_DESPESA')['VALOR_REEMBOLSADO'].describe()  # Outliers entre tipo de despesa e valor reembolsado

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
TIPO_DESPESA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
"Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.",3322.0,1197.030981,1654.827671,0.2,198.295,449.42,1407.56,15000.0
"Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos.",1226.0,802.371794,1301.944036,5.09,110.75,281.0,729.735,10000.0
"Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar",1043.0,6060.866759,8973.857893,3.9,979.275,2000.0,8000.0,77012.0
Divulgação da atividade parlamentar,1038.0,3223.425202,5847.458499,60.0,800.0,1500.0,2800.0,72923.16
"Locomoção, hospedagem, alimentação, combustíveis e lubrificantes",6769.0,777.068032,1903.469792,0.03,126.87,240.62,406.7,20011.0
"Passagens aéreas, aquáticas e terrestres nacionais",3383.0,2194.397319,1152.354058,0.01,1372.115,2139.12,2857.705,10871.78
Serviços de Segurança Privada,24.0,509.273333,203.592827,219.0,440.24,492.22,551.98,1090.0


### 1.3.3 Remoção de outliers com Intervalo Interquartil (IQR)

In [22]:
# Definir limites para outliers
Q1 = df_ceaps['VALOR_REEMBOLSADO'].quantile(0.25)  # Primeiro quartil (25%)
Q3 = df_ceaps['VALOR_REEMBOLSADO'].quantile(0.75)  # Terceiro quartil (75%)
IQR = Q3 - Q1  # Intervalo interquartil

# Definir os limites inferior e superior
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Filtrar os dados, removendo outliers
df_ceaps_limpo = df_ceaps[
    (df_ceaps['VALOR_REEMBOLSADO'] >= limite_inferior) & 
    (df_ceaps['VALOR_REEMBOLSADO'] <= limite_superior)
]

# Ver quantas linhas sobraram
print(f"Removendo outliers...\nLinhas antes: {len(df_ceaps)}\nLinhas depois: {len(df_ceaps_limpo)}\nRemovidos: {len(df_ceaps) - len(df_ceaps_limpo)} outliers.\n")
print("✅ Dados limpos e prontos para análise! 🚀\n")

Removendo outliers...
Linhas antes: 16805
Linhas depois: 15626
Removidos: 1179 outliers.

✅ Dados limpos e prontos para análise! 🚀




## 📌 Conclusão

- Neste primeiro dia do desafio, realizamos a limpeza e preparação dos dados.
- Removemos valores ausentes e ajustamos os tipos de dados para garantir qualidade na análise.
- Agora, com os dados tratados, podemos fazer uma primeira análise na base e tentar entender como os dados estão relacionados.

🔜 **Próximos passos:**  
A próxima etapa será a **análise exploratória**, que nos ajudará a conhecer os dados melhor e montar uma narrativa ao redor deles. 🚀