# Alura - 7 Days of Code - Dados - Machine Learning

![7DayOfCode-Logo](../imgs/7DaysOfCode-Logo.jpg)

Autor: Leonardo Simões

---
## Sumário
- [1.Introdução](#introduction)
- [2.Objetivo](#objectives)
- [3.Desenvolvimento](#development)
- [3.1.Dia 1](#day_1)
- [4.Conclusão](#conclusion)
- [Referências](#references)

---
<a id='introduction'></a>
## 1. Introdução

Durante os 7 Days de Ciência de Dados você vai passar por todo ciclo de coleta, limpeza, tratamento, exploração e análise de dados. 

Nesses próximos 7 dias você vai entrar em uma base de dados do governo, trazer esses dados para o ambiente de análise 
utilizar SQL, Python, Pandas, Plotly entre outra ferramentas comuns no dia a dia de alguém que trabalha na área. 

No final, você vai ter uma visão ampla de diversos processos dentro da área e conseguirá entender como cada uma das etapas se encaixa no processo de análise de dados.


---
<a id='objectives'></a>
## 2. Objetivo

O objetivo será analisar o dataset do CEAPS, que contém as cotas parlamentares dos Senadores do Brasil.

---
<a id='development'></a>
## 3. Desenvolvimento

---
<a id='day_1'></a>
### 3.1 Dia 1

In [1]:
# Verificação da versão do Python
from platform import python_version
print('Versão do Python: ', python_version())

Versão do Python:  3.11.2


In [2]:
# Imports das bibliotecas mais usadas
import os
import glob
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

In [3]:
# Alterar a exibição de float para duas casas decimais
pd.options.display.float_format = '{:.2f}'.format

In [4]:
# Versões das bibliotecas mais usadas
print('Numpy versão ' + np.__version__)
print('Pandas versão ' + pd.__version__)

Numpy versão 1.23.5
Pandas versão 1.5.3


In [5]:
# Bibliotecas para criar o profile dos dados
import pydantic
from ydata_profiling import ProfileReport

In [6]:
# A versão deve ser < 2
print('Pydantic versão ' + pydantic.__version__)

Pydantic versão 1.10.12


In [7]:
# Função para carregar os dados de todos os arquivos csv de uma pasta
def carregar_dados_csv(pasta = 'dados'):
    
    # Obtenha a lista de arquivos CSV na pasta
    arquivos_csv = glob.glob(os.path.join(pasta, '*.csv'))

    # Verifique o caminho completo para a pasta
    # caminho_completo = os.path.join(os.getcwd(), pasta)
    
    # Obtenha a lista de arquivos CSV na pasta
    # arquivos_csv = glob.glob(os.path.join(caminho_completo, '*.csv'))
    
    # Verifique se existem arquivos CSV na pasta
    if not arquivos_csv:
        print("Nenhum arquivo CSV encontrado na pasta.")
        # print(f"Nenhum arquivo CSV encontrado na pasta {caminho_completo}.")
        
        return None
    else:
        # Carregue o primeiro arquivo CSV em um DataFrame inicial
        df = pd.read_csv(arquivos_csv[0], skiprows=1, sep=';', encoding = "ISO-8859-1")
        
        # Itere sobre os demais arquivos CSV e concatene-os no DataFrame inicial
        for arquivo in arquivos_csv[1:]:
            df_temp = pd.read_csv(arquivo, skiprows=1, sep=';', encoding = "ISO-8859-1")
            df = pd.concat([df, df_temp], ignore_index=True)
        
        # Remove valores duplicados
        df.drop_duplicates(inplace=True)
        assert df.duplicated().sum() == 0

        return df

In [8]:
# Carrega todos os arquivos em um único dataframe
df = carregar_dados_csv()
df.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582758,04/01/2019,Despesa com pagamento de energia elétrica do e...,6602,2116543
1,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,6582755,04/01/2019,Despesa com pagamento de energia elétrica do e...,13998,2116546
2,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,119,07/01/2019,Despesa com pagamento de aluguel de imóvel par...,6000,2113817
3,2019,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,86161151,25/12/2018,Despesa com pagamento de telefonia para o escr...,31639,2116541
4,2019,2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,7236036,04/02/2019,Despesa com pagamento de energia elétrica para...,9945,2116550


In [9]:
# Exibe informações gerais do dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 69333 entries, 0 to 69332
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   ANO                69333 non-null  int64 
 1   MES                69333 non-null  int64 
 2   SENADOR            69333 non-null  object
 3   TIPO_DESPESA       69333 non-null  object
 4   CNPJ_CPF           69333 non-null  object
 5   FORNECEDOR         69333 non-null  object
 6   DOCUMENTO          66370 non-null  object
 7   DATA               69333 non-null  object
 8   DETALHAMENTO       38583 non-null  object
 9   VALOR_REEMBOLSADO  69333 non-null  object
 10  COD_DOCUMENTO      69333 non-null  int64 
dtypes: int64(3), object(8)
memory usage: 6.3+ MB


In [10]:
# Exibe valores ausentes por coluna
df.isna().sum()

ANO                      0
MES                      0
SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             2963
DATA                     0
DETALHAMENTO         30750
VALOR_REEMBOLSADO        0
COD_DOCUMENTO            0
dtype: int64

In [11]:
# Confirma que não há linhas duplicadas
assert df.duplicated().sum() == 0

In [12]:
profile = ProfileReport(df)
profile

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [13]:
profile.to_file('Senadores-Profile-1.html')

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

---
<a id='conclusion'></a>
## 4. Conclusão

---
<a id='references'></a>
## Referências

Alura - 7 Days of Code - Dados - Ciência de Dados:
https://7daysofcode.io/matricula/data-science
 , acessado em 20/09/2023.

Senado - Dados aberto - CEAPS:
https://www12.senado.leg.br/transparencia/dados-abertos-transparencia/dados-abertos-ceaps
 , acessado em 06/10/2023.

Brasil.io: https://brasil.io/manifesto/
 , acessado em 06/10/2023.

Tableau - Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data:
https://www.tableau.com/learn/articles/what-is-data-cleaning
 , acessado em 06/10/2023.