# Ciência de Dados

### Grupo: Ailton Santos, Allan Gonçalves, Cinthia Katiane, Welligton Miguel

Esse notebook faz análise dos dados do cenário político brasileiro, e tem como fonte de informação os dados abertos da câmara, disponível em https://dadosabertos.camara.leg.br. Os datasets utilizados aqui foram tratados e concatenados previamente para atender requisitos do trabalho, mas o script para isso está disponível no repo do GitHub. Para mais informações leia o README do projeto.

## 1. Primeiros Passos 
#### Fácil

O ano de 2018 é um ano de eleições no Brasil e os eleitores podem usar muitas alternativas para escolher em quem vão votar, uma dessas alternativas é verificar a produtividade de um determinado político. Então é isso que vamos fazer nesse notebook. O primeiro passo é fazer o upload dos arquivos `proposicoes.csv`,`autores.csv` e `deputados.csv`, pois vamos usa-los em breve. 

Começe importando a biblioteca pandas e lendo o arquivo `proposicoes.csv`. Faça isso usando a função `read_csv()` do pandas. Em seguida liste as colunas desse dataframe.

Quando tiver feito isso, execute a linha inferior e a função `head()` permitirá que você veja uma amostra dos dados desse dataframe, dê uma olhada nas informações de cada coluna e então vá para o próximo exercício.

In [None]:
from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

In [None]:
import re
import pandas as pd

In [None]:
# Coloque seu codigo aqui

df_proposicoes = pd.read_csv('proposicoes.csv', encoding='utf-8')

print(df_proposicoes.columns)

In [None]:
df_proposicoes.head()

## 2. Formatando Colunas
#### Médio

Sabemos que um dos pontos fundamentais para que seja possível efetuar uma boa análise é o tratamento dos dados, desta forma, iremos padronizar as colunas em nosso dataset. Vemos que ele segue uma mistura nos parões CamelCase e snake_case, sendo assim, iremos torná-lo apenas snake_case.

Desta forma deve ser realizado:
1° Conversão de todas as colunas que se encontram no estilo camelCase para snake_case.

2° Remover das colunas o nome `ultimo_status_`.

In [None]:
# Coloque seu codigo aqui

#Forma 1
def convert(name):
    s1 = re.sub('(.)([A-Z][a-z]+)', r'\1_\2', name)
    return re.sub('([a-z0-9])([A-Z])', r'\1_\2', s1).lower()

#alterando o formato das colunas
df_proposicoes.columns = [convert(column.split('ultimoStatus_')[-1]) for column in df_proposicoes.columns]


#Forma 2
def convert(name):
    s1 = re.sub('(.)([A-Z][a-z]+)', r'\1_\2', name)
    return re.sub('([a-z0-9])([A-Z])', r'\1_\2', s1).lower()

#alterando o formato das colunas
df_proposicoes.columns = [convert(column) for column in df_proposicoes.columns]
df_proposicoes.columns = df_proposicoes.columns.str.replace("ultimo_status_","")

In [None]:
df_proposicoes.columns

### 3. Removendo linhas desnecessárias
#### Fácil

Esse dataset possui muitas colunas, muitas mesmo, e boa parte delas não será útil para a nossa análise. Use a função `drop()` para remover as seguintes colunas:

`'id_tipo',
 'id_orgao',
 'sigla_orgao',
 'uri_orgao',
 'descricao_tramitacao',
 'id_tipo_tramitacao',
 'id_situacao',
 'data_apresentacao',
 'uri_prop_posterior',
 'url_inteiro_teor',
 'urn_final',
 'sequencia',
 'uri_relator',
 'uri_prop_principal',
 'uri_prop_anterior',
 'uri_orgao_numerador',
 'uri'`
 
 Em seguida use a função `head()` novamente e veja como ficou o dataframe.

In [None]:
df_proposicoes = df_proposicoes.drop([
    'id_tipo',
    'id_orgao',
    'sigla_orgao',
    'uri_orgao',
    'descricao_tramitacao',
    'id_tipo_tramitacao',
    'id_situacao',
    'data_apresentacao',
    'uri_prop_posterior',
    'url_inteiro_teor',
    'urn_final',
    'sequencia',
    'uri_relator',
    'uri_prop_principal',
    'uri_prop_anterior',
    'uri_orgao_numerador',
    'uri',
], axis=1)
df_proposicoes.head()

## Métricas de Análise

Agora que já efetuamos a padronização de colunas, onde possuimos apenas as informações necessárias para nossa análise, iremos partir para as estratégias, ou métricas(se preferir)

Com elas iremos ter um alvo a atingir, seja qual deputado possui mais proposições até quantas proposições estão com situação "prontas para pauta".

Sendo assim, hora de partir para a coleta...

## 3. Métricas Quantitativas
#### Médio

Atualmente carregamos o csv contendo todas as proposições entre 2015 à 2018, desta forma faremos a seguinte análise:

1. Identificar todas as proposições do tipo PL e adicionar a variável `pl_proposicoes`
2. Após efetuada a separação das proposições do tipo PL, deveremos efetuar uma contagem de quantas PL foram realizadas em seus respectivos anos, com isso, deveremos adicionar o resultado a um dicionário `dict_pl_propocicoes_anos` onde o ano será a chave e a quantidade o valor

In [None]:
df_proposicoes

In [None]:
df_proposicoes['id'].count()

## 4. Descobrindo os autores pt.1
#### Fácil

Agora que temos o dataframe com os projetos de lei, vamos descobrir que foram os autores desses projetos. Para isso vamos ... 

1. Ler o arquivo `autores.csv`
2. Use `head()` para ver uma amostra dos dados desse dataframe
3. Remova as colunas `'uri_proposicao'`,`'uri_partido_autor'` e `'id_autor'` desse dataframe

#Precisa explicar melhor !!!!!!!!!!!!!!!!! 

In [None]:
df_autores = pd.read_csv('autores.csv', encoding = 'utf-8') 

In [None]:
df_autores.head()

In [None]:
df_autores = df_autores.drop([
    'uri_proposicao',
    'uri_partido_autor',
    'id_autor',
], axis=1)
df_autores

## 5. Descobrindo os autores pt.2
#### Médio


#Precisa explicar melhor !!!!!!!!!!!!!!!!! 

### Filtrando proposições para encontrar apenas as que contém apenas deputados como autores
Ao realizar a filtragem, as colunas ***cod_tipo_autor*** e ***tipo_autor*** tornaram-se desnecessárias, visto que só continham um único valor

In [None]:
df_autores = df_autores[df_autores['cod_tipo_autor'] == 10000]
#df_autores.drop(['cod_tipo_autor', 'tipo_autor'], axis=1)
df_autores

## Bônus 

Verifique os deputados do nosso estado.

User `value_counts()` para verificar quantas vezes cada um deles aparece.

In [None]:
df_autores[df_autores['sigla_uf_autor'] == 'RN']['nome_autor'].value_counts()

# Continuar ...

In [None]:
df_deputados = pd.read_csv('deputados.csv', encoding = 'utf-8') 

In [None]:
df_deputados = df_deputados[['uri', 'nomeCivil', 'siglaSexo', 'dataNascimento', 'ufNascimento']]
df_deputados

### Merge dos DataFrames de Autores e Deputados para coletar algumas informações que possam ser úteis, como:
_UF de Nascimento do Candidato, Data de Nascimento, Nome Completo, Sexo_

In [None]:
result = pd.merge(df_autores, df_deputados, left_on='uri_autor', right_on='uri', how='left')
result

In [None]:
result = result.drop(['uri_autor', 'uri'], axis=1)

### Verificando se todas as proposições contém um autor que possa ser referenciado no DataFrame de autores

In [None]:
df['id'].count() == df[df['id'].isin(result['id_proposicao'])]['id'].count()

### Existem propostas que não contém um autor associado, vocês acham que devemos exclui-las?
_Se sim, descomentem o código abaixo_

In [None]:
# df = df[df['id'].isin(df_autores['id_proposicao'])]
# df

### Comparação entre os horríveis

In [None]:
prop_com_nome = df.merge(df_autores[['id_proposicao', 'nome_autor']], left_on='id', right_on='id_proposicao')

In [None]:
print('BOLSONARO: {}'.format(prop_com_nome[prop_com_nome['nome_autor'].str.contains('Jair Bolsonaro')]['id'].count()))
print('JEAN WYLLYS: {}'.format(prop_com_nome[prop_com_nome['nome_autor'].str.contains('Jean Wyllys')]['id'].count()))