# Ciência de Dados

### Grupo: Ailton Santos, Allan Gonçalves, Cinthia Katiane, Welligton Miguel

Esse notebook faz análise dos dados do cenário político brasileiro, e tem como fonte de informação os dados abertos da câmara, disponível em https://dadosabertos.camara.leg.br. Os datasets utilizados aqui foram tratados e concatenados previamente para atender requisitos do trabalho, mas o script para isso está disponível no repo do GitHub. Para mais informações leia o README do projeto.

## 1. Primeiros Passos 
#### Fácil

O ano de 2018 é um ano de eleições no Brasil e os eleitores podem usar muitas alternativas para escolher em quem vão votar, uma dessas alternativas é verificar a produtividade de um determinado político. Então é isso que vamos fazer nesse notebook. O primeiro passo é fazer o upload dos arquivos `proposicoes.csv`,`autores.csv` e `deputados.csv`, pois vamos usa-los em breve. 

Começe importando a biblioteca pandas e lendo o arquivo `proposicoes.csv`. Faça isso usando a função `read_csv()` do pandas. Em seguida liste as colunas desse dataframe.

Quando tiver feito isso, execute a linha inferior e a função `head()` permitirá que você veja uma amostra dos dados desse dataframe, dê uma olhada nas informações de cada coluna e então vá para o próximo exercício.

In [None]:
from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

In [3]:
import re
import pandas as pd

In [6]:
# Coloque seu codigo aqui

df_proposicoes = pd.read_csv('proposicoes.csv', encoding='utf-8',low_memory=False)

print(df_proposicoes.columns)

Index(['Unnamed: 0', 'id', 'uri', 'siglaTipo', 'numero', 'ano', 'idTipo',
       'descricaoTipo', 'ementa', 'ementaDetalhada', 'keywords',
       'dataApresentacao', 'uriOrgaoNumerador', 'uriPropAnterior',
       'uriPropPrincipal', 'uriPropPosterior', 'urlInteiroTeor', 'urnFinal',
       'ultimoStatus_dataHora', 'ultimoStatus_sequencia',
       'ultimoStatus_uriRelator', 'ultimoStatus_idOrgao',
       'ultimoStatus_siglaOrgao', 'ultimoStatus_uriOrgao',
       'ultimoStatus_regime', 'ultimoStatus_descricaoTramitacao',
       'ultimoStatus_idTipoTramitacao', 'ultimoStatus_descricaoSituacao',
       'ultimoStatus_idSituacao', 'ultimoStatus_despacho', 'ultimoStatus_url'],
      dtype='object')


In [7]:
df_proposicoes.head()

Unnamed: 0.1,Unnamed: 0,id,uri,siglaTipo,numero,ano,idTipo,descricaoTipo,ementa,ementaDetalhada,...,ultimoStatus_idOrgao,ultimoStatus_siglaOrgao,ultimoStatus_uriOrgao,ultimoStatus_regime,ultimoStatus_descricaoTramitacao,ultimoStatus_idTipoTramitacao,ultimoStatus_descricaoSituacao,ultimoStatus_idSituacao,ultimoStatus_despacho,ultimoStatus_url
0,0,865934.0,https://dadosabertos.camara.leg.br/api/v2/prop...,MPV,667,2015.0,291,Medida Provisória,"Abre crédito extraordinário, em favor dos órgã...",,...,101176.0,MPV66715,https://dadosabertos.camara.leg.br/api/v2/orga...,Urgência,Notificação - Pasta genérica,1002.0,Aguardando Recebimento,917.0,Of. 310/2015-CN comunica o término do prazo pa...,
1,1,865959.0,https://dadosabertos.camara.leg.br/api/v2/prop...,PL,8328,2015.0,139,Projeto de Lei,"Altera a Lei n° 10.098, de 19 de dezembro de 2...","Substitui a expressão ""pessoa portadora de def...",...,4.0,MESA,https://dadosabertos.camara.leg.br/api/v2/orga...,"Urgência (Art. 155, RICD)",Arquivamento,502.0,Arquivada,923.0,Declarado prejudicado em face da aprovação da ...,
2,2,865960.0,https://dadosabertos.camara.leg.br/api/v2/prop...,PL,8329,2015.0,139,Projeto de Lei,"Altera a Lei n° 10.741, de 1° de outubro de 20...",,...,180.0,PLEN,https://dadosabertos.camara.leg.br/api/v2/orga...,"Prioridade (Art. 151, II, RICD)",Apresentação de Requerimento,194.0,Pronta para Pauta,924.0,Apresentação do Requerimento de Inclusão na Or...,http://www.camara.gov.br/proposicoesWeb/prop_m...
3,3,865961.0,https://dadosabertos.camara.leg.br/api/v2/prop...,PL,8330,2015.0,139,Projeto de Lei,"Altera a Lei n° 11.340, de 7 de agosto de 2006...",,...,2003.0,CCJC,https://dadosabertos.camara.leg.br/api/v2/orga...,"Prioridade (Art. 151, II, RICD)",Designação de Relator,320.0,Aguardando Parecer,915.0,"Designado Relator, Dep. Chico Alencar (PSOL-RJ)",
4,4,865962.0,https://dadosabertos.camara.leg.br/api/v2/prop...,PL,8331,2015.0,139,Projeto de Lei,"Altera a Lei n° 10.257, de 10 de julho de 2001...",,...,2003.0,CCJC,https://dadosabertos.camara.leg.br/api/v2/orga...,"Prioridade (Art. 151, II, RICD)",Parecer do Relator,322.0,Pronta para Pauta,924.0,"Parecer do Relator, Dep. Fábio Sousa (PSDB-GO)...",http://www.camara.gov.br/proposicoesWeb/prop_m...


## 2. Formatando Colunas
#### Médio

Sabemos que um dos pontos fundamentais para que seja possível efetuar uma boa análise é o tratamento dos dados, desta forma, iremos padronizar as colunas em nosso dataset. Vemos que ele segue uma mistura nos parões CamelCase e snake_case, sendo assim, iremos torná-lo apenas snake_case.

Desta forma deve ser realizado:

1° Conversão de todas as colunas que se encontram no estilo camelCase para snake_case.

2° Remover das colunas o nome `ultimo_status_`.

In [8]:
# Coloque seu codigo aqui

#Forma 1
def convert(name):
    s1 = re.sub('(.)([A-Z][a-z]+)', r'\1_\2', name)
    return re.sub('([a-z0-9])([A-Z])', r'\1_\2', s1).lower()

#alterando o formato das colunas
df_proposicoes.columns = [convert(column.split('ultimoStatus_')[-1]) for column in df_proposicoes.columns]


#Forma 2
def convert(name):
    s1 = re.sub('(.)([A-Z][a-z]+)', r'\1_\2', name)
    return re.sub('([a-z0-9])([A-Z])', r'\1_\2', s1).lower()

#alterando o formato das colunas
df_proposicoes.columns = [convert(column) for column in df_proposicoes.columns]
df_proposicoes.columns = df_proposicoes.columns.str.replace("ultimo_status_","")

In [9]:
df_proposicoes.columns

Index(['unnamed: 0', 'id', 'uri', 'sigla_tipo', 'numero', 'ano', 'id_tipo',
       'descricao_tipo', 'ementa', 'ementa_detalhada', 'keywords',
       'data_apresentacao', 'uri_orgao_numerador', 'uri_prop_anterior',
       'uri_prop_principal', 'uri_prop_posterior', 'url_inteiro_teor',
       'urn_final', 'data_hora', 'sequencia', 'uri_relator', 'id_orgao',
       'sigla_orgao', 'uri_orgao', 'regime', 'descricao_tramitacao',
       'id_tipo_tramitacao', 'descricao_situacao', 'id_situacao', 'despacho',
       'url'],
      dtype='object')

## 3. Removendo linhas desnecessárias
#### Fácil

Esse dataset possui muitas colunas, muitas mesmo, e boa parte delas não será útil para a nossa análise. Use a função `drop()` para remover as seguintes colunas:

`'id_tipo',
 'id_orgao',
 'sigla_orgao',
 'uri_orgao',
 'descricao_tramitacao',
 'id_tipo_tramitacao',
 'id_situacao',
 'data_apresentacao',
 'uri_prop_posterior',
 'url_inteiro_teor',
 'urn_final',
 'sequencia',
 'uri_relator',
 'uri_prop_principal',
 'uri_prop_anterior',
 'uri_orgao_numerador',
 'uri'`
 
 Em seguida use a função `head()` novamente e veja como ficou o dataframe.

In [10]:
df_proposicoes = df_proposicoes.drop([
    'id_tipo',
    'id_orgao',
    'sigla_orgao',
    'uri_orgao',
    'descricao_tramitacao',
    'id_tipo_tramitacao',
    'id_situacao',
    'data_apresentacao',
    'uri_prop_posterior',
    'url_inteiro_teor',
    'urn_final',
    'sequencia',
    'uri_relator',
    'uri_prop_principal',
    'uri_prop_anterior',
    'uri_orgao_numerador',
    'uri',
], axis=1)
df_proposicoes.head()

Unnamed: 0,unnamed: 0,id,sigla_tipo,numero,ano,descricao_tipo,ementa,ementa_detalhada,keywords,data_hora,regime,descricao_situacao,despacho,url
0,0,865934.0,MPV,667,2015.0,Medida Provisória,"Abre crédito extraordinário, em favor dos órgã...",,"Crédito extraordinário, órgão público, Orçamen...",2015-08-05T00:00:00,Urgência,Aguardando Recebimento,Of. 310/2015-CN comunica o término do prazo pa...,
1,1,865959.0,PL,8328,2015.0,Projeto de Lei,"Altera a Lei n° 10.098, de 19 de dezembro de 2...","Substitui a expressão ""pessoa portadora de def...","Alteração, Lei da Acessibilidade, pessoa com d...",2015-03-05T00:00:00,"Urgência (Art. 155, RICD)",Arquivada,Declarado prejudicado em face da aprovação da ...,
2,2,865960.0,PL,8329,2015.0,Projeto de Lei,"Altera a Lei n° 10.741, de 1° de outubro de 20...",,"Alteração, Estatuto do Idoso, gratuidade, idos...",2015-12-21T14:50:00,"Prioridade (Art. 151, II, RICD)",Pronta para Pauta,Apresentação do Requerimento de Inclusão na Or...,http://www.camara.gov.br/proposicoesWeb/prop_m...
3,3,865961.0,PL,8330,2015.0,Projeto de Lei,"Altera a Lei n° 11.340, de 7 de agosto de 2006...",,"Alteração, Lei Maria da Penha, garantia, benef...",2018-02-01T00:00:00,"Prioridade (Art. 151, II, RICD)",Aguardando Parecer,"Designado Relator, Dep. Chico Alencar (PSOL-RJ)",
4,4,865962.0,PL,8331,2015.0,Projeto de Lei,"Altera a Lei n° 10.257, de 10 de julho de 2001...",,"Alteração, Estatuto da Cidade, Lei da Acessibi...",2018-06-28T17:26:00,"Prioridade (Art. 151, II, RICD)",Pronta para Pauta,"Parecer do Relator, Dep. Fábio Sousa (PSDB-GO)...",http://www.camara.gov.br/proposicoesWeb/prop_m...


## Métricas de Análise

Agora que já efetuamos a padronização de colunas, onde possuimos apenas as informações necessárias para nossa análise, iremos partir para as estratégias, ou métricas(se preferir)

Com elas iremos ter um alvo a atingir, seja qual deputado possui mais proposições até quantas proposições estão com situação "prontas para pauta".

Sendo assim, hora de partir para a coleta...

## 4. Métricas Quantitativas
#### Médio

Atualmente carregamos o csv contendo todas as proposições entre 2015 à 2018, desta forma faremos a seguinte análise:

1. Identificar todas as proposições do tipo PL(Projetos de Lei) e adicionar a variável `pl_proposicoes`
2. Após efetuada a separação das proposições do tipo PL, deveremos efetuar uma contagem de quantas PL foram realizadas em seus respectivos anos, com isso, deveremos adicionar o resultado a um dicionário `dict_pl_propocicoes_anos` onde o ano será a chave e a quantidade o valor

In [14]:
pl_proposicoes = df_proposicoes[df_proposicoes['sigla_tipo']=='PL']


In [40]:
def count_proposicoes_by_ano(pl_proposicoes, ano_inicial, ano_final):
    dict_pl = dict()
    while(ano_inicial <= ano_final):
        dict_pl[ano_inicial] = pl_proposicoes[pl_proposicoes['ano']==ano_inicial]["id"].count()
        ano_inicial+=1
    return dict_pl


dict_pl_propocicoes_anos = count_proposicoes_by_ano(pl_proposicoes,2015,2018)

In [41]:
dict_pl_propocicoes_anos

{2015: 4262, 2016: 2532, 2017: 2675, 2018: 1377}

## 5. Descobrindo os autores pt.1
#### Fácil

Agora que temos o dataframe com os projetos de lei, vamos descobrir quais foram os autores desses projetos. Para isso devemos:

1. Ler o arquivo `autores.csv`
2. Remova as colunas `'uri_proposicao'`,`'uri_partido_autor'` e `'id_autor'` desse dataframe
3. Use `head()` para ver uma amostra dos dados desse dataframe

In [47]:
df_autores = pd.read_csv('autores.csv', encoding = 'utf-8') 

In [48]:
df_autores = df_autores.drop([
    'uri_proposicao',
    'uri_partido_autor',
    'id_autor',
], axis=1)

In [49]:
df_autores.head()

Unnamed: 0.1,Unnamed: 0,id_proposicao,uri_autor,cod_tipo_autor,tipo_autor,nome_autor,sigla_partido_autor,sigla_uf_autor
0,0,2183806,https://dadosabertos.camara.leg.br/api/v2/orga...,40000,Órgão do Poder Legislativo,Senado Federal,,
1,1,2180385,https://dadosabertos.camara.leg.br/api/v2/orga...,40000,Órgão do Poder Legislativo,Senado Federal,,
2,2,2169419,https://dadosabertos.camara.leg.br/api/v2/orga...,40000,Órgão do Poder Legislativo,Senado Federal,,
3,3,2166883,https://dadosabertos.camara.leg.br/api/v2/orga...,40000,Órgão do Poder Legislativo,Senado Federal -Soraya Santos,PMDB,RJ
4,4,2166604,https://dadosabertos.camara.leg.br/api/v2/orga...,40000,Órgão do Poder Legislativo,Senado Federal,,


## 6. Descobrindo os autores pt.2
#### Médio


Agora que carregamos os altores das Proposições, poderemos efetuar uma analise mais refinada, sobre qual deputado efetuou quais propostas. No entanto nosso dataframe possui proposições que não partiram de um deputado, mas sim de outros orgão governamentais como Senado.

Sendo assim, iremos filtrar os dados...

1. Filtrar proposições para encontrar apenas as que contém apenas deputados como autores
2. Agrupar proposições por estados e partidos e ordenar por ordem alfabética(estados)

obs: Ao realizar a filtragem, as colunas ***cod_tipo_autor*** e ***tipo_autor*** tornaram-se desnecessárias, visto que só continham um único valor, então podemos removê-las

In [50]:
df_autores = df_autores[df_autores['cod_tipo_autor'] == 10000]
df_autores.head()

Unnamed: 0.1,Unnamed: 0,id_proposicao,uri_autor,cod_tipo_autor,tipo_autor,nome_autor,sigla_partido_autor,sigla_uf_autor
6,6,2110932,https://dadosabertos.camara.leg.br/api/v2/depu...,10000,Deputado,Ricardo Barros,,
12,12,2081753,https://dadosabertos.camara.leg.br/api/v2/depu...,10000,Deputado,Alexandre Baldy,PTN,GO
67,67,2076239,https://dadosabertos.camara.leg.br/api/v2/depu...,10000,Deputado,Sergio Souza,PMDB,PR
74,74,2076210,https://dadosabertos.camara.leg.br/api/v2/depu...,10000,Deputado,Bruno Covas,PSDB,SP
75,75,2076209,https://dadosabertos.camara.leg.br/api/v2/depu...,10000,Deputado,Bruno Covas,PSDB,SP


## Bônus 

Com a mostragem que efetuamos acima, iremos agora efetuar uma análise quantitativa em nosso estado(RN), para isso será necessário responder as seguintes perguntas:

1. Quais deputados criaram Projetos de Lei Ordinária (PL)?
2. Qual foi o deputado que mais propôs PLs?


Dica: use o `value_counts()` para verificar quantas vezes o deputado é citado em nosso dataframe.

In [53]:
df_autores_rn = df_autores[df_autores['sigla_uf_autor'] == 'RN']

df_autores_rn['nome_autor'].unique()

array(['Walter Alves', 'Rafael Motta', 'Antônio Jácome', 'Zenaide Maia',
       'Felipe Maia', 'Rogério Marinho', 'Beto Rosado', 'Fábio Faria'],
      dtype=object)

In [56]:
df_autores_rn.nome_autor.value_counts()

Antônio Jácome     170
Rafael Motta       150
Beto Rosado        146
Walter Alves       137
Zenaide Maia       130
Rogério Marinho    103
Felipe Maia         91
Fábio Faria         77
Name: nome_autor, dtype: int64

# Continuar ...

In [None]:
df_deputados = pd.read_csv('deputados.csv', encoding = 'utf-8') 

In [None]:
df_deputados = df_deputados[['uri', 'nomeCivil', 'siglaSexo', 'dataNascimento', 'ufNascimento']]
df_deputados

### Merge dos DataFrames de Autores e Deputados para coletar algumas informações que possam ser úteis, como:
_UF de Nascimento do Candidato, Data de Nascimento, Nome Completo, Sexo_

In [None]:
result = pd.merge(df_autores, df_deputados, left_on='uri_autor', right_on='uri', how='left')
result

In [None]:
result = result.drop(['uri_autor', 'uri'], axis=1)

### Verificando se todas as proposições contém um autor que possa ser referenciado no DataFrame de autores

In [None]:
df['id'].count() == df[df['id'].isin(result['id_proposicao'])]['id'].count()

### Existem propostas que não contém um autor associado, vocês acham que devemos exclui-las?
_Se sim, descomentem o código abaixo_

In [None]:
# df = df[df['id'].isin(df_autores['id_proposicao'])]
# df

### Comparação entre os horríveis

In [None]:
prop_com_nome = df.merge(df_autores[['id_proposicao', 'nome_autor']], left_on='id', right_on='id_proposicao')

In [None]:
print('BOLSONARO: {}'.format(prop_com_nome[prop_com_nome['nome_autor'].str.contains('Jair Bolsonaro')]['id'].count()))
print('JEAN WYLLYS: {}'.format(prop_com_nome[prop_com_nome['nome_autor'].str.contains('Jean Wyllys')]['id'].count()))