# Ciência de Dados

### Grupo: Ailton Santos, Allan Gonçalves, Cinthia Katiane, Welligton Miguel

Esse notebook faz análise dos dados do cenário político brasileiro, e tem como fonte de informação os dados abertos da câmara, disponível em https://dadosabertos.camara.leg.br. Os datasets utilizados aqui foram tratados e concatenados previamente para atender requisitos do trabalho, mas o script para isso está disponível no repo do GitHub. Para mais informações leia o README do projeto.

TEMPO ESTIMADO DE RESOLUÇÃO: ***20min***

## 0. Introdução

O ano de 2018 é um ano de eleições no Brasil e os eleitores podem usar muitas alternativas para escolher em quem vão votar, uma dessas alternativas é verificar a produtividade de um determinado político. Então é isso que vamos fazer nesse notebook. O primeiro passo é fazer o upload dos arquivos `proposicoes.csv`,`autores.csv` e `deputados.csv`, pois vamos usa-los em breve. 

In [1]:
from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

## 1. Primeiros Passos 
#### Fácil
Começe importando a biblioteca pandas e lendo o arquivo `proposicoes.csv`. Faça isso usando a função `read_csv()` com o ***nome do arquivo*** e o ***ponto e vírgula*** como `separador`. Atribua o DataFrame a variável __df_proposicoes__. Em seguida liste as colunas desse dataframe.

Em uma célula diferente, execute a função `head()`. Tal função permitirá que você veja uma amostra dos dados desse dataframe. Dê uma olhada nas informações de cada coluna e então vá para o próximo exercício.

In [24]:
# Coloque seu codigo aqui

## 2. Formatando Colunas
#### Médio

Sabemos que um dos pontos fundamentais para que seja possível efetuar uma boa análise é o tratamento dos dados, desta forma, iremos padronizar as colunas em nosso dataset. Vemos que ele segue uma mistura nos parões CamelCase e snake_case, sendo assim, iremos torná-lo apenas snake_case.

Desta forma deve ser realizado:

1. Conversão de todas as colunas que se encontram no estilo camelCase para snake_case.

2. Remover das colunas o nome `ultimo_status_`.

In [25]:
# Coloque seu codigo aqui

## 3. Removendo colunas desnecessárias
#### Fácil

Esse dataset possui muitas colunas, muitas mesmo, e boa parte delas não será útil para a nossa análise. Remova as seguintes colunas do dataframe:

`'id_tipo',
 'id_orgao',
 'sigla_orgao',
 'uri_orgao',
 'descricao_tramitacao',
 'id_tipo_tramitacao',
 'id_situacao',
 'data_apresentacao',
 'uri_prop_posterior',
 'url_inteiro_teor',
 'urn_final',
 'sequencia',
 'uri_relator',
 'uri_prop_principal',
 'uri_prop_anterior',
 'uri_orgao_numerador',
 'uri'`
 
Dica: Você pode usar a função [`drop()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html) no Dataframe, passando essas colunas como parametro. 

Em seguida use a função `head()` novamente e veja como ficou o dataframe.

In [26]:
## Coloque seu código aqui

## Métricas de Análise

Agora que já efetuamos a padronização de colunas, onde possuimos apenas as informações necessárias para nossa análise, iremos partir para as estratégias, ou métricas(se preferir).

Com elas iremos ter um alvo a atingir, seja qual deputado possui mais proposições até quantas proposições estão com situação "prontas para pauta".

Sendo assim, hora de partir para a coleta...

## 4. Métricas Quantitativas
#### Médio

Atualmente carregamos o csv contendo todas as proposições entre 2015 à 2018, desta forma faremos a seguinte análise:

1. Identificar todas as proposições do tipo PL e adicionar a variável `pl_proposicoes`
2. Após efetuada a separação das proposições do tipo PL, deveremos efetuar uma contagem de quantas PL foram realizadas em seus respectivos anos, com isso, deveremos adicionar o resultado a um dicionário `dict_pl_propocicoes_anos` onde o ano será a chave e a quantidade o valor

In [6]:
# Coloque seu codigo aqui

## 5. Descobrindo os autores pt.1
#### Fácil

Agora que temos o dataframe com os projetos de lei, vamos descobrir quais foram os autores desses projetos. Para isso vamos:

1. Ler o arquivo `autores.csv` com `sep=;` e atribuir a variável __df_autores__

Na nossa análise, desejamos analisar apenas os deputados. Sendo assim, realize essa extração da seguinte forma:

2. Selecione apenas as linhas onde o `cod_tipo_autor` é igual a 10000 (código para deputados)

Perceba que após realizar essa filtragem, as colunas ***cod_tipo_autor*** e ***tipo_autor*** tornaram-se desnecessária, pois só existe um único valor nelas.

3. Remova as colunas `cod_tipo_autor` e `tipo_autor`

In [27]:
## Digite seu código aqui

## 6. Descobrindo os autores pt.2
#### IZI

O dataframe de autores não possui muitos detalhes sobre os deputados, então precisaremos encontrar essas informações em outro lugar.

1. Leia o arquivo `deputados.csv` com `sep=;` e atribua a variável __df_deputados__
2. Selecione apenas as colunas `'uri', 'nome_civil', 'sigla_sexo', 'data_nascimento', 'uf_nascimento'`

In [28]:
## Digite seu código aqui

**Continuando**: Agora que você fez isso, execute a célula seguinte onde fizemos a junção dos dataframes de autores e deputados usando a função `merge()`.

Para realizar um _merge_ é necessário que exista uma coluna em ambos os dataframes que possam "se relacionar". A partir disso, especifique quais são as colunas com os seguintes atributos:
1. `left_on` para a coluna do primeiro dataframe
2. `right_on` para a coluna do segundo dataframe
3. Para especificar o formato de junção: `how`. As opções são `outer`, onde todas linhas são combinadas sem que haja um "match". `inner` para "matches" perfeitos, `left` para manter todas as chaves do primeiro dataframe e atribuir Null quando não existe dado. Por fim `right` para manter todas as chaves do segundo dataframe, atribuindo null para os valores inexistentes no primeiro dataframe.

In [11]:
df_autor_deputado = pd.merge(df_autores, df_deputados, left_on='uri_autor', right_on='uri', how='left')
df_autor_deputado = df_autor_deputado.drop(['uri_autor', 'uri'], axis=1)
df_autor_deputado

Unnamed: 0,id_proposicao,uri_proposicao,id_autor,cod_tipo_autor,tipo_autor,nome_autor,sigla_partido_autor,uri_partido_autor,sigla_uf_autor,nome_civil,sigla_sexo,data_nascimento,uf_nascimento
0,2110932,https://dadosabertos.camara.leg.br/api/v2/prop...,73788.0,10000,Deputado,Ricardo Barros,,,,RICARDO JOSÉ MAGALHÃES BARROS,M,1959-11-15,PR
1,2081753,https://dadosabertos.camara.leg.br/api/v2/prop...,178875.0,10000,Deputado,Alexandre Baldy,PTN,https://dadosabertos.camara.leg.br/api/v2/part...,GO,ALEXANDRE BALDY DE SANT'ANNA BRAGA,M,1980-07-21,GO
2,2076239,https://dadosabertos.camara.leg.br/api/v2/prop...,178933.0,10000,Deputado,Sergio Souza,PMDB,https://dadosabertos.camara.leg.br/api/v2/part...,PR,SERGIO DE SOUZA,M,1971-03-13,PR
3,2076210,https://dadosabertos.camara.leg.br/api/v2/prop...,178976.0,10000,Deputado,Bruno Covas,PSDB,https://dadosabertos.camara.leg.br/api/v2/part...,SP,BRUNO COVAS LOPES,M,1980-04-07,SP
4,2076209,https://dadosabertos.camara.leg.br/api/v2/prop...,178976.0,10000,Deputado,Bruno Covas,PSDB,https://dadosabertos.camara.leg.br/api/v2/part...,SP,BRUNO COVAS LOPES,M,1980-04-07,SP
5,2076208,https://dadosabertos.camara.leg.br/api/v2/prop...,178976.0,10000,Deputado,Bruno Covas,PSDB,https://dadosabertos.camara.leg.br/api/v2/part...,SP,BRUNO COVAS LOPES,M,1980-04-07,SP
6,2076207,https://dadosabertos.camara.leg.br/api/v2/prop...,152605.0,10000,Deputado,Glauber Braga,PSOL,https://dadosabertos.camara.leg.br/api/v2/part...,RJ,GLAUBER DE MEDEIROS BRAGA,M,1982-06-26,RJ
7,2076207,https://dadosabertos.camara.leg.br/api/v2/prop...,74585.0,10000,Deputado,Lincoln Portela,PRB,https://dadosabertos.camara.leg.br/api/v2/part...,MG,LINCOLN DINIZ PORTELA,M,1953-11-03,MG
8,2076206,https://dadosabertos.camara.leg.br/api/v2/prop...,178932.0,10000,Deputado,Marcelo Belinati,PP,https://dadosabertos.camara.leg.br/api/v2/part...,PR,MARCELO BELINATI MARTINS,M,1971-07-22,PR
9,2076205,https://dadosabertos.camara.leg.br/api/v2/prop...,178932.0,10000,Deputado,Marcelo Belinati,PP,https://dadosabertos.camara.leg.br/api/v2/part...,PR,MARCELO BELINATI MARTINS,M,1971-07-22,PR


## 7. Encontrando deputados mais participativos

Utilize o `df_autor_deputado` para a seguinte questão.

Liste os 5 deputados do sexo feminino que contém o maior número de proposições.

**Desafio**: Fazer essa questão utilizando uma única linha.

In [14]:
## Digite seu código aqui.

## 8. Listando propostas de um deputado

Chegou a hora do desafio final. Para resolver essa questão, é preciso que você tenha entendido bem como realizar união de dataframes.

Una os dataframes de `df_proposicoes`  na coluna `id` e `df_autor_deputado` na coluna `id_proposicao`. O formato de união deve ser `how=inner`.

Após realizar a união dos datasets, liste todas as proposições que tem como ***nome_autor*** o deputado **Tiririca**

In [30]:
## Digite seu código aqui.

## Bônus 

Verifique os deputados do nosso estado.

User `value_counts()` para verificar quantas vezes cada um deles aparece.

In [29]:
## Digite seu código aqui