[View in Colaboratory](https://colab.research.google.com/github/henriquedavid/analiseCamaraDeputados/blob/master/Analise_dos_Dados_Abertos_da_C%C3%A2mara_de_Deputados.ipynb)

Antes de continuar com o notebook execute a célula

In [0]:
!wget https://github.com/Danhfg/Analise-dos-Dados-Abertos-da-C-mara-de-Deputados/raw/master/questions.py 
!python3 questions.py
from questions import *

# 1. Introdução - EASY

O ano de 2014 foi bastante importante para os brasileiros, pois foi ano  de eleições para os principais cargos da democracia, para presidente, deputados, senadores e governadores. Nas eleições no ano em questão, não havia a obrigatoriedade na prestação de contas de um candidato, regra que mudou em 2018, tornando-se obrigatório.

Neste breve projeto, nós iremos analisar os dados da Câmara de Deputados Federais, as proposições de cada deputado durante o período de 4 anos (2015 - 2017), ou seja, os dados são atualizados até o fim do ano de 2018. Esses dados podem ser acessados pelo seguinte link: [Câmara dos Deputados Federais](https://dadosabertos.camara.leg.br/swagger/api.html#staticfile) 

No final deste notebook, você pode ter uma opção para o seu próximo voto em algum deputado, analisando qual foi aquele que realizou mais proposições durante o período.

Caso esteja com dificuldades em solucionar alguma questão, nós criamos dois métodos para lhe ajudar, são estes o método **questão.hint()** e **questão.solution()** .  Descomente as seguintes células para experimentar:

In [0]:
#q1.hint()

In [0]:
#q1.solution()

# 2. Leitura dos Dados - EASY

<!-- O database que iremos utilizar será o fornecido pelo [Eliezer Bourchardt](https://www.kaggle.com/eliezerfb/candidatos-deputado-federal-e-estadual-2014). O qual realiza uma junção de todos os dados dos deputados que concorreram a Deputado Federal e Estadual. O arquivo está disponível em formato [CSV](https://www.kaggle.com/eliezerfb/candidatos-deputado-federal-e-estadual-2014#candidatos_deputados_2014_final.csv). 

Para utilizar os dados é necessário que instalemos a API do Kaggle, o qual basta executar o código abaixo:

```!pip install kaggle```

(basta copiar e colar na célula abaixo)-->

Para realizar a leitura dos dados, devemos ir atrás de cada database, distribuídos por ano, já que a câmara não disponibiliza um database único com todo o período. Para facilitar o trabalho, o link de todos os dados que iremos trabalhar neste projeto está logo abaixo. Caso prefira, você pode baixar e realizar a leitura pelo arquivo salvo no seu computador.

### Proposições:
         * 2017: https://dadosabertos.camara.leg.br/arquivos/proposicoesAutores/csv/proposicoesAutores-2017.csv
         * 2016: https://dadosabertos.camara.leg.br/arquivos/proposicoesAutores/csv/proposicoesAutores-2016.csv
         * 2015: https://dadosabertos.camara.leg.br/arquivos/proposicoesAutores/csv/proposicoesAutores-2015.csv
         
O seu dever nesta seção é realizar a leitura dos dados dos links fornecidos acima. Um exemplo de resolução esperada de cada seção foi colocado no método questão.solution() de cada questão. 

A leitura de um arquivo utilizando o pandas pode ser feita da seguinte maneira: 



```import pandas as pd```

```dado = pd.read_csv("nome_arquivo.csv", sep=';', index_col='nome_coluna')```


Dessa forma, estamos realizando a leitura utilizando o módulo pandas.  Já o nome do arquivo desejado é um arquivo na máquina (nome_arquivo.csv), com a separação configurada para ponto e vírgula (;) e desejamos como index a coluna chamada nome_coluna. E o arquivo será atribuído a uma variável chamada dado. Caso você, em vez de ter um arquivo no seu computador, tenha uma URL, então basta trocar "nome_arquivo.csv" para a url desejada.

Com o arquivo já lido, podemos visualizar a tabela com o comando:

``dado.head()``

Note que quando executamos apenas dado.head(), mostraremos apenas as 5 primeiras linhas do arquivo, então caso seja necessária a visualização de mais linhas basta colocar a quantidade de linhas desejadas dentro dos parênteses.

#### Exercício:

-  Importe o módulo pandas e utilize o alias como pd.
-  Leia cada ano utilizando o link de cada proposição (ou seja, serão 4 tabelas), então defina as tabelas lidas como **df_2017**, **df_2016** e **df_2015**. Para facilitar o trabalho defina como index a coluna **idProposicao** e meio de separação **;**.
-  Imprima 4 linhas de cada tabela lida



Caso não consiga resolver este exercício, descomente q2.solution() na célula à baixo.

In [0]:
# Importando os módulos
import pandas as pd

# Leia os databases por ano
df_2017 = pd.read_csv('https://dadosabertos.camara.leg.br/arquivos/proposicoesAutores/csv/proposicoesAutores-2017.csv', sep=';', index_col='idProposicao')

# Imprima as 4 primeiras linhas de cada tabela
print(df_2017.head(4))


In [0]:
#q2.hint()
#q2.solution()

Agora se atenha bastante aos nomes atribuídos às colunas de cada tabela. Não só neste, mas em qualquer exercício envolvendo pandas, saber interpretar exatamente a informação que cada coluna dá é essencial. Uma operação errada numa coluna pode retornar resultados inesperados.   
Então, verifique com atenção as colunas das tabelas, pois elas serão importantes para analisarmos como podemos realizar um estudo sobre nossos dados a partir daqui.

Nas tabelas, temos 10 colunas:
- **idProposicao**:  identificador da proposição.
- **uriProposicao**: link para a proposição.
- **idAutor**: identificador do autor da proposição.
- **uriAutor**: link para o perfil do autor da proposição.
- **codTipoAutor**: código de identificação do tipo do autor da proposição.
- **tipoAutor**: tipo de autor.
- **nomeAutor**: autor da proposição.
- **siglaPartidoAutor**: sigla partidária do autor.
- **uriPartidoAutor**: link para o partido do autor.
- **siglaUFAutor**: qual estado o autor representa.

## 3. Analisando as tabelas - EASY

Analisar bem uma tabela antes de começar a trabalhar nela  é notavelmente importante. Saber quantas linhas e colunas existem,  além do tipo que cada uma delas armazena é imprescindivel, pois só assim podemos realizar operações com as colunas de forma correta, sem que haja erros, como já foi abordado anteriormente.

Verifiquemos qual o tamanho de cada tabela dada com relação ao número de linhas e colunas (linhas x colunas).

#### Exercício:
- Verifique quantas linhas e colunas há em cada tabela.
- Imprima o tipo de cada coluna da tabela **df_2016**

In [0]:
# Imprima a quantidade de linhas e colunas de cada dataset


# Imprima como está organizado os tipos das colunas do dataset df_2016



In [0]:
#q3.hint()
#q3.solution()

## 4. Juntando todas as tabelas em apenas uma - MEDIUM

Trabalhar com 4 (ou mais) tabelas dá bastante trabalho, principalmente porque, às vezes, precisamos verificar vários dados contidos em ambas  as tabelas e devemos realizar operações de soma e subtração externas, ou seja, utilizando calculadoras ou mais variáveis. Assim, a possibilidade de juntar várias tabelas em apenas uma seria algo muito útil se possível em análise de dados, pois pouparia trabalho e tempo que poderiam ser empregados em outra atividade. Mas sim, essa possibilidade realmente existe e é essencial para quem trabalha com dados de grande escala. 

#### Exercício:

- Junte todas as tabelas em apenas uma chamada **df** (adicione 2015 à 2016 e posteriormente 2017 à 2015, 2016).

In [0]:
# Faça com que todas as tabelas sejam parte apenas da tabela df


In [0]:
#q4.hint()
#q4.solution()

## 5. Filtrando os dados - MEDIUM

Quando trabalhamos numa tabela, realizamos varios tipos de operações, mas todas as vezes que precisamos obter uma informação específica da tabela, precisamos filtrar nossa tabela de forma que possamos obter aquele dado, seja extraindo dados de uma linha, utilizando uma função ou método numa coluna, etc . 
Portanto, agora que temos apenas uma tabela com todos os dados que iremos trabalhar, siga para o exercício.

#### Exercício: 

- Filtre os dados para uma variável **df_rn** de maneira que mostre apenas os deputados do Rio Grande do Norte (RN).

In [0]:
# Defina a variável df_rn para mostrar apenas os deputados do RN.


In [0]:
#q5.hint()
#q5.solution()

## 6. Calcular a quantidade de propostas por deputados - HARD

Agora, na tabela df_rn, temos as informações acerca dos deputados do Rio Grande do Norte, porém você pode mudar o filtro para outro estado à sua escolha. Mas agora, nós queremos obter uma informação ainda mais específica no próximo exercício, no qual um método do pandas se destacaria na obtenção desse resultado. A utilização desse método simplificaria de forma significativa o seu trabalho. Siga para o exercício:

#### Exercício:

- Mostre a quantidade de proposições que cada deputado do RN apresentou, insira o resultado na variável **prop_number**.

In [0]:
# insira em prop_number a quantidade de proposições total de cada candidato


In [0]:
#q6.hint()
#q6.solution()

## 7. Representação na câmara - VERY HARD

Trabalhar com porcentagem (estatística no geral) é algo que faz parte do cotidiano profissional de quem trabalha com análise de dados. Então, saber comparar dados específicos de um problema com  a totalidade dos dados necessários para resolver aquele problema é uma tarefa muito importante, pois um erro pode implicar na obtenção de um dado estatístico incorreto. Então tenha bastante atenção no próximo exercício.

#### Exercício:

- Pela quantidade de propostas que os deputados do RN realizaram, verifique qual a porcentagem do deputado com o maior número de propostas do estado considerando a quantidade total de propostas (de todos os deputados do Brasil) e adicione a variável **porcen_rn** e imprima o resultado. Assim como a representação (em porcentagem) do deputado com o maior número de proposta do Brasil, também considerando a quantidade total de propostas. Esse último resultado adicione à variável **porcen_br**.

In [0]:
# insira seu código abaixo


In [0]:
#q7.hint()
#q7.solution()

## 8. Estudando os dados - MEDIUM

#### Exercício:

- Analise qual a média de proposições por deputado (atribua o resultado para a variável **media_prop**), além disso responda: algum deputado do seu estado está acima da média?

In [0]:
# insira seu código abaixo


In [0]:
#q8.hint()
#q8.solution()

## 9. Analisando a fundo os autores - HARD

#### Exercício:

 - No nosso banco de dados temos vários tipos de autores de proposições, analisando os dados calculados acima, quem realizou a maior quantidade de proposições? Deputados ou os Órgãos do Poder Executivo? 

 - Se desejável, calcule a quantidade de proposições de cada um dos tipos de autores.

In [0]:
# insira seu código abaixo


In [0]:
#q9.hint()
#q9.solution()

## 10. Estudando os partidos - MEDIUM

#### Exercício:

- Calcule quais são os 10 partidos com a maior quantidade de deputados na câmara dos deputados, salve o resultado em **max_partidos** e imprima o resultado.

In [0]:
# insira seu código abaixo


In [0]:
#q10.hint()
#q10.solution()