# Análise Descritiva de Dados Públicos com Python - SACC 2018

Este notebook tem como objetivo aplicar o conhecimento adquirido no minicurso de Análise de Dados Públicos com Python, utilizando a biblioteca Pandas para a manipulação dos dados. 

## 1. O que é Pandas?

Biblioteca voltada para computação cinetífica que provê alta performace e facilidade para trabalhar com dados estruturados.
Seus principais tipos de dados são `Series` (Array indexado de uma dimensão) e `DataFrame` (Arrays indexados de duas dimensões)

In [1]:
import pandas as pd

In [2]:
exemplo_serie = {'b' : 1, 'a' : 0, 'c' : 2}
pd.Series(exemplo_serie)

a    0
b    1
c    2
dtype: int64

In [3]:
exemplo_df = {'col1': [3, 4, 5], 'col2': [3.2, 51., 7.], 'col3': ['texto', 'também', 'pode']}
pd.DataFrame(exemplo_df)

Unnamed: 0,col1,col2,col3
0,3,3.2,texto
1,4,51.0,também
2,5,7.0,pode


Links interessantes para estudar e tirar dúvidas: 
- [Cooknook](http://pandas.pydata.org/pandas-docs/stable/cookbook.html)
- [10 minutos com Pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
- [Documentação](http://pandas.pydata.org/pandas-docs/stable/index.html)

## 2. Contextualização e Descrição dos Dados
  
  Existe algum assunto mais discutido que eleição (Com exceção da suporta sextape do Doria)? A maior parte das notícias atualmente giram em torno dos presidenciáveis, mas pouco se fala sobre os nossos representantes do Congresso Nacional, os deputados federais e senadores, componentes tão importantes quanto o presidente, pois são eles que criam e votam nos projetos de lei. 
  
  ### Parte 1 - Quem e como são os candidatos eleitos na Câmara e no Senado?
  
  Um fato interessante sobre os congressitas dessas eleições é que a taxa de renovação do Senado atingiu 85%, a maior renovação de sua história ([Fonte](https://www12.senado.leg.br/noticias/materias/2018/10/08/eleicoes-senado-tem-a-maior-renovacao-da-sua-historia)). O que nos leva a questionar se essa renovação de fato aconteceu ou seja, se os candidatos são mais diversos ou se possuem as mesmas caracteristicas dos senadores anteriores por exemplo.  Podemos extender essas e outras perguntas possíveis paraa a Câmara do Deputados, como a taxa de renovação e se divesidadade aumentou ou diminuiu. 
 
   Para reponder  a estas questões, utilizaremos os dados provenientes do [TSE](http://tse.jus.br/eleicoes/estatisticas/repositorio-de-dados-eleitorais-1/repositorio-de-dados-eleitorais), que já foram bem tratados e estão bonitinhos [aqui](https://raw.githubusercontent.com/pyladiespb-org/minicurso-analise-descritiva-dados-abertos/master/data/congressistas-eleitos/eleicoes_2014_e_2018.csv). É importante se familiarizar com os dados que estão nesse dataset. São eles:
   * ano: O ano da eleição. Nestes dados pode ser 2014 ou 2018;
   * sq_candidato: ID do candidato;
   * nome_candidato: Nome do candidato;
   * descricao_cargo: O cargo podem ser Senador ou Deputado Federal;
   * sigla_partido: A sigla do partido do candidato;
   * desc_sit_cand_tot: A situação final do candidato;
   * sigla_uf: Estado do candidato;
   * total_votos: Quantidade total de votos que o candidato teve;
   * sexo: Sexo do candidato;
   * estado_civil: Estado civil do candidato;
   * grau_instrucao: Escolaridade do candidato;
   * descricao_ocupacao: A ocupação do candidato;
   * cor_raca: Cor do candidato;
   * data_nascimento: Data de nascimento do candidato;
   * descricao_nacionalidade: A nascionalidade do candidato.
  
### Parte 2 - Tá, mas e o quanto eles nos representam?
  
  Depois de conhecer o perfil destes congressistas, a pergunta que não quer calar é: o quanto esses candidatos são representativos para os brasileiros? Afinal de contas, representatividade importa sim! Para responder a esta pergunta, utilizaremos os dados do levantamento do IBGE de 2010 pego da [Sidra](https://sidra.ibge.gov.br/tabela/3175). Eles estão distribuídos da seguinte forma:
 * Unidade da Federação: Estado da população;
 * Sexo: Sexo da população;
 * Idade: Faixa Etária da população;
 * Ano: Ano do levantamento;
 * Cor ou raça: Cor ou raça da população;
 * Situação do domicílio: Se reside na Zona Rural ou Urbana.
  
 ## 3. Tô prontx, bora começar!
 
 Agora você irá praticar algumas manipulações nos dados, como filtragem, agrupamento, sumarização, etc. Começaremos pela filtragem por ser a manipulação mais simples. Mas antes disso, importamos as bibliotecas e os dados necessários para a análise:
 
 ### Observando os dados com Pandas

In [4]:
import io
import requests

url_dados_congresso = "https://raw.githubusercontent.com/hadrizia/minicurso-analise-descritiva-dados-abertos/master/data/congressistas-eleitos/eleicoes_2014_e_2018.csv"
s = requests.get(url_dados_congresso).content
dados_congresso = pd.read_csv(io.StringIO(s.decode('utf-8')), delimiter=',')

url_dados_ibge = 'https://raw.githubusercontent.com/pyladiespb-org/minicurso-analise-descritiva-dados-abertos/master/data/populacao/populacao_idade_agregada.csv'
dados_url = requests.get(url_dados_ibge).content
dados_ibge = pd.read_csv(io.StringIO(dados_url.decode('utf-8')), delimiter=';', header=2)


#### Dados do Congresso

In [5]:
dados_congresso.head()

Unnamed: 0,ano,sq_candidato,nome_candidato,descricao_cargo,sigla_partido,desc_sit_cand_tot,sigla_uf,total_votos,sexo,estado_civil,grau_instrucao,descricao_ocupacao,cor_raca,data_nascimento,descricao_nacionalidade
0,2014,10000000001,GLADSON DE LIMA CAMELI,SENADOR,PP,ELEITO,AC,218756,MASCULINO,CASADO(A),SUPERIOR COMPLETO,DEPUTADO,PARDA,26/03/1978,BRASILEIRA NATA
1,2014,10000000158,CARLOS CESAR CORREIA DE MESSIAS,DEPUTADO FEDERAL,PSB,ELEITO POR QP,AC,26448,MASCULINO,CASADO(A),ENSINO FUNDAMENTAL INCOMPLETO,OUTROS,PARDA,05/07/1958,BRASILEIRA NATA
2,2014,10000000163,LEONARDO CUNHA DE BRITO,DEPUTADO FEDERAL,PT,ELEITO POR QP,AC,20876,MASCULINO,CASADO(A),SUPERIOR COMPLETO,ADVOGADO,BRANCA,13/04/1979,BRASILEIRA NATA
3,2014,10000000166,RAIMUNDO ANGELIM VASCONCELOS,DEPUTADO FEDERAL,PT,ELEITO POR QP,AC,39844,MASCULINO,CASADO(A),SUPERIOR COMPLETO,PROFESSOR DE ENSINO SUPERIOR,BRANCA,19/02/1955,BRASILEIRA NATA
4,2014,10000000171,SEBASTIÃO SIBÁ MACHADO OLIVEIRA,DEPUTADO FEDERAL,PT,ELEITO POR QP,AC,18395,MASCULINO,CASADO(A),SUPERIOR COMPLETO,DEPUTADO,PARDA,24/01/1958,BRASILEIRA NATA


#### Dados da População

In [6]:
dados_ibge.head()

Unnamed: 0,Unidade da Federação,Sexo,Idade,Ano,Cor ou raça,Situação do domicílio,Unnamed: 6
0,Rondônia,Homens,0 a 4 anos,2010.0,Branca,Urbana,18720
1,Rondônia,Homens,0 a 4 anos,2010.0,Branca,Rural,6024
2,Rondônia,Homens,0 a 4 anos,2010.0,Preta,Urbana,1755
3,Rondônia,Homens,0 a 4 anos,2010.0,Preta,Rural,580
4,Rondônia,Homens,0 a 4 anos,2010.0,Amarela,Urbana,643


### 3.1. Filtrando os dados
#### 3.1.1. Cadê os pardos e negros?
 Você deverá filtrar os dados do Congresso para exibir somente os candidatos com cor_racao igual a parda ou preta, independente do cargo e do ano da eleição. Terminou? Agora faz o mesmo para os dados do IBGE.


In [0]:
# Sua Resposta

#### 3.1.2. E as mulheres?
 Você deverá filtrar os dados do IBGE para exibir somentes as mulheres. Depois disso, fazer o mesmo com os dados do Congresso, independente do cargo e do ano da eleição. Terminou? Então filtra as mulheres de raça parda ou preta, dos dois datasets.


In [0]:
# Sua Resposta

### 3.2. Agrupando e Sumarizando os Dados
#### 3.2.1. Distribuição de homens e mulheres por grau de escolaridade no Congresso
Você deverá agrupar os dados do Congresso e contar o número de homens e de mulheres e o grau de escolaridade e ordene o resultado em ordem decrescente de quantidade. Depois disso, faça o mesmo extendendo o grupo para cor_raca e ano também. O que você notou?

In [0]:
# Sua resposta

## **Gabarito**

Questão 3.1.1.

In [7]:
congresso_pardos_negros = dados_congresso.loc[(dados_congresso['cor_raca'] == 'PRETA') | (dados_congresso['cor_raca'] == 'PARDA')]

In [8]:
ibge_pardos_negros = dados_ibge.loc[(dados_ibge['Cor ou raça'] == 'Parda') | (dados_ibge['Cor ou raça'] == 'Preta')]

Questão 3.1.2.

In [10]:
ibge_pardos_negros_mulheres = ibge_pardos_negros.loc[ibge_pardos_negros['Sexo'] == 'Mulheres']

In [11]:
congresso_pardos_negros_feminino = congresso_pardos_negros.loc[congresso_pardos_negros['sexo'] == 'FEMININO']

Questão 3.2.1.

In [14]:
distribuicao_sexo_instrucao = dados_congresso.groupby(['sexo', 'grau_instrucao']).size().reset_index(name = 'quantidade').sort_values('quantidade', ascending = False)

In [15]:
distribuicao_sexo_instrucao_cor_raca = dados_congresso.groupby(['sexo', 'grau_instrucao', 'cor_raca', 'ano']).size().reset_index(name = 'quantidade').sort_values('quantidade', ascending = False)