# Insper - Computação para a Ciência dos Dados

## Dados Abertos da Câmara dos Deputados 

![https://dadosabertos.camara.leg.br/img/ilustrations/ipad-ilustration.png](https://dadosabertos.camara.leg.br/img/ilustrations/ipad-ilustration.png)
Imagem: https://dadosabertos.camara.leg.br/img/ilustrations/ipad-ilustration.png


Esta prática faz uso de *dados reais* disponibilizados no portal de dados abertos da Câmara dos Deputados, cujo endereço eletrônico é https://dadosabertos.camara.leg.br

Iremos desenvolver os seguintes conceitos com essa prática:
1. Leitura de arquivos csv com a biblioteca Pandas
2. Merge de DataFrames
3. Criação de novas colunas
4. Trabalhar com dados DateTime
5. Fazer uso da função *apply* 
6. Fazer uso da função *nlargest* 
6. Obter estatísticas descritivas básicas, integrando - inclusive - com a biblioteca MatplotLib

Três arquivos estão disponibilizados para a prática, quais sejam:

- `deputados.csv` - série histórica de todos os deputados federais do Brasil
- `eventos-2020.csv` - eventos da Câmara dos Deputados no ano de 2020
- `eventosPresencaDeputados-2020.csv` - presença de cada deputado nos eventos da Câmara em 2020.

Você tem algumas perguntas a serem respondidas fazendo uso desses conjuntos de dados:

1. Obtenha o número total de presenças de cada deputado nos eventos de 2020. Traga, além do número total de presenças, o id do deputado, nome civil, sexo, uf de nascimento, data de nascimento;
2. Faça uma análise da distribuição das idades dos 100 mais assíduos deputados federais. Gere um historgrama e um boxplot;
3. Enumere os 10 eventos com maior assiduidade do ano de 2020.

<div class="alert alert-block alert-info">
<b>Dica:</b> Dados reais são desafiadores!. Você vai perceber que em uma das bases falta o id do deputado. Ele está em outro campo, mas não será imediato o uso. Para esta situação, você pode fazer uso da função *apply* e da função *split*. Lembre-se também que para pegar o último elemento de um array em Python você pode fazer uso do indexador -1. </div>


In [1]:
import pandas as pd
import numpy as np

In [107]:
df_deputados = pd.read_csv('dataset/deputados.csv', sep=';')

In [54]:
df_deputados.columns

Index(['uri', 'nome', 'idLegislaturaInicial', 'idLegislaturaFinal',
       'nomeCivil', 'cpf', 'siglaSexo', 'urlRedeSocial', 'urlWebsite',
       'dataNascimento', 'dataFalecimento', 'ufNascimento',
       'municipioNascimento'],
      dtype='object')

In [102]:
df_eventos_2020 = pd.read_csv('dataset/eventos-2020.csv', sep=';')

In [103]:
df_eventosPresencaDeputados_2020 = pd.read_csv('dataset/eventosPresencaDeputados-2020.csv', sep=';')

In [104]:
df_eventosPresencaDeputados_2020.groupby('idDeputado').size()

idDeputado
62881      59
66179     130
66828     127
67138     128
68720     146
         ... 
213854     26
213856     36
214445     36
214477     35
214694     32
Length: 542, dtype: int64

In [88]:
df_deputados['idDeputado'] = df_deputados['uri'].apply(lambda x : int(x.split('/')[-1]))

In [89]:
df_eventosPresencaDeputados_2020.merge(df_deputados, on='idDeputado', how='left')

Unnamed: 0,idEvento,uriEvento,dataHoraInicio,idDeputado,uriDeputado,uri,nome,idLegislaturaInicial,idLegislaturaFinal,nomeCivil,cpf,siglaSexo,urlRedeSocial,urlWebsite,dataNascimento,dataFalecimento,ufNascimento,municipioNascimento
0,58552,https://dadosabertos.camara.leg.br/api/v2/even...,2020-02-18T10:36:32,69871,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/depu...,Bacelar,55,56,JOAO CARLOS BACELAR BATISTA,,M,,,1957-07-09,,BA,Esplanada
1,58552,https://dadosabertos.camara.leg.br/api/v2/even...,2020-02-18T10:36:32,73466,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/depu...,Rubens Bueno,49,56,RUBENS BUENO,,M,,,1948-05-23,,PR,Sertanópolis
2,58552,https://dadosabertos.camara.leg.br/api/v2/even...,2020-02-18T10:36:32,73696,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/depu...,Angela Amin,49,56,ANGELA REGINA HEINZEN AMIN HELOU,,F,"@DeputadaAngela, @AngelaAmin11, angelaaminof...",,1953-12-20,,SC,Indaial
3,58552,https://dadosabertos.camara.leg.br/api/v2/even...,2020-02-18T10:36:32,74057,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/depu...,Alice Portugal,52,56,ALICE MAZZUCO PORTUGAL,,F,,,1959-05-16,,BA,Salvador
4,58552,https://dadosabertos.camara.leg.br/api/v2/even...,2020-02-18T10:36:32,74200,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/depu...,Gastão Vieira,50,56,GASTÃO DIAS VIEIRA,,M,,,1946-06-15,,MA,São Luís
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
68432,60245,https://dadosabertos.camara.leg.br/api/v2/even...,2020-12-22T20:12:00,213274,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/depu...,Ricardo Silva,56,56,RICARDO AUGUSTO MACHADO DA SILVA,,M,"ricardosilva, ricardosilvarp, RicardoSilvaRP",,1985-09-01,,SP,Ribeirão Preto
68433,60245,https://dadosabertos.camara.leg.br/api/v2/even...,2020-12-22T20:12:00,213762,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/depu...,Carla Dickson,56,56,HILKEA CARLA DE SOUZA MEDEIROS LIMA,,F,,,1976-07-02,,PA,Belém
68434,60245,https://dadosabertos.camara.leg.br/api/v2/even...,2020-12-22T20:12:00,214445,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/depu...,Nilson F. Stainsack,56,56,NILSON FRANCISCO STAINSACK,,M,"qJb14pEOkPh5OyFM_cGNbw, @nilsonfranciscostain...",,1963-08-27,,SC,Presidente Getúlio
68435,60245,https://dadosabertos.camara.leg.br/api/v2/even...,2020-12-22T20:12:00,214477,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/depu...,Renato Queiroz,56,56,RENATO ANDRADE QUEIROZ,,M,,,1983-12-31,,RR,Boa Vista


Unnamed: 0,uri,nome,idLegislaturaInicial,idLegislaturaFinal,nomeCivil,cpf,siglaSexo,urlRedeSocial,urlWebsite,dataNascimento,dataFalecimento,ufNascimento,municipioNascimento
7,https://dadosabertos.camara.leg.br/api/v2/depu...,CRUZ GOUVEIA,16,19,José da Cruz Gouveia,,M,,,,,PB,Areia
14,https://dadosabertos.camara.leg.br/api/v2/depu...,ANDRADE LIMA,2,2,Luiz Ignácio de Andrade Lima,,M,,,,,,
25,https://dadosabertos.camara.leg.br/api/v2/depu...,ORNELLAS,1,2,Manoel Joaquim de Ornellas,,M,,,,1830-07-10,,
27,https://dadosabertos.camara.leg.br/api/v2/depu...,MIGUEL JOAQUIM DE CERQUEIRA E SILVA,1,1,Miguel Joaquim de Cerqueira e Silva,,M,,,,,,
33,https://dadosabertos.camara.leg.br/api/v2/depu...,MOREIRA,1,1,Francisco de Souza Moreira,,M,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6158,https://dadosabertos.camara.leg.br/api/v2/depu...,PAULO XAVIER,47,47,Paulo Carvalho Xavier,,M,,,,,PB,Patos
6189,https://dadosabertos.camara.leg.br/api/v2/depu...,RIVADÁVIA CORREIA,23,28,Rivadavia da Cunha Corrêa,,M,,,,,,
6402,https://dadosabertos.camara.leg.br/api/v2/depu...,ANTAR ALBUQUERQUE,48,48,Antar Fontoura de Albuquerque,,M,,,,,,
6484,https://dadosabertos.camara.leg.br/api/v2/depu...,GILBERTO CARVALHO,48,48,Gilberto Rezende de Carvalho,,M,,,,,MG,Ipanema


Unnamed: 0,uri,nome,idLegislaturaInicial,idLegislaturaFinal,nomeCivil,cpf,siglaSexo,urlRedeSocial,urlWebsite,dataNascimento,dataFalecimento,ufNascimento,municipioNascimento,idDeputado


In [105]:
pd.to_datetime(df_deputados.dataNascimento)

Series([], Name: dataNascimento, dtype: datetime64[ns])