# Bootcamp DataScience iHub

## Gasto de deputados por gênero

### Etapas: 
    1. Abrir os datasets do [link]: http://dontpad.com/thaisviana/datascience
    2. Calcular o gasto por cada deputado em 2018
    3. Descobrir quem são os deputados em 2018 no nosso dataset
    4. Filtrar o dataset de informações de deputados pelos deputados na lista do item 3
    5. Criar um dataset novo com as colunas NOME, GENERO, GASTO
    6. Calcular qual genero gasta mais em média por número de agentes públicos

In [1]:
import pandas as pd
from pandas.api.types import is_string_dtype
import numpy as np

In [2]:
df_2018 = pd.read_csv('data/Ano-2018.csv', sep=';', parse_dates=['datEmissao'])

In [3]:
df_infos = pd.read_csv('data/deputados.csv', sep=';', parse_dates=['dataNascimento'])

## Gasto por cada deputado em 2018

In [4]:
df_2018 = df_2018[pd.isna(df_2018['sgPartido']) == False]
gasto = df_2018.groupby(['txNomeParlamentar', 'sgPartido'])['vlrDocumento'].sum()

In [5]:
gasto

txNomeParlamentar     sgPartido    
ABEL MESQUITA JR.     DEM              531047.71
ADAIL CARNEIRO        PODE             546244.27
ADALBERTO CAVALCANTI  AVANTE           497902.97
ADELMO CARNEIRO LEÃO  PT               378203.93
ADELSON BARRETO       PR               333038.13
                                         ...    
ZÉ CARLOS             PT               484381.83
ZÉ GERALDO            PT               505529.11
ZÉ SILVA              SOLIDARIEDADE    384928.09
ÁTILA LINS            PP               437089.95
ÁTILA LIRA            PSB              452594.23
Name: vlrDocumento, Length: 555, dtype: float64

##  Deputados em 2018 no nosso dataset

In [6]:
lista_de_nomes = df_2018.txNomeParlamentar.unique()

In [7]:
#gasto.index

## Filtrar o dataset de info de deputados pelos deputados na lista

In [8]:
df_nome_genero = df_infos[df_infos['nome'].isin(lista_de_nomes) == True]
df_nome_genero

Unnamed: 0,uri,nome,idLegislaturaInicial,idLegislaturaFinal,nomeCivil,cpf,siglaSexo,urlRedeSocial,urlWebsite,dataNascimento,dataFalecimento,ufNascimento,municipioNascimento
221,https://dadosabertos.camara.leg.br/api/v2/depu...,MACEDO,3,3,José Vicente de Macedo,,M,,,,,,
376,https://dadosabertos.camara.leg.br/api/v2/depu...,ROCHA,5,9,Justiniano José da Rocha,,M,,,1812-11-08,1862-07-10,RJ,Rio de Janeiro
477,https://dadosabertos.camara.leg.br/api/v2/depu...,MACEDO,7,7,Marcos Antonio de Macedo,,M,,,1808-06-18,1872-12-15,PI,Jaicós
782,https://dadosabertos.camara.leg.br/api/v2/depu...,MACEDO,12,17,Joaquim Manoel de Macedo,,M,,,1820-06-24,1882-04-11,RJ,Itaboraí
968,https://dadosabertos.camara.leg.br/api/v2/depu...,ROCHA,16,16,Francisco José da Rocha,,M,,,1832-02-10,,BA,Salvador
...,...,...,...,...,...,...,...,...,...,...,...,...,...
7376,https://dadosabertos.camara.leg.br/api/v2/depu...,EURICELIA CARDOSO,55,55,EURICELIA MELO CARDOSO,,F,,,1976-04-19,,MA,Monção
7377,https://dadosabertos.camara.leg.br/api/v2/depu...,PROFESSOR PACCO,55,55,MARCOS PACCO RIBEIRO COELHO,,M,,,1974-05-12,,DF,Brasília
7597,https://dadosabertos.camara.leg.br/api/v2/depu...,FREITAS DO PT,55,55,MILNE FREITAS SOUZA,,M,,,1962-05-06,,MA,Barra do Corda
7598,https://dadosabertos.camara.leg.br/api/v2/depu...,WASHINGTON CORAÇÃO VALENTE,55,55,WASHINGTON STECANELA CERQUEIRA,,M,,,1975-04-01,,DF,Brasília


In [9]:
df_nome_genero = df_nome_genero[['nome', 'siglaSexo', 'ufNascimento', 'dataNascimento']]
df_nome_genero.drop_duplicates(subset='nome', keep='first', inplace=True)
df_genero = df_nome_genero
df_genero

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,nome,siglaSexo,ufNascimento,dataNascimento
221,MACEDO,M,,
376,ROCHA,M,RJ,1812-11-08
2823,SILVIO COSTA,M,PE,1956-12-23
2824,IZALCI LUCAS,M,MG,1956-04-07
2825,DANILO FORTE,M,CE,1958-09-01
...,...,...,...,...
7376,EURICELIA CARDOSO,F,MA,1976-04-19
7377,PROFESSOR PACCO,M,DF,1974-05-12
7597,FREITAS DO PT,M,MA,1962-05-06
7598,WASHINGTON CORAÇÃO VALENTE,M,DF,1975-04-01


## Calcula idade parlamentar

In [10]:
from datetime import datetime

diferenca_em_dias = datetime.today() - pd.to_datetime(df_nome_genero.dataNascimento)
idade = np.array((diferenca_em_dias.dt.days/365).values, dtype='int')
media = idade[idade > 0].mean()
idade[idade < 0] = int(media)
df_nome_genero['idade'] = idade

df_nome_genero

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  import sys


Unnamed: 0,nome,siglaSexo,ufNascimento,dataNascimento,idade
221,MACEDO,M,,,56
376,ROCHA,M,RJ,1812-11-08,207
2823,SILVIO COSTA,M,PE,1956-12-23,63
2824,IZALCI LUCAS,M,MG,1956-04-07,63
2825,DANILO FORTE,M,CE,1958-09-01,61
...,...,...,...,...,...
7376,EURICELIA CARDOSO,F,MA,1976-04-19,43
7377,PROFESSOR PACCO,M,DF,1974-05-12,45
7597,FREITAS DO PT,M,MA,1962-05-06,57
7598,WASHINGTON CORAÇÃO VALENTE,M,DF,1975-04-01,44


In [11]:
df_nome_genero[df_nome_genero['idade'] > 100].idade = media
df_nome_genero

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[name] = value


Unnamed: 0,nome,siglaSexo,ufNascimento,dataNascimento,idade
221,MACEDO,M,,,56
376,ROCHA,M,RJ,1812-11-08,207
2823,SILVIO COSTA,M,PE,1956-12-23,63
2824,IZALCI LUCAS,M,MG,1956-04-07,63
2825,DANILO FORTE,M,CE,1958-09-01,61
...,...,...,...,...,...
7376,EURICELIA CARDOSO,F,MA,1976-04-19,43
7377,PROFESSOR PACCO,M,DF,1974-05-12,45
7597,FREITAS DO PT,M,MA,1962-05-06,57
7598,WASHINGTON CORAÇÃO VALENTE,M,DF,1975-04-01,44


In [12]:
#df_nome_genero = df_nome_genero.sort_values(by='nome', ascending=True)
#df_nome_genero = df_nome_genero.set_index('nome')
df_nome_genero

Unnamed: 0,nome,siglaSexo,ufNascimento,dataNascimento,idade
221,MACEDO,M,,,56
376,ROCHA,M,RJ,1812-11-08,207
2823,SILVIO COSTA,M,PE,1956-12-23,63
2824,IZALCI LUCAS,M,MG,1956-04-07,63
2825,DANILO FORTE,M,CE,1958-09-01,61
...,...,...,...,...,...
7376,EURICELIA CARDOSO,F,MA,1976-04-19,43
7377,PROFESSOR PACCO,M,DF,1974-05-12,45
7597,FREITAS DO PT,M,MA,1962-05-06,57
7598,WASHINGTON CORAÇÃO VALENTE,M,DF,1975-04-01,44


In [13]:
#pd.concat([gasto, df_nome_genero], axis=1, sort=False)

## AGORA COM MERGE

In [14]:
gasto_merge = gasto
gasto_merge = gasto_merge.reset_index()
gasto_merge

Unnamed: 0,txNomeParlamentar,sgPartido,vlrDocumento
0,ABEL MESQUITA JR.,DEM,531047.71
1,ADAIL CARNEIRO,PODE,546244.27
2,ADALBERTO CAVALCANTI,AVANTE,497902.97
3,ADELMO CARNEIRO LEÃO,PT,378203.93
4,ADELSON BARRETO,PR,333038.13
...,...,...,...
550,ZÉ CARLOS,PT,484381.83
551,ZÉ GERALDO,PT,505529.11
552,ZÉ SILVA,SOLIDARIEDADE,384928.09
553,ÁTILA LINS,PP,437089.95


In [28]:
gasto_merge = gasto_merge.merge(df_genero, left_on='txNomeParlamentar', right_on='nome')
gasto_merge.columns
gasto_merge

Unnamed: 0,txNomeParlamentar,sgPartido,vlrDocumento,nome_x,siglaSexo_x,ufNascimento_x,dataNascimento_x,idade_x,nome_y,siglaSexo_y,ufNascimento_y,dataNascimento_y,idade_y,nome,siglaSexo,ufNascimento,dataNascimento,idade
0,ABEL MESQUITA JR.,DEM,531047.71,ABEL MESQUITA JR.,M,RR,1962-03-29,57,ABEL MESQUITA JR.,M,RR,1962-03-29,57,ABEL MESQUITA JR.,M,RR,1962-03-29,57
1,ADAIL CARNEIRO,PODE,546244.27,ADAIL CARNEIRO,M,CE,1963-07-11,56,ADAIL CARNEIRO,M,CE,1963-07-11,56,ADAIL CARNEIRO,M,CE,1963-07-11,56
2,ADALBERTO CAVALCANTI,AVANTE,497902.97,ADALBERTO CAVALCANTI,M,BA,1958-02-10,61,ADALBERTO CAVALCANTI,M,BA,1958-02-10,61,ADALBERTO CAVALCANTI,M,BA,1958-02-10,61
3,ADELMO CARNEIRO LEÃO,PT,378203.93,ADELMO CARNEIRO LEÃO,M,MG,1949-05-25,70,ADELMO CARNEIRO LEÃO,M,MG,1949-05-25,70,ADELMO CARNEIRO LEÃO,M,MG,1949-05-25,70
4,ADELSON BARRETO,PR,333038.13,ADELSON BARRETO,M,SE,1964-09-22,55,ADELSON BARRETO,M,SE,1964-09-22,55,ADELSON BARRETO,M,SE,1964-09-22,55
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
549,ZÉ CARLOS,PT,484381.83,ZÉ CARLOS,M,MA,1955-05-26,64,ZÉ CARLOS,M,MA,1955-05-26,64,ZÉ CARLOS,M,MA,1955-05-26,64
550,ZÉ GERALDO,PT,505529.11,ZÉ GERALDO,M,ES,1961-12-21,58,ZÉ GERALDO,M,ES,1961-12-21,58,ZÉ GERALDO,M,ES,1961-12-21,58
551,ZÉ SILVA,SOLIDARIEDADE,384928.09,ZÉ SILVA,M,MG,1963-05-11,56,ZÉ SILVA,M,MG,1963-05-11,56,ZÉ SILVA,M,MG,1963-05-11,56
552,ÁTILA LINS,PP,437089.95,ÁTILA LINS,M,AM,1950-11-22,69,ÁTILA LINS,M,AM,1950-11-22,69,ÁTILA LINS,M,AM,1950-11-22,69


In [29]:
X = gasto_merge[['siglaSexo', 'sgPartido', 'idade', 'ufNascimento']]
y = gasto_merge['vlrDocumento']

In [43]:
X

Unnamed: 0,siglaSexo,sgPartido,idade,ufNascimento
0,M,DEM,57,RR
1,M,PODE,56,CE
2,M,AVANTE,61,BA
3,M,PT,70,MG
4,M,PR,55,SE
...,...,...,...,...
549,M,PT,64,MA
550,M,PT,58,ES
551,M,SOLIDARIEDADE,56,MG
552,M,PP,69,AM


In [19]:
y

0      531047.71
1      546244.27
2      497902.97
3      378203.93
4      333038.13
         ...    
549    484381.83
550    505529.11
551    384928.09
552    437089.95
553    452594.23
Name: vlrDocumento, Length: 554, dtype: float64

In [46]:
for n,c in X.items():
    if is_string_dtype(c): X[n] = c.astype('category').cat.as_ordered()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [47]:
X['siglaSexo'].cat.categories

Index(['F', 'M'], dtype='object')

In [48]:
X.siglaSexo = X.siglaSexo.cat.rename_categories([0, 1])

In [51]:
len(X['sgPartido'].cat.categories)

25

In [52]:
X.sgPartido = X.sgPartido.cat.rename_categories(range(len(X['sgPartido'].cat.categories)))

In [55]:
X.ufNascimento = X.ufNascimento.cat.rename_categories(range(len(X['ufNascimento'].cat.categories)))

In [56]:
X

Unnamed: 0,siglaSexo,sgPartido,idade,ufNascimento
0,1,1,57,21
1,1,7,56,5
2,1,0,61,4
3,1,20,70,10
4,1,11,55,24
...,...,...,...,...
549,1,20,64,9
550,1,20,58,7
551,1,24,56,10
552,1,8,69,2
