## Setup

In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

In [2]:
deputados = pd.read_csv('../dados/parlamentares_camara.csv')

In [3]:
deputados.head()

Unnamed: 0,cpf,data_falecimento,data_nascimento,escolaridade,id,municipio_nascimento,nome_civil,rede_social,rede_social1,rede_social10,...,ultimo_status_nome,ultimo_status_nome_eleitoral,ultimo_status_sigla_partido,ultimo_status_sigla_uf,ultimo_status_situacao,ultimo_status_uri,ultimo_status_uri_partido,ultimo_status_url_foto,uri,url_website
0,4815701000.0,,1935-02-19,,1500,Glória,MÁRIO SOARES LIMA,,,,...,MÁRIO LIMA,MÁRIO LIMA,PMDB,BA,,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/part...,https://www.camara.leg.br/internet/deputado/ba...,https://dadosabertos.camara.leg.br/api/v2/depu...,
1,,,1939-08-12,,1501,Curitiba,Maurício Roslindo Fruet,,,,...,MAURÍCIO FRUET,MAURÍCIO FRUET,PMDB,PR,,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/part...,https://www.camara.leg.br/internet/deputado/ba...,https://dadosabertos.camara.leg.br/api/v2/depu...,
2,,,1933-10-22,,1502,,Oswaldo Barreto de Almeida,,,,...,OSWALDO ALMEIDA,OSWALDO ALMEIDA,PL*,RJ,,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/part...,https://www.camara.leg.br/internet/deputado/ba...,https://dadosabertos.camara.leg.br/api/v2/depu...,
3,11606130.0,,1921-04-26,,1503,,Oswaldo Cavalcanti da Costa Lima Filho,,,,...,OSWALDO LIMA FILHO,OSWALDO LIMA FILHO,PMDB,PE,,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/part...,https://www.camara.leg.br/internet/deputado/ba...,https://dadosabertos.camara.leg.br/api/v2/depu...,
4,,,1922-12-31,,1504,Torrinha,Antonio Tito Costa,,,,...,TITO COSTA,TITO COSTA,PMDB,SP,,https://dadosabertos.camara.leg.br/api/v2/depu...,https://dadosabertos.camara.leg.br/api/v2/part...,https://www.camara.leg.br/internet/deputado/ba...,https://dadosabertos.camara.leg.br/api/v2/depu...,


In [4]:
deputados.dtypes

cpf                                 float64
data_falecimento                     object
data_nascimento                      object
escolaridade                        float64
id                                    int64
municipio_nascimento                 object
nome_civil                           object
rede_social                          object
rede_social1                         object
rede_social10                        object
rede_social2                         object
rede_social3                         object
rede_social4                         object
rede_social5                         object
rede_social6                         object
rede_social7                         object
rede_social8                         object
rede_social9                         object
sexo                                 object
uf_nascimento                        object
ultimo_status_condicao_eleitoral     object
ultimo_status_data                  float64
ultimo_status_descricao_status  

In [5]:
deputados = deputados.query('ultimo_status_id_legislatura == 56')

## Uniformização/Simplificação do dado

### Datas

#### Converter de String para datetime

In [6]:
deputados.loc[:,'data_nascimento_dt'] = pd.to_datetime(deputados['data_nascimento'], infer_datetime_format=True)

In [7]:
deputados['data_nascimento_dt'].head()

101   1959-09-07
104   1977-06-01
106   1966-04-23
111   1972-06-19
113   1957-07-09
Name: data_nascimento_dt, dtype: datetime64[ns]

In [8]:
deputados.loc[:,'data_nascimento_dt2'] = pd.to_datetime(deputados['data_nascimento'], format='%Y-%m-%d')

In [9]:
deputados['data_nascimento_dt2']

101    1959-09-07
104    1977-06-01
106    1966-04-23
111    1972-06-19
113    1957-07-09
          ...    
4214   1965-07-26
4215   1964-12-28
4216   1969-01-14
4217   1972-11-05
4218   1957-08-23
Name: data_nascimento_dt2, Length: 536, dtype: datetime64[ns]

In [10]:
deputados.dtypes

cpf                                        float64
data_falecimento                            object
data_nascimento                             object
escolaridade                               float64
id                                           int64
municipio_nascimento                        object
nome_civil                                  object
rede_social                                 object
rede_social1                                object
rede_social10                               object
rede_social2                                object
rede_social3                                object
rede_social4                                object
rede_social5                                object
rede_social6                                object
rede_social7                                object
rede_social8                                object
rede_social9                                object
sexo                                        object
uf_nascimento                  

### Dados Categóricos

#### Ordinais

In [11]:
notas_df = pd.DataFrame(data={'aluno':['João','Maria','José','Thiago'],
                           'nota_eua':['A-','B-','A+','B+']})

In [12]:
notas_df.head()

Unnamed: 0,aluno,nota_eua
0,João,A-
1,Maria,B-
2,José,A+
3,Thiago,B+


In [13]:
notas_eua_br = {
    'A+': 10.0,
    'A' : 9.5,
    'A-': 9.0,
    'B+': 8.5,
    'B' : 8.0,
    'B-' : 7.5
}
notas_df.loc[:,'nota_br'] = notas_df['nota_eua'].apply(lambda x: notas_eua_br[x])

In [14]:
notas_df

Unnamed: 0,aluno,nota_eua,nota_br
0,João,A-,9.0
1,Maria,B-,7.5
2,José,A+,10.0
3,Thiago,B+,8.5


#### Binários

In [15]:
deputados.loc[:,'sexo_num'] = deputados['sexo'].apply(lambda x: int(x == 'M'))

In [16]:
deputados['sexo_num']

101     0
104     1
106     0
111     1
113     1
       ..
4214    1
4215    1
4216    0
4217    1
4218    1
Name: sexo_num, Length: 536, dtype: int64

#### Nominal (One-hot encoding)

In [17]:
deputados = pd.concat([deputados, pd.get_dummies(deputados['ultimo_status_sigla_uf'], prefix='uf', dummy_na=True)],axis=1)
#deputados.drop(['ultimo_status_sigla_uf'],axis=1, inplace=True)

In [18]:
deputados.columns

Index(['cpf', 'data_falecimento', 'data_nascimento', 'escolaridade', 'id',
       'municipio_nascimento', 'nome_civil', 'rede_social', 'rede_social1',
       'rede_social10', 'rede_social2', 'rede_social3', 'rede_social4',
       'rede_social5', 'rede_social6', 'rede_social7', 'rede_social8',
       'rede_social9', 'sexo', 'uf_nascimento',
       'ultimo_status_condicao_eleitoral', 'ultimo_status_data',
       'ultimo_status_descricao_status', 'ultimo_status_gabinete_andar',
       'ultimo_status_gabinete_email', 'ultimo_status_gabinete_nome',
       'ultimo_status_gabinete_predio', 'ultimo_status_gabinete_sala',
       'ultimo_status_gabinete_telefone', 'ultimo_status_id',
       'ultimo_status_id_legislatura', 'ultimo_status_nome',
       'ultimo_status_nome_eleitoral', 'ultimo_status_sigla_partido',
       'ultimo_status_sigla_uf', 'ultimo_status_situacao', 'ultimo_status_uri',
       'ultimo_status_uri_partido', 'ultimo_status_url_foto', 'uri',
       'url_website', 'data_nasciment