# Tratamento do dataset "base_20122020.xls"

In [3]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import os
import sys
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

### Verifica o diretório atual e faz upload do dataset

In [4]:
#Verifica o diretório de execução e busca os dados
print(os.getcwd())

from google.colab import files
uploaded = files.upload()


/content


Saving base_20122020.xlsx to base_20122020.xlsx


### Leitura do dataset
#### Identificação da quantidade de linhas e colunas do dataset

In [5]:
base = pd.read_excel("base_20122020.xlsx")
base.shape

(49925, 21)

### Informações sobre os dados disponíveis no dataset

In [6]:
print("\nDados disponíveis no dataset:\n{0}\n".format(list(base.keys())))


Dados disponíveis no dataset:
['ANO_ELEICAO', 'ABRANGENCIA', 'ESTADO', 'MUNICIPIO', 'CARGO', 'PARTIDO', 'COLIGACAO', 'ESTADO_NASCIMENTO', 'MUNICIPIO_NASCIMENTO', 'DT_NASCIMENTO', 'GENERO', 'GRAU_INSTRUCAO', 'ESTADO_CIVIL', 'COR_RACA', 'OCUPACAO', 'DESPESA_MAX_CAMPANHA', 'SITUACAO_FINAL', 'REELEICAO', 'IDADE', 'FAIXA_ETARIA_IBGE', 'Unnamed: 20']



In [7]:
# verificando as informações dos tipos de dados
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49925 entries, 0 to 49924
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ANO_ELEICAO           49925 non-null  int64  
 1   ABRANGENCIA           49925 non-null  object 
 2   ESTADO                49925 non-null  object 
 3   MUNICIPIO             49925 non-null  object 
 4   CARGO                 49925 non-null  object 
 5   PARTIDO               49925 non-null  object 
 6   COLIGACAO             49925 non-null  object 
 7   ESTADO_NASCIMENTO     49925 non-null  object 
 8   MUNICIPIO_NASCIMENTO  49925 non-null  object 
 9   DT_NASCIMENTO         49913 non-null  object 
 10  GENERO                49925 non-null  object 
 11  GRAU_INSTRUCAO        49925 non-null  object 
 12  ESTADO_CIVIL          49925 non-null  object 
 13  COR_RACA              35108 non-null  object 
 14  OCUPACAO              49925 non-null  object 
 15  DESPESA_MAX_CAMPANH

In [8]:
# Apagando colunas extras que não serão utilizadas, pois DESPESA_MAX_CAMPANHA nao tem para o ano 2016; Unnamed: 20 é nulo; OCUPACAO nao será utilizado
base.drop(columns=['OCUPACAO','DESPESA_MAX_CAMPANHA', 'Unnamed: 20'],inplace=True)

In [9]:
# verificando as colunas existentes após a limpeza
print("\nDados disponíveis no dataset:\n{0}\n".format(list(base.keys())))


Dados disponíveis no dataset:
['ANO_ELEICAO', 'ABRANGENCIA', 'ESTADO', 'MUNICIPIO', 'CARGO', 'PARTIDO', 'COLIGACAO', 'ESTADO_NASCIMENTO', 'MUNICIPIO_NASCIMENTO', 'DT_NASCIMENTO', 'GENERO', 'GRAU_INSTRUCAO', 'ESTADO_CIVIL', 'COR_RACA', 'SITUACAO_FINAL', 'REELEICAO', 'IDADE', 'FAIXA_ETARIA_IBGE']



In [10]:
# Tipos dos dados
print("\nTipos dos dados:\n{0}\n".format(base.dtypes))


Tipos dos dados:
ANO_ELEICAO               int64
ABRANGENCIA              object
ESTADO                   object
MUNICIPIO                object
CARGO                    object
PARTIDO                  object
COLIGACAO                object
ESTADO_NASCIMENTO        object
MUNICIPIO_NASCIMENTO     object
DT_NASCIMENTO            object
GENERO                   object
GRAU_INSTRUCAO           object
ESTADO_CIVIL             object
COR_RACA                 object
SITUACAO_FINAL           object
REELEICAO                object
IDADE                   float64
FAIXA_ETARIA_IBGE       float64
dtype: object



In [11]:
# Criando a faixa etaria

base['FAIXA_ETARIA_IBGE']=pd.cut(base['IDADE'], bins=[18, 24, 29, 34, 39, 44, 49, 54, 59, 64, 69, 74, sys.maxsize],
                                 labels=['18 – 24 anos', '25 – 29 anos', '30 – 34 anos', '35 – 39 anos','40 – 44 anos','45 – 49 anos', '50 – 54 anos','55 – 59 anos','60 – 64 anos', '65 – 69 anos', '70 – 74 anos','75 anos ou superior'])
base.head(10)

Unnamed: 0,ANO_ELEICAO,ABRANGENCIA,ESTADO,MUNICIPIO,CARGO,PARTIDO,COLIGACAO,ESTADO_NASCIMENTO,MUNICIPIO_NASCIMENTO,DT_NASCIMENTO,GENERO,GRAU_INSTRUCAO,ESTADO_CIVIL,COR_RACA,SITUACAO_FINAL,REELEICAO,IDADE,FAIXA_ETARIA_IBGE
0,2020,MUNICIPAL,PB,SANTA RITA,PREFEITO,PSC,PSL / PSC / PROS / PL,PB,JOÃO PESSOA,1967-07-25 00:00:00,MASCULINO,SUPERIOR COMPLETO,DIVORCIADO(A),BRANCA,NÃO ELEITO,N,53.0,50 – 54 anos
1,2020,MUNICIPAL,PR,APUCARANA,PREFEITO,REPUBLICANOS,REPUBLICANOS,PR,APUCARANA,1970-07-24 00:00:00,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,NÃO ELEITO,N,50.0,50 – 54 anos
2,2020,MUNICIPAL,GO,SANTO ANTÔNIO DO DESCOBERTO,PREFEITO,SOLIDARIEDADE,SOLIDARIEDADE,PI,ÁGUA BRANCA,1968-01-14 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),PARDA,NÃO ELEITO,N,52.0,50 – 54 anos
3,2020,MUNICIPAL,MG,PINGO D'ÁGUA,PREFEITO,PSD,PSD / DEM,MG,CÓRREGO NOVO,1972-12-16 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,DIVORCIADO(A),BRANCA,NÃO ELEITO,N,48.0,45 – 49 anos
4,2020,MUNICIPAL,MA,PENALVA,PREFEITO,PSDB,PTB / PSDB,MA,SÃO LUÍS,1984-04-29 00:00:00,MASCULINO,SUPERIOR COMPLETO,CASADO(A),PARDA,NÃO ELEITO,N,36.0,35 – 39 anos
5,2020,MUNICIPAL,MG,VIEIRAS,PREFEITO,REPUBLICANOS,REPUBLICANOS / PT,MG,VIEIRAS,1977-03-03 00:00:00,MASCULINO,ENSINO FUNDAMENTAL INCOMPLETO,CASADO(A),BRANCA,NÃO ELEITO,N,43.0,40 – 44 anos
6,2020,MUNICIPAL,PA,MOJUÍ DOS CAMPOS,PREFEITO,PSB,PSB,PA,SANTARÉM,1985-08-03 00:00:00,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),PARDA,NÃO ELEITO,N,35.0,35 – 39 anos
7,2020,MUNICIPAL,SC,TIJUCAS,PREFEITO,PSC,PSC,SC,TIJUCAS,1977-07-11 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),BRANCA,NÃO ELEITO,N,43.0,40 – 44 anos
8,2020,MUNICIPAL,SE,AREIA BRANCA,PREFEITO,PL,MDB / CIDADANIA / PL,SE,ITABAIANA,1968-11-17 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),BRANCA,NÃO ELEITO,N,52.0,50 – 54 anos
9,2020,MUNICIPAL,PB,SÃO JOSÉ DO BONFIM,PREFEITO,PATRIOTA,PATRIOTA,PB,SÃO JOSÉ DO BONFIM,1965-03-25 00:00:00,MASCULINO,LÊ E ESCREVE,CASADO(A),PARDA,NÃO ELEITO,N,55.0,55 – 59 anos


In [12]:
# verificando se idades superiores a 70 foram classificadas corretamente
base.loc[base['IDADE']>70]

Unnamed: 0,ANO_ELEICAO,ABRANGENCIA,ESTADO,MUNICIPIO,CARGO,PARTIDO,COLIGACAO,ESTADO_NASCIMENTO,MUNICIPIO_NASCIMENTO,DT_NASCIMENTO,GENERO,GRAU_INSTRUCAO,ESTADO_CIVIL,COR_RACA,SITUACAO_FINAL,REELEICAO,IDADE,FAIXA_ETARIA_IBGE
43,2020,MUNICIPAL,SP,HOLAMBRA,PREFEITO,REPUBLICANOS,REPUBLICANOS,SP,MOGI MIRIM,1945-08-27 00:00:00,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),BRANCA,NÃO ELEITO,N,75.0,75 anos ou superior
90,2020,MUNICIPAL,MG,RAUL SOARES,PREFEITO,PODE,PODE,MG,RAUL SOARES,1944-04-20 00:00:00,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,NÃO ELEITO,N,76.0,75 anos ou superior
103,2020,MUNICIPAL,MG,BALDIM,PREFEITO,PODE,PODE,MG,BALDIM,1946-05-08 00:00:00,FEMININO,SUPERIOR COMPLETO,CASADO(A),BRANCA,NÃO ELEITO,N,74.0,70 – 74 anos
146,2020,MUNICIPAL,ES,IBIRAÇU,PREFEITO,MDB,PSC / PSB / MDB / PSD,ES,IBIRAÇU,1946-07-27 00:00:00,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,NÃO ELEITO,N,74.0,70 – 74 anos
150,2020,MUNICIPAL,SP,SANTOS,PREFEITO,CIDADANIA,CIDADANIA,SP,BAURU,1940-09-01 00:00:00,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,NÃO ELEITO,N,80.0,75 anos ou superior
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49620,2012,MUNICIPAL,TO,ARAGUATINS,PREFEITO,PSB,PP / PSC / PR / PPS / DEM / PHS / PSB / PV / P...,TO,ARAGUATINS,1941-10-10 00:00:00,MASCULINO,ENSINO FUNDAMENTAL INCOMPLETO,SOLTEIRO(A),,ELEITO,,71.0,70 – 74 anos
49623,2012,MUNICIPAL,TO,ARAGOMINAS,PREFEITO,PP,PP / PDT / PMDB / PPS / PSB,GO,CATALÃO,1940-03-20 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),,ELEITO,,72.0,70 – 74 anos
49710,2012,MUNICIPAL,TO,BRASILÂNDIA DO TOCANTINS,PREFEITO,PTB,PT / PTB / PPS / DEM / PV,MG,RIO PARANAIBA,1929-05-09 00:00:00,MASCULINO,LÊ E ESCREVE,CASADO(A),,NÃO ELEITO,,83.0,75 anos ou superior
49805,2012,MUNICIPAL,TO,PARAÍSO DO TOCANTINS,PREFEITO,PMDB,PMDB / PSL / PTN / DEM / PMN / PTC / PSB / PSDB,PI,SANTA FILOMENA,1940-05-20 00:00:00,MASCULINO,SUPERIOR COMPLETO,CASADO(A),,ELEITO,,72.0,70 – 74 anos


In [13]:
categ = base.dtypes[base.dtypes == "category"].index
print("\n", base[categ].describe(), sep='\n')



       FAIXA_ETARIA_IBGE
count              49924
unique                12
top         45 – 49 anos
freq                8677


In [14]:
categ = base.dtypes[base.dtypes == "object"].index
print("\n", base[categ].describe(), sep='\n')



       ABRANGENCIA ESTADO    MUNICIPIO  ... COR_RACA SITUACAO_FINAL REELEICAO
count        49925  49925        49925  ...    35108          49925     35108
unique           1     26         5354  ...        7              3         3
top      MUNICIPAL     MG  SANTA LUZIA  ...   BRANCA     NÃO ELEITO         N
freq         49925   7329           58  ...    22810          32953     30518

[4 rows x 15 columns]


In [15]:
# Verifica-se que SITUACAO_FINAL possui 3 CATEGORIAS e era para ter 2, ELEITO e NAO-ELEITO. Identificar as categorias existentes
base['SITUACAO_FINAL'].unique()

array(['NÃO ELEITO', 'ELEITO', '2º TURNO'], dtype=object)

In [16]:
#Limpando os dados duplicados
base = base[base['SITUACAO_FINAL'] != "2º TURNO"]
base['SITUACAO_FINAL'].unique()

array(['NÃO ELEITO', 'ELEITO'], dtype=object)

In [17]:
#"Criando uma nova coluna, a qual compara a cidade nascimento é igual a cidade candidatura"
base['CIDNAS_IGUAL_CIDCAND'] = 'NaN'

for index, row in base.iterrows():
    if row['MUNICIPIO'] == row['MUNICIPIO_NASCIMENTO']:
        base.loc[index,'CIDNAS_IGUAL_CIDCAND'] =  'SIM' 
    else:
        base.loc[index,'CIDNAS_IGUAL_CIDCAND'] =  'NAO'

In [18]:
#"Criando uma nova coluna, a qual informa se há coligação ou partido puro"
base['CAND_PURA_S_COLIG'] = 'NaN'

for index, row in base.iterrows():
    if row['PARTIDO'] == row['COLIGACAO']:
        base.loc[index,'CAND_PURA_S_COLIG'] =  'SIM' 
    else:
        base.loc[index,'CAND_PURA_S_COLIG'] =  'NAO'

In [19]:
#Verifica se existe dados nulos no dataset
base.isnull().sum()

ANO_ELEICAO                 0
ABRANGENCIA                 0
ESTADO                      0
MUNICIPIO                   0
CARGO                       0
PARTIDO                     0
COLIGACAO                   0
ESTADO_NASCIMENTO           0
MUNICIPIO_NASCIMENTO        0
DT_NASCIMENTO              12
GENERO                      0
GRAU_INSTRUCAO              0
ESTADO_CIVIL                0
COR_RACA                14719
SITUACAO_FINAL              0
REELEICAO               14719
IDADE                       1
FAIXA_ETARIA_IBGE           1
CIDNAS_IGUAL_CIDCAND        0
CAND_PURA_S_COLIG           0
dtype: int64

In [20]:
# Como sao poucos dados vou retirar dados de nascimento faltante e idade
# Eliminando as linhas que estão nulas apenas nas colunas acima
base.dropna(subset=['DT_NASCIMENTO','IDADE'], inplace=True)
base.isnull().sum()

ANO_ELEICAO                 0
ABRANGENCIA                 0
ESTADO                      0
MUNICIPIO                   0
CARGO                       0
PARTIDO                     0
COLIGACAO                   0
ESTADO_NASCIMENTO           0
MUNICIPIO_NASCIMENTO        0
DT_NASCIMENTO               0
GENERO                      0
GRAU_INSTRUCAO              0
ESTADO_CIVIL                0
COR_RACA                14718
SITUACAO_FINAL              0
REELEICAO               14718
IDADE                       0
FAIXA_ETARIA_IBGE           0
CIDNAS_IGUAL_CIDCAND        0
CAND_PURA_S_COLIG           0
dtype: int64

In [21]:
base.head()

Unnamed: 0,ANO_ELEICAO,ABRANGENCIA,ESTADO,MUNICIPIO,CARGO,PARTIDO,COLIGACAO,ESTADO_NASCIMENTO,MUNICIPIO_NASCIMENTO,DT_NASCIMENTO,GENERO,GRAU_INSTRUCAO,ESTADO_CIVIL,COR_RACA,SITUACAO_FINAL,REELEICAO,IDADE,FAIXA_ETARIA_IBGE,CIDNAS_IGUAL_CIDCAND,CAND_PURA_S_COLIG
0,2020,MUNICIPAL,PB,SANTA RITA,PREFEITO,PSC,PSL / PSC / PROS / PL,PB,JOÃO PESSOA,1967-07-25 00:00:00,MASCULINO,SUPERIOR COMPLETO,DIVORCIADO(A),BRANCA,NÃO ELEITO,N,53.0,50 – 54 anos,NAO,NAO
1,2020,MUNICIPAL,PR,APUCARANA,PREFEITO,REPUBLICANOS,REPUBLICANOS,PR,APUCARANA,1970-07-24 00:00:00,MASCULINO,SUPERIOR COMPLETO,CASADO(A),BRANCA,NÃO ELEITO,N,50.0,50 – 54 anos,SIM,SIM
2,2020,MUNICIPAL,GO,SANTO ANTÔNIO DO DESCOBERTO,PREFEITO,SOLIDARIEDADE,SOLIDARIEDADE,PI,ÁGUA BRANCA,1968-01-14 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),PARDA,NÃO ELEITO,N,52.0,50 – 54 anos,NAO,SIM
3,2020,MUNICIPAL,MG,PINGO D'ÁGUA,PREFEITO,PSD,PSD / DEM,MG,CÓRREGO NOVO,1972-12-16 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,DIVORCIADO(A),BRANCA,NÃO ELEITO,N,48.0,45 – 49 anos,NAO,NAO
4,2020,MUNICIPAL,MA,PENALVA,PREFEITO,PSDB,PTB / PSDB,MA,SÃO LUÍS,1984-04-29 00:00:00,MASCULINO,SUPERIOR COMPLETO,CASADO(A),PARDA,NÃO ELEITO,N,36.0,35 – 39 anos,NAO,NAO


In [22]:
#Verificando qual o ano que apareceu os valores nulos na REELEICAO (nesse caso foi 2012) 
base.loc[base['REELEICAO'].isnull()]

Unnamed: 0,ANO_ELEICAO,ABRANGENCIA,ESTADO,MUNICIPIO,CARGO,PARTIDO,COLIGACAO,ESTADO_NASCIMENTO,MUNICIPIO_NASCIMENTO,DT_NASCIMENTO,GENERO,GRAU_INSTRUCAO,ESTADO_CIVIL,COR_RACA,SITUACAO_FINAL,REELEICAO,IDADE,FAIXA_ETARIA_IBGE,CIDNAS_IGUAL_CIDCAND,CAND_PURA_S_COLIG
35108,2012,MUNICIPAL,AC,CAPIXABA,PREFEITO,PMN,DEM / PMN,AC,RIO BRANCO,1961-12-10 00:00:00,FEMININO,SUPERIOR COMPLETO,SOLTEIRO(A),,NÃO ELEITO,,51.0,50 – 54 anos,NAO,NAO
35109,2012,MUNICIPAL,AC,FEIJÓ,PREFEITO,PP,PP / PMDB,AC,FEIJO,1968-09-16 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),,NÃO ELEITO,,44.0,40 – 44 anos,NAO,NAO
35110,2012,MUNICIPAL,AC,PORTO ACRE,PREFEITO,PT,PRB / PDT / PT / PTN / PSDC / PMN / PSB / PC do B,MG,ATALAIA,1963-06-04 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),,NÃO ELEITO,,49.0,45 – 49 anos,NAO,NAO
35111,2012,MUNICIPAL,AC,PLÁCIDO DE CASTRO,PREFEITO,PSDB,PP / PTB / PPS / DEM / PRP / PSDB / PSD,TO,PORTO NACIONAL,1968-09-10 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),,NÃO ELEITO,,44.0,40 – 44 anos,NAO,NAO
35112,2012,MUNICIPAL,AC,SANTA ROSA DO PURUS,PREFEITO,PSDB,PP / PMDB / PSC / PPS / PRP / PSDB / PSD,AC,SENE MADUREIRA,1974-03-30 00:00:00,MASCULINO,ENSINO MÉDIO INCOMPLETO,CASADO(A),,ELEITO,,38.0,35 – 39 anos,NAO,NAO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49920,2012,MUNICIPAL,TO,CAMPOS LINDOS,PREFEITO,PSD,PRB / PTN / PPS / PMN / PV / PSDB / PSD,GO,JANDAIA,1964-03-06 00:00:00,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,DIVORCIADO(A),,ELEITO,,48.0,45 – 49 anos,NAO,NAO
49921,2012,MUNICIPAL,TO,BANDEIRANTES DO TOCANTINS,PREFEITO,PR,PT / PMDB / PR / PPS / PRTB / PSB / PPL,GO,MORINHOS,1952-04-01 00:00:00,FEMININO,ENSINO MÉDIO COMPLETO,CASADO(A),,ELEITO,,60.0,60 – 64 anos,NAO,NAO
49922,2012,MUNICIPAL,TO,TAIPAS DO TOCANTINS,PREFEITO,PV,PV,TO,DIANOPOLIS,1976-04-17 00:00:00,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),,NÃO ELEITO,,36.0,35 – 39 anos,NAO,SIM
49923,2012,MUNICIPAL,TO,TAIPAS DO TOCANTINS,PREFEITO,PSD,PSD / PDT,TO,ARRAIAS,1949-05-27 00:00:00,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),,ELEITO,,63.0,60 – 64 anos,NAO,NAO


In [23]:
#Verificando qual o ano que apareceu os valores nulos na cor_Raca (nesse caso foi 2012) 
base.loc[base['COR_RACA'].isnull()]

Unnamed: 0,ANO_ELEICAO,ABRANGENCIA,ESTADO,MUNICIPIO,CARGO,PARTIDO,COLIGACAO,ESTADO_NASCIMENTO,MUNICIPIO_NASCIMENTO,DT_NASCIMENTO,GENERO,GRAU_INSTRUCAO,ESTADO_CIVIL,COR_RACA,SITUACAO_FINAL,REELEICAO,IDADE,FAIXA_ETARIA_IBGE,CIDNAS_IGUAL_CIDCAND,CAND_PURA_S_COLIG
35108,2012,MUNICIPAL,AC,CAPIXABA,PREFEITO,PMN,DEM / PMN,AC,RIO BRANCO,1961-12-10 00:00:00,FEMININO,SUPERIOR COMPLETO,SOLTEIRO(A),,NÃO ELEITO,,51.0,50 – 54 anos,NAO,NAO
35109,2012,MUNICIPAL,AC,FEIJÓ,PREFEITO,PP,PP / PMDB,AC,FEIJO,1968-09-16 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),,NÃO ELEITO,,44.0,40 – 44 anos,NAO,NAO
35110,2012,MUNICIPAL,AC,PORTO ACRE,PREFEITO,PT,PRB / PDT / PT / PTN / PSDC / PMN / PSB / PC do B,MG,ATALAIA,1963-06-04 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,CASADO(A),,NÃO ELEITO,,49.0,45 – 49 anos,NAO,NAO
35111,2012,MUNICIPAL,AC,PLÁCIDO DE CASTRO,PREFEITO,PSDB,PP / PTB / PPS / DEM / PRP / PSDB / PSD,TO,PORTO NACIONAL,1968-09-10 00:00:00,MASCULINO,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),,NÃO ELEITO,,44.0,40 – 44 anos,NAO,NAO
35112,2012,MUNICIPAL,AC,SANTA ROSA DO PURUS,PREFEITO,PSDB,PP / PMDB / PSC / PPS / PRP / PSDB / PSD,AC,SENE MADUREIRA,1974-03-30 00:00:00,MASCULINO,ENSINO MÉDIO INCOMPLETO,CASADO(A),,ELEITO,,38.0,35 – 39 anos,NAO,NAO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49920,2012,MUNICIPAL,TO,CAMPOS LINDOS,PREFEITO,PSD,PRB / PTN / PPS / PMN / PV / PSDB / PSD,GO,JANDAIA,1964-03-06 00:00:00,MASCULINO,ENSINO FUNDAMENTAL COMPLETO,DIVORCIADO(A),,ELEITO,,48.0,45 – 49 anos,NAO,NAO
49921,2012,MUNICIPAL,TO,BANDEIRANTES DO TOCANTINS,PREFEITO,PR,PT / PMDB / PR / PPS / PRTB / PSB / PPL,GO,MORINHOS,1952-04-01 00:00:00,FEMININO,ENSINO MÉDIO COMPLETO,CASADO(A),,ELEITO,,60.0,60 – 64 anos,NAO,NAO
49922,2012,MUNICIPAL,TO,TAIPAS DO TOCANTINS,PREFEITO,PV,PV,TO,DIANOPOLIS,1976-04-17 00:00:00,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),,NÃO ELEITO,,36.0,35 – 39 anos,NAO,SIM
49923,2012,MUNICIPAL,TO,TAIPAS DO TOCANTINS,PREFEITO,PSD,PSD / PDT,TO,ARRAIAS,1949-05-27 00:00:00,MASCULINO,SUPERIOR COMPLETO,SOLTEIRO(A),,ELEITO,,63.0,60 – 64 anos,NAO,NAO


In [24]:
categ = base.dtypes[base.dtypes == "object"].index
print("\n", base[categ].describe(), sep='\n')



       ABRANGENCIA ESTADO  ... CIDNAS_IGUAL_CIDCAND CAND_PURA_S_COLIG
count        49588  49588  ...                49588             49588
unique           1     26  ...                    2                 2
top      MUNICIPAL     MG  ...                  NAO               NAO
freq         49588   7305  ...                31464             38512

[4 rows x 17 columns]


In [25]:
# Retirando da base os dados de 2012, pois nao consta Raça nem Reeleição
base.dropna(subset=['COR_RACA','REELEICAO'], inplace=True)
base.isnull().sum()

ANO_ELEICAO             0
ABRANGENCIA             0
ESTADO                  0
MUNICIPIO               0
CARGO                   0
PARTIDO                 0
COLIGACAO               0
ESTADO_NASCIMENTO       0
MUNICIPIO_NASCIMENTO    0
DT_NASCIMENTO           0
GENERO                  0
GRAU_INSTRUCAO          0
ESTADO_CIVIL            0
COR_RACA                0
SITUACAO_FINAL          0
REELEICAO               0
IDADE                   0
FAIXA_ETARIA_IBGE       0
CIDNAS_IGUAL_CIDCAND    0
CAND_PURA_S_COLIG       0
dtype: int64

# Base de dados com os features tratados

In [26]:
# verificando as colunas existentes
print("\nCampos de Candidatos:\n{0}\n".format(list(base.keys())))


Campos de Candidatos:
['ANO_ELEICAO', 'ABRANGENCIA', 'ESTADO', 'MUNICIPIO', 'CARGO', 'PARTIDO', 'COLIGACAO', 'ESTADO_NASCIMENTO', 'MUNICIPIO_NASCIMENTO', 'DT_NASCIMENTO', 'GENERO', 'GRAU_INSTRUCAO', 'ESTADO_CIVIL', 'COR_RACA', 'SITUACAO_FINAL', 'REELEICAO', 'IDADE', 'FAIXA_ETARIA_IBGE', 'CIDNAS_IGUAL_CIDCAND', 'CAND_PURA_S_COLIG']



In [27]:
# Gera o dataframe SUDESTE 
l_SE=['ES','MG','RJ','SP']
b_SE = base[base.ESTADO.isin(l_SE)]
# Gera o dataframe NORDESTE
l_NE=['AL','BA','CE','MA','PB','PE','PI','RN','SE']
b_NE = base[base.ESTADO.isin(l_NE)]
#Gera dataframe NORTE
l_N=['AC','AM','AP','RO','RR','TO']
b_N = base[base.ESTADO.isin(l_N)]
#Gera dataframe SUL
l_S=['PR','RS','SC']
b_S = base[base.ESTADO.isin(l_S)]
#Gera dataframe CENTRO-OESTE
l_CO=['GO','MS','MT','DF']
b_CO = base[base.ESTADO.isin(l_CO)]


In [28]:
#Criando um novo  Data_frame com os features principais
baseB=pd.DataFrame(base,columns=['ESTADO','GENERO','GRAU_INSTRUCAO','ESTADO_CIVIL','COR_RACA','FAIXA_ETARIA_IBGE','CIDNAS_IGUAL_CIDCAND','CAND_PURA_S_COLIG','REELEICAO','SITUACAO_FINAL'])
baseNE=pd.DataFrame(b_NE,columns=['ESTADO','GENERO','GRAU_INSTRUCAO','ESTADO_CIVIL','COR_RACA','FAIXA_ETARIA_IBGE','CIDNAS_IGUAL_CIDCAND','CAND_PURA_S_COLIG','REELEICAO','SITUACAO_FINAL'])
baseSE=pd.DataFrame(b_SE,columns=['ESTADO','GENERO','GRAU_INSTRUCAO','ESTADO_CIVIL','COR_RACA','FAIXA_ETARIA_IBGE','CIDNAS_IGUAL_CIDCAND','CAND_PURA_S_COLIG','REELEICAO','SITUACAO_FINAL'])
baseCO=pd.DataFrame(b_CO,columns=['ESTADO','GENERO','GRAU_INSTRUCAO','ESTADO_CIVIL','COR_RACA','FAIXA_ETARIA_IBGE','CIDNAS_IGUAL_CIDCAND','CAND_PURA_S_COLIG','REELEICAO','SITUACAO_FINAL'])
baseN=pd.DataFrame(b_N,columns=['ESTADO','GENERO','GRAU_INSTRUCAO','ESTADO_CIVIL','COR_RACA','FAIXA_ETARIA_IBGE','CIDNAS_IGUAL_CIDCAND','CAND_PURA_S_COLIG','REELEICAO','SITUACAO_FINAL'])
baseS=pd.DataFrame(b_S,columns=['ESTADO','GENERO','GRAU_INSTRUCAO','ESTADO_CIVIL','COR_RACA','FAIXA_ETARIA_IBGE','CIDNAS_IGUAL_CIDCAND','CAND_PURA_S_COLIG','REELEICAO','SITUACAO_FINAL'])

In [30]:
# Exportando os databases
baseB.to_csv (r'base_Brasil.csv', index = False, header=True)
files.download('base_Brasil.csv')
baseNE.to_csv (r'base_NE.csv', index = False, header=True)
files.download('base_NE.csv')
baseSE.to_csv (r'base_SE.csv', index = False, header=True)
files.download('base_SE.csv')
baseCO.to_csv (r'base_CO.csv', index = False, header=True)
files.download('base_CO.csv')
baseN.to_csv (r'base_N.csv', index = False, header=True)
files.download('base_N.csv')
baseS.to_csv (r'base_S.csv', index = False, header=True)
files.download('base_S.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>