# Coda.Br 2018 

## Conferência Brasileira de Jornalismo de Dados e métodos digitais
--------------------------------------------------------------------------------------

### *Iluminando o mar de dados - Uma introdução a Python para análise de dados*

##### Por *Caroline Dantas*

Nesse workshop vamos estudar como analisar um dataset público utilizando Python!! O dataset em questão é dos candidatos as Eleições Gerais de 2018, disponível no site do Tribunal Superior Eleitoral - [TSE](http://www.tse.jus.br/eleicoes/estatisticas/repositorio-de-dados-eleitorais-1/repositorio-de-dados-eleitorais).


#### Por que Python e não outra linguagem?

Python destaca-se pela rapidez em escrever programas relativamente pequenos, porém capazes de automatizar diversas tarefas, sem perder a robustez. Por ser uma linguagem de código aberto, a comunidade que a mantém tem grande comprometimento em manter as ferramentas atualizadas, a colocou como uma das principais para aplicações científicas, como a análise de dados.


### As ferramentas para análise de dados

##### IPython e Jupyter
Código interativo

##### pandas
Manipulação de dados

##### NumPy
Processamento numérico

##### matplolib
Visualização dos dados


### Iniciando nosso estudo

Começamos com a manipulação dos dados compreendendo o que temos no dataset onde será necessário a limpeza dos dados e/ou a padronização, para isso utilizaremos o *pandas*.

Faremos a importação da biblioteca para o nosso ambiente

In [1]:
import pandas as pd

## 1.0 Overview
----------------

Feita a importação, vamos agora ler o nosso dataset, e transforma-lo para um dataframe

In [2]:
dataframe = pd.read_csv('consulta_cand_2018_BRASIL.csv', delimiter=';', encoding='latin-1')

Agora iremos ver a apresentação dos dados, em um resumo das 5 primeiras linhas

In [3]:
dataframe.head()

Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,DS_COR_RACA,CD_OCUPACAO,DS_OCUPACAO,NR_DESPESA_MAX_CAMPANHA,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO,ST_REELEICAO,ST_DECLARAR_BENS,NR_PROTOCOLO_CANDIDATURA,NR_PROCESSO
0,30/10/2018,10:39:17,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,169,COMERCIANTE,0,5,SUPLENTE,N,S,-1,6011428620186060000
1,30/10/2018,10:39:17,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,999,OUTROS,0,5,SUPLENTE,N,N,-1,6044512320186130000
2,30/10/2018,10:39:17,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PRETA,257,EMPRESÁRIO,0,5,SUPLENTE,N,S,-1,6009010420186100000
3,30/10/2018,10:39:17,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,PARDA,999,OUTROS,0,5,SUPLENTE,N,N,-1,6003259220186070000
4,30/10/2018,10:39:17,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,BRANCA,999,OUTROS,0,5,SUPLENTE,N,S,-1,6014104820186130000


Vimos que esse dataframe tem 58 colunas, porém não conseguimos ver todas nesse overview, vamos usar uma função para isso

In [4]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29145 entries, 0 to 29144
Data columns (total 58 columns):
DT_GERACAO                       29145 non-null object
HH_GERACAO                       29145 non-null object
ANO_ELEICAO                      29145 non-null int64
CD_TIPO_ELEICAO                  29145 non-null int64
NM_TIPO_ELEICAO                  29145 non-null object
NR_TURNO                         29145 non-null int64
CD_ELEICAO                       29145 non-null int64
DS_ELEICAO                       29145 non-null object
DT_ELEICAO                       29145 non-null object
TP_ABRANGENCIA                   29145 non-null object
SG_UF                            29145 non-null object
SG_UE                            29145 non-null object
NM_UE                            29145 non-null object
CD_CARGO                         29145 non-null int64
DS_CARGO                         29145 non-null object
SQ_CANDIDATO                     29145 non-null int64
NR_CANDIDATO     

Outliers

In [8]:
dataframe['NR_IDADE_DATA_POSSE']


0        52
1        51
2        38
3        34
4        50
5        51
6        50
7        48
8        53
9        51
10       32
11       25
12       57
13       51
14       57
15       43
16       36
17       27
18       39
19       32
20       54
21       66
22       31
23       48
24       63
25       53
26       41
27       49
28       51
29       48
         ..
29115    59
29116    56
29117    42
29118    34
29119    48
29120    54
29121    23
29122    44
29123    36
29124    49
29125    65
29126    39
29127    59
29128    45
29129    40
29130    33
29131    35
29132    37
29133    46
29134    52
29135    37
29136    58
29137    51
29138    41
29139    49
29140    35
29141    40
29142    53
29143    32
29144    61
Name: NR_IDADE_DATA_POSSE, Length: 29145, dtype: int64

Quando calculei a amplitude dos meus dados, percebi isso:

In [9]:
print(dataframe['NR_IDADE_DATA_POSSE'].max() - dataframe['NR_IDADE_DATA_POSSE'].min())

807


Algo muito estranho, não? Então, vamos fazer um chute, e ver qual o valor máximo!!!

In [10]:
print(dataframe['NR_IDADE_DATA_POSSE'].max())

825


Opa, temos uma idade um pouco estranha ai, está no meio dos nosso dados poluindo, e não apareceu quando olhamos a nossa coluna, pela quantidade de linhas não aparece todas!! Então precisamos procurar onde está esse outlier e retirar dos nossos dados

In [11]:
dataframe[dataframe.NR_IDADE_DATA_POSSE == 825]


Unnamed: 0,DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,...,DS_COR_RACA,CD_OCUPACAO,DS_OCUPACAO,NR_DESPESA_MAX_CAMPANHA,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO,ST_REELEICAO,ST_DECLARAR_BENS,NR_PROTOCOLO_CANDIDATURA,NR_PROCESSO
15620,30/10/2018,10:39:17,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,BRANCA,999,OUTROS,-1,-1,#NULO#,N,N,-1,6002947720186140000


Isso nos retorna em qual linha esta esse dado, assim podemos exclui-lo do conjunto!!!

In [12]:
dataframe = dataframe.drop(dataframe.index[15620])

## 1.1 Quais colunas vamos analisar?
----

1. UE
2. UF
3. GÊNERO
4. IDADE DATA DA POSSE
5. COR RAÇA
6. CARGO
7. DESPESA MÁXIMA º
8. REELEIÇÃO
9. DECLARAR BENS

### 1.1.1 Vamos contabilizar os dados dessas colunas

In [13]:
SG_UE = dataframe.groupby('SG_UE')['SG_UE'].count()

In [14]:
SG_UE

SG_UE
AC     586
AL     461
AM     859
AP     667
BA    1196
BR      32
CE     913
DF    1262
ES     833
GO    1193
MA     796
MG    2378
MS     545
MT     541
PA     902
PB     621
PE    1094
PI     439
PR    1288
RJ    3699
RN     516
RO     658
RR     687
RS    1344
SC     788
SE     530
SP    3952
TO     364
Name: SG_UE, dtype: int64

In [15]:
DS_CARGO = dataframe.groupby('DS_CARGO')['DS_CARGO'].count()

In [16]:
DS_CARGO

DS_CARGO
1º SUPLENTE             385
2º SUPLENTE             394
DEPUTADO DISTRITAL      981
DEPUTADO ESTADUAL     17940
DEPUTADO FEDERAL       8588
GOVERNADOR              230
PRESIDENTE               16
SENADOR                 358
VICE-GOVERNADOR         236
VICE-PRESIDENTE          16
Name: DS_CARGO, dtype: int64

In [17]:
DS_GENERO = dataframe.groupby('DS_GENERO')['DS_GENERO'].count()

In [18]:
DS_GENERO

DS_GENERO
FEMININO      9211
MASCULINO    19933
Name: DS_GENERO, dtype: int64

In [None]:
NR_IDADE_DATA = dataframe.groupby('NR_IDADE_DATA_POSSE')['NR_IDADE_DATA_POSSE'].count()

In [None]:
DS_COR_RACA = dataframe.groupby('DS_COR_RACA')['DS_COR_RACA'].count()

In [None]:
DS_COR_RACA

In [None]:
ST_REELEICAO = dataframe.groupby('ST_REELEICAO')['ST_REELEICAO'].count()

In [None]:
ST_REELEICAO

In [None]:
ST_DECLARAR_BENS = dataframe.groupby('ST_DECLARAR_BENS')['ST_DECLARAR_BENS'].count()

In [None]:
ST_DECLARAR_BENS

In [None]:
dataframe.loc[(dataframe["DS_GENERO"]=="FEMININO") & (dataframe["DS_COR_RACA"]=="PRETA"), ["DS_GENERO","DS_COR_RACA"]]

### 1.1.2 Trabalhando com dados de duas colunas ao mesmo tempo

In [None]:
GENERO_RACA = pd.crosstab(dataframe.DS_GENERO, dataframe.DS_COR_RACA, margins=True)

In [None]:
GENERO_RACA

In [None]:
CARGO_RACA = pd.crosstab(dataframe.DS_CARGO, dataframe.DS_COR_RACA, margins=True)

In [None]:
CARGO_RACA

In [None]:
GENERO_REELEICAO = pd.crosstab(dataframe.DS_GENERO, dataframe.ST_REELEICAO, margins=True)

In [None]:
GENERO_REELEICAO

In [None]:
GENERO_DECLARAR_BENS = pd.crosstab(dataframe.DS_GENERO, dataframe.ST_DECLARAR_BENS, margins=True)

In [None]:
GENERO_DECLARAR_BENS

In [None]:
GENERO_UF = pd.crosstab(dataframe.DS_GENERO, dataframe.SG_UF)

In [None]:
GENERO_UF

In [None]:
CARGO_GENERO = pd.crosstab(dataframe.DS_CARGO, dataframe.DS_GENERO, margins=True)

In [None]:
CARGO_GENERO

## 1.2 Gráficos dos nossos dados
---

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

### 1.2.1 Da contabilidade dos dados

In [None]:
SG_UE.plot(kind='bar')
plt.show()

In [None]:
DS_CARGO.plot(kind='bar')
plt.show()

In [None]:
DS_GENERO.plot(kind='bar')
plt.show()

In [None]:
DS_COR_RACA.sort_values().plot(kind='bar', align='center')
plt.show()

In [None]:
ST_REELEICAO.sort_values().plot(kind='bar')
plt.show()

In [None]:
ST_DECLARAR_BENS.plot(kind='bar')
plt.show()

### 1.2.2 Do cruzamento dos dados de diferentes colunas

In [None]:
GENERO_RACA.plot(kind='bar', figsize=(20,20))
plt.show()

In [None]:
GENERO_REELEICAO.plot(kind='bar', figsize=(30,25))
plt.show()

In [None]:
GENERO_DECLARAR_BENS.plot(kind='bar')
plt.show()

In [None]:
GENERO_UF.plot(kind='bar', figsize=(20,10))
plt.show()

In [None]:
CARGO_GENERO.plot(kind='bar', figsize=(20,10))
plt.show()

In [None]:
CARGO_RACA.plot(kind='bar', figsize=(20,10))
plt.show()

In [None]:
NR_IDADE_DATA.plot(kind='bar', figsize=(20,10))
plt.show()

## 1.3 Estatística Descritiva
---

### 1.3.1 Analisando a idade dos candidatos

Nessa fase vamos nos ater a analisar a idade dos candidatos na data da posse (01/01/2019)

Média

In [None]:
dataframe['NR_IDADE_DATA_POSSE'].mean()

Mediana

In [None]:
dataframe['NR_IDADE_DATA_POSSE'].median()

Moda

In [None]:
dataframe['NR_IDADE_DATA_POSSE'].mode()

Amplitude

In [None]:
dataframe['NR_IDADE_DATA_POSSE'].max()

In [None]:
dataframe['NR_IDADE_DATA_POSSE'].min()

In [None]:
print(dataframe['NR_IDADE_DATA_POSSE'].max() - dataframe['NR_IDADE_DATA_POSSE'].min())

Variância

In [None]:
print(dataframe['NR_IDADE_DATA_POSSE'].var())

Desvio Padrão

In [None]:
print(dataframe['NR_IDADE_DATA_POSSE'].std())

Covariância e Correlação entre os dados

In [None]:
import seaborn as sns

In [None]:
fig, (ax) = plt.subplots(1, 1, figsize=(20,16))

hm = sns.heatmap(dataframe.corr(), 
#                  vmin=0,
#                  vmax=1,
                 ax=ax,
                 annot=True, 
                 annot_kws={"size": 7}
                )

# fig.subplots_adjust(top=0.90)
fig.suptitle('', 
              fontsize=14, 
              fontweight='bold')

In [None]:
dataframe.cov()

In [None]:
fig, (ax) = plt.subplots(1, 1, figsize=(20,20))

hm = sns.heatmap(dataframe.cov(), 
#                  vmin=0,
#                  vmax=1,
                 ax=ax,
                 annot=True, 
                 annot_kws={"size": 7}
                )

# fig.subplots_adjust(top=0.90)
fig.suptitle('', 
              fontsize=14, 
              fontweight='bold')

Muito legal, mas quero colocar nas minhas reportagens algumas porcentagens!!Como faz?!
Podemos escrever uma função para calcular as porcentagens, e isso pode ser feito com qualquer outra medida que não esteja nativo no pandas, ou no numpy!!

In [22]:
def porcentagem(valor_total, parcial):
    por = (100*parcial)/(valor_total)
    return por

Qual a porcentagem de homens que concorreram a cargos nessa eleição?!

In [23]:
porcentagem(29144,19933)

68.39486686796596

E de mulheres?!

In [24]:
porcentagem(29144,9211)

31.605133132034037

E de mulheres divididas por raça?!

In [26]:
amarela_fem = porcentagem(9211,62)
branca_fem = porcentagem(9211,4698)
indigena_fem = porcentagem(9211,49)
parda_fem = porcentagem(9211,3165)
preta_fem = porcentagem(9211,1237)


In [27]:
amarela_fem

0.6731082401476496

In [28]:
branca_fem

51.004234067962216

In [29]:
indigena_fem

0.5319726414070134

In [30]:
parda_fem

34.36109000108566

In [31]:
preta_fem

13.42959504939746

E homens divididos por raça?

In [32]:
amarela_mas = porcentagem(19933,106)
branca_mas = porcentagem(19933,10587)
indigena_mas = porcentagem(19933,85)
parda_mas = porcentagem(19933,7231)
preta_mas = porcentagem(19933,1924)

In [33]:
amarela_mas

0.5317814679175237

In [34]:
branca_mas

53.112928309837955

In [35]:
indigena_mas

0.4264285355942407

In [36]:
parda_mas

36.27652636331711

In [37]:
preta_mas

9.652335323333165

Mas e se formos mais a fundo, e agora fazer um recorte por gênero e cargo?!

In [38]:
um_suplente_fem = porcentagem(385,91)
dois_suplente_fem = porcentagem(394,116)
distrital_fem = porcentagem(981,309)
estadual_fem = porcentagem(17940,5744)
federal_fem = porcentagem(8588,2767)
governador_fem = porcentagem(230,31)
presidente_fem = porcentagem(16,2)
senador_fem = porcentagem(358,63)
vice_gov_fem = porcentagem(236,82)
vice_presi_fem = porcentagem(16,6)


In [40]:
um_suplente_fem

23.636363636363637

In [41]:
dois_suplente_fem

29.441624365482234

In [42]:
distrital_fem

31.498470948012233

In [43]:
estadual_fem

32.01783723522854

In [44]:
federal_fem

32.2193758733116

In [45]:
governador_fem

13.478260869565217

In [46]:
presidente_fem

12.5

In [47]:
senador_fem

17.59776536312849

In [48]:
vice_gov_fem

34.74576271186441

In [49]:
vice_presi_fem

37.5

Vamos ver os números dos homens

In [52]:
um_suplente_masc = porcentagem(385,294)
dois_suplente_masc = porcentagem(394,278)
distrital_masc = porcentagem(981,672)
estadual_masc = porcentagem(17940,12196)
federal_masc = porcentagem(8588,5821)
governador_masc = porcentagem(230,199)
presidente_masc = porcentagem(16,14)
senador_masc = porcentagem(358,295)
vice_gov_masc = porcentagem(236,154)
vice_presi_masc = porcentagem(16,10)

In [53]:
um_suplente_masc

76.36363636363636

In [54]:
dois_suplente_masc

70.55837563451777

In [55]:
distrital_masc

68.50152905198777

In [56]:
estadual_masc

67.98216276477146

In [57]:
federal_masc

67.78062412668841

In [58]:
governador_masc

86.52173913043478

In [59]:
presidente_masc

87.5

In [60]:
senador_masc

82.40223463687151

In [61]:
vice_gov_masc

65.2542372881356

In [62]:
vice_presi_masc

62.5