# Exploração dos dados da votação nominal em candidatos

[Voltar ao Índice](00_indice.ipynb)

Vamos compreender os dados obtidos do TSE (<https://cdn.tse.jus.br/estatistica/sead/odsele/votacao_candidato_munzona/votacao_candidato_munzona_2022.zip>), em especial as modificações feitas em relação aos mesmos dados, mas de eleições anteriores.

## Comparação com estrutura anterior

Vamos verificar a estrutura dos dados de 2022 e compará-la com a de 2020, para ver se podemos utilizar as mesmas rotinas de limpeza.

In [40]:
import pandas as pd

import xavy.explore as xe
import xavy.tse as tse
import xavy.dataframes as xd

### Carregando os dados

In [22]:
# Carregando os dados:
votos20_df = tse.load_tse_raw_data('/home/skems/gabinete/projetos/laranjometro/dados/brutos/votacao_candidato_munzona_2020/votacao_candidato_munzona_2020_PI.csv')
votos22_df = tse.load_tse_raw_data('/home/skems/ceweb/dados/brutos/tse/votacao_candidato_munzona_2022/votacao_candidato_munzona_2022_PI.csv')

### Colunas novas e abandonadas

In [23]:
# Colunas que sumiram:
set(votos20_df.columns) - set(votos22_df.columns)

set()

Vemos abaixo que a maioria das colunas novas se referem a federações. Outra coisa nova é a contabilização dos votos válidos:

In [24]:
# Colunas que surgiram:
new_cols = set(votos22_df.columns) - set(votos20_df.columns)
new_cols

{'DS_COMPOSICAO_FEDERACAO',
 'NM_FEDERACAO',
 'NM_TIPO_DESTINACAO_VOTOS',
 'NR_FEDERACAO',
 'QT_VOTOS_NOMINAIS_VALIDOS',
 'SG_FEDERACAO'}

Vamos ver abaixo o conteúdo das colunas novas:

In [25]:
xe.mapUnique(votos22_df[list(new_cols)])


[1mQT_VOTOS_NOMINAIS_VALIDOS: [0m2272 unique values.
[1m(sample) [0m132,  409,  442,  824,  883,  1032,  1127,  1330,  1392,  1408,  1597,  1646,  1738,  2191,  2468,  2811,  2890,  3475,  4949,  5058

[1mDS_COMPOSICAO_FEDERACAO: [0m4 unique values.
#NULO#,  CIDADANIA / PSDB,  PC do B / PT / PV,  PSOL / REDE

[1mNM_TIPO_DESTINACAO_VOTOS: [0m4 unique values.
Anulado,  Anulado sub judice,  Válido,  Válido (legenda)

[1mNR_FEDERACAO: [0m4 unique values.
-1,  1,  2,  3

[1mSG_FEDERACAO: [0m4 unique values.
#NULO#,  PSDB/CIDADANIA,  PSOL/REDE,  PT/PC do B/PV

[1mNM_FEDERACAO: [0m4 unique values.
#NULO#,  Federação Brasil da Esperança - FE BRASIL,  Federação PSDB Cidadania,  Federação PSOL REDE


### Conteúdo das colunas em comum

In [30]:
# Colunas em comum:
common_cols = list(set(votos20_df.columns) & set(votos22_df.columns))

In [28]:
# Anterior:
xe.mapUnique(votos20_df[common_cols])


[1mNR_ZONA: [0m82 unique values.
[1m(sample) [0m1,  8,  10,  14,  15,  17,  21,  37,  39,  48,  49,  54,  56,  64,  71,  74,  83,  89,  90,  96

[1mDT_GERACAO: [0m1 unique values.
20/11/2020

[1mCD_DETALHE_SITUACAO_CAND: [0m7 unique values.
2,  4,  6,  14,  16,  17,  19

[1mSG_PARTIDO: [0m32 unique values.
[1m(sample) [0mDC,  MDB,  NOVO,  PC do B,  PDT,  PL,  PMB,  PMN,  PP,  PROS,  PSB,  PSC,  PSDB,  PSL,  PSOL,  PT,  PTC,  PV,  REDE,  REPUBLICANOS

[1mSG_UE: [0m224 unique values.
[1m(sample) [0m10448,  10561,  10596,  10626,  10723,  10812,  10928,  11371,  11479,  11614,  11959,  12009,  12076,  12165,  12254,  12319,  12335,  12513,  12629,  12637

[1mSQ_CANDIDATO: [0m9718 unique values.
[1m(sample) [0m180000666618,  180000727827,  180000739417,  180000757668,  180000758750,  180000782005,  180000821225,  180000821379,  180000836333,  180000837449,  180000837608,  180000907248,  180000979164,  180001014789,  180001048186,  180001067986,  180001073688,  18000107

In [29]:
xe.mapUnique(votos22_df[common_cols])


[1mNR_ZONA: [0m74 unique values.
[1m(sample) [0m1,  2,  3,  10,  12,  19,  26,  29,  36,  40,  47,  57,  58,  63,  64,  71,  72,  89,  94,  97

[1mDT_GERACAO: [0m1 unique values.
14/10/2022

[1mCD_DETALHE_SITUACAO_CAND: [0m4 unique values.
2,  4,  14,  16

[1mSG_PARTIDO: [0m25 unique values.
[1m(sample) [0mAGIR,  CIDADANIA,  MDB,  NOVO,  PATRIOTA,  PCO,  PL,  PMN,  PODE,  PP,  PSC,  PSD,  PSOL,  PSTU,  PT,  PV,  REDE,  SOLIDARIEDADE,  UNIÃO,  UP

[1mSG_UE: [0m1 unique values.
PI

[1mSQ_CANDIDATO: [0m368 unique values.
[1m(sample) [0m180001601234,  180001601261,  180001601311,  180001601319,  180001602514,  180001602554,  180001602556,  180001604038,  180001605301,  180001605693,  180001608627,  180001608874,  180001612880,  180001713295,  180001713661,  180001714177,  180001714361,  180001722379,  180001722582,  180001734011

[1mQT_VOTOS_NOMINAIS: [0m2276 unique values.
[1m(sample) [0m402,  528,  646,  967,  1046,  1142,  1153,  1420,  1649,  1819,  2329,  2366, 

### Compreensão da contagem de votos e votos válidos

PS: Verificamos manualmente que a soma das entradas dos arquivos dos estados (e com a sigla 'BR') é igual ao número de entradas no arquivo 'BRASIL'. Ou seja:  este último é a combinação de todos os outros.

#### Carregando e selecionando dados

In [85]:
# Carregando votos de 2022 de todo o Brasil.
sel_cols = ['CD_TIPO_ELEICAO', 'TP_ABRANGENCIA', 'SG_UF', 'NM_MUNICIPIO', 'NR_ZONA', 'DS_CARGO', 'SQ_CANDIDATO', 'NM_URNA_CANDIDATO', 'DS_SITUACAO_CANDIDATURA', 
            'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO', 'SG_PARTIDO', 'ST_VOTO_EM_TRANSITO', 'QT_VOTOS_NOMINAIS', 'NM_TIPO_DESTINACAO_VOTOS', 'QT_VOTOS_NOMINAIS_VALIDOS',
            'DS_SIT_TOT_TURNO']
votos_df = tse.load_tse_votacao_data('/home/skems/ceweb/dados/brutos/tse/votacao_candidato_munzona_2022/votacao_candidato_munzona_2022_BRASIL.csv', usecols=sel_cols)

In [37]:
# Votos válidos diferentes dos totais:
votos_dif_df    = votos_df.query('QT_VOTOS_NOMINAIS != QT_VOTOS_NOMINAIS_VALIDOS')

In [39]:
print('Votos válidos diferente dos totais: {:.2f}%.'.format(100 * len(votos_dif_df) / len(votos_df)))

Votos válidos diferente dos totais: 0.52%.


In [77]:
votos_dif_df['QT_VOTOS_NOMINAIS_VALIDOS'].unique()

array([0])

In [78]:
votos_dif_df['NM_TIPO_DESTINACAO_VOTOS'].unique()

array(['Anulado sub judice', 'Anulado', 'Válido (legenda)'], dtype=object)

#### Como as linhas são identificadas

Vemos que as zonas eleitorais tem numeração repetida nos estados (todos os estados tem a zona 1, por ex.):

In [44]:
xd.check_guarda_compartilhada(votos_df, 'NR_ZONA', 'SG_UF')

NR_ZONA
1      [TO, CE, BA, MG, PA, RR, PR, SP, PB, RO, AC, A...
2      [PR, MG, SC, TO, MA, RO, DF, PA, PE, AC, MT, S...
3      [RO, SP, MT, PI, GO, PB, MG, MS, CE, AM, RS, B...
4      [PR, RS, MG, RO, PB, CE, PA, SP, RJ, RN, RR, P...
5      [PR, RJ, MG, BA, DF, MA, TO, RR, MS, PA, AM, E...
                             ...                        
347                                             [MG, SP]
348                                             [MG, SP]
349                                             [MG, SP]
350                                             [SP, MG]
351                                             [MG, SP]
Name: SG_UF, Length: 320, dtype: object

Abaixo buscamos identificar quais colunas identificam de maneira unívoca as linhas. Com isso, lembramos que alguns municípios possuem mais de uma zona eleitoral e algumas zonas eleitorais englobam mais de um município (esse é o caso mais comum).

Além disso, percebemos que só existe um tipo de destinação de votos por zona e município. Ou seja: aparentemente ou todos os votos de uma zona-município são válidos ou todos são inválidos (para um dado candidato).

In [60]:
test_id_cols = ['SQ_CANDIDATO', 'SG_UF', 'NM_MUNICIPIO']                                        # Chave inválida.
test_id_cols = ['SQ_CANDIDATO', 'SG_UF',                 'NR_ZONA']                             # Chave inválida.
test_id_cols = ['SQ_CANDIDATO', 'SG_UF', 'NM_MUNICIPIO', 'NR_ZONA', 'NM_TIPO_DESTINACAO_VOTOS'] # Chave válida.
test_id_cols = ['SQ_CANDIDATO', 'SG_UF', 'NM_MUNICIPIO', 'NR_ZONA']                             # Chave válida.
xd.iskeyQ(votos_df[test_id_cols])

True

In [61]:
# Confirmando que cada candidato em cada localidade só tem um tipo de voto:
votos_df.groupby(test_id_cols)['NM_TIPO_DESTINACAO_VOTOS'].nunique().max()

1

#### Investigação dos tipos de destinação de votos

In [62]:
votos_df['NM_TIPO_DESTINACAO_VOTOS'].unique()

array(['Válido', 'Anulado sub judice', 'Anulado', 'Válido (legenda)'],
      dtype=object)

In [64]:
xe.mapUnique(votos_df.query('NM_TIPO_DESTINACAO_VOTOS == "Anulado"'))


[1mCD_TIPO_ELEICAO: [0m1 unique values.
2

[1mTP_ABRANGENCIA: [0m1 unique values.
E

[1mSG_UF: [0m5 unique values.
CE,  GO,  PI,  RN,  SP

[1mNM_MUNICIPIO: [0m1454 unique values.
[1m(sample) [0mADELÂNDIA,  BREJO ALEGRE,  HIDROLINA,  JALES,  JAMBEIRO,  JANDUÍS,  JUAZEIRO DO PIAUÍ,  LAVRINHAS,  LORENA,  MONTE MOR,  NOVA OLINDA,  PEDREGULHO,  PINDORAMA,  RIVERSUL,  SALITRE,  SANTANA DO SERIDÓ,  SÃO GONÇALO DO AMARANTE,  URU,  URUTAÍ,  ÁGUA LIMPA

[1mNR_ZONA: [0m400 unique values.
[1m(sample) [0m20,  24,  55,  60,  66,  85,  93,  115,  123,  143,  197,  202,  208,  246,  286,  303,  352,  373,  402,  416

[1mDS_CARGO: [0m2 unique values.
Deputado Estadual,  Deputado Federal

[1mSQ_CANDIDATO: [0m25 unique values.
[1m(sample) [0m60001619112,  90001675735,  90001675874,  90001719517,  180001722384,  180001738231,  180001739382,  200001731295,  250001604960,  250001619317,  250001620265,  250001620654,  250001620748,  250001621746,  250001643305,  250001652087,  2500016768

Vemos acima e abaixo que a destinação dos votos está relacionada com a situação da candidatura, se ela foi aceita ou não. A destinação não tem relação com anulação da urna por qualquer motivo, por exemplo.

**ATENÇÃO:** Fica a dúvida: quando os dados não tinham a coluna de votos válidos, a coluna de votos nominais continha qual tipo de contabilização, a de votos ou de votos válidos? Acho que era a quantidade de votos, mesmo.

In [68]:
xd.print_array_series(xd.check_guarda_compartilhada(votos_df, 'NM_TIPO_DESTINACAO_VOTOS', 'DS_DETALHE_SITUACAO_CAND', drop_unique=False))

[1mAnulado: [0mINDEFERIDO
[1mAnulado sub judice: [0mINDEFERIDO COM RECURSO / DEFERIDO / PEDIDO NÃO CONHECIDO COM RECURSO
[1mVálido: [0mDEFERIDO / DEFERIDO COM RECURSO / PENDENTE DE JULGAMENTO
[1mVálido (legenda): [0mINDEFERIDO


In [69]:
xd.print_array_series(xd.check_guarda_compartilhada(votos_df, 'DS_DETALHE_SITUACAO_CAND', 'NM_TIPO_DESTINACAO_VOTOS', drop_unique=False))

[1mDEFERIDO: [0mVálido / Anulado sub judice
[1mDEFERIDO COM RECURSO: [0mVálido
[1mINDEFERIDO: [0mAnulado / Válido (legenda)
[1mINDEFERIDO COM RECURSO: [0mAnulado sub judice
[1mPEDIDO NÃO CONHECIDO COM RECURSO: [0mAnulado sub judice
[1mPENDENTE DE JULGAMENTO: [0mVálido


In [71]:
xd.print_array_series(xd.check_guarda_compartilhada(votos_df, 'NM_TIPO_DESTINACAO_VOTOS', 'DS_SITUACAO_CANDIDATURA', drop_unique=False))

[1mAnulado: [0mINAPTO
[1mAnulado sub judice: [0mAPTO
[1mVálido: [0mAPTO
[1mVálido (legenda): [0mINAPTO


In [72]:
xd.print_array_series(xd.check_guarda_compartilhada(votos_df, 'DS_SITUACAO_CANDIDATURA', 'NM_TIPO_DESTINACAO_VOTOS', drop_unique=False))

[1mAPTO: [0mVálido / Anulado sub judice
[1mINAPTO: [0mAnulado / Válido (legenda)


#### Como se dá a contabilização de votos válidos para os vários tipos de destinação?

Vemos que os votos válidos só são contabilizados (isto é, diferentes de zero) quando o tipo de destinação é "válido".

In [88]:
votos_df.groupby('NM_TIPO_DESTINACAO_VOTOS')['QT_VOTOS_NOMINAIS_VALIDOS'].unique()

NM_TIPO_DESTINACAO_VOTOS
Anulado                                                             [0]
Anulado sub judice                                                  [0]
Válido                [0, 3, 122, 412, 29, 2, 1754, 7, 5, 10, 1, 4, ...
Válido (legenda)                                                    [0]
Name: QT_VOTOS_NOMINAIS_VALIDOS, dtype: object

### Significado da coluna de votos antes de 2022

In [73]:
# Carregando votos de 2022 de todo o Brasil.
sel_cols = ['CD_TIPO_ELEICAO', 'TP_ABRANGENCIA', 'SG_UF', 'NM_MUNICIPIO', 'NR_ZONA', 'DS_CARGO', 'SQ_CANDIDATO', 'NM_URNA_CANDIDATO', 'DS_SITUACAO_CANDIDATURA', 
            'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO', 'SG_PARTIDO', 'ST_VOTO_EM_TRANSITO', 'QT_VOTOS_NOMINAIS', 'DS_SIT_TOT_TURNO']
votos_df = tse.load_tse_votacao_data('/home/skems/gabinete/projetos/laranjometro/dados/brutos/votacao_candidato_munzona_2020/votacao_candidato_munzona_2020_BRASIL.csv', usecols=sel_cols)

In [84]:
xe.checkMissing(votos_df)

[1mColunas com valores faltantes:[0m
              coluna    N    %
7  NM_URNA_CANDIDATO  3.0  0.0


In [83]:
votos_df.groupby('DS_DETALHE_SITUACAO_CAND')['QT_VOTOS_NOMINAIS'].sum()

DS_DETALHE_SITUACAO_CAND
CANCELADO                                   0
CANCELADO COM RECURSO                       0
CASSADO COM RECURSO                         0
DEFERIDO                            187943187
DEFERIDO COM RECURSO                  6101478
FALECIDO                                    0
INDEFERIDO                                633
INDEFERIDO COM RECURSO                 102866
PEDIDO NÃO CONHECIDO                        0
PEDIDO NÃO CONHECIDO COM RECURSO            0
PENDENTE DE JULGAMENTO                 472112
RENÚNCIA                                 1495
Name: QT_VOTOS_NOMINAIS, dtype: int64

In [81]:
votos_df.query('DS_SITUACAO_CANDIDATURA == "INAPTO"')['QT_VOTOS_NOMINAIS'].unique()

array([  0,  10,  86,   4,   7, 247,  40,  88,  14,  54,   8, 101,   3,
         5,  61, 126,  47,   1,  11,  96,  12,   9, 164,  18,  13,  93,
        42, 127, 261,   2, 231,  45])

## Prototipando função de ETL

Dentro do objetivo do projeto, vamos criar uma função para carregar os dados de votações das candidaturas. Nosso objetivo é uma função que carregue o total de votos de cada candidatura, isto é, agregados sobre os municípios e zona. Além disso, vamos contabilizar os votos totais recebidos e não apenas os válidos, pois nosso objetivo é medir a capacidade de obter votos de cada candidato, e não sua validade para a eleição.

In [1]:
import xavy.tse as tse

In [7]:
usecols = ['CD_TIPO_ELEICAO', 'NR_TURNO', 'SQ_CANDIDATO', 'QT_VOTOS_NOMINAIS']
filename = '/home/skems/ceweb/dados/brutos/tse/votacao_candidato_munzona_2022/votacao_candidato_munzona_2022_BRASIL.csv'
turno = 1
votos_col = 'QT_VOTOS_NOMINAIS'

In [15]:
def etl_votos_nominais(filename, turno=1, usecols=['CD_TIPO_ELEICAO', 'NR_TURNO', 'SQ_CANDIDATO', 'QT_VOTOS_NOMINAIS'], votos_col='QT_VOTOS_NOMINAIS'):
    """
    Load raw TSE data on votes on candidates from a CSV file and 
    aggregate them by candidates.
    
    Parameters
    ----------
    filename : str or Path
        Path to the TSE raw CSV file with prefix 
        'votacao_candidato_munzona'.
    turno : int
        Which round to select, either 1 or 2.
    usecols : list of str
        Columns to load from the file. It is required to include
        'SQ_CANDIDATO', 'NR_TURNO' and the column with the vote 
        counts. Other columns should be included if there are 
        security and consistency checks inside the function. 
        These are not output.
    votos_col : str
        Name of the column containing the vote counts, such as 
        'QT_VOTOS_NOMINAIS' or 'QT_VOTOS_NOMINAIS_VALIDOS'.
    
    Returns
    -------
    total_votos : Series
        Total number of votes of class given by `votos_col`
        on round `turno` per candidate, identified by 
        'SQ_CANDIDATO'.
    """
    
    # Load data:
    df = tse.load_tse_votacao_data(filename, usecols=usecols)

    # Security checks:
    assert len(df['CD_TIPO_ELEICAO'].unique()) == 1, 'Esperamos apenas um tipo de eleição, mas encontramos mais. Verifique!'

    # Select just one round:
    df = df.loc[df['NR_TURNO'] == turno]

    # Aggregate votes by candidate:
    total_votos = df.groupby('SQ_CANDIDATO')[votos_col].sum()
    
    return total_votos

In [14]:
etl_votos_nominais('/home/skems/ceweb/dados/brutos/tse/votacao_candidato_munzona_2022/votacao_candidato_munzona_2022_BRASIL.csv')

SQ_CANDIDATO
10001595336         1125
10001595339         2763
10001595342          175
10001595343          120
10001595344          176
                  ...   
280001612393     3599287
280001618036    51072345
280001644128      600955
280001677435       16604
280001734029       81129
Name: QT_VOTOS_NOMINAIS, Length: 26368, dtype: int64