# Movimentação partidária 2018 > 2022

## Preparo

### Origem dos datasets

- 2018: https://cdn.tse.jus.br/estatistica/sead/odsele/consulta_cand/consulta_cand_2018.zip

- 2022: https://cdn.tse.jus.br/estatistica/sead/odsele/consulta_cand/consulta_cand_2022.zip

- Metadados: https://drive.google.com/file/d/1mM1U-2hN-9usXOE4Dyvewk_wWjN-ZMuW/

### Bibliotecas

In [1]:
import pandas as pd

### Carregamento

In [43]:
dataset_2018 = r'C:\Users\rgarcia\Documents\GitHub\eleicoes_2022\consulta_cand_2018_BRASIL.csv'
dataset_2022 = r'C:\Users\rgarcia\Documents\GitHub\eleicoes_2022\consulta_cand_2022_BRASIL.csv'

cand_2018 = pd.read_csv(dataset_2018, sep=';', encoding='ISO-8859-1', decimal=',', low_memory=False)
cand_2022 = pd.read_csv(dataset_2022, sep=';', encoding='ISO-8859-1', decimal=',', low_memory=False)

In [82]:
cand_2022.shape

(28505, 71)

In [44]:
# No dataset de 2018, PL, e CIDADANIA já tinha registro mas ainda não tinha candidato
# Os partidos ainda estava usando os nomes antigos, então precisa ser atualizado

cand_2018['SG_PARTIDO'] = cand_2018['SG_PARTIDO'].replace('PL', 'PR')
cand_2018['SG_PARTIDO'] = cand_2018['SG_PARTIDO'].replace('CIDADANIA', 'PPS')

In [45]:
filia_2018 = cand_2018[['NR_CPF_CANDIDATO','SG_PARTIDO']]

In [46]:
filia_2022 = cand_2022[['NR_CPF_CANDIDATO','SG_PARTIDO']]

In [47]:
# Data type do CPF é diferente entre os dois datasets
# Precisa padronizar os datatypes antes de rodar comparações

In [48]:
filia_2018.NR_CPF_CANDIDATO.dtype

dtype('O')

In [49]:
filia_2022.NR_CPF_CANDIDATO.dtype

dtype('int64')

In [50]:
# CPFs não informados

filia_2022[filia_2022.NR_CPF_CANDIDATO == -4].reset_index()

Unnamed: 0,index,NR_CPF_CANDIDATO,SG_PARTIDO
0,405,-4,PCO
1,752,-4,PCO
2,2927,-4,PCO
3,2928,-4,CIDADANIA
4,3654,-4,PCO
5,5565,-4,CIDADANIA
6,22586,-4,PCO
7,25413,-4,PCO
8,26860,-4,PCO


In [51]:
# Elimina candidatos que não registraram CPF

filia_2022 = filia_2022[filia_2022.NR_CPF_CANDIDATO != -4]

In [56]:
filia_2022 = filia_2022[filia_2022.NR_CPF_CANDIDATO > 10000000000].reset_index()

In [57]:
# no dataset de 2018, elimina registros que não contém apenas números

filia_2018 = filia_2018[filia_2018.NR_CPF_CANDIDATO.str.isnumeric()]

In [58]:
# CPFs com menos de 11 dígitos (sequencia de 9 + hash de 2)
# Isso aqui é um problema para fazer os cruzamentos

filia_2022[filia_2022.NR_CPF_CANDIDATO < 10000000000].sort_values(by='NR_CPF_CANDIDATO').reset_index()

Unnamed: 0,level_0,index,NR_CPF_CANDIDATO,SG_PARTIDO


In [59]:
# transforma os CPFs de 2022 em string

filia_2022['NR_CPF_CANDIDATO'] = filia_2022['NR_CPF_CANDIDATO'].astype(str)

In [61]:
filia_2022.sort_values(by='NR_CPF_CANDIDATO')

Unnamed: 0,index,NR_CPF_CANDIDATO,SG_PARTIDO
5904,8796,10000000795,PATRIOTA
19204,28379,10003695794,SOLIDARIEDADE
672,1001,10008252998,PDT
1659,2465,10008595763,PRTB
9679,14375,10009728368,PT
...,...,...,...
5196,7735,99964635753,PP
15208,22467,99969955500,PSB
5806,8651,99978938087,PDT
6261,9342,99983494515,REPUBLICANOS


In [14]:
# insere zeros à esquerda

#filia_2022['NR_CPF_CANDIDATO'] = filia_2022['NR_CPF_CANDIDATO'].str.zfill(11)

In [62]:
filia_2022.sort_values(by='NR_CPF_CANDIDATO')

Unnamed: 0,index,NR_CPF_CANDIDATO,SG_PARTIDO
5904,8796,10000000795,PATRIOTA
19204,28379,10003695794,SOLIDARIEDADE
672,1001,10008252998,PDT
1659,2465,10008595763,PRTB
9679,14375,10009728368,PT
...,...,...,...
5196,7735,99964635753,PP
15208,22467,99969955500,PSB
5806,8651,99978938087,PDT
6261,9342,99983494515,REPUBLICANOS


In [63]:
filia_2018['NR_CPF_CANDIDATO'].str.len().unique()

array([11], dtype=int64)

In [64]:
len(filia_2018['NR_CPF_CANDIDATO'].unique())

28983

In [65]:
filia_2018.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 29179 entries, 0 to 29179
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   NR_CPF_CANDIDATO  29179 non-null  object
 1   SG_PARTIDO        29179 non-null  object
dtypes: object(2)
memory usage: 683.9+ KB


In [66]:
filia_2022.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19284 entries, 0 to 19283
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   index             19284 non-null  int64 
 1   NR_CPF_CANDIDATO  19284 non-null  object
 2   SG_PARTIDO        19284 non-null  object
dtypes: int64(1), object(2)
memory usage: 452.1+ KB


In [67]:
mudancas = filia_2022.merge(filia_2018, how='outer', on='NR_CPF_CANDIDATO')

In [68]:
mudancas = mudancas.fillna('(NC)')

In [69]:
mudancas[mudancas.duplicated(subset='NR_CPF_CANDIDATO', keep=False)].sort_values(by='NR_CPF_CANDIDATO')[500:549]

Unnamed: 0,index,NR_CPF_CANDIDATO,SG_PARTIDO_x,SG_PARTIDO_y
12222,17931.0,75160099549,PROS,(NC)
12223,21331.0,75160099549,PROS,(NC)
19471,(NC),75851199253,(NC),PT
19470,(NC),75851199253,(NC),PT
5666,8347.0,76829170915,PSD,(NC)
5667,11294.0,76829170915,PSD,(NC)
43178,(NC),77407415900,(NC),PCB
43177,(NC),77407415900,(NC),PCB
10706,24515.0,78074894568,PROS,(NC)
10705,15731.0,78074894568,PROS,(NC)


In [70]:
mudancas.columns = ['remain_index','CPF', 'E2022', 'E2018']

In [71]:
mudancas = mudancas[['CPF', 'E2018', 'E2022']]

In [72]:
mudancas = mudancas.drop_duplicates(subset=['CPF'], keep='last')

In [73]:
mudancas

Unnamed: 0,CPF,E2018,E2022
0,34143343215,PSB,PV
1,20803796668,(NC),PP
2,51826640282,PSB,PTB
3,69979847115,(NC),PMB
4,28352475720,(NC),PTB
...,...,...,...
43930,71490442200,PRP,(NC)
43931,01471949702,PPL,(NC)
43932,12539062890,PATRIOTA,(NC)
43933,98143530434,MDB,(NC)


In [74]:
mudancas = mudancas.reset_index(drop=True)

In [75]:
nome_partido = {'PR':'PL',
                'PPS':'CIDADANIA', 
                'PRB':'REPUBLICANOS', 
                # 'DEM':'UNIÃO', 
                'PTC':'AGIR',
                # 'PSL':'UNIÃO',
                'PPL': 'PC do B',
                'PRP':'PATRIOTA',
                'PHS':'PODE'}

In [76]:
mudancas = mudancas.replace(nome_partido)

In [77]:
fluxos = mudancas.groupby(['E2018', 'E2022']).CPF.count().reset_index().sort_values(by='CPF', ascending=False).reset_index(drop=True)

In [78]:
fluxos

Unnamed: 0,E2018,E2022,CPF
0,PATRIOTA,(NC),1962
1,PODE,(NC),1689
2,PC do B,(NC),1276
3,PSL,(NC),1211
4,PSOL,(NC),1118
...,...,...,...
709,DC,REDE,1
710,PL,PV,1
711,PSOL,PV,1
712,CIDADANIA,PMN,1


In [79]:
fluxos_i = fluxos[(fluxos.E2018 != '(NC)') & (fluxos.E2022 != '(NC)')]

In [80]:
# Checa quantas mudanças foram detectadas

fluxos_i.CPF.sum()

4528

In [34]:
Por favor, pare agora!

SyntaxError: invalid syntax (235291548.py, line 1)

In [35]:
fluxos_i.to_csv('fluxos_partidos_i.csv', index=False)

In [36]:
fluxos_i['Mudou?'] = fluxos_i['E2018'] != fluxos_i['E2022'] 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fluxos_i['Mudou?'] = fluxos_i['E2018'] != fluxos_i['E2022']


In [42]:
fluxos_i.groupby(['Mudou?']).CPF.sum()[1]/(fluxos_i.groupby(['Mudou?']).CPF.sum()[1]+fluxos_i.groupby(['Mudou?']).CPF.sum()[0])

0.6197160883280757

In [None]:
fluxos_o = fluxos[(fluxos.E2018 == '(NC)') | (fluxos.E2022 == '(NC)')]

In [None]:
fluxos_o.to_csv('candidatos_novos_velhos.csv', index=False)

In [None]:
# Validação

# Corrigindo os CPFs não validados, de 28505 candidatos de 2022 eu capturei 6340 (22,2%) que também concorreram em 2018

# Se eu simplesmente elimino os CPFs não validados, de 19284 candidatos eu capturo 4528 (23,5%).

In [83]:
6340/28505

0.22241711980354323

In [84]:
4528/19284

0.23480605683468161