# Movimentação partidária 2018 > 2022

## Preparo

### Origem dos datasets

- 2018: https://cdn.tse.jus.br/estatistica/sead/odsele/consulta_cand/consulta_cand_2018.zip

- 2022: https://cdn.tse.jus.br/estatistica/sead/odsele/consulta_cand/consulta_cand_2022.zip

- Metadados: https://drive.google.com/file/d/1mM1U-2hN-9usXOE4Dyvewk_wWjN-ZMuW/

### Bibliotecas

In [3]:
import pandas as pd

### Carregamento

In [58]:
dataset_2018 = r'C:\Users\rgarcia\Documents\GitHub\eleicoes_2022\consulta_cand_2018_BRASIL.csv'
dataset_2022 = r'C:\Users\rgarcia\Documents\GitHub\eleicoes_2022\consulta_cand_2022_BRASIL.csv'

cand_2018 = pd.read_csv(dataset_2018, sep=';', encoding='ISO-8859-1', decimal=',', low_memory=False)
cand_2022 = pd.read_csv(dataset_2022, sep=';', encoding='ISO-8859-1', decimal=',', low_memory=False)

In [59]:
# No dataset de 2018, PL, e CIDADANIA já tinha registro mas ainda não tinha candidato
# Os partidos ainda estava usando os nomes antigos, então precisa ser atualizado

cand_2018['SG_PARTIDO'] = cand_2018['SG_PARTIDO'].replace('PL', 'PR')
cand_2018['SG_PARTIDO'] = cand_2018['SG_PARTIDO'].replace('CIDADANIA', 'PPS')

In [60]:
filia_2018 = cand_2018[['NR_CPF_CANDIDATO','SG_PARTIDO']]

In [61]:
filia_2022 = cand_2022[['NR_CPF_CANDIDATO','SG_PARTIDO']]

In [62]:
# Data type do CPF é diferente entre os dois datasets
# Precisa padronizar os datatypes antes de rodar comparações

In [63]:
filia_2018.NR_CPF_CANDIDATO.dtype

dtype('O')

In [64]:
filia_2022.NR_CPF_CANDIDATO.dtype

dtype('int64')

In [65]:
# CPFs não informados

filia_2022[filia_2022.NR_CPF_CANDIDATO == -4].reset_index()

Unnamed: 0,index,NR_CPF_CANDIDATO,SG_PARTIDO
0,405,-4,PCO
1,752,-4,PCO
2,2927,-4,PCO
3,2928,-4,CIDADANIA
4,3654,-4,PCO
5,5565,-4,CIDADANIA
6,22586,-4,PCO
7,25413,-4,PCO
8,26860,-4,PCO


In [66]:
# Elimina candidatos que não registraram CPF

filia_2022 = filia_2022[filia_2022.NR_CPF_CANDIDATO != -4]

In [67]:
# no dataset de 2018, elimina registros que não contém apenas números

filia_2018 = filia_2018[filia_2018.NR_CPF_CANDIDATO.str.isnumeric()]

In [68]:
# CPFs com menos de 11 dígitos (sequencia de 9 + hash de 2)
# Isso aqui é um problema para fazer os cruzamentos

filia_2022[filia_2022.NR_CPF_CANDIDATO < 10000000000].sort_values(by='NR_CPF_CANDIDATO').reset_index()

Unnamed: 0,index,NR_CPF_CANDIDATO,SG_PARTIDO
0,12272,260185,PDT
1,20599,1046047,PL
2,26949,1399128,PT
3,25547,1608657,PSD
4,14953,2371677,SOLIDARIEDADE
...,...,...,...
9207,13716,9977092788,PMB
9208,18902,9981095842,AVANTE
9209,27501,9985879660,PTB
9210,21109,9985910761,PRTB


In [69]:
# transforma os CPFs de 2022 em string

filia_2022['NR_CPF_CANDIDATO'] = filia_2022['NR_CPF_CANDIDATO'].astype(str)

In [70]:
# insere zeros à esquerda

filia_2022['NR_CPF_CANDIDATO'] = filia_2022['NR_CPF_CANDIDATO'].str.zfill(11)

In [71]:
filia_2022.sort_values(by='NR_CPF_CANDIDATO')

Unnamed: 0,NR_CPF_CANDIDATO,SG_PARTIDO
12272,00000260185,PDT
20599,00001046047,PL
26949,00001399128,PT
25547,00001608657,PSD
14953,00002371677,SOLIDARIEDADE
...,...,...
7735,99964635753,PP
22467,99969955500,PSB
8651,99978938087,PDT
9342,99983494515,REPUBLICANOS


In [72]:
filia_2018['NR_CPF_CANDIDATO'].str.len().unique()

array([11], dtype=int64)

In [73]:
len(filia_2018['NR_CPF_CANDIDATO'].unique())

28983

In [74]:
filia_2018.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 29179 entries, 0 to 29179
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   NR_CPF_CANDIDATO  29179 non-null  object
 1   SG_PARTIDO        29179 non-null  object
dtypes: object(2)
memory usage: 683.9+ KB


In [75]:
filia_2022.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 28496 entries, 0 to 28504
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   NR_CPF_CANDIDATO  28496 non-null  object
 1   SG_PARTIDO        28496 non-null  object
dtypes: object(2)
memory usage: 667.9+ KB


In [76]:
mudancas = filia_2022.merge(filia_2018, how='outer', on='NR_CPF_CANDIDATO')

In [77]:
mudancas = mudancas.fillna('(NC)')

In [78]:
mudancas[mudancas.duplicated(subset='NR_CPF_CANDIDATO', keep=False)].sort_values(by='NR_CPF_CANDIDATO')[500:549]

Unnamed: 0,NR_CPF_CANDIDATO,SG_PARTIDO_x,SG_PARTIDO_y
23175,61674630182,PT,PT
8702,62100491334,PDT,(NC)
8703,62100491334,PDT,(NC)
21916,62183427353,PSDB,PATRIOTA
21917,62183427353,PSDB,PATRIOTA
447,62287958304,CIDADANIA,(NC)
446,62287958304,CIDADANIA,(NC)
44933,62501313615,(NC),PSB
44934,62501313615,(NC),PSB
15722,62528084900,REPUBLICANOS,PSL


In [79]:
mudancas.columns = ['CPF', 'E2022', 'E2018']

In [80]:
mudancas = mudancas[['CPF', 'E2018', 'E2022']]

In [81]:
mudancas = mudancas.drop_duplicates(subset=['CPF'], keep='last')

In [82]:
mudancas

Unnamed: 0,CPF,E2018,E2022
0,00777662299,PATRIOTA,UNIÃO
1,01957548916,(NC),SOLIDARIEDADE
2,34143343215,PSB,PV
3,20803796668,(NC),PP
4,51826640282,PSB,PTB
...,...,...,...
51330,71490442200,PRP,(NC)
51331,01471949702,PPL,(NC)
51332,12539062890,PATRIOTA,(NC)
51333,98143530434,MDB,(NC)


In [83]:
mudancas = mudancas.reset_index(drop=True)

In [25]:
HALT!

SyntaxError: invalid syntax (4208741763.py, line 1)

In [84]:
nome_partido = {'PR':'PL',
                'PPS':'CIDADANIA', 
                'PRB':'REPUBLICANOS', 
                # 'DEM':'UNIÃO', 
                'PTC':'AGIR',
                # 'PSL':'UNIÃO',
                'PPL': 'PC do B',
                'PRP':'PATRIOTA',
                'PHS':'PODE'}

In [85]:
mudancas = mudancas.replace(nome_partido)

In [86]:
fluxos = mudancas.groupby(['E2018', 'E2022']).CPF.count().reset_index().sort_values(by='CPF', ascending=False).reset_index(drop=True)

In [87]:
fluxos

Unnamed: 0,E2018,E2022,CPF
0,PATRIOTA,(NC),1859
1,PODE,(NC),1595
2,PC do B,(NC),1230
3,(NC),PL,1130
4,(NC),PTB,1102
...,...,...,...
755,PSOL,PRTB,1
756,PSOL,PSC,1
757,PCB,PSD,1
758,PCB,CIDADANIA,1


In [88]:
fluxos_i = fluxos[(fluxos.E2018 != '(NC)') & (fluxos.E2022 != '(NC)')]

In [92]:
fluxos_i.CPF.sum()

6340

In [93]:
fluxos_i.to_csv('fluxos_partidos_i.csv', index=False)

In [94]:
fluxos_i['Mudou?'] = fluxos_i['E2018'] != fluxos_i['E2022'] 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fluxos_i['Mudou?'] = fluxos_i['E2018'] != fluxos_i['E2022']


In [95]:
fluxos_i.groupby(['Mudou?']).CPF.sum()

Mudou?
False    2411
True     3929
Name: CPF, dtype: int64

In [98]:
fluxos_o = fluxos[(fluxos.E2018 == '(NC)') | (fluxos.E2022 == '(NC)')]

In [99]:
fluxos_o.to_csv('candidatos_novos_velhos.csv', index=False)