# Análise - Receita dos candidatos a deputado federal em 2018 e 2022

Análise exploratória dos bancos dos candidatos e suas receitas, de 2018 e 2022. Fonte: Dados Abertos do TSE

Trabalho desenvolvido para a disciplina Mineiração de Dados Não Estruturados, do curso de Pós-graduação em Jornalismo de Dados, Automação e Data Storytelling

**Grupo**: Ananda Ridart, Gabriel Ronan, Géssica Brandino e Vitor Arthur

# Etapa 1: Primeiros Passos
Importando bibliotecas e fazendo leitura dos bancos de dados

In [None]:
# instalando bibliotecas
! pip install altair

In [2]:
# importando bibliotecas
import os
import pandas as pd
import altair as alt

In [3]:
# recebendo conjunto de dados de despesas dos candidatos em 2022
despesas_cand2022 = pd.read_csv(r'C:\Users\Vitor\Creative Cloud Files\Insper\2º Trimestre\Análise Exploratória de Dados II\Projeto Final\2022\receitas_candidatos_2022_BRASIL.csv',
                          sep = ';',
                          encoding = 'latin1',
                          decimal = ',',
                          low_memory = False)

In [4]:
# recebendo conjunto de dados dos candidatos em 2022
cand2022 = pd.read_csv(r'C:\Users\Vitor\Creative Cloud Files\Insper\2º Trimestre\Análise Exploratória de Dados II\Projeto Final\2022\consulta_cand_2022_BRASIL.csv',
                          sep = ';',
                          encoding = 'latin1',
                          decimal = ',',
                          low_memory = False)

In [5]:
# recebendo banco de dados de despesas de 2018
despesas_cand2018 = pd.read_csv(r'C:\Users\Vitor\Creative Cloud Files\Insper\2º Trimestre\Análise Exploratória de Dados II\Projeto Final\2018\Despesas\despesas_contratadas_candidatos_2018_BRASIL.csv',
                          sep = ';',
                          encoding = 'latin1',
                          decimal = ',',
                          low_memory = False)

In [6]:
# recebendo conjunto de dados dos candidatos em 2018
cand2018 = pd.read_csv(r'C:\Users\Vitor\Creative Cloud Files\Insper\2º Trimestre\Análise Exploratória de Dados II\Projeto Final\2018\consulta_cand_2018_BRASIL.csv',
                          sep = ';',
                          encoding = 'latin1',
                          decimal = ',',
                          low_memory = False)

# Etapa 2: ```<merge()>``` e Primeiros tratamentos

## Fazendo ```<merge()>``` dos dados para que cada tabela tenha descrição completa de cada ano

In [7]:
# criando dataframe único com dados de 2022
candidatos2022 = pd.merge(cand2022, despesas_cand2022,  how = 'inner', on = 'SQ_CANDIDATO')
candidatos2022.head(2)

Unnamed: 0,DT_GERACAO_x,HH_GERACAO_x,ANO_ELEICAO_x,CD_TIPO_ELEICAO_x,NM_TIPO_ELEICAO_x,NR_TURNO,CD_ELEICAO_x,DS_ELEICAO_x,DT_ELEICAO_x,TP_ABRANGENCIA,...,DS_CARGO_CANDIDATO_DOADOR,NR_PARTIDO_DOADOR,SG_PARTIDO_DOADOR,NM_PARTIDO_DOADOR,NR_RECIBO_DOACAO,NR_DOCUMENTO_DOACAO,SQ_RECEITA,DT_RECEITA,DS_RECEITA,VR_RECEITA
0,05/12/2022,18:38:01,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,#NULO#,90,PROS,Partido Republicano da Ordem Social,000900300000SC000001E,1,29326029,02/09/2022,#NULO#,600000.0
1,05/12/2022,18:38:01,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,...,Senador,19,PODE,Podemos,001900500000SE000001E,988001,31098572,16/08/2022,#NULO#,50.0


In [8]:
# criando dataframe único com dados de 2018
candidatos2018 = pd.merge(cand2018, despesas_cand2018, how = 'inner', on = 'SQ_CANDIDATO')
candidatos2018.head(2)

Unnamed: 0,DT_GERACAO_x,HH_GERACAO_x,ANO_ELEICAO_x,CD_TIPO_ELEICAO_x,NM_TIPO_ELEICAO_x,NR_TURNO,CD_ELEICAO_x,DS_ELEICAO_x,DT_ELEICAO_x,TP_ABRANGENCIA,...,SG_PARTIDO_FORNECEDOR,NM_PARTIDO_FORNECEDOR,DS_TIPO_DOCUMENTO,NR_DOCUMENTO,CD_ORIGEM_DESPESA,DS_ORIGEM_DESPESA,SQ_DESPESA,DT_DESPESA,DS_DESPESA,VR_DESPESA_CONTRATADA
0,04/12/2022,10:01:35,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,#NULO#,#NULO#,#NULO#,#NULO#,20210000,"Encargos financeiros, taxas bancárias e/ou op....",25251367,20/09/2018,TARIFAS BANCARIAS,9.7
1,04/12/2022,10:01:35,2018,2,ELEIÇÃO ORDINÁRIA,1,297,Eleições Gerais Estaduais 2018,07/10/2018,ESTADUAL,...,#NULO#,#NULO#,Outro,000001,20600000,Cessão ou locação de veículos,25251388,31/08/2018,ALUGUEL DE VEICULO· INCLUSO O MOSTORISTA.,3450.0


## Modificando o formato da data

In [9]:
# Modificando a variável de data 
candidatos2022['DT_GERACAO_x'] = pd.to_datetime(candidatos2022['DT_GERACAO_x'], format = '%d/%m/%Y')
candidatos2018['DT_GERACAO_x'] = pd.to_datetime(candidatos2018['DT_GERACAO_x'], format = '%d/%m/%Y')

## Fazendo filtro somente para deputados federais

In [10]:
# 2022
candidatos2022 = candidatos2022.query('  DS_CARGO_x == "DEPUTADO FEDERAL"   ')

# 2018
candidatos2018 = candidatos2018.query('  DS_CARGO_x == "DEPUTADO FEDERAL"   ')

## Realizando agrupamento para fazer análise etnográfica dos candidatos

Criando novo Dataframe com Deputados Federais, total de verba distribuida para cada um e retirando as duplicatas

In [11]:
# criando novo dataframe com os dados que são necessários para a análise
cand2022_analise = candidatos2022[['NM_CANDIDATO_x', 'VR_RECEITA', 'DS_GENERO', 'DS_COR_RACA', 'SG_UF_x', 'NR_CPF_CANDIDATO_x', 'SG_PARTIDO_x']]
cand2018_analise = candidatos2018[['NM_CANDIDATO_x', 'VR_DESPESA_CONTRATADA', 'DS_GENERO', 'DS_COR_RACA', 'SG_UF_x', 'NR_CPF_CANDIDATO_x', 'SG_PARTIDO_x']]

In [None]:
# agrupando e retirando duplicadas para que cada linha fique com orçamento total de cada candidato
## 2022
cand2022_analise['total_cand'] = cand2022_analise.groupby(['NR_CPF_CANDIDATO_x'])['VR_RECEITA'].transform('sum')
cand2022_analise.drop_duplicates(subset = 'NM_CANDIDATO_x', inplace=True)
cand2022_analise.drop(columns=['VR_RECEITA'], inplace=True)

## 2018
cand2018_analise['total_cand'] = cand2018_analise.groupby(['NR_CPF_CANDIDATO_x'])['VR_DESPESA_CONTRATADA'].transform('sum')
cand2018_analise.drop_duplicates(subset = 'NM_CANDIDATO_x', inplace=True)
cand2018_analise.drop(columns=['VR_DESPESA_CONTRATADA'], inplace=True)

In [None]:
# renomeando as colunas e juntando os dois dataframes
## 2022
cand2022_analise.rename(columns= {'NM_CANDIDATO_x': 'Nome_Candidato',
                                  'DS_GENERO': 'Gênero',
                                  'DS_COR_RACA': 'Raça',
                                  'SG_UF_x': 'UF',
                                  'NR_CPF_CANDIDATO_x': 'CPF',
                                  'SG_PARTIDO_x': 'Partido'},
                                  inplace=True)
cand2022_analise.reset_index(inplace=True, drop = True)
cand2022_analise['ano'] = '2022'

## 2018
cand2018_analise.rename(columns= {'NM_CANDIDATO_x': 'Nome_Candidato',
                                  'DS_GENERO': 'Gênero',
                                  'DS_COR_RACA': 'Raça',
                                  'SG_UF_x': 'UF',
                                  'NR_CPF_CANDIDATO_x': 'CPF',
                                  'SG_PARTIDO_x': 'Partido'},
                                  inplace=True)
cand2018_analise.reset_index(inplace=True, drop = True)
cand2018_analise['ano'] = '2018'

# juntandos os dataframes
cand_analise = pd.concat([cand2022_analise, cand2018_analise])
cand_analise.head()

## Retirando _missing data_ e substituindo por 0

In [14]:
# Localizando Missing Data
missing_nome = cand_analise[cand_analise['Nome_Candidato'].isna()]
missing_cpf = missing_nome[['CPF']]

# Retirando Missing e substituindo o valor por 0
cand_analise.loc[cand_analise['CPF'].isin(missing_cpf)]
cand_analise['total_cand'] = cand_analise['total_cand'].fillna(0)
cand_analise.head(2)

Unnamed: 0,Nome_Candidato,Gênero,Raça,UF,CPF,Partido,total_cand,ano
0,CARLOS EDUARDO ALVES TEIXEIRA DO PRADO,MASCULINO,BRANCA,PR,7051262939,PSC,30000.0,2022
1,ELIZEU ANTONIO MACIEL,MASCULINO,BRANCA,PE,13626434400,AVANTE,70000.0,2022


# Etapa 3: Começando as análises exploratórias

## Fazendo Estatística Descritiva Univariada

In [15]:
# Estatística Descritiva do total do orçamento de todos os candidatos - 2022
pd.set_option('display.float_format', lambda x: '%.2f' %x)
cand_analise.query('  ano == "2022"  ').describe()['total_cand']

count      9287.00
mean     348340.22
std      638809.86
min          13.40
25%       20686.83
50%       77608.71
75%      313903.81
max     3789999.99
Name: total_cand, dtype: float64

In [16]:
# Estatística Descritiva do total do orçamento de todos os candidatos - 2018
cand_analise.query('  ano == "2018"   ').describe()['total_cand']

count      6171.00
mean     208280.51
std      459720.22
min           2.85
25%        4029.25
50%       19859.00
75%      105108.29
max     2591858.00
Name: total_cand, dtype: float64

In [17]:
# verificando as legendas dos partidos, que podem aparecer de maneira diferente do normal
cand_analise['Partido'].unique()

array(['PSC', 'AVANTE', 'PT', 'AGIR', 'PSD', 'PRTB', 'REPUBLICANOS',
       'PDT', 'PMB', 'PSDB', 'DC', 'NOVO', 'PSOL', 'PATRIOTA', 'PROS',
       'MDB', 'PODE', 'PL', 'REDE', 'CIDADANIA', 'PP', 'SOLIDARIEDADE',
       'PSB', 'UNIÃO', 'PCO', 'PMN', 'PV', 'PTB', 'PSTU', 'PC do B', 'UP',
       'PCB', 'PR', 'PRB', 'PHS', 'DEM', 'PPS', 'PSL', 'PRP', 'PTC',
       'PPL'], dtype=object)

## Descrição da distribuição de recursos por gênero

### 2022

In [18]:
# Mulheres
cand_analise.query('  ano == "2022" and Gênero == "FEMININO"  ').describe()['total_cand']

count      3290.00
mean     294040.74
std      557686.19
min          16.50
25%       24948.91
50%       79237.68
75%      267646.46
max     3313917.40
Name: total_cand, dtype: float64

In [19]:
cand_analise.query('  total_cand == 16.50 ')

Unnamed: 0,Nome_Candidato,Gênero,Raça,UF,CPF,Partido,total_cand,ano
6046,TELMA GIMENEZ LOUREIRO,FEMININO,BRANCA,SP,10410739847,PDT,16.5,2022


In [20]:
# Homens
cand_analise.query('  ano == "2022" and Gênero == "MASCULINO"  ').describe()['total_cand']

count      5997.00
mean     378129.33
std      677409.46
min          13.40
25%       20000.00
50%       76585.27
75%      350000.00
max     3789999.99
Name: total_cand, dtype: float64

In [21]:
cand_analise.query('  total_cand == 13.40 ')

Unnamed: 0,Nome_Candidato,Gênero,Raça,UF,CPF,Partido,total_cand,ano
275,FÁBIO ALVES GARRIDO,MASCULINO,BRANCA,RJ,3389817727,PRTB,13.4,2022


### 2018

In [22]:
# Mulheres
cand_analise.query('  ano == "2018" and Gênero == "FEMININO"  ').describe()['total_cand']

count      1877.00
mean     145191.25
std      387570.65
min           9.90
25%        4000.00
50%       15000.00
75%       75945.51
max     2500000.00
Name: total_cand, dtype: float64

In [23]:
# Homens
cand_analise.query('  ano == "2018" and Gênero == "MASCULINO"  ').describe()['total_cand']

count      4293.00
mean     235913.01
std      485434.74
min           2.85
25%        4100.00
50%       20139.22
75%      137876.32
max     2591858.00
Name: total_cand, dtype: float64

## Descrição da distribuição recursos por Raça

### 2022

In [24]:
cand_analise['Raça'].unique()

array(['BRANCA', 'PARDA', 'PRETA', 'INDÍGENA', 'NÃO INFORMADO', 'AMARELA',
       'NÃO DIVULGÁVEL'], dtype=object)

In [25]:
cand_analise.query('  total_cand == 3789999.99  ')

Unnamed: 0,Nome_Candidato,Gênero,Raça,UF,CPF,Partido,total_cand,ano
8083,ARNALDO CALIL PEREIRA JARDIM,MASCULINO,BRANCA,SP,4197807856,CIDADANIA,3789999.99,2022


In [26]:
# Brancos
cand_analise.query('  ano == "2022" and Raça == "BRANCA"  ').describe()['total_cand']

count      4759.00
mean     429471.97
std      721556.80
min          13.40
25%       25013.13
50%      100000.00
75%      429264.30
max     3789999.99
Name: total_cand, dtype: float64

In [27]:
# Não brancos
cand_analise.query('  ano == "2022" and Raça != "BRANCA"  ').describe()['total_cand']

count      4528.00
mean     263069.46
std      525038.73
min          40.00
25%       20000.00
50%       60000.00
75%      228695.00
max     3332410.09
Name: total_cand, dtype: float64

In [28]:
cand_analise.query(' total_cand == 3332410.09  ')

Unnamed: 0,Nome_Candidato,Gênero,Raça,UF,CPF,Partido,total_cand,ano
3580,JOSÉ MENDONÇA BEZERRA FILHO,MASCULINO,PARDA,PE,40530086468,UNIÃO,3332410.09,2022


### 2018

In [29]:
# Brancos
cand_analise.query('  ano == "2018" and Raça == "BRANCA"  ').describe()['total_cand']

count      3745.00
mean     266263.42
std      525525.30
min          10.00
25%        5444.00
50%       27500.00
75%      187029.00
max     2591858.00
Name: total_cand, dtype: float64

In [30]:
# Não brancos
cand_analise.query('  ano == "2018" and Raça != "BRANCA"  ').describe()['total_cand']

count      2426.00
mean     118772.67
std      313247.86
min           2.85
25%        3000.00
50%       11342.50
75%       54213.88
max     2448076.40
Name: total_cand, dtype: float64

## Descrição da distribuição de mulheres e homens por raça

### Brancos em 2022

In [31]:
# Homens
cand_analise.query('  ano == "2022" and Raça == "BRANCA" and Gênero == "MASCULINO"  ').describe()['total_cand']

count      3201.00
mean     473708.98
std      763543.85
min          13.40
25%       25000.00
50%      106000.00
75%      503358.90
max     3789999.99
Name: total_cand, dtype: float64

In [32]:
cand_analise.query('  total_cand == 3789999.99  ').head()

Unnamed: 0,Nome_Candidato,Gênero,Raça,UF,CPF,Partido,total_cand,ano
8083,ARNALDO CALIL PEREIRA JARDIM,MASCULINO,BRANCA,SP,4197807856,CIDADANIA,3789999.99,2022


In [33]:
# Mulheres
cand_analise.query('  ano == "2022" and Raça == "BRANCA" and Gênero == "FEMININO"  ').describe()['total_cand']


count      1558.00
mean     338584.50
std      616875.55
min          16.50
25%       27972.18
50%       92050.00
75%      313287.03
max     3313917.40
Name: total_cand, dtype: float64

In [34]:
cand_analise.query('  total_cand == 3313917.40  ').head()

Unnamed: 0,Nome_Candidato,Gênero,Raça,UF,CPF,Partido,total_cand,ano
5028,RENATA HELLMEISTER DE ABREU MELO,FEMININO,BRANCA,SP,30669688800,PODE,3313917.4,2022


### Não brancos em 2022

In [35]:
# Homens
cand_analise.query('  ano == "2022" and Raça != "BRANCA" and Gênero == "MASCULINO"  ').describe()['total_cand']

count      2796.00
mean     268704.98
std      542685.09
min          40.00
25%       16611.25
50%       55117.04
75%      229425.44
max     3332410.09
Name: total_cand, dtype: float64

In [36]:
cand_analise.query('  total_cand == 3332410.09  ').head()['total_cand']

3580   3332410.09
Name: total_cand, dtype: float64

In [37]:
# Mulheres
cand_analise.query('  ano == "2022" and Raça != "BRANCA" and Gênero == "FEMININO"  ').describe()['total_cand']

count      1732.00
mean     253971.93
std      495245.41
min         100.00
25%       21115.00
50%       69693.52
75%      226673.75
max     3245823.67
Name: total_cand, dtype: float64

In [38]:
cand_analise.query('  total_cand == 3245823.67  ').head()

Unnamed: 0,Nome_Candidato,Gênero,Raça,UF,CPF,Partido,total_cand,ano
284,SILVIA CRISTINA AMANCIO CHAGAS,FEMININO,PRETA,RO,1739396782,PL,3245823.67,2022


### Brancos em 2018

In [39]:
# Homens
cand_analise.query('  ano == "2018" and Raça == "BRANCA" and Gênero == "MASCULINO"  ').describe()['total_cand']

count      2670.00
mean     298243.55
std      549038.67
min          10.00
25%        5977.50
50%       30000.00
75%      238358.23
max     2591858.00
Name: total_cand, dtype: float64

In [40]:
# Mulheres
cand_analise.query('  ano == "2018" and Raça == "BRANCA" and Gênero == "FEMININO"  ').describe()['total_cand']

count      1075.00
mean     186833.69
std      452533.25
min          10.00
25%        5000.00
50%       20856.40
75%       99815.76
max     2500000.00
Name: total_cand, dtype: float64

### Não brancos em 2018

In [41]:
# Homens
cand_analise.query('  ano == "2018" and Raça != "BRANCA" and Gênero == "MASCULINO"  ').describe()['total_cand']

count      1623.00
mean     133372.93
std      332577.32
min           2.85
25%        2979.95
50%       13250.00
75%       60008.19
max     2448076.40
Name: total_cand, dtype: float64

In [42]:
# Mulheres
cand_analise.query('  ano == "2018" and Raça != "BRANCA" and Gênero == "FEMININO"  ').describe()['total_cand']

count       802.00
mean      89373.75
std      267910.18
min           9.90
25%        3000.00
50%       10000.00
75%       50000.00
max     2425175.92
Name: total_cand, dtype: float64

## Descrição da distribuição por estado e por gênero

In [43]:
# pedindo ao pandas para mostrar a tabela completa
pd.set_option('display.max_columns', None) # coluna
pd.set_option('display.max_rows', None) # linha

# Sincretizando os dados de Raças e agrupando os valores para receber uma estatística descritiva do cruzamento
sinc_raca = cand_analise.replace(to_replace = ['PARDA', 'PRETA', 'INDÍGENA', 'NÃO INFORMADO', 'AMARELA'], value = 'NÃO BRANCO')
comp_estado_2022 = sinc_raca.query('    ano == "2022"  ')
comp_estado_2022 = comp_estado_2022.groupby(['UF', 'Gênero', 'Raça']).describe()
comp_estado_2022.sort_values(by=('total_cand', '50%'), ascending=False).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,total_cand,total_cand,total_cand,total_cand,total_cand,total_cand,total_cand,total_cand
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count,mean,std,min,25%,50%,75%,max
UF,Gênero,Raça,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
MT,FEMININO,BRANCA,25.0,761055.59,825918.02,2000.0,119808.52,508000.0,1134250.0,2550968.11
PI,MASCULINO,BRANCA,26.0,891067.03,931559.74,300.0,68063.39,480719.7,1814000.97,2927621.1
RO,MASCULINO,BRANCA,34.0,817487.59,875817.11,5000.0,126278.0,462757.0,1230978.79,2886050.0
AP,MASCULINO,BRANCA,27.0,640652.62,703063.12,1434.55,207171.2,456800.0,667300.0,3170000.0
AC,MASCULINO,BRANCA,16.0,766741.0,852024.14,9582.96,187854.93,417409.83,1067449.71,3025100.0
AL,MASCULINO,BRANCA,42.0,713639.75,916574.12,2000.0,63601.36,380310.0,756873.51,3238300.0
AP,FEMININO,BRANCA,15.0,407733.19,323672.48,3000.0,192031.55,335926.0,601550.0,1021931.0
TO,FEMININO,NÃO BRANCO,34.0,466155.68,502811.91,4758.32,115625.0,316620.0,550000.0,1965101.12
RR,MASCULINO,BRANCA,24.0,430416.95,484489.98,4133.33,40155.0,300910.43,562847.5,1916407.41
TO,MASCULINO,NÃO BRANCO,66.0,493055.03,656710.0,800.0,51858.65,300400.0,591685.0,2870000.0


In [None]:
# orçamento por estado caso a distribuição fosse igual - 2022
cand2022_analise['total'] = cand2022_analise['total_cand'].sum()
cand2022_analise['igualitário'] = cand2022_analise['total'] / cand2022_analise['CPF'].count()
cand2022_analise['igualitário'].head(1)

In [None]:
# orçamento por estado caso a distribuição fosse igual - 2018
cand2018_analise['total'] = cand2018_analise['total_cand'].sum()
cand2018_analise['igualitário'] = cand2018_analise['total'] / cand2018_analise['CPF'].count()
cand2018_analise['igualitário'].head(1)

In [49]:
# descrevendo os dados, realizando agrupamento por Unidade Federativa, Gênero e Raça
distribuicao_estado = sinc_raca.groupby(['UF', 'Gênero', 'Raça']).agg({'total_cand': ['sum', 'mean', 'median', 'max'], 'Nome_Candidato': 'count'})
distribuicao_estado

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,total_cand,total_cand,total_cand,total_cand,Nome_Candidato
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,sum,mean,median,max,count
UF,Gênero,Raça,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
AC,FEMININO,BRANCA,9786117.61,391444.7,123362.96,1669311.96,25
AC,FEMININO,NÃO BRANCO,23825545.67,541489.67,80973.65,2913700.0,44
AC,MASCULINO,BRANCA,18716515.45,719865.98,417409.83,3025100.0,26
AC,MASCULINO,NÃO BRANCO,26776619.22,297517.99,96028.68,2577602.0,90
AL,FEMININO,BRANCA,13800302.53,372981.15,271393.2,2293340.05,37
AL,FEMININO,NÃO BRANCO,7644019.27,254800.64,57189.0,1908530.34,30
AL,MASCULINO,BRANCA,39547513.73,573152.37,286180.29,3238300.0,69
AL,MASCULINO,NÃO BRANCO,27369819.67,441448.7,52555.0,3171500.0,62
AM,FEMININO,BRANCA,12050015.52,634211.34,115662.4,3174965.0,19
AM,FEMININO,NÃO BRANCO,15483268.79,258054.48,49705.0,2568230.0,60


In [None]:
# exportando os últimos dois Dataframes anteriores para CSV
distribuicao_estado.to_csv(r'distribuicao_estado.csv')
comp_estado_2022.to_csv(r'comp_estado_2022.csv')

# Etapa 4: Criando visualização de dados

## Gráfico comparando os dados do total de candidatos por gênero e raça

In [50]:
# criando porcentagem para aparecer na visualização
cand_analise['porcentagem_orçamento'] = (cand_analise['total_cand'] / cand_analise['total_cand'].sum()) * 100
cand_analise.sort_values(by=('porcentagem_orçamento'), ascending=False).head(10)

Unnamed: 0,Nome_Candidato,Gênero,Raça,UF,CPF,Partido,total_cand,ano,porcentagem_orçamento
8083,ARNALDO CALIL PEREIRA JARDIM,MASCULINO,BRANCA,SP,4197807856,CIDADANIA,3789999.99,2022,0.08
3580,JOSÉ MENDONÇA BEZERRA FILHO,MASCULINO,PARDA,PE,40530086468,UNIÃO,3332410.09,2022,0.07
3888,FÁBIO HENRIQUE DIAS DE MACEDO,MASCULINO,BRANCA,MA,65002865372,PODE,3322098.85,2022,0.07
5028,RENATA HELLMEISTER DE ABREU MELO,FEMININO,BRANCA,SP,30669688800,PODE,3313917.4,2022,0.07
3409,CARLOS GOMES BEZERRA,MASCULINO,BRANCA,MT,834939134,MDB,3290237.67,2022,0.07
3729,LUIZ PAULO TEIXEIRA FERREIRA,MASCULINO,BRANCA,SP,2441369806,PT,3281293.48,2022,0.07
527,GLAUSKSTON BATISTA RIOS,MASCULINO,BRANCA,GO,60751266191,PSC,3268149.5,2022,0.07
284,SILVIA CRISTINA AMANCIO CHAGAS,FEMININO,PRETA,RO,1739396782,PL,3245823.67,2022,0.07
3542,ISNALDO BULHÕES BARROS JÚNIOR,MASCULINO,BRANCA,AL,67766692449,MDB,3238300.0,2022,0.07
97,FABÍOLA KARLA DE OLIVEIRA MACIEL,FEMININO,BRANCA,PE,4533024408,SOLIDARIEDADE,3222544.0,2022,0.07


In [51]:
# desativando limite do Altair para valores no Dataframe - raça
alt.data_transformers.disable_max_rows()

# Fazendo um template para fazer diversas análises com o orçamento total de cada candidato
def grafico_personalizado_mark(x_config, y_config, coluna_color, coluna_tamanho, título):
    base = alt.Chart(cand_analise).mark_point(filled=True).encode(
        size = alt.Size(coluna_tamanho, scale = alt.Scale(range=[1, 400]), legend=None),
        color = alt.Color(coluna_color, scale = alt.Scale(scheme = 'set1')),
        column = 'ano',
        tooltip = ['Nome_Candidato', 'Gênero', 'Raça', 'Partido', 'total_cand', 'porcentagem_orçamento']
    ).configure_mark(opacity = 0.5)\
    .properties(width = 400, height=400, title = título)
    return base.encode(x = x_config, y = y_config)

In [None]:
# Distribuição de Verba para Propaganda Eleitoral
grafico_personalizado_mark(x_config = alt.X('UF', title = 'Unidade Federativa'), \
                      y_config = alt.Y('total_cand', title = 'Orçamento por candidato'), \
                      coluna_color = 'Raça', coluna_tamanho = 'total_cand', título = 'Distribuição de Verba para Propaganda Eleitoral')

In [None]:
# Distribuição de Verba para Propaganda Eleitoral - gênero
grafico_personalizado_mark(x_config = alt.X('UF', title = 'Unidade Federativa'), \
                           y_config = alt.Y('total_cand', title = 'Orçamento por candidato'), \
                           coluna_color = 'Gênero', coluna_tamanho = 'total_cand', título = 'Distribuição de Verba para Propaganda Eleitoral - Gênero')

In [None]:
# Distribuição de verba por legenda e gênero
grafico_personalizado_mark(x_config = alt.X('Partido', title = 'Partido'), \
                           y_config = alt.Y('total_cand', title = 'Orçamento por candidato'), \
                           coluna_color = 'Gênero', coluna_tamanho = 'total_cand', título = 'Distribuição de Verba para Propaganda Eleitoral - Gênero e Partido')

In [None]:
# Distribuição de verba por legenda e raça
grafico_personalizado_mark(x_config = alt.X('Partido', title = 'Partido'), \
                           y_config = alt.Y('total_cand', title = 'Orçamento por candidato'), \
                           coluna_color = 'Raça', coluna_tamanho = 'total_cand', título = 'Distribuição de Verba para Propaganda Eleitoral - Raça e Partido')

In [None]:
# Distribuição de Verba para Propaganda Eleitoral - Dados Sincretizados
alt.Chart(sinc_raca).mark_point(filled=True).encode(
    x = alt.X('UF', title = 'Unidade Federativa'),
    y = alt.Y('total_cand', title = 'Orçamento por candidato'),
    size = alt.Size('total_cand', scale = alt.Scale(range=[1, 400]), legend=None),
    color = alt.Color('Raça', scale = alt.Scale(scheme = 'set1')),
    column = 'ano',
    tooltip = ['Nome_Candidato', 'Gênero', 'Raça', 'Partido', 'total_cand']
).configure_mark(opacity = 0.5)\
    .properties(width = 400, height=400, title = 'Distribuição de Verba para Propaganda Eleitoral')

## Gráfico da distribuição de verba por Raça e Gênero em 2022, mostrando a distribuição em baixo

In [57]:
# Mostrando dataframe somente de dados da eleição de 2022
cand2022_analise.head()

Unnamed: 0,Nome_Candidato,Gênero,Raça,UF,CPF,Partido,total_cand,ano,total,igualitário
0,CARLOS EDUARDO ALVES TEIXEIRA DO PRADO,MASCULINO,BRANCA,PR,7051262939,PSC,30000.0,2022,1285299017.25,348340.22
1,ELIZEU ANTONIO MACIEL,MASCULINO,BRANCA,PE,13626434400,AVANTE,70000.0,2022,1285299017.25,348340.22
2,JOSEILDO RIBEIRO RAMOS,MASCULINO,PARDA,BA,15963330572,PT,2326699.0,2022,1285299017.25,348340.22
3,VALDIZIA FREITAS DE SANTANA,FEMININO,PRETA,BA,18918468504,AGIR,10000.0,2022,1285299017.25,348340.22
4,VINICIUS SAUDINO DE MORAES,MASCULINO,BRANCA,SP,42411256892,PSD,105156.73,2022,1285299017.25,348340.22


In [None]:
# Configurando seleção
selecao = alt.selection(type='interval')
base = alt.Chart(sinc_raca).add_selection(selecao)

# Configurando gráfico de dispersão
## Raça
pontos_raca = base.mark_point(filled=True).encode(
    x = alt.X('UF', title = 'Unidade Federativa'), 
    y = alt.X('total_cand', title = 'Verba somanda dos candidatos'),
    color = alt.condition(selecao, 'Raça', alt.value('grey')),
    size = alt.Size('total_cand', scale = alt.Scale(range=[1, 400]), legend=None),
    tooltip = ['Nome_Candidato', 'Gênero', 'Partido', 'total_cand']
)

pontos_genero = base.mark_point(filled=True).encode(
    x = alt.X('UF', title = 'Unidade Federativa'), 
    y = alt.X('total_cand', title = 'Verba somanda dos candidatos'),
    color = alt.condition(selecao, 'Gênero', alt.value('grey')),
    size = alt.Size('total_cand', scale = alt.Scale(range=[1, 400]), legend=None),
    tooltip = ['Nome_Candidato', 'Gênero', 'Partido', 'total_cand']
)

# Configurando o ticks
## Raça
tick_axis = alt.Axis(labels=False, domain=False, ticks=False)

x_tick_raca = base.mark_tick().encode(
    alt.X('total_cand', title='', axis=tick_axis),
    alt.Y('Raça', axis=tick_axis),
    color=alt.condition(selecao, 'Raça', alt.value('lightgrey'))
)

x_tick_genero = base.mark_tick().encode(
    alt.X('total_cand', title='', axis=tick_axis),
    alt.Y('Gênero', axis=tick_axis),
    color=alt.condition(selecao, 'Gênero', alt.value('lightgrey'))
)

# Mostrando Gráfico
#(pontos_raca & x_tick_raca) | (pontos_genero & x_tick_genero)
alt.vconcat(alt.hconcat(alt.vconcat(pontos_raca, x_tick_raca), alt.vconcat(pontos_genero, x_tick_genero)))

In [None]:
# Recorte por partido
# Configurando seleção
selecao_p = alt.selection(type='interval')
base_p = alt.Chart(sinc_raca).add_selection(selecao_p)

# Configurando gráfico de dispersão
## Raça

pontos_raca_p = base_p.mark_point(filled=True).encode(
    x = alt.X('Partido', title = 'Partido'), 
    y = alt.X('total_cand', title = 'Verba somanda dos candidatos'),
    color = alt.condition(selecao_p, 'Raça', alt.value('grey')),
    size = alt.Size('total_cand', scale = alt.Scale(range=[1, 400]), legend=None),
    tooltip = ['Nome_Candidato', 'Gênero', 'UF', 'total_cand']
)

pontos_genero_p = base_p.mark_point(filled=True).encode(
    x = alt.X('Partido', title = 'Partido'), 
    y = alt.X('total_cand', title = 'Verba somanda dos candidatos'),
    color = alt.condition(selecao_p, 'Gênero', alt.value('grey')),
    size = alt.Size('total_cand', scale = alt.Scale(range=[1, 400]), legend=None),
    tooltip = ['Nome_Candidato', 'Gênero', 'UF', 'total_cand']
)

# Configurando o ticks
## Raça
tick_axis_p = alt.Axis(labels=False, domain=False, ticks=False)


x_tick_raca_p = base_p.mark_tick().encode(
    alt.X('total_cand', title='', axis=tick_axis),
    alt.Y('Raça', axis=tick_axis),
    color=alt.condition(selecao_p, 'Raça', alt.value('lightgrey'))
)

x_tick_genero_p = base_p.mark_tick().encode(
    alt.X('total_cand', title='', axis=tick_axis),
    alt.Y('Gênero', axis=tick_axis),
    color=alt.condition(selecao_p, 'Gênero', alt.value('lightgrey'))
)

# Mostrando Gráfico
#(pontos_raca & x_tick_raca) | (pontos_genero & x_tick_genero)
alt.vconcat(alt.hconcat(alt.vconcat(pontos_raca_p, x_tick_raca_p), alt.vconcat(pontos_genero_p, x_tick_genero_p)))

In [None]:
# Fazendo query para retirar não divulgável
limpo = sinc_raca.query('  Gênero != "NÃO DIVULGÁVEL"     ')

# por fim, boxplot com outliers nas eleições de 2022 - Estado
alt.Chart(limpo).mark_boxplot().encode(
    x = 'UF',
    y = 'total_cand',
    color = alt.Color('Raça', scale = alt.Scale(scheme = 'set1')),
    tooltip = ['Nome_Candidato', 'Gênero', 'Raça', 'Partido', 'total_cand'],
    column = 'Gênero'    
).properties(width=600, title = 'Análise de outliers de orçamentos por estado')

In [None]:
# por fim, boxplot com outliers nas eleições de 2022 - Partido
alt.Chart(limpo).mark_boxplot().encode(
    x = 'Partido',
    y = 'total_cand',
    color = alt.Color('Raça', scale = alt.Scale(scheme = 'set1')),
    tooltip = ['Nome_Candidato', 'Gênero', 'Raça', 'Partido', 'total_cand'],
    column = 'Gênero'   
).properties(width=600, title = 'Análise de outliers de orçamentos por partido')