## Importações

Como sempre, utilizaremos algumas bibliotecas para realizar o trabalho.

In [1]:
import pandas as pd
import numpy as np

## Funções Auxiliares

In [16]:
def calcula_estatisticas(dado):
    return {
        'mean': dado.mean(),
        'std': dado.std(),
        'min': dado.min(),
        'max': dado.max(),
        'mode': dado.mode().iloc[0] if not dado.mode().empty else None,
        'quartis': dado.quantile([0.25, 0.5, 0.75])
    }

In [40]:
def estatisticas_votos(df, nome):
    resultados = {}
    
    for n in df[nome].unique():
        df_n = df[df[nome] == n]
        
        for turno in [1, 2, 'ambos']:
            if turno != 'ambos':
                df_turno = df_n[df_n['NR_TURNO'] == turno]
            else:
                df_turno = df_n
            
            votos = df_turno['QT_VOTOS']
            votos_summary = calcula_estatisticas(votos)
            
            resultados[(n, turno)] = votos_summary
    
    return resultados

In [51]:
def estatisticas_despesas(df, nome):
    resultados = {}
    
    for n in df[nome].unique():
        df_n = df[df[nome] == n]
        
        for turno in [1, 2, 'ambos']:
            if turno != 'ambos':
                df_turno = df_n[df_n['ST_TURNO'] == turno]
            else:
                df_turno = df_n
            
            despesas = df_turno['VR_DESPESA_CONTRATADA'].replace(',', '.', regex=True).astype(float)
            despesas_summary = calcula_estatisticas(despesas)
            
            resultados[(n, turno)] = despesas_summary
    
    return resultados

---

# Extraindo Informações - Candidatos

1. **Quantidade de Instâncias**
2. **Candidatos por Estado:**
    - Quantidade de candidatos para governador por estado
    - Média da quantidade de candidatos por estado
    - Desvio padrão da quantidade de candidatos por estado
    - Moda da quantidade de candidatos por estado
    - Valor mínimo e máximo da quantidade de candidatos por estado
    - Quartis (1º, 2º - mediana, e 3º) da quantidade de candidatos por estado
3. **Candidatos por Partido:**
    - Quantidade de candidatos para governador por partido
    - Média da quantidade de candidatos por partido
    - Desvio padrão da quantidade de candidatos por partido
    - Moda da quantidade de candidatos por partido
    - Valor mínimo e máximo da quantidade de candidatos por partido
    - Quartis (1º, 2º - mediana, e 3º) da quantidade de candidatos por partido

In [3]:
df = pd.read_csv('Resultados\\Candidatos.csv', delimiter=',', encoding='utf-8')
df.head()

Unnamed: 0,ANO_ELEICAO,SG_UF,DS_CARGO,SQ_CANDIDATO,NM_CANDIDATO,NR_PARTIDO,SG_PARTIDO,PASSOU_TURNO
0,2022,BA,GOVERNADOR,50001609248,ANTONIO CARLOS PEIXOTO DE MAGALHÃES NETO,44,UNIÃO,True
1,2022,PB,GOVERNADOR,150001621388,PEDRO OLIVEIRA CUNHA LIMA,45,PSDB,True
2,2022,SC,GOVERNADOR,240001611127,JORGINHO DOS SANTOS MELLO,22,PL,True
3,2022,MS,GOVERNADOR,120001714229,RENAN BARBOSA CONTAR,28,PRTB,True
4,2022,SC,GOVERNADOR,240001647445,DÉCIO NERY DE LIMA,13,PT,True


### Quantidade de Instâncias

In [4]:
total = df['SQ_CANDIDATO'].count()
print('Quantidade total de instâncias de candidatos:', total)

Quantidade total de instâncias de candidatos: 224


### Quantidade por Estado

In [6]:
uf = df['SG_UF'].value_counts()

uf_counts = uf.reset_index()
uf_counts.columns = ['SG_UF', 'COUNT']

uf_summary = calcula_estatisticas(uf)

In [7]:
print(f"Média: {uf_summary['mean']:.2f}")
print(f"Desvio: {uf_summary['std']:.2f}")
print(f"Valor mínimo: {uf_summary['min']:.2f}")
print(f"Quartil 2: {uf_summary['quartis'][0.25]:.2f}")
print(f"Mediana: {uf_summary['quartis'][0.5]:.2f}")
print(f"Quartil 3: {uf_summary['quartis'][0.75]:.2f}")
print(f"Valor máximo: {uf_summary['max']:.2f}")
print(f"Moda: {uf_summary['mode']}")
print('Quantidade total de candidatos por estado:')
uf_counts

Média: 8.30
Desvio: 1.96
Valor mínimo: 4.00
Quartil 2: 7.00
Mediana: 9.00
Quartil 3: 9.00
Valor máximo: 12.00
Moda: 9
Quantidade total de candidatos por estado:


Unnamed: 0,SG_UF,COUNT
0,RS,12
1,DF,12
2,PE,11
3,SP,10
4,MG,10
5,SC,10
6,SE,9
7,RJ,9
8,RN,9
9,PA,9


### Quantidade por Partido

In [8]:
partido = df['SG_PARTIDO'].value_counts()

partido_counts = partido.reset_index()
partido_counts.columns = ['SG_PARTIDO', 'COUNT']

partido_summary = calcula_estatisticas(partido)

In [9]:
print(f"Média: {partido_summary['mean']:.2f}")
print(f"Desvio: {partido_summary['std']:.2f}")
print(f"Valor mínimo: {partido_summary['min']:.2f}")
print(f"Quartil 2: {partido_summary['quartis'][0.25]:.2f}")
print(f"Mediana: {partido_summary['quartis'][0.5]:.2f}")
print(f"Quartil 3: {partido_summary['quartis'][0.75]:.2f}")
print(f"Valor máximo: {partido_summary['max']:.2f}")
print(f"Moda: {partido_summary['mode']}")
print('Quantidade total de candidatos por partido:')
partido_counts

Média: 7.47
Desvio: 4.97
Valor mínimo: 1.00
Quartil 2: 3.00
Mediana: 7.00
Quartil 3: 10.75
Valor máximo: 20.00
Moda: 3
Quantidade total de candidatos por partido:


Unnamed: 0,SG_PARTIDO,COUNT
0,PSOL,20
1,PSTU,17
2,PCO,16
3,PL,14
4,PT,13
5,UNIÃO,12
6,PCB,11
7,PSD,11
8,PDT,10
9,MDB,9


---

# Extraindo Informações - Votos

Com mais quantidade de informações na tabela de votos, extraímos:

1. **Quantidade de Instâncias**
2. **Votos (Geral)**:
    - Quantidade de votos para governador
    - Média da votos de candidatos
    - Desvio padrão da quantidade de votos
    - Moda da quantidade de votos
    - Valor mínimo e máximo da quantidade de votos
    - Quartis (1º, 2º - mediana, e 3º) da quantidade de votos
3. **Votos por Estado (Turno 1 e Turno 2 e Ambos)**:
    - Quantidade de votos para governador por estado
    - Média da votos de candidatos por estado
    - Desvio padrão da quantidade de votos por estado
    - Moda da quantidade de votos por estado
    - Valor mínimo e máximo da quantidade de votos por estado
    - Quartis (1º, 2º - mediana, e 3º) da quantidade de votos por estado

In [42]:
df = pd.read_csv('Resultados\\Votos.csv', delimiter=',', encoding='utf-8')
df.head()

Unnamed: 0,ANO_ELEICAO,NR_TURNO,SG_UF,DS_CARGO,NR_VOTAVEL,QT_VOTOS,SQ_CANDIDATO
0,2022,1,AC,GOVERNADOR,50,1,10001595336
1,2022,1,AC,GOVERNADOR,50,2,10001595336
2,2022,1,AC,GOVERNADOR,50,1,10001595336
3,2022,1,AC,GOVERNADOR,50,2,10001595336
4,2022,1,AC,GOVERNADOR,50,1,10001595336


### Quantidade de Instâncias

In [11]:
total = df['SQ_CANDIDATO'].count()
print('Quantidade total de instâncias de votos:', total)

Quantidade total de instâncias de votos: 4404307


### Votos (Geral)

In [12]:
votos = df['QT_VOTOS']

votos_counts = df['QT_VOTOS'].value_counts().reset_index()
votos_counts.columns = ['QT_VOTOS', 'COUNT']

votos_summary = calcula_estatisticas(votos)

In [13]:
print(f"Média: {votos_summary['mean']:.2f}")
print(f"Desvio: {votos_summary['std']:.2f}")
print(f"Valor mínimo: {votos_summary['min']:.2f}")
print(f"Quartil 2: {votos_summary['quartis'][0.25]:.2f}")
print(f"Mediana: {votos_summary['quartis'][0.5]:.2f}")
print(f"Quartil 3: {votos_summary['quartis'][0.75]:.2f}")
print(f"Valor máximo: {votos_summary['max']:.2f}")
print(f"Moda: {votos_summary['mode']}")
print('Quantidade total de votos:')
votos_counts

Média: 42.98
Desvio: 51.15
Valor mínimo: 1.00
Quartil 2: 6.00
Mediana: 19.00
Quartil 3: 69.00
Valor máximo: 399.00
Moda: 1
Quantidade total de votos:


Unnamed: 0,QT_VOTOS,COUNT
0,1,458782
1,2,224363
2,3,152676
3,4,125259
4,5,112651
...,...,...
347,344,1
348,364,1
349,399,1
350,394,1


### Votos por Estado (Turno 1, Turno 2 e Ambos)

In [31]:
estatisticas_votos_uf = estatisticas_votos(df, 'SG_UF')

data = []

for (estado, turno), votos_summary in estatisticas_votos_uf.items():
    data.append({
        'Estado': estado,
        'Turno': turno,
        'Média': votos_summary['mean'],
        'Desvio': votos_summary['std'],
        'Min': votos_summary['min'],
        'Quartil 1': votos_summary['quartis'][0.25],
        'Mediana': votos_summary['quartis'][0.5],
        'Quartil 3': votos_summary['quartis'][0.75],
        'Máximo': votos_summary['max'],
        'Moda': votos_summary['mode']
    })
    
df_estatisticas = pd.DataFrame(data)

In [38]:
df_estatisticas = df_estatisticas.dropna(subset=['Média', 'Desvio', 'Min', 'Quartil 1', 'Mediana', 'Quartil 3', 'Máximo', 'Moda'], how='all')
df_estatisticas = df_estatisticas.drop_duplicates(subset=['Estado', 'Média', 'Desvio'], keep='first')
df_estatisticas.head()

Unnamed: 0,Estado,Turno,Média,Desvio,Min,Quartil 1,Mediana,Quartil 3,Máximo,Moda
0,AC,1,29.441981,39.935231,1.0,4.0,11.0,37.0,245.0,1.0
3,AL,1,37.819732,39.307648,1.0,9.0,25.0,53.0,263.0,1.0
4,AL,2,67.385241,62.725716,1.0,12.0,36.0,117.0,284.0,5.0
5,AL,ambos,48.370836,50.974445,1.0,10.0,27.0,77.0,284.0,1.0
6,AM,1,34.824875,39.583716,1.0,5.0,19.0,53.0,309.0,1.0


---

# Extraindo Informações - Despesas

Com mais quantidade de informações na tabela de despesas, extraímos:

1. **Quantidade de Instâncias**
2. **Despesas (Geral)**:
    - Quantidade de despesas para governador
    - Média de despesas de candidatos
    - Desvio padrão do valor de despesas
    - Moda do valor das despesas
    - Valor mínimo e máximo das despesas
    - Quartis (1º, 2º - mediana, e 3º) da despesas
3. **Despesas por Estado (Turno 1 e Turno 2 e Ambos)**:
    - Quantidade de despesas para governador por estado
    - Média de despesas de candidatos por estado
    - Desvio padrão do valor de despesas por estado
    - Moda do valor das despesas por estado
    - Valor mínimo e máximo das despesas por estado
    - Quartis (1º, 2º - mediana, e 3º) da despesas por estado
4. **Despesas por Partido (Turno 1 e Turno 2 e Ambos)**:
    - Quantidade de despesas para governador por partido
    - Média de despesas de candidatos por partido
    - Desvio padrão do valor de despesas por partido
    - Moda do valor das despesas por partido
    - Valor mínimo e máximo das despesas por partido
    - Quartis (1º, 2º - mediana, e 3º) da despesas por partido
4. **Despesas por Origem (Turno 1 e Turno 2 e Ambos)**:
    - Quantidade de despesas para governador por origem
    - Média de despesas de candidatos por origem
    - Desvio padrão do valor de despesas por origem
    - Moda do valor das despesas por origem
    - Valor mínimo e máximo das despesas por origem
    - Quartis (1º, 2º - mediana, e 3º) da despesas por origem

In [55]:
df = pd.read_csv('Resultados\\Despesas.csv', delimiter=',', encoding='utf-8')
df.head()

Unnamed: 0,ST_TURNO,SG_UF,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,DS_ORIGEM_DESPESA,SQ_DESPESA,DS_DESPESA,VR_DESPESA_CONTRATADA
0,1,AC,Governador,10001639519,15,CYLMARA FERNANDES DA ROCHA GRIPP,15,MDB,Movimento Democrático Brasileiro,Atividades de militância e mobilização de rua,52128145,SERVIÇO DE PESSOAL PARA CAMPANHA 2022,185840
1,1,AC,Governador,10001612476,11,GLADSON DE LIMA CAMELI,11,PP,PROGRESSISTAS,Atividades de militância e mobilização de rua,50896246,REF. PREST. DE SERV. DE DIVULGAÇÃO - ELEIÇÕES ...,130000
2,1,AC,Governador,10001639519,15,CYLMARA FERNANDES DA ROCHA GRIPP,15,MDB,Movimento Democrático Brasileiro,Atividades de militância e mobilização de rua,52127886,SERVIÇO DE PESSOAL PARA CAMPANHA 2022,84800
3,1,AC,Governador,10001623440,44,MARCIO MIGUEL BITTAR,44,UNIÃO,UNIÃO BRASIL,Atividades de militância e mobilização de rua,52100696,PANFLETAGEM· BANDEIRAÇO· ATUAÇÃO EM COMITE,120000
4,1,AC,Governador,10001639519,15,CYLMARA FERNANDES DA ROCHA GRIPP,15,MDB,Movimento Democrático Brasileiro,Atividades de militância e mobilização de rua,52128175,ASSESSORIA· DIVULGAÇÃO· APOIO E FISCALIZAÇÃO,185700


### Quantidade de Instâncias

In [54]:
total = df['SQ_CANDIDATO'].count()
print('Quantidade total de instâncias de despesas:', total)

Quantidade total de instâncias de despesas: 118863


### Despesas (Geral)

In [47]:
despesas = df['VR_DESPESA_CONTRATADA'].replace(',', '.', regex=True).astype(float)

despesas_counts = despesas.value_counts().reset_index()
despesas_counts.columns = ['VR_DESPESA_CONTRATADA', 'COUNT']

despesas_summary = calcula_estatisticas(despesas)

In [48]:
print(f"Média: {despesas_summary['mean']:.2f}")
print(f"Desvio: {despesas_summary['std']:.2f}")
print(f"Valor mínimo: {despesas_summary['min']:.2f}")
print(f"Quartil 2: {despesas_summary['quartis'][0.25]:.2f}")
print(f"Mediana: {despesas_summary['quartis'][0.5]:.2f}")
print(f"Quartil 3: {despesas_summary['quartis'][0.75]:.2f}")
print(f"Valor máximo: {despesas_summary['max']:.2f}")
print(f"Moda: {despesas_summary['mode']}")
print('Quantidade total de votos:')
despesas_counts

Média: 7090.68
Desvio: 68024.43
Valor mínimo: 0.00
Quartil 2: 300.00
Mediana: 650.00
Quartil 3: 1712.25
Valor máximo: 11472361.00
Moda: 11.0
Quantidade total de votos:


Unnamed: 0,VR_DESPESA_CONTRATADA,COUNT
0,11.00,7121
1,600.00,6715
2,500.00,4609
3,1200.00,4012
4,400.00,3942
...,...,...
12098,0.30,1
12099,2530.40,1
12100,12.73,1
12101,888.00,1


### Despesas por Estado (Turno 1, Turno 2 e Ambos)

In [56]:
estatisticas_despesas_uf = estatisticas_despesas(df, 'SG_UF')

data = []

for (estado, turno), votos_summary in estatisticas_despesas_uf.items():
    data.append({
        'Estado': estado,
        'Turno': turno,
        'Média': votos_summary['mean'],
        'Desvio': votos_summary['std'],
        'Min': votos_summary['min'],
        'Quartil 1': votos_summary['quartis'][0.25],
        'Mediana': votos_summary['quartis'][0.5],
        'Quartil 3': votos_summary['quartis'][0.75],
        'Máximo': votos_summary['max'],
        'Moda': votos_summary['mode']
    })
    
df_estatisticas = pd.DataFrame(data)

In [57]:
df_estatisticas = df_estatisticas.dropna(subset=['Média', 'Desvio', 'Min', 'Quartil 1', 'Mediana', 'Quartil 3', 'Máximo', 'Moda'], how='all')
df_estatisticas = df_estatisticas.drop_duplicates(subset=['Estado', 'Média', 'Desvio'], keep='first')
df_estatisticas.head()

Unnamed: 0,Estado,Turno,Média,Desvio,Min,Quartil 1,Mediana,Quartil 3,Máximo,Moda
0,AC,1,4895.018743,30638.235996,0.35,800.0,1200.0,1857.0,800000.0,1200.0
3,AL,1,7556.781312,29394.606684,0.0,16.7525,650.0,3000.0,390000.0,11.0
4,AL,2,22167.529348,108135.073435,1.2,11.0,2360.0,10000.0,2350000.0,11.0
5,AL,ambos,15362.278735,81846.41674,0.0,13.875,1200.0,6187.5,2350000.0,11.0
6,AM,1,5901.250498,35586.780428,0.79,500.0,606.0,1500.0,900000.0,606.0


### Despesas por Partido (Turno 1, Turno 2 e Ambos)

In [59]:
estatisticas_despesas_partido = estatisticas_despesas(df, 'SG_PARTIDO')

data = []

for (estado, turno), votos_summary in estatisticas_despesas_partido.items():
    data.append({
        'Estado': estado,
        'Turno': turno,
        'Média': votos_summary['mean'],
        'Desvio': votos_summary['std'],
        'Min': votos_summary['min'],
        'Quartil 1': votos_summary['quartis'][0.25],
        'Mediana': votos_summary['quartis'][0.5],
        'Quartil 3': votos_summary['quartis'][0.75],
        'Máximo': votos_summary['max'],
        'Moda': votos_summary['mode']
    })
    
df_estatisticas = pd.DataFrame(data)

In [60]:
df_estatisticas = df_estatisticas.dropna(subset=['Média', 'Desvio', 'Min', 'Quartil 1', 'Mediana', 'Quartil 3', 'Máximo', 'Moda'], how='all')
df_estatisticas = df_estatisticas.drop_duplicates(subset=['Estado', 'Média', 'Desvio'], keep='first')
df_estatisticas.head()

Unnamed: 0,Estado,Turno,Média,Desvio,Min,Quartil 1,Mediana,Quartil 3,Máximo,Moda
0,MDB,1,3944.429833,27375.121145,0.35,312.5,625.0,1350.0,1000000.0,625.0
1,MDB,2,4363.948186,47675.912216,1.2,325.0,750.0,1020.0,2350000.0,1020.0
2,MDB,ambos,4068.177445,34622.525633,0.35,325.0,625.0,1200.0,2350000.0,625.0
3,PP,1,7217.743882,41408.068207,0.01,280.0,1200.0,1800.0,838000.0,1200.0
6,UNIÃO,1,8781.335232,42517.8712,0.35,365.38,1000.0,2160.0,889000.0,600.0


### Despesas por Origem (Turno 1, Turno 2 e Ambos)

In [61]:
estatisticas_despesas_origem = estatisticas_despesas(df, 'DS_ORIGEM_DESPESA')

data = []

for (estado, turno), votos_summary in estatisticas_despesas_origem.items():
    data.append({
        'Estado': estado,
        'Turno': turno,
        'Média': votos_summary['mean'],
        'Desvio': votos_summary['std'],
        'Min': votos_summary['min'],
        'Quartil 1': votos_summary['quartis'][0.25],
        'Mediana': votos_summary['quartis'][0.5],
        'Quartil 3': votos_summary['quartis'][0.75],
        'Máximo': votos_summary['max'],
        'Moda': votos_summary['mode']
    })
    
df_estatisticas = pd.DataFrame(data)

In [64]:
df_estatisticas = df_estatisticas.dropna(subset=['Média', 'Desvio', 'Min', 'Quartil 1', 'Mediana', 'Quartil 3', 'Máximo', 'Moda'], how='all')
df_estatisticas = df_estatisticas.drop_duplicates(subset=['Estado', 'Média', 'Desvio'], keep='first')
df_estatisticas.head()

Unnamed: 0,Estado,Turno,Média,Desvio,Min,Quartil 1,Mediana,Quartil 3,Máximo,Moda
0,Atividades de militância e mobilização de rua,1,1216.950141,26322.110569,20.0,500.0,650.0,1200.0,4260799.8,650.0
1,Atividades de militância e mobilização de rua,2,890.879774,4405.005963,42.0,450.0,600.0,1020.0,400000.0,600.0
2,Atividades de militância e mobilização de rua,ambos,1074.910545,19987.79006,20.0,500.0,650.0,1154.26,4260799.8,600.0
3,Serviços prestados por terceiros,1,30546.022068,191648.898419,2.0,775.0,3133.33,11250.0,6800000.0,100.0
4,Serviços prestados por terceiros,2,28323.288042,277229.915218,17.3,150.0,2000.0,9000.0,11472361.0,80.0
