# Visualizando *Datasets*

Este arquivo servirá para facilitar a visualização dos *datasets* desenvolvidos, utilizando a biblioteca `pandas`

# Importação das bibliotecas

In [1]:
import pandas as pd
import candidate_provider as cp
import candidate_provider_2 as cp2
import voter_provider as vp
import voter_provider_2 as vp2
import numpy as np
import matplotlib.pyplot as plt

## *Dataset* de Candidatos

Foram desenvolvidos dois *datasets* compostos por candidatos para realizar a filtragem baseada em conteúdo

O primeiro *dataset* consiste em uma análise feita nas propostas de cada candidato, gerando um *dataset* da contagem de palavras por área de interesse.

As áreas de interesse são: saúde, segurança, educação, economia, cultura, tecnologia e meio ambiente

In [2]:
candidates = ['alckmin', 'alvaro', 'amoedo', 'bolsonaro', 'boulos', 'ciro', 'daciolo', 'haddad', 'marina', 'meirelles']

In [3]:
df_cand = {}
for cand in candidates:
    df_cand[cand] = cp.count_words_from(cand)

In [4]:
df_cand = pd.DataFrame(data=df_cand).T

In [5]:
df_cand

Unnamed: 0,cultura,economia,educacao,meio ambiente,saude,seguranca,tecnologia
alckmin,8,30,11,2,6,14,9
alvaro,33,55,9,8,9,7,14
amoedo,7,56,35,16,13,22,12
bolsonaro,17,128,47,15,28,40,44
boulos,315,823,297,119,165,360,267
ciro,67,376,155,44,59,110,111
daciolo,5,53,74,3,40,46,20
haddad,180,534,195,84,76,125,177
marina,98,273,83,58,62,75,102
meirelles,6,40,20,8,17,24,8


O segundo *dataset* analisa as mesmas propostas, porém esta abordagem busca verificar o quão importante tal área é importante para o candidato, utilizando a métrica **TF-IDF**. Atualmente este método não consegue analisa todas as propostas em *pdf* por conta da biblioteca utilizada.

In [6]:
candidates = ['bolsonaro', 'ciro', 'daciolo','boulos', 'haddad', 'marina']

In [7]:
df_cand_2 = {}
for cand in candidates:
    df_cand_2[cand] = cp2.getCand(cand)

In [8]:
df_cand_2 = pd.DataFrame(data=df_cand_2).T

In [9]:
df_cand_2

Unnamed: 0,cultura,economia,educacao,meio ambiente,saude,seguranca,tecnologia
bolsonaro,1.298674,2.101016,2.217653,0.943479,2.067089,1.916048,1.124516
ciro,0.577953,1.572047,0.973766,0.467057,0.755462,0.962723,0.702406
daciolo,0.053222,0.286808,0.513717,0.062666,0.368084,0.325294,0.154583
boulos,1.929544,3.294471,2.777466,1.666706,2.350678,2.757596,2.078143
haddad,0.453759,1.045867,0.665708,0.252479,0.404181,0.394746,0.443712
marina,0.163086,0.434171,0.229158,0.100869,0.25783,0.163831,0.200668


## *Dataset* de Eleitores

Atualmente está sendo feito um levantamento de dados da opinião de usuários sobre cada candidato, este *dataset* ainda não foi inserido em algum algoritmo, mas já pode ser visualizado.

In [10]:
df_voter = pd.read_csv('../dados-pesquisa/avaliacao.csv')

### Pré-processamento de Dados

Este *dataset* foi obtido diretamente do *Google* formulário, assim precisa inicialmente realizar algumas modificações.

In [11]:
df_voter.drop(['Carimbo de data/hora'],axis=1,inplace=True)

In [12]:
voters = [str(i) for i in range(1,len(df_voter)+1)]

In [13]:
df_voter.insert(loc=0, column='eleitor', value=voters)

In [14]:
df_voter

Unnamed: 0,eleitor,Geraldo Alckmin,João Amoêdo,Jair Bolsonaro,Guilherme Boulos,Ciro Gomes,Marina Silva,Fernando Haddad,Cabo Daciolo
0,1,1,3,1,3,3,3,4,3
1,2,1,3,1,1,3,3,2,1
2,3,2,2,1,2,2,3,2,2
3,4,2,1,1,5,5,4,5,5
4,5,2,5,2,1,2,3,1,1
5,6,1,4,5,1,1,1,1,5
6,7,2,2,3,2,2,2,2,2
7,8,2,5,4,1,2,2,1,3
8,9,2,2,4,2,3,1,1,5
9,10,3,4,3,1,2,2,2,1


In [15]:
df_voter_2 = vp2.getVoters()

In [16]:
df_voter_2 = pd.DataFrame(data=df_voter_2)

In [17]:
df_voter_2

Unnamed: 0,voter1,voter2,voter3,voter4,voter5,voter6,voter7,voter8,voter9
alckmin,4.0,5.0,,,1.0,3,1.0,5,3.0
alvaro,1.0,,2.0,,1.0,2,1.0,3,5.0
amoedo,1.0,1.0,2.0,,1.0,2,,3,
bolsonaro,5.0,3.0,,5.0,2.0,3,4.0,3,
boulos,5.0,1.0,4.0,1.0,1.0,5,5.0,1,1.0
ciro,3.0,,,4.0,5.0,4,3.0,4,1.0
daciolo,,3.0,,,4.0,3,4.0,1,3.0
goulart,5.0,5.0,,4.0,5.0,1,,5,1.0
haddad,4.0,3.0,,1.0,3.0,4,4.0,3,1.0
marina,,3.0,3.0,,,1,3.0,5,5.0


O terceiro *dataset* foi calculado a partir das notas individuais de cada eleitor para cada área de interesse, assim foi realizado uma média, o *dataset* final é semelhante aos anteriores.

In [18]:
def rateOfCandidates(voter):
    for candidate in voter:
        rating = list(voter[candidate].values())
        voter[candidate] = np.median(rating)
    return voter

In [19]:
df_voters = vp.getVoters()

In [20]:
df_voter_3 = {}
for voter, voter_rate in df_voters.items():
    df_voter_3[voter] = rateOfCandidates(voter_rate)

In [21]:
df_voter_3 = pd.DataFrame(data=df_voter_3)

In [22]:
df_voter_3

Unnamed: 0,voter1,voter2,voter3,voter4,voter5,voter6,voter7,voter8,voter9
alckmin,,4.0,1.0,,,,4.0,3.0,3.0
alvaro,,3.0,3.0,4.0,,,,3.0,2.0
amoedo,4.0,2.0,3.0,4.0,,,3.0,,5.0
bolsonaro,2.0,2.0,4.0,2.0,,3.0,2.0,2.0,4.0
boulos,,3.0,4.0,,4.0,3.0,,,1.0
ciro,3.0,3.0,2.0,2.0,,3.0,3.0,2.0,3.0
daciolo,3.0,4.0,1.0,,3.0,,2.0,,3.0
goulart,,,,,,,3.0,4.0,4.0
haddad,4.0,3.0,2.0,,,3.0,3.0,2.0,3.0
marina,,2.0,4.0,3.0,3.0,5.0,3.0,,5.0
