# Recomendação por Filtragem Baseada em Conteúdo

Este *notebook* realiza recomendações de ex-candidatos à presidência para usuários, através da filtragem baseada em conteúdo.

O *dataset* foi obtido a partir da análise das propostas de cada ex-candidato (arquivos .pdf), realizou-se duas estratégias para realizar o levantamento de dados:
* A primeira consiste em contar a quantidade de vezes que tal candidato mencionou palavras sobre cada área de interesse.
* A segunda busca verificar o quão importante tal área é importante para o candidato, utilizando a métrica **TF-IDF**.

Isto gerou dois *datasets*, que serão chamados para este *notebook* como bibliotecas, o primeiro corresponde à `candidate_provider` e o segundo à `candidate_provider_2`.

**IMPORTANTE**: Como as duas abordagens realizam uma extração de dados de arquivos PDF, precisou-se utilizar várias bibliotecas. Assim, será necessária instalá-las para poder executar este *notebook*, são elas:
* PyPDF2
* Textract
* nltk
* nltk_data

**Obs.:** Como a biblioteca `PyPDF2` possui algumas limitações, algumas propostas de ex-candidatos para o *dataset* em `candidate_provider_2` não foram lidas com sucesso, está sendo estudado uma alternativa para a leitura das propostas restantes. Em `candidate_provider` foi possível acessar todas as propostas com a biblioteca `textract`.


A mudança de biblioteca se deve ao fato de que com o `PyPDF2` é possível ace

In [37]:
from math import *
import numpy as np
import pandas as pd

In [58]:
df_cand = pd.read_csv('../datasets/candidate.csv')
candidates = ['bolsonaro', 'ciro', 'daciolo', 'boulos', 'marina', 'haddad']
df_cand.index = candidates

## Primeiro *Dataset*

Este *dataset* foi obtida a partir da métrica TF-IDF de cada proposta dos ex-candidatos. Os dados foram processados em `providers/algoritmos/candidate_provider_2.py` e exportados para um arquivo `.csv`.

In [59]:
df_cand

Unnamed: 0,cultura,economia,educacao,meio ambiente,saude,seguranca,tecnologia
bolsonaro,1.298674,2.101016,2.217653,0.943479,2.067089,1.916048,1.124516
ciro,0.577953,1.572047,0.973766,0.467057,0.755462,0.962723,0.702406
daciolo,0.053222,0.286808,0.513717,0.062666,0.368084,0.325294,0.154583
boulos,1.929544,3.294471,2.777466,1.666706,2.350678,2.757596,2.078143
marina,0.453759,1.045867,0.665708,0.252479,0.404181,0.394746,0.443712
haddad,0.163086,0.434171,0.229158,0.100869,0.25783,0.163831,0.200668


## Normalizando o *Dataset*

A avaliação dos usuários para cada área é no intervalo de 1 a 5, assim é necessário normalizar o *dataset* para este mesmo intervalo, por isso utilizou-se a equação abaixo para realizar este processo.

**Obs.:** Como alguns candidatos possuem **todas** as suas colunas abaixo de 1, mesmo normalizando o *dataset* essas colunas irão continuar pequenas e é provável que esses candidatos não sejam recomendados. Será verificado novamente o algoritmo do TF-IDF para buscar possíveis erros.

In [44]:
a = 1
b = 5

In [45]:
min_value = min(df_cand.min())
max_value = max(df_cand.max())

In [46]:
def normalize(x, min_, max_):
    return ((b - a) * ((x - min_) / (max_ - min_))) + a

In [47]:
df_cand = normalize(df_cand, min_value, max_value)

In [48]:
df_cand

Unnamed: 0,cultura,economia,educacao,meio ambiente,saude,seguranca,tecnologia
bolsonaro,2.537003,3.527167,3.671107,2.098659,3.485298,3.298899,2.322075
ciro,1.647567,2.87437,2.136036,1.510711,1.866628,2.122408,1.801152
daciolo,1.0,1.288266,1.568293,1.011654,1.388568,1.335761,1.125088
boulos,3.315554,5.0,4.361968,2.991188,3.835272,4.337447,3.498938
marina,1.4943,2.225015,1.755864,1.245901,1.433115,1.421472,1.4819
haddad,1.135582,1.470127,1.21712,1.058801,1.252505,1.136502,1.181962


Após o pré-processamento de dados, basta apenas transformar o *DataFrame* em um dicionário e inicializar o dicionário de usuários.

Atualmente não realizou-se uma coleta de dados da avaliação do usuário para cada área, visto que é um processamento um pouco mais complexo do que apenas a nota individual. Atualmente encontrou-se apenas o resumo das propostas por área do ex-candidato Bolsonaro.

In [49]:
dict_cand = df_cand.T.to_dict()

In [50]:
users = {}

In [51]:
users['Lucas'] = {'cultura': 2, 'economia': 5, 'educacao': 4,
                 'meio ambiente': 3, 'saude': 3, 'seguranca': 4, 'tecnologia': 5}
users['Eleitor'] = {'cultura': 5, 'economia': 2, 'educacao': 3,
                   'meio ambiente': 5, 'saude': 1, 'seguranca': 2, 'tecnologia': 4}
users['Eleitor2'] = {'cultura': 1, 'economia': 5, 'educacao': 2,
                   'meio ambiente': 3, 'saude': 3, 'seguranca': 2, 'tecnologia': 5}

In [52]:
def minkowski(rating1, rating2, r = 1):
    distance = 0
    commonRatings = False
    for key in rating1:
        if key in rating2:
            distance += pow(abs(rating1[key] - rating2[key]), r)
            commonRatings = True
    if commonRatings:
        return pow(distance, 1/r)
    else:
        return 0

In [53]:
print(minkowski(dict_cand['bolsonaro'], users['Lucas']))

7.104393269925497


In [54]:
def recommend(userName, candidatos):
    distances = []
    for candidato in candidatos:
        distance = minkowski(candidatos[candidato], users[userName])
        distances.append((distance, candidato))
    distances.sort()
    return distances

In [55]:
print(recommend("Eleitor", dict_cand))

[(11.76794027045537, 'ciro'), (12.258694453557807, 'marina'), (13.024734504480588, 'bolsonaro'), (13.729005732266298, 'boulos'), (14.052411038190343, 'haddad'), (14.059505515134052, 'daciolo')]


In [56]:
print(recommend("Lucas", dict_cand))

[(4.360113914030015, 'boulos'), (7.104393269925497, 'bolsonaro'), (12.041128265916582, 'ciro'), (14.942433894802575, 'marina'), (17.282369014884114, 'daciolo'), (17.547401864351592, 'haddad')]


In [57]:
print(recommend("Eleitor2", dict_cand))

[(8.853149930934752, 'ciro'), (9.360113914030016, 'boulos'), (10.044405881219852, 'bolsonaro'), (10.931033187153067, 'marina'), (12.282369014884113, 'daciolo'), (12.818565511786758, 'haddad')]


**Obs.:** Como já era de se esperar, os candidatos Marina e Daciolo ficaram por último justamente por seus valores serem muito baixos no *dataset* original.

## Segundo *Dataset*

Este *dataset* foi obtido diretamente das propostas de cada candidato, onde verificou-se quantas vezes tal candidato mencionou palavras sobre cada área de interesse. Os dados foram processados em `providers/algoritmos/candidate_provider.py` e exportados para um arquivo `.csv`.

**Obs.:** Como a proposta do ex-candidato Boulos é bem maior que as outras propostas, **todas** as suas colunas são bem maiores que as outras.

In [61]:
df_cand_2 = pd.read_csv('../datasets/candidate_2.csv')
candidates = ['alckmin', 'alvaro', 'amoedo', 'bolsonaro', 'boulos', 'ciro', 'daciolo', 'haddad', 'marina', 'meirelles']
df_cand_2.index = candidates

In [62]:
df_cand_2

Unnamed: 0,cultura,economia,educacao,meio ambiente,saude,seguranca,tecnologia
alckmin,8,30,11,2,6,14,9
alvaro,33,55,9,8,9,7,14
amoedo,7,56,35,16,13,22,12
bolsonaro,17,128,47,15,28,40,44
boulos,315,823,297,119,165,360,267
ciro,67,376,155,44,59,110,111
daciolo,5,53,74,3,40,46,20
haddad,180,534,195,84,76,125,177
marina,98,273,83,58,62,75,102
meirelles,6,40,20,8,17,24,8


## Normalizando o *Dataset*

Assim como anterior, o *dataset* precisa ser normalizado para o intervalo de notas dos usuários (de 1 a 5), assim utilizou-se a função `normalize`.

In [63]:
min_value_2 = min(df_cand_2.min())
max_value_2 = max(df_cand_2.max())

In [64]:
df_cand_2 = normalize(df_cand_2, min_value_2, max_value_2)

In [65]:
df_cand_2

Unnamed: 0,cultura,economia,educacao,meio ambiente,saude,seguranca,tecnologia
alckmin,1.029233,1.136419,1.043849,1.0,1.019488,1.058465,1.034105
alvaro,1.151035,1.258222,1.034105,1.029233,1.034105,1.024361,1.058465
amoedo,1.024361,1.263094,1.16078,1.06821,1.053593,1.097442,1.048721
bolsonaro,1.073082,1.613886,1.219245,1.063337,1.126675,1.18514,1.204629
boulos,2.52497,5.0,2.437272,1.570037,1.794153,2.744214,2.291108
ciro,1.316687,2.822168,1.745432,1.204629,1.27771,1.526188,1.53106
daciolo,1.014616,1.248477,1.350792,1.004872,1.18514,1.214373,1.087698
haddad,1.867235,3.591961,1.940317,1.399513,1.360536,1.599269,1.852619
marina,1.467722,2.320341,1.394641,1.272838,1.292326,1.355664,1.487211
meirelles,1.019488,1.18514,1.087698,1.029233,1.073082,1.107186,1.029233


Como dito anteriormente, os valores da coluna do ex-candidato Boulos é muito maior que as outra colunas, isto ocasionou um problema no *dataset* inteiro, como visto acima, quase todos os valores de outras colunas ficaram em um valor próximo de 1.