# Recomendação por Filtragem Colaborativa

Este *notebook* realiza recomendações de ex-candidatos à presidência para usuários, através da filtragem colaborativa.

O *dataset* foi obtido à partir de um formulário criado no *Google Forms*, onde é solicitado do usuário sua avaliação perante aos ex-candidatos, esta avaliação está no intervalo de 1 a 5.

Caso deseje contribuir para o *dataset*, basta preencher o formulário neste [link](https://goo.gl/forms/Cp2glphoDnLQZJof2).

## Importação das Bibliotetcas

In [1]:
from math import *
import numpy as np
import pandas as pd

# Dataset

Inicialmente, precisa-se realizar a leitura do *dataset* e realizar alguns tratamentos de dados.

## Pré-Processamento de Dados

In [2]:
df = pd.read_csv('../dados-pesquisa/avaliacao.csv')

A coluna `Carimbo de data/hora` não será necessário, por isso será removida.

In [3]:
df.drop(['Timestamp'],axis=1,inplace=True)

Os valores presentes no *dataset* possuem o tipo *string*, assim é necessário transformá-los para o tipo *float*.

In [4]:
df = df.astype(float)
df.index = range(1,len(df)+1)

A seguir o *dataset* após estas modificações iniciais.

In [5]:
df.head()

Unnamed: 0,Geraldo Alckmin,João Amoêdo,Jair Bolsonaro,Guilherme Boulos,Ciro Gomes,Marina Silva,Fernando Haddad,Cabo Daciolo
1,1.0,3.0,1.0,3.0,3.0,3.0,4.0,3.0
2,1.0,3.0,1.0,1.0,3.0,3.0,2.0,1.0
3,2.0,2.0,1.0,2.0,2.0,3.0,2.0,2.0
4,2.0,1.0,1.0,5.0,5.0,4.0,5.0,5.0
5,2.0,5.0,2.0,1.0,2.0,3.0,1.0,1.0


In [6]:
print(f'Atualmente o dataset possui {len(df)} amostras')

Atualmente o dataset possui 106 amostras


# Novo *Dataset* com valores nulos

Como pode ser observado, o *dataset* não possui nenhum dado faltoso, ou seja, todos os candidatos foram avaliados. Para realizar a recomendação, precisa-se ter algum dado faltoso (do tipo `NaN`) e assim o algoritmo recomendar para  o usuário tal candidato.

Para realizar esta operação, criou-se um novo *DataFrame* que receberá o anterior com os dados faltosos, isto é feito com o comando abaixo. Dado o tamanho total do *dataset* (`df.shape`), serão selecionados elementos de forma aleatória que serão "mascarados" para o tipo `NaN`. O total de elementos corresponde à menos de 40% do *dataset*.

**Obs.:** A cada nova execução os valores mudam, justamente pela função selecionar aleatoriamente.

In [7]:
new_df = df.mask(np.random.random(df.shape) < .4)

Para tornar a recomendação mais legível, será criado um novo índice para o *DataFrame* que responderá ao usuário. Assim durante a recomendaçao será passado como paramêtro `eleitor1` ou `eleitor2`, ao invés de apenas um número.

In [8]:
new_df.insert(loc=0, column='eleitor', value= ['eleitor' + str(i) for i in range(1,len(df)+1)])

In [9]:
new_df.index = new_df.eleitor
new_df.drop(['eleitor'],axis=1,inplace=True)

A seguir o novo *dataset* com dados faltosos e índice correspondendo ao eleitor.

In [10]:
new_df.head()

Unnamed: 0_level_0,Geraldo Alckmin,João Amoêdo,Jair Bolsonaro,Guilherme Boulos,Ciro Gomes,Marina Silva,Fernando Haddad,Cabo Daciolo
eleitor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
eleitor1,1.0,3.0,,,3.0,,4.0,3.0
eleitor2,1.0,3.0,1.0,1.0,3.0,3.0,2.0,1.0
eleitor3,2.0,,1.0,,2.0,3.0,,2.0
eleitor4,2.0,1.0,1.0,5.0,,,5.0,5.0
eleitor5,2.0,,2.0,1.0,2.0,3.0,,


# Implementação da Filtragem Colaborativa

**Obs.:** Para todas as seguintes funções, precisou-se realizar uma alteração do algoritmo padrão. Diferente de um dicionário, cada eleitor no *DataFrame* possui a coluna do candidato, mesmo que não tenha valor para ele, assim nas condições do `if` são verificados se o valor da coluna é `isnan` ou `not isnan`.

## Distância de *Minkowski*

In [11]:
def minkowski(rating1, rating2, r = 1):
    distance = 0
    commonRatings = False
    for candidate in rating1.keys():
        
        if not isnan(rating1[candidate]) and not isnan(rating2[candidate]):
            
            distance += pow(abs(rating1[candidate] - rating2[candidate]), r)
            commonRatings = True
    
    if commonRatings:
        return pow(distance, 1/r)
    else:
        return float('Inf')

Exemplo de utilização da função.

In [12]:
print(minkowski(new_df.loc["eleitor1"], new_df.loc["eleitor2"]))

4.0


Para facilitar as próximas funções, criou-se uma lista que possui os eleitores, ou seja, o índice do *DataFrame*.

In [13]:
voters = ['eleitor' + str(i) for i in range(1,len(df)+1)]

# Vizinhos mais próximos

In [14]:
def neighbor(votername):
    distances = []
    for voter in voters:
        if voter != votername:
            distance = minkowski(new_df.loc[voter], new_df.loc[votername])

            distances.append((distance, voter))
            
    distances.sort()
    return distances

Exemplo de utilização da função.

In [15]:
print(neighbor("eleitor1"))

[(0.0, 'eleitor15'), (0.0, 'eleitor17'), (0.0, 'eleitor85'), (1.0, 'eleitor102'), (1.0, 'eleitor30'), (1.0, 'eleitor41'), (1.0, 'eleitor48'), (1.0, 'eleitor56'), (1.0, 'eleitor59'), (1.0, 'eleitor82'), (2.0, 'eleitor103'), (2.0, 'eleitor104'), (2.0, 'eleitor105'), (2.0, 'eleitor27'), (2.0, 'eleitor45'), (2.0, 'eleitor46'), (2.0, 'eleitor5'), (2.0, 'eleitor69'), (2.0, 'eleitor83'), (2.0, 'eleitor90'), (2.0, 'eleitor94'), (2.0, 'eleitor95'), (2.0, 'eleitor96'), (2.0, 'eleitor98'), (3.0, 'eleitor11'), (3.0, 'eleitor16'), (3.0, 'eleitor29'), (3.0, 'eleitor3'), (3.0, 'eleitor32'), (3.0, 'eleitor37'), (3.0, 'eleitor51'), (3.0, 'eleitor7'), (3.0, 'eleitor78'), (3.0, 'eleitor81'), (3.0, 'eleitor87'), (4.0, 'eleitor10'), (4.0, 'eleitor100'), (4.0, 'eleitor101'), (4.0, 'eleitor12'), (4.0, 'eleitor13'), (4.0, 'eleitor14'), (4.0, 'eleitor18'), (4.0, 'eleitor2'), (4.0, 'eleitor20'), (4.0, 'eleitor23'), (4.0, 'eleitor25'), (4.0, 'eleitor35'), (4.0, 'eleitor36'), (4.0, 'eleitor42'), (4.0, 'eleitor44'

## Recomendação

Pode acontecer de a lista `recommendations` retornar nenhum valor, isto pode acontecer caso o eleitor e seu vizinho mais próximo possui apenas um valor válido e o resto `NaN` por exemplo. Para evitar este resultado, adicionou-se uma nova condição que caso `len(recommendations) == 0`, o algoritmo será chamado recursivamente e tentará realizar a recomendação com o próximo vizinho mais próximo.

In [16]:
def recommend(votername, nearestNeighbor = 0):
    i = nearestNeighbor
    
    nearest = neighbor(votername)[i][1]
    
    recommendations = []
    
    neighborRatings = new_df.loc[nearest]
    voterRatings = new_df.loc[votername]
    
    for candidate in neighborRatings.keys():
        if isnan(voterRatings[candidate]) and not isnan(neighborRatings[candidate]):
            
            recommendations.append((candidate, neighborRatings[candidate]))
    
    while len(recommendations) == 0:
        i+=1
        recommendations = recommend(votername,i)
    
    return sorted(recommendations,
        key=lambda candidateTuple: candidateTuple[1],
        reverse = True)

Exemplo de utilização da função.

In [17]:
print(recommend("eleitor1"))

[('Marina Silva', 3.0), ('Jair Bolsonaro', 1.0), ('Guilherme Boulos', 1.0)]


In [19]:
print(recommend("eleitor3"))

[('João Amoêdo', 4.0), ('Fernando Haddad', 4.0)]


In [20]:
print(recommend("eleitor4"))

[('Marina Silva', 1.0)]


In [21]:
print(recommend("eleitor5"))

[('Cabo Daciolo', 3.0), ('Fernando Haddad', 1.0)]


In [None]:
new_df.head()

In [None]:
df.head()

## Importação para outro *notebook*

Esta recomendação será aplicada durante o desenvolvimento do *notebook* para a recomendação por filtragem híbrida. Assim, as funções precisarão sofrer alterações, pois como pode ser visto, a recomendação é feito diretamente para os usuários presentes no *notebook*, o que não será possível realizar em outro *notebook*.

**Obs.:** Existe a possibilidade de se devolver um modelo de *machine learning* que possa aprender esta recomendação, e assim chamando o modelo passando o vetor de algum usuário para o mesmo.

In [33]:
def collaborative_recommend(userRating):
    print(userRating)
    for candidate in list(new_df.columns):
        if not candidate in userRating.keys():
            userRating[candidate] = float('NaN')
    
    new_df.loc['eleitor' + str(len(new_df)+1)] = userRating
    
    recommendations = recommend(new_df.index[-1])
    
    new_df = new_df.drop(new_df.index[-1])
    
    return recommendations

In [None]:
#user = {}
#user['Lucas'] = {'João Amoêdo': 3, 'Jair Bolsonaro': 2, 'Ciro Gomes': 3}

In [None]:
#user['Lucas']

In [None]:
#list(new_df.columns)

In [None]:
#for candidate in list(new_df.columns):
#    if not candidate in user['Lucas'].keys():
#        user['Lucas'][candidate] = float('NaN')

In [None]:
#'user['Lucas']

In [None]:
#new_df.loc['eleitor' + str(len(new_df)+1)] = user['Lucas']

In [None]:
#new_df = new_df.drop(new_df.index[-1])

In [None]:
#new_df