# Fazendo Recomendações #

<img src='RECOMENDO.jpg' >

Um algoritmo de recomendação basicamente usa os dados de preferências de um grupo de pessoas para fazer recomendações para outras pessoas. Um exemplo é a NetFlix que usa o seu histórico de filmes, séries e documentários assistidos para aprender suas preferêcias e encontrar o que pessoas parecidas com você assistiram e então te recomendar. 

### Coletando preferências ###

<img src='notas.png'>

A primeira coisa a se fazer é coletar dados das preferências de diferentes pessoas. Como exemplo, vamos criar alguns dados hipotéticos de avaliação de filmes. Uma ótima maneira de representar esses dados em Python e usar dicionários aninhados como se segue:

In [4]:
# Um dicionário de avaliações de filmes e suas classificações
# para um pequeno conjunto de dados

criticas = {'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5,
                         'Just My Luck': 3.0, 'Superman Returns': 3.5,
                         'You, Me and Dupree': 2.5,'The Night Listener': 3.0},
            
           'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5,
                           'Just My Luck': 1.5, 'Superman Returns': 5.0,
                           'The Night Listener': 3.0, 'You, Me and Dupree': 3.5},
            
           'Michael Phillips': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.0,
                               'Superman Returns': 3.5, 'The Night Listener': 4.0},
            
           'Claudia Puig': {'Snakes on a Plane': 3.5, 'Just My Luck': 3.0,
                            'The Night Listener': 4.5, 'Superman Returns': 4.0,
                            'You, Me and Dupree': 2.5},
            
            'Mick LaSalle': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0,
                            'Just My Luck': 2.0, 'Superman Returns': 3.0,
                            'The Night Listener': 3.0, 'You, Me and Dupree': 2.0},
            
            'Jack Matthews': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0,
                             'The Night Listener': 3.0, 'Superman Returns': 5.0,
                             'You, Me and Dupree': 3.5},
            
            'Toby': {'Snakes on a Plane': 4.5, 'You, Me and Dupree': 1.0, 'Superman Returns': 4.0}
           }

#Obs: esse exemplo foi tirado do livro 'Programando a Inteligência Coletiva' 

### Encontrando Usuários Similares ###

Agora que temos esses dados, vamos descobrir o quão essas pessoas são parecidas criando alguma 'escala de similaridade' entre cada indivíduo. Podemos fazer isso de várias formas, duas delas seriam: distância euclidiana e correlação de pearson.  

* #### Escala da Distância Eucliadiana #### 

É algo bem simples, só usar os itens em comum que as pessoas categorizam e os utilizar como eixos de um gráfico. Só plotar isso num gráfico e ver quão próximas elas estão. Quanto mais próximas as pessoas estiverem no espaço de preferência, mais similares elas são. Segue um exemplo de código que faz isso:  

In [7]:
from math import *

def similaridade(dados_preferecias, pessoa1, pessoa2):
    '''
    Retorna uma nota de similaridade baseada em distância 
    euclidiana entre a pessoa1 e pessoa2.
    '''
    # obtem a lista de itens_em_comum entre a pessoa1 e pessoa2
    em_comum = {}
    for item in dados_preferecias[pessoa1]:
        if item in dados_preferecias[pessoa2]:
            em_comum[item] = 1
            
    # se não existe classificações em comum, retorna zero
    if len(em_comum) == 0: return 0
    
    # soma os quadrados de todas as diferenças entre as 
    # notas que pessoa1 e pessoa2 deu para um filme em comum
    soma_dos_quadrados = sum([pow(dados_preferecias[pessoa1][item] - dados_preferecias[pessoa2][item], 2) \
                             for item in dados_preferecias[pessoa1] if item in dados_preferecias[pessoa2]])
    
    # Calculei a escala assim para mostra que quanto maior o valor mais semelhante 
    # as pessoas 1 e 2 são. Se usássemos apenas a distância euclidiana seria  
    # o contrário, quanto menor o valor, ou seja, a distância, mais semelhantes
    # elas seriam. 
    return 1 / (1 + soma_dos_quadrados)

In [10]:
# Vamos ver a nota de similaridade entre Lisa Rose e Gene Seymor
similaridade(criticas, 'Lisa Rose', 'Gene Seymour')

0.14814814814814814