# Sistemas de recomendação 

<b>Filtragem colaborativa:</b> Predições (filtros) em relação aos interesses de um usuário através de coleções de preferências e interesses de vários outros usuários (colaborativo)

<b>Filtragem baseada em conteúdo:</b> O algoritmo faz predições (filtros) baseado na semelhança entre itens que o usuário já manifestou interesse ou preferência.

<b>Sistema de recomendação híbrido:</b> combina os dois sistemas acima

<b>Cold start:</b> Problema de recomendar para usuários iniciais que não possuem informações.

<center>
    <img width="250px" src="../assets/recomendation.png">
</center>

Diagrama com os tipos de sistemas
- https://towardsdatascience.com/recommendation-system-with-matrix-factorization-ebc4736869e4

In [1]:
import numpy as np
import pandas as pd

- http://guidetodatamining.com/

## Exemplo de filtragem colaborativa (distância euclideana)

In [2]:
users = {"Angelica": {"Blues Traveler": 3.5, "Broken Bells": 2.0, "Norah Jones": 4.5, "Phoenix": 5.0, "Slightly Stoopid": 1.5, "The Strokes": 2.5, "Vampire Weekend": 2.0},
         "Bill":{"Blues Traveler": 2.0, "Broken Bells": 3.5, "Deadmau5": 4.0, "Phoenix": 2.0, "Slightly Stoopid": 3.5, "Vampire Weekend": 3.0},
         "Chan": {"Blues Traveler": 5.0, "Broken Bells": 1.0, "Deadmau5": 1.0, "Norah Jones": 3.0, "Phoenix": 5, "Slightly Stoopid": 1.0},
         "Dan": {"Blues Traveler": 3.0, "Broken Bells": 4.0, "Deadmau5": 4.5, "Phoenix": 3.0, "Slightly Stoopid": 4.5, "The Strokes": 4.0, "Vampire Weekend": 2.0},
         "Hailey": {"Broken Bells": 4.0, "Deadmau5": 1.0, "Norah Jones": 4.0, "The Strokes": 4.0, "Vampire Weekend": 1.0},
         "Jordyn":  {"Broken Bells": 4.5, "Deadmau5": 4.0, "Norah Jones": 5.0, "Phoenix": 5.0, "Slightly Stoopid": 4.5, "The Strokes": 4.0, "Vampire Weekend": 4.0},
         "Sam": {"Blues Traveler": 5.0, "Broken Bells": 2.0, "Norah Jones": 3.0, "Phoenix": 5.0, "Slightly Stoopid": 4.0, "The Strokes": 5.0},
         "Veronica": {"Blues Traveler": 3.0, "Norah Jones": 5.0, "Phoenix": 4.0, "Slightly Stoopid": 2.5, "The Strokes": 3.0}
        }

In [3]:
# get unique musics list
musics = set()
for user_key in users:
    for music_key in users[user_key]:
        musics.add(music_key)
musics = list(musics)
print(musics)

['Phoenix', 'Broken Bells', 'Deadmau5', 'The Strokes', 'Blues Traveler', 'Slightly Stoopid', 'Vampire Weekend', 'Norah Jones']


In [4]:
matrix = []
for user_key in users:
    row = []
    for music in musics:
        if music in users[user_key]:
            row.append(users[user_key][music])
        else:
            row.append(np.nan)
    matrix.append(row)
print(matrix)

[[5.0, 2.0, nan, 2.5, 3.5, 1.5, 2.0, 4.5], [2.0, 3.5, 4.0, nan, 2.0, 3.5, 3.0, nan], [5, 1.0, 1.0, nan, 5.0, 1.0, nan, 3.0], [3.0, 4.0, 4.5, 4.0, 3.0, 4.5, 2.0, nan], [nan, 4.0, 1.0, 4.0, nan, nan, 1.0, 4.0], [5.0, 4.5, 4.0, 4.0, nan, 4.5, 4.0, 5.0], [5.0, 2.0, nan, 5.0, 5.0, 4.0, nan, 3.0], [4.0, nan, nan, 3.0, 3.0, 2.5, nan, 5.0]]


In [5]:
df = pd.DataFrame(matrix, columns=musics)
df['User'] = users.keys()
df.set_index('User', inplace=True)
df

Unnamed: 0_level_0,Phoenix,Broken Bells,Deadmau5,The Strokes,Blues Traveler,Slightly Stoopid,Vampire Weekend,Norah Jones
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Angelica,5.0,2.0,,2.5,3.5,1.5,2.0,4.5
Bill,2.0,3.5,4.0,,2.0,3.5,3.0,
Chan,5.0,1.0,1.0,,5.0,1.0,,3.0
Dan,3.0,4.0,4.5,4.0,3.0,4.5,2.0,
Hailey,,4.0,1.0,4.0,,,1.0,4.0
Jordyn,5.0,4.5,4.0,4.0,,4.5,4.0,5.0
Sam,5.0,2.0,,5.0,5.0,4.0,,3.0
Veronica,4.0,,,3.0,3.0,2.5,,5.0


Qual a distância euclideana entre Hailey e Veronica?

In [6]:
df.loc[['Hailey', 'Veronica']].dropna(axis=1)

Unnamed: 0_level_0,The Strokes,Norah Jones
User,Unnamed: 1_level_1,Unnamed: 2_level_1
Hailey,4.0,4.0
Veronica,3.0,5.0


In [7]:
def euclidean_distance(v1, v2):
    square_sum = 0
    for i in range(len(v1)):
        square_sum += (v1[i] - v2[i]) ** 2
    return square_sum ** 0.5

print("Resposta:", euclidean_distance([4, 4], [3,5]))

Resposta: 1.4142135623730951


Qual a distância euclideana entre Hailey e Jordyn?

In [8]:
df.loc[['Hailey', 'Jordyn']].dropna(axis=1)

Unnamed: 0_level_0,Broken Bells,Deadmau5,The Strokes,Vampire Weekend,Norah Jones
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Hailey,4.0,1.0,4.0,1.0,4.0
Jordyn,4.5,4.0,4.0,4.0,5.0


In [9]:
print("Resposta:", euclidean_distance([4,1,1,4,4], [4.5,4,4,4,5]))

Resposta: 4.387482193696061


Quem tem gosto mais próximo de Hailey? Jordyn ou Veronica?

<b>Resposta:</b> Veronica.

## Outras distâncias

- https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cdist.html#scipy.spatial.distance.cdist

### Manhattan

In [10]:
from scipy.spatial.distance import cdist

print(cdist([[4, 4]], [[3,5]], metric="cityblock"))
print(cdist([[4,1,1,4,4]], [[4.5,4,4,4,5]], metric="cityblock"))

[[2.]]
[[7.5]]


### Minkowski p

In [11]:
# p = 1, manhattan
# p = 2, euclideana
# p = 3, chebyshev

print(cdist([[4, 4]], [[3,5]], metric="minkowski", p=4))
print(cdist([[4,1,1,4,4]], [[4.5,4,4,4,5]], metric="minkowski", p=4))

[[1.18920712]]
[[3.5734567]]


### Hamming

In [12]:
print(cdist([[4, 4]], [[3,5]], metric="hamming"))
print(cdist([[4,1,1,4,4]], [[4.5,4,4,4,5]], metric="hamming"))

[[1.]]
[[0.8]]


Observe que, se considerarmos a distância de Hamming, Jordyn tem gosto mais semelhante a Hailey do que Veronica.

## Medida de similaridade

In [13]:
from scipy.spatial.distance import cosine

print(cosine([4, 4], [3,5]))
print(cosine([4,1,1,4,4], [4.5,4,4,4,5]))

0.029857499854668124
0.0920074878366165


Distâncias, no contexto de espaços métricos (matemática), satisfazem as propriedades de reflexividade e de desigualdade triangular. Outras funções comparativas que não satisfazem as propriedades de uma distância (métrica) são denominadas medidas de similaridade. Há uma confusão natural entre os dois termos em áreas fora da matemática.

## Exemplo de filtragem baseada em conteúdo

Angelica deu nota 5 para Phoenix. Assumindo por hipótese que items parecidos com Phoenix devem também ser de interesse de Angelica, qual item é mais próximo a Phoenix?

In [14]:
dft = df.T

In [15]:
for music in dft.index:
    if music != 'Phoenix':
        v1, v2 = dft.loc[['Phoenix', music]].dropna(axis=1).values
        d = euclidean_distance(v1, v2)
        print(f"Distância entre Phoenix e {music}:", d)

Distância entre Phoenix e Broken Bells: 6.123724356957945
Distância entre Phoenix e Deadmau5: 4.8218253804964775
Distância entre Phoenix e The Strokes: 3.0413812651491097
Distância entre Phoenix e Blues Traveler: 1.8027756377319946
Distância entre Phoenix e Slightly Stoopid: 6.020797289396148
Distância entre Phoenix e Vampire Weekend: 3.4641016151377544
Distância entre Phoenix e Norah Jones: 3.0413812651491097


Possivelmente Angelica irá gostar mais de Blues Traveler.

Aqui, temos que ter atenção, porque Angelica já ouviu Blues traveler e avaliou com 3.5. Sistemas de recomendação geralmente são utilizados para recomendar novos conteúdos.

## Popularidade

In [18]:
df.describe()

Unnamed: 0,Phoenix,Broken Bells,Deadmau5,The Strokes,Blues Traveler,Slightly Stoopid,Vampire Weekend,Norah Jones
count,7.0,7.0,5.0,6.0,6.0,7.0,5.0,6.0
mean,4.142857,3.0,2.9,3.75,3.583333,3.071429,2.4,4.083333
std,1.214986,1.322876,1.746425,0.880341,1.200694,1.426785,1.140175,0.917424
min,2.0,1.0,1.0,2.5,2.0,1.0,1.0,3.0
25%,3.5,2.0,1.0,3.25,3.0,2.0,2.0,3.25
50%,5.0,3.5,4.0,4.0,3.25,3.5,2.0,4.25
75%,5.0,4.0,4.0,4.0,4.625,4.25,3.0,4.875
max,5.0,4.5,4.5,5.0,5.0,4.5,4.0,5.0


As maiores médias são Phoenix e Norah Jones. As maiores medianas coincidem. Sendo assim, recomendaria-se Phoenix e Norah Jones por serem as mais bem avalidadas.

## Apriori

Dataset:
- http://archive.ics.uci.edu/dataset/352/online+retail

Referência:
- https://www.geeksforgeeks.org/implementing-apriori-algorithm-in-python/

In [19]:
from mlxtend.frequent_patterns import apriori, association_rules

In [20]:
data = pd.read_csv('../datasets/online_retail/online_retail.csv')
data.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,1/12/2010 08:26,255,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,1/12/2010 08:26,339,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,1/12/2010 08:26,275,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,1/12/2010 08:26,339,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,1/12/2010 08:26,339,17850.0,United Kingdom


In [21]:
data['Description'] = data['Description'].str.strip() # clear spaces
data.dropna(axis = 0, subset =['InvoiceNo'], inplace = True) # dropna
data['InvoiceNo'] = data['InvoiceNo'].astype('str') # Inv to str
data = data[~data['InvoiceNo'].str.contains('C')] # not C

In [22]:
def create_basket(country):
    return data[data['Country'] == country].groupby(
        ['InvoiceNo', 'Description'])['Quantity'].sum().unstack().reset_index().fillna(0).set_index('InvoiceNo')

basket_France = create_basket("France")
basket_UK = create_basket("United Kingdom")
basket_Por = create_basket("Portugal")
basket_Sweden = create_basket("Sweden")

In [23]:
def hot_encode(x):
    if(x<= 0):
        return False
    if(x>= 1):
        return True

basket_France = basket_France.applymap(hot_encode)
basket_UK = basket_UK.applymap(hot_encode)
basket_Por = basket_Por.applymap(hot_encode)
basket_Sweden = basket_Sweden.applymap(hot_encode)

In [24]:
# Building the model
frq_items = apriori(
    basket_France, 
    min_support = 0.05, # min percent of a itemset
    use_colnames = True)
  
# Collecting the inferred rules in a dataframe
rules = association_rules(frq_items, metric ="lift", min_threshold = 1)
rules = rules.sort_values(['confidence', 'lift'], ascending =[False, False])
rules.head()

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
45,(JUMBO BAG WOODLAND ANIMALS),(POSTAGE),0.076531,0.765306,0.076531,1.0,1.306667,0.017961,inf,0.254144
260,"(PLASTERS IN TIN CIRCUS PARADE, RED TOADSTOOL ...",(POSTAGE),0.05102,0.765306,0.05102,1.0,1.306667,0.011974,inf,0.247312
272,"(RED TOADSTOOL LED NIGHT LIGHT, PLASTERS IN TI...",(POSTAGE),0.053571,0.765306,0.053571,1.0,1.306667,0.012573,inf,0.247978
302,"(SET/6 RED SPOTTY PAPER CUPS, SET/20 RED RETRO...",(SET/6 RED SPOTTY PAPER PLATES),0.102041,0.127551,0.09949,0.975,7.644,0.086474,34.897959,0.967949
301,"(SET/6 RED SPOTTY PAPER PLATES, SET/20 RED RET...",(SET/6 RED SPOTTY PAPER CUPS),0.102041,0.137755,0.09949,0.975,7.077778,0.085433,34.489796,0.956294


Definições
- https://s2.smu.edu/~mhahsler/crawler_test/michael.hahsler.net/research/association_rules/measures.html

Interpretações e um exemplo simples
- https://medium.com/@bernardo.costa/uma-introdu%C3%A7%C3%A3o-ao-algoritmo-apriori-60b11293aa5a

Cada regra de associação é definido com um antecedente (antecedents) e um consequente (consequents). Isso quer dizer que numa cesta de compras, dado que os antecedentes estejam, há chances do consequente estar. 

ANTECEDENTE -> CONSEQUENTE

Podemos citar alguns exemplos:
- Pão -> Margarina
- Café, Açucar -> Filtro

<b>Support:</b> O suporte de um conjunto X (que pode ser antecedents ou consequentes) é a proporção do conjunto de dados T que contém X. Isto é: 
$$Supp(X) = \frac{|\{t ∈ T : X ⊆ t\}|}{|T|}$$

<b>Confidence:</b> A confiança de uma regra $A \rightarrow B$ é a  probabilidade de B numa transação dado que na transação também está A. Isto é: $$Conf(A \rightarrow B) = \frac{Supp(A ∪ B)}{Supp(A)}$$

<b>Lift:</b> O lift de uma regra $A \rightarrow B$ é definido por: $$Lift(A \rightarrow B) = \frac{Conf(A \rightarrow B)}{Supp(B)}$$

<b>Leverage</b> Leverage é a diferença entre a frequência observada de A e B e a frequencia que deveria ser esperada se A e B forem independentes. $$Lev(A \rightarrow B) = Supp(A ∪ B) - Supp(A) * Supp(B)$$

<b>Conviction</b> A conviction de uma regra $A \rightarrow B$ é definido por $$Conv(A \rightarrow B) = \frac{(1 - Supp(B))}{(1 - Conf(A \rightarrow B))}$$