https://docs.google.com/presentation/d/1nITW2Mh6jqwl8ouO36GlRrCkVCcVtYY3syI6fVgKyi4/edit?usp=sharing

Omplir group.json

# Sistemes de Recomanació

En aquest primer lliurament es programarà un **sistema de recomanació**, que posarà en correspondència un *usuari* amb *artistes* en funció de les seves preferències i interessos. 
En aquesta ocasió, implementareu un sistema de recomanació que indiqui quin artista escoltar.

## Abans de començar


**\+ Durant la pràctica, solament es podran fer servir les següents llibreries**:

`Pandas, Numpy, Itertools`

*Nota: A més de les que ja es troben presents en la 1a cel·la i funcions natives de Python*

**\+ No es poden modificar les definicions de les funcions donades, ni canviar els noms de les variables i paràmetres ja donats**

Això no implica però que els hàgiu de fer servir. És a dir, que la funció tingui un paràmetre anomenat `df` no implica que l'hàgiu de fer servir, si no ho trobeu convenient.

**\+ En les funcions, s'especifica que serà i de quin tipus cada un dels paràmetres, cal respectar-ho**

Per exemple (ho posarà en el pydoc de la funció), `df` sempre serà indicatiu del `Pandas.DataFrame` de les dades. Durant els testos, els paràmetres (i específicament `df`) no contindran les mateixes dades que en aquest notebook, si bé si seran del mateix tipus! Per tant, no us refieu de què tinguin, per exemple, el mateix nombre de files.

## Testos automàtics

Com ja sabeu, les pràctiques es fan a través de Github Classroom. Podeu treballar-hi lliurement i es recomana que feu commits sovint, per tal que els canvis quedin reflectits de forma estructurada i modular.

Normalment treballareu a la branca `master`, però podeu fer fins a 3 cops al dia un `commit` (o `merge` de `master`) a la branca `test`. Això provocarà que es llencin un seguit de proves sobre el vostre codi, en podreu veure el resultat a la següent web: http://grade-me.education

Penseu que aquests testos són un subconjunt, petit, dels que realment farem servir per avaluar. Per tant, us recomanem que aprofiteu al màxim els 3 intents diaris, que us serviran per comprovar que els formats d'entrada i sortida siguin correctes, a més d'alguns testos bàsics de correcte funcionament.

# Les dades

En aquest i futur notebooks farem servir dades reals corresponents a *Last.fm dataset*. 

# Data loading

### **En aquestes cel·les no feu cap modificació**

Carrega les dades en un DataFrame Pandas.

In [1]:
import pandas as pd
import numpy as np
import zipfile
import pickle
from os.path import join, dirname

def locate(*path):
    base = globals().get('__file__', '.')
    return join(dirname(base), *path)

def unzip(file):
    zip_ref = zipfile.ZipFile(locate(file), 'r')
    zip_ref.extractall(locate('data'))
    zip_ref.close()

if __name__ == '__main__':
    unzip('dades_alumnes.zip')

    original_df_artists = pd.read_csv('data/artists_names.csv', index_col='musicbrainzID')
    original_df_users = pd.read_csv('data/user_profile_train.csv', index_col='userID')
    original_df_user_artists = pd.read_csv('data/user_artist_plays_train.csv', index_col=0)
    
    print(original_df_artists.shape, original_df_users.shape, original_df_user_artists.shape)

  mask |= (ar1 == a)


(160112, 1) (251543, 4) (10215268, 3)


In [2]:
if __name__ == '__main__':
    df_user_artists = original_df_user_artists[original_df_user_artists.userID < 1000]
    print(df_user_artists.shape)
    print(len(df_user_artists['userID'].unique()), len(df_user_artists['musicbrainzID'].unique()))

(28987, 3)
707 6544


## Anàlisis de les dades

El primer que haurem de fer és analitzar les dades mitjançant diferents funcions.

In [3]:
def count_users(df):
    """
    Retorna el nombre d'usuaris en el dataframe
    
    :param df: DataFrame dels usuaris
    :return : Enter, nombre d'usuaris
    """
    return len(df.index)

def count_artits(df):
    """
    Retorna el nombre d'artistes en el dataframe
    
    :param df: DataFrame dels artistes
    :return : Enter, nombre d'artistes
    """
    return len(df.index)

def get_users(df):
    """
    Retorna els ids dels usuaris
    
    :params df: DataFrame df_user_artists
    :return : Llista, tupla, pd.Series o indexos de pandas amb les ids
    """
    return df.index


def get_artits(df):
    """
    Retorna els ids dels artites
    
    :params df: DataFrame df_user_artists
    :return : Llista, tupla, pd.Series o indexos de pandas amb les ids
    """
    return df.index
def total_reproductions(df):
    """
    Retorna la quantitat de reproduccions totals guardades al dataframe
    
    :params df: DataFrame df_user_artists
    :return : Enter, nombre de reproduccions
    """

    return (np.sum(df['plays']))

<div style='background: #FCD02C; color: #333; padding: 20px; border-radius: 5px;'>
    <div style='float: right; font-weight: bold;'>1/1</div>
    Bé, tot i que no calia que convertíssiu a `list`.
</div>

In [4]:
if __name__ == '__main__':
    print('count_users: {}'.format(count_users(original_df_users)))
    print('count_artits: {}'.format(count_artits(original_df_artists)))
    print('get_users: {}'.format(get_users(original_df_users)))
    print('get_artits: {}'.format(get_artits(original_df_artists)))
    print('total_reproductions: {}'.format(total_reproductions(original_df_user_artists)))

count_users: 251543
count_artits: 160112
get_users: Int64Index([310519, 109228,  35296, 291224, 151053, 267414,  63446,  80577,
            187410, 339146,
            ...
             43472, 130769,  66696, 315919,  98574, 226675,  81761, 103020,
            104679,  73210],
           dtype='int64', name='userID', length=251543)
get_artits: Int64Index([     0,      1,      2,      3,      4,      5,      6,      7,
                 8,      9,
            ...
            160103, 160104, 160105, 160106, 160107, 160108, 160109, 160110,
            160111, 160112],
           dtype='int64', name='musicbrainzID', length=160112)
total_reproductions: 2356118519


# Implementació

Recordeu, seguiu els pydoc i compliu amb el que diuen!

El primer que haurem de fer és construir una matriu que ens serveixi, d'alguna forma, com a indicatiu de preferències de cada persona. Per tal efecte, construirem una matriu $m\times n$, de $m$ usuaris per $n$ artistes (items), on cada entrada $i,j$ serà el nombre de vegades que la persona $i$ a escoltat l'artista $j$.

<img src="./img/Mat.png">


In [5]:
from scipy.sparse import csr_matrix, dok_matrix
from pandas.api.types import CategoricalDtype

def to_dense(array):
    """
    Accepta una csr_matrix, dok_matrix o matrix i la converteix en una 
    np.array normal, densa.
    
    :param array: Array a convertir
    :return: np.array densa, sense cap dimensió de tamany 1
    """
    try:
        array = array.todense()
    except:
        pass
    
    return np.array(array).squeeze()
    
def build_counts_table(df):
    """
    Retorna una csr_matrix on les columnes són els `items`, les files `user_id` i els valors
    el nombre de vegades que un usuari ha escoltat un `artist`
    
    :param df: DataFrame original després de creuar-lo
    :return: Una tupla constistent de:
        * La csr_matrix descrita
        * Els indexos corresponents a cada fila (el userID de la fila `i` corresponent a l'element `i` d'aquesta array)
        * Les columnes corresponents a cada columna (el musicbrainzID de la columna `j` correspon a l'element `j` d'aquesta array)
    """
    # Ids, sense repeticions i ordenats
    user_ids = CategoricalDtype(sorted(df.userID.unique()), ordered=True)
    music_ids = CategoricalDtype(sorted(df.musicbrainzID.unique()), ordered=True)

    # Conversió a csr
    row = df.userID.astype(user_ids).cat.codes
    col = df.musicbrainzID.astype(music_ids).cat.codes
    sparse_matrix = csr_matrix((df["plays"], (row, col)), \
                           shape=(user_ids.categories.size, music_ids.categories.size))

    return sparse_matrix, user_ids, music_ids

In [6]:
def get_count(counts, indexes, columns, user_id, artist_id):
    """
    Exemple: donat un ID d'usuari i un ID d'artista, retorna
        el valor corresponent de la matriu `counts`
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param user_id: ID de l'usuari
    :param artist_id: ID de l'artista
    :return: Enter amb el nombre de vegades que s'ha escoltat
    """
    row = indexes.categories.get_loc(user_id)
    col = columns.categories.get_loc(artist_id)
    return counts[row, col]

In [7]:
def top_active_users(counts, indexes, columns, n):
    """
    Exemple: Retorna els ids dels n usuaris que més reproduccions han acumulat
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param n: Quanitat d'usuaris
    :return: Llista, tupla o pd.Series de userID dels n usuaris
    """
    # Operate with the sparse matrix, convert to dense the result (as it has much fewer entries)
    #print(counts.sum(axis=1).shape)
    sums = to_dense(counts.sum(axis=1))
    # Get indices
    indices = sums.argsort()
    #print(indices)
    return indexes.categories[indices[-n:]]

def top_reproduced_artits(counts, indexes, columns, n):
    """
    Exemple: Retorna els ids dels n artistes més escoltats
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param n: Quanitat d'artistes
    :return: Llista, tupla o pd.Series de artistID dels n artistes
    """
    #print(counts.sum(axis=0).shape)
    #print((to_dense(counts.sum(axis=0))).argsort())
    
    sums = to_dense(counts.sum(axis=0))
    #print(sums)
    # Get indices
    indices = sums.argsort()

    return columns.categories[indices[-n:]]

<div style='background: #FCD02C; color: #333; padding: 20px; border-radius: 5px;'>
    <div style='float: right; font-weight: bold;'>1/1</div>
    Tot bé
</div>

In [8]:
if __name__ == '__main__':
    counts, indexes, columns = build_counts_table(df_user_artists)
    print(counts.shape)
    
    count = get_count(counts, indexes, columns, 10, 2) #111, 3323
    print(count)
    
    top_users = top_active_users(counts, indexes, columns, 5)
    print(top_users)
    
    top_artists = top_reproduced_artits(counts, indexes, columns, 5)
    print(top_artists)

(707, 6544)
0
Int64Index([220, 603, 1, 877, 557], dtype='int64')
Int64Index([246, 217, 158, 1757, 578], dtype='int64')


# Mesurament de similituds

El primer pas per poder recomanar és definir una funció de similitud entre vectors. Siguin $x, y$ vectors, les següents són funcions típiques de similitud:

* Distància euclidea (inversa): https://en.wikipedia.org/wiki/Euclidean_distance

$$sim(x, y) = \frac{1}{1 + \sqrt{\sum_i(x_i-y_i)^2}}\in [0, 1]$$

* Similitud cosinus: https://en.wikipedia.org/wiki/Cosine_similarity

$$sim(x, y) = \frac{x\cdot y}{||x||\hspace{0.1cm} ||y||} \in [-1,1]$$

* Correlació de Pearson: https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

$${\displaystyle sim(x,y)={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}}} \in [-1,1] \\ \text{On }\bar{x} = \frac{1}{n} \sum^n_i x_i\text{ la mitja (i anàlogament per y)}$$

Per aquesta part, però, **us demanem que implementeu** la següent funció de similitud:

* Jaccard: https://en.wikipedia.org/wiki/Jaccard_index

$$sim(x, y) = {{|x \cap y|}\over{|x \cup y|}} $$

Aquesta funció mesura el nombre d'elements en comú dels dos vectors (numerador) i el nombre total d'elements diferents que hi ha entre els dos vectors.
Per exemple: 

$$
x = [1, \text{NaN}, 2, 3, \text{NaN}, 5] \\
y = [2, 1, \text{NaN}, \text{NaN}, \text{NaN}, \text{NaN}] \\
sim(x, y) = {{|x \cap y|}\over{|x \cup y|}} = {1 \over{5}} = 0.2
$$

Per implementar-la **no podeu fer servir bucles** ni cap funció que calculi directament el resultat:

* *scipy.spatial.distance.jaccard*
* *sklearn.metrics.jaccard_similarity_score*
* I d'altres semblants

<hr>

Tant per aquesta última com per les altres funcions, tingueu en compte que tenen particularitats. Algunes consideren valors negatius per els exemples oposats, d'altres poden donar problemes quan el denominador és 0, etc.

In [9]:
import numpy as np

def similarity(x, y):
    """
    Similitud entre x i y segons Jaccard
    
    :param x: Primer vector, com a np.array
    :param y: Segon vector, com a np.array
    :return : Escalar (float) corresponent a la similitud
    """
    inters = x * y != 0
    union = x + y !=0
    return (np.sum(inters)/np.sum(union))
  

In [10]:
def sim_pearson(x,y):
    mean_x = np.mean(x)
    mean_y = np.mean(y)
    num = np.sum(np.dot(x-mean_x, y-mean_y))
    x_ = np.sqrt(np.sum(np.power((x-mean_x),2)))
    y_ = np.sqrt(np.sum(np.power((y-mean_y),2)))

    if x_ == 0.0 or y_ == 0.0:
        return 0.
    
    return num/(x_*y_)

def sim_euclidean(x,y):
    return 1/(1 + np.linalg.norm(x-y))

<div style='background: #FCD02C; color: #333; padding: 20px; border-radius: 5px;'>
    <div style='float: right; font-weight: bold;'>3/3</div>
    Molt bé! Seria encara millor si en lloc de `sum` féssiu servir `np.sum`, tingueu-ho en compte
</div>

In [11]:
if __name__ == '__main__':
    x = np.array([1, 1, 1, 0., 2])
    y = np.array([1, 2, 3, 0., 0.])
    print(similarity(x, y))
    print(sim_pearson(x, y))
    print(sim_euclidean(x, y))

0.75
0.0
0.25


### Matriu de similituds

Per fer recomanació col·laborativa existeixen dues opcions, fer un recomanador basat en usuaris o un en ítems:

* Recomanador basat en usuaris:
Considera la matriu $M\times N: \text{usuaris}\times\text{items}$, per recomanar t'hauràs de basar en les similituds entre els usuaris.

* Recomanador basat en items:
Considera la matriu $M\times N: \text{items}\times\text{usuaris}$, per recomanar t'hauràs de basar en les similituds entre els ítems.

Construeix una matriu de mida $M\times M$ on cada posició $i,j$ indica la distància entre l'element $i$ i el $j$. Així doncs, si estàs fent un recomanador basat en usuaris, `matriu[2, 3]` contindrà la similitud entre l'usuari 2 i el 3. En canvi, si l'estàs fent basat en ítems, `matriu[2, 3]` contindrà la similitud entre l'ítem 2 i el 3.

In [12]:
from tqdm import tqdm_notebook
def similarity_matrix(similarity_function, counts):
    """
    Retorna una matriu dok_matrix (sparse) de mida M x M on la posició
    (i, j) indica la similitud entre els usuaris `i` i `j` (resp. items).
    
    No necessàriament totes les posicions han de ser obligatòriament omplertes.
    Una bona implementació considerarà una matriu triangular, tenint-ho en compte
    en les següents funcions.
    
    :param similarity_function: Fnció que calcularà la similitud 
        entre usuaris (resp. ítems)u
    :param counts: csr_matrix que conté el nombre de vegades que 
        un usuari ha escoltat a un `artistID`
    :return : Matriu numpy de mida M x M amb les similituds.
    """
    # Matrix cosine
    #Formula en vectores
    #cos(x,y) = numpy.dot(x,y) / (numpy.sqrt(numpy.dot(x,x)) * numpy.sqrt(numpy.dot(y,y)))
    #(x,x) equivale a la diagonal
    #(y,y)
    
    if similarity_function is None:
        
        x = to_dense(counts)
        y = to_dense(counts.T)
        matrix_prod = np.dot(x,y)
        
        """ MALA SOLUCION,siempre hay divisiones entre 0 
        variable = np.nan_to_num((np.sqrt(diagonal_x)) * (np.sqrt(diagonal_y)))
        print(variable)
        matrix = np.around((matrix_prod/variable), decimals=5)
        np.fill_diagonal(matrix, 0)"""
        
        diagonal = np.diag(matrix_prod)
        inversa = 1 / diagonal
        inversa[np.isinf(inversa)] = 0
        inv_mag = np.sqrt(inversa)
        cosine = matrix_prod * inv_mag
        cosine = cosine.T * inv_mag
        np.fill_diagonal(cosine, 0)
        return cosine
    else: 
        n = counts.shape[0] # Resp. [1] per items
        matrix = dok_matrix((n, n)) # Empty matrix, needs to be filled
        for i in range(n):
            #matrix [i,i] = 0.
            for j in range(i+1, n):
                matrix[i,j] = similarity_function(to_dense(counts[i]), to_dense(counts[j]))
        return matrix

<div style='background: #FCD02C; color: #333; padding: 20px; border-radius: 5px;'>
    <div style='float: right; font-weight: bold;'>4/4</div>
    Molt bé la implementació matricial!
    Respecte la iterativa, molt bé també. Com a únic comentari, una matriu sparse té per defecte 0 allà on no hi ha res, per tant no és necessari que ompliu la posició [i, i].
</div>

Per cridar aquesta funció, el primer paràmetre pot ser:

* Si `similarity_function` no és `None`: `similarity_function` és una funció que rep dos np.array i calcula la similitud (tipus similarity(x, y)). Utilitzant ~5000 usuaris i amb una bona implementació triga ~45min.
* Opcionalment (no és obligatori fer-ho, penseu en Kaggle) podeu programar una funció que treballi específicament amb matrius (i no vectors). Si ho feu, cal gestionar-ho quan es rep `None`. No totes les funcions anteriorment anomenades són fàcils (ni intuïtives, ni hi caben en memòria) d'aplicar en forma matricial. Triga uns 5s.

In [13]:
import pickle

if __name__ == '__main__':
    try:
        sdf
        with open('similarities.pkl', 'rb') as fp:
            similarities = pickle.load(fp)
    except:
        similarities = similarity_matrix(
            similarity_function=None,
            counts=counts
        )
        
        with open('similarities.pkl', 'wb') as fp:
            pickle.dump(similarities, fp, pickle.HIGHEST_PROTOCOL)

### Generació de prediccions

Per fer recomanació col·laborativa, necessitem una funció que ens doni un valor de quant bona seria la recomanació. En el nostre cas i amb les nostres dades, volem una funció que ens indiqui quants cops escoltaria un usuari un artista donat.

* Si esteu fent un recomanador basat en usuaris, la puntuació per a un usuari $u$ i l'artista $i$ és

$$pred(u, i) = \hat{r}_{u,i} = \frac{\sum_{p\neq u,r_{p,i}>0} sim(u, p)\cdot r_{p,i}}{\sum_{p\neq u,r_{p,i}>0} sim(u, p)}$$

On $r_{u,i}$ indica el nombre de vegades que l'usuari $u$ ha escoltat l'l'ítem $i$.

És a dir, per cada usuari $p$ diferent de $u$ si aquest usuari ha escoltat algun cop el producte $i$, la similitud entre $p$ i $u$ multiplicada pel nombre de vegades que l'usuari $p$ ha escoltat l'l'ítem $i$ ($r_{p,i}$).

Pondera't per la suma de les similituds.

* Anàlogament, si està basat en ítem, la puntuació per a un usuari $u$ i ítem $i$ és

$$pred(u, i) = \hat{r}_{u,i} = \frac{\sum_{j\neq i,r_{u,j}>0} sim(i, j)\cdot r_{u,j}}{\sum_{j\neq i,r_{u,j}>0} sim(i, j)}$$

On $r_{u,i}$ indica el nombre de vegades que l'usuari $u$ ha escoltat l'ítem $j$.

És a dir, per cada ítem $j$ diferent de $i$ si l'usuari al qui recomanem ha escoltat l'artista $j$, la similitud entre $i$ i $j$ multiplicada pel nombre de vegades que l'usuari al qui recomanem $u$ ha escoltat l'ítem $j$ ($r_{u,j}$)

Pondera't per la suma de les similituds.

Fixeu-vos que, sigui quin sigui el cas, al final estem fent el producte vectorial entre dos vectors. Concretament, el producte vectorial entre les similituds i les compres. Fes una funció que calculi aquest resultat:

In [14]:
def score(counts, indexes, columns, similarities, user, item):
    """
    Extreu les similituds i el nombre de vegades que un usuari ha escoltat un artista
    (resp. nombre de vegades que cada usuari ha escoltat l'artista) i:
    
    * Si estàs implementant basat en usuaris:
        Donades les similituds i el nombre de vegades que l'usuari ha escoltat
        cada artista, retorna la predicció que indica quants cops escoltara 
        l'usuari un nou artista.
        
    * Si estàs implementant basat en items:
        Donades les similituds i el nombre de vegades que l'artista a recomanar ha
        estat escoltat per cada usuari, retorna la predicció que indica quants cops
        escoltaria l'usuari un nou artista.        
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param similarities: Matriu de similituds
    :param user: ID de l'usuari per la predicció
    :param item: ID de l'artista / item per la predicció    
    :return : Retorna un escalar (float) amb la predicció
    
    """
    
    user_ = indexes.categories.get_loc(user)
    item_ = columns.categories.get_loc(item)
    rpi = to_dense(counts[:,item_])
    #sim = np.concatenate((to_dense(similarities[:user_,user_]),to_dense( similarities[user_,user_:])))
    sim = np.triu(to_dense(similarities[user_]), k=1)
    sim = sim[user_]
    numerador = np.sum(rpi* sim)
    denominador = np.sum(sim[rpi > 0])
    if denominador != 0 and numerador != 0:
        return numerador/denominador
    else:
        return 0

<div style='background: #FCD02C; color: #333; padding: 20px; border-radius: 5px;'>
    <div style='float: right; font-weight: bold;'>4/5</div>
    En general està bé, però no funcionarà correctament amb la matriu triangular. Esteu agafant tota una fila de la matriu similarities, però solament heu omplert (correctament) una triangular. Per tant, aquest vector serà en part 0s i no ho hauria de ser.
    <br />
    Heu de combinar part de la fila i la columna de l'usuari de forma que únicament toqueu la part triangular que sí heu omplert.
</div>

In [15]:
if __name__ == '__main__':
    print(score(counts, indexes, columns, similarities, 111,123 )) #111,123
    # print(score(counts, indexes, columns, similarities, 0, 1))

277.0


In [16]:
def score_mean(counts, indexes, columns, similarities, user, item):
    """
    Extreu les similituds i el nombre de vegades que un usuari ha escoltat un artista
    (resp. nombre de vegades que cada usuari ha escoltat l'artista) i:
    
    * Si estàs implementant basat en usuaris:
        Donades les similituds i el nombre de vegades que l'usuari ha escoltat
        cada artista, retorna la predicció que indica quants cops escoltara 
        l'usuari un nou artista.
        
    * Si estàs implementant basat en items:
        Donades les similituds i el nombre de vegades que l'artista a recomanar ha
        estat escoltat per cada usuari, retorna la predicció que indica quants cops
        escoltaria l'usuari un nou artista.        
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param similarities: Matriu de similituds
    :param user: ID de l'usuari per la predicció
    :param item: ID de l'artista / item per la predicció    
    :return : Retorna un escalar (float) amb la predicció
    
    """
    user_ = indexes.categories.get_loc(user)
    item_ = columns.categories.get_loc(item)
    ru = np.mean(counts[:,user_])
    ri = to_dense(counts.mean(axis=1))
    rpi = to_dense(counts[:,item_])
    sim = np.triu(to_dense(similarities[user_]), k=1)
    sim = sim[user_]
    diferencia = np.subtract(rpi,ri)[rpi>0]
    numerador = np.sum(diferencia *sim[rpi > 0])
    denominador = np.sum(sim[rpi > 0])
    if numerador !=0 and denominador !=0:
        return ru + (numerador/denominador)
    else:
        return ru

<div style='background: #FCD02C; color: #333; padding: 20px; border-radius: 5px;'>
    Compte perque no esteu implementant la formula correctament. La mitja `ri` que heu de restar és una mitja per usuari de totes les seves reproduccions, quelcom tipus `counts.mean(axis=1)`.
    <br />
    Aleshores, el numerador us quedaria `(counts[:, item] - counts.mean(axis=1))[a]`
</div>

In [17]:
if __name__ == '__main__':
    print(score_mean(counts, indexes, columns, similarities, 111,123 )) #111,123

277.63544285575955


Feu una funció que donat un usuari calculi per cada item que no ha escoltat la puntuació d'aquest. La funció retorna els $N$ items més ben puntuats.

In [18]:
from queue import PriorityQueue
from tqdm import tqdm_notebook
import heapq as hq
import operator

def recommend_n_items(counts, indexes, columns, similarities, user, N):
    """
    Donat un usuari calcula per cada ítem/artista que no ha escoltat la puntuació d'aquest. 
    La funció retorna els $N$ ítems més ben puntuats.
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param similarities: Matriu de similituds
    :param user: Identificador de l'usuari
    :param N: Nombre d'ítems que volem que siguin recomanats.
    :return : Llista amb els IDs dels ítems recomanats
    """

    minheap = []
    user_ = indexes.categories.get_loc(user)
    for artist in tqdm_notebook(columns.categories.tolist()):
        artist_ = columns.categories.get_loc(artist)
        if counts[user_,artist_] == 0:
            valor = score(counts, indexes, columns, similarities, user, artist)
            hq.heappush(minheap, (-valor, artist))

    res = []

    for i in range(N):
        res.append(hq.heappop(minheap)[1])

    return res

<div style='background: #FCD02C; color: #333; padding: 20px; border-radius: 5px;'>
    <div style='float: right; font-weight: bold;'>1/2</div>
    Únicament heu de recomenar aqulells items que l'usuari no hagi escoltat. Esteu agafant possibles items que ja ha escoltat, i recomanant-los si queden prou alts.
</div>

In [19]:
if __name__ == '__main__':
    print(recommend_n_items(counts, indexes, columns, similarities, 111, 10)) #111,10

HBox(children=(IntProgress(value=0, max=6544), HTML(value='')))


[10941, 10425, 12302, 809, 1757, 4373, 8292, 4919, 10944, 12303]


In [20]:
from queue import PriorityQueue
from tqdm import tqdm_notebook
import heapq as hq
import operator

def recommend_n_items_mean(counts, indexes, columns, similarities, user, N):
    """
    Donat un usuari calcula per cada ítem/artista que no ha escoltat la puntuació d'aquest. 
    La funció retorna els $N$ ítems més ben puntuats.
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param similarities: Matriu de similituds
    :param user: Identificador de l'usuari
    :param N: Nombre d'ítems que volem que siguin recomanats.
    :return : Llista amb els IDs dels ítems recomanats
    """

    minheap = []
    user_ = indexes.categories.get_loc(user)
    for artist in tqdm_notebook(columns.categories.tolist()):
        artist_ = columns.categories.get_loc(artist)
        if counts[user_,artist_] == 0:
            valor = score_mean(counts, indexes, columns, similarities, user, artist)
            hq.heappush(minheap, (-valor, artist))

    res = []

    for i in range(N):
        res.append(hq.heappop(minheap)[1])

    return res

In [21]:
if __name__ == '__main__':
    print(recommend_n_items_mean(counts, indexes, columns, similarities, 111, 10)) #111,10

HBox(children=(IntProgress(value=0, max=6544), HTML(value='')))


[10941, 10425, 12302, 809, 1757, 4373, 8292, 4919, 10944, 12303]


<div style='background: #FCD02C; color: #333; padding: 20px; border-radius: 5px;'>
    <div style='float: right; font-weight: bold;'>14/16</div>
    La pràctica està força bé i la idea la teniu molt clara, fixeu-vos bé però en els petits detalls que us comento
</div>

## Possibles millores 

Per implementar millores, dupliqueu el notebook i feu-ho en la còpia!

Deixeu aquest notebook amb la implementació base.

**1) És Jaccard la millor mesura de similitud per les nostres dades?**
Jaccard no té en compte la cardinalitat, únicament els elements no nuls. És, per les dades de reproduccions, una aproximació adequada?
Si ho és, creus que el càlcul de recomanació col·laborativa és el més adhient? Mira el punt 3

**2) Utilització completa de les dades:**
Fer servir `df_original` tindrà (possiblement) resultats més fiables, però trigarà molt més que amb la versió reduida `df`. Pots canviar tant el nombre de dades utilitzades com quines dades es seleccionen.

**3) Normalització: Prediccions escalades al domini de l'usuari:**
Els usuaris escolten en diferent mesura als artites, uns més vegades, d'altres menys. Fent servir la següent formula, escalem la predicció a la mitja de l'usuari:
$$pred(u, i) = \hat{r}_{u,i} = \bar{r_u} + \frac{\sum_{p\neq u,r_{p,i}>0} sim(u, p)\cdot (r_{p,i}-\bar{r_i})}{\sum_{p\neq u,r_{p,i}>0} sim(u, p)}$$
on $\bar{r_u}$ és la mitjana de compres de l'usuari *u* i $\bar{r_i}$ la mitja de reproduccions de l'artista *i*.
    
**4) Valor del nombre d'elements codificats: **
Redueix la similitud entre els usuaris si el nombre de reproduccions és baix o descarta (en entrenament) aquells usuaris amb un petit nombre d'artistes escoltats.

**5) Augment de la similitud: **
Incrementeu el pes als usuaris que són realment similars (~ = 1)

**6) Selecció d'usuaris semblants: **
Només s'utilitza un subconjunt d'usuaris similars, descartant tots aquells usuaris poc similars.


Totes aquestes tècniques es poden aplicar d'igual manera en la recomanació col·laborativa per usuaris o ítems.

# Kaggle

Teniu la competició a la següent URL:

https://www.kaggle.com/t/4a3fd7b1e44c40a5a208c6da21a23d05

Si heu seguit tots els pydoc, el següent codi funcionarà directament sense canvis (@30min).

In [22]:
if __name__ == '__main__':
    try:
        from tqdm import tqdm_notebook
    except:
        def tqdm_notebook(a, *_, **__): return a
    
    # Fetch kaggle public data and merge
    kaggle_df_user_artists = pd.read_csv('data/user_artist_plays_public_kaggle.csv')
    merged_df_user_artists = pd.concat((df_user_artists, kaggle_df_user_artists))
    
    # Obtain counts
    merged_counts, merged_indexes, merged_columns = build_counts_table(merged_df_user_artists)
    
    # Similarity
    try:
        with open('merged_similarities.pkl', 'rb') as fp:
            merged_similarities = pickle.load(fp)
    except:
        merged_similarities = similarity_matrix(
            similarity_function=similarity,
            counts=merged_counts
        )
        
        with open('merged_similarities.pkl', 'wb') as fp:
            pickle.dump(merged_similarities, fp, pickle.HIGHEST_PROTOCOL)
    
    results = pd.DataFrame(columns=['user_id', 'music_id'])
    
    for idx, user in enumerate(tqdm_notebook(kaggle_df_user_artists.userID.unique())):
        #music_ids = recommend_n_items(merged_counts, merged_indexes, merged_columns, merged_similarities, user, 10)
        music_ids = recommend_n_items_mean(merged_counts, merged_indexes, merged_columns, merged_similarities, user, 10)
        results.loc[idx] = (user, ' '.join(str(x) for x in music_ids))
        
    results.to_csv('submission.csv', index=None)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  if __name__ == '__main__':


HBox(children=(IntProgress(value=0, max=99), HTML(value='')))

HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))




HBox(children=(IntProgress(value=0, max=6770), HTML(value='')))



