# Data loading

### **En aquestes cel·les no feu cap modificació**

Carrega les dades en un DataFrame Pandas.

In [1]:
import pandas as pd
import numpy as np
import zipfile
import pickle
from os.path import join, dirname

def locate(*path):
    base = globals().get('__file__', '.')
    return join(dirname(base), *path)

def unzip(file):
    zip_ref = zipfile.ZipFile(locate(file), 'r')
    zip_ref.extractall(locate('data'))
    zip_ref.close()

if __name__ == '__main__':
    unzip('dades_alumnes.zip')

    original_df_artists = pd.read_csv('data/artists_names.csv', index_col='musicbrainzID')
    original_df_users = pd.read_csv('data/user_profile_train.csv', index_col='userID')
    original_df_user_artists = pd.read_csv('data/user_artist_plays_train.csv', index_col=0)
    kaggle_df_user_artists = pd.read_csv('data/user_artist_plays_public_kaggle.csv')
    
    print(original_df_artists.shape, original_df_users.shape, original_df_user_artists.shape, kaggle_df_user_artists.shape)

  mask |= (ar1 == a)


(160112, 1) (251543, 4) (10215268, 3) (3217, 4)


In [2]:
if __name__ == '__main__':
    #Creem dos DataFrames de diferents mides per treballar amb millor original_user_artists
    df_user_artists = original_df_user_artists[original_df_user_artists.userID < 1000]
    #Mides del primer df i número d'usuaris i d'artistes que apareixen
    print(df_user_artists.shape)
    print(len(df_user_artists['userID'].unique()), len(df_user_artists['musicbrainzID'].unique()))
    #Capçaleres
    print(original_df_artists.head())
    print(original_df_users.head())
    print(original_df_user_artists.head())
    print(kaggle_df_user_artists.head())
    print(len(kaggle_df_user_artists['userID'].unique()), len(kaggle_df_user_artists['musicbrainzID'].unique()))

(28987, 3)
707 6544
                         artistName
musicbrainzID                      
0                   betty blowtorch
1                         die Ärzte
2                 melissa etheridge
3                         elvenking
4              juliette & the licks
       gender   age         country        signup
userID                                           
310519      m  21.0          Poland  Oct 16, 2008
109228      m  28.0        Honduras  May 22, 2007
35296       m  28.0          Turkey   May 5, 2007
291224      m  22.0        Slovakia  May 11, 2008
151053      m  26.0  United Kingdom  Dec 24, 2007
   userID  musicbrainzID  plays
1       0              1   1099
2       0              2    897
3       0              3    717
4       0              4    706
5       0              5    691
   Unnamed: 0  userID  musicbrainzID  plays
0        5920     121            729   1759
1        5923     121           3529    251
2        5924     121            427    179
3        5

## Anàlisis de les dades

El primer que haurem de fer és analitzar les dades mitjançant diferents funcions.

In [3]:
def count_users(df):
    """
    Retorna el nombre d'usuaris en el dataframe
    
    :param df: DataFrame dels usuaris
    :return : Enter, nombre d'usuaris
    """
    return len(df.index)

def count_artits(df):
    """
    Retorna el nombre d'artistes en el dataframe
    
    :param df: DataFrame dels artistes
    :return : Enter, nombre d'artistes
    """
    return len(df.index)

def get_users(df):
    """
    Retorna els ids dels usuaris
    
    :params df: DataFrame original_df_users
    :return : Llista, tupla, pd.Series o indexos de pandas amb les ids
    """
    return df.index

def get_artits(df):
    """
    Retorna els ids dels artites
    
    :params df: DataFrame df_user_artists
    :return : Llista, tupla, pd.Series o indexos de pandas amb les ids
    """
    return df.index

def total_reproductions(df):
    """
    Retorna la quantitat de reproduccions totals guardades al dataframe
    
    :params df: DataFrame df_user_artists
    :return : Enter, nombre de reproduccions
    """
    return df['plays'].sum()

In [4]:
if __name__ == '__main__':
    print('count_users: {}'.format(count_users(original_df_users)))
    print('count_artits: {}'.format(count_artits(original_df_artists)))
    print('get_users: {}'.format(get_users(original_df_users)))
    print('get_artits: {}'.format(get_artits(original_df_artists)))
    print('total_reproductions: {}'.format(total_reproductions(original_df_user_artists)))

count_users: 251543
count_artits: 160112
get_users: Int64Index([310519, 109228,  35296, 291224, 151053, 267414,  63446,  80577,
            187410, 339146,
            ...
             43472, 130769,  66696, 315919,  98574, 226675,  81761, 103020,
            104679,  73210],
           dtype='int64', name='userID', length=251543)
get_artits: Int64Index([     0,      1,      2,      3,      4,      5,      6,      7,
                 8,      9,
            ...
            160103, 160104, 160105, 160106, 160107, 160108, 160109, 160110,
            160111, 160112],
           dtype='int64', name='musicbrainzID', length=160112)
total_reproductions: 2356118519


# Implementació

Recordeu, seguiu els pydoc i compliu amb el que diuen!

El primer que haurem de fer és construir una matriu que ens serveixi, d'alguna forma, com a indicatiu de preferències de cada persona. Per tal efecte, construirem una matriu $m\times n$, de $m$ usuaris per $n$ artistes (items), on cada entrada $i,j$ serà el nombre de vegades que la persona $i$ a escoltat l'artista $j$.

<img src="./img/Mat.png">


In [5]:
from scipy.sparse import csr_matrix, dok_matrix
from pandas.api.types import CategoricalDtype

def to_dense(array):
    """
    Accepta una csr_matrix, dok_matrix o matrix i la converteix en una 
    np.array normal, densa.
    
    :param array: Array a convertir
    :return: np.array densa, sense cap dimensió de tamany 1
    """
    try:
        array = array.todense()
    except:
        pass
    
    return np.array(array).squeeze()
    
def build_counts_table(df):
    """
    Retorna una csr_matrix on les columnes són els `items`, les files `user_id` i els valors
    el nombre de vegades que un usuari ha escoltat un `artist`
    
    :param df: DataFrame original després de creuar-lo
    :return: Una tupla constistent de:
        * La csr_matrix descrita
        * Els indexos corresponents a cada fila (el userID de la fila `i` corresponent a l'element `i` d'aquesta array)
        * Les columnes corresponents a cada columna (el musicbrainzID de la columna `j` correspon a l'element `j` d'aquesta array)
    """
    # Ids, sense repeticions i ordenats
    user_ids = CategoricalDtype(sorted(df.userID.unique()), ordered=True)
    music_ids = CategoricalDtype(sorted(df.musicbrainzID.unique()), ordered=True)

    # Conversió a csr
    row = df.userID.astype(user_ids).cat.codes
    col = df.musicbrainzID.astype(music_ids).cat.codes
    sparse_matrix = csr_matrix((df["plays"], (row, col)), \
                           shape=(user_ids.categories.size, music_ids.categories.size))

    return sparse_matrix, user_ids, music_ids

In [6]:
def get_count(counts, indexes, columns, user_id, artist_id):
    """
    Exemple: donat un ID d'usuari i un ID d'artista, retorna
        el valor corresponent de la matriu `counts`
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param user_id: ID de l'usuari
    :param artist_id: ID de l'artista
    :return: Enter amb el nombre de vegades que s'ha escoltat
    """
    row = indexes.categories.get_loc(user_id)
    col = columns.categories.get_loc(artist_id)
    return counts[row, col]

In [7]:
def top_active_users(counts, indexes, columns, n):
    """
    Exemple: Retorna els ids dels n usuaris que més reproduccions han acumulat
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param n: Quanitat d'usuaris
    :return: Llista, tupla o pd.Series de userID dels n usuaris
    """
    
    # Com treballem amb una matriu sparse cal convertir a dense el resultat per poder operar-lo bé més tard
    # La funció argsort() retorna els indexs que queden en ordenar sums.
        #Exemple: [3,1,2] ordenat quedaria [1,2,3] i els seus índexs serien [1,2,0], que és el que retorna np.argsort([3,1,2])
    sums = to_dense(counts.sum(axis=1))
    indices = sums.argsort()
    return indexes.categories[indices[-n:]]

def top_reproduced_artits(counts, indexes, columns, n):
    """
    Exemple: Retorna els ids dels n artistes més escoltats
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param n: Quanitat d'artistes
    :return: Llista, tupla o pd.Series de artistID dels n artistes
    """
    #Anàlogament a l'anterior
    sums = to_dense(counts.sum(axis=0))
    indices = sums.argsort()
    return columns.categories[indices[-n:]]

def top_active_users_diferent(counts, indexes, columns, n):
    """
    Exemple: Retorna els ids dels n usuaris que més reproduccions d'artistes diferents han acumulat 
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param n: Quanitat d'usuaris
    :return: Llista, tupla o pd.Series de userID dels n usuaris
    """
    
    # Operate with the sparse matrix, convert to dense the result (as it has much fewer entries)
    counts_cp = counts.copy()
    counts_cp[counts_cp > 0] = 1
    sums = to_dense(counts_cp.sum(axis=1))
    # Get indices
    indices = sums.argsort()
    return indexes.categories[indices[-n:]]

In [8]:
from tqdm import tqdm_notebook #Diferents conjunts de dades amb les que treballar
if __name__ == '__main__':
    counts, indexes, columns = build_counts_table(df_user_artists)
    print(counts.shape)
    
    count = get_count(counts, indexes, columns, 111, 3323)
    print(count)
    
    top_users = top_active_users(counts, indexes, columns, 5)
    print(top_users)
    
    top_artists = top_reproduced_artits(counts, indexes, columns, 5)
    print(top_artists)

(707, 6544)
2796
Int64Index([220, 603, 1, 877, 557], dtype='int64')
Int64Index([246, 217, 158, 1757, 578], dtype='int64')


### Mesurament de similituds

El primer pas per poder recomanar és definir una funció de similitud entre vectors. Siguin $x, y$ vectors, les següents són funcions típiques de similitud:

* Distància euclidea (inversa): https://en.wikipedia.org/wiki/Euclidean_distance

$$sim(x, y) = \frac{1}{1 + \sqrt{\sum_i(x_i-y_i)^2}}\in [0, 1]$$

* Similitud cosinus: https://en.wikipedia.org/wiki/Cosine_similarity

$$sim(x, y) = \frac{x\cdot y}{||x||\hspace{0.1cm} ||y||} \in [-1,1]$$

* Correlació de Pearson: https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

$${\displaystyle sim(x,y)={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}}} \in [-1,1] \\ \text{On }\bar{x} = \frac{1}{n} \sum^n_i x_i\text{ la mitja (i anàlogament per y)}$$

Per aquesta part, però, **us demanem que implementeu** la següent funció de similitud:

* Jaccard: https://en.wikipedia.org/wiki/Jaccard_index

$$sim(x, y) = {{|x \cap y|}\over{|x \cup y|}} $$

Aquesta funció mesura el nombre d'elements en comú dels dos vectors (numerador) i el nombre total d'elements diferents que hi ha entre els dos vectors.
Per exemple: 

$$
x = [1, \text{NaN}, 2, 3, \text{NaN}, 5] \\
y = [2, 1, \text{NaN}, \text{NaN}, \text{NaN}, \text{NaN}] \\
sim(x, y) = {{|x \cap y|}\over{|x \cup y|}} = {1 \over{5}} = 0.2
$$

Per implementar-la **no podeu fer servir bucles** ni cap funció que calculi directament el resultat:

* *scipy.spatial.distance.jaccard*
* *sklearn.metrics.jaccard_similarity_score*
* I d'altres semblants

<hr>

Tant per aquesta última com per les altres funcions, tingueu en compte que tenen particularitats. Algunes consideren valors negatius per els exemples oposats, d'altres poden donar problemes quan el denominador és 0, etc.

In [27]:
import numpy as np
from scipy import stats

def pearson_max(x,y):
    coefs = np.array([])
    for i in range(len(x)):
        x1 = np.delete(x, i)
        y1 = np.delete(y, i)
        coefs = np.append(coefs, stats.pearsonr(x1, y1)[0])
    if not coefs.size > 0: return -1.
    return np.max(coefs[np.logical_not(np.isnan(coefs))])

def sim_accentuation(x):
    return 1/(1+np.exp(-11*(x-0.5)))

def jaccard_similarity(x,y):
    #Utilitzem les propietats dels nombres amb el zero per comptar fàcilment els elements de la intersecció i la unió.
    and_oper = x*y
    and_oper[and_oper != 0] = 1.
    or_oper = x+y
    or_oper[or_oper != 0] = 1.
    #En cas que el denominador sigui zero retornem similitud 0 per no tenir problemes (vol dir que tant x com y són buides)
    if or_oper.sum() == 0: return 0.
    else: return and_oper.sum()/or_oper.sum()

def pearson_similarity(x,y):
    and_oper = x*y #Només considerarem aquells que coincideixen en x i y
    and_oper[np.isnan(and_oper)] = 0
    x = x[and_oper != 0]
    y = y[and_oper != 0]
    if len(x) < 6: return 0 #Si hi ha menys de 3 coincidències similitud 0, ja que si hi ha 2 punts el coef sempre serà 1
    else:
        sim = stats.pearsonr(x, y)[0]
        if np.isnan(sim): return 0 #Per si és NaN
        elif abs(sim) < 0.3: #Si la similitud és petita
            return 0
        else:
            jac = jaccard_similarity(x,y)**0.2
            if jac < 0.6: return 0.
            if jac*sim > 0.9: return 1.
            else: return sim_accentuation(sim*jac)# Potenciem aquells que més coincideixen
        
def cosine_similarity(x,y):
    and_oper = x*y #Només considerarem aquells que coincideixen en x i y
    and_oper[np.isnan(and_oper)] = 0
    x = x[and_oper != 0]
    y = y[and_oper != 0]
    if len(x) < 6: return 0 #Si hi ha menys de 4 coincidències similitud 0
    numerador = np.dot(x, y)
    denominador = np.linalg.norm(x)*np.linalg.norm(y)
    if denominador == 0: return 0
    else: return (numerador/denominador)*jaccard_similarity(x,y)# Potenciem aquells que més coincideixen

def euclidean_similarity(x,y):
    and_oper = x*y #Només considerarem aquells que coincideixen en x i y
    and_oper[np.isnan(and_oper)] = 0
    x = x[and_oper != 0]
    y = y[and_oper != 0]
    if len(x) < 6: return 0 #Si hi ha menys de 3 coincidències similitud 0
    dist = np.linalg.norm(x-y)
    sim = (1/(1+dist))
    return sim*(jaccard_similarity(x,y)**0.5)
    
def similarity(x, y):
    """
    Similitud entre x i y
    
    :param x: Primer vector, com a np.array
    :param y: Segon vector, com a np.array
    :return : Escalar (float) corresponent a la similitud
    """
    return pearson_similarity(x,y)

In [12]:
if __name__ == '__main__':
    x = np.array([10, 22, 95, 79, 25])
    y = np.array([1, 2, 9, 8., 2])
    z = np.array([0,0,0,0,0])
    print(similarity(x, y))
    print(similarity(z, z))

0
0


### Matriu de similituds

Per fer recomanació col·laborativa existeixen dues opcions, fer un recomanador basat en usuaris o un en ítems:

* Recomanador basat en usuaris:
Considera la matriu $M\times N: \text{usuaris}\times\text{items}$, per recomanar t'hauràs de basar en les similituds entre els usuaris.

* Recomanador basat en items:
Considera la matriu $M\times N: \text{items}\times\text{usuaris}$, per recomanar t'hauràs de basar en les similituds entre els ítems.

Construeix una matriu de mida $M\times M$ on cada posició $i,j$ indica la distància entre l'element $i$ i el $j$. Així doncs, si estàs fent un recomanador basat en usuaris, `matriu[2, 3]` contindrà la similitud entre l'usuari 2 i el 3. En canvi, si l'estàs fent basat en ítems, `matriu[2, 3]` contindrà la similitud entre l'ítem 2 i el 3.

In [13]:
from tqdm import tqdm_notebook

#Recomanador basat en usuaris

def similarity_matrix(similarity_function, counts):
    """
    Retorna una matriu dok_matrix (sparse) de mida M x M on la posició
    (i, j) indica la similitud entre els usuaris `i` i `j`.
    
    No necessàriament totes les posicions han de ser obligatòriament omplertes.
    Una bona implementació considerarà una matriu triangular, tenint-ho en compte
    en les següents funcions.
    
    :param similarity_function: Funció que calcularà la similitud 
        entre usuaris
    :param counts: csr_matrix que conté el nombre de vegades que 
        un usuari ha escoltat a un `artistID`
    :return : Matriu numpy de mida M x M amb les similituds.
    """    
    # Matrix cosine
    if similarity_function is None:
        raise NotImplementedError()
    
    n = counts.shape[0] # Resp. [1] per items
    matrix = dok_matrix((n, n)) #Matriu buida que cal omplir
    #Cal convertir les files seleccionades de la matriu a dense per operar bé amb elles.
    for i in tqdm_notebook(range(n), desc='Sim matrix:', leave=True):  #Comptador estimat de temps
        user_list_1 = to_dense(counts[i, :])
        for j in range(i+1, n):
            user_list_2 = to_dense(counts[j, :])
            matrix[i, j] = similarity_function(user_list_1, user_list_2)
    
    return matrix

#Recomanador basat en items

def similarity_matrix_items(similarity_function, counts):
    """
    Retorna una matriu dok_matrix (sparse) de mida M x M on la posició
    (i, j) indica la similitud entre els items `i` i `j`.
    
    No necessàriament totes les posicions han de ser obligatòriament omplertes.
    Una bona implementació considerarà una matriu triangular, tenint-ho en compte
    en les següents funcions.
    
    :param similarity_function: Funció que calcularà la similitud 
        entre items
    :param counts: csr_matrix que conté el nombre de vegades que 
        un usuari ha escoltat a un `artistID`
    :return : Matriu numpy de mida M x M amb les similituds.
    """    
    # Matrix cosine
    if similarity_function is None:
        raise NotImplementedError()
    
    n = counts.shape[1]
    matrix = dok_matrix((n, n))  #Matriu buida que cal omplir
    #Cal convertir les files seleccionades de la matriu a dense per operar bé amb elles.
    for i in tqdm_notebook(range(n), desc='Sim matrix:', leave=True): #Comptador estimat de temps
        item_list_1 = to_dense(counts[:, i])
        for j in range(i+1, n):
            item_list_2 = to_dense(counts[:, j])
            matrix[i, j] = similarity_function(item_list_1, item_list_2)
    
    return matrix

Per cridar aquesta funció, el primer paràmetre pot ser:

* Si `similarity_function` no és `None`: `similarity_function` és una funció que rep dos np.array i calcula la similitud (tipus similarity(x, y)). Utilitzant ~5000 usuaris i amb una bona implementació triga ~45min.
* Opcionalment (no és obligatori fer-ho, penseu en Kaggle) podeu programar una funció que treballi específicament amb matrius (i no vectors). Si ho feu, cal gestionar-ho quan es rep `None`. No totes les funcions anteriorment anomenades són fàcils (ni intuïtives, ni hi caben en memòria) d'aplicar en forma matricial. Triga uns 5s.

In [13]:
import pickle

if __name__ == '__main__':
    try:
        with open('similarities_kaggle.pkl', 'rb') as fp:
            similarities = pickle.load(fp)
    except:
        counts, indexes, columns = build_counts_table(df_user_artists)
        similarities = similarity_matrix(
            similarity_function=similarity,
            counts=counts
        )
        
        with open('similarities_kaggle.pkl', 'wb') as fp:
            pickle.dump(similarities, fp, pickle.HIGHEST_PROTOCOL)

HBox(children=(IntProgress(value=0, description='Sim matrix:', max=707), HTML(value='')))

  r = r_num / r_den
  x = np.where(x < 1.0, x, 1.0)  # if x > 1 then return 1.0





### Generació de prediccions

Per fer recomanació col·laborativa, necessitem una funció que ens doni un valor de quant bona seria la recomanació. En el nostre cas i amb les nostres dades, volem una funció que ens indiqui quants cops escoltaria un usuari un artista donat.

* Si esteu fent un recomanador basat en usuaris, la puntuació per a un usuari $u$ i l'artista $i$ és

$$pred(u, i) = \hat{r}_{u,i} = \frac{\sum_{p\neq u,r_{p,i}>0} sim(u, p)\cdot r_{p,i}}{\sum_{p\neq u,r_{p,i}>0} sim(u, p)}$$

On $r_{u,i}$ indica el nombre de vegades que l'usuari $u$ ha escoltat l'l'ítem $i$.

És a dir, per cada usuari $p$ diferent de $u$ si aquest usuari ha escoltat algun cop el producte $i$, la similitud entre $p$ i $u$ multiplicada pel nombre de vegades que l'usuari $p$ ha escoltat l'l'ítem $i$ ($r_{p,i}$).

Pondera't per la suma de les similituds.

* Anàlogament, si està basat en ítem, la puntuació per a un usuari $u$ i ítem $i$ és

$$pred(u, i) = \hat{r}_{u,i} = \frac{\sum_{j\neq i,r_{u,j}>0} sim(i, j)\cdot r_{u,j}}{\sum_{j\neq i,r_{u,j}>0} sim(i, j)}$$

On $r_{u,i}$ indica el nombre de vegades que l'usuari $u$ ha escoltat l'ítem $j$.

És a dir, per cada ítem $j$ diferent de $i$ si l'usuari al qui recomanem ha escoltat l'artista $j$, la similitud entre $i$ i $j$ multiplicada pel nombre de vegades que l'usuari al qui recomanem $u$ ha escoltat l'ítem $j$ ($r_{u,j}$)

Pondera't per la suma de les similituds.

Fixeu-vos que, sigui quin sigui el cas, al final estem fent el producte escalar entre dos vectors. Concretament, el producte escalar entre les similituds i les reproduccions. Fes una funció que calculi aquest resultat:

In [16]:
def score(counts, indexes, columns, similarities, user, item):
    """
    Extreu les similituds i el nombre de vegades que un usuari ha escoltat un artista
    (resp. nombre de vegades que cada usuari ha escoltat l'artista) i:
    
    * Si estàs implementant basat en usuaris:
        Donades les similituds i el nombre de vegades que l'usuari ha escoltat
        cada artista, retorna la predicció que indica quants cops escoltara 
        l'usuari un nou artista.
        
    * Si estàs implementant basat en items:
        Donades les similituds i el nombre de vegades que l'artista a recomanar ha
        estat escoltat per cada usuari, retorna la predicció que indica quants cops
        escoltaria l'usuari un nou artista.        
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param similarities: Matriu de similituds
    :param user: ID de l'usuari per la predicció
    :param item: ID de l'artista / item per la predicció    
    :return : Retorna un escalar (float) amb la predicció
    
    """
    
    user_index = indexes.categories.get_loc(user)
    item_index = columns.categories.get_loc(item)
    #Com similaritires és una matriu triangular, cal seleccionar bé la fila de similituds entre i, j
    #No agafem l'element de la diagonal pel que row_sim te dim n-1.
    row_sim_1 = to_dense(similarities[:user_index, user_index])
    row_sim_2 = to_dense(similarities[user_index, user_index + 1:])
    try:
        row_sim = np.concatenate((row_sim_1, row_sim_2), axis = None)
    except:
        print(row_sim_1.shape, row_sim_2.shape)
    #Seleccionem la columna corresponent a la canço donada (item) treient la posició de l'usuari que volem predir (user)
    #Fixem-nos que així la dimensió coincideix i podem fer el producte escalar.
    item_list = to_dense(counts[:, item_index])
    item_list = np.delete(item_list, user_index)
    #Per no modificar la matriu similarities fem una copia de row_sim.
    row_sim_zeros = np.copy(row_sim)
    #Per considerar només aquells usuaris que han escoltat la canço en concret:
    row_sim_zeros[item_list == 0] = 0
    
    # ORIGINAL:
    # Indiferent agafar row_sim que row_sim_zeros pq en multiplicar per item_list s'anul·laran els termes que volem.
    #numerador = np.dot(row_sim, item_list)
    #denominador = np.sum(row_sim_zeros)
    #if numerador*denominador == 0: return 0.
    #else: return numerador/denominador
    
    # Variant que ofereix el punt 3: Normalització, prediccions escalades al domini de l'usuari (cadascú escolta en diferents mesures)
    numerador = np.dot(row_sim, item_list) - np.sum(row_sim)*np.mean(item_list)
    user_list = to_dense(counts[user_index, :])
    denominador = np.sum(row_sim_zeros)
    if numerador*denominador == 0: return 0.
    else: return numerador/denominador + np.mean(user_list)
    
    # Variant proposta amb els N millors
    #indices = row_sim_zeros.argsort()[-3:]
    #score = 0
    #for index in indices:
    #    score += item_list[index]
    #return score/3.
    
#La mateixa matriu de similituds però per items i no usuaris
    
def score_items(counts, indexes, columns, similarities, user, item):
    """
    Extreu les similituds i el nombre de vegades que un usuari ha escoltat un artista
    (resp. nombre de vegades que cada usuari ha escoltat l'artista) i:
    
    * Si estàs implementant basat en usuaris:
        Donades les similituds i el nombre de vegades que l'usuari ha escoltat
        cada artista, retorna la predicció que indica quants cops escoltara 
        l'usuari un nou artista.
        
    * Si estàs implementant basat en items:
        Donades les similituds i el nombre de vegades que l'artista a recomanar ha
        estat escoltat per cada usuari, retorna la predicció que indica quants cops
        escoltaria l'usuari un nou artista.        
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param similarities: Matriu de similituds
    :param user: ID de l'usuari per la predicció
    :param item: ID de l'artista / item per la predicció    
    :return : Retorna un escalar (float) amb la predicció
    """
    
    user_index = indexes.categories.get_loc(user)
    item_index = columns.categories.get_loc(item)
    row_sim_1 = to_dense(similarities[:item_index, item_index])
    row_sim_2 = to_dense(similarities[item_index, item_index + 1:])
    try:
        row_sim = np.concatenate((row_sim_1, row_sim_2), axis = None)
    except:
        print(row_sim_1.shape, row_sim_2.shape)
    user_list = to_dense(counts[user_index, :])
    user_list = np.delete(user_list, item_index)
    row_sim_zeros = np.copy(row_sim)
    row_sim_zeros[user_list == 0] = 0
    numerador = np.dot(row_sim, user_list)
    denominador = np.sum(row_sim_zeros)
    if numerador*denominador == 0: return 0.
    else: return numerador/denominador   

In [59]:
if __name__ == '__main__':
    print(score(counts, indexes, columns, similarities, 111, 123))

IndexError: boolean index did not match indexed array along dimension 0; dimension is 706 but corresponding boolean dimension is 247473

Feu una funció que donat un usuari calculi per cada item que no ha escoltat la puntuació d'aquest. La funció retorna els $N$ items més ben puntuats.

In [17]:
def recommend_n_items(counts, indexes, columns, similarities, user, N):
    """
    Donat un usuari calcula per cada ítem/artista que no ha escoltat la puntuació d'aquest. 
    La funció retorna els $N$ ítems més ben puntuats.
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param similarities: Matriu de similituds
    :param user: Identificador de l'usuari
    :param N: Nombre d'ítems que volem que siguin recomanats.
    :return : Llista amb els IDs dels ítems recomanats
    """
    
    user_index = indexes.categories.get_loc(user)
    user_list = to_dense(counts[user_index, :])
    scores = np.ones_like(user_list)*float('-inf')
    #Utilitzem tqdm per mesurar el temps d'espera
    for item_index in tqdm_notebook(range(len(user_list)), desc='Recomending:', leave=False):
        if user_list[item_index] == 0: #Només si no l'ha escoltat
            item_ID = columns.categories[item_index]
            scores[item_index] = score(counts, indexes, columns, similarities, user, item_ID)
    indices = scores.argsort()
    return columns.categories[indices[-N:]]


#El mateix per recomanar per items i no per usuaris

def recommend_n_items_by_items(counts, indexes, columns, similarities, user, N):
    """
    Donat un usuari calcula per cada ítem/artista que no ha escoltat la puntuació d'aquest. 
    La funció retorna els $N$ ítems més ben puntuats.
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param similarities: Matriu de similituds
    :param user: Identificador de l'usuari
    :param N: Nombre d'ítems que volem que siguin recomanats.
    :return : Llista amb els IDs dels ítems recomanats
    """
    
    user_index = indexes.categories.get_loc(user)
    user_list = to_dense(counts[user_index, :])
    scores = np.ones_like(user_list)*(-1.)
    for item_index in tqdm_notebook(range(len(user_list)), desc='Recomending:', leave=False):
        if user_list[item_index] == 0: # calcula score
            item_ID = columns.categories[item_index]
            scores[item_index] = score_items(counts, indexes, columns, similarities, user, item_ID)
    items_sorted = np.argsort(-scores)
    num_to_show = np.min((len(items_sorted), N))
    showable = np.array([], dtype=np.int)
    for i in range(num_to_show):
        showable = np.append(showable, columns.categories[items_sorted[i]])
            
    return showable

In [49]:
if __name__ == '__main__':
    out = recommend_n_items(counts, indexes, columns, similarities, 111, 10)
    print(out)

HBox(children=(IntProgress(value=0, description='Recomending:', max=6544), HTML(value='')))

Int64Index([1192, 152, 1449, 2242, 4919, 2440, 1207, 770, 26, 310], dtype='int64')


In [42]:
print(out)

[ 310   26  770 1207 2440 4919 2242 1449  152 1192]
Int64Index([1192, 152, 1449, 2242, 4919, 2440, 1207, 770, 26, 310], dtype='int64')


### Possibles millores 

Per implementar millores, dupliqueu el notebook i feu-ho en la còpia!

Deixeu aquest notebook amb la implementació base.

**1) És Jaccard la millor mesura de similitud per les nostres dades?**
Jaccard no té en compte la cardinalitat, únicament els elements no nuls. És, per les dades de reproduccions, una aproximació adequada?
Si ho és, creus que el càlcul de recomanació col·laborativa és el més adhient? Mira el punt 3

**2) Utilització completa de les dades:**
Fer servir `df_original` tindrà (possiblement) resultats més fiables, però trigarà molt més que amb la versió reduida `df`. Pots canviar tant el nombre de dades utilitzades com quines dades es seleccionen.

**3) Normalització: Prediccions escalades al domini de l'usuari:**
Els usuaris escolten en diferent mesura als artites, uns més vegades, d'altres menys. Fent servir la següent formula, escalem la predicció a la mitja de l'usuari:
$$pred(u, i) = \hat{r}_{u,i} = \bar{r_u} + \frac{\sum_{p\neq u,r_{p,i}>0} sim(u, p)\cdot (r_{p,i}-\bar{r_i})}{\sum_{p\neq u,r_{p,i}>0} sim(u, p)}$$
on $\bar{r_u}$ és la mitjana de compres de l'usuari *u* i $\bar{r_i}$ la mitja de reproduccions de l'artista *i*.
    
**4) Valor del nombre d'elements codificats: **
Redueix la similitud entre els usuaris si el nombre de reproduccions és baix o descarta (en entrenament) aquells usuaris amb un petit nombre d'artistes escoltats.

**5) Augment de la similitud: **
Incrementeu el pes als usuaris que són realment similars (~ = 1)

**6) Selecció d'usuaris semblants: **
Només s'utilitza un subconjunt d'usuaris similars, descartant tots aquells usuaris poc similars.


Totes aquestes tècniques es poden aplicar d'igual manera en la recomanació col·laborativa per usuaris o ítems.

# Kaggle

Teniu la competició a la següent URL:

https://www.kaggle.com/t/4a3fd7b1e44c40a5a208c6da21a23d05

Si heu seguit tots els pydoc, el següent codi funcionarà directament sense canvis (@30min).

In [18]:
from tqdm import tqdm_notebook
# Only use those rows with more than 9 plays for better accuracy
original_df_user_artists = original_df_user_artists[original_df_user_artists['plays'] > 9]
# Series in which the users will be saved
counter_kaggle_users = pd.Series([], name='userID', dtype=np.int64)
# Unique kaggle users
kaggle_users_unique = kaggle_df_user_artists['userID'].unique()
# For each unique kaggle user:
for user_id in tqdm_notebook(kaggle_users_unique):
    df_plays_of_kaggle_user = kaggle_df_user_artists[kaggle_df_user_artists.userID == user_id]
    df_plays_of_kaggle_user = df_plays_of_kaggle_user[df_plays_of_kaggle_user.plays > df_plays_of_kaggle_user['plays'].sum()*0.02]
    artists_of_user_list = np.array(df_plays_of_kaggle_user['musicbrainzID'])
    # For each kaggle user, get a list with all the artists listened
    # that account for more than the 2% of the total plays of that user.
    # The others are ignored as they aren't significant
    df_accumulated_users = pd.Series([], name='userID', dtype=np.int64)
    for artist_id in artists_of_user_list:
        # For each artist in that list, get and add the users who also listened to that artist from
        # the original dataFrame
        df_original_users_addition = original_df_user_artists[original_df_user_artists['musicbrainzID'] == artist_id]
        df_accumulated_users = pd.concat((df_accumulated_users, df_original_users_addition), sort=False)
    counting_df = df_accumulated_users.userID.value_counts()
    # Only add tho the counter the first 3 users who have more artists in common with the kaggle user
    counter_kaggle_users = pd.concat((counter_kaggle_users, counting_df.head(3)), sort=False)
# Doing this, we can get the most similar users from the whole data set, and thus get a better result
# print(counter_kaggle_users)
print(len(counter_kaggle_users.index.unique()))

HBox(children=(IntProgress(value=0, max=99), HTML(value='')))

  result = result.union(other)



296


In [19]:
#print(original_df_user_artists[original_df_user_artists.userID == 357562])
#print(kaggle_df_user_artists[kaggle_df_user_artists.userID == 58204])
def normalize_plays(df):
    df_out = pd.DataFrame([])
    for user_id in tqdm_notebook(df['userID'].unique(), desc='Normalizing'):
        df_user = df[df['userID'] == user_id]
        df_user['plays'] = df_user['plays']*10/df_user['plays'].max()
        df_out = pd.concat((df_user, df_out), sort=False)
        #print(df_user)
    return df_out

In [28]:
# RECOMANADOR PER USUARIS

import pickle

if __name__ == '__main__':    
    counts, indexes, columns = build_counts_table(original_df_user_artists)
    print(counts.shape)
    
    users_id_list = np.array(counter_kaggle_users.index.unique(), dtype=np.int)
    
    df_user_artists = original_df_user_artists.loc[original_df_user_artists['userID'].isin(users_id_list)]
    
    print(df_user_artists.shape)
        
    try:
        from tqdm import tqdm_notebook
    except:
        def tqdm_notebook(a, *_, **__): return a
    
    # Fetch kaggle public data and merge
    kaggle_df_user_artists = pd.read_csv('data/user_artist_plays_public_kaggle.csv')
    merged_df_user_artists = pd.concat((df_user_artists, kaggle_df_user_artists), sort=False)
    # variant
    #merged_df_user_artists = normalize_plays(merged_df_user_artists)
    
    # Obtain counts
    merged_counts, merged_indexes, merged_columns = build_counts_table(merged_df_user_artists)
    print(merged_counts.shape)
    
    # Similarity
    try:
        with open('merged_similarities_kaggle.pkl', 'rb') as fp:
            merged_similarities = pickle.load(fp)
    except:
        merged_similarities = similarity_matrix(
            similarity_function=similarity,
            counts=merged_counts
        )
        
        with open('merged_similarities_kaggle.pkl', 'wb') as fp:
            pickle.dump(merged_similarities, fp, pickle.HIGHEST_PROTOCOL)
    
    results = pd.DataFrame(columns=['user_id', 'music_id'])
    
    for idx, user in enumerate(tqdm_notebook(kaggle_df_user_artists.userID.unique())):
        music_ids = recommend_n_items(merged_counts, merged_indexes, merged_columns, merged_similarities, user, 10)
        results.loc[idx] = (user, ' '.join(str(x) for x in music_ids))
        
    results.to_csv('submission_kaggle.csv', index=None)

(247474, 10000)
(14359, 3)
(395, 4590)


HBox(children=(IntProgress(value=0, description='Sim matrix:', max=395), HTML(value='')))




HBox(children=(IntProgress(value=0, max=99), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))

HBox(children=(IntProgress(value=0, description='Recomending:', max=4590), HTML(value='')))




In [None]:
# RECOMANADOR PER ITEMS

import pickle

if __name__ == '__main__':    
    counts, indexes, columns = build_counts_table(original_df_user_artists)
    print(counts.shape)
    """
    users_id_list = np.array(top_active_users(counts, indexes, columns, 100000))
    
    df_user_artists = original_df_user_artists[original_df_user_artists.userID == -1 ]
    for iden in tqdm_notebook(users_id_list, desc='df_users'):
        df_append = original_df_user_artists[original_df_user_artists.userID == iden ]
        df_user_artists = pd.concat((df_user_artists, df_append))
    """
    df_user_artists = original_df_user_artists
    print(df_user_artists.shape)
        
    try:
        from tqdm import tqdm_notebook
    except:
        def tqdm_notebook(a, *_, **__): return a
    
    # Fetch kaggle public data and merge
    kaggle_df_user_artists = pd.read_csv('data/user_artist_plays_public_kaggle.csv')
    merged_df_user_artists = pd.concat((df_user_artists, kaggle_df_user_artists), sort=False)
    
    # Obtain counts
    merged_counts, merged_indexes, merged_columns = build_counts_table(merged_df_user_artists)
    print(merged_counts.shape)
    
    # Similarity
    try:
        with open('merged_similarities_kaggle.pkl', 'rb') as fp:
            merged_similarities = pickle.load(fp)
    except:
        merged_similarities = similarity_matrix_items(
            similarity_function=similarity,
            counts=merged_counts
        )
        
        with open('merged_similarities_kaggle.pkl', 'wb') as fp:
            pickle.dump(merged_similarities, fp, pickle.HIGHEST_PROTOCOL)
    
    results = pd.DataFrame(columns=['user_id', 'music_id'])
    
    for idx, user in enumerate(tqdm_notebook(kaggle_df_user_artists.userID.unique())):
        music_ids = recommend_n_items_by_items(merged_counts, merged_indexes, merged_columns, merged_similarities, user, 10)
        results.loc[idx] = (user, ' '.join(str(x) for x in music_ids))
        
    results.to_csv('submission_kaggle.csv', index=None)