# Data loading

### **En aquestes cel·les no feu cap modificació**

Carrega les dades en un DataFrame Pandas.

In [1]:
import pandas as pd
import numpy as np
import zipfile
import pickle
from os.path import join, dirname

def locate(*path):
    base = globals().get('__file__', '.')
    return join(dirname(base), *path)

def unzip(file):
    zip_ref = zipfile.ZipFile(locate(file), 'r')
    zip_ref.extractall(locate('data'))
    zip_ref.close()

if __name__ == '__main__':
    unzip('dades_alumnes.zip')

    original_df_artists = pd.read_csv('data/artists_names.csv', index_col='musicbrainzID')
    original_df_users = pd.read_csv('data/user_profile_train.csv', index_col='userID')
    original_df_user_artists = pd.read_csv('data/user_artist_plays_train.csv', index_col=0)
    
    print(original_df_artists.shape, original_df_users.shape, original_df_user_artists.shape)

  mask |= (ar1 == a)


(160112, 1) (251543, 4) (10215268, 3)


In [143]:
if __name__ == '__main__':
    df_user_artists = original_df_user_artists[original_df_user_artists.userID < 1000]
    df_user_artists_reduced = original_df_user_artists[original_df_user_artists.userID < 500]
    print(df_user_artists.shape)
    print(len(original_df_user_artists['userID'].unique()), len(original_df_user_artists['musicbrainzID'].unique()))
    print(original_df_artists.head())
    print(original_df_users.head())
    print(original_df_users.at[121, 'age'])
    print(original_df_users.index(121))
    print(original_df_user_artists.head())

(28987, 3)
251176 10000
                         artistName
musicbrainzID                      
0                   betty blowtorch
1                         die Ärzte
2                 melissa etheridge
3                         elvenking
4              juliette & the licks
       gender   age         country        signup
userID                                           
310519      m  21.0          Poland  Oct 16, 2008
109228      m  28.0        Honduras  May 22, 2007
35296       m  28.0          Turkey   May 5, 2007
291224      m  22.0        Slovakia  May 11, 2008
151053      m  26.0  United Kingdom  Dec 24, 2007


KeyError: 121

## Anàlisis de les dades

El primer que haurem de fer és analitzar les dades mitjançant diferents funcions.

In [3]:
def count_users(df):
    """
    Retorna el nombre d'usuaris en el dataframe
    
    :param df: DataFrame dels usuaris
    :return : Enter, nombre d'usuaris
    """
    return len(df.index)

def count_artits(df):
    """
    Retorna el nombre d'artistes en el dataframe
    
    :param df: DataFrame dels artistes
    :return : Enter, nombre d'artistes
    """
    return len(df.index)

def get_users(df):
    """
    Retorna els ids dels usuaris
    
    :params df: DataFrame original_df_users
    :return : Llista, tupla, pd.Series o indexos de pandas amb les ids
    """
    return df.index

def get_artits(df):
    """
    Retorna els ids dels artites
    
    :params df: DataFrame df_user_artists
    :return : Llista, tupla, pd.Series o indexos de pandas amb les ids
    """
    return df.index

def total_reproductions(df):
    """
    Retorna la quantitat de reproduccions totals guardades al dataframe
    
    :params df: DataFrame df_user_artists
    :return : Enter, nombre de reproduccions
    """
    return df['plays'].sum()

In [4]:
if __name__ == '__main__':
    print('count_users: {}'.format(count_users(original_df_users)))
    print('count_artits: {}'.format(count_artits(original_df_artists)))
    print('get_users: {}'.format(get_users(original_df_users)))
    print('get_artits: {}'.format(get_artits(original_df_artists)))
    print('total_reproductions: {}'.format(total_reproductions(original_df_user_artists)))

count_users: 251543
count_artits: 160112
get_users: Int64Index([310519, 109228,  35296, 291224, 151053, 267414,  63446,  80577,
            187410, 339146,
            ...
             43472, 130769,  66696, 315919,  98574, 226675,  81761, 103020,
            104679,  73210],
           dtype='int64', name='userID', length=251543)
get_artits: Int64Index([     0,      1,      2,      3,      4,      5,      6,      7,
                 8,      9,
            ...
            160103, 160104, 160105, 160106, 160107, 160108, 160109, 160110,
            160111, 160112],
           dtype='int64', name='musicbrainzID', length=160112)
total_reproductions: 2356118519


# Implementació

Recordeu, seguiu els pydoc i compliu amb el que diuen!

El primer que haurem de fer és construir una matriu que ens serveixi, d'alguna forma, com a indicatiu de preferències de cada persona. Per tal efecte, construirem una matriu $m\times n$, de $m$ usuaris per $n$ artistes (items), on cada entrada $i,j$ serà el nombre de vegades que la persona $i$ a escoltat l'artista $j$.

<img src="./img/Mat.png">


In [5]:
from scipy.sparse import csr_matrix, dok_matrix
from pandas.api.types import CategoricalDtype

def to_dense(array):
    """
    Accepta una csr_matrix, dok_matrix o matrix i la converteix en una 
    np.array normal, densa.
    
    :param array: Array a convertir
    :return: np.array densa, sense cap dimensió de tamany 1
    """
    try:
        array = array.todense()
    except:
        pass
    
    return np.array(array).squeeze()
    
def build_counts_table(df):
    """
    Retorna una csr_matrix on les columnes són els `items`, les files `user_id` i els valors
    el nombre de vegades que un usuari ha escoltat un `artist`
    
    :param df: DataFrame original després de creuar-lo
    :return: Una tupla constistent de:
        * La csr_matrix descrita
        * Els indexos corresponents a cada fila (el userID de la fila `i` corresponent a l'element `i` d'aquesta array)
        * Les columnes corresponents a cada columna (el musicbrainzID de la columna `j` correspon a l'element `j` d'aquesta array)
    """
    # Ids, sense repeticions i ordenats
    user_ids = CategoricalDtype(sorted(df.userID.unique()), ordered=True)
    music_ids = CategoricalDtype(sorted(df.musicbrainzID.unique()), ordered=True)

    # Conversió a csr
    row = df.userID.astype(user_ids).cat.codes
    col = df.musicbrainzID.astype(music_ids).cat.codes
    sparse_matrix = csr_matrix((df["plays"], (row, col)), \
                           shape=(user_ids.categories.size, music_ids.categories.size))

    return sparse_matrix, user_ids, music_ids

In [6]:
def get_count(counts, indexes, columns, user_id, artist_id):
    """
    Exemple: donat un ID d'usuari i un ID d'artista, retorna
        el valor corresponent de la matriu `counts`
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param user_id: ID de l'usuari
    :param artist_id: ID de l'artista
    :return: Enter amb el nombre de vegades que s'ha escoltat
    """
    row = indexes.categories.get_loc(user_id)
    col = columns.categories.get_loc(artist_id)
    return counts[row, col]

In [7]:
def top_active_users(counts, indexes, columns, n):
    """
    Exemple: Retorna els ids dels n usuaris que més reproduccions han acumulat
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param n: Quanitat d'usuaris
    :return: Llista, tupla o pd.Series de userID dels n usuaris
    """
    
    # Operate with the sparse matrix, convert to dense the result (as it has much fewer entries)
    sums = to_dense(counts.sum(axis=1))
    # Get indices
    indices = sums.argsort()
    return indexes.categories[indices[-n:]]

def top_reproduced_artits(counts, indexes, columns, n):
    """
    Exemple: Retorna els ids dels n artistes més escoltats
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param n: Quanitat d'artistes
    :return: Llista, tupla o pd.Series de artistID dels n artistes
    """
    sums = to_dense(counts.sum(axis=0))
    # Get indices
    indices = sums.argsort()
    return columns.categories[indices[-n:]]

In [126]:
from tqdm import tqdm_notebook
if __name__ == '__main__':
    counts, indexes, columns = build_counts_table(original_df_user_artists)
    print(counts.shape)
    
    users_id_list = np.array(top_active_users(counts, indexes, columns, 1000))
    
    df_user_artists = original_df_user_artists[original_df_user_artists.userID == -1 ]
    for iden in tqdm_notebook(users_id_list):
        df_append = original_df_user_artists[original_df_user_artists.userID == iden ]
        df_user_artists = pd.concat((df_user_artists, df_append))
    
    print(df_user_artists.shape)
    
    counts_problem, indexes_problem, columns_problem = build_counts_table(df_user_artists)
    print(counts_problem.shape)
    
    count = get_count(counts, indexes, columns, 111, 3323)
    print(count)
    
    top_users = top_active_users(counts_problem, indexes_problem, columns_problem, 5)
    print(top_users)
    
    top_users1 = top_active_users(counts, indexes, columns, 5)
    print(top_users1)
    
    top_artists = top_reproduced_artits(counts_problem, indexes_problem, columns_problem, 5)
    print(top_artists)

(251176, 10000)


HBox(children=(IntProgress(value=0, max=1000), HTML(value='')))


(45878, 3)
(1000, 6930)
2796
Int64Index([13745, 340377, 105650, 205585, 20683], dtype='int64')
Int64Index([13745, 340377, 105650, 205585, 20683], dtype='int64')
Int64Index([282, 217, 311, 158, 246], dtype='int64')


In [105]:
print(users_id_list[:5])

[105650 205585  20683]


In [127]:
import numpy as np
from scipy import stats

def similarity(x, y):
    """
    Similitud entre x i y
    
    :param x: Primer vector, com a np.array
    :param y: Segon vector, com a np.array
    :return : Escalar (float) corresponent a la similitud
    """
    and_oper = x*y
    and_oper[np.isnan(and_oper)] = 0
    x = x[and_oper != 0]
    y = y[and_oper != 0]
    if len(x) < 5: return 0
    else:
        sim = stats.pearsonr(x, y)[0]
        if np.isnan(sim): return 0
        elif sim > 0:
            match = (len(x)**2)/(len(x)**2 + 5)
            return sim*match
        else: return 0

In [128]:
if __name__ == '__main__':
    x = np.array([1, 2, 9, np.nan, 2])
    y = np.array([1, 1, 2, 8., 3])
    z = np.array([0,0,0,0,0])
    print(similarity(x, y))
    print(similarity(z, z))

0
0


### Matriu de similituds

Per fer recomanació col·laborativa existeixen dues opcions, fer un recomanador basat en usuaris o un en ítems:

* Recomanador basat en usuaris:
Considera la matriu $M\times N: \text{usuaris}\times\text{items}$, per recomanar t'hauràs de basar en les similituds entre els usuaris.

* Recomanador basat en items:
Considera la matriu $M\times N: \text{items}\times\text{usuaris}$, per recomanar t'hauràs de basar en les similituds entre els ítems.

Construeix una matriu de mida $M\times M$ on cada posició $i,j$ indica la distància entre l'element $i$ i el $j$. Així doncs, si estàs fent un recomanador basat en usuaris, `matriu[2, 3]` contindrà la similitud entre l'usuari 2 i el 3. En canvi, si l'estàs fent basat en ítems, `matriu[2, 3]` contindrà la similitud entre l'ítem 2 i el 3.

In [131]:
from tqdm import tqdm_notebook

def similarity_matrix(similarity_function, counts, indexes, df_users):
    """
    Retorna una matriu dok_matrix (sparse) de mida M x M on la posició
    (i, j) indica la similitud entre els usuaris `i` i `j` (resp. items).
    
    No necessàriament totes les posicions han de ser obligatòriament omplertes.
    Una bona implementació considerarà una matriu triangular, tenint-ho en compte
    en les següents funcions.
    
    :param similarity_function: Funció que calcularà la similitud 
        entre usuaris (resp. ítems)u
    :param counts: csr_matrix que conté el nombre de vegades que 
        un usuari ha escoltat a un `artistID`
    :return : Matriu numpy de mida M x M amb les similituds.
    """    
    # Matrix cosine
    if similarity_function is None:
        raise NotImplementedError()
    
    n = counts.shape[0] # Resp. [1] per items
    matrix = dok_matrix((n, n)) # Empty matrix, needs to be filled
    for i in tqdm_notebook(range(n), desc='Sim matrix:', leave=True):
        user_list_1 = to_dense(counts[i, :])
        user_1_ID = indexes.categories[i]
        age_1 = df_users.at[user_1_ID, 'age']
        for j in range(i+1, n):
            user_list_2 = to_dense(counts[j, :])
            user_2_ID = indexes.categories[j]
            print('user', j, user_2_ID)
            age_2 = df_users.at[user_2_ID, 'age']
            if np.isnan(age_1) or np.isnan(age_2):
                match_age = 1
            else:
                match_age = (100/((age_1 - age_2)**2 + 100))*0.25 + 0.75
            matrix[i, j] = similarity_function(user_list_1, user_list_2) * match_age
    
    
    return matrix

Per cridar aquesta funció, el primer paràmetre pot ser:

* Si `similarity_function` no és `None`: `similarity_function` és una funció que rep dos np.array i calcula la similitud (tipus similarity(x, y)). Utilitzant ~5000 usuaris i amb una bona implementació triga ~45min.
* Opcionalment (no és obligatori fer-ho, penseu en Kaggle) podeu programar una funció que treballi específicament amb matrius (i no vectors). Si ho feu, cal gestionar-ho quan es rep `None`. No totes les funcions anteriorment anomenades són fàcils (ni intuïtives, ni hi caben en memòria) d'aplicar en forma matricial. Triga uns 5s.

In [132]:
import pickle

if __name__ == '__main__':
    try:
        with open('similarities_delete.pkl', 'rb') as fp:
            similarities = pickle.load(fp)
    except:
        similarities = similarity_matrix(
            similarity_function=similarity,
            counts=counts_problem,
            indexes=indexes_problem,
            df_users=original_df_users
        )
        
        with open('similarities_delete.pkl', 'wb') as fp:
            pickle.dump(similarities, fp, pickle.HIGHEST_PROTOCOL)
    print(to_dense(similarities))

HBox(children=(IntProgress(value=0, description='Sim matrix:', max=1000), HTML(value='')))


[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


### Generació de prediccions

Per fer recomanació col·laborativa, necessitem una funció que ens doni un valor de quant bona seria la recomanació. En el nostre cas i amb les nostres dades, volem una funció que ens indiqui quants cops escoltaria un usuari un artista donat.

* Si esteu fent un recomanador basat en usuaris, la puntuació per a un usuari $u$ i l'artista $i$ és

$$pred(u, i) = \hat{r}_{u,i} = \frac{\sum_{p\neq u,r_{p,i}>0} sim(u, p)\cdot r_{p,i}}{\sum_{p\neq u,r_{p,i}>0} sim(u, p)}$$

On $r_{u,i}$ indica el nombre de vegades que l'usuari $u$ ha escoltat l'l'ítem $i$.

És a dir, per cada usuari $p$ diferent de $u$ si aquest usuari ha escoltat algun cop el producte $i$, la similitud entre $p$ i $u$ multiplicada pel nombre de vegades que l'usuari $p$ ha escoltat l'l'ítem $i$ ($r_{p,i}$).

Pondera't per la suma de les similituds.

* Anàlogament, si està basat en ítem, la puntuació per a un usuari $u$ i ítem $i$ és

$$pred(u, i) = \hat{r}_{u,i} = \frac{\sum_{j\neq i,r_{u,j}>0} sim(i, j)\cdot r_{u,j}}{\sum_{j\neq i,r_{u,j}>0} sim(i, j)}$$

On $r_{u,i}$ indica el nombre de vegades que l'usuari $u$ ha escoltat l'ítem $j$.

És a dir, per cada ítem $j$ diferent de $i$ si l'usuari al qui recomanem ha escoltat l'artista $j$, la similitud entre $i$ i $j$ multiplicada pel nombre de vegades que l'usuari al qui recomanem $u$ ha escoltat l'ítem $j$ ($r_{u,j}$)

Pondera't per la suma de les similituds.

Fixeu-vos que, sigui quin sigui el cas, al final estem fent el producte escalar entre dos vectors. Concretament, el producte escalar entre les similituds i les reproduccions. Fes una funció que calculi aquest resultat:

In [133]:
def score(counts, indexes, columns, similarities, user, item):
    """
    Extreu les similituds i el nombre de vegades que un usuari ha escoltat un artista
    (resp. nombre de vegades que cada usuari ha escoltat l'artista) i:
    
    * Si estàs implementant basat en usuaris:
        Donades les similituds i el nombre de vegades que l'usuari ha escoltat
        cada artista, retorna la predicció que indica quants cops escoltara 
        l'usuari un nou artista.
        
    * Si estàs implementant basat en items:
        Donades les similituds i el nombre de vegades que l'artista a recomanar ha
        estat escoltat per cada usuari, retorna la predicció que indica quants cops
        escoltaria l'usuari un nou artista.        
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param similarities: Matriu de similituds
    :param user: ID de l'usuari per la predicció
    :param item: ID de l'artista / item per la predicció    
    :return : Retorna un escalar (float) amb la predicció
    
    """
    
    user_index = indexes.categories.get_loc(user)
    item_index = columns.categories.get_loc(item)
    row_sim_1 = to_dense(similarities[:user_index, user_index])
    row_sim_2 = to_dense(similarities[user_index, user_index + 1:])
    try:
        row_sim = np.concatenate((row_sim_1, row_sim_2), axis = None)
    except:
        print(row_sim_1.shape, row_sim_2.shape)
    item_list = to_dense(counts[:, item_index])
    item_list = np.delete(item_list, user_index)
    row_sim_zeros = np.copy(row_sim)
    row_sim_zeros[item_list == 0] = 0
    numerador = np.dot(row_sim, item_list)
    denominador = np.sum(row_sim_zeros)
    if numerador == 0: return 0.
    else: return numerador/denominador
    

In [134]:
if __name__ == '__main__':
    print(score(counts_problem, indexes_problem, columns_problem, similarities, 20683, 886))


1367.0


Feu una funció que donat un usuari calculi per cada item que no ha escoltat la puntuació d'aquest. La funció retorna els $N$ items més ben puntuats.

In [135]:
def recommend_n_items(counts, indexes, columns, similarities, user, N):
    """
    Donat un usuari calcula per cada ítem/artista que no ha escoltat la puntuació d'aquest. 
    La funció retorna els $N$ ítems més ben puntuats.
    
    :param counts, indexes, columns: Tupla retornada per `build_counts_table`
    :param similarities: Matriu de similituds
    :param user: Identificador de l'usuari
    :param N: Nombre d'ítems que volem que siguin recomanats.
    :return : Llista amb els IDs dels ítems recomanats
    """
    
    user_index = indexes.categories.get_loc(user)
    user_list = to_dense(counts[user_index, :])
    scores = np.ones_like(user_list)*(-1.)
    for item_index in tqdm_notebook(range(len(user_list)), desc='Recomending:', leave=False):
        if user_list[item_index] == 0: # calcula score
            item_ID = columns.categories[item_index]
            scores[item_index] = score(counts, indexes, columns, similarities, user, item_ID)
    items_sorted = np.argsort(-scores)
    num_to_show = np.min((len(items_sorted), N))
    showable = np.array([], dtype=np.int)
    for i in range(num_to_show):
        showable = np.append(showable, columns.categories[items_sorted[i]])
            
    return showable

In [136]:
if __name__ == '__main__':
    out = recommend_n_items(counts_problem, indexes_problem, columns_problem, similarities, 20683, 10)
    print(out)

HBox(children=(IntProgress(value=0, description='Recomending:', max=6930), HTML(value='')))

[ 4313    41   985   283   770   618  4319 17481  2575   475]


### Possibles millores 

Per implementar millores, dupliqueu el notebook i feu-ho en la còpia!

Deixeu aquest notebook amb la implementació base.

**1) És Jaccard la millor mesura de similitud per les nostres dades?**
Jaccard no té en compte la cardinalitat, únicament els elements no nuls. És, per les dades de reproduccions, una aproximació adequada?
Si ho és, creus que el càlcul de recomanació col·laborativa és el més adhient? Mira el punt 3

**2) Utilització completa de les dades:**
Fer servir `df_original` tindrà (possiblement) resultats més fiables, però trigarà molt més que amb la versió reduida `df`. Pots canviar tant el nombre de dades utilitzades com quines dades es seleccionen.

**3) Normalització: Prediccions escalades al domini de l'usuari:**
Els usuaris escolten en diferent mesura als artites, uns més vegades, d'altres menys. Fent servir la següent formula, escalem la predicció a la mitja de l'usuari:
$$pred(u, i) = \hat{r}_{u,i} = \bar{r_u} + \frac{\sum_{p\neq u,r_{p,i}>0} sim(u, p)\cdot (r_{p,i}-\bar{r_i})}{\sum_{p\neq u,r_{p,i}>0} sim(u, p)}$$
on $\bar{r_u}$ és la mitjana de compres de l'usuari *u* i $\bar{r_i}$ la mitja de reproduccions de l'artista *i*.
    
**4) Valor del nombre d'elements codificats: **
Redueix la similitud entre els usuaris si el nombre de reproduccions és baix o descarta (en entrenament) aquells usuaris amb un petit nombre d'artistes escoltats.

**5) Augment de la similitud: **
Incrementeu el pes als usuaris que són realment similars (~ = 1)

**6) Selecció d'usuaris semblants: **
Només s'utilitza un subconjunt d'usuaris similars, descartant tots aquells usuaris poc similars.


Totes aquestes tècniques es poden aplicar d'igual manera en la recomanació col·laborativa per usuaris o ítems.

# Kaggle

Teniu la competició a la següent URL:

https://www.kaggle.com/t/4a3fd7b1e44c40a5a208c6da21a23d05

Si heu seguit tots els pydoc, el següent codi funcionarà directament sense canvis (@30min).

In [138]:
import pickle

if __name__ == '__main__':
    
    """
    
    counts, indexes, columns = build_counts_table(original_df_user_artists)
    print(counts.shape)
    
    users_id_list = np.array(top_active_users(counts, indexes, columns, 8000))
    
    df_user_artists = original_df_user_artists[original_df_user_artists.userID == -1 ]
    for iden in tqdm_notebook(users_id_list):
        df_append = original_df_user_artists[original_df_user_artists.userID == iden ]
        df_user_artists = pd.concat((df_user_artists, df_append))
    
    print(df_user_artists.shape)
    """
    
    
    try:
        from tqdm import tqdm_notebook
    except:
        def tqdm_notebook(a, *_, **__): return a
    
    # Fetch kaggle public data and merge
    kaggle_df_user_artists = pd.read_csv('data/user_artist_plays_public_kaggle.csv')
    merged_df_user_artists = pd.concat((df_user_artists, kaggle_df_user_artists))
    
    # Obtain counts
    merged_counts, merged_indexes, merged_columns = build_counts_table(merged_df_user_artists)
    
    # Similarity
    try:
        with open('merged_similarities_kaggle_del.pkl', 'rb') as fp:
            merged_similarities = pickle.load(fp)
    except:
        merged_similarities = similarity_matrix(
            similarity_function=similarity,
            counts=merged_counts,
            indexes=merged_indexes,
            df_users=original_df_users
        )
        
        with open('merged_similarities_kaggle_del.pkl', 'wb') as fp:
            pickle.dump(merged_similarities, fp, pickle.HIGHEST_PROTOCOL)
    
    results = pd.DataFrame(columns=['user_id', 'music_id'])
    
    for idx, user in enumerate(tqdm_notebook(kaggle_df_user_artists.userID.unique())):
        music_ids = recommend_n_items(merged_counts, merged_indexes, merged_columns, merged_similarities, user, 10)
        results.loc[idx] = (user, ' '.join(str(x) for x in music_ids))
        
    results.to_csv('submission_kaggle_del.csv', index=None)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




HBox(children=(IntProgress(value=0, description='Sim matrix:', max=1099), HTML(value='')))




KeyError: 121