# Recomanador Simple

## 1. INFORMACIÓ 

### 1.1. Abans de començar...

**\+ Durant la pràctica, solament es podran fer servir les següents llibreries**:

`Pandas, Numpy, Itertools`

*Nota: A més de les que ja es troben presents en la 1a cel·la i funcions natives de Python*

**\+ No es poden modificar les definicions de les funcions donades, ni canviar els noms de les variables i paràmetres ja donats**

Això no implica però que els hàgiu de fer servir. És a dir, que la funció tingui un paràmetre anomenat `df` no implica que l'hàgiu de fer servir, si no ho trobeu convenient.

**\+ En les funcions, s'especifica que serà i de quin tipus cada un dels paràmetres, cal respectar-ho**

Per exemple (ho posarà en el pydoc de la funció), `df` sempre serà indicatiu del `Pandas.DataFrame` de les dades. Durant la correcció, els paràmetres (i específicament `df`) no contindran les mateixes dades que en aquest notebook, si bé si seran del mateix tipus! Per tant, no us refieu de què tinguin, per exemple, el mateix nombre de files.

### 1.2. Consum general

La base de dades [movielens-1M](http://www.grouplens.org/node/73) conté 1,000,209 puntuacions de 3.900 pel·licules fetes l'any 2000 per 6.040 usuaris anònims del recomanador online [MovieLens](http://www.movielens.org/). 

El consum total de tots els usuaris s'hi pot trobar al document "ratings.dat" el format següent:

    UserID::MovieID::Rating::Timestamp

- **UserIDs** usuaris amb id's entre 1 i 6040 
- **MovieIDs** pelis amb id's entre 1 i 3952
- **Ratings** són les puntuacions en una escala de 5 estrelles.
- **Timestamp** representat en segons

> Cada usuari té com a mínim 20 interaccions consumides.

### 1.3. Usuaris



Al fitxer "users.dat" hi trobem la informació referent a cadascun dels usuaris en el següent format:

        UserID::Gender::Age::Occupation::Zip-code

- **Gender** ve donat per "M" per home i "F" per dona.
- **Age** està representada de la següent forma:

	*  1:  "Under 18"
	* 18:  "18-24"
	* 25:  "25-34"
	* 35:  "35-44"
	* 45:  "45-49"
	* 50:  "50-55"
	* 56:  "56+"

- **Occupation** es tria entre les següents opcions:

	*  0:  "other" or not specified
	*  1:  "academic/educator"
	*  2:  "artist"
	*  3:  "clerical/admin"
	*  4:  "college/grad student"
	*  5:  "customer service"
	*  6:  "doctor/health care"
	*  7:  "executive/managerial"
	*  8:  "farmer"
	*  9:  "homemaker"
	* 10:  "K-12 student"
	* 11:  "lawyer"
	* 12:  "programmer"
	* 13:  "retired"
	* 14:  "sales/marketing"
	* 15:  "scientist"
	* 16:  "self-employed"
	* 17:  "technician/engineer"
	* 18:  "tradesman/craftsman"
	* 19:  "unemployed"
	* 20:  "writer"

> Els usuaris han donat la informació voluntariament. Així doncs, alguns usuaris poden no tenir informació.


### 1.4. Películes



Al fitxer "movies.dat" hi trobem la informació referent a cadascuna de les películes en el següent format:

        MovieID::Title::Genres

- **Titles** són identics als titols de la base de dades IMDB, incloent l'any de llançament.
- **Genres** de les películes estan separats i seleccionats d'entre els següents:

	* Action
	* Adventure
	* Animation
	* Children's
	* Comedy
	* Crime
	* Documentary
	* Drama
	* Fantasy
	* Film-Noir
	* Horror
	* Musical
	* Mystery
	* Romance
	* Sci-Fi
	* Thriller
	* War
	* Western

> Algunes películes poden tenir el ID malament degut a duplicats accidentals.
>
> Les películes s'han entrat manualment, així que altres inconsistencies poden existir. 

## 2. COMENCEM: explorem les dades!!

### 2.1. Descarregar i llegir dades

+ Baixa't els fitxers que composen la base de dades i els còpies al teu directori de treball. 

+ Llegeix les tres taules de la base de dades en tres DataFrames de pandas amb aquest codi:

In [112]:
!wget https://files.grouplens.org/datasets/movielens/ml-1m.zip
!unzip ml-1m.zip

"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
unzip:  cannot find or open ml-1m.zip, ml-1m.zip.zip or ml-1m.zip.ZIP.


In [113]:
# import pandas as pd
# unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
# users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames, engine='python')
# rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
# ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames, engine='python')
# mnames = ['movie_id', 'title', 'genres']
# movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames, engine='python', encoding='latin-1')


### 2.2. Inspecció de les taules

In [114]:
# users[:10]

In [115]:
# users[-10:]

In [116]:
# ratings[-10:]

In [117]:
# ratings[:10]

In [118]:
# ratings.sort_values('movie_id')[:5]


In [119]:
# movies[:5]

In [120]:
# ratings[:5]

### **Exemple:** Fent càlculs sobre DataFrames.

Suposa que volem calcular les **puntuacions mitjanes d'una pel·licula per sexe o edat**. 


El primer pas a obtenir una única estructura que contingui tota la informació. Per fer-ho podem usar la funció ``merge`` de pandas. Aquesta funció infereix automàticament quines columnes ha d'usar per fer el ``merge`` basant-se en els noms que fan intersecció:

In [121]:
# data = pd.merge(pd.merge(ratings, users), movies)

# # Visualitzem la taula ordenada per identificar d'usuari
# data.sort_values(by='user_id')[:10]

La funció ``iloc`` ens permet obtenir un subconjunt de files i/o columnes:

In [122]:
# data.iloc[3:5]

Els índexs Boolans ens permeten seleccionar una part de la taula que compleix una condició.

In [123]:
# # comptem quin tant per cent de ratings estan fets per una dona
# print(data[data['gender']=='F']['rating'].count())
# print(float(data['rating'].count()))
# print(data[data['gender']=='F']['rating'].count()/float(data['rating'].count()), '%')

Per obtenir les **puntuacions mitjanes de cada pel·licula agrupada per edat** podem usar el mètode ``pivot_table`` que és una forma de "canviar" la forma de la taula especificant quin valor agregat (mitjançant una funció predefinida) hi volem en funció dels valors de dues columnes:

In [124]:
# mean_ratings = data.pivot_table(values= 'rating', index='title', columns='age', aggfunc='mean')
# mean_ratings[:10]

Per obtenir les **puntuacions mitjanes de cada pel·licula agrupada per sexe**:

In [125]:
# mean_ratings = data.pivot_table('rating', index='title',columns='gender', aggfunc='mean')
# mean_ratings[:10]

Si volgéssim fer càlculs només sobre les pel·licules que han rebut **al menys** 250 puntuacions, primer hem de construir una taula amb el nombre d'avaluacions de cada títol. Per fer-ho, agruparem les dades per títol (amb el mètode ``groupby``) i usarem ``size()`` el nombre.

El mètode ``groupby`` implenta un o més d'aquests processos:

+ Dividir les dades segons algun criteri.
+ Aplicar una funció a cada grup.
+ Combinar els resultats en una estructura de dades.

In [126]:
# ratings_by_title = data.groupby('title').size()
# print(ratings_by_title)

Llavors podem crear un índex amb els títols amb més de 250 avaluacions.

In [127]:
# active_titles = ratings_by_title.index[ratings_by_title >= 250]
# active_titles

L'índex de títols que reben al menys 250 puntuacions es pot fer servir per seleccionar les files de ``mean_ratings``: 

In [128]:
# mean_ratings = mean_ratings.loc[active_titles]
# mean_ratings

Per veure els films més valorats per les dones, podem ordenar per la columna F de forma descendent:

In [129]:
# top_female_ratings = mean_ratings.sort_values(by='F', ascending=False)
# top_female_ratings[:10]

Suposem ara que volem les pel·licules que estan valorades de forma més diferent entre homes i dones. Una forma d'obtenir-ho és afegir una columna a ``mean_ratings`` que contingui la diferència en mitjana i llavors ordenar:

In [130]:
# mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']
# mean_ratings

Ordenant per ``diff`` ens dóna les pel·licules ben valorades per les dones que presenten més diferència entre homes i dones:

In [131]:
# sorted_by_diff = mean_ratings.sort_values(by='diff')
# sorted_by_diff[:15]

Invertint l'ordre de les files i fent un ``slicing`` de les 15 files superiors obtenim les pel·licules ben valorades pels homes que no han agradat a les dones: 

In [132]:
# sorted_by_diff[::-1][:15]

Si volguéssim les pel·licules que han generat puntuacions més discordants, independentment del gènere, podem fer servir la variança o la desviació estàndard de les puntuacions: 

In [133]:
# # Standard deviation of rating grouped by title
# rating_std_by_title = data.groupby('title')['rating'].std()
# # Filter down to active_titles
# rating_std_by_title = rating_std_by_title.loc[active_titles]
# rating_std_by_title.sort_values(ascending=False)[:10]

### Important: Temes de rendiment

In [134]:
# %timeit data['title'] 
# %timeit data.title 
# %timeit data[['title']] 

In [135]:
# type(data[['title']])

In [136]:
# type(data.title)

## 3. EXERCICIS

### 3.1. PRIMER EXERCICI 

Donada la taula ``data``, calcula la puntuació mitjana de cada usuari. 

In [137]:
data_folder = 'ml-1m'

In [176]:
import pandas as pd
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table(f'{data_folder}/users.dat', sep='::', header=None, names=unames, engine='python')
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table(f'{data_folder}/ratings.dat', sep='::', header=None, names=rnames, engine='python')
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table(f'{data_folder}/movies.dat', sep='::', header=None, names=mnames, engine='python',encoding='latin-1')

data = pd.merge(pd.merge(ratings, users), movies)
data


Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,1,1193,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,1193,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,1193,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,1193,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,1193,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000204,5949,2198,5,958846401,M,18,17,47901,Modulations (1998),Documentary
1000205,5675,2703,3,976029116,M,35,14,30030,Broken Vessels (1998),Drama
1000206,5780,2845,1,958153068,M,18,17,92886,White Boys (1999),Drama
1000207,5851,3607,5,957756608,F,18,20,55410,One Little Indian (1973),Comedy|Drama|Western


In [139]:
# la vostra solució aquí
mean = data[['user_id','rating']].groupby('user_id').mean()
mean

Unnamed: 0_level_0,rating
user_id,Unnamed: 1_level_1
1,4.188679
2,3.713178
3,3.901961
4,4.190476
5,3.146465
...,...
6036,3.302928
6037,3.717822
6038,3.800000
6039,3.878049


+ Quina és la pel·lícula més ben puntuada (en mitja) pels usuaris? (Guarda aquest valor en una variable ``string``). 

In [140]:
# la vostra solució aquí
best_movie = data[['rating','title']].groupby(['title']).mean().sort_values(by='rating', ascending=False).index[0]
best_movie, type(best_movie)

('Ulysses (Ulisse) (1954)', str)

### 3.2. SEGON EXERCICI

Defineix una funció anomenada ``top_movie`` que donat un usuari ens retorni quina és la pel·lícula millor puntuada.<br> 


In [141]:
# la vostra solució aquí
def top_movie(dataFrame,usr):

    return dataFrame[dataFrame['user_id'] == usr].sort_values(by='rating',ascending=False)["title"][:1]

print(top_movie(data,1))


0    One Flew Over the Cuckoo's Nest (1975)
Name: title, dtype: object


### 3.3. TERCER EXERCICI

Construeix una funció que donat un dataframe et retorni el valor que cada usuari li ha donat a una peli. Això ho farem creant un dataframe on les columnes són els `movie_id`, les files `user_id` i els valors siguin el rating donat.

In [142]:
def build_counts_table(df):
    """
    Retorna un dataframe on les columnes són els `movie_id`, les files `user_id` i els valors
    el nombre de vegades que un usuari ha vist una peli d'un `movie_id`
    
    :param df: DataFrame original 
    :return: DataFrame descrit adalt
    """
    
    # la vostra solució aquí
    
    return data.pivot_table(values='rating', index='user_id', columns='movie_id')

In [143]:
df_counts = build_counts_table(data)
df_counts

movie_id,1,2,3,4,5,6,7,8,9,10,...,3943,3944,3945,3946,3947,3948,3949,3950,3951,3952
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,2.0,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6036,,,,2.0,,3.0,,,,,...,,,,,,,,,,
6037,,,,,,,,,,,...,,,,,,,,,,
6038,,,,,,,,,,,...,,,,,,,,,,
6039,,,,,,,,,,,...,,,,,,,,,,


També programarem una funció que donada la taula anterior i dos id's (usuari i peli), extregui el valor donat:

In [144]:
def get_count(df, user_id, movie_id):
    """
    Retorna el nombre de vegades que un usuari ha comprat en un `movie_id`
    
    :param df: DataFrame retornat per `build_counts_table`
    :param user_id: ID de l'usuari
    :param movie_id: ID de la peli
    :return: Enter amb el nombre de vegades que ha comprat
    """
    
    # la vostra solució aquí
    return df.values[movie_id, user_id]

get_count(df_counts, 0, 0)

5.0

### 3.4. QUART EXERCICI

In [175]:
data.nunique()

movie_id
0       5
1       5
2       5
3       5
4       5
       ..
3701    5
3702    5
3703    5
3704    5
3705    5
Length: 3706, dtype: int64

Si observem el nombre total d'usuaris unics i de pelicules úniques, podem observar que els id's dels usuaris van de 1 a 6040. Normalment hauriem d'intentar que comencessin al nombre 0, anant de 0 a 6039. 

**Què passa amb els indexos de les pelis??**

> ANSWER

Usant la funció **pd.Categorical(*).codes**, re-indexa els id's dels usuaris i de les pelis perquè vagin de 0 a 6039 i de 0 a 3705 respectivament:

In [177]:
# la vostra solució aquí
data['user_id'] = pd.Categorical(data['user_id']).codes
data['movie_id'] = pd.Categorical(data['movie_id']).codes
data.sort_values(by= 'user_id')

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,0,1104,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
28501,0,47,5,978824351,F,1,10,48067,Pocahontas (1995),Animation|Children's|Musical|Romance
13819,0,877,4,978301752,F,1,10,48067,Gigi (1958),Musical
51327,0,1117,4,978300719,F,1,10,48067,To Kill a Mockingbird (1962),Drama
31152,0,1574,4,978300055,F,1,10,48067,Titanic (1997),Drama|Romance
...,...,...,...,...,...,...,...,...,...,...
578459,6039,2439,2,956716343,M,25,6,11106,Superman II (1980),Action|Adventure|Sci-Fi
338950,6039,1767,4,997454036,M,25,6,11106,West Side Story (1961),Musical|Romance
464888,6039,843,4,956716845,M,25,6,11106,Rear Window (1954),Mystery|Thriller
632232,6039,2462,4,957717463,M,25,6,11106,Invasion of the Body Snatchers (1956),Horror|Sci-Fi


Per comprovar que tot sigui correcte i guardar correctament la taula **df_counts**, torna a calcular-la:

In [147]:
df_counts = build_counts_table(data)
df_counts[:10]

movie_id,0,1,2,3,4,5,6,7,8,9,...,3696,3697,3698,3699,3700,3701,3702,3703,3704,3705
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,5.0,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,2.0,,,,,...,,,,,,,,,,
5,4.0,,,,,,,,,,...,,,,,,,,,,
6,,,,,,4.0,,,,,...,,,,,,,,,,
7,4.0,,,3.0,,,,,,,...,,,,,,,,,,
8,5.0,,,,,,,,,,...,,,,,,3.0,,,,
9,5.0,5.0,,,,,4.0,,,,...,,,,,,4.0,,,,


### 3.5. CINQUÉ EXERCICI



Construeix una funció <b>distEuclid(x,y)</b> que implementi la distància Euclidiana entre dos vectors usant funcions de pandas. Escriu la funció que calculin la semblança entre dos usuaris segons aquesta estructura:

``def SimEuclid (DataFrame, User1, User2)``
    Calcular els **embeddings** de cada usuari, C1 i C2, amb les puntuacions dels ítems comuns que han puntuat el dos usuaris.
    Si no hi ha puntuacions en comú, retornar 0. Retornar ``1/(1+distEuclid(C1, C2))``

\
Avalueu amb la funció ``%timeit`` quant triguen aquests càlculs per un parell d'usuaris.   

> *Nota: Alguns d'aquests exercicis tenen temps de càlcul de l'ordre de minuts sobre tota la base de dades. Per desenvolupar els algorismes és recomanable treballar amb una versió reduïda de la base de dades.* 

> *Nota: **embedding** fa referencia a un vector de N dimensions que té com a funció representar (en aquest cas) els gustos dels usuaris. També es pot fer un embedding d'items i aleshores representarien el contingut d'aquest o caracteristiques semblants.*

---
#### Mesurament de similituds (petita teoria)

El primer pas per poder recomanar és definir una funció de similitud entre vectors. Siguin $x, y$ vectors, implementa la seva distància euclidiana:

* Distància euclidea (inversa): https://en.wikipedia.org/wiki/Euclidean_distance

$$sim(x, y) = \frac{1}{1 + \sqrt{\sum_i(x_i-y_i)^2}}\in [0, 1]$$

---

Per implementar qualsevol d'aquestes únicament es permet l'ús de:

* `np.sum`
* `np.sqrt`
* `np.power`
* `np.dot`
* `np.linalg.norm`
* `np.mean`

I s'ha de fer **sense bucles**.


In [148]:
import math
import numpy as np
import pandas as pd

def distEuclid(x, y):
    """
    Retorna la distancia euclidiana de dos vectors n-dimensionals.
    
    :param x: Primer vector
    :param y: Segon vector
    :return : Escalar (float) corresponent a la distancia euclidiana
    """
    
    # la vostra solució aquí
    return np.linalg.norm(x - y)
    

def SimEuclid(DataFrame, User1, User2):
    """
    Retorna un score que representa la similitud entre user1 i user2 basada en la distancia euclidiana
    
    :param DataFrame: dataframe que conté totes les dades
    :param User1: id user1
    :param User2: id user2
    :return : Escalar (float) corresponent al score
    """

    # la vostra solució aquí

    data = DataFrame.loc[[User1, User2]].dropna(axis=1)
    return 1/(1+distEuclid(data.loc[User1],data.loc[User2]))

In [149]:
# Execute functions
# print(SimEuclid(data, 1, 5))
SimEuclid(df_counts, 0, 2)

0.23166247903554

### 3.6. SISÉ EXERCICI

Desenvolupa un sistema de recomanació col·laboratiu **basat en usuaris**. 

La funció principal, ``getRecommendationsUser``, ha de tenir com a entrada una taula de puntuacions, un ``user_id``, el tipus de mesura de semblança (Euclidiana) que volem usar, el nombre `m` d'usuaris semblants que volem per fer la recomanació i el nombre ``n`` de recomanacions que volem. Com a sortida ha de donar la llista de les ``n`` millors pel·lícules que li podriem recomanar segons la seva semblança amb altres usuaris.

> *Nota 1: S'ha d'evitar comparar ``user_id`` a ell mateix.*

> *Nota 2: Recordeu que en Python podem passar funcions com a paràmetres d'una funció.*

In [150]:
# getRecommendationsUser(data, 2, 50, 10, SimEuclid)

#### - SECCIÓ 1: 

Computa la score de similitud del usuari desitjat (userID) respecte tots els altres i retorna una llista dels **m** usuaris més propers, que seran els que usarem per fer la recomanació. Normalitzeu els scores de sortida.

In [180]:
def find_similar_users(DataFrame, userID, m, simfunction):
    """
    Retorna un diccionari de usuaris similars amb les scores corresponents.
    
    :param DataFrame: dataframe que conté totes les dades
    :param userID: usuari respecte al qual fem la recomanació
    :param m: nombre d'usuaris que volem per fer la recomanació
    :param similarity: mesura de similitud
    :return : diccionary
    """

    DataFrame = build_counts_table(DataFrame)

    result = dict()
    user_IDs = DataFrame.drop(userID).index
    similaritys = list((map(lambda user_id : simfunction(DataFrame, userID, user_id), user_IDs)))


    result = dict(zip(user_IDs, similaritys))
    result = dict(sorted(result.items(), key=lambda item: item[1], reverse = True)[:m])


    return result

In [181]:
import datetime
t = datetime.datetime.now()
sim_dict = find_similar_users(data, 2, 10, SimEuclid)
t = datetime.datetime.now()-t
print(str(t))

0:00:25.822809


In [182]:
sim_dict

{15: 1.0,
 60: 1.0,
 115: 1.0,
 152: 1.0,
 157: 1.0,
 163: 1.0,
 170: 1.0,
 278: 1.0,
 303: 1.0,
 314: 1.0}

**CREIEU QUE ES OPTIM EL TEMPS QUE HA TARDAT PER UN USUARI?** RAONA LA RESPOSTA.

> ANSWER

Per millorar el problema anteorior, construeix una matriu de mida UXU on cada posició *i,j* indica la distància entre l'element *i* i el *j*. Així doncs, si estàs fent un recomanador basat en usuaris, `matriu[2, 3]` contindrà la similitud entre l'usuari 2 i el 3.

In [154]:
df_counts[:200]

movie_id,0,1,2,3,4,5,6,7,8,9,...,3696,3697,3698,3699,3700,3701,3702,3703,3704,3705
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,5.0,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,2.0,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,,,,,,,,,,,...,,,,,,3.0,,,,
196,,,,,,,,,,,...,,,,,,,,,,
197,5.0,3.0,,,,,,,,4.0,...,,,,,,5.0,,,,
198,,,3.0,1.0,,,,,3.0,4.0,...,,,,,,,,,,


In [155]:
def similarity_matrix(similarity_function, df_counts):
    """
    Retorna una matriu de mida M x M on cada posició 
    indica la similitud entre usuaris (resp. ítems).
    
    :param similarity_function: Funció que calcularà la similitud 
        entre usuaris (resp. ítems)
    :param df_counts: Dataframe que conté el nombre de vegades que 
        un usuari ha comprat en un `aisle_id`
    :return : Matriu numpy de mida M x M amb les similituds.
    """

    matrix = np.zeros((df_counts.shape[0], df_counts.shape[0]))

    # la vostra solució aquí
    if similarity_function == None:
        
        data  = df_counts.to_numpy()

        for i in range((len(data))//2):
            j = len(data)-2-i
            
            i_notnan = ~np.isnan(data[i])
            j_notnan = ~np.isnan(data[j])

            matrix[i][i+1:] = np.nansum( np.power((data[i, i_notnan] - data[i+1: , i_notnan]), 2), axis=1)
            matrix[j][j+1:] = np.nansum( np.power((data[j, j_notnan] - data[j+1: , j_notnan]), 2), axis=1)


        matrix = matrix + matrix.T
        matrix = 1 / (1 + np.sqrt(matrix))

        np.fill_diagonal(matrix, 0)
     
    else:
        matrix = np.zeros((df_counts.shape[0], df_counts.shape[0]))
        for i in range(df_counts.shape[0]):
            for j in range(df_counts.shape[0]):
                matrix[i][j] = similarity_function(df_counts, i, j)

    
    return matrix

Per cridar aquesta funció, el primer paràmetre pot ser:

* Amb la funció de la distancia euclidiana que heu programat abans pot trigar ~@1h 30min treballant directament amb valors de numpy, ~@20h a partir de pandas pur.
* Opcionalment (no és obligatori fer-ho) podeu programar una funció que treballi específicament amb matrius (i no vectors). Si ho feu, cal gestionar-ho quan es rep `None`.  (@5s)

In [183]:
t = datetime.datetime.now()
# sim = similarity_matrix(SimEuclid, df_counts)
sim = similarity_matrix(None, df_counts)
t = datetime.datetime.now()-t
print(str(t))

sim


0:02:02.680896


array([[0.        , 0.33333333, 0.23166248, ..., 1.        , 0.2052131 ,
        0.19074357],
       [0.33333333, 0.        , 0.2052131 , ..., 0.30901699, 0.30901699,
        0.09733669],
       [0.23166248, 0.2052131 , 0.        , ..., 0.5       , 0.21712927,
        0.12389934],
       ...,
       [1.        , 0.30901699, 0.5       , ..., 0.        , 0.30901699,
        0.13802626],
       [0.2052131 , 0.30901699, 0.21712927, ..., 0.30901699, 0.        ,
        0.1310058 ],
       [0.19074357, 0.09733669, 0.12389934, ..., 0.13802626, 0.1310058 ,
        0.        ]])

In [184]:
sim.shape

(6040, 6040)

Ara torna a re-fer la funció **find_similar_users** i mira quant triga... 

> Recorda que les scores han d'estar normalitzades!

In [185]:
def find_similar_users(DataFrame, sim_matrix, userID, m):
    
    # la vostra solució aquí
    similituds = sim_matrix[userID]
    users = list(np.argsort(-similituds)[:m])
    w_scores = list(similituds[users])

    return dict(zip(users, w_scores))

In [186]:
t = datetime.datetime.now()
sim_dict = find_similar_users(data, sim, 2, 10)
t = datetime.datetime.now()-t

print(str(t))
sim_dict

0:00:00.009274


{3763: 1.0,
 4942: 1.0,
 1782: 1.0,
 4183: 1.0,
 1820: 1.0,
 1831: 1.0,
 1839: 1.0,
 4873: 1.0,
 1891: 1.0,
 4184: 1.0}

**Hauria d'haver baixat més de 30 cops el temps anterior!!**

#### - SECCIÓ 2: 
Computa les recomanacions per un usuari amb cadascun dels m usuaris més propers i fes una funció que retorni la **weighted average list** d'aquests per tal d'obtenir la recomanació final. Feu servir la funció anterior que usava la matriu de similituds per anar més ràpid!!


> *Nota: la **weighted average list** es calcularà agregant els n items més puntuats de cadascun dels m users més semblants al usuari donat.

In [316]:
def getRecommendationsUser(DataFrame, user, sim_matrix, n_item, m_user):
    """
    Retorna un dataframe de pel·licules amb els scores.
    
    :param DataFrame: dataframe que conté totes les dades
    :param user: usuari al qual fem la recomanació
    :param sim_mx: similarity_function
    :param n: nombre de pelis a recomanar
    :param m: nombre d'usuaris semblants a tenir en compte per les recomanacions
    :return : pandas de pelis amb els seus scores predits
    """
    
    # la vostra solució aquí
    DataFrame = build_counts_table(DataFrame)
    sim_dict = find_similar_users(DataFrame, sim_matrix, user, m_user)

    users = list(sim_dict.keys())
    weights = list(sim_dict.values())

    matrix = DataFrame.loc[users, df_counts.loc[user].isna()]


    scores = (np.nan_to_num(matrix.T).dot(weights)) / ( (np.nan_to_num(matrix.T) != 0).dot(weights) )
    index = np.argsort(-scores)[:n_item]


    df = pd.DataFrame({'movie_id': list(index), 'weights': scores[index]})
    return df

In [317]:

t = datetime.datetime.now()
user_prediction = getRecommendationsUser(data, 2, sim, 100, 500)
t = datetime.datetime.now()-t
print(str(t))


0:00:01.403991


  scores = (np.nan_to_num(matrix.T).dot(weights)) / ( (np.nan_to_num(matrix.T) != 0).dot(weights) )


In [318]:
user_prediction

Unnamed: 0,movie_id,weights
0,906,5.000000
1,1923,5.000000
2,2910,5.000000
3,3307,5.000000
4,1936,5.000000
...,...,...
95,1620,5.000000
96,36,5.000000
97,479,5.000000
98,1117,4.833333


#### - SECCIÓ 3

Comprovem que realment l'usuari 3 no tenia recomanació per les pelis a les que estem recomanant:

In [194]:
data

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,0,1104,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,1104,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,11,1104,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,14,1104,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,16,1104,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000204,5948,2017,5,958846401,M,18,17,47901,Modulations (1998),Documentary
1000205,5674,2498,3,976029116,M,35,14,30030,Broken Vessels (1998),Drama
1000206,5779,2638,1,958153068,M,18,17,92886,White Boys (1999),Drama
1000207,5850,3367,5,957756608,F,18,20,55410,One Little Indian (1973),Comedy|Drama|Western


In [196]:
data_user3 = data[data['user_id']==3]
data_user3

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
28884,3,1025,4,978293964,M,45,7,2460,E.T. the Extra-Terrestrial (1982),Children's|Drama|Fantasy|Sci-Fi
45686,3,2488,5,978294230,M,45,7,2460,Run Lola Run (Lola rennt) (1998),Action|Crime|Romance
46759,3,253,5,978294199,M,45,7,2460,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Fantasy|Sci-Fi
52257,3,1848,5,978294230,M,45,7,2460,Saving Private Ryan (1998),Action|Drama|War
70281,3,3235,5,978294008,M,45,7,2460,"Hustler, The (1961)",Drama
70732,3,1120,3,978293924,M,45,7,2460,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War
116540,3,466,4,978294008,M,45,7,2460,Jurassic Park (1993),Action|Adventure|Sci-Fi
128355,3,1106,2,978294199,M,45,7,2460,Star Wars: Episode V - The Empire Strikes Back...,Action|Adventure|Drama|Sci-Fi|War
133409,3,1108,5,978294199,M,45,7,2460,Raiders of the Lost Ark (1981),Action|Adventure
149459,3,1774,5,978294282,M,45,7,2460,Rocky (1976),Action|Drama


In [197]:
desired_movie_id_to_check = 0
best_film_to_predict = user_prediction['movie_id'].iloc[desired_movie_id_to_check] 

best_film_to_predict

906

In [198]:
data_user3[data_user3['movie_id']==best_film_to_predict]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres


**Com es que ara estem predint un rating per la pelicula "best_film_to_predict"?** Digues quin nombre és la predicció

In [None]:
# la vostra solució aquí

### 3.7. SETÉ EXERCICI


A continuació usarem la metrica Mean Absolute Error (MAE) per evaluar el nostre sistema. Aquesta mètrica ens permetrà mesurar la diferencia entre dues llistes donat un usuari: 

**1.** La llista amb els ratings originals d'un usuari donat

**2.** La llista de les prediccions generades per aquest usuari

#### - SECCIÓ 1: 

Treu el 10% dels usuaris i reserva aquests en una variable anomenada **test_set** i la resta en una variable anomenada **train_set**.

In [267]:
import random
unique_users = data['user_id'].unique()
n_test_users = int(len(unique_users)*0.1)
n_train_users = len(unique_users) - n_test_users

test_usrs = random.sample(list(unique_users), n_test_users)
print(sorted(test_usrs))

[7, 11, 13, 22, 25, 31, 35, 38, 48, 78, 79, 81, 91, 119, 120, 138, 146, 161, 166, 185, 217, 225, 232, 248, 250, 260, 270, 276, 280, 282, 285, 290, 295, 298, 303, 306, 307, 325, 329, 345, 349, 352, 357, 362, 368, 372, 400, 407, 413, 424, 435, 442, 453, 478, 491, 497, 504, 551, 568, 603, 610, 612, 616, 622, 632, 640, 669, 677, 686, 689, 696, 704, 706, 711, 713, 736, 737, 753, 760, 778, 782, 786, 799, 801, 826, 827, 831, 839, 854, 879, 896, 912, 931, 936, 944, 949, 955, 956, 971, 974, 983, 990, 994, 995, 1002, 1005, 1024, 1037, 1039, 1053, 1055, 1058, 1059, 1076, 1084, 1088, 1109, 1113, 1118, 1123, 1135, 1161, 1182, 1183, 1201, 1214, 1248, 1260, 1262, 1280, 1306, 1352, 1366, 1368, 1374, 1412, 1416, 1429, 1445, 1446, 1471, 1488, 1495, 1515, 1517, 1525, 1528, 1548, 1558, 1574, 1583, 1584, 1607, 1614, 1616, 1625, 1656, 1673, 1675, 1681, 1710, 1715, 1718, 1756, 1762, 1768, 1777, 1778, 1782, 1793, 1805, 1809, 1811, 1813, 1829, 1835, 1839, 1842, 1857, 1872, 1895, 1909, 1929, 1943, 1944, 1945, 1

In [268]:
n_test_users,n_train_users

(604, 5436)

In [269]:
test_set = data.loc[data['user_id'].isin(test_usrs)]
train_set = data.loc[~data['user_id'].isin(test_usrs)]
assert len(test_set) + len(train_set) == len(data)
test_set.sort_values(by= 'user_id')

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
153006,7,157,5,978229246,M,25,12,11413,Desperado (1995),Action|Romance|Thriller
375365,7,462,3,978230687,M,25,12,11413,"Inkwell, The (1994)",Comedy|Drama
374810,7,3028,3,978230013,M,25,12,11413,Scent of a Woman (1992),Drama
374444,7,3026,3,978230184,M,25,12,11413,Alive (1993),Drama
373706,7,246,5,978230943,M,25,12,11413,Interview with the Vampire (1994),Drama|Horror
...,...,...,...,...,...,...,...,...,...,...
491247,6038,802,4,956757973,F,45,0,01060,"Godfather, The (1972)",Action|Crime|Drama
910400,6038,1771,4,956705950,F,45,0,01060,Oliver! (1968),Musical
12757,6038,858,4,956705872,F,45,0,01060,"Wizard of Oz, The (1939)",Adventure|Children's|Drama|Musical
122121,6038,1173,3,956705564,F,45,0,01060,Groundhog Day (1993),Comedy|Romance


Què passarà si calculo la matriu de similitud amb **train_set** i després intento predir pels usuaris de **test_set**??

#### - SECCIÓ 2:

Selecciona aproximadament el 80% de les interaccions de cada usuari de test i junta-les al **train_set**. Ara podem evaluar el sistema?


> Com la pràctica és molt llarga hem programat el codi per un usuari donat i vosaltres només heu de crear la funció que, per cada usuari, afagi el 80% de les intraccions i les unifiqui al dataframe de train.

In [270]:
test_set

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
2,11,1104,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
10,38,1104,5,978043535,M,18,4,61820,One Flew Over the Cuckoo's Nest (1975),Drama
15,48,1104,4,978813972,M,18,12,77084,One Flew Over the Cuckoo's Nest (1975),Drama
21,79,1104,4,977786172,M,56,1,49327,One Flew Over the Cuckoo's Nest (1975),Drama
32,119,1104,5,977458103,M,25,11,27106,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000099,3517,1061,4,969897983,F,18,7,11215,Everything Relative (1996),Drama
1000183,5058,1330,4,962484364,M,45,16,22652,"Stranger, The (1994)",Action
1000184,5946,1330,4,957190428,F,45,16,97215,"Stranger, The (1994)",Action
1000187,5104,390,3,962337582,M,50,7,18977,Brother Minister: The Assassination of Malcolm...,Documentary


In [277]:
# Agafem el 20% de les pelis que ha consumit cada usuari de test 
groupby_count = test_set.groupby('user_id')['movie_id'].count()*0.2
groupby_count

user_id
7       27.8
11       4.6
13       5.0
22      60.8
25      80.0
        ... 
6016     6.6
6027     9.4
6028     6.2
6029    23.0
6038    24.6
Name: movie_id, Length: 604, dtype: float64

Seleccionem la posició 1 i aquest use_id serà el que usarem pel codi d'exemple (que després haureu de replicar).

In [278]:
groupby_count.reset_index().iloc[1]

user_id     11.0
movie_id     4.6
Name: 1, dtype: float64

In [279]:
n_test_samples = int(groupby_count.reset_index().iloc[1]['movie_id'])
u = groupby_count.reset_index().iloc[1]['user_id']
u

11.0

In [288]:
test_set_user = test_set[test_set['user_id'] == u]
frame_test = test_set_user.sample(n_test_samples)
print("TOTAL SAMPLES OF THE USER: " + str(len(test_set_user)))
print("TOTAL SAMPLES OF THE USER IN TEST SET: " + str(len(frame_test)))


TOTAL SAMPLES OF THE USER: 23
TOTAL SAMPLES OF THE USER IN TEST SET: 4


In [289]:
test_set_user

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
2,11,1104,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
8929,11,2599,5,978220237,M,25,12,32793,"Christmas Story, A (1983)",Comedy|Drama
11044,11,858,5,978220120,M,25,12,32793,"Wizard of Oz, The (1939)",Adventure|Children's|Drama|Musical
133412,11,1108,5,978218949,M,25,12,32793,Raiders of the Lost Ark (1981),Action|Adventure
135926,11,579,5,978220193,M,25,12,32793,"Silence of the Lambs, The (1991)",Drama|Thriller
180939,11,1155,3,978220216,M,25,12,32793,"Graduate, The (1967)",Drama|Romance
183406,11,1504,3,978218568,M,25,12,32793,"Full Monty, The (1997)",Comedy
352131,11,1131,5,978218949,M,25,12,32793,"Godfather: Part II, The (1974)",Action|Crime|Drama
375401,11,107,5,978220179,M,25,12,32793,Taxi Driver (1976),Drama|Thriller
380562,11,3041,4,978218916,M,25,12,32793,Hard-Boiled (Lashou shentan) (1992),Action|Crime


In [290]:
frame_test

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
575631,11,2414,1,978218568,M,25,12,32793,Dick Tracy (1990),Action|Crime
424194,11,1160,3,978220237,M,25,12,32793,Chinatown (1974),Film-Noir|Mystery|Thriller
489027,11,802,5,978218949,M,25,12,32793,"Godfather, The (1972)",Action|Crime|Drama
375401,11,107,5,978220179,M,25,12,32793,Taxi Driver (1976),Drama|Thriller


In [281]:
len(test_set_user.index)

23

In [282]:
frame_train = test_set_user[~test_set_user.index.isin(frame_test.index)]
print("TOTAL SAMPLES OF THE USER IN TRAIN SET: " + str(len(frame_train)))

TOTAL SAMPLES OF THE USER IN TRAIN SET: 19


In [291]:
frame_train

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
2,11,1104,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
11044,11,858,5,978220120,M,25,12,32793,"Wizard of Oz, The (1939)",Adventure|Children's|Drama|Musical
133412,11,1108,5,978218949,M,25,12,32793,Raiders of the Lost Ark (1981),Action|Adventure
135926,11,579,5,978220193,M,25,12,32793,"Silence of the Lambs, The (1991)",Drama|Thriller
180939,11,1155,3,978220216,M,25,12,32793,"Graduate, The (1967)",Drama|Romance
352131,11,1131,5,978218949,M,25,12,32793,"Godfather: Part II, The (1974)",Action|Crime|Drama
375401,11,107,5,978220179,M,25,12,32793,Taxi Driver (1976),Drama|Thriller
380562,11,3041,4,978218916,M,25,12,32793,Hard-Boiled (Lashou shentan) (1992),Action|Crime
416588,11,1142,3,978220120,M,25,12,32793,"Boat, The (Das Boot) (1981)",Action|Drama|War
424194,11,1160,3,978220237,M,25,12,32793,Chinatown (1974),Film-Noir|Mystery|Thriller


In [284]:
assert len(frame_train) + len(frame_test) == len(test_set_user)
len(frame_train), len(frame_test), len(test_set_user)

(19, 4, 23)

In [301]:
def add_testdata(traindf, test_set):
    """
    Retorna dos dataframes, un de train i l'altre de test
    
    :param traindf: dataframe que conté les dades de train
    :param test_set: dataframe que conté les dades de test

    :return : 
        - :param 1st: dataframe que conté les dades de train juntament amb el 80% de test seleccionat
        - :param 2nd: dataframe que conté les dades de test que queden (20% restant)
    """
    
    # la vostra solució aquí
    
    unique_users = test_set['user_id'].unique()
    n_test_users = int(len(unique_users)*0.2)
    n_train_users = len(unique_users) - n_test_users
    test_usrs = random.sample(list(unique_users), n_test_users)


    test_left = test_set.loc[test_set['user_id'].isin(test_usrs)]
    train_appended= test_set.loc[~test_set['user_id'].isin(test_usrs)]


    return pd.concat((traindf, train_appended)), test_left


In [302]:
train, test = add_testdata(train_set, test_set)

In [303]:
train

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,0,1104,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,1104,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
3,14,1104,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,16,1104,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
5,17,1104,4,978156168,F,18,3,95825,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000099,3517,1061,4,969897983,F,18,7,11215,Everything Relative (1996),Drama
1000183,5058,1330,4,962484364,M,45,16,22652,"Stranger, The (1994)",Action
1000184,5946,1330,4,957190428,F,45,16,97215,"Stranger, The (1994)",Action
1000187,5104,390,3,962337582,M,50,7,18977,Brother Minister: The Assassination of Malcolm...,Documentary


In [304]:
train.shape

(980497, 10)

In [305]:
test

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
80,298,1104,5,976660367,M,25,12,97370,One Flew Over the Cuckoo's Nest (1975),Drama
105,352,1104,4,976323254,F,35,7,92625,One Flew Over the Cuckoo's Nest (1975),Drama
118,424,1104,5,976280780,M,25,12,55303,One Flew Over the Cuckoo's Nest (1975),Drama
296,1058,1104,3,978283439,F,25,0,97213,One Flew Over the Cuckoo's Nest (1975),Drama
318,1123,1104,5,975705433,M,25,2,60156,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
999824,1793,1401,1,974707767,M,25,11,20878,Commandments (1997),Romance
999951,2091,905,5,1002402914,M,56,1,49006,"Walk in the Sun, A (1945)",Drama
999987,2131,3071,2,974642374,M,56,14,02632,With Byrd at the South Pole (1930),Documentary
999996,3053,2722,3,1039398984,M,18,4,44056,Return with Honor (1998),Documentary


In [306]:
test.shape

(19712, 10)

#### -SECCIÓ 3:

In [309]:
sim

array([[0.        , 0.33333333, 0.23166248, ..., 1.        , 0.2052131 ,
        0.19074357],
       [0.33333333, 0.        , 0.2052131 , ..., 0.30901699, 0.30901699,
        0.09733669],
       [0.23166248, 0.2052131 , 0.        , ..., 0.5       , 0.21712927,
        0.12389934],
       ...,
       [1.        , 0.30901699, 0.5       , ..., 0.        , 0.30901699,
        0.13802626],
       [0.2052131 , 0.30901699, 0.21712927, ..., 0.30901699, 0.        ,
        0.1310058 ],
       [0.19074357, 0.09733669, 0.12389934, ..., 0.13802626, 0.1310058 ,
        0.        ]])

Fes una funció usant **np.abs** que serveixi per evaluar el nostre sistema. **(PISTA:)** La funció ha de mesurar la diferencia en mitjana de la llista de ratings originals amb la llista de ratings predida.

In [307]:
def evaluateRecommendations(train, test, m_user, n_item, sim_matrix):
    """
    Retorna l'error generat pel model
    
    :param DataFrame: dataframe que conté totes les dades
    :param userID: usuari respecte al qual fem la recomanació
    :param m: nombre d'usuaris que volem per fer la recomanació
    :param n: nombre de pelis a retornar
    :param sim: matriu de similitud
    :return : Escalar (float) corresponent al MAE
    """
    
    # la vostra solució 
    print(train.shape)
    print(test.shape)
    



    return 0

In [308]:
t = datetime.datetime.now()
mae = evaluateRecommendations(train, test, 50, 10, sim)
t = datetime.datetime.now()-t
print(str(t))

(980497, 10)
(19712, 10)
0:00:00


In [294]:
mae

0

### 3.8. VUITÉ (I ÚTLIM) EXERCICI


**Que surt més a compte, fer un recomanador unic pels dos sexes o un per cada sexe?** Justifica la resposta per escrit i amb el codi necessari.

> RESPOSTA

In [None]:
# la vostra solució aquí