# Recomanador Simple

## 1. INFORMACIÓ 

### 1.1. Abans de començar...

**\+ Durant la pràctica, solament es podran fer servir les següents llibreries**:

`Pandas, Numpy, Itertools`

*Nota: A més de les que ja es troben presents en la 1a cel·la i funcions natives de Python*

**\+ No es poden modificar les definicions de les funcions donades, ni canviar els noms de les variables i paràmetres ja donats**

Això no implica però que els hàgiu de fer servir. És a dir, que la funció tingui un paràmetre anomenat `df` no implica que l'hàgiu de fer servir, si no ho trobeu convenient.

**\+ En les funcions, s'especifica que serà i de quin tipus cada un dels paràmetres, cal respectar-ho**

Per exemple (ho posarà en el pydoc de la funció), `df` sempre serà indicatiu del `Pandas.DataFrame` de les dades. Durant la correcció, els paràmetres (i específicament `df`) no contindran les mateixes dades que en aquest notebook, si bé si seran del mateix tipus! Per tant, no us refieu de què tinguin, per exemple, el mateix nombre de files.

### 1.2. Consum general

La base de dades [movielens-1M](http://www.grouplens.org/node/73) conté 1,000,209 puntuacions de 3.900 pel·licules fetes l'any 2000 per 6.040 usuaris anònims del recomanador online [MovieLens](http://www.movielens.org/). 

El consum total de tots els usuaris s'hi pot trobar al document "ratings.dat" el format següent:

    UserID::MovieID::Rating::Timestamp

- **UserIDs** usuaris amb id's entre 1 i 6040 
- **MovieIDs** pelis amb id's entre 1 i 3952
- **Ratings** són les puntuacions en una escala de 5 estrelles.
- **Timestamp** representat en segons

> Cada usuari té com a mínim 20 interaccions consumides.

### 1.3. Usuaris



Al fitxer "users.dat" hi trobem la informació referent a cadascun dels usuaris en el següent format:

        UserID::Gender::Age::Occupation::Zip-code

- **Gender** ve donat per "M" per home i "F" per dona.
- **Age** està representada de la següent forma:

	*  1:  "Under 18"
	* 18:  "18-24"
	* 25:  "25-34"
	* 35:  "35-44"
	* 45:  "45-49"
	* 50:  "50-55"
	* 56:  "56+"

- **Occupation** es tria entre les següents opcions:

	*  0:  "other" or not specified
	*  1:  "academic/educator"
	*  2:  "artist"
	*  3:  "clerical/admin"
	*  4:  "college/grad student"
	*  5:  "customer service"
	*  6:  "doctor/health care"
	*  7:  "executive/managerial"
	*  8:  "farmer"
	*  9:  "homemaker"
	* 10:  "K-12 student"
	* 11:  "lawyer"
	* 12:  "programmer"
	* 13:  "retired"
	* 14:  "sales/marketing"
	* 15:  "scientist"
	* 16:  "self-employed"
	* 17:  "technician/engineer"
	* 18:  "tradesman/craftsman"
	* 19:  "unemployed"
	* 20:  "writer"

> Els usuaris han donat la informació voluntariament. Així doncs, alguns usuaris poden no tenir informació.


### 1.4. Películes



Al fitxer "movies.dat" hi trobem la informació referent a cadascuna de les películes en el següent format:

        MovieID::Title::Genres

- **Titles** són identics als titols de la base de dades IMDB, incloent l'any de llançament.
- **Genres** de les películes estan separats i seleccionats d'entre els següents:

	* Action
	* Adventure
	* Animation
	* Children's
	* Comedy
	* Crime
	* Documentary
	* Drama
	* Fantasy
	* Film-Noir
	* Horror
	* Musical
	* Mystery
	* Romance
	* Sci-Fi
	* Thriller
	* War
	* Western

> Algunes películes poden tenir el ID malament degut a duplicats accidentals.
>
> Les películes s'han entrat manualment, així que altres inconsistencies poden existir. 

## 2. COMENCEM: explorem les dades!!

### 2.1. Descarregar i llegir dades

+ Baixa't els fitxers que composen la base de dades i els còpies al teu directori de treball. 

+ Llegeix les tres taules de la base de dades en tres DataFrames de pandas amb aquest codi:

In [1]:
!wget https://files.grouplens.org/datasets/movielens/ml-1m.zip
!unzip ml-1m.zip

"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
unzip:  cannot find or open ml-1m.zip, ml-1m.zip.zip or ml-1m.zip.ZIP.


In [2]:
# import pandas as pd
# unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
# users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames, engine='python')
# rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
# ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames, engine='python')
# mnames = ['movie_id', 'title', 'genres']
# movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames, engine='python', encoding='latin-1')


### 2.2. Inspecció de les taules

In [3]:
# users[:10]

In [4]:
# users[-10:]

In [5]:
# ratings[-10:]

In [6]:
# ratings[:10]

In [7]:
# ratings.sort_values('movie_id')[:5]


In [8]:
# movies[:5]

In [9]:
# ratings[:5]

### **Exemple:** Fent càlculs sobre DataFrames.

Suposa que volem calcular les **puntuacions mitjanes d'una pel·licula per sexe o edat**. 


El primer pas a obtenir una única estructura que contingui tota la informació. Per fer-ho podem usar la funció ``merge`` de pandas. Aquesta funció infereix automàticament quines columnes ha d'usar per fer el ``merge`` basant-se en els noms que fan intersecció:

In [10]:
# data = pd.merge(pd.merge(ratings, users), movies)

# # Visualitzem la taula ordenada per identificar d'usuari
# data.sort_values(by='user_id')[:10]

La funció ``iloc`` ens permet obtenir un subconjunt de files i/o columnes:

In [11]:
# data.iloc[3:5]

Els índexs Boolans ens permeten seleccionar una part de la taula que compleix una condició.

In [12]:
# # comptem quin tant per cent de ratings estan fets per una dona
# print(data[data['gender']=='F']['rating'].count())
# print(float(data['rating'].count()))
# print(data[data['gender']=='F']['rating'].count()/float(data['rating'].count()), '%')

Per obtenir les **puntuacions mitjanes de cada pel·licula agrupada per edat** podem usar el mètode ``pivot_table`` que és una forma de "canviar" la forma de la taula especificant quin valor agregat (mitjançant una funció predefinida) hi volem en funció dels valors de dues columnes:

In [13]:
# mean_ratings = data.pivot_table(values= 'rating', index='title', columns='age', aggfunc='mean')
# mean_ratings[:10]

Per obtenir les **puntuacions mitjanes de cada pel·licula agrupada per sexe**:

In [14]:
# mean_ratings = data.pivot_table('rating', index='title',columns='gender', aggfunc='mean')
# mean_ratings[:10]

Si volgéssim fer càlculs només sobre les pel·licules que han rebut **al menys** 250 puntuacions, primer hem de construir una taula amb el nombre d'avaluacions de cada títol. Per fer-ho, agruparem les dades per títol (amb el mètode ``groupby``) i usarem ``size()`` el nombre.

El mètode ``groupby`` implenta un o més d'aquests processos:

+ Dividir les dades segons algun criteri.
+ Aplicar una funció a cada grup.
+ Combinar els resultats en una estructura de dades.

In [15]:
# ratings_by_title = data.groupby('title').size()
# print(ratings_by_title)

Llavors podem crear un índex amb els títols amb més de 250 avaluacions.

In [16]:
# active_titles = ratings_by_title.index[ratings_by_title >= 250]
# active_titles

L'índex de títols que reben al menys 250 puntuacions es pot fer servir per seleccionar les files de ``mean_ratings``: 

In [17]:
# mean_ratings = mean_ratings.loc[active_titles]
# mean_ratings

Per veure els films més valorats per les dones, podem ordenar per la columna F de forma descendent:

In [18]:
# top_female_ratings = mean_ratings.sort_values(by='F', ascending=False)
# top_female_ratings[:10]

Suposem ara que volem les pel·licules que estan valorades de forma més diferent entre homes i dones. Una forma d'obtenir-ho és afegir una columna a ``mean_ratings`` que contingui la diferència en mitjana i llavors ordenar:

In [19]:
# mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']
# mean_ratings

Ordenant per ``diff`` ens dóna les pel·licules ben valorades per les dones que presenten més diferència entre homes i dones:

In [20]:
# sorted_by_diff = mean_ratings.sort_values(by='diff')
# sorted_by_diff[:15]

Invertint l'ordre de les files i fent un ``slicing`` de les 15 files superiors obtenim les pel·licules ben valorades pels homes que no han agradat a les dones: 

In [21]:
# sorted_by_diff[::-1][:15]

Si volguéssim les pel·licules que han generat puntuacions més discordants, independentment del gènere, podem fer servir la variança o la desviació estàndard de les puntuacions: 

In [22]:
# # Standard deviation of rating grouped by title
# rating_std_by_title = data.groupby('title')['rating'].std()
# # Filter down to active_titles
# rating_std_by_title = rating_std_by_title.loc[active_titles]
# rating_std_by_title.sort_values(ascending=False)[:10]

### Important: Temes de rendiment

In [23]:
# %timeit data['title'] 
# %timeit data.title 
# %timeit data[['title']] 

In [24]:
# type(data[['title']])

In [25]:
# type(data.title)

## 3. EXERCICIS

### 3.1. PRIMER EXERCICI 

Donada la taula ``data``, calcula la puntuació mitjana de cada usuari. 

In [26]:
data_folder = 'ml-1m'

In [27]:
import pandas as pd
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table(f'{data_folder}/users.dat', sep='::', header=None, names=unames, engine='python')
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table(f'{data_folder}/ratings.dat', sep='::', header=None, names=rnames, engine='python')
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table(f'{data_folder}/movies.dat', sep='::', header=None, names=mnames, engine='python',encoding='latin-1')

data = pd.merge(pd.merge(ratings, users), movies)
data


Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,1,1193,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,1193,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,1193,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,1193,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,1193,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000204,5949,2198,5,958846401,M,18,17,47901,Modulations (1998),Documentary
1000205,5675,2703,3,976029116,M,35,14,30030,Broken Vessels (1998),Drama
1000206,5780,2845,1,958153068,M,18,17,92886,White Boys (1999),Drama
1000207,5851,3607,5,957756608,F,18,20,55410,One Little Indian (1973),Comedy|Drama|Western


In [28]:
# la vostra solució aquí
mean = data[['user_id','rating']].groupby('user_id').mean()
mean

Unnamed: 0_level_0,rating
user_id,Unnamed: 1_level_1
1,4.188679
2,3.713178
3,3.901961
4,4.190476
5,3.146465
...,...
6036,3.302928
6037,3.717822
6038,3.800000
6039,3.878049


+ Quina és la pel·lícula més ben puntuada (en mitja) pels usuaris? (Guarda aquest valor en una variable ``string``). 

In [29]:
# la vostra solució aquí
best_movie = data[['rating','title']].groupby(['title']).mean().sort_values(by='rating', ascending=False).index[0]
best_movie, type(best_movie)

('Ulysses (Ulisse) (1954)', str)

### 3.2. SEGON EXERCICI

Defineix una funció anomenada ``top_movie`` que donat un usuari ens retorni quina és la pel·lícula millor puntuada.<br> 


In [30]:
# la vostra solució aquí
def top_movie(dataFrame,usr):

    return dataFrame[dataFrame['user_id'] == usr].sort_values(by='rating',ascending=False)["title"][:1]

print(top_movie(data,1))


0    One Flew Over the Cuckoo's Nest (1975)
Name: title, dtype: object


### 3.3. TERCER EXERCICI

Construeix una funció que donat un dataframe et retorni el valor que cada usuari li ha donat a una peli. Això ho farem creant un dataframe on les columnes són els `movie_id`, les files `user_id` i els valors siguin el rating donat.

In [31]:
def build_counts_table(df):
    """
    Retorna un dataframe on les columnes són els `movie_id`, les files `user_id` i els valors
    el nombre de vegades que un usuari ha vist una peli d'un `movie_id`
    
    :param df: DataFrame original 
    :return: DataFrame descrit adalt
    """
    
    # la vostra solució aquí
    
    return data.pivot_table(values='rating', index='user_id', columns='movie_id')

In [32]:
df_counts = build_counts_table(data)
df_counts

movie_id,1,2,3,4,5,6,7,8,9,10,...,3943,3944,3945,3946,3947,3948,3949,3950,3951,3952
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,2.0,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6036,,,,2.0,,3.0,,,,,...,,,,,,,,,,
6037,,,,,,,,,,,...,,,,,,,,,,
6038,,,,,,,,,,,...,,,,,,,,,,
6039,,,,,,,,,,,...,,,,,,,,,,


També programarem una funció que donada la taula anterior i dos id's (usuari i peli), extregui el valor donat:

In [33]:
def get_count(df, user_id, movie_id):
    """
    Retorna el nombre de vegades que un usuari ha comprat en un `movie_id`
    
    :param df: DataFrame retornat per `build_counts_table`
    :param user_id: ID de l'usuari
    :param movie_id: ID de la peli
    :return: Enter amb el nombre de vegades que ha comprat
    """
    
    # la vostra solució aquí
    return df.values[movie_id, user_id]

get_count(df_counts, 0, 0)

5.0

### 3.4. QUART EXERCICI

In [34]:
data.nunique()

user_id         6040
movie_id        3706
rating             5
timestamp     458455
gender             2
age                7
occupation        21
zip             3439
title           3706
genres           301
dtype: int64

Si observem el nombre total d'usuaris unics i de pelicules úniques, podem observar que els id's dels usuaris van de 1 a 6040. Normalment hauriem d'intentar que comencessin al nombre 0, anant de 0 a 6039. 

**Què passa amb els indexos de les pelis??**

> ANSWER

Usant la funció **pd.Categorical(*).codes**, re-indexa els id's dels usuaris i de les pelis perquè vagin de 0 a 6039 i de 0 a 3705 respectivament:

In [35]:
# la vostra solució aquí
data['user_id'] = pd.Categorical(data['user_id']).codes
data['movie_id'] = pd.Categorical(data['movie_id']).codes
data.sort_values(by= 'user_id')

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,0,1104,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
28501,0,47,5,978824351,F,1,10,48067,Pocahontas (1995),Animation|Children's|Musical|Romance
13819,0,877,4,978301752,F,1,10,48067,Gigi (1958),Musical
51327,0,1117,4,978300719,F,1,10,48067,To Kill a Mockingbird (1962),Drama
31152,0,1574,4,978300055,F,1,10,48067,Titanic (1997),Drama|Romance
...,...,...,...,...,...,...,...,...,...,...
578459,6039,2439,2,956716343,M,25,6,11106,Superman II (1980),Action|Adventure|Sci-Fi
338950,6039,1767,4,997454036,M,25,6,11106,West Side Story (1961),Musical|Romance
464888,6039,843,4,956716845,M,25,6,11106,Rear Window (1954),Mystery|Thriller
632232,6039,2462,4,957717463,M,25,6,11106,Invasion of the Body Snatchers (1956),Horror|Sci-Fi


Per comprovar que tot sigui correcte i guardar correctament la taula **df_counts**, torna a calcular-la:

In [36]:
df_counts = build_counts_table(data)
df_counts[:10]

movie_id,0,1,2,3,4,5,6,7,8,9,...,3696,3697,3698,3699,3700,3701,3702,3703,3704,3705
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,5.0,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,2.0,,,,,...,,,,,,,,,,
5,4.0,,,,,,,,,,...,,,,,,,,,,
6,,,,,,4.0,,,,,...,,,,,,,,,,
7,4.0,,,3.0,,,,,,,...,,,,,,,,,,
8,5.0,,,,,,,,,,...,,,,,,3.0,,,,
9,5.0,5.0,,,,,4.0,,,,...,,,,,,4.0,,,,


### 3.5. CINQUÉ EXERCICI



Construeix una funció <b>distEuclid(x,y)</b> que implementi la distància Euclidiana entre dos vectors usant funcions de pandas. Escriu la funció que calculin la semblança entre dos usuaris segons aquesta estructura:

``def SimEuclid (DataFrame, User1, User2)``
    Calcular els **embeddings** de cada usuari, C1 i C2, amb les puntuacions dels ítems comuns que han puntuat el dos usuaris.
    Si no hi ha puntuacions en comú, retornar 0. Retornar ``1/(1+distEuclid(C1, C2))``

\
Avalueu amb la funció ``%timeit`` quant triguen aquests càlculs per un parell d'usuaris.   

> *Nota: Alguns d'aquests exercicis tenen temps de càlcul de l'ordre de minuts sobre tota la base de dades. Per desenvolupar els algorismes és recomanable treballar amb una versió reduïda de la base de dades.* 

> *Nota: **embedding** fa referencia a un vector de N dimensions que té com a funció representar (en aquest cas) els gustos dels usuaris. També es pot fer un embedding d'items i aleshores representarien el contingut d'aquest o caracteristiques semblants.*

---
#### Mesurament de similituds (petita teoria)

El primer pas per poder recomanar és definir una funció de similitud entre vectors. Siguin $x, y$ vectors, implementa la seva distància euclidiana:

* Distància euclidea (inversa): https://en.wikipedia.org/wiki/Euclidean_distance

$$sim(x, y) = \frac{1}{1 + \sqrt{\sum_i(x_i-y_i)^2}}\in [0, 1]$$

---

Per implementar qualsevol d'aquestes únicament es permet l'ús de:

* `np.sum`
* `np.sqrt`
* `np.power`
* `np.dot`
* `np.linalg.norm`
* `np.mean`

I s'ha de fer **sense bucles**.


In [37]:
import math
import numpy as np
import pandas as pd

def distEuclid(x, y):
    """
    Retorna la distancia euclidiana de dos vectors n-dimensionals.
    
    :param x: Primer vector
    :param y: Segon vector
    :return : Escalar (float) corresponent a la distancia euclidiana
    """
    
    # la vostra solució aquí
    return np.linalg.norm(x - y)
    

def SimEuclid(DataFrame, User1, User2):
    """
    Retorna un score que representa la similitud entre user1 i user2 basada en la distancia euclidiana
    
    :param DataFrame: dataframe que conté totes les dades
    :param User1: id user1
    :param User2: id user2
    :return : Escalar (float) corresponent al score
    """

    # la vostra solució aquí

    data = DataFrame.loc[[User1, User2]].dropna(axis=1)
    return 1/(1+distEuclid(data.loc[User1],data.loc[User2]))

In [38]:
# Execute functions
# print(SimEuclid(data, 1, 5))
SimEuclid(df_counts, 0, 2)

0.23166247903554

### 3.6. SISÉ EXERCICI

Desenvolupa un sistema de recomanació col·laboratiu **basat en usuaris**. 

La funció principal, ``getRecommendationsUser``, ha de tenir com a entrada una taula de puntuacions, un ``user_id``, el tipus de mesura de semblança (Euclidiana) que volem usar, el nombre `m` d'usuaris semblants que volem per fer la recomanació i el nombre ``n`` de recomanacions que volem. Com a sortida ha de donar la llista de les ``n`` millors pel·lícules que li podriem recomanar segons la seva semblança amb altres usuaris.

> *Nota 1: S'ha d'evitar comparar ``user_id`` a ell mateix.*

> *Nota 2: Recordeu que en Python podem passar funcions com a paràmetres d'una funció.*

In [39]:
# getRecommendationsUser(data, 2, 50, 10, SimEuclid)

#### - SECCIÓ 1: 

Computa la score de similitud del usuari desitjat (userID) respecte tots els altres i retorna una llista dels **m** usuaris més propers, que seran els que usarem per fer la recomanació. Normalitzeu els scores de sortida.

In [40]:
def find_similar_users(DataFrame, userID, m, simfunction):
    """
    Retorna un diccionari de usuaris similars amb les scores corresponents.
    
    :param DataFrame: dataframe que conté totes les dades
    :param userID: usuari respecte al qual fem la recomanació
    :param m: nombre d'usuaris que volem per fer la recomanació
    :param similarity: mesura de similitud
    :return : diccionary
    """

    DataFrame = build_counts_table(DataFrame)

    result = dict()
    user_IDs = DataFrame.drop(userID).index
    similaritys = list((map(lambda user_id : simfunction(DataFrame, userID, user_id), user_IDs)))


    result = dict(zip(user_IDs, similaritys))
    result = dict(sorted(result.items(), key=lambda item: item[1], reverse = True)[:m])


    return result

In [41]:
import datetime
t = datetime.datetime.now()
sim_dict = find_similar_users(data, 2, 10, SimEuclid)
t = datetime.datetime.now()-t
print(str(t))

0:00:12.489345


In [42]:
sim_dict

{15: 1.0,
 60: 1.0,
 115: 1.0,
 152: 1.0,
 157: 1.0,
 163: 1.0,
 170: 1.0,
 278: 1.0,
 303: 1.0,
 314: 1.0}

**CREIEU QUE ES OPTIM EL TEMPS QUE HA TARDAT PER UN USUARI?** RAONA LA RESPOSTA.

> ANSWER

Per millorar el problema anteorior, construeix una matriu de mida UXU on cada posició *i,j* indica la distància entre l'element *i* i el *j*. Així doncs, si estàs fent un recomanador basat en usuaris, `matriu[2, 3]` contindrà la similitud entre l'usuari 2 i el 3.

In [43]:
df_counts[:200]

movie_id,0,1,2,3,4,5,6,7,8,9,...,3696,3697,3698,3699,3700,3701,3702,3703,3704,3705
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,5.0,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,2.0,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,,,,,,,,,,,...,,,,,,3.0,,,,
196,,,,,,,,,,,...,,,,,,,,,,
197,5.0,3.0,,,,,,,,4.0,...,,,,,,5.0,,,,
198,,,3.0,1.0,,,,,3.0,4.0,...,,,,,,,,,,


In [44]:
def similarity_matrix(similarity_function, df_counts):
    """
    Retorna una matriu de mida M x M on cada posició 
    indica la similitud entre usuaris (resp. ítems).
    
    :param similarity_function: Funció que calcularà la similitud 
        entre usuaris (resp. ítems)
    :param df_counts: Dataframe que conté el nombre de vegades que 
        un usuari ha comprat en un `aisle_id`
    :return : Matriu numpy de mida M x M amb les similituds.
    """

    matrix = np.zeros((df_counts.shape[0], df_counts.shape[0]))

    # la vostra solució aquí
    if similarity_function == None:
        
        data  = df_counts.to_numpy()

        for i in range((len(data))//2):
            j = len(data)-2-i
            
            i_notnan = ~np.isnan(data[i])
            j_notnan = ~np.isnan(data[j])

            matrix[i][i+1:] = np.nansum( np.power((data[i, i_notnan] - data[i+1: , i_notnan]), 2), axis=1)
            matrix[j][j+1:] = np.nansum( np.power((data[j, j_notnan] - data[j+1: , j_notnan]), 2), axis=1)


        matrix = matrix + matrix.T
        matrix = 1 / (1 + np.sqrt(matrix))

        np.fill_diagonal(matrix, 0)
     
    else:
        matrix = np.zeros((df_counts.shape[0], df_counts.shape[0]))
        for i in range(df_counts.shape[0]):
            for j in range(df_counts.shape[0]):
                matrix[i][j] = similarity_function(df_counts, i, j)

    
    return matrix

Per cridar aquesta funció, el primer paràmetre pot ser:

* Amb la funció de la distancia euclidiana que heu programat abans pot trigar ~@1h 30min treballant directament amb valors de numpy, ~@20h a partir de pandas pur.
* Opcionalment (no és obligatori fer-ho) podeu programar una funció que treballi específicament amb matrius (i no vectors). Si ho feu, cal gestionar-ho quan es rep `None`.  (@5s)

In [45]:
t = datetime.datetime.now()
# sim = similarity_matrix(SimEuclid, df_counts)
sim = similarity_matrix(None, df_counts)
t = datetime.datetime.now()-t
print(str(t))

sim


0:01:17.321273


array([[0.        , 0.33333333, 0.23166248, ..., 1.        , 0.2052131 ,
        0.19074357],
       [0.33333333, 0.        , 0.2052131 , ..., 0.30901699, 0.30901699,
        0.09733669],
       [0.23166248, 0.2052131 , 0.        , ..., 0.5       , 0.21712927,
        0.12389934],
       ...,
       [1.        , 0.30901699, 0.5       , ..., 0.        , 0.30901699,
        0.13802626],
       [0.2052131 , 0.30901699, 0.21712927, ..., 0.30901699, 0.        ,
        0.1310058 ],
       [0.19074357, 0.09733669, 0.12389934, ..., 0.13802626, 0.1310058 ,
        0.        ]])

In [46]:
sim.shape

(6040, 6040)

Ara torna a re-fer la funció **find_similar_users** i mira quant triga... 

> Recorda que les scores han d'estar normalitzades!

In [47]:
def find_similar_users(DataFrame, sim_matrix, userID, m):
    
    # la vostra solució aquí
    similituds = sim_matrix[userID]
    users = list(np.argsort(-similituds)[:m])
    w_scores = list(similituds[users])

    return dict(zip(users, w_scores))

In [48]:
t = datetime.datetime.now()
sim_dict = find_similar_users(data, sim, 2, 10)
t = datetime.datetime.now()-t

print(str(t))
sim_dict

0:00:00.000999


{3763: 1.0,
 4942: 1.0,
 1782: 1.0,
 4183: 1.0,
 1820: 1.0,
 1831: 1.0,
 1839: 1.0,
 4873: 1.0,
 1891: 1.0,
 4184: 1.0}

**Hauria d'haver baixat més de 30 cops el temps anterior!!**

#### - SECCIÓ 2: 
Computa les recomanacions per un usuari amb cadascun dels m usuaris més propers i fes una funció que retorni la **weighted average list** d'aquests per tal d'obtenir la recomanació final. Feu servir la funció anterior que usava la matriu de similituds per anar més ràpid!!


> *Nota: la **weighted average list** es calcularà agregant els n items més puntuats de cadascun dels m users més semblants al usuari donat.

In [83]:
np.seterr(divide='ignore',invalid='ignore')

def getRecommendationsUser(DataFrame, user, sim_matrix, n_item, m_user):
    """
    Retorna un dataframe de pel·licules amb els scores.
    
    :param DataFrame: dataframe que conté totes les dades
    :param user: usuari al qual fem la recomanació
    :param sim_mx: similarity_function
    :param n: nombre de pelis a recomanar
    :param m: nombre d'usuaris semblants a tenir en compte per les recomanacions
    :return : pandas de pelis amb els seus scores predits
    """
    
    # la vostra solució aquí
    DataFrame = build_counts_table(DataFrame)
    sim_dict = find_similar_users(DataFrame, sim_matrix, user, m_user)

    users = list(sim_dict.keys())
    weights = list(sim_dict.values())

    matrix = DataFrame.loc[users, df_counts.loc[user].isna()]


    scores = (np.nan_to_num(matrix.T).dot(weights)) / ( (np.nan_to_num(matrix.T) != 0).dot(weights) )
    index = np.argsort(-scores)[:n_item]


    df = pd.DataFrame({'movie_id': list(index), 'weights': scores[index]})
    return df

In [84]:

t = datetime.datetime.now()
user_prediction = getRecommendationsUser(data, 2, sim, 100, 500)
t = datetime.datetime.now()-t
print(str(t))


0:00:01.548332


In [51]:
user_prediction

Unnamed: 0,movie_id,weights
0,906,5.000000
1,1923,5.000000
2,2910,5.000000
3,3307,5.000000
4,1936,5.000000
...,...,...
95,1620,5.000000
96,36,5.000000
97,479,5.000000
98,1117,4.833333


#### - SECCIÓ 3

Comprovem que realment l'usuari 3 no tenia recomanació per les pelis a les que estem recomanant:

In [52]:
data

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,0,1104,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,1104,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,11,1104,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,14,1104,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,16,1104,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000204,5948,2017,5,958846401,M,18,17,47901,Modulations (1998),Documentary
1000205,5674,2498,3,976029116,M,35,14,30030,Broken Vessels (1998),Drama
1000206,5779,2638,1,958153068,M,18,17,92886,White Boys (1999),Drama
1000207,5850,3367,5,957756608,F,18,20,55410,One Little Indian (1973),Comedy|Drama|Western


In [53]:
data_user3 = data[data['user_id']==3]
data_user3

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
28884,3,1025,4,978293964,M,45,7,2460,E.T. the Extra-Terrestrial (1982),Children's|Drama|Fantasy|Sci-Fi
45686,3,2488,5,978294230,M,45,7,2460,Run Lola Run (Lola rennt) (1998),Action|Crime|Romance
46759,3,253,5,978294199,M,45,7,2460,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Fantasy|Sci-Fi
52257,3,1848,5,978294230,M,45,7,2460,Saving Private Ryan (1998),Action|Drama|War
70281,3,3235,5,978294008,M,45,7,2460,"Hustler, The (1961)",Drama
70732,3,1120,3,978293924,M,45,7,2460,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War
116540,3,466,4,978294008,M,45,7,2460,Jurassic Park (1993),Action|Adventure|Sci-Fi
128355,3,1106,2,978294199,M,45,7,2460,Star Wars: Episode V - The Empire Strikes Back...,Action|Adventure|Drama|Sci-Fi|War
133409,3,1108,5,978294199,M,45,7,2460,Raiders of the Lost Ark (1981),Action|Adventure
149459,3,1774,5,978294282,M,45,7,2460,Rocky (1976),Action|Drama


In [54]:
desired_movie_id_to_check = 0
best_film_to_predict = user_prediction['movie_id'].iloc[desired_movie_id_to_check] 

best_film_to_predict

906

In [55]:
data_user3[data_user3['movie_id']==best_film_to_predict]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres


**Com es que ara estem predint un rating per la pelicula "best_film_to_predict"?** Digues quin nombre és la predicció

In [56]:
# la vostra solució aquí

### 3.7. SETÉ EXERCICI


A continuació usarem la metrica Mean Absolute Error (MAE) per evaluar el nostre sistema. Aquesta mètrica ens permetrà mesurar la diferencia entre dues llistes donat un usuari: 

**1.** La llista amb els ratings originals d'un usuari donat

**2.** La llista de les prediccions generades per aquest usuari

#### - SECCIÓ 1: 

Treu el 10% dels usuaris i reserva aquests en una variable anomenada **test_set** i la resta en una variable anomenada **train_set**.

In [57]:
import random
unique_users = data['user_id'].unique()
n_test_users = int(len(unique_users)*0.1)
n_train_users = len(unique_users) - n_test_users

test_usrs = random.sample(list(unique_users), n_test_users)
print(sorted(test_usrs))

[13, 28, 31, 34, 59, 85, 114, 118, 125, 145, 147, 149, 154, 156, 160, 162, 167, 178, 180, 204, 210, 232, 250, 254, 264, 270, 276, 286, 287, 288, 309, 323, 327, 336, 342, 343, 357, 369, 370, 394, 405, 450, 451, 452, 462, 463, 496, 505, 506, 507, 509, 541, 564, 581, 588, 589, 595, 596, 603, 604, 605, 608, 609, 623, 654, 656, 662, 665, 668, 670, 684, 698, 701, 717, 737, 744, 748, 760, 787, 793, 794, 797, 820, 823, 827, 836, 845, 849, 851, 853, 861, 865, 867, 900, 901, 911, 920, 936, 962, 970, 971, 982, 986, 998, 1005, 1023, 1026, 1036, 1041, 1048, 1055, 1065, 1066, 1104, 1123, 1130, 1133, 1134, 1136, 1148, 1160, 1167, 1172, 1182, 1195, 1205, 1207, 1209, 1223, 1237, 1247, 1253, 1258, 1270, 1282, 1284, 1296, 1303, 1306, 1313, 1318, 1336, 1367, 1378, 1383, 1397, 1401, 1402, 1424, 1428, 1429, 1445, 1479, 1502, 1514, 1517, 1526, 1530, 1553, 1561, 1581, 1591, 1592, 1594, 1605, 1630, 1636, 1639, 1642, 1643, 1646, 1655, 1664, 1665, 1667, 1669, 1677, 1680, 1681, 1688, 1692, 1757, 1770, 1782, 1787,

In [58]:
n_test_users,n_train_users

(604, 5436)

In [59]:
test_set = data.loc[data['user_id'].isin(test_usrs)]
train_set = data.loc[~data['user_id'].isin(test_usrs)]
assert len(test_set) + len(train_set) == len(data)
test_set.sort_values(by= 'user_id')

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
107017,13,2651,3,978200645,M,35,0,60126,American Beauty (1999),Comedy|Drama
586607,13,1171,5,978201280,M,35,0,60126,"Deer Hunter, The (1978)",Drama|War
478841,13,2621,2,978200645,M,35,0,60126,"13th Warrior, The (1999)",Action|Horror|Thriller
56836,13,593,1,978201244,M,35,0,60126,Fargo (1996),Crime|Drama|Thriller
591279,13,2765,3,978200300,M,35,0,60126,Bringing Out the Dead (1999),Drama|Horror
...,...,...,...,...,...,...,...,...,...,...
541022,6031,1008,4,956718181,M,45,7,55108,Monty Python's Life of Brian (1979),Comedy
299508,6031,852,5,956717830,M,45,7,55108,"Maltese Falcon, The (1941)",Film-Noir|Mystery
227915,6031,2775,4,956717873,M,45,7,55108,Who Framed Roger Rabbit? (1988),Adventure|Animation|Film-Noir
954260,6031,2659,4,956717669,M,45,7,55108,"Buddy Holly Story, The (1978)",Drama


Què passarà si calculo la matriu de similitud amb **train_set** i després intento predir pels usuaris de **test_set**??

#### - SECCIÓ 2:

Selecciona aproximadament el 80% de les interaccions de cada usuari de test i junta-les al **train_set**. Ara podem evaluar el sistema?


> Com la pràctica és molt llarga hem programat el codi per un usuari donat i vosaltres només heu de crear la funció que, per cada usuari, afagi el 80% de les intraccions i les unifiqui al dataframe de train.

In [60]:
test_set

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
37,145,1104,4,979940868,F,35,20,10954,One Flew Over the Cuckoo's Nest (1975),Drama
38,149,1104,5,978163667,M,35,7,98144,One Flew Over the Cuckoo's Nest (1975),Drama
40,154,1104,5,977253254,M,35,12,07470,One Flew Over the Cuckoo's Nest (1975),Drama
67,264,1104,5,976649008,F,35,7,55116,One Flew Over the Cuckoo's Nest (1975),Drama
73,286,1104,5,976568188,M,50,13,94706,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000130,4100,219,2,965412627,M,18,4,23233,Dream Man (1995),Thriller
1000161,5949,2907,1,957180328,M,25,4,19713,Spring Fever USA (a.k.a. Lauderdale) (1989),Comedy
1000170,4650,129,4,963953346,F,45,0,10036,Sonic Outlaws (1995),Documentary
1000181,4811,2116,2,962932391,M,18,14,25301,Detroit 9000 (1973),Action|Crime


In [61]:
# Agafem el 20% de les pelis que ha consumit cada usuari de test 
groupby_count = test_set.groupby('user_id')['movie_id'].count()*0.2
groupby_count

user_id
13       5.0
28      21.6
31       9.6
34      39.6
59      14.0
        ... 
6003    11.4
6020    26.4
6023    19.0
6025    16.2
6031    20.8
Name: movie_id, Length: 604, dtype: float64

Seleccionem la posició 1 i aquest use_id serà el que usarem pel codi d'exemple (que després haureu de replicar).

In [62]:
groupby_count.reset_index().iloc[1]

user_id     28.0
movie_id    21.6
Name: 1, dtype: float64

In [63]:
n_test_samples = int(groupby_count.reset_index().iloc[1]['movie_id'])
u = groupby_count.reset_index().iloc[1]['user_id']
u

28.0

In [64]:
test_set_user = test_set[test_set['user_id'] == u]
frame_test = test_set_user.sample(n_test_samples)
print("TOTAL SAMPLES OF THE USER: " + str(len(test_set_user)))
print("TOTAL SAMPLES OF THE USER IN TEST SET: " + str(len(frame_test)))


TOTAL SAMPLES OF THE USER: 108
TOTAL SAMPLES OF THE USER IN TEST SET: 21


In [65]:
test_set_user

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
8225,28,1195,5,978135871,M,35,7,33407,Ben-Hur (1959),Action|Adventure|Drama
37928,28,2557,3,978122988,M,35,7,33407,"Sixth Sense, The (1999)",Thriller
46772,28,253,5,978122580,M,35,7,33407,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Fantasy|Sci-Fi
68295,28,2708,4,978135986,M,35,7,33407,Total Recall (1990),Action|Adventure|Sci-Fi|Thriller
70282,28,3235,3,978123093,M,35,7,33407,"Hustler, The (1961)",Drama
...,...,...,...,...,...,...,...,...,...,...
804395,28,1013,4,978123040,M,35,7,33407,"Old Man and the Sea, The (1958)",Adventure|Drama
804526,28,3174,5,978135913,M,35,7,33407,"Night to Remember, A (1958)",Action|Drama
804670,28,2339,3,978136098,M,35,7,33407,Avalanche (1978),Action
804687,28,2977,3,978136239,M,35,7,33407,"Presidio, The (1988)",Action


In [66]:
frame_test

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
200613,28,699,4,978136307,M,35,7,33407,"Rock, The (1996)",Action|Adventure|Thriller
424197,28,1160,3,978122988,M,35,7,33407,Chinatown (1974),Film-Noir|Mystery|Thriller
146972,28,1773,3,978135913,M,35,7,33407,"French Connection, The (1971)",Action|Crime|Drama|Thriller
804205,28,3526,3,978136098,M,35,7,33407,Thunderbolt and Lightfoot (1974),Action
457270,28,2460,5,978136022,M,35,7,33407,"War of the Worlds, The (1953)",Action|Sci-Fi|War
688167,28,2779,4,978136203,M,35,7,33407,Live and Let Die (1973),Action
221014,28,3294,5,978136058,M,35,7,33407,Predator (1987),Action|Sci-Fi|Thriller
37928,28,2557,3,978122988,M,35,7,33407,"Sixth Sense, The (1999)",Thriller
702175,28,2741,4,978135986,M,35,7,33407,Dr. No (1962),Action
215827,28,971,5,978135796,M,35,7,33407,Die Hard (1988),Action|Thriller


In [67]:
len(test_set_user.index)

108

In [68]:
frame_train = test_set_user[~test_set_user.index.isin(frame_test.index)]
print("TOTAL SAMPLES OF THE USER IN TRAIN SET: " + str(len(frame_train)))

TOTAL SAMPLES OF THE USER IN TRAIN SET: 87


In [69]:
frame_train

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
46772,28,253,5,978122580,M,35,7,33407,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Fantasy|Sci-Fi
68295,28,2708,4,978135986,M,35,7,33407,Total Recall (1990),Action|Adventure|Sci-Fi|Thriller
70746,28,1120,2,978135986,M,35,7,33407,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War
83321,28,1478,3,978135941,M,35,7,33407,"Hunt for Red October, The (1990)",Action|Thriller
94419,28,3032,3,978136274,M,35,7,33407,Patriot Games (1992),Action|Thriller
...,...,...,...,...,...,...,...,...,...,...
803830,28,3591,5,978136307,M,35,7,33407,Kelly's Heroes (1970),Action|Comedy|War
804395,28,1013,4,978123040,M,35,7,33407,"Old Man and the Sea, The (1958)",Adventure|Drama
804526,28,3174,5,978135913,M,35,7,33407,"Night to Remember, A (1958)",Action|Drama
804670,28,2339,3,978136098,M,35,7,33407,Avalanche (1978),Action


In [70]:
assert len(frame_train) + len(frame_test) == len(test_set_user)
len(frame_train), len(frame_test), len(test_set_user)

(87, 21, 108)

In [71]:
train_set

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,0,1104,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,1104,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,11,1104,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,14,1104,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,16,1104,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000204,5948,2017,5,958846401,M,18,17,47901,Modulations (1998),Documentary
1000205,5674,2498,3,976029116,M,35,14,30030,Broken Vessels (1998),Drama
1000206,5779,2638,1,958153068,M,18,17,92886,White Boys (1999),Drama
1000207,5850,3367,5,957756608,F,18,20,55410,One Little Indian (1973),Comedy|Drama|Western


In [72]:
def add_testdata(traindf, test_set):
    """
    Retorna dos dataframes, un de train i l'altre de test
    
    :param traindf: dataframe que conté les dades de train
    :param test_set: dataframe que conté les dades de test

    :return : 
        - :param 1st: dataframe que conté les dades de train juntament amb el 80% de test seleccionat
        - :param 2nd: dataframe que conté les dades de test que queden (20% restant)
    """
    
    # la vostra solució aquí
    
    unique_users = test_set['user_id'].unique()

    test_left = test_set.drop(index=test_set.index)

    groupby_count = test_set.groupby('user_id')['movie_id'].count()*0.2
    
    for i in range(len(unique_users)):
        
        n_test_samples = int(groupby_count.reset_index().iloc[i]['movie_id'])
        test_set_user = test_set[test_set['user_id'] == groupby_count.reset_index().iloc[i]['user_id']]

        frame_test = test_set_user.sample(n_test_samples)
        frame_train = test_set_user[~test_set_user.index.isin(frame_test.index)]

        traindf = pd.concat([traindf, frame_train], ignore_index=True)
        test_left = pd.concat([test_left, frame_test], ignore_index=True)



    return traindf, test_left


In [73]:
train, test = add_testdata(train_set, test_set)

In [74]:
train[train['user_id'] == 7]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
17559,7,2889,4,978230666,M,25,12,11413,Awakenings (1990),Drama
23255,7,513,4,978229857,M,25,12,11413,Schindler's List (1993),Drama|War
27993,7,1574,5,978230800,M,25,12,11413,Titanic (1997),Drama|Romance
30604,7,2969,4,978230852,M,25,12,11413,"Girl, Interrupted (1999)",Drama
33426,7,1658,4,978231592,M,25,12,11413,"Last Days of Disco, The (1998)",Drama
...,...,...,...,...,...,...,...,...,...,...
348098,7,1536,5,978230356,M,25,12,11413,Boogie Nights (1997),Drama
349100,7,1541,5,978230649,M,25,12,11413,"Joy Luck Club, The (1993)",Drama
349519,7,962,4,978232203,M,25,12,11413,Robin Hood: Prince of Thieves (1991),Drama
349830,7,2494,5,978229347,M,25,12,11413,Arachnophobia (1990),Action|Comedy|Sci-Fi|Thriller


In [75]:
train.shape

(979953, 10)

In [76]:
test[test['user_id'] == 7]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres


In [77]:
test.shape

(20256, 10)

#### -SECCIÓ 3:

Fes una funció usant **np.abs** que serveixi per evaluar el nostre sistema. **(PISTA:)** La funció ha de mesurar la diferencia en mitjana de la llista de ratings originals amb la llista de ratings predida.

In [87]:
from tqdm import tqdm

def evaluateRecommendations(train, test, m_user, n_item, sim_matrix):
    """
    Retorna l'error generat pel model
    
    :param DataFrame: dataframe que conté totes les dades
    :param userID: usuari respecte al qual fem la recomanació
    :param m: nombre d'usuaris que volem per fer la recomanació
    :param n: nombre de pelis a retornar
    :param sim: matriu de similitud
    :return : Escalar (float) corresponent al MAE
    """
    
    # la vostra solució 
    mae = 0

    user_IDs = test['user_id'].unique()
    print(len(user_IDs))
    for user_id in tqdm(user_IDs): 
        
        train_weight = getRecommendationsUser(train, user_id, sim_matrix, n_item, m_user)['weights'].mean()
        test_prediction = getRecommendationsUser(test, user_id, sim_matrix, n_item, m_user)['weights'].mean()

        mae += np.abs(train_weight - test_prediction)


    return mae / (len(user_IDs) * n_item)

In [88]:
t = datetime.datetime.now()
mae = evaluateRecommendations(train, test, 50, 10, sim)
t = datetime.datetime.now()-t
print(str(t))

604


100%|██████████| 604/604 [26:54<00:00,  2.67s/it]

0:26:54.317726





In [89]:
mae

0.0

### 3.8. VUITÉ (I ÚTLIM) EXERCICI


**Que surt més a compte, fer un recomanador unic pels dos sexes o un per cada sexe?** Justifica la resposta per escrit i amb el codi necessari.

> RESPOSTA

In [None]:
# la vostra solució aquí