# Pràctica 2: Recomanador Heurístic

Nom dels alumnes del grup:  
- Víctor López, NIUB: 20649182
- Èlia García, NIUB: 20723010


Com fer i estructurar el codi per fer una bona pràctica:

+ Definir els paràmetres (input) i el retorn (output) de les funcions de forma clara
+ Definir un ordre per defecte dels usuaris/items. Per exemple, si demanen "el film més ben puntuat", ha de ser el que té un 5 i ID més baix.
+ És MOLT important que la funció que calcula la similitud entre les puntuacions en comú de dos usuaris sigui ràpida!
+ Feu unit-tests de Python

## 1. INTRODUCCIÓ

### 1.1. Abans de començar...

**\+ A més a més de les que ja es troben presents en la 1a cel·la i funcions natives de Python, durant la pràctica, només es podran fer servir les següents llibreries**:

`Pandas, Numpy, Itertools`

**\+ No es poden modificar les definicions de les funcions donades, ni canviar els noms de les variables i paràmetres ja donats**

Això no implica però que els hàgiu de fer servir. És a dir, que la funció tingui un paràmetre anomenat `df` no implica que l'hàgiu de fer servir, si no ho trobeu convenient.

**\+ En les funcions, s'especifica què serà i de quin tipus cada un dels paràmetres, cal respectar-ho**

Per exemple, les funcions tindran [pydoc](https://docs.python.org/3/library/pydoc.html) i allà s'especificarà el paràmetre: `df` sempre serà indicatiu del `Pandas.DataFrame` de les dades.

### 1.2. Dades: puntuacions de pel·licules

La base de dades [movielens-1M](http://www.grouplens.org/node/73) conté 1,000,209 puntuacions de 3.900 pel·lícules fetes l'any 2000 per 6.040 usuaris anònims del recomanador online [MovieLens](http://www.movielens.org/).

El consum total de tots els usuaris s'hi pot trobar al document "ratings.dat" el format següent:

    UserID::MovieID::Rating::Timestamp

- **UserID** de l'usuari, amb id's entre 1 i 6040
- **MovieID** de la pel·licula, amb id's entre 1 i 3952
- **Rating** d'un usuari per una pel·licula, en una escala de 1 (menys) a 5 (més) estrelles.
- **Timestamp** que representa quan aquest usuari va puntuar la pel·licula, representat en segons.

La base de dades original està filtrada de manera que cada usuari té com a mínim 20 puntuacions.

### 1.3. Dades: usuaris



Al fitxer ``users.dat`` hi trobem la informació referent a cadascun dels usuaris en el següent format:

        UserID::Gender::Age::Occupation::Zip-code

- **Gender** ve donat per "M" per home i "F" per dona.
- **Age** està representada de la següent forma:

	*  1:  "Under 18"
	* 18:  "18-24"
	* 25:  "25-34"
	* 35:  "35-44"
	* 45:  "45-49"
	* 50:  "50-55"
	* 56:  "56+"

- **Occupation** es tria entre les següents opcions:

	*  0:  "other" or not specified
	*  1:  "academic/educator"
	*  2:  "artist"
	*  3:  "clerical/admin"
	*  4:  "college/grad student"
	*  5:  "customer service"
	*  6:  "doctor/health care"
	*  7:  "executive/managerial"
	*  8:  "farmer"
	*  9:  "homemaker"
	* 10:  "K-12 student"
	* 11:  "lawyer"
	* 12:  "programmer"
	* 13:  "retired"
	* 14:  "sales/marketing"
	* 15:  "scientist"
	* 16:  "self-employed"
	* 17:  "technician/engineer"
	* 18:  "tradesman/craftsman"
	* 19:  "unemployed"
	* 20:  "writer"

Els usuaris han donat la informació voluntariament. Així doncs, la informació d'alguns usuaris pot estar buida.


### 1.4. Dades: pel·lícules



Al fitxer ``movies.dat`` hi trobem la informació referent a cadascuna de les películes en el següent format:

        MovieID::Title::Genres

- **Titles** són identics als titols de la base de dades IMDB, incloent l'any de llançament.
- **Genres** de les películes, que estan separats pel símbol "|" i estan seleccionats d'entre els següents:

	* Action
	* Adventure
	* Animation
	* Children's
	* Comedy
	* Crime
	* Documentary
	* Drama
	* Fantasy
	* Film-Noir
	* Horror
	* Musical
	* Mystery
	* Romance
	* Sci-Fi
	* Thriller
	* War
	* Western

Algunes películes poden tenir l'ID malament degut a duplicats accidentals.

Les películes s'han entrat manualment, així que poden existir altres inconsistencies.

## 2. Exploració de les dades

### 2.1 Descarregar i llegir dades

+ Baixa't els fitxers que composen la base de dades i els còpies al teu directori de treball.

In [None]:
# executeu aquesta cel·la per baixar les dades d'internet
# al campus virtual hi ha un fitxer que podeu baixar també
import os
if os.path.isfile("/etc/password.txt") == False:
    os.system('wget -nc http://files.grouplens.org/datasets/movielens/ml-1m.zip')
    os.system('unzip ml-1m.zip')

+ Llegeix les tres taules de la base de dades en tres DataFrames de pandas amb aquest codi:

In [None]:
import math
import numpy as np
import pandas as pd
import datetime
import itertools
from tqdm.notebook import trange, tqdm
import matplotlib.pyplot as plt

In [None]:
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames, engine='python')
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames, engine='python')
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames, engine='python', encoding='latin-1')

### 2.2 Inspecció de les taules

In [None]:
users[:5]

Unnamed: 0,user_id,gender,age,occupation,zip
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117
3,4,M,45,7,2460
4,5,M,25,20,55455


In [None]:
users[-5:]

Unnamed: 0,user_id,gender,age,occupation,zip
6035,6036,F,25,15,32603
6036,6037,F,45,1,76006
6037,6038,F,56,1,14706
6038,6039,F,45,0,1060
6039,6040,M,25,6,11106


In [None]:
ratings[-5:]

Unnamed: 0,user_id,movie_id,rating,timestamp
1000204,6040,1091,1,956716541
1000205,6040,1094,5,956704887
1000206,6040,562,5,956704746
1000207,6040,1096,4,956715648
1000208,6040,1097,4,956715569


In [None]:
ratings[:5]

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


In [None]:
ratings.sort_values('movie_id')[:5]

Unnamed: 0,user_id,movie_id,rating,timestamp
427702,2599,1,4,973796689
1966,18,1,4,978154768
683688,4089,1,5,965428947
596207,3626,1,4,966594018
465902,2873,1,5,972784317


In [None]:
movies[:5]

Unnamed: 0,movie_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [None]:
ratings[:5]

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


### 2.3 Exemple: Com extreure informació d'un DataFrame.

Suposa que volem calcular les **puntuacions mitjanes d'una pel·licula per sexe o edat**, dades que estan a frames diferents.

El primer pas a obtenir una única estructura que contingui tota la informació. Per fer-ho podem usar la funció ``merge`` de pandas. Aquesta funció infereix automàticament quines columnes ha d'usar per fer el ``merge`` basant-se en els noms que fan intersecció.

Reviseu aquests conceptes de pandas: https://pandas.pydata.org/docs/user_guide/merging.html

In [None]:
data = pd.merge(pd.merge(ratings, users), movies)

# Visualitzem la taula ordenada per identificador d'usuari
data.sort_values(by='user_id')[:10]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,1,1193,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
29,1,745,3,978824268,F,1,10,48067,"Close Shave, A (1995)",Animation|Comedy|Thriller
30,1,2294,4,978824291,F,1,10,48067,Antz (1998),Animation|Children's
31,1,3186,4,978300019,F,1,10,48067,"Girl, Interrupted (1999)",Drama
32,1,1566,4,978824330,F,1,10,48067,Hercules (1997),Adventure|Animation|Children's|Comedy|Musical
33,1,588,4,978824268,F,1,10,48067,Aladdin (1992),Animation|Children's|Comedy|Musical
34,1,1907,4,978824330,F,1,10,48067,Mulan (1998),Animation|Children's
35,1,783,4,978824291,F,1,10,48067,"Hunchback of Notre Dame, The (1996)",Animation|Children's|Musical
36,1,1836,5,978300172,F,1,10,48067,"Last Days of Disco, The (1998)",Drama
37,1,1022,5,978300055,F,1,10,48067,Cinderella (1950),Animation|Children's|Musical


In [None]:
data[data['user_id'] == 2]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
53,2,1357,5,978298709,M,56,16,70072,Shine (1996),Drama|Romance
54,2,3068,4,978299000,M,56,16,70072,"Verdict, The (1982)",Drama
55,2,1537,4,978299620,M,56,16,70072,Shall We Dance? (Shall We Dansu?) (1996),Comedy
56,2,647,3,978299351,M,56,16,70072,Courage Under Fire (1996),Drama|War
57,2,2194,4,978299297,M,56,16,70072,"Untouchables, The (1987)",Action|Crime|Drama
...,...,...,...,...,...,...,...,...,...,...
177,2,356,5,978299686,M,56,16,70072,Forrest Gump (1994),Comedy|Romance|War
178,2,1245,2,978299200,M,56,16,70072,Miller's Crossing (1990),Drama
179,2,1246,5,978299418,M,56,16,70072,Dead Poets Society (1989),Drama
180,2,3893,1,978299535,M,56,16,70072,Nurse Betty (2000),Comedy|Thriller


La funció ``iloc`` ens permet obtenir un subconjunt de files i/o columnes indexades per un enter:

In [None]:
data.iloc[3:5]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
3,1,3408,4,978300275,F,1,10,48067,Erin Brockovich (2000),Drama
4,1,2355,5,978824291,F,1,10,48067,"Bug's Life, A (1998)",Animation|Children's|Comedy


Els índexs Booleans ens permeten seleccionar una part de la taula que compleix una condició.

In [None]:
# comptem quin tant per cent de ratings estan fets per una dona

print(data[data['gender']=='F']['rating'].count()/float(data['rating'].count())*100, '%')

24.638850480249626 %


Per obtenir les **puntuacions mitjanes de cada pel·licula agrupada per edat** podem usar el mètode ``pivot_table`` que és una forma de "canviar" la forma de la taula especificant quin valor agregat (mitjançant una funció predefinida) hi volem en funció dels valors de dues columnes.

Reviseu aquests conceptes:
+ https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot.html
+ https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot_table.html#pandas.DataFrame.pivot_table

In [None]:
mean_ratings = data.pivot_table(values= 'rating', index='title', columns='age', aggfunc='mean')
mean_ratings[:10]

age,1,18,25,35,45,50,56
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
"$1,000,000 Duck (1971)",,3.0,3.090909,3.133333,2.0,2.75,
'Night Mother (1986),2.0,4.666667,3.423077,2.904762,3.833333,3.555556,4.333333
'Til There Was You (1997),3.5,2.5,2.666667,2.9,2.333333,2.5,2.666667
"'burbs, The (1989)",4.5,3.244444,2.652174,2.818182,2.545455,3.208333,2.666667
...And Justice for All (1979),3.0,3.428571,3.724138,3.657143,4.1,3.551724,3.928571
1-900 (1994),,,2.0,,,,3.0
10 Things I Hate About You (1999),3.745455,3.41502,3.43295,3.102941,3.258065,3.62963,4.0
101 Dalmatians (1961),3.514286,3.295082,3.613757,3.826087,3.976744,3.65,3.190476
101 Dalmatians (1996),3.088235,2.467742,2.928571,3.27957,3.482759,3.4,3.555556
12 Angry Men (1957),4.176471,4.032609,4.408654,4.358333,4.274194,4.287879,4.235294


Per obtenir les **puntuacions mitjanes de cada pel·licula agrupada per sexe**:

In [None]:
mean_ratings = data.pivot_table('rating', index='title',columns='gender', aggfunc='mean')
mean_ratings[:10]

gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"$1,000,000 Duck (1971)",3.375,2.761905
'Night Mother (1986),3.388889,3.352941
'Til There Was You (1997),2.675676,2.733333
"'burbs, The (1989)",2.793478,2.962085
...And Justice for All (1979),3.828571,3.689024
1-900 (1994),2.0,3.0
10 Things I Hate About You (1999),3.646552,3.311966
101 Dalmatians (1961),3.791444,3.5
101 Dalmatians (1996),3.24,2.911215
12 Angry Men (1957),4.184397,4.328421


Si volgéssim fer càlculs només sobre les pel·licules que han rebut **al menys** 250 puntuacions, primer hem de construir una taula amb el nombre d'avaluacions de cada títol. Per fer-ho, agruparem les dades per títol (amb el mètode ``groupby``) i usarem ``size()``.

Reviseu aquest concepte:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html

El mètode ``groupby`` implenta un o més d'aquests processos:

+ Dividir les dades segons algun criteri.
+ Aplicar una funció a cada grup.
+ Combinar els resultats en una estructura de dades.

In [None]:
ratings_by_title = data.groupby('title').size()
print(ratings_by_title)

title
$1,000,000 Duck (1971)                         37
'Night Mother (1986)                           70
'Til There Was You (1997)                      52
'burbs, The (1989)                            303
...And Justice for All (1979)                 199
                                             ... 
Zed & Two Noughts, A (1985)                    29
Zero Effect (1998)                            301
Zero Kelvin (Kjærlighetens kjøtere) (1995)      2
Zeus and Roxanne (1997)                        23
eXistenZ (1999)                               410
Length: 3706, dtype: int64


Llavors podem crear un índex amb els títols amb més de 250 avaluacions.

In [None]:
active_titles = ratings_by_title.index[ratings_by_title >= 250]
active_titles

Index([''burbs, The (1989)', '10 Things I Hate About You (1999)',
       '101 Dalmatians (1961)', '101 Dalmatians (1996)', '12 Angry Men (1957)',
       '13th Warrior, The (1999)', '2 Days in the Valley (1996)',
       '20,000 Leagues Under the Sea (1954)', '2001: A Space Odyssey (1968)',
       '2010 (1984)',
       ...
       'X-Men (2000)', 'Year of Living Dangerously (1982)',
       'Yellow Submarine (1968)', 'You've Got Mail (1998)',
       'Young Frankenstein (1974)', 'Young Guns (1988)',
       'Young Guns II (1990)', 'Young Sherlock Holmes (1985)',
       'Zero Effect (1998)', 'eXistenZ (1999)'],
      dtype='object', name='title', length=1216)

L'índex de títols que reben al menys 250 puntuacions es pot fer servir per seleccionar les files de ``mean_ratings``:

In [None]:
mean_ratings = mean_ratings.loc[active_titles]
mean_ratings

gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"'burbs, The (1989)",2.793478,2.962085
10 Things I Hate About You (1999),3.646552,3.311966
101 Dalmatians (1961),3.791444,3.500000
101 Dalmatians (1996),3.240000,2.911215
12 Angry Men (1957),4.184397,4.328421
...,...,...
Young Guns (1988),3.371795,3.425620
Young Guns II (1990),2.934783,2.904025
Young Sherlock Holmes (1985),3.514706,3.363344
Zero Effect (1998),3.864407,3.723140


Per veure els films més valorats per les dones, podem ordenar per la columna F de forma descendent:

In [None]:
top_female_ratings = mean_ratings.sort_values(by='F', ascending=False)
top_female_ratings[:10]

gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"Close Shave, A (1995)",4.644444,4.473795
"Wrong Trousers, The (1993)",4.588235,4.478261
Sunset Blvd. (a.k.a. Sunset Boulevard) (1950),4.57265,4.464589
Wallace & Gromit: The Best of Aardman Animation (1996),4.563107,4.385075
Schindler's List (1993),4.562602,4.491415
"Shawshank Redemption, The (1994)",4.539075,4.560625
"Grand Day Out, A (1992)",4.537879,4.293255
To Kill a Mockingbird (1962),4.536667,4.372611
Creature Comforts (1990),4.513889,4.272277
"Usual Suspects, The (1995)",4.513317,4.518248


Suposem ara que volem les pel·licules que estan valorades de forma més diferent entre homes i dones. Una forma d'obtenir-ho és afegir una columna a ``mean_ratings`` que contingui la diferència en mitjana i llavors ordenar:

In [None]:
mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']

In [None]:
print(np.nan + 9.0)

nan


Ordenant per ``diff`` ens dóna les pel·licules ben valorades per les dones que presenten més diferència entre homes i dones:

In [None]:
sorted_by_diff = mean_ratings.sort_values(by='diff')
sorted_by_diff[:15]

gender,F,M,diff
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Dirty Dancing (1987),3.790378,2.959596,-0.830782
Jumpin' Jack Flash (1986),3.254717,2.578358,-0.676359
Grease (1978),3.975265,3.367041,-0.608224
Little Women (1994),3.870588,3.321739,-0.548849
Steel Magnolias (1989),3.901734,3.365957,-0.535777
Anastasia (1997),3.8,3.281609,-0.518391
"Rocky Horror Picture Show, The (1975)",3.673016,3.160131,-0.512885
"Color Purple, The (1985)",4.158192,3.659341,-0.498851
"Age of Innocence, The (1993)",3.827068,3.339506,-0.487561
Free Willy (1993),2.921348,2.438776,-0.482573


Invertint l'ordre de les files i fent un ``slicing`` de les 15 files superiors obtenim les pel·licules ben valorades pels homes que no han agradat a les dones:

In [None]:
sorted_by_diff[::-1][:15]

gender,F,M,diff
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Good, The Bad and The Ugly, The (1966)",3.494949,4.2213,0.726351
"Kentucky Fried Movie, The (1977)",2.878788,3.555147,0.676359
Dumb & Dumber (1994),2.697987,3.336595,0.638608
"Longest Day, The (1962)",3.411765,4.031447,0.619682
"Cable Guy, The (1996)",2.25,2.863787,0.613787
Evil Dead II (Dead By Dawn) (1987),3.297297,3.909283,0.611985
"Hidden, The (1987)",3.137931,3.745098,0.607167
Rocky III (1982),2.361702,2.943503,0.581801
Caddyshack (1980),3.396135,3.969737,0.573602
For a Few Dollars More (1965),3.409091,3.953795,0.544704


Si volguéssim les pel·licules que han generat puntuacions més discordants, independentment del gènere, podem fer servir la variança o la desviació estàndard de les puntuacions:

In [None]:
rating_std_by_title = data.groupby('title')['rating'].std()

rating_std_by_title = rating_std_by_title.loc[active_titles]
rating_std_by_title.sort_values(ascending=False)[:10]

Unnamed: 0_level_0,rating
title,Unnamed: 1_level_1
Dumb & Dumber (1994),1.321333
"Blair Witch Project, The (1999)",1.316368
Natural Born Killers (1994),1.307198
Tank Girl (1995),1.277695
"Rocky Horror Picture Show, The (1975)",1.260177
Eyes Wide Shut (1999),1.259624
Evita (1996),1.253631
Billy Madison (1995),1.24997
Fear and Loathing in Las Vegas (1998),1.246408
Bicentennial Man (1999),1.245533


### Important: Temes de rendiment

Fixeu-vos en el comportament de Python en aquests tres exmepls (que tenen el mateix output). Identifiqueu l'origen de les diferències i actueu en conseqüència:

In [None]:
# Aquesta cel·la pot trigar uns segons a executar-se

%timeit data['title']
print(type(data['title']))
%timeit data.title
print(type(data.title))
%timeit data[['title']]
print(type(data[['title']]))

3.11 µs ± 293 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
<class 'pandas.core.series.Series'>
7.45 µs ± 1.95 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)
<class 'pandas.core.series.Series'>
7.42 ms ± 98 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
<class 'pandas.core.frame.DataFrame'>


## 3. EXERCICIS

### 3.1. EXERCICI A

+ Donada la taula ``data`` tal i com es defineix a continuació, calcula la puntuació mitjana de cada usuari i guarda-la a un ``df`` anomenat ``users_mean_rating``.

In [None]:
data_folder = 'ml-1m'

In [None]:
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table(f'{data_folder}/users.dat', sep='::', header=None, names=unames, engine='python')
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table(f'{data_folder}/ratings.dat', sep='::', header=None, names=rnames, engine='python')
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table(f'{data_folder}/movies.dat', sep='::', header=None, names=mnames, engine='python',encoding='latin-1')

data = pd.merge(pd.merge(ratings, users), movies)

users_mean_rating = data.groupby('user_id')['rating'].mean().reset_index(name="mean_rating")
users_mean_rating.head()


Unnamed: 0,user_id,mean_rating
0,1,4.188679
1,2,3.713178
2,3,3.901961
3,4,4.190476
4,5,3.146465


+ Quina és la pel·lícula més ben puntuada (en mitja) pels usuaris? (Guarda aquest valor en una variable de tipus ``string`` anomenada ``best_movie_rating`` ).

In [None]:
# Calcular la mitjana de les puntuacions per pel·lícula i crear un DataFrame amb les mitjanes
dataMovieRating = data.groupby('title')['rating'].mean().reset_index(name="mean_rating")

# Trobar l'índex de la pel·lícula amb la puntuació mitjana més alta
best_movie_rating_id = dataMovieRating['mean_rating'].idxmax()

# Obtenir el títol de la pel·lícula amb la millor puntuació mitjana i guardar-lo com a string
best_movie_rating = str(dataMovieRating.loc[best_movie_rating_id, 'title'])

print(f"La pel·lícula amb la millor puntuació mitjana és: '{best_movie_rating}'.")

La pel·lícula amb la millor puntuació mitjana és: 'Baby, The (1973)'.


+ Mira si hi ha més pel·licules amb la mateixa puntuació de la més ben puntuada.

In [None]:
# Obtenir la puntuació mitjana màxima entre totes les pel·lícules
max_rating = dataMovieRating['mean_rating'].max()

# Filtrar les pel·lícules que tenen la mateixa puntuació mitjana màxima
movieSame = dataMovieRating[dataMovieRating['mean_rating'] == max_rating]
movieSame


Unnamed: 0,title,mean_rating
249,"Baby, The (1973)",5.0
407,Bittersweet Motel (2000),5.0
1203,Follow the Bitch (1998),5.0
1297,"Gate of Heavenly Peace, The (1995)",5.0
2025,Lured (1947),5.0
2453,One Little Indian (1973),5.0
2903,Schlafes Bruder (Brother of Sleep) (1995),5.0
3044,Smashing Time (1967),5.0
3087,Song of Freedom (1936),5.0
3477,Ulysses (Ulisse) (1954),5.0


+ Busca ara aquella pel·lícula, d'entre les que tenen 5 com a puntuació mitjana, que hagi rebut més valoracions i guarda-la a una variable anomenada ``best_movie_rating_maxviews``. Aixi tindrem la pel·licula més ben puntuada per més usuaris.

In [None]:
# Obtenir els títols únics de les pel·lícules amb una puntuació mitjana de 5
titles = movieSame['title'].unique()

# Filtrar el conjunt de dades original per obtenir només les files amb aquests títols
best_movie_rating_maxviews = data[data['title'].isin(titles)]

# Comptar quantes vegades ha estat valorada cada pel·lícula i obtenir el títol de la més votada
best_movie_rating_maxviews = best_movie_rating_maxviews['title'].value_counts().idxmax()
print(f"La pel·lícula amb una puntuació mitjana de 5 més valorada pels usuaris és: '{best_movie_rating_maxviews}'.")

La pel·lícula amb una puntuació mitjana de 5 més valorada pels usuaris és: 'Gate of Heavenly Peace, The (1995)'.


### 3.2. EXERCICI B

+ Defineix una funció anomenada ``top_movie`` que donat un usuari ens retorni quina és la pel·lícula millor puntuada.


In [None]:
def top_movie(dataFrame, usr):
    # Filtrar les dades per obtenir només les files associades a l'usuari donat (usr)
    ratings_by_user = dataFrame[dataFrame['user_id'] == usr]

    # Trobar l'índex de la fila amb la puntuació més alta d'aquest usuari
    movie_by_userrating = ratings_by_user['rating'].idxmax()

    # Obtenir el títol de la pel·lícula amb la puntuació més alta utilitzant l'índex trobat
    top_rated_movie = ratings_by_user.loc[movie_by_userrating, 'title']

    return top_rated_movie

print(top_movie(data, 1))

One Flew Over the Cuckoo's Nest (1975)


### 3.3. EXERCICI C

+ Construeix una funció que donat el dataframe ``data`` et retorni un altre dataframe ``df_counts``amb el valor que cada usuari li ha donat a una peli. Això ho farem creant un dataframe on les columnes estiguin indexades per `movie_id`, les files per `user_id` i els valors siguin el rating donat.

In [None]:
def build_counts_table(df):
    """
    Retorna un dataframe on les columnes són els `movie_id`, les files `user_id` i els valors
    la valoració que un usuari ha donat a una peli d'un `movie_id`

    :param df: DataFrame original
    :return: DataFrame descrit adalt
    """
    df_counts = df.pivot_table(index='user_id', columns='movie_id', values='rating', fill_value=0)
    return df_counts


In [None]:
df_counts = build_counts_table(data)
df_counts

movie_id,1,2,3,4,5,6,7,8,9,10,...,3943,3944,3945,3946,3947,3948,3949,3950,3951,3952
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6036,0.0,0.0,0.0,2.0,0.0,3.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6037,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6038,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6039,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


+ Fés una funció `get_count` que donada la taula anterior i dos id's (usuari i peli), extregui el valor donat:

In [None]:
def get_count(df, user_id, movie_id):
    """
    Retorna la valoració que l'usuari 'user_id' ha donat de 'movie_id'

    :param df: DataFrame retornat per `build_counts_table`
    :param user_id: ID de l'usuari
    :param movie_id: ID de la peli
    :return: Enter amb la valoració de la peli
    """
    # Comprovar si l'ID de l'usuari és a l'índex i si l'ID de la pel·lícula és a les columnes
    if user_id in df.index and movie_id in df.columns:
        return df.loc[user_id, movie_id]
    else:
      return " No s'ha trobat l'usuari o la pel·lícula"

get_count(df_counts, 1, 1)

5.0

### 3.4. EXERCICI D

In [None]:
data.nunique()

Unnamed: 0,0
user_id,6040
movie_id,3706
rating,5
timestamp,458455
gender,2
age,7
occupation,21
zip,3439
title,3706
genres,301


In [None]:
unique_movies = pd.unique(data['movie_id'])
unique_movies.max()

3952

Si observem el nombre total d'usuaris únics i de pel.licules úniques, podem veure que els id's dels usuaris van de 1 a 6040. Normalment volem índexos que comencin al nombre 0, anant de 0 a 6039.

+ Explora els índexos de les pel·licules. **Quin problema hi ha amb els indexos de les pel·licules??**

> **Resposta**  
- El problema amb els índexs és que comencen des de 1 i arriben fins al nombre màxim corresponent de cada cas (pel·lícules i usuaris). Això pot generar inconsistències quan es treballa amb aquests índexs, especialment en operacions on és important que els valors siguin continus i comencin des de 0 per mantenir una estructura uniforme i coherent en tot el sistema.




+ Usant la funció `pd.Categorical(*).codes`, re-indexa els id's dels usuaris i de les pelis perquè vagin de 0 a 6039 i de 0 a 3705 respectivament:

In [None]:
# la vostra solució aquí
data['user_id'] = pd.Categorical(data['user_id']).codes
data['movie_id'] = pd.Categorical(data['movie_id']).codes

In [None]:
data[data['user_id'] == 2]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
182,2,3189,4,978298147,M,25,15,55117,Animal House (1978),Comedy
183,2,1504,2,978298430,M,25,15,55117,"Full Monty, The (1997)",Comedy
184,2,627,3,978297867,M,25,15,55117,Mission: Impossible (1996),Action|Adventure|Mystery
185,2,1295,4,978298147,M,25,15,55117,Raising Arizona (1987),Comedy
186,2,3301,3,978297068,M,25,15,55117,28 Days (2000),Comedy
187,2,101,4,978298486,M,25,15,55117,Happy Gilmore (1996),Comedy
188,2,2530,4,978297867,M,25,15,55117,"Golden Child, The (1986)",Action|Adventure|Comedy
189,2,1120,4,978297600,M,25,15,55117,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War
190,2,1327,3,978297095,M,25,15,55117,Beverly Hills Ninja (1997),Action|Comedy
191,2,3622,3,978298486,M,25,15,55117,"Naked Gun: From the Files of Police Squad!, Th...",Comedy


+ Per comprovar que tot sigui correcte i guardar correctament la taula **df_counts**, torna a calcular i visualitza ``df_counts``:

In [None]:
df_counts = build_counts_table(data)
df_counts

movie_id,0,1,2,3,4,5,6,7,8,9,...,3696,3697,3698,3699,3700,3701,3702,3703,3704,3705
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6035,0.0,0.0,0.0,2.0,0.0,3.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6036,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6037,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6038,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


### 3.5. EXERCICI E



+ Escriu una funció `distEuclid(x,y)`  que implementi la **distància** Euclidiana entre dos vectors usant funcions de numpy.

+ Escriu la funció `simEuclid(U1, U2)` que calculi la **similitud** entre dos vectors segons la fòrmula següent (on $n$ és un factor de normalització). Ho fem així perquè si dos usuaris tenen moltes pel·licules en comú, volem que la similitud entre aquests usuaris sigui major que el de dos usuaris que només n'han vist una en comú. Si els vectors estan buits, retornar 0.

    $$d =  \frac{1}{(1+distEuclid(U1, U2))} \times \frac{len(U1)}{n} $$

+ Escriu la funció `simUsuaris(df, U1, U2)` per retorna la sembalça de dos usuaris a partir del `df_counts`, tenint en compte les puntuacions que tenen en comú, fent servir les dues funcions anteriors.
    
+ Avalueu amb la funció ``%timeit`` quant triguen aquests càlculs per un parell d'usuaris.   

> *Nota: Alguns d'aquests exercicis tenen temps de càlcul de l'ordre de minuts sobre tota la base de dades. Per desenvolupar els algorismes és recomanable treballar amb una versió reduïda de la base de dades.*

Per implementar aquestes funcions únicament es permet l'ús de les funcions:

* `np.sum`
* `np.sqrt`
* `np.power`
* `np.dot`
* `np.linalg.norm`
* `np.mean`

I s'ha de fer **sense bucles**!

In [None]:
num_movies = data.nunique()['movie_id']


def distEuclid(x, y):
    """
    Retorna la distancia euclidiana de dos vectors n-dimensionals.

    :param x: Primer vector
    :param y: Segon vector
    :return : Escalar (float) corresponent a la distancia euclidiana
    """
    return np.sqrt(np.sum(np.power(x - y, 2)))

def simEuclid(Vec1, Vec2, norm):
    """
    Retorna la sembalça de dos vectors.

    :param Vec1: Primer vector
    :param Vec2: Segon vector
    :return : Escalar (float) corresponent a la semblança
    """

    # Retornar 0 si algun dels vectors està buit.
    if len(Vec1) == 0 or len(Vec2) == 0:
      return 0

    # Calcular la distància euclidiana entre els vectors.
    distancia = distEuclid(Vec1, Vec2)
    return (1 / (1 + distancia)) * (len(Vec1) / norm)

def simUsuaris(DataFrame, User1, User2):
    """
    Retorna un score que representa la similitud entre user1 i user2 basada en la distancia euclidiana

    :param DataFrame: dataframe que conté totes les dades
    :param User1: id user1
    :param User2: id user2
    :return : Escalar (float) corresponent al score
    """
    # Obtenir les puntuacions de cada usuari.
    ratings_user1 = DataFrame.loc[User1]
    ratings_user2 = DataFrame.loc[User2]

    # Crear una màscara per identificar les pel·lícules comunes puntuades per tots dos usuaris.
    common_movies_mask = (ratings_user1 > 0) & (ratings_user2 > 0)

    if not common_movies_mask.any():
      return 0

    # Filtrar les puntuacions només en les pel·lícules comunes.
    ratings_user1_common = ratings_user1[common_movies_mask]
    ratings_user2_common = ratings_user2[common_movies_mask]

    num_movies = DataFrame.shape[1]

    return simEuclid(ratings_user1_common, ratings_user2_common, num_movies)

In [None]:
simUsuaris(df_counts, 2,314)

0.0005396654074473826

In [None]:
# Aqui ha de srotir un valor de l'ordre de microsegons, no milisegons
%timeit simUsuaris(df_counts, 1, 5)

926 µs ± 64.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### 3.6. EXERCICI F

En aquest exercici desenvoluparem un sistema de recomanació col·laboratiu **basat en usuaris**.

La funció principal, ``getRecommendationsUser``, ha de tenir com a entrada una taula de puntuacions, un ``user_id``, el tipus de mesura de similitud (Euclidiana) que volem usar, el nombre `m` d'usuaris semblants que volem per fer la recomanació i el nombre ``n`` de recomanacions que volem.

Exemple: ``getRecommendationsUser(data, 2, 50, 10, simEuclid)``

Com a sortida ha de donar la llista de les $n$ millors pel·lícules que li podriem recomanar segons la seva semblança amb altres usuaris.

> *Nota 1: S'ha d'evitar comparar ``user_id`` a ell mateix.*

> *Nota 2: Recordeu que en Python podem passar funcions com a paràmetres d'una funció.*

#### EXERCICI F.1

+ Computa la *score* de similitud del usuari desitjat (``userID``) respecte tots els altres i retorna un diccionari dels $m$ usuaris més propers i el seu *score* de semblança. Fes servir la matriu `df_counts` Normalitzeu els *scores* de sortida de manera que sumin 1.

In [None]:
def find_similar_users(DataFrame, userID, m, simfunction):
    """
    Retorna un diccionari de usuaris similars amb els scores corresponents.

    :param df_counts: DataFrame que conté totes les dades
    :param userID: usuari respecte al qual fem la recomanació
    :param m: nombre d'usuaris que volem per fer la recomanació
    :param simfunction: mesura de similitud basada en el DataFrame
    :return: dictionary
    """
    # Calcula els scores per a tots els altres usuaris utilitzant la funció `simfunction`
    user_scores = df_counts.index.map(
        lambda other_user: simfunction(df_counts, userID, other_user) if other_user != userID else 0
    )

    # Crear un DataFrame temporal per ordenar els usuaris per score
    scores_df = pd.DataFrame({'user': df_counts.index, 'score': user_scores}).set_index('user')

    # Ordenar per score i seleccionar els m millors
    top_m = scores_df.nlargest(m, 'score')

    # Normalitzar els scores perquè sumin 1
    total_score = top_m['score'].sum()
    top_m['score'] /= total_score if total_score > 0 else 1  # Evita divisió per zero

    # Retorna un diccionari d'usuaris i scores
    return top_m['score'].to_dict()




In [None]:
t = datetime.datetime.now()
sim_dict = find_similar_users(df_counts, 2, 10, simUsuaris)
t = datetime.datetime.now()-t
print(str(t))


0:00:06.316863


In [None]:
sim_dict

{4447: 0.10868178502623507,
 1646: 0.10748625569533284,
 5830: 0.10106784766151948,
 2270: 0.09904834121693382,
 1903: 0.09883902906949076,
 3271: 0.09823974081452752,
 4276: 0.09823495519138713,
 1879: 0.09634838620212503,
 3625: 0.09614044342242399,
 650: 0.09591321570002441}

##### Quan trigaria (en minuts) si ho fem per tots els usuaris?
- Per saber quan de temps hi trigaria per a tots els usuaris utilitzem:



Temps total=Temps per a un usuari×Nombre total d’usuaris

Temps total (segons)=5.146049 × 6040 = 31093.1segons
Convertint a minuts:

Temps total (minuts)=31093.1 / 60 ≈ 518.22 minuts


+ Anem ara a construir una `matriu` de mida $U \times U$ on cada posició $(i,j)$ indiqui la distància entre l'element $i$ i el $j$. Així doncs, si estàs fent un recomanador basat en usuaris, `matriu[2, 3]` contindrà la similitud entre l'usuari 2 i el 3.

Compareu aquestes dues opcions des del punt de vista de temps de càlcul:

* Feu una funció,  que construeixi la ``similarity_matrix1`` a partir de la distancia entre usuaris com la distància enre els vectors formats pels elements en comú dels dos usuaris.
* Feu una funció que construeixi la ``similarity_matrix2`` d'una forma *aproximada*:
    + Substituïnt els ``nand`` que corresponen a ítems no avaluats per ``0``.
    + Treballant específicament amb operacions matricials. En aquest link podeu trobar indicacions de com fer-ho: https://jaykmody.com/blog/distance-matrices-with-numpy/

In [None]:
def compute_similitude(fixed_arr, var_arr):
    """
    Donats dos vectors, calcula la similitud entre els subvectors formats
    pels elements en comú (sense fer servir cap iteració!).
    Normalitzeu la sortida multiplicant pel nombre de pel·lícules vistes en comú i
    dividint pel nombre total de pelis del dataset
    """

    # Crear una màscara booleana per identificar les posicions amb dades en comú (> 0 en ambdós vectors).
    common_mask = (fixed_arr > 0) & (var_arr > 0)

    if not common_mask.any():
      return 0

    # Filtrar els elements en comú per a cada vector.
    fixed_common = fixed_arr[common_mask]
    var_common = var_arr[common_mask]

    return simEuclid(fixed_common, var_common, num_movies)

In [None]:
# test
vec1 = np.array([1, np.nan, 2, 3, 4])
vec2 = np.array([np.nan, 4, 5, 2, 2])
print(compute_similitude(vec1, vec2))

vec1 = np.array([1, np.nan, 1, 1, 1])
vec2 = np.array([np.nan, 1, 1, 1, 1])
print(compute_similitude(vec1, vec2))

vec1 = np.array([1, 1, 1, 1, 1])
vec2 = np.array([1, 1, 1, 1, 1])
print(compute_similitude(vec1, vec2)*num_movies/5)

0.00017072049815936371
0.0008094981111710739
1.0


In [None]:
def similarity_matrix_1(compute_similitude, df_counts):
    """
    Retorna una matriu de mida M x M on cada posició
    indica la similitud entre usuaris (resp. ítems).

    :param df_counts: df amb els valor que cada usuari li ha donat a una peli.
    :return : Matriu numpy de mida M x M amb les similituds.
    """
    df_counts = np.asarray(df_counts)

    num_users = df_counts.shape[0]
    similarity_matrix = np.zeros((num_users, num_users))# Matriu buida per guardar les similituds

    # Recorrem les files del dataset per parells d'usuaris
    for i in range(num_users):
        for j in range(i, num_users): # Només calculem per la meitat superior
            # Calculem la similitud entre els usuaris i, j
            similarity = compute_similitude(df_counts[i], df_counts[j])
            similarity_matrix[i, j] = similarity # Assignem el valor a la posició (i, j)
            similarity_matrix[j, i] = similarity  # # Assignem el mateix valor a la posició (j, i), perquè és simètrica

    return similarity_matrix



In [None]:
t = datetime.datetime.now()
sim = similarity_matrix_1(compute_similitude, df_counts)
t = datetime.datetime.now()-t
print("Temps amb doble for:",str(t))

Temps amb doble for: 0:26:03.277639


In [None]:
def similarity_matrix_2(DataFrame):
    """
    Retorna una matriu de mida M x M on cada posició
    indica la similitud entre usuaris (resp. ítems).
    Substitueix els NaN per 0 i calcula la similitud normalitzada.

    :param DataFrame: DataFrame amb els valors d'usuaris o ítems.
    :return : Matriu numpy de mida M x M amb les similituds.
    """
    # Nombre total de pel·lícules al dataset
    total_movies = DataFrame.shape[1]

    # Convertir el DataFrame a un array de NumPy
    arr = np.array(DataFrame)

    # Suma dels quadrats de cada fila
    x2 = np.sum(arr**2, axis=1).reshape(-1, 1)
    # Producte escalar entre totes les files
    xy = np.matmul(arr, arr.T)
    # Calcula la matriu de distàncies euclidianes entre usuaris
    dists = np.sqrt(x2 - 2 * xy + x2.T)

    # Generar màscara binaria per pel·lícules evaluades
    mask = arr > 0

    # Crear una matriu amb 1 per a les posicions puntuades i 0 per a les no puntuades
    mat_ones_zeros = np.zeros(arr.shape)
    mat_ones_zeros[mask] = 1

    common_movies = np.matmul(mat_ones_zeros, mat_ones_zeros.T)  # Número de películas comunes

    similarities = (1 / (1 + dists)) * (common_movies / total_movies) # Calcular similituds

    # Assigna 0 a la diagonal, ja que la similitud amb un mateix no és útil.
    np.fill_diagonal(similarities, 0)

    return similarities

In [None]:
t = datetime.datetime.now()
sim = similarity_matrix_2(df_counts)
t = datetime.datetime.now()-t
print("Temps matricialment:",str(t))

Temps matricialment: 0:00:11.243754


In [None]:
sim

array([[0.00000000e+00, 3.63236332e-05, 3.99160008e-05, ...,
        0.00000000e+00, 8.10159742e-05, 6.26354958e-05],
       [3.63236332e-05, 0.00000000e+00, 6.54173950e-05, ...,
        1.72193823e-05, 3.55436244e-05, 1.69970264e-04],
       [3.99160008e-05, 6.54173950e-05, 0.00000000e+00, ...,
        2.46354581e-05, 4.23101097e-05, 7.43023524e-05],
       ...,
       [0.00000000e+00, 1.72193823e-05, 2.46354581e-05, ...,
        0.00000000e+00, 4.15460809e-05, 4.17798553e-05],
       [8.10159742e-05, 3.55436244e-05, 4.23101097e-05, ...,
        4.15460809e-05, 0.00000000e+00, 1.49033643e-04],
       [6.26354958e-05, 1.69970264e-04, 7.43023524e-05, ...,
        4.17798553e-05, 1.49033643e-04, 0.00000000e+00]])

+ Ara torna a re-fer la funció ``find_similar_users`` usant la matriu de distàncies i mira quant triga. Recorda que les scores han d'estar normalitzades!

In [None]:
def find_similar_users(DataFrame, sim_mx, userID, m):

    # Obtenir la posició de l'usuari dins del DataFrame (índex)
    user_ID = DataFrame.index.get_loc(userID)

    # Obtenir la fila de la matriu de similituds corresponent a l'usuari
    user_similarity = sim_mx[user_ID, :]

    # Ordenar els índexs dels usuaris per similitud en ordre descendent
    similarID_users = np.argsort(user_similarity)[::-1][:m]

    # Crear un diccionari amb els IDs dels usuaris més similars i els seus valors de similitud
    similar_users = {
        DataFrame.index[idx]: user_similarity[idx] for idx in similarID_users
    }

    # Eliminar l'usuari d'interès de la llista de similars
    similar_users.pop(user_ID, None)

    # Calcular la suma total de les similituds dels usuaris seleccionats
    total = sum(similar_users.values())

    # Si la suma és major que 0, normalitzar els valors de similitud perquè sumin 1
    if total > 0:
        similar_users = {k: v / total for k, v in similar_users.items()}

    return similar_users

In [None]:
t = datetime.datetime.now()
sim_dict = find_similar_users(df_counts, sim, 2, 10)
t = datetime.datetime.now()-t
print(str(t))

0:00:00.001062


In [None]:
sim_dict

{2999: 0.10746268155789372,
 719: 0.10483495459857407,
 478: 0.10289643659933373,
 5719: 0.10219866972634427,
 684: 0.09984165662251059,
 2261: 0.09827463141857753,
 3388: 0.09782572702699824,
 1903: 0.0960869545254698,
 1339: 0.09545871946565306,
 203: 0.09511956845864497}

#### EXERCICI F.2

+ Computa les recomanacions per un usuari concret a partir dels scores dels seus $m$ usuaris més propers.
    + Fes primer una funció ``weighted_average`` que retorni un diccionari del tipus ``{peli_id: score predit}`` amb la puntuació predita de cada ítem a partir de les puntuacions dels $m$ usuaris més propers i de la seva semblança a l'usuari considerat.
    + Fes després una funció ``getRecommendationsUser`` que usant la funció anterior retorni un ``df`` amb els $n$ ítems amb més score i els seus scores.

In [None]:
def weighted_average(DataFrame, user, sim_mx, m):
    """
    :param DataFrame: dataframe que conté totes les dades
    :param user: usuari al qual fem la recomanació
    :param sim_mx: similarity_matrix
    :param m: nombre d'usuaris semblants a tenir en compte per les recomanacions
    :return: diccionari {peli_id: score predit}
    """

    # Obtenir tots els IDs d'usuaris únics
    user_ids = DataFrame['user_id'].unique()

    # Trobar la posició de l'usuari en el conjunt d'IDs únics
    user_index = np.where(user_ids == user)[0][0]

    # Extreure la fila de la matriu de similituds corresponent a l'usuari
    user_similarities = sim_mx[user_index, :]

    # Ordenar els índexs d'usuaris per similitud en ordre descendent i seleccionar els m més similars(menys l'usuari actual)
    similar_indices = np.argsort(user_similarities)[::-1][:m + 1]
    similar_indices = similar_indices[similar_indices != user_index]

    # Obtenir els IDs dels usuaris similars i les seves similituds
    similar_user_ids = user_ids[similar_indices]
    similar_weights = user_similarities[similar_indices]

    # Filtrar les puntuacions dels usuaris similars
    similar_user_ratings = DataFrame[DataFrame['user_id'].isin(similar_user_ids)]

    # Diccionari per emmagatzemar les puntuacions ponderades de cada pel·lícula
    movie_scores = {}

    # Iterar per cada pel·lícula que ha estat valorada pels usuaris similars
    for movie_id in similar_user_ratings['movie_id'].unique():
        # Obtenir les puntuacions dels usuaris similars per aquesta pel·lícula
        movie_ratings = similar_user_ratings[similar_user_ratings['movie_id'] == movie_id]

        # Obtenir els pesos (similituds) dels usuaris que han valorat aquesta pel·lícula
        user_weights = similar_weights[np.isin(similar_user_ids, movie_ratings['user_id'])]

        # Calcular la suma ponderada de les puntuacions i la suma dels pesos
        weighted_sum = np.sum(movie_ratings['rating'].values * user_weights)
        weight_sum = np.sum(user_weights)

        # Si la suma de pesos és més gran que 0, calcular la puntuació mitjana ponderada
        if weight_sum > 0:
            movie_scores[movie_id] = weighted_sum / weight_sum

    return movie_scores

In [None]:
def getRecommendationsUser(DataFrame, user, sim_mx, n, m):
    """
    :param DataFrame: dataframe que conté totes les dades
    :param user: usuari al qual fem la recomanació
    :param sim_mx: matriu de semblança entre usuaris
    :param n: nombre de pel·lícules a recomanar
    :param m: nombre d'usuaris semblants a tenir en compte per fer les recomanacions
    :return: dataframe de pel·lícules amb els scores de predicció.
    """

    # Calcular les prediccions de puntuacions utilitzant una mitjana ponderada en base als usuaris semblants
    predicted_scores = weighted_average(DataFrame, user, sim_mx, m)

    # Obtenir el conjunt de pel·lícules ja puntuades per l'usuari actual
    rated_movies = set(DataFrame[DataFrame['user_id'] == user]['movie_id'])

    # Filtrar les pel·lícules candidates que l'usuari no ha puntuat
    candidate_movies = {movie for movie in predicted_scores.keys() if movie not in rated_movies}

    # Ordenar les pel·lícules candidates per la seva puntuació predita, de major a menor
    sorted_movies = sorted(candidate_movies, key=lambda x: predicted_scores[x], reverse=True)

    # Seleccionar les 'n' millors pel·lícules amb les puntuacions més altes
    top_movies = sorted_movies[:n]

    # Crear un dataframe amb les pel·lícules recomanades i els seus scores
    recommendations_df = pd.DataFrame({
        'movie_id': top_movies,
        'predicted_score': [predicted_scores[movie] for movie in top_movies]
    })

    return recommendations_df




In [None]:
t = datetime.datetime.now()
user_prediction = getRecommendationsUser(data, 3, sim, 10, 50)
t = datetime.datetime.now()-t
print(str(t))

0:00:00.648349


In [None]:
user_prediction

Unnamed: 0,movie_id,predicted_score
0,581,5.0
1,2650,5.0
2,2853,5.0
3,958,5.0
4,1166,5.0
5,2108,5.0
6,2168,5.0
7,144,5.0
8,279,5.0
9,281,5.0


### 3.7. EXERCICI G


A continuació usarem la metrica **Mean Absolute Error (MAE)** per evaluar el nostre sistema. Aquesta mètrica ens permetrà mesurar la diferencia entre dues llistes donat un usuari:
+ La llista amb els scores reals d'un usuari
+ La llista amb els scores predits per aquest usuari

#### EXERCICI G.1

Anem a crear un conjunt de training i un de test de forma "ingènua":
+ Selecciona de forma aleatòria el 10% dels usuaris i guarda'ls en una llista anomenada ``test_set``.  
+ Guarda la resta en una llista anomenada ``train_set``.
+ Mira quants elements tenen aquestes llistes.

In [None]:
# Obtenir una llista amb els valors únics de la columna 'user_id' del dataframe `data`.
user_id = data['user_id'].unique()

# Barrejar aleatòriament l'ordre dels identificadors d'usuari ('user_id') per assegurar distribució aleatòria.
np.random.shuffle(user_id)

# Calcular la mida del conjunt de test com el 10% del total dels usuaris.
test_size = int(len(user_id) * 0.1)

# Seleccionar el primer 10% dels usuaris barrejats per formar el conjunt de test.
test_users = user_id[:test_size]

# Assignar la resta dels usuaris (90%) al conjunt de train.
train_users = user_id[test_size:]

# Filtrar el dataframe `data` per incloure només les files corresponents als usuaris del conjunt de test.
test_set = data[data['user_id'].isin(test_users)]

# Filtrar el dataframe `data` per incloure només les files corresponents als usuaris del conjunt de train.
train_set = data[data['user_id'].isin(train_users)]




+ Què passarà si calculo la matriu de similitud amb ``train_set`` i després intento predir pels usuaris de ``test_set``??

> **Resposta**
Pasaria el problema de la sobreestimació, és a dir que un model no es capaç de predir valors nous, ja que s'ajusta molt al conjunt de dades.


#### EXERCICI G.2

Cambien ara la manera de generar els conjunts per no tenir el problema anterior.

+ Seleccionarem aproximadament el 80% de les interaccions de cada usuari de ``test_set`` i les afegirem al ``train_set``.
+ Podriem ara podem evaluar el sistema?

> Us donem el codi per un usuari donat i vosaltres només heu de crear la funció que, per cada usuari, afageixi el 80% de les intraccions al ``train_set``.

In [None]:
test_set.head()

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
3283,24,2775,4,978131283,M,18,4,1609,Who Framed Roger Rabbit? (1988),Adventure|Animation|Film-Noir
3284,24,2426,5,978130670,M,18,4,1609,Star Wars: Episode I - The Phantom Menace (1999),Action|Adventure|Fantasy|Sci-Fi
3285,24,3550,4,978131283,M,18,4,1609,X-Men (2000),Action|Sci-Fi
3286,24,3555,2,978386265,M,18,4,1609,What Lies Beneath (2000),Thriller
3287,24,2495,2,978131240,M,18,4,1609,"South Park: Bigger, Longer and Uncut (1999)",Animation|Comedy


In [None]:
# Agafem el 20% de les pelis que ha consumit cada usuari de test
groupby_count = test_set.groupby('user_id')['movie_id'].count()*0.2
groupby_count

Unnamed: 0_level_0,movie_id
user_id,Unnamed: 1_level_1
24,17.0
25,80.0
38,12.4
41,46.2
43,38.6
...,...
6010,39.4
6013,21.2
6015,181.8
6032,12.0


Seleccionem la posició 1 i aquest ``user_id`` serà el que usarem pel codi d'exemple (que després haureu de replicar).

In [None]:
groupby_count.reset_index().iloc[1]

Unnamed: 0,1
user_id,25.0
movie_id,80.0


In [None]:
n_test_samples = int(groupby_count.reset_index().iloc[1]['movie_id'])
u = groupby_count.reset_index().iloc[1]['user_id']

In [None]:
test_set_user = test_set[test_set['user_id'] == u]
frame_test = test_set_user.sample(n_test_samples)
print("TOTAL SAMPLES OF THE USER: " + str(len(test_set_user)))
print("TOTAL SAMPLES OF THE USER IN TEST SET: " + str(len(frame_test)))

TOTAL SAMPLES OF THE USER: 400
TOTAL SAMPLES OF THE USER IN TEST SET: 80


In [None]:
len(test_set_user.index)

400

In [None]:
frame_train = test_set_user[~test_set_user.index.isin(frame_test.index)]
print("TOTAL SAMPLES OF THE USER IN TRAIN SET: " + str(len(frame_train)))

TOTAL SAMPLES OF THE USER IN TRAIN SET: 320


In [None]:
assert len(frame_train) + len(frame_test) == len(test_set_user)

In [None]:
def add_testdata(traindf, test_set):
    """
    :param traindf: dataframe que conté les dades de train
    :param test_set: dataframe que conté les dades de test

    :return :
        - :param 1st: dataframe que conté les dades de train juntament amb el 80% de test seleccionat
        - :param 2nd: dataframe que conté les dades de test que queden (20% restant)
    """

    # Crear una funció per seleccionar aleatòriament el 20% de les dades per a test
    def split_user_data(group):
        # Calcular el nombre de mostres per al conjunt de test (almenys una mostra)
        n_test_samples = max(1, int(len(group) * 0.2))
        # Seleccionar aleatòriament les mostres per al conjunt de test amb un estat determinista
        frame_test = group.sample(n=n_test_samples, random_state=42)
        # Eliminar les mostres seleccionades del conjunt original per al conjunt de train
        frame_train = group.drop(frame_test.index)
        # Retornar els dos subconjunts: train i test
        return frame_train, frame_test

    # Llistes buides per emmagatzemar les dades de train i test resultants
    train_frames = []
    test_frames = []

    # Iterar sobre els grups agrupats per 'user_id' en el conjunt de test
    for user_id, group in test_set.groupby('user_id'):
        # Separar el grup en subconjunts de train i test
        frame_train, frame_test = split_user_data(group)
        # Afegir les dades de train del grup a la llista de frames de train
        train_frames.append(frame_train)
        # Afegir les dades de test del grup a la llista de frames de test
        test_frames.append(frame_test)

    # Combinar totes les dades de train generades en un únic dataframe
    train_addition = pd.concat(train_frames)
    # Combinar totes les dades de test restants en un únic dataframe
    remaining_test = pd.concat(test_frames)

    # Afegir les noves dades de train al dataframe original de train
    traindf = pd.concat([traindf, train_addition])

    # Retornar els dataframes finals: train amb les dades afegides i test restant
    return traindf, remaining_test



In [None]:
train, test = add_testdata(train_set, test_set)

In [None]:
train

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,0,1104,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,0,639,3,978302109,F,1,10,48067,James and the Giant Peach (1996),Animation|Children's|Musical
2,0,853,3,978301968,F,1,10,48067,My Fair Lady (1964),Musical|Romance
3,0,3177,4,978300275,F,1,10,48067,Erin Brockovich (2000),Drama
4,0,2162,5,978824291,F,1,10,48067,"Bug's Life, A (1998)",Animation|Children's|Comedy
...,...,...,...,...,...,...,...,...,...,...
998348,6033,1192,5,956712333,M,25,14,94117,"Big Sleep, The (1946)",Film-Noir|Mystery
998350,6033,1247,4,956711771,M,25,14,94117,Carrie (1976),Horror
998352,6033,2521,5,956712258,M,25,14,94117,"Killing, The (1956)",Crime|Film-Noir
998353,6033,513,4,956711771,M,25,14,94117,Schindler's List (1993),Drama|War


In [None]:
test

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
108,1,501,5,978298542,M,56,16,70072,"Remains of the Day, The (1993)",Drama
93,1,106,5,978298625,M,56,16,70072,Braveheart (1995),Action|Drama|War
72,1,2889,4,978298673,M,56,16,70072,Awakenings (1990),Drama
84,1,358,4,978300002,M,56,16,70072,Maverick (1994),Action|Comedy|Western
167,1,1822,5,978300100,M,56,16,70072,Lethal Weapon 3 (1992),Action|Comedy|Crime|Drama
...,...,...,...,...,...,...,...,...,...,...
999627,6036,49,4,956718614,F,45,1,76006,"Usual Suspects, The (1995)",Crime|Thriller
999659,6036,1177,4,956718732,F,45,1,76006,Arsenic and Old Lace (1944),Comedy|Mystery|Thriller
999661,6036,1184,5,956709469,F,45,1,76006,Cool Hand Luke (1967),Comedy|Drama
999688,6036,1212,3,956719240,F,45,1,76006,Butch Cassidy and the Sundance Kid (1969),Action|Comedy|Western


In [None]:
train.shape

(980172, 10)

In [None]:
test.shape

(20037, 10)

In [None]:
data.shape

(1000209, 10)

In [None]:
assert train.shape[0] + test.shape[0] == data.shape[0]

#### EXERCICI G.3

+ Fes una funció que serveixi per evaluar el nostre sistema usant la mètrica MAE.

In [None]:
def evaluateRecommendations(train, test, m, n, sim):
    """
    Retorna l'error generat pel model

    :param train: dataframe que conté totes les dades d'entrenament
    :param test: dataframe que conté totes les dades de test
    :param m: nombre d'usuaris que volem per fer la recomanació
    :param n: nombre de pelis a retornar
    :param sim: matriu de similitud
    :return : Escalar (float) corresponent al MAE
    """
    # Precalcular recomanacions per a tots els usuaris del test
    test_users = test['user_id'].unique()

    # Crear un diccionari per emmagatzemar recomanacions
    recommendations_dict = {}

    for user_id in test_users:
        # Obtenim recomanacions per a cada usuari
        recommendations = getRecommendationsUser(train, user_id, sim, n, m)
        recommendations_dict[user_id] = recommendations

    # Construir el DataFrame final d'una sola vegada
    all_recommendations = pd.concat(
        [
            recs.assign(user_id=user_id)
            for user_id, recs in recommendations_dict.items()
        ],
        ignore_index=True
    )

    # Fusionar les prediccions amb les puntuacions reals
    merged_df = pd.merge(all_recommendations, test, on=["user_id", "movie_id"], how="inner")

    # Calcular errors absoluts i comptar puntuacions
    if merged_df.empty:
        return float('nan')

    total_abs_error = np.sum(np.abs(merged_df["rating"] - merged_df["predicted_score"]))
    total_ratings = len(merged_df)

    # Calcular MAE
    mae = total_abs_error / total_ratings

    return mae


In [None]:
t = datetime.datetime.now()
mae = evaluateRecommendations(train, test, 50, 10, sim)
t = datetime.datetime.now()-t
print(str(t))

0:15:46.441599


In [None]:
mae

1.315789473684211

### 3.8. EXERCICI H (exercici opcional, no obligatori)


+ **Que surt més a compte, fer un recomanador unic pels dos sexes o un per cada sexe?** Justifica la resposta per escrit i amb el codi necessari.

In [None]:
# la vostra solució aquí
