# Recomanador Simple

## 1. INFORMACIÓ 

### 1.1. Abans de començar...

**\+ Durant la pràctica, solament es podran fer servir les següents llibreries**:

`Pandas, Numpy, Itertools`

*Nota: A més de les que ja es troben presents en la 1a cel·la i funcions natives de Python*

**\+ No es poden modificar les definicions de les funcions donades, ni canviar els noms de les variables i paràmetres ja donats**

Això no implica però que els hàgiu de fer servir. És a dir, que la funció tingui un paràmetre anomenat `df` no implica que l'hàgiu de fer servir, si no ho trobeu convenient.

**\+ En les funcions, s'especifica que serà i de quin tipus cada un dels paràmetres, cal respectar-ho**

Per exemple (ho posarà en el pydoc de la funció), `df` sempre serà indicatiu del `Pandas.DataFrame` de les dades. Durant la correcció, els paràmetres (i específicament `df`) no contindran les mateixes dades que en aquest notebook, si bé si seran del mateix tipus! Per tant, no us refieu de què tinguin, per exemple, el mateix nombre de files.

### 1.2. Consum general

La base de dades [movielens-1M](http://www.grouplens.org/node/73) conté 1,000,209 puntuacions de 3.900 pel·licules fetes l'any 2000 per 6.040 usuaris anònims del recomanador online [MovieLens](http://www.movielens.org/). 

El consum total de tots els usuaris s'hi pot trobar al document "ratings.dat" el format següent:

    UserID::MovieID::Rating::Timestamp

- **UserIDs** usuaris amb id's entre 1 i 6040 
- **MovieIDs** pelis amb id's entre 1 i 3952
- **Ratings** són les puntuacions en una escala de 5 estrelles.
- **Timestamp** representat en segons

> Cada usuari té com a mínim 20 interaccions consumides.

### 1.3. Usuaris



Al fitxer "users.dat" hi trobem la informació referent a cadascun dels usuaris en el següent format:

        UserID::Gender::Age::Occupation::Zip-code

- **Gender** ve donat per "M" per home i "F" per dona.
- **Age** està representada de la següent forma:

	*  1:  "Under 18"
	* 18:  "18-24"
	* 25:  "25-34"
	* 35:  "35-44"
	* 45:  "45-49"
	* 50:  "50-55"
	* 56:  "56+"

- **Occupation** es tria entre les següents opcions:

	*  0:  "other" or not specified
	*  1:  "academic/educator"
	*  2:  "artist"
	*  3:  "clerical/admin"
	*  4:  "college/grad student"
	*  5:  "customer service"
	*  6:  "doctor/health care"
	*  7:  "executive/managerial"
	*  8:  "farmer"
	*  9:  "homemaker"
	* 10:  "K-12 student"
	* 11:  "lawyer"
	* 12:  "programmer"
	* 13:  "retired"
	* 14:  "sales/marketing"
	* 15:  "scientist"
	* 16:  "self-employed"
	* 17:  "technician/engineer"
	* 18:  "tradesman/craftsman"
	* 19:  "unemployed"
	* 20:  "writer"

> Els usuaris han donat la informació voluntariament. Així doncs, alguns usuaris poden no tenir informació.


### 1.4. Películes



Al fitxer "movies.dat" hi trobem la informació referent a cadascuna de les películes en el següent format:

        MovieID::Title::Genres

- **Titles** són identics als titols de la base de dades IMDB, incloent l'any de llançament.
- **Genres** de les películes estan separats i seleccionats d'entre els següents:

	* Action
	* Adventure
	* Animation
	* Children's
	* Comedy
	* Crime
	* Documentary
	* Drama
	* Fantasy
	* Film-Noir
	* Horror
	* Musical
	* Mystery
	* Romance
	* Sci-Fi
	* Thriller
	* War
	* Western

> Algunes películes poden tenir el ID malament degut a duplicats accidentals.
>
> Les películes s'han entrat manualment, així que altres inconsistencies poden existir. 

## 2. COMENCEM: explorem les dades!!

### 2.1. Descarregar i llegir dades

+ Baixa't els fitxers que composen la base de dades i els còpies al teu directori de treball. 

+ Llegeix les tres taules de la base de dades en tres DataFrames de pandas amb aquest codi:

In [1]:
!wget https://files.grouplens.org/datasets/movielens/ml-1m.zip
!unzip ml-1m.zip

"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"unzip" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [2]:
import pandas as pd
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames, engine='python')
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames, engine='python')
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames, engine='python', encoding='latin-1')


In [3]:
print(type(unames))

<class 'list'>


### 2.2. Inspecció de les taules

In [4]:
print(len(users))
print(len(ratings))
print(len(movies))

6040
1000209
3883


In [5]:
users[:10]

Unnamed: 0,user_id,gender,age,occupation,zip
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117
3,4,M,45,7,2460
4,5,M,25,20,55455
5,6,F,50,9,55117
6,7,M,35,1,6810
7,8,M,25,12,11413
8,9,M,25,17,61614
9,10,F,35,1,95370


In [6]:
users[-10:]

Unnamed: 0,user_id,gender,age,occupation,zip
6030,6031,F,18,0,45123
6031,6032,M,45,7,55108
6032,6033,M,50,13,78232
6033,6034,M,25,14,94117
6034,6035,F,25,1,78734
6035,6036,F,25,15,32603
6036,6037,F,45,1,76006
6037,6038,F,56,1,14706
6038,6039,F,45,0,1060
6039,6040,M,25,6,11106


In [7]:
ratings[-10:]

Unnamed: 0,user_id,movie_id,rating,timestamp
1000199,6040,2022,5,956716207
1000200,6040,2028,5,956704519
1000201,6040,1080,4,957717322
1000202,6040,1089,4,956704996
1000203,6040,1090,3,956715518
1000204,6040,1091,1,956716541
1000205,6040,1094,5,956704887
1000206,6040,562,5,956704746
1000207,6040,1096,4,956715648
1000208,6040,1097,4,956715569


In [8]:
ratings[:10]

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291
5,1,1197,3,978302268
6,1,1287,5,978302039
7,1,2804,5,978300719
8,1,594,4,978302268
9,1,919,4,978301368


In [9]:
# ordena les puntuacions segons el 'movie_id'
ratings.sort_values('movie_id')[:5]
ratings.sort_values('rating')[-5:]

Unnamed: 0,user_id,movie_id,rating,timestamp
760011,4516,296,5,964856871
321543,1906,2176,5,974690515
760009,4516,924,5,964856468
760487,4518,3429,5,964843900
0,1,1193,5,978300760


In [10]:
# les primeres 5 películes
movies[:5]

Unnamed: 0,movie_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [11]:
ratings[:5]

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


### **Exemple:** Fent càlculs sobre DataFrames.

Suposa que volem calcular les **puntuacions mitjanes d'una pel·licula per sexe o edat**. 


El primer pas a obtenir una única estructura que contingui tota la informació. Per fer-ho podem usar la funció ``merge`` de pandas. Aquesta funció infereix automàticament quines columnes ha d'usar per fer el ``merge`` basant-se en els noms que fan intersecció:

In [12]:
data = pd.merge(pd.merge(ratings, users), movies)

# Visualitzem la taula ordenada per identificar d'usuari
#data.sort_values(by='user_id')[:10]
data[:10]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,1,1193,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,1193,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,1193,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,1193,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,1193,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
5,18,1193,4,978156168,F,18,3,95825,One Flew Over the Cuckoo's Nest (1975),Drama
6,19,1193,5,982730936,M,1,10,48073,One Flew Over the Cuckoo's Nest (1975),Drama
7,24,1193,5,978136709,F,25,7,10023,One Flew Over the Cuckoo's Nest (1975),Drama
8,28,1193,3,978125194,F,25,1,14607,One Flew Over the Cuckoo's Nest (1975),Drama
9,33,1193,5,978557765,M,45,3,55421,One Flew Over the Cuckoo's Nest (1975),Drama


La funció ``iloc`` ens permet obtenir un subconjunt de files i/o columnes:

In [13]:
data.iloc[0:10]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,1,1193,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,1193,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,1193,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,1193,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,1193,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
5,18,1193,4,978156168,F,18,3,95825,One Flew Over the Cuckoo's Nest (1975),Drama
6,19,1193,5,982730936,M,1,10,48073,One Flew Over the Cuckoo's Nest (1975),Drama
7,24,1193,5,978136709,F,25,7,10023,One Flew Over the Cuckoo's Nest (1975),Drama
8,28,1193,3,978125194,F,25,1,14607,One Flew Over the Cuckoo's Nest (1975),Drama
9,33,1193,5,978557765,M,45,3,55421,One Flew Over the Cuckoo's Nest (1975),Drama


Els índexs Boolans ens permeten seleccionar una part de la taula que compleix una condició.

In [14]:
# comptem quin tant per cent de ratings estan fets per una dona

print(data['rating'].count())
print(float(len(data)))
print()

print(data[data['gender']=='F']['rating'].count())
print(type(data[data['gender']=='F']))
print(data[data['gender']=='F']['rating'].size)
print(data[data['gender']=='F']['rating'].count()/float(data['rating'].count()), '%')

1000209
1000209.0

246440
<class 'pandas.core.frame.DataFrame'>
246440
0.24638850480249627 %


Per obtenir les **puntuacions mitjanes de cada pel·licula agrupada per edat** podem usar el mètode ``pivot_table`` que és una forma de "canviar" la forma de la taula especificant quin valor agregat (mitjançant una funció predefinida) hi volem en funció dels valors de dues columnes:

In [15]:
print(type(data))
data[:5]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,1,1193,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,1193,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,1193,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,1193,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,1193,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama


In [16]:
mean_ratings = data.pivot_table(values= 'rating', index='title', columns='age', aggfunc='mean')
mean_ratings[:10]

age,1,18,25,35,45,50,56
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
"$1,000,000 Duck (1971)",,3.0,3.090909,3.133333,2.0,2.75,
'Night Mother (1986),2.0,4.666667,3.423077,2.904762,3.833333,3.555556,4.333333
'Til There Was You (1997),3.5,2.5,2.666667,2.9,2.333333,2.5,2.666667
"'burbs, The (1989)",4.5,3.244444,2.652174,2.818182,2.545455,3.208333,2.666667
...And Justice for All (1979),3.0,3.428571,3.724138,3.657143,4.1,3.551724,3.928571
1-900 (1994),,,2.0,,,,3.0
10 Things I Hate About You (1999),3.745455,3.41502,3.43295,3.102941,3.258065,3.62963,4.0
101 Dalmatians (1961),3.514286,3.295082,3.613757,3.826087,3.976744,3.65,3.190476
101 Dalmatians (1996),3.088235,2.467742,2.928571,3.27957,3.482759,3.4,3.555556
12 Angry Men (1957),4.176471,4.032609,4.408654,4.358333,4.274194,4.287879,4.235294


Per obtenir les **puntuacions mitjanes de cada pel·licula agrupada per sexe**:

In [17]:
mean_ratings = data.pivot_table('rating', index='title',columns='gender', aggfunc='mean')
mean_ratings[:10]

gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"$1,000,000 Duck (1971)",3.375,2.761905
'Night Mother (1986),3.388889,3.352941
'Til There Was You (1997),2.675676,2.733333
"'burbs, The (1989)",2.793478,2.962085
...And Justice for All (1979),3.828571,3.689024
1-900 (1994),2.0,3.0
10 Things I Hate About You (1999),3.646552,3.311966
101 Dalmatians (1961),3.791444,3.5
101 Dalmatians (1996),3.24,2.911215
12 Angry Men (1957),4.184397,4.328421


Si volgéssim fer càlculs només sobre les pel·licules que han rebut **al menys** 250 puntuacions, primer hem de construir una taula amb el nombre d'avaluacions de cada títol. Per fer-ho, agruparem les dades per títol (amb el mètode ``groupby``) i usarem ``size()`` el nombre.

El mètode ``groupby`` implenta un o més d'aquests processos:

+ Dividir les dades segons algun criteri.
+ Aplicar una funció a cada grup.
+ Combinar els resultats en una estructura de dades.

In [18]:
ratings_by_title = data.groupby('title').size()
print(ratings_by_title)

title
$1,000,000 Duck (1971)                         37
'Night Mother (1986)                           70
'Til There Was You (1997)                      52
'burbs, The (1989)                            303
...And Justice for All (1979)                 199
                                             ... 
Zed & Two Noughts, A (1985)                    29
Zero Effect (1998)                            301
Zero Kelvin (Kjærlighetens kjøtere) (1995)      2
Zeus and Roxanne (1997)                        23
eXistenZ (1999)                               410
Length: 3706, dtype: int64


Llavors podem crear un índex amb els títols amb més de 250 avaluacions.

In [19]:
active_titles = ratings_by_title.index[ratings_by_title >= 250]
active_titles

Index([''burbs, The (1989)', '10 Things I Hate About You (1999)',
       '101 Dalmatians (1961)', '101 Dalmatians (1996)', '12 Angry Men (1957)',
       '13th Warrior, The (1999)', '2 Days in the Valley (1996)',
       '20,000 Leagues Under the Sea (1954)', '2001: A Space Odyssey (1968)',
       '2010 (1984)',
       ...
       'X-Men (2000)', 'Year of Living Dangerously (1982)',
       'Yellow Submarine (1968)', 'You've Got Mail (1998)',
       'Young Frankenstein (1974)', 'Young Guns (1988)',
       'Young Guns II (1990)', 'Young Sherlock Holmes (1985)',
       'Zero Effect (1998)', 'eXistenZ (1999)'],
      dtype='object', name='title', length=1216)

# PEL AMB ALMENYS 250 PUNTUACIONS-> mean-ratings


L'índex de títols que reben al menys 250 puntuacions es pot fer servir per seleccionar les files de ``mean_ratings``: 

In [20]:
mean_ratings = mean_ratings.loc[active_titles]
mean_ratings

gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"'burbs, The (1989)",2.793478,2.962085
10 Things I Hate About You (1999),3.646552,3.311966
101 Dalmatians (1961),3.791444,3.500000
101 Dalmatians (1996),3.240000,2.911215
12 Angry Men (1957),4.184397,4.328421
...,...,...
Young Guns (1988),3.371795,3.425620
Young Guns II (1990),2.934783,2.904025
Young Sherlock Holmes (1985),3.514706,3.363344
Zero Effect (1998),3.864407,3.723140


Per veure els films més valorats per les dones, podem ordenar per la columna F de forma descendent:

In [21]:
top_female_ratings = mean_ratings.sort_values(by='F', ascending=False)
top_female_ratings[:10]

gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"Close Shave, A (1995)",4.644444,4.473795
"Wrong Trousers, The (1993)",4.588235,4.478261
Sunset Blvd. (a.k.a. Sunset Boulevard) (1950),4.57265,4.464589
Wallace & Gromit: The Best of Aardman Animation (1996),4.563107,4.385075
Schindler's List (1993),4.562602,4.491415
"Shawshank Redemption, The (1994)",4.539075,4.560625
"Grand Day Out, A (1992)",4.537879,4.293255
To Kill a Mockingbird (1962),4.536667,4.372611
Creature Comforts (1990),4.513889,4.272277
"Usual Suspects, The (1995)",4.513317,4.518248


Suposem ara que volem les pel·licules que estan valorades de forma més diferent entre homes i dones. Una forma d'obtenir-ho és afegir una columna a ``mean_ratings`` que contingui la diferència en mitjana i llavors ordenar:

In [22]:
mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']

Ordenant per ``diff`` ens dóna les pel·licules ben valorades per les dones que presenten més diferència entre homes i dones:

In [23]:
sorted_by_diff = mean_ratings.sort_values(by='diff')
sorted_by_diff[:15]

gender,F,M,diff
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Dirty Dancing (1987),3.790378,2.959596,-0.830782
Jumpin' Jack Flash (1986),3.254717,2.578358,-0.676359
Grease (1978),3.975265,3.367041,-0.608224
Little Women (1994),3.870588,3.321739,-0.548849
Steel Magnolias (1989),3.901734,3.365957,-0.535777
Anastasia (1997),3.8,3.281609,-0.518391
"Rocky Horror Picture Show, The (1975)",3.673016,3.160131,-0.512885
"Color Purple, The (1985)",4.158192,3.659341,-0.498851
"Age of Innocence, The (1993)",3.827068,3.339506,-0.487561
Free Willy (1993),2.921348,2.438776,-0.482573


Invertint l'ordre de les files i fent un ``slicing`` de les 15 files superiors obtenim les pel·licules ben valorades pels homes que no han agradat a les dones: 

In [24]:
sorted_by_diff[::-1][:15]

gender,F,M,diff
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Good, The Bad and The Ugly, The (1966)",3.494949,4.2213,0.726351
"Kentucky Fried Movie, The (1977)",2.878788,3.555147,0.676359
Dumb & Dumber (1994),2.697987,3.336595,0.638608
"Longest Day, The (1962)",3.411765,4.031447,0.619682
"Cable Guy, The (1996)",2.25,2.863787,0.613787
Evil Dead II (Dead By Dawn) (1987),3.297297,3.909283,0.611985
"Hidden, The (1987)",3.137931,3.745098,0.607167
Rocky III (1982),2.361702,2.943503,0.581801
Caddyshack (1980),3.396135,3.969737,0.573602
For a Few Dollars More (1965),3.409091,3.953795,0.544704


Si volguéssim les pel·licules que han generat puntuacions més discordants, independentment del gènere, podem fer servir la variança o la desviació estàndard de les puntuacions: 

In [25]:
# Standard deviation of rating grouped by title
rating_std_by_title = data.groupby('title')['rating'].std()
# Filter down to active_titles
rating_std_by_title = rating_std_by_title.loc[active_titles]
rating_std_by_title.sort_values(ascending=False)[:10]

title
Dumb & Dumber (1994)                     1.321333
Blair Witch Project, The (1999)          1.316368
Natural Born Killers (1994)              1.307198
Tank Girl (1995)                         1.277695
Rocky Horror Picture Show, The (1975)    1.260177
Eyes Wide Shut (1999)                    1.259624
Evita (1996)                             1.253631
Billy Madison (1995)                     1.249970
Fear and Loathing in Las Vegas (1998)    1.246408
Bicentennial Man (1999)                  1.245533
Name: rating, dtype: float64

### Important: Temes de rendiment

In [26]:
%timeit data['title'] 
%timeit data.title 
%timeit data[['title']] 

2.84 µs ± 278 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
8.35 µs ± 569 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
18.6 ms ± 2.48 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [27]:
type(data['title'])

pandas.core.series.Series

In [28]:
type(data[['title']])

pandas.core.frame.DataFrame

In [29]:
type(data.title)

pandas.core.series.Series

## 3. EXERCICIS

### 3.1. PRIMER EXERCICI 

Donada la taula ``data``, calcula la puntuació mitjana de cada usuari. 

In [30]:
!ls

assigment_code.ipynb
assigment_code_lia.ipynb
assigment_code_manu.ipynb
ml-1m


In [31]:
data_folder = 'ml-1m'

In [32]:
import pandas as pd
unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table(f'{data_folder}/users.dat', sep='::', header=None, names=unames, engine='python')
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table(f'{data_folder}/ratings.dat', sep='::', header=None, names=rnames, engine='python')
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table(f'{data_folder}/movies.dat', sep='::', header=None, names=mnames, engine='python',encoding='latin-1')

data = pd.merge(pd.merge(ratings, users), movies)

In [33]:
data[:10]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,1,1193,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,2,1193,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,12,1193,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,15,1193,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,1193,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
5,18,1193,4,978156168,F,18,3,95825,One Flew Over the Cuckoo's Nest (1975),Drama
6,19,1193,5,982730936,M,1,10,48073,One Flew Over the Cuckoo's Nest (1975),Drama
7,24,1193,5,978136709,F,25,7,10023,One Flew Over the Cuckoo's Nest (1975),Drama
8,28,1193,3,978125194,F,25,1,14607,One Flew Over the Cuckoo's Nest (1975),Drama
9,33,1193,5,978557765,M,45,3,55421,One Flew Over the Cuckoo's Nest (1975),Drama


In [34]:
mean_user = data.groupby('user_id')['rating'].mean()
mean_user.to_frame()

Unnamed: 0_level_0,rating
user_id,Unnamed: 1_level_1
1,4.188679
2,3.713178
3,3.901961
4,4.190476
5,3.146465
...,...
6036,3.302928
6037,3.717822
6038,3.800000
6039,3.878049


+ Quina és la pel·lícula més ben puntuada (en mitja) pels usuaris? (Guarda aquest valor en una variable ``string``). 

In [35]:
best = data.groupby('title')['rating'].mean().sort_values().index[-1]
print(best)

Gate of Heavenly Peace, The (1995)


### 3.2. SEGON EXERCICI

Defineix una funció anomenada ``top_movie`` que donat un usuari ens retorni quina és la pel·lícula millor puntuada.<br> 


In [36]:
# la vostra solució aquí
def top_movie(dataFrame,usr):
    # obtenim la taula del l'usauri corresponent
    # ordenem aquesta taula segons les puntuacions
    # i agafem el millor puntuat
    # retornem l'id de la pel·lícula millor puntuada
    return dataFrame[dataFrame['user_id'] == usr].sort_values(by='rating')['title'][:1]
print(top_movie(data,1))

28157    Meet Joe Black (1998)
Name: title, dtype: object


### 3.3. TERCER EXERCICI

Construeix una funció que donat un dataframe et retorni el valor que cada usuari li ha donat a una peli. Això ho farem creant un dataframe on les columnes són els `movie_id`, les files `user_id` i els valors siguin el rating donat.

In [37]:
def build_counts_table(df):
    """
    Retorna un dataframe on les columnes són els `movie_id`, les files `user_id` i els valors
    la puntuació que li ha donat a la peli
    
    :param df: DataFrame original 
    :return: DataFrame descrit adalt
    """
    return df.pivot_table(values = 'rating', index = 'user_id', columns = 'movie_id')

In [38]:
df_counts = build_counts_table(data)
df_counts

movie_id,1,2,3,4,5,6,7,8,9,10,...,3943,3944,3945,3946,3947,3948,3949,3950,3951,3952
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5.0,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,
5,,,,,,2.0,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6036,,,,2.0,,3.0,,,,,...,,,,,,,,,,
6037,,,,,,,,,,,...,,,,,,,,,,
6038,,,,,,,,,,,...,,,,,,,,,,
6039,,,,,,,,,,,...,,,,,,,,,,


També programarem una funció que donada la taula anterior i dos id's (usuari i peli), extregui el valor donat:

In [39]:
def get_count(df, user_id, movie_id):
    """
    Retorna el nombre de vegades que un usuari ha comprat en un `movie_id`
    
    :param df: DataFrame retornat per `build_counts_table`
    :param user_id: ID de l'usuari
    :param movie_id: ID de la peli
    :return: Enter amb el nombre de vegades que ha comprat
    """
    return df.values[user_id, movie_id]

get_count(df_counts, 0, 0)

5.0

### 3.4. QUART EXERCICI

In [40]:
dataFrame = data
dataFrame.sort_values(by='movie_id')

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
43653,5881,1,4,957548112,M,35,17,30303,Toy Story (1995),Animation|Children's|Comedy
42313,1988,1,4,974683131,F,25,1,85224,Toy Story (1995),Animation|Children's|Comedy
42314,1991,1,4,974681894,M,25,20,48309,Toy Story (1995),Animation|Children's|Comedy
42315,1992,1,3,974682228,M,18,4,85259,Toy Story (1995),Animation|Children's|Comedy
42316,1993,1,4,974681718,M,35,17,99508,Toy Story (1995),Animation|Children's|Comedy
...,...,...,...,...,...,...,...,...,...,...
735529,1281,3952,2,974794160,M,25,19,97209,"Contender, The (2000)",Drama|Thriller
735528,1270,3952,5,974814767,M,25,6,12230,"Contender, The (2000)",Drama|Thriller
735527,1260,3952,4,974925406,M,25,17,28262,"Contender, The (2000)",Drama|Thriller
735502,1079,3952,4,984260476,M,25,7,98115,"Contender, The (2000)",Drama|Thriller


In [41]:
data.nunique()

user_id         6040
movie_id        3706
rating             5
timestamp     458455
gender             2
age                7
occupation        21
zip             3439
title           3706
genres           301
dtype: int64

Si observem el nombre total d'usuaris unics i de pelicules úniques, podem observar que els id's dels usuaris van de 1 a 6040. Normalment hauriem d'intentar que comencessin al nombre 0, anant de 0 a 6039. 

**Què passa amb els indexos de les pelis??**

> ANSWER
>> Si llistem la taula data segons l'ordre dels ids de les pelis, podrem observar que l'id més gran que hi ha és el 3952, però amb la funció nunique només hem detectat 3706 ids, això es deu al fet que la funció ens retorna el nombre de pel·lícules diferents disponibles, que no és necessari que coincideixin aquests valors. Aquesta funció només ens dona la informació que hi ha 3706 pel·lícules diferents.

Usant la funció **pd.Categorical(*).codes**, re-indexa els id's dels usuaris i de les pelis perquè vagin de 0 a 6039 i de 0 a 3705 respectivament:

In [42]:
data['user_id'] = pd.Categorical(data['user_id']).codes
data['movie_id'] = pd.Categorical(data['movie_id']).codes
data.sort_values(by= 'movie_id')

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
43653,5880,0,4,957548112,M,35,17,30303,Toy Story (1995),Animation|Children's|Comedy
42313,1987,0,4,974683131,F,25,1,85224,Toy Story (1995),Animation|Children's|Comedy
42314,1990,0,4,974681894,M,25,20,48309,Toy Story (1995),Animation|Children's|Comedy
42315,1991,0,3,974682228,M,18,4,85259,Toy Story (1995),Animation|Children's|Comedy
42316,1992,0,4,974681718,M,35,17,99508,Toy Story (1995),Animation|Children's|Comedy
...,...,...,...,...,...,...,...,...,...,...
735529,1280,3705,2,974794160,M,25,19,97209,"Contender, The (2000)",Drama|Thriller
735528,1269,3705,5,974814767,M,25,6,12230,"Contender, The (2000)",Drama|Thriller
735527,1259,3705,4,974925406,M,25,17,28262,"Contender, The (2000)",Drama|Thriller
735502,1078,3705,4,984260476,M,25,7,98115,"Contender, The (2000)",Drama|Thriller


Per comprovar que tot sigui correcte i guardar correctament la taula **df_counts**, torna a calcular-la:

In [43]:
df_counts = build_counts_table(data)
df_counts[:10]

movie_id,0,1,2,3,4,5,6,7,8,9,...,3696,3697,3698,3699,3700,3701,3702,3703,3704,3705
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,5.0,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,2.0,,,,,...,,,,,,,,,,
5,4.0,,,,,,,,,,...,,,,,,,,,,
6,,,,,,4.0,,,,,...,,,,,,,,,,
7,4.0,,,3.0,,,,,,,...,,,,,,,,,,
8,5.0,,,,,,,,,,...,,,,,,3.0,,,,
9,5.0,5.0,,,,,4.0,,,,...,,,,,,4.0,,,,


### 3.5. CINQUÉ EXERCICI



Construeix una funció <b>distEuclid(x,y)</b> que implementi la distància Euclidiana entre dos vectors usant funcions de pandas. Escriu la funció que calculin la semblança entre dos usuaris segons aquesta estructura:

``def SimEuclid (DataFrame, User1, User2)``
    Calcular els **embeddings** de cada usuari, C1 i C2, amb les puntuacions dels ítems comuns que han puntuat el dos usuaris.
    Si no hi ha puntuacions en comú, retornar 0. Retornar ``1/(1+distEuclid(C1, C2))``

\
Avalueu amb la funció ``%timeit`` quant triguen aquests càlculs per un parell d'usuaris.   

> *Nota: Alguns d'aquests exercicis tenen temps de càlcul de l'ordre de minuts sobre tota la base de dades. Per desenvolupar els algorismes és recomanable treballar amb una versió reduïda de la base de dades.* 

> *Nota: **embedding** fa referencia a un vector de N dimensions que té com a funció representar (en aquest cas) els gustos dels usuaris. També es pot fer un embedding d'items i aleshores representarien el contingut d'aquest o caracteristiques semblants.*

---
#### Mesurament de similituds (petita teoria)

El primer pas per poder recomanar és definir una funció de similitud entre vectors. Siguin $x, y$ vectors, implementa la seva distància euclidiana:

* Distància euclidea (inversa): https://en.wikipedia.org/wiki/Euclidean_distance

$$sim(x, y) = \frac{1}{1 + \sqrt{\sum_i(x_i-y_i)^2}}\in [0, 1]$$

---

Per implementar qualsevol d'aquestes únicament es permet l'ús de:

* `np.sum`
* `np.sqrt`
* `np.power`
* `np.dot`
* `np.linalg.norm`
* `np.mean`

I s'ha de fer **sense bucles**.


In [46]:
import math
import numpy as np
import pandas as pd

def distEuclid(x, y):
    """
    Retorna la distancia euclidiana de dos vectors n-dimensionals.
    
    :param x: Primer vector
    :param y: Segon vector
    :return : Escalar (float) corresponent a la distancia euclidiana
    """    
    dist = np.linalg.norm(x - y)
    return dist

def SimEuclid(DataFrame, User1, User2):
    """
    Retorna un score que representa la similitud entre user1 i user2 basada en la distancia euclidiana
    
    :param DataFrame: dataframe que conté totes les dades
    :param User1: id user1
    :param User2: id user2
    :return : Escalar (float) corresponent al score
    """
    # actualitzem la taula eliminant les columnes que falten dades per cada usuari
    data = DataFrame.loc[[User1, User2]].dropna(axis=1)
    return 1/(1+distEuclid(data.loc[User1],data.loc[User2]))

In [48]:
# Execute functions
SimEuclid(df_counts, 0, 2)

0.23166247903554

### 3.6. SISÉ EXERCICI

Desenvolupa un sistema de recomanació col·laboratiu **basat en usuaris**. 

La funció principal, ``getRecommendationsUser``, ha de tenir com a entrada una taula de puntuacions, un ``user_id``, el tipus de mesura de semblança (Euclidiana) que volem usar, el nombre `m` d'usuaris semblants que volem per fer la recomanació i el nombre ``n`` de recomanacions que volem. Com a sortida ha de donar la llista de les ``n`` millors pel·lícules que li podriem recomanar segons la seva semblança amb altres usuaris.

> *Nota 1: S'ha d'evitar comparar ``user_id`` a ell mateix.*

> *Nota 2: Recordeu que en Python podem passar funcions com a paràmetres d'una funció.*

calcular la distancia euclidean en base dels ratings,
6. volem que cada usuari, calculem un diccionari de similituds que te amb la resta d'usuaris excepte a si mateix i cal normalitzar-la.

In [100]:
# getRecommendationsUser(data, 2, 50, 10, SimEuclid)

#### - SECCIÓ 1: 

Computa la score de similitud del usuari desitjat (userID) respecte tots els altres i retorna una llista dels **m** usuaris més propers, que seran els que usarem per fer la recomanació. Normalitzeu els scores de sortida.

In [50]:
def find_similar_users(DataFrame, userID, m, simfunction):
    """
    Retorna un diccionari de usuaris similars amb les scores corresponents.
    
    :param DataFrame: dataframe que conté totes les dades
    :param userID: usuari respecte al qual fem la recomanació
    :param m: nombre d'usuaris que volem per fer la recomanació
    :param similarity: mesura de similitud
    :return : diccionary
    """

    DataFrame = build_counts_table(DataFrame)
    
    result = dict()
    # obtenim les similituds entre els usuaris ignorant l'userID del qual li volem fer la recomanació
    user_IDs = DataFrame.drop(userID).index
    similaritys = list((map(lambda user_id : simfunction(DataFrame, userID, user_id), user_IDs)))

    result = dict(zip(user_IDs, similaritys))
    # ordenem el diccionari en ordre descendent i agafem els m primers
    result = dict(sorted(result.items(), key=lambda item: item[1], reverse = True)[:m])


    return result

In [51]:
import datetime
t = datetime.datetime.now()
sim_dict = find_similar_users(data, 2, 10, SimEuclid)
t = datetime.datetime.now()-t
print(str(t))

0:01:41.459865


In [52]:
sim_dict

{15: 1.0,
 60: 1.0,
 115: 1.0,
 152: 1.0,
 157: 1.0,
 163: 1.0,
 170: 1.0,
 278: 1.0,
 303: 1.0,
 314: 1.0}

**CREIEU QUE ES OPTIM EL TEMPS QUE HA TARDAT PER UN USUARI?** RAONA LA RESPOSTA.

> ANSWER 
        >> El temps que ha tardat en executar per un sol usuari no és òptim, perquè si més endavant haurem de calcular la similitud per 6040 usuaris, el temps que tardarà per executar tots els usuaris serà molt alt.

Per millorar el problema anteorior, construeix una matriu de mida UXU on cada posició *i,j* indica la distància entre l'element *i* i el *j*. Així doncs, si estàs fent un recomanador basat en usuaris, `matriu[2, 3]` contindrà la similitud entre l'usuari 2 i el 3.

In [None]:
df_counts[:200]

In [53]:
def similarity_matrix(similarity_function, df_counts):
    """
    Retorna una matriu de mida M x M on cada posició 
    indica la similitud entre usuaris (resp. ítems).
    
    :param similarity_function: Funció que calcularà la similitud 
        entre usuaris (resp. ítems)
    :param df_counts: Dataframe que conté el nombre de vegades que 
        un usuari ha comprat en un `aisle_id`
    :return : Matriu numpy de mida M x M amb les similituds.
    """

    matrix = np.zeros((df_counts.shape[0], df_counts.shape[0]))

    # treballem amb matrius
    if similarity_function == None:
        
        data  = df_counts.to_numpy()

        for i in range((len(data))//2):
            j = len(data)-2-i
            
            i_notnan = ~np.isnan(data[i])
            j_notnan = ~np.isnan(data[j])

            matrix[i][i+1:] = np.nansum( np.power((data[i, i_notnan] - data[i+1: , i_notnan]), 2), axis=1)
            matrix[j][j+1:] = np.nansum( np.power((data[j, j_notnan] - data[j+1: , j_notnan]), 2), axis=1)


        matrix = matrix + matrix.T
        matrix = 1 / (1 + np.sqrt(matrix))

        np.fill_diagonal(matrix, 0)
    
    # treballem amb vectors
    else:
        matrix = np.zeros((df_counts.shape[0], df_counts.shape[0]))
        for i in range(df_counts.shape[0]):
            for j in range(df_counts.shape[0]):
                matrix[i][j] = similarity_function(df_counts, i, j)

    
    return matrix

Per cridar aquesta funció, el primer paràmetre pot ser:

* Amb la funció de la distancia euclidiana que heu programat abans pot trigar ~@1h 30min treballant directament amb valors de numpy, ~@20h a partir de pandas pur.
* Opcionalment (no és obligatori fer-ho) podeu programar una funció que treballi específicament amb matrius (i no vectors). Si ho feu, cal gestionar-ho quan es rep `None`.  (@5s)

In [54]:
t = datetime.datetime.now()
# sim = similarity_matrix(SimEuclid, df_counts)
sim = similarity_matrix(None, df_counts)
t = datetime.datetime.now()-t
print(str(t))
sim

0:02:06.246405


array([[0.        , 0.33333333, 0.23166248, ..., 1.        , 0.2052131 ,
        0.19074357],
       [0.33333333, 0.        , 0.2052131 , ..., 0.30901699, 0.30901699,
        0.09733669],
       [0.23166248, 0.2052131 , 0.        , ..., 0.5       , 0.21712927,
        0.12389934],
       ...,
       [1.        , 0.30901699, 0.5       , ..., 0.        , 0.30901699,
        0.13802626],
       [0.2052131 , 0.30901699, 0.21712927, ..., 0.30901699, 0.        ,
        0.1310058 ],
       [0.19074357, 0.09733669, 0.12389934, ..., 0.13802626, 0.1310058 ,
        0.        ]])

In [55]:
sim.shape

(6040, 6040)

Ara torna a re-fer la funció **find_similar_users** i mira quant triga... 

> Recorda que les scores han d'estar normalitzades!

In [61]:
def find_similar_users(DataFrame, sim_matrix, userID, m):
    
    # obtenim el vector de similituds de l'usuari actual amb tota la resta d'usuaris
    similituds = sim_matrix[userID]
    
    # i obtenim les similituds corresponents en ordre descendent
    users = list(np.argsort(-similituds))
    w_scores = list(similituds[users])

    simdict =  dict(zip(users, w_scores))

    users = set(users)
    
    # construim el diccionari 
    result = dict()
    for user_id in DataFrame['user_id'].unique():
        if user_id in users:
            result[user_id] =  simdict[user_id]
    
    # obtenim les m primeres
    return dict(sorted(result.items(), key=lambda item: item[1], reverse = True)[:m])

In [62]:
t = datetime.datetime.now()
sim_dict2 = find_similar_users(data, sim, 2, 10)
t = datetime.datetime.now()-t

print(str(t))
sim_dict

0:00:00.040656


{15: 1.0,
 60: 1.0,
 115: 1.0,
 152: 1.0,
 157: 1.0,
 163: 1.0,
 170: 1.0,
 278: 1.0,
 303: 1.0,
 314: 1.0}

**Hauria d'haver baixat més de 30 cops el temps anterior!!**

#### - SECCIÓ 2: 
Computa les recomanacions per un usuari amb cadascun dels m usuaris més propers i fes una funció que retorni la **weighted average list** d'aquests per tal d'obtenir la recomanació final. Feu servir la funció anterior que usava la matriu de similituds per anar més ràpid!!


> *Nota: la **weighted average list** es calcularà agregant els n items més puntuats de cadascun dels m users més semblants al usuari donat.

In [73]:
np.seterr(divide='ignore',invalid='ignore')

def getRecommendationsUser(DataFrame, userdata, user, sim_matrix, n_item, m_user):
    """
    Retorna un dataframe de pel·licules amb els scores.
    
    :param DataFrame: dataframe que conté totes les dades
    :param user: usuari al qual fem la recomanació
    :param sim_mx: similarity_function
    :param n: nombre de pelis a recomanar
    :param m: nombre d'usuaris semblants a tenir en compte per les recomanacions
    :return : pandas de pelis amb els seus scores predits
    """
    # obtenim el diccionari dels usuaris més semblants i la seva semblança corresponent
    sim_dict = find_similar_users(userdata, sim_matrix, user, m_user)

    users = list(sim_dict.keys())
    weights = list(sim_dict.values())
    
    # obtenim la matriu dels usuaris més semblants i les seves puntuacions a les pel.lícules
    matrix = DataFrame.loc[users, df_counts.loc[user].isna()]
    
    scores = (np.nan_to_num(matrix.T).dot(weights)) / ( (np.nan_to_num(matrix.T) != 0).dot(weights) )
    index = np.argsort(-scores)[:n_item]

    return pd.DataFrame({'movie_id': list(index), 'weights': scores[index]})

In [74]:
t = datetime.datetime.now()
user_prediction = getRecommendationsUser(df_counts ,data, 2, sim, 200, 500)
t = datetime.datetime.now()-t
print(str(t))

0:00:00.260335


In [75]:
user_prediction

Unnamed: 0,movie_id,weights
0,2785,5.0
1,161,5.0
2,2998,5.0
3,3351,5.0
4,2108,5.0
...,...,...
195,2977,4.5
196,2369,4.5
197,1012,4.5
198,1717,4.5


#### - SECCIÓ 3

Comprovem que realment l'usuari 3 no tenia recomanació per les pelis a les que estem recomanant:

In [85]:
data

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,0,1104,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,1104,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,11,1104,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,14,1104,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,16,1104,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000204,5948,2017,5,958846401,M,18,17,47901,Modulations (1998),Documentary
1000205,5674,2498,3,976029116,M,35,14,30030,Broken Vessels (1998),Drama
1000206,5779,2638,1,958153068,M,18,17,92886,White Boys (1999),Drama
1000207,5850,3367,5,957756608,F,18,20,55410,One Little Indian (1973),Comedy|Drama|Western


In [86]:
data_user3 = data[data['user_id']==3]
data_user3

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
28884,3,1025,4,978293964,M,45,7,2460,E.T. the Extra-Terrestrial (1982),Children's|Drama|Fantasy|Sci-Fi
45686,3,2488,5,978294230,M,45,7,2460,Run Lola Run (Lola rennt) (1998),Action|Crime|Romance
46759,3,253,5,978294199,M,45,7,2460,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Fantasy|Sci-Fi
52257,3,1848,5,978294230,M,45,7,2460,Saving Private Ryan (1998),Action|Drama|War
70281,3,3235,5,978294008,M,45,7,2460,"Hustler, The (1961)",Drama
70732,3,1120,3,978293924,M,45,7,2460,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War
116540,3,466,4,978294008,M,45,7,2460,Jurassic Park (1993),Action|Adventure|Sci-Fi
128355,3,1106,2,978294199,M,45,7,2460,Star Wars: Episode V - The Empire Strikes Back...,Action|Adventure|Drama|Sci-Fi|War
133409,3,1108,5,978294199,M,45,7,2460,Raiders of the Lost Ark (1981),Action|Adventure
149459,3,1774,5,978294282,M,45,7,2460,Rocky (1976),Action|Drama


In [87]:
desired_movie_id_to_check = 0
best_film_to_predict = user_prediction['movie_id'].iloc[desired_movie_id_to_check] 

best_film_to_predict

2785

In [88]:
data_user3[data_user3['movie_id']==best_film_to_predict]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres


**Com es que ara estem predint un rating per la pelicula "best_film_to_predict"?** Digues quin nombre és la predicció

>> la vostra solució aquí

### 3.7. SETÉ EXERCICI


A continuació usarem la metrica Mean Absolute Error (MAE) per evaluar el nostre sistema. Aquesta mètrica ens permetrà mesurar la diferencia entre dues llistes donat un usuari: 

**1.** La llista amb els ratings originals d'un usuari donat

**2.** La llista de les prediccions generades per aquest usuari

#### - SECCIÓ 1: 

Treu el 10% dels usuaris i reserva aquests en una variable anomenada **test_set** i la resta en una variable anomenada **train_set**.

In [97]:
import random
unique_users = data['user_id'].unique()
n_test_users = int(len(unique_users)*0.1)
n_train_users = len(unique_users) - n_test_users

# n elements randoms escullits de la llista d'usuaris(10%)
test_usrs = random.sample(list(unique_users), n_test_users)
print(sorted(test_usrs))

[5, 6, 25, 38, 40, 50, 58, 61, 77, 81, 109, 130, 134, 140, 159, 160, 170, 171, 184, 185, 186, 229, 234, 239, 243, 245, 264, 267, 278, 292, 293, 300, 301, 302, 308, 317, 318, 327, 331, 373, 382, 386, 397, 404, 405, 414, 424, 429, 442, 453, 456, 458, 459, 460, 465, 466, 469, 471, 472, 481, 486, 490, 496, 504, 505, 517, 530, 534, 535, 545, 546, 559, 602, 637, 646, 654, 657, 660, 677, 679, 702, 715, 724, 726, 731, 736, 741, 760, 778, 780, 793, 802, 804, 807, 817, 821, 822, 826, 844, 849, 850, 857, 864, 878, 891, 901, 908, 909, 912, 914, 919, 930, 954, 957, 960, 970, 976, 980, 982, 999, 1027, 1038, 1049, 1051, 1052, 1055, 1059, 1068, 1082, 1083, 1091, 1109, 1117, 1133, 1144, 1146, 1160, 1183, 1190, 1212, 1217, 1220, 1234, 1248, 1272, 1293, 1296, 1316, 1320, 1325, 1327, 1334, 1342, 1344, 1365, 1366, 1368, 1371, 1372, 1397, 1400, 1410, 1423, 1428, 1446, 1447, 1463, 1470, 1481, 1486, 1494, 1495, 1499, 1508, 1509, 1515, 1521, 1533, 1544, 1545, 1548, 1568, 1569, 1577, 1584, 1614, 1631, 1634, 164

In [98]:
n_test_users,n_train_users

(604, 5436)

In [100]:
# obtenim el dataFrame que contingui el 10% dels usuaris
test_set = data.loc[data['user_id'].isin(test_usrs)]
# la resta d'usuaris
train_set = data.loc[~data['user_id'].isin(test_usrs)]
assert len(test_set) + len(train_set) == len(data)
test_set.sort_values(by= 'user_id')

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
115674,5,3457,4,978236567,F,50,9,55117,Starman (1984),Adventure|Drama|Romance|Sci-Fi
323841,5,2213,5,978236670,F,50,9,55117,Romancing the Stone (1984),Action|Adventure|Comedy|Romance
346337,5,1281,5,978237691,F,50,9,55117,Grease (1978),Comedy|Musical|Romance
107012,5,2651,1,978236809,F,50,9,55117,American Beauty (1999),Comedy|Drama
341401,5,1016,5,978236670,F,50,9,55117,Dirty Dancing (1987),Musical|Romance
...,...,...,...,...,...,...,...,...,...,...
867772,6028,2624,3,956722153,F,25,1,23185,"Muse, The (1999)",Comedy|Drama
315390,6028,2701,5,956722035,F,25,1,23185,Boys Don't Cry (1999),Drama
203841,6028,3318,2,956721732,F,25,1,23185,Caddyshack (1980),Comedy
73604,6028,1120,3,956721594,F,25,1,23185,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War


Què passarà si calculo la matriu de similitud amb **train_set** i després intento predir pels usuaris de **test_set**??
>> Que el resultat obtingut no tindria sentit ja que la matiru de distàncies està calculada per a un conjunt totalment diferent al conjunt que volem fer la predicció, i de fet, no es podrà.

#### - SECCIÓ 2:

Selecciona aproximadament el 80% de les interaccions de cada usuari de test i junta-les al **train_set**. Ara podem evaluar el sistema?


> Com la pràctica és molt llarga hem programat el codi per un usuari donat i vosaltres només heu de crear la funció que, per cada usuari, afagi el 80% de les intraccions i les unifiqui al dataframe de train.

In [113]:
test_set

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
10,38,1104,5,978043535,M,18,4,61820,One Flew Over the Cuckoo's Nest (1975),Drama
19,58,1104,4,977934292,F,50,1,55413,One Flew Over the Cuckoo's Nest (1975),Drama
20,61,1104,4,977968584,F,35,3,98105,One Flew Over the Cuckoo's Nest (1975),Drama
34,130,1104,5,977431822,M,18,4,06520,One Flew Over the Cuckoo's Nest (1975),Drama
58,229,1104,4,976824488,M,45,1,43210,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000079,3366,3369,4,970080350,M,50,16,10025,Regret to Inform (1998),Documentary
1000102,4154,3363,5,965849410,M,50,17,85712,"Gay Deceivers, The (1969)",Comedy
1000114,3678,1725,1,981482235,M,25,4,68108,Marie Baie Des Anges (1997),Drama
1000123,4130,3012,2,965350947,M,45,7,97720,Zachariah (1971),Western


In [114]:
# Agafem el 20% de les pelis que ha consumit cada usuari de test 
groupby_count = test_set.groupby('user_id')['movie_id'].count()*0.2
groupby_count

user_id
5       14.2
6        6.2
25      80.0
38      12.4
40       5.0
        ... 
5981    25.4
5987    15.8
6006    65.2
6025    16.2
6028     6.2
Name: movie_id, Length: 604, dtype: float64

Seleccionem la posició 1 i aquest use_id serà el que usarem pel codi d'exemple (que després haureu de replicar).

In [119]:
groupby_count.reset_index().iloc[1]

user_id     6.0
movie_id    6.2
Name: 1, dtype: float64

In [116]:
n_test_samples = int(groupby_count.reset_index().iloc[1]['movie_id'])
u = groupby_count.reset_index().iloc[1]['user_id']
u

6.0

In [117]:
test_set_user = test_set[test_set['user_id'] == u]
frame_test = test_set_user.sample(n_test_samples)
print("TOTAL SAMPLES OF THE USER: " + str(len(test_set_user)))
print("TOTAL SAMPLES OF THE USER IN TEST SET: " + str(len(frame_test)))

TOTAL SAMPLES OF THE USER: 31
TOTAL SAMPLES OF THE USER IN TEST SET: 6


In [118]:
len(test_set_user.index)

31

In [107]:
frame_train = test_set_user[~test_set_user.index.isin(frame_test.index)]
print("TOTAL SAMPLES OF THE USER IN TRAIN SET: " + str(len(frame_train)))

TOTAL SAMPLES OF THE USER IN TRAIN SET: 25


In [120]:
frame_train

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
23272,6,1178,4,978234581,M,35,1,6810,Back to the Future (1985),Comedy|Sci-Fi
52259,6,1848,5,978234786,M,35,1,6810,Saving Private Ryan (1998),Action|Drama|War
68286,6,2708,5,978234842,M,35,1,6810,Total Recall (1990),Action|Adventure|Sci-Fi|Thriller
76058,6,3341,3,978234737,M,35,1,6810,Gladiator (2000),Action|Drama
80519,6,2891,3,978234898,M,35,1,6810,Backdraft (1991),Action|Drama
83314,6,1478,5,978234786,M,35,1,6810,"Hunt for Red October, The (1990)",Action|Thriller
94413,6,3032,5,978234874,M,35,1,6810,Patriot Games (1992),Action|Thriller
96091,6,106,5,978234786,M,35,1,6810,Braveheart (1995),Action|Drama|War
102057,6,575,5,978234786,M,35,1,6810,Terminator 2: Judgment Day (1991),Action|Sci-Fi|Thriller
112270,6,428,4,978234632,M,35,1,6810,Demolition Man (1993),Action|Sci-Fi


In [121]:
assert len(frame_train) + len(frame_test) == len(test_set_user)
len(frame_train), len(frame_test), len(test_set_user)

(25, 6, 31)

In [122]:
train_set

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,0,1104,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
1,1,1104,5,978298413,M,56,16,70072,One Flew Over the Cuckoo's Nest (1975),Drama
2,11,1104,4,978220179,M,25,12,32793,One Flew Over the Cuckoo's Nest (1975),Drama
3,14,1104,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,16,1104,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama
...,...,...,...,...,...,...,...,...,...,...
1000204,5948,2017,5,958846401,M,18,17,47901,Modulations (1998),Documentary
1000205,5674,2498,3,976029116,M,35,14,30030,Broken Vessels (1998),Drama
1000206,5779,2638,1,958153068,M,18,17,92886,White Boys (1999),Drama
1000207,5850,3367,5,957756608,F,18,20,55410,One Little Indian (1973),Comedy|Drama|Western


In [123]:
def add_testdata(traindf, test_set):
    """
    Retorna els N usuaris més similars basat en la correlació de Pearson
    
    :param traindf: dataframe que conté les dades de train
    :param test_set: dataframe que conté les dades de test

    :return : 
        - :param 1st: dataframe que conté les dades de train juntament amb el 80% de test seleccionat
        - :param 2nd: dataframe que conté les dades de test que queden (20% restant)
    """
    
    unique_users = test_set['user_id'].unique()

    test_left = test_set.drop(index=test_set.index)
    
    # Agafem el 20% de les pelis que ha consumit cada usuari de test 
    groupby_count = test_set.groupby('user_id')['movie_id'].count()*0.2
    
    for i in range(len(unique_users)):
        
        n_test_samples = int(groupby_count.reset_index().iloc[i]['movie_id'])
        test_set_user = test_set[test_set['user_id'] == groupby_count.reset_index().iloc[i]['user_id']]
        
        # obtenim els n samples del test de l'usuari corresponent
        frame_test = test_set_user.sample(n_test_samples)
        frame_train = test_set_user[~test_set_user.index.isin(frame_test.index)]
        
        # els ajuntem al train set
        traindf = pd.concat([traindf, frame_train], ignore_index=True)
        test_left = pd.concat([test_left, frame_test], ignore_index=True)

    return traindf, test_left

In [124]:
train, test = add_testdata(train_set, test_set)

In [142]:
test

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,5,978,4,978236219,F,50,9,55117,To Gillian on Her 37th Birthday (1996),Drama|Romance
1,5,2128,3,978237034,F,50,9,55117,Pleasantville (1998),Comedy
2,5,3457,4,978236567,F,50,9,55117,Starman (1984),Adventure|Drama|Romance|Sci-Fi
3,5,1901,3,978236975,F,50,9,55117,"Mighty Ducks, The (1992)",Children's|Comedy
4,5,1551,5,978237570,F,50,9,55117,Anastasia (1997),Animation|Children's|Musical
...,...,...,...,...,...,...,...,...,...,...
19933,6028,3291,4,956721700,F,25,1,23185,Arthur (1981),Comedy|Romance
19934,6028,1781,4,956721639,F,25,1,23185,Rain Man (1988),Drama
19935,6028,2426,3,956722153,F,25,1,23185,Star Wars: Episode I - The Phantom Menace (1999),Action|Adventure|Fantasy|Sci-Fi
19936,6028,3293,4,956721901,F,25,1,23185,Parenthood (1989),Comedy|Drama


In [143]:
train[train['user_id'] == 7]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
17521,7,2889,4,978230666,M,25,12,11413,Awakenings (1990),Drama
23204,7,513,4,978229857,M,25,12,11413,Schindler's List (1993),Drama|War
27978,7,1574,5,978230800,M,25,12,11413,Titanic (1997),Drama|Romance
30599,7,2969,4,978230852,M,25,12,11413,"Girl, Interrupted (1999)",Drama
33425,7,1658,4,978231592,M,25,12,11413,"Last Days of Disco, The (1998)",Drama
...,...,...,...,...,...,...,...,...,...,...
348972,7,1536,5,978230356,M,25,12,11413,Boogie Nights (1997),Drama
349983,7,1541,5,978230649,M,25,12,11413,"Joy Luck Club, The (1993)",Drama
350409,7,962,4,978232203,M,25,12,11413,Robin Hood: Prince of Thieves (1991),Drama
350716,7,2494,5,978229347,M,25,12,11413,Arachnophobia (1990),Action|Comedy|Sci-Fi|Thriller


In [125]:
train.shape

(980271, 10)

In [144]:
test[test['user_id'] == 7]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres


In [126]:
test.shape

(19938, 10)

#### -SECCIÓ 3:

Fes una funció usant **np.abs** que serveixi per evaluar el nostre sistema. **(PISTA:)** La funció ha de mesurar la diferencia en mitjana de la llista de ratings originals amb la llista de ratings predida.

In [151]:
from tqdm import tqdm
def evaluateRecommendations(train, test, m_user, n_item, sim_matrix):
    """
    Retorna l'error generat pel model
    
    :param DataFrame: dataframe que conté totes les dades
    :param userID: usuari respecte al qual fem la recomanació
    :param m: nombre d'usuaris que volem per fer la recomanació
    :param n: nombre de pelis a retornar
    :param sim: matriu de similitud
    :return : Escalar (float) corresponent al MAE
    """
    
    mae = 0

    user_IDs = test['user_id'].unique()
    train_count = build_counts_table(train)
    test_count = build_counts_table(test)
    
    for user_id in tqdm(user_IDs): 
        # calculem mae sent train_weight 
        train_weight = getRecommendationsUser(train_count, train, user_id, sim_matrix, n_item, m_user)['weights'].mean()
        test_prediction = getRecommendationsUser(test_count, test, user_id, sim_matrix, n_item, m_user)['weights'].mean()

        mae += np.abs(train_weight - test_prediction)


    return mae / (len(user_IDs) * n_item)

In [154]:
t = datetime.datetime.now()
mae = evaluateRecommendations(train, test, 50, 10, sim)
t = datetime.datetime.now()-t
print(str(t))

100%|████████████████████████████████████████████████████████████████████████████████| 604/604 [01:13<00:00,  8.18it/s]

0:01:16.560131





In [155]:
mae

0.0

### 3.8. VUITÉ (I ÚTLIM) EXERCICI


**Que surt més a compte, fer un recomanador unic pels dos sexes o un per cada sexe?** Justifica la resposta per escrit i amb el codi necessari.

> RESPOSTA 
>> Veurem com en els test següents els valors que ens donen pels dos tipus de recomanadors el valors són xxx i xxx, assumint que com menor sigui aquest valor, millor és la qualitat del nostre sistema d'avaluació, llavors podem testejar i comparar aquests dos valors, a partir dels resultats podem veure que fer un recomanador xxxx surt més a compte.

In [None]:
# la vostra solució aquí