# Recomanador Simple

## 1. INFORMACIÓ 

### 1.1. Abans de començar...

**\+ Durant la pràctica, solament es podran fer servir les següents llibreries**:

`Pandas, Numpy, Itertools`

*Nota: A més de les que ja es troben presents en la 1a cel·la i funcions natives de Python*

**\+ No es poden modificar les definicions de les funcions donades, ni canviar els noms de les variables i paràmetres ja donats**

Això no implica però que els hàgiu de fer servir. És a dir, que la funció tingui un paràmetre anomenat `df` no implica que l'hàgiu de fer servir, si no ho trobeu convenient.

**\+ En les funcions, s'especifica que serà i de quin tipus cada un dels paràmetres, cal respectar-ho**

Per exemple (ho posarà en el pydoc de la funció), `df` sempre serà indicatiu del `Pandas.DataFrame` de les dades. Durant la correcció, els paràmetres (i específicament `df`) no contindran les mateixes dades que en aquest notebook, si bé si seran del mateix tipus! Per tant, no us refieu de què tinguin, per exemple, el mateix nombre de files.

### 1.2. Consum general

La base de dades [movielens-1M](http://www.grouplens.org/node/73) conté 1,000,209 puntuacions de 3.900 pel·licules fetes l'any 2000 per 6.040 usuaris anònims del recomanador online [MovieLens](http://www.movielens.org/). 

El consum total de tots els usuaris s'hi pot trobar al document "ratings.dat" el format següent:

    UserID::MovieID::Rating::Timestamp

- **UserIDs** usuaris amb id's entre 1 i 6040 
- **MovieIDs** pelis amb id's entre 1 i 3952
- **Ratings** són les puntuacions en una escala de 5 estrelles.
- **Timestamp** representat en segons

> Cada usuari té com a mínim 20 interaccions consumides.

### 1.3. Usuaris



Al fitxer "users.dat" hi trobem la informació referent a cadascun dels usuaris en el següent format:

        UserID::Gender::Age::Occupation::Zip-code

- **Gender** ve donat per "M" per home i "F" per dona.
- **Age** està representada de la següent forma:

	*  1:  "Under 18"
	* 18:  "18-24"
	* 25:  "25-34"
	* 35:  "35-44"
	* 45:  "45-49"
	* 50:  "50-55"
	* 56:  "56+"

- **Occupation** es tria entre les següents opcions:

	*  0:  "other" or not specified
	*  1:  "academic/educator"
	*  2:  "artist"
	*  3:  "clerical/admin"
	*  4:  "college/grad student"
	*  5:  "customer service"
	*  6:  "doctor/health care"
	*  7:  "executive/managerial"
	*  8:  "farmer"
	*  9:  "homemaker"
	* 10:  "K-12 student"
	* 11:  "lawyer"
	* 12:  "programmer"
	* 13:  "retired"
	* 14:  "sales/marketing"
	* 15:  "scientist"
	* 16:  "self-employed"
	* 17:  "technician/engineer"
	* 18:  "tradesman/craftsman"
	* 19:  "unemployed"
	* 20:  "writer"

> Els usuaris han donat la informació voluntariament. Així doncs, alguns usuaris poden no tenir informació.


### 1.4. Películes



Al fitxer "movies.dat" hi trobem la informació referent a cadascuna de les películes en el següent format:

        MovieID::Title::Genres

- **Titles** són identics als titols de la base de dades IMDB, incloent l'any de llançament.
- **Genres** de les películes estan separats i seleccionats d'entre els següents:

	* Action
	* Adventure
	* Animation
	* Children's
	* Comedy
	* Crime
	* Documentary
	* Drama
	* Fantasy
	* Film-Noir
	* Horror
	* Musical
	* Mystery
	* Romance
	* Sci-Fi
	* Thriller
	* War
	* Western

> Algunes películes poden tenir el ID malament degut a duplicats accidentals.
>
> Les películes s'han entrat manualment, així que altres inconsistencies poden existir. 

## 2. COMENCEM: explorem les dades!!

### 2.1. Descarregar i llegir dades

+ Baixa't els fitxers que composen la base de dades i els còpies al teu directori de treball. 

+ Llegeix les tres taules de la base de dades en tres DataFrames de pandas amb aquest codi:

In [3]:
!wget https://files.grouplens.org/datasets/movielens/ml-1m.zip
!unzip ml-1m.zip

"wget" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"unzip" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [4]:
import pandas as pd

unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames, engine='python')
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames, engine='python')
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames, engine='python', encoding='latin-1')

### 2.2. Inspecció de les taules

In [5]:
users[:10]

Unnamed: 0,user_id,gender,age,occupation,zip
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117
3,4,M,45,7,2460
4,5,M,25,20,55455
5,6,F,50,9,55117
6,7,M,35,1,6810
7,8,M,25,12,11413
8,9,M,25,17,61614
9,10,F,35,1,95370


In [6]:
users[-10:]

Unnamed: 0,user_id,gender,age,occupation,zip
6030,6031,F,18,0,45123
6031,6032,M,45,7,55108
6032,6033,M,50,13,78232
6033,6034,M,25,14,94117
6034,6035,F,25,1,78734
6035,6036,F,25,15,32603
6036,6037,F,45,1,76006
6037,6038,F,56,1,14706
6038,6039,F,45,0,1060
6039,6040,M,25,6,11106


In [7]:
ratings[-10:]

Unnamed: 0,user_id,movie_id,rating,timestamp
1000199,6040,2022,5,956716207
1000200,6040,2028,5,956704519
1000201,6040,1080,4,957717322
1000202,6040,1089,4,956704996
1000203,6040,1090,3,956715518
1000204,6040,1091,1,956716541
1000205,6040,1094,5,956704887
1000206,6040,562,5,956704746
1000207,6040,1096,4,956715648
1000208,6040,1097,4,956715569


In [8]:
ratings[:10]

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291
5,1,1197,3,978302268
6,1,1287,5,978302039
7,1,2804,5,978300719
8,1,594,4,978302268
9,1,919,4,978301368


In [9]:
ratings.sort_values('movie_id')[:5]

Unnamed: 0,user_id,movie_id,rating,timestamp
427702,2599,1,4,973796689
1966,18,1,4,978154768
683688,4089,1,5,965428947
596207,3626,1,4,966594018
465902,2873,1,5,972784317


In [10]:
movies[:5]

Unnamed: 0,movie_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [11]:
ratings[:5]

Unnamed: 0,user_id,movie_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


### **Exemple:** Fent càlculs sobre DataFrames.

Suposa que volem calcular les **puntuacions mitjanes d'una pel·licula per sexe o edat**. 


El primer pas a obtenir una única estructura que contingui tota la informació. Per fer-ho podem usar la funció ``merge`` de pandas. Aquesta funció infereix automàticament quines columnes ha d'usar per fer el ``merge`` basant-se en els noms que fan intersecció:

In [12]:
data = pd.merge(pd.merge(ratings, users), movies)

# Visualitzem la taula ordenada per identificar d'usuari
data.sort_values(by='user_id')[:10]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
0,1,1193,5,978300760,F,1,10,48067,One Flew Over the Cuckoo's Nest (1975),Drama
28501,1,48,5,978824351,F,1,10,48067,Pocahontas (1995),Animation|Children's|Musical|Romance
13819,1,938,4,978301752,F,1,10,48067,Gigi (1958),Musical
51327,1,1207,4,978300719,F,1,10,48067,To Kill a Mockingbird (1962),Drama
31152,1,1721,4,978300055,F,1,10,48067,Titanic (1997),Drama|Romance
37916,1,2762,4,978302091,F,1,10,48067,"Sixth Sense, The (1999)",Thriller
18472,1,2687,3,978824268,F,1,10,48067,Tarzan (1999),Animation|Children's
45685,1,2692,4,978301570,F,1,10,48067,Run Lola Run (Lola rennt) (1998),Action|Crime|Romance
22832,1,720,3,978300760,F,1,10,48067,Wallace & Gromit: The Best of Aardman Animatio...,Animation
32771,1,745,3,978824268,F,1,10,48067,"Close Shave, A (1995)",Animation|Comedy|Thriller


La funció ``iloc`` ens permet obtenir un subconjunt de files i/o columnes:

In [13]:
data.iloc[3:5]

Unnamed: 0,user_id,movie_id,rating,timestamp,gender,age,occupation,zip,title,genres
3,15,1193,4,978199279,M,25,7,22903,One Flew Over the Cuckoo's Nest (1975),Drama
4,17,1193,5,978158471,M,50,1,95350,One Flew Over the Cuckoo's Nest (1975),Drama


Els índexs Boolans ens permeten seleccionar una part de la taula que compleix una condició.

In [14]:
# comptem quin tant per cent de ratings estan fets per una dona
print(data[data['gender']=='F']['rating'].count() / float(data['rating'].count()), '%')

0.24638850480249627 %


Per obtenir les **puntuacions mitjanes de cada pel·licula agrupada per edat** podem usar el mètode ``pivot_table`` que és una forma de "canviar" la forma de la taula especificant quin valor agregat (mitjançant una funció predefinida) hi volem en funció dels valors de dues columnes:

In [15]:
mean_ratings = data.pivot_table(values='rating', index='title', columns='age', aggfunc='mean')
mean_ratings[:10]

age,1,18,25,35,45,50,56
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
"$1,000,000 Duck (1971)",,3.0,3.090909,3.133333,2.0,2.75,
'Night Mother (1986),2.0,4.666667,3.423077,2.904762,3.833333,3.555556,4.333333
'Til There Was You (1997),3.5,2.5,2.666667,2.9,2.333333,2.5,2.666667
"'burbs, The (1989)",4.5,3.244444,2.652174,2.818182,2.545455,3.208333,2.666667
...And Justice for All (1979),3.0,3.428571,3.724138,3.657143,4.1,3.551724,3.928571
1-900 (1994),,,2.0,,,,3.0
10 Things I Hate About You (1999),3.745455,3.41502,3.43295,3.102941,3.258065,3.62963,4.0
101 Dalmatians (1961),3.514286,3.295082,3.613757,3.826087,3.976744,3.65,3.190476
101 Dalmatians (1996),3.088235,2.467742,2.928571,3.27957,3.482759,3.4,3.555556
12 Angry Men (1957),4.176471,4.032609,4.408654,4.358333,4.274194,4.287879,4.235294


Per obtenir les **puntuacions mitjanes de cada pel·licula agrupada per sexe**:

In [16]:
mean_ratings = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean')
mean_ratings[:10]

gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"$1,000,000 Duck (1971)",3.375,2.761905
'Night Mother (1986),3.388889,3.352941
'Til There Was You (1997),2.675676,2.733333
"'burbs, The (1989)",2.793478,2.962085
...And Justice for All (1979),3.828571,3.689024
1-900 (1994),2.0,3.0
10 Things I Hate About You (1999),3.646552,3.311966
101 Dalmatians (1961),3.791444,3.5
101 Dalmatians (1996),3.24,2.911215
12 Angry Men (1957),4.184397,4.328421


Si volgéssim fer càlculs només sobre les pel·licules que han rebut **al menys** 250 puntuacions, primer hem de construir una taula amb el nombre d'avaluacions de cada títol. Per fer-ho, agruparem les dades per títol (amb el mètode ``groupby``) i usarem ``size()`` el nombre.

El mètode ``groupby`` implenta un o més d'aquests processos:

+ Dividir les dades segons algun criteri.
+ Aplicar una funció a cada grup.
+ Combinar els resultats en una estructura de dades.

In [17]:
ratings_by_title = data.groupby('title').size()
print(ratings_by_title)

title
$1,000,000 Duck (1971)                         37
'Night Mother (1986)                           70
'Til There Was You (1997)                      52
'burbs, The (1989)                            303
...And Justice for All (1979)                 199
                                             ... 
Zed & Two Noughts, A (1985)                    29
Zero Effect (1998)                            301
Zero Kelvin (Kjærlighetens kjøtere) (1995)      2
Zeus and Roxanne (1997)                        23
eXistenZ (1999)                               410
Length: 3706, dtype: int64


Llavors podem crear un índex amb els títols amb més de 250 avaluacions.

In [18]:
active_titles = ratings_by_title.index[ratings_by_title >= 250]
active_titles

Index([''burbs, The (1989)', '10 Things I Hate About You (1999)',
       '101 Dalmatians (1961)', '101 Dalmatians (1996)', '12 Angry Men (1957)',
       '13th Warrior, The (1999)', '2 Days in the Valley (1996)',
       '20,000 Leagues Under the Sea (1954)', '2001: A Space Odyssey (1968)',
       '2010 (1984)',
       ...
       'X-Men (2000)', 'Year of Living Dangerously (1982)',
       'Yellow Submarine (1968)', 'You've Got Mail (1998)',
       'Young Frankenstein (1974)', 'Young Guns (1988)',
       'Young Guns II (1990)', 'Young Sherlock Holmes (1985)',
       'Zero Effect (1998)', 'eXistenZ (1999)'],
      dtype='object', name='title', length=1216)

L'índex de títols que reben al menys 250 puntuacions es pot fer servir per seleccionar les files de ``mean_ratings``: 

In [19]:
mean_ratings = mean_ratings.loc[active_titles]
mean_ratings

gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"'burbs, The (1989)",2.793478,2.962085
10 Things I Hate About You (1999),3.646552,3.311966
101 Dalmatians (1961),3.791444,3.500000
101 Dalmatians (1996),3.240000,2.911215
12 Angry Men (1957),4.184397,4.328421
...,...,...
Young Guns (1988),3.371795,3.425620
Young Guns II (1990),2.934783,2.904025
Young Sherlock Holmes (1985),3.514706,3.363344
Zero Effect (1998),3.864407,3.723140


Per veure els films més valorats per les dones, podem ordenar per la columna F de forma descendent:

In [20]:
top_female_ratings = mean_ratings.sort_values(by='F', ascending=False)
top_female_ratings[:10]

gender,F,M
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"Close Shave, A (1995)",4.644444,4.473795
"Wrong Trousers, The (1993)",4.588235,4.478261
Sunset Blvd. (a.k.a. Sunset Boulevard) (1950),4.57265,4.464589
Wallace & Gromit: The Best of Aardman Animation (1996),4.563107,4.385075
Schindler's List (1993),4.562602,4.491415
"Shawshank Redemption, The (1994)",4.539075,4.560625
"Grand Day Out, A (1992)",4.537879,4.293255
To Kill a Mockingbird (1962),4.536667,4.372611
Creature Comforts (1990),4.513889,4.272277
"Usual Suspects, The (1995)",4.513317,4.518248


Suposem ara que volem les pel·licules que estan valorades de forma més diferent entre homes i dones. Una forma d'obtenir-ho és afegir una columna a ``mean_ratings`` que contingui la diferència en mitjana i llavors ordenar:

In [21]:
mean_ratings['diff'] = mean_ratings['M'] - mean_ratings['F']

Ordenant per ``diff`` ens dóna les pel·licules ben valorades per les dones que presenten més diferència entre homes i dones:

In [22]:
sorted_by_diff = mean_ratings.sort_values(by='diff')
sorted_by_diff[:15]

gender,F,M,diff
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Dirty Dancing (1987),3.790378,2.959596,-0.830782
Jumpin' Jack Flash (1986),3.254717,2.578358,-0.676359
Grease (1978),3.975265,3.367041,-0.608224
Little Women (1994),3.870588,3.321739,-0.548849
Steel Magnolias (1989),3.901734,3.365957,-0.535777
Anastasia (1997),3.8,3.281609,-0.518391
"Rocky Horror Picture Show, The (1975)",3.673016,3.160131,-0.512885
"Color Purple, The (1985)",4.158192,3.659341,-0.498851
"Age of Innocence, The (1993)",3.827068,3.339506,-0.487561
Free Willy (1993),2.921348,2.438776,-0.482573


Invertint l'ordre de les files i fent un ``slicing`` de les 15 files superiors obtenim les pel·licules ben valorades pels homes que no han agradat a les dones: 

In [23]:
sorted_by_diff[::-1][:15]

gender,F,M,diff
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Good, The Bad and The Ugly, The (1966)",3.494949,4.2213,0.726351
"Kentucky Fried Movie, The (1977)",2.878788,3.555147,0.676359
Dumb & Dumber (1994),2.697987,3.336595,0.638608
"Longest Day, The (1962)",3.411765,4.031447,0.619682
"Cable Guy, The (1996)",2.25,2.863787,0.613787
Evil Dead II (Dead By Dawn) (1987),3.297297,3.909283,0.611985
"Hidden, The (1987)",3.137931,3.745098,0.607167
Rocky III (1982),2.361702,2.943503,0.581801
Caddyshack (1980),3.396135,3.969737,0.573602
For a Few Dollars More (1965),3.409091,3.953795,0.544704


Si volguéssim les pel·licules que han generat puntuacions més discordants, independentment del gènere, podem fer servir la variança o la desviació estàndard de les puntuacions: 

In [24]:
# Standard deviation of rating grouped by title
rating_std_by_title = data.groupby('title')['rating'].std()

# Filter down to active_titles
rating_std_by_title = rating_std_by_title.loc[active_titles]
rating_std_by_title.sort_values(ascending=False)[:10]

title
Dumb & Dumber (1994)                     1.321333
Blair Witch Project, The (1999)          1.316368
Natural Born Killers (1994)              1.307198
Tank Girl (1995)                         1.277695
Rocky Horror Picture Show, The (1975)    1.260177
Eyes Wide Shut (1999)                    1.259624
Evita (1996)                             1.253631
Billy Madison (1995)                     1.249970
Fear and Loathing in Las Vegas (1998)    1.246408
Bicentennial Man (1999)                  1.245533
Name: rating, dtype: float64

### Important: Temes de rendiment

In [25]:
%timeit data['title'] 
%timeit data.title 
%timeit data[['title']]

2.82 µs ± 1.03 µs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
4.41 µs ± 136 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
11.4 ms ± 914 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [26]:
type(data[['title']])

pandas.core.frame.DataFrame

In [27]:
type(data.title)

pandas.core.series.Series

## 3. EXERCICIS

### 3.1. PRIMER EXERCICI 

Donada la taula ``data``, calcula la puntuació mitjana de cada usuari. 

In [28]:
!ls

"ls" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [29]:
data_folder = 'ml-1m'

In [33]:
import pandas as pd

unames = ['user_id', 'gender', 'age', 'occupation', 'zip']
users = pd.read_table(f'{data_folder}/users.dat', sep='::', header=None, names=unames, engine='python')
rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
ratings = pd.read_table(f'{data_folder}/ratings.dat', sep='::', header=None, names=rnames, engine='python')
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table(f'{data_folder}/movies.dat', sep='::', header=None, names=mnames, engine='python',encoding='latin-1')

data = pd.merge(pd.merge(ratings, users), movies)


# Agrupem per id d'usuari i fem la mitjana dels ratings de cada un
data.groupby('user_id')['rating'].mean()

user_id
1       4.188679
2       3.713178
3       3.901961
4       4.190476
5       3.146465
          ...   
6036    3.302928
6037    3.717822
6038    3.800000
6039    3.878049
6040    3.577713
Name: rating, Length: 6040, dtype: float64

+ Quina és la pel·lícula més ben puntuada (en mitja) pels usuaris? (Guarda aquest valor en una variable ``string``). 

In [36]:
'''
Els títols, igual que els id's, són únics. Per tant treballarem directament amb el títol.

Hi ha bastantes pel·lícules que tenen una mitjana de 5 però tenen poques valoracions. 
Enlloc de maximitzar la mitjana maximitzarem una nota ponderada, on farem tendir lleugerament
totes les notes a la mitjana global en un factor inversament proporcional al nº de ratings.

Si tenen un nº ratings << minimum, nota ponderada aprox. mitjana global
Si tenen un nº ratings = minimum, nota ponderada és la mitjana entre la mitjana peli i mitjana global
Si tenen un nº ratings >> minimum, nota ponderada aprox. mitjana peli
'''

global_mean = data['rating'].mean()
minimum = 50

movie_ratings = data.groupby('title').agg(average_rating=('rating', 'mean'), count=('rating', 'count'))
movie_ratings['weighted_rating'] = (movie_ratings['average_rating'] * movie_ratings['count'] + global_mean * minimum) \
    / (movie_ratings['count'] + minimum)

best_movie = movie_ratings.sort_values('weighted_rating', ascending=False).index[0]
best_movie

'Shawshank Redemption, The (1994)'

### 3.2. SEGON EXERCICI

Defineix una funció anomenada ``top_movie`` que donat un usuari ens retorni quina és la pel·lícula millor puntuada.<br> 


In [35]:
# Suposem que l'usuari ha valorat alguna pel·lícula
def top_movie(dataFrame, usr):
    """
    Utilitzem índexs booleans per a la id d'usuari per obtenir (en particular)
    tots els ratings d'aquest usuari, els ordenem de forma descendent i retornem
    el primer element usant 'iloc'. Retornar el títol és el més adequat,
    per tant, farem ús del seu índex.
    """
    return dataFrame[dataFrame['user_id']==usr].sort_values(by='rating', ascending=False).iloc[0]['title']

print(top_movie(data, 1))

One Flew Over the Cuckoo's Nest (1975)


### 3.3. TERCER EXERCICI

Construeix una funció que donat un dataframe et retorni el valor que cada usuari li ha donat a una peli. Això ho farem creant un dataframe on les columnes són els `movie_id`, les files `user_id` i els valors siguin el rating donat.

In [38]:
# Posarem 0 = no valorat, ja que els ratings van de 1 a 5
def build_counts_table(df):
    """
    Utilitzarem una pivot table com se'ns mostra al tutorial posant els valors,
    índexs i columnes segons ens demana l'enunciat. A més, canviarem els NaN per
    0 i definirem el tipus dels ratings com a 'int', ja que per defecte són string. (m'he columpiat?)
    """
    return df.pivot_table(values='rating', index='user_id', columns='movie_id').fillna(0).astype('int')

In [39]:
df_counts = build_counts_table(data)
df_counts

movie_id,1,2,3,4,5,6,7,8,9,10,...,3943,3944,3945,3946,3947,3948,3949,3950,3951,3952
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,2,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6036,0,0,0,2,0,3,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6037,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6038,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6039,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


També programarem una funció que donada la taula anterior i dos id's (usuari i peli), extregui el valor donat:

In [40]:
def get_count(df, user_id, movie_id):
    """
    Retorna el nombre de vegades que un usuari ha comprat en un `movie_id`
    
    :param df: DataFrame retornat per `build_counts_table`
    :param user_id: ID de l'usuari
    :param movie_id: ID de la peli
    :return: Enter amb el nombre de vegades que ha comprat
    """
    
    return df.loc[user_id, movie_id]

# No hi ha usuari_id=0 ni movie_id=0, utilitzem el 1
get_count(df_counts, 1, 1)

5

### 3.4. QUART EXERCICI

In [41]:
data.nunique()

user_id         6040
movie_id        3706
rating             5
timestamp     458455
gender             2
age                7
occupation        21
zip             3439
title           3706
genres           301
dtype: int64

Si observem el nombre total d'usuaris unics i de pelicules úniques, podem observar que els id's dels usuaris van de 1 a 6040. Normalment hauriem d'intentar que comencessin al nombre 0, anant de 0 a 6039. 

**Què passa amb els indexos de les pelis??**

> ANSWER Podem observar que també comencen per 1, però a més, en aquest cas específic arriba a 3952. Això és degut al fet que falten ids en el dataframe, és a dir, no totes les ids són nombres consecutius. L'ideal seria que anessin de 0 a 3705

Usant la funció **pd.Categorical(*).codes**, re-indexa els id's dels usuaris i de les pelis perquè vagin de 0 a 6039 i de 0 a 3705 respectivament:

In [45]:
data['user_id']

0             1
1             2
2            12
3            15
4            17
           ... 
1000204    5949
1000205    5675
1000206    5780
1000207    5851
1000208    5938
Name: user_id, Length: 1000209, dtype: int64

In [50]:
data['user_id'] = pd.Categorical(data['user_id']).codes
data['movie_id'] = pd.Categorical(data['movie_id']).codes

Per comprovar que tot sigui correcte i guardar correctament la taula **df_counts**, torna a calcular-la:

In [58]:
df_counts = build_counts_table(data)
df_counts

movie_id,0,1,2,3,4,5,6,7,8,9,...,3696,3697,3698,3699,3700,3701,3702,3703,3704,3705
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,2,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6035,0,0,0,2,0,3,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6036,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6037,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6038,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


### 3.5. CINQUÉ EXERCICI



Construeix una funció <b>distEuclid(x,y)</b> que implementi la distància Euclidiana entre dos vectors usant funcions de pandas. Escriu la funció que calculin la semblança entre dos usuaris segons aquesta estructura:

``def SimEuclid (DataFrame, User1, User2)``
    Calcular els **embeddings** de cada usuari, C1 i C2, amb les puntuacions dels ítems comuns que han puntuat el dos usuaris.
    Si no hi ha puntuacions en comú, retornar 0. Retornar ``1/(1+distEuclid(C1, C2))``

\
Avalueu amb la funció ``%timeit`` quant triguen aquests càlculs per un parell d'usuaris.   

> *Nota: Alguns d'aquests exercicis tenen temps de càlcul de l'ordre de minuts sobre tota la base de dades. Per desenvolupar els algorismes és recomanable treballar amb una versió reduïda de la base de dades.* 

> *Nota: **embedding** fa referencia a un vector de N dimensions que té com a funció representar (en aquest cas) els gustos dels usuaris. També es pot fer un embedding d'items i aleshores representarien el contingut d'aquest o caracteristiques semblants.*

---
#### Mesurament de similituds (petita teoria)

El primer pas per poder recomanar és definir una funció de similitud entre vectors. Siguin $x, y$ vectors, implementa la seva distància euclidiana:

* Distància euclidea (inversa): https://en.wikipedia.org/wiki/Euclidean_distance

$$sim(x, y) = \frac{1}{1 + \sqrt{\sum_i(x_i-y_i)^2}}\in [0, 1]$$

---

Per implementar qualsevol d'aquestes únicament es permet l'ús de:

* `np.sum`
* `np.sqrt`
* `np.power`
* `np.dot`
* `np.linalg.norm`
* `np.mean`

I s'ha de fer **sense bucles**.


In [87]:
import math
import numpy as np
import pandas as pd

def distEuclid(x, y):
    """
    Retorna la distancia euclidiana de dos vectors n-dimensionals.
    
    :param x: Primer vector
    :param y: Segon vector
    :return : Escalar (float) corresponent a la distancia euclidiana
    """
    
    return np.sqrt(np.sum(np.power(x - y, 2)))

def SimEuclid(DataFrame, User1, User2):
    """
    Retorna un score que representa la similitud entre user1 i user2 basada en la distancia euclidiana
    
    :param DataFrame: dataframe que conté totes les dades
    :param User1: id user1
    :param User2: id user2
    :return : Escalar (float) corresponent al score
    """

    df_user1 = DataFrame[(DataFrame['user_id']==User1)]
    df_user2 = DataFrame[(DataFrame['user_id']==User2)]

    reduced_df = pd.merge(df_user1, df_user2, on='movie_id')

    if reduced_df.shape[0] == 0:
        return 0
    
    return 1 / (1 + distEuclid(reduced_df['rating_x'], reduced_df['rating_y']))

In [88]:
# Execute functions
SimEuclid(data, 1, 5)
#print(SimEuclid(data, 1, 5))

0.179128784747792

### 3.6. SISÉ EXERCICI

Desenvolupa un sistema de recomanació col·laboratiu **basat en usuaris**. 

La funció principal, ``getRecommendationsUser``, ha de tenir com a entrada una taula de puntuacions, un ``user_id``, el tipus de mesura de semblança (Euclidiana) que volem usar, el nombre `m` d'usuaris semblants que volem per fer la recomanació i el nombre ``n`` de recomanacions que volem. Com a sortida ha de donar la llista de les ``n`` millors pel·lícules que li podriem recomanar segons la seva semblança amb altres usuaris.

> *Nota 1: S'ha d'evitar comparar ``user_id`` a ell mateix.*

> *Nota 2: Recordeu que en Python podem passar funcions com a paràmetres d'una funció.*

In [None]:
# getRecommendationsUser(data, 2, 50, 10, SimEuclid)

#### - SECCIÓ 1: 

Computa la score de similitud del usuari desitjat (userID) respecte tots els altres i retorna una llista dels **m** usuaris més propers, que seran els que usarem per fer la recomanació. Normalitzeu els scores de sortida.

In [89]:
def find_similar_users(DataFrame, userID, m, simfunction):
    """
    Retorna un diccionari de usuaris similars amb les scores corresponents.
    
    :param DataFrame: dataframe que conté totes les dades
    :param userID: usuari respecte al qual fem la recomanació
    :param m: nombre d'usuaris que volem per fer la recomanació
    :param similarity: mesura de similitud
    :return : diccionary
    """

    simils = [(user, simfunction(DataFrame, userID, user)) for user in DataFrame['user_id'].unique() if user != userID]
    simils.sort(key=lambda x:-x[1])

    max_simil = simils[0][1]

    top_5 = dict(simils[:5])

    for key in top_5:
        top_5[key] /= max_simil
    
    return top_5

In [90]:
import datetime
t = datetime.datetime.now()
sim_dict = find_similar_users(data, 2, 10, SimEuclid)
t = datetime.datetime.now()-t
print(str(t))

0:00:31.753237


In [86]:
sim_dict

{314: 1.0, 687: 1.0, 783: 1.0, 840: 1.0, 1110: 1.0}

**CREIEU QUE ES OPTIM EL TEMPS QUE HA TARDAT PER UN USUARI?** RAONA LA RESPOSTA.

> ANSWER El temps no és gens òptim! Si assumim que tots els usuaris triguen el mateix trigaríem 50 hores a calcular una matriu de similituds!

Per millorar el problema anteorior, construeix una matriu de mida UXU on cada posició *i,j* indica la distància entre l'element *i* i el *j*. Així doncs, si estàs fent un recomanador basat en usuaris, `matriu[2, 3]` contindrà la similitud entre l'usuari 2 i el 3.

In [91]:
def similarity_matrix(similarity_function, df_counts):
    """
    Retorna una matriu de mida M x M on cada posició 
    indica la similitud entre usuaris (resp. ítems).
    
    :param similarity_function: Funció que calcularà la similitud 
        entre usuaris (resp. ítems)
    :param df_counts: Dataframe que conté el nombre de vegades que 
        un usuari ha comprat en un `aisle_id`
    :return : Matriu numpy de mida M x M amb les similituds.
    """

    sim_matrix = np.zeros((df_counts.shape[0],df_counts.shape[0]))
    
    for i, user in enumerate(df_counts):
        for j, user2 in enumerate(df_counts):
            if i != j:
                sim_matrix[i, j] = similarity_function()
    
    return 0

Per cridar aquesta funció, el primer paràmetre pot ser:

* Amb la funció de la distancia euclidiana que heu programat abans pot trigar ~@1h 30min treballant directament amb valors de numpy, ~@20h a partir de pandas pur.
* Opcionalment (no és obligatori fer-ho) podeu programar una funció que treballi específicament amb matrius (i no vectors). Si ho feu, cal gestionar-ho quan es rep `None`.  (@5s)

In [92]:

sim = similarity_matrix(SimEuclid, df_counts[:20])

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
27

In [None]:
sim.shape

Ara torna a re-fer la funció **find_similar_users** i mira quant triga... 

> Recorda que les scores han d'estar normalitzades!

In [None]:
def find_similar_users(DataFrame, sim_mx, userID, m):
    
    # la vostra solució aquí
    
    return dict(zip(users, w_scores))

In [None]:
t = datetime.datetime.now()
sim_dict = find_similar_users(data, sim, 2, 10)
t = datetime.datetime.now()-t
print(str(t))

**Hauria d'haver baixat més de 30 cops el temps anterior!!**

#### - SECCIÓ 2: 
Computa les recomanacions per un usuari amb cadascun dels m usuaris més propers i fes una funció que retorni la **weighted average list** d'aquests per tal d'obtenir la recomanació final. Feu servir la funció anterior que usava la matriu de similituds per anar més ràpid!!


> *Nota: la **weighted average list** es calcularà agregant els n items més puntuats de cadascun dels m users més semblants al usuari donat.

In [None]:
def getRecommendationsUser(DataFrame, user, sim_mx, n, m):
    """
    Retorna un dataframe de pel·licules amb els scores.
    
    :param DataFrame: dataframe que conté totes les dades
    :param user: usuari al qual fem la recomanació
    :param sim_mx: similarity_function
    :param n: nombre de pelis a recomanar
    :param m: nombre d'usuaris semblants a tenir en compte per les recomanacions
    :return : pandas de pelis amb els seus scores predits
    """
    
    # la vostra solució aquí
    
    return []

In [None]:

t = datetime.datetime.now()
user_prediction = getRecommendationsUser(data, 3, sim, 10, 50)
t = datetime.datetime.now()-t
print(str(t))


In [None]:
user_prediction

#### - SECCIÓ 3

Comprovem que realment l'usuari 3 no tenia recomanació per les pelis a les que estem recomanant:

In [None]:
data_user3 = data[data['user_id']==3]
data_user3.head()

In [None]:
desired_movie_id_to_check = 0
best_film_to_predict = user_prediction['movie_id'].iloc[desired_movie_id_to_check] 

In [None]:
data_user3[data_user3['movie_id']==best_film_to_predict]

**Com es que ara estem predint un rating per la pelicula "best_film_to_predict"?** Digues quin nombre és la predicció

In [None]:
# la vostra solució aquí

### 3.7. SETÉ EXERCICI


A continuació usarem la metrica Mean Absolute Error (MAE) per evaluar el nostre sistema. Aquesta mètrica ens permetrà mesurar la diferencia entre dues llistes donat un usuari: 

**1.** La llista amb els ratings originals d'un usuari donat

**2.** La llista de les prediccions generades per aquest usuari

#### - SECCIÓ 1: 

Treu el 10% dels usuaris i reserva aquests en una variable anomenada **test_set** i la resta en una variable anomenada **train_set**.

In [None]:
import random
unique_users = data['user_id'].unique()
n_test_users = int(len(unique_users)*0.1)
n_train_users = len(unique_users) - n_test_users

test_usrs = random.sample(list(unique_users), n_test_users)

In [None]:
n_test_users,n_train_users

In [None]:
test_set = # la vostra solució aquí
train_set = # la vostra solució aquí
assert len(test_set) + len(train_set) == len(data)

Què passarà si calculo la matriu de similitud amb **train_set** i després intento predir pels usuaris de **test_set**??

#### - SECCIÓ 2:

Selecciona aproximadament el 80% de les interaccions de cada usuari de test i junta-les al **train_set**. Ara podem evaluar el sistema?


> Com la pràctica és molt llarga hem programat el codi per un usuari donat i vosaltres només heu de crear la funció que, per cada usuari, afagi el 80% de les intraccions i les unifiqui al dataframe de train.

In [None]:
test_set.head()

In [None]:
# Agafem el 20% de les pelis que ha consumit cada usuari de test 
groupby_count = test_set.groupby('user_id')['movie_id'].count()*0.2
groupby_count

Seleccionem la posició 1 i aquest use_id serà el que usarem pel codi d'exemple (que després haureu de replicar).

In [None]:
groupby_count.reset_index().iloc[1]

In [None]:
n_test_samples = int(groupby_count.reset_index().iloc[1]['movie_id'])
u = groupby_count.reset_index().iloc[1]['user_id']

In [None]:
test_set_user = test_set[test_set['user_id'] == u]
frame_test = test_set_user.sample(n_test_samples)
print("TOTAL SAMPLES OF THE USER: " + str(len(test_set_user)))
print("TOTAL SAMPLES OF THE USER IN TEST SET: " + str(len(frame_test)))

In [None]:
len(test_set_user.index)

In [None]:
frame_train = test_set_user[~test_set_user.index.isin(frame_test.index)]
print("TOTAL SAMPLES OF THE USER IN TRAIN SET: " + str(len(frame_train)))

In [None]:
assert len(frame_train) + len(frame_test) == len(test_set_user)

In [None]:
def add_testdata(traindf, test_set):
    """
    Retorna els N usuaris més similars basat en la correlació de Pearson
    
    :param traindf: dataframe que conté les dades de train
    :param test_set: dataframe que conté les dades de test

    :return : 
        - :param 1st: dataframe que conté les dades de train juntament amb el 80% de test seleccionat
        - :param 2nd: dataframe que conté les dades de test que queden (20% restant)
    """
    
    # la vostra solució aquí
    
    return pd.concat((traindf, train_appended)), test_appended

In [None]:
train, test = add_testdata(train_set, test_set)

In [None]:
train.shape

In [None]:
test.shape

#### -SECCIÓ 3:

Fes una funció usant **np.abs** que serveixi per evaluar el nostre sistema. **(PISTA:)** La funció ha de mesurar la diferencia en mitjana de la llista de ratings originals amb la llista de ratings predida.

In [None]:
def evaluateRecommendations(train, test, m, n, sim):
    """
    Retorna l'error generat pel model
    
    :param DataFrame: dataframe que conté totes les dades
    :param userID: usuari respecte al qual fem la recomanació
    :param m: nombre d'usuaris que volem per fer la recomanació
    :param n: nombre de pelis a retornar
    :param sim: matriu de similitud
    :return : Escalar (float) corresponent al MAE
    """
    
    # la vostra solució 
        
    return 0

In [None]:
t = datetime.datetime.now()
mae = evaluateRecommendations(train, test, 50, 10, sim)
t = datetime.datetime.now()-t
print(str(t))

In [None]:
mae

### 3.8. VUITÉ (I ÚTLIM) EXERCICI


**Que surt més a compte, fer un recomanador unic pels dos sexes o un per cada sexe?** Justifica la resposta per escrit i amb el codi necessari.

> RESPOSTA

In [None]:
# la vostra solució aquí