In [None]:
import numpy as np
import pandas as pd

In [None]:
# wir laden unsere ratings und unsere genres
ratings = pd.read_csv('workshop_user_ratings.csv')
genres = pd.read_csv('workshop_movie_genres.csv')

Zur Erinnerung: So sah unser Datensatz aus
https://docs.google.com/spreadsheets/d/1NWclk85CM0m35G60C6Ykgtt_EgSVosvvSIFWzpR4myY/edit?usp=sharing

In [None]:
# dieser Datensatz ist eine bearbeitete Kopie der Tabelle auf dem Google Drive. Was hat sich geändert? Warum?
# Reminder: es geht von 1 bis 5, missing Values wurden durch 0 ersetzt
ratings

Die Filmtitel stehen nicht drin. Diese sind durch ihre ID mit den Filmtiteln im Genres-Datensatz verknüpft.

In [None]:
# Wir brauchen eine Matrix, die nur die Ratings enthält
# Jede Zeile ist ein User und jede Spalte ist ein Film
rating_cols = list(genres.movie_id)
ratings_matrix = ratings[rating_cols].as_matrix()

Wir wollen nun die Cosine Similarity zwischen den Usern berechnen, nach der Formel

$$sim_{cos}(u_1, u_2) = \frac{u_1u_2}{|u_1||u_2|}$$

$|u_1|$ ist hier die Euklidische Norm.

Natürlich ist das längst für uns in sklearn implementiert.

In [None]:
from sklearn.metrics.pairwise import pairwise_distances
user_similarity = pairwise_distances(ratings_matrix, metric='cosine')

In [None]:
# Wir können diese Matrix plotten, um zu sehen, wie ähnlich sich die User sind
# Je geringer der Wert, desto ähnlicher!
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

plt.figure(figsize=(10,10))
sns.heatmap(user_similarity)
plt.xlabel('User id')
plt.ylabel('User id')
plt.title('Cosine Similarity der User. Je dunkler, desto ähnlicher.')

Nun wollen wir vorhersagen, wie sehr unseren Usern andere Filme gefallen könnten. Die Wahrscheinlichkeit, dass User k Film j mag ist:

$$p(k,j) = \bar x_k + \frac {\sum_u sim_{cos}(u_k, u_i)(x_{i,j} - \bar x_i)}{\sum_u| sim_{cos}(u_k, u_i)|}$$

$\bar x_k$: durchschnittliches Rating von user k
$x_{i,j}$: Rating von User i über Film j

In [None]:
# Wir setzen die obere Formel matrixweise um:

# berechne durchschnittliches Rating
mean_user_rating = ratings_matrix.mean(axis=1)

# berechne die Differenz von jedem Rating von jedem User zu seinem durchschnittlichen Rating
ratings_diff = (ratings_matrix - mean_user_rating[:, np.newaxis])

# berechne den Zähler des Bruchs
zaehler = user_similarity.dot(ratings_diff)

# berechne den Nenner
nenner = np.array([np.abs(user_similarity).sum(axis=1)]).T

# zusammenfügen
prediction = mean_user_rating[:, np.newaxis] +  zaehler / nenner

In [None]:
# Schließlich schreiben wir das wieder in ein Dataframe, damit wir uns die Ergebnisse anschauen können
user_prediction = pd.DataFrame(prediction, index=ratings.user_id, columns=genres.title)

In [None]:
user_prediction.loc['user1']

In [None]:
# wir wollen nur Filme vorschlagen, die der User noch nicht gesehen hat
# das steht in dem ursprünglichen DataFrame, in dem jeder User eine Zeile war
ratings.loc[ratings.user_id=='user1']

In [None]:
user_id = 'user1'

# hier wird ein Dataframe mit den relevanten Informationen erzeugt. Das ist etwas umständlich und ihr müsst es nicht
# wirklich nachvollziehen. user_id ist eine Variable, die ausgetauscht werden kann.
prediction_for_user = pd.DataFrame(columns=['title', 'rating', 'seen', 'prediction'])
prediction_for_user['title'] = user_prediction.columns.values
prediction_for_user['rating'] = ratings.loc[ratings.user_id==user_id].values[0][1:]
prediction_for_user['prediction'] = user_prediction.loc[user_id].values
prediction_for_user['seen'] = np.where(prediction_for_user.rating > 0, 1, 0)

print('Wir können {} aus den folgenden Filmen einen empfehlen:'.format(user_id))
prediction_for_user[prediction_for_user.seen==0][['title', 'prediction']].sort_values(by='prediction', ascending=False)

Übung: Statt Userähnlichkeit könnten wir auch die Filmähnlichkeit betrachten. Die Wahrscheinlichkeit, dass User k Film j mag, ergibt sich aus:

$$p(k, j) = \frac {\sum_m sim_{cos}(m_i, m_j)x_{k,i}}{\sum_m | sim_{cos}(m_i, m_j)|}$$

$x_{k,i}$: Rating von User k über Film i

$m_k$: Ratingvektor von movie k

In [None]:
# Übung: Statt Userähnlichkeit könnten wir auch die Filmähnlichkeit betrachten.
# Berechne dafür zunächst cosine distances zwischen den Filmen (die Matrix sollte 25*25 sein)
movie_similarity = 

# Kann man sich auch als Heatmap plotten, wenn man will. Wenn man das Ganze erst noch als Dataframe umschreibt,
# bekommt man die Annotation gratis dazu.
# Sind wir mit diesem Ergebnis zufrieden? Wenn nicht, woran könnte es liegen, dass unsere Ergebnisse nicht 
# ganz so gut sind?
plt.figure(figsize=(15,15))
ms = pd.DataFrame(movie_similarity, columns = genres.title, index=genres.title)
sns.heatmap(ms)

In [None]:
# Nun berechnen wir den dot product der rating matrix und der movie similarity matrix
zaehler = 

# Das Ganze teilen wir dann durch die Summe aller movie similarities (siehe oben...)

nenner = 

In [None]:
item_based_prediction = zaehler / nenner
item_prediction = pd.DataFrame(item_pred, index=ratings.user_id, columns=genres.title)

In [None]:
# Hier brauchen wir nicht mehr mit den durchschnittlichen Userwertungen zu normieren, da wir nur noch user k betrachten
item_pred = ratings_matrix.dot(movie_similarity) / np.array([np.abs(movie_similarity).sum(axis=1)])

In [None]:
item_prediction = pd.DataFrame(item_pred, index=ratings.user_id, columns=genres.title)

In [None]:
item_prediction.loc['user1']

# Bonus
Falls noch Zeit da ist... Wir haben ja auch noch andere Daten über User erhoben.

In [None]:
data = pd.read_csv('workshop_user_info.csv')
data

In [None]:
# Können wir aus den Filmpräferenzen das Alter und das Geschlecht der Teilnehmer vorhersagen? Ihre Koriandervorlieben?
# Sollten wir Alter und Geschlecht in die Ähnlichkeitsmatrix einfließen lassen? Wie?
# Überlegt euch zunächst, in welcher Form ihr die Daten für euer Experiment braucht. Dann könnt ihr gerne um Hilfe fragen,
# um die Daten zusammenzufügen. Oder einen Shortcut nehmen und Excel o. Ä. benutzen, um das schnell selbst zu
# machen :)