# Computational Essay – Entwicklung eines Film-Empfehlungssystems
<div class = "alert alert-warning">
    <h3>Meta-Bemerkung</h3>
    Das hier ist ein Beispiel für einen <b>Computational Essay</b> in Form eines Jupyter Notebooks.
    In diesem Computational Essay wird ein beispielhafter mathematischer Modellierungsprozess zu einer realen Problemstellung mit exemplarischen Daten und Modellierungsansätzen gezeigt. Welche Ansätze man entwickelt und umsetzt, hängt  von der <b>Problemstellung</b> ab, die beantwortet werden soll.<br><br>

Dieses Jupyter Notebook soll zeigen, wie ein Computational Essay aufgebaut sein kann. Es kann als Vorlage für eigene Computational Essays benutzt werden. Wichtig sind neben den Codezellen insbesondere Zellen mit:
    <ul>
        <li><b>Erklärungen</b>, die beschreiben, wie ihr beim Modellieren vorgegangen seid,</li>
        <li><b>Interpretationen der Ergebnisse</b>, insbesondere im Hinblick auf das reale Problem,</li>
        <li><b>Erläuterungen zum verwendeten Programmcode</b> und ggf. zu benutzten Bibliotheken.</li>
    </ul>
</div> 


<div style="text-align:center">
<img src="../figs/Modellierungskreislauf.png" width="950"/> 
 </div>

<div class = "alert alert-warning">
    Ein Computational Essay zur Bearbeitung eines realen Problems enthält im Wesentlichen die folgenden Elemente, die sich auch im Modellierungskreislauf wiederfinden.
     <ul>
        <li><b>Problembeschreibung:</b> Hier wird erläutert, worum es geht und wieso es sich um ein relevantes Thema handelt</li>
        <ul>
            <li><b>Fragestellung:</b> In der Problembeschreibung wird eine Forschungsfrage formuliert, die mit dem Computational Essay beantwortet werden soll. Dazu können auch Unterfragen gestellt werden.</li>
            </ul>
        <li><b>Daten:</b> Hier werden gegebene Daten in das Jupyter Notebook geladen. <span style="color:black">Achtung: nicht zu jedem Problem gibt es Daten als Ausgangspunkt. Dieser Teil entfällt womöglich. </span> 
 </li>
        <ul>
            <li><b>Datenerkundung und Visualisierung:</b> Hier beginnt die Analyse der Daten im Hinblick auf die Forschungsfrage. Interpretationen der Beobachtungen und Erkenntnisse sind hier wichtig!</li>
            <li><b>Datenvorbereitung:</b> Zum Teil stößt man  bei der ersten Datenerkundung auf fehlerhafte oder fehlende Daten. Die Daten werden dann entsprechend vorbereitet (bspw. Datenpunkte entfernt). Die Datenvorbereitungsschritte werden dokumentiert und begründet.</li>
        </ul>
        <li><b>Erster Modellansatz:</b> Hier wird der erste Modellansatz verständlich beschrieben.</li>
        <ul>
            <li><b>Vereinfachungen und Modellannahmen:</b> Vielfach sind die Probleme so komplex, dass Vereinfachungen vorgenommen oder Annahmen getroffen werden müssen. Diese werden gut dokumentiert.</li>
            <li><b>Entwicklung und Beschreibung des mathematischen Modells:</b> Hier wird das entwickelte mathematische Modell beschrieben. </li>
            <li><b>Computergestützte Berechnungen:</b> Die Berechnung  mathematischer Lösungen wird mit Programmiercode umgesetzt. Auch hier ist eine ausführliche Dokumentation wichtig – damit man den Überblick nicht verliert und schnell auf mögliche Fehler aufmerksam wird. </li>
            <li><b>Validierung der mathematischen Lösung:</b> Die erhaltenen mathematischen Lösungen werden validiert. Dies kann bspw. durch den Vergleich mit gegebenen Testdaten und bekannten Beispielen geschehen. </li>
            <li><b>Interpretation der Lösung im Hinblick auf das reale Problem:</b> Was bedeuten die berechneten Lösungen für unsere ursprüngliche Forschungsfrage? Inwieweit ist die Lösung angemessen?</li>
        </ul>
        <li><b>Zweiter Modellansatz:</b> Meist führt der erste Durchlauf durch den Modellierungsprozess nicht zu zufriedenstellenden Ergebnissen. Ggf. werden Daten hinzugenommen oder verworfen und neue Annahmen, Ansätze und Verbesserungen umgesetzt und beschrieben.</li>
        <ul>
            <li><b>Neue Modellannahmen / verworfene Vereinfachungen</b> </li>
            <li><b>Beschreibung des modifizierten mathematischen Modells</b> </li>
            <li><b>...</b> <i class="fas fa-sync"></i>  </li>
        </ul>
        <li><b>Schlussfolgerung/Empfehlungen:</b> Abschließend wird die eingangs gestellte Forschungsfrage beantwortet. Dabei wird  Bezug zu den Ergebnissen des Modellierungsprozesses genommen.</li>
         <ul> 
            <li><b>Ausblick:</b> Ideen für weitere Modellverbesserungen werden benannt.</li>
     </ul>
         
Und nun viel Erfolg beim Nachvollziehen dieses Computational Essays!
</div>

# I. Beschreibung des realen Problems  <i class="fa fa-globe" style="font-size:26px"></i>
Netflix, Amazon und Co setzen bei der Kundenbindung vor allem auf eins: gute, auf den Nutzer zugeschnittene
Empfehlungen für neue Produkte, Filme, Kleidung etc. Dazu entwickeln diese Unternehmen Empfehlungssysteme, die möglichst gut vorhersagen sollen, was dem jeweiligen Nutzer gefallen könnte. 

Um das eigene Empfehlungssystem weiter zu verbessern richtete Netflix 2006 eine Challenge aus: Das Team, welches mindestens 10 Prozent genauer vorhersagen kann, welche Filme einem Nutzer gefallen, hatte Chancen auf den Hauptpreis von 1.000.000 $. Netflix veröffentlichte im Rahmen der Challenge einen Datensatz mit den Bewertungen tausender Nutzer.

Ziel unseres Projektes war es, bestmöglich vorherzusagen, wie ein/e Nutzer/in einen noch nicht bewerteten
Film bewerten würde, um dann entsprechende Empfehlungen auszusprechen.

## Forschungsfrage
Die beiden zentralen Forschungsfragen, die wir im Rahmen unseres Projektes beantwortet werden sollen, lauten:

* Wie können wir den Geschmack der Nutzer modellieren, indem wir vorhandene Nutzerbewertungen berücksichtigen?
* Wie lassen sich unbekannte Nutzerbewertungen bestmöglich vorhersagen mit dem Ziel, basierend auf den vorhergesagten Bewertungen individuell passende neue Filme vorzuschlagen?

# II. Die Daten
Alle Bewertungen, die die Nutzer für die Filme abgegeben haben, sind in einer Art Tabelle bzw. in einem rechteckigen Zahlenschema notiert. 
Jede Zeile steht für einen User und jede Spalte für einen Film. Die Einträge der Tabelle geben an, welche Bewertung ein Nutzer für einen Film abgegeben hat. Jedoch sind nicht alle Bewertungen bekannt.

Ein Auszug aus der Tabelle könnte wie folgt aussehen:

<div style="text-align:center">
<img src="../figs/ratingmatrix_example.png" width="500"/> 
</div>

<div class = "alert alert-warning">
Es können auch Bilder, Abbildungen, Skizzen oder Videos in das Computational Essay integriert werden. Dies ist zum besseren Verständnis eurer Überlegungen und Ansätze oft hilfreich.
</div>

 
Der Netflixdatensatz besteht aus:
* 17770 Filmen 
<i class="fa fa-film"></i>  
* 480189 Nutzern <i class="fa fa-user"></i>  
* 100480507 Bewertungen (engl. *ratings*) von 1 - 5 <i class="fa fa-star"></i> <i class="fa fa-star"></i> <i class="fa fa-star"></i> <i class="fa fa-star"></i> <i class="fa fa-star"></i>


Zur Beantwortung unserer Forschungfrage haben wir nicht mit dem ganzen Netflixdatensatz gearbeitet. Stattdessen liegt uns ein kleinerer Datensatz vor, basierend auf dem wir unser  Empfehlungsmodell entwickelt haben. 

## Imports
Für die Datenanalyse wird Zugriff auf einige Methoden aus externen Bibliotheken (= Sammlungen an Methoden, die man anwenden möchte, ohne sie noch einmal neu zu schreiben). Dazu führen wir im Folgenden einige Imports durch:

<div class = "alert alert-warning">
Die folgende Zelle ist eine Code-Zelle. Dort werden wichtige Bibliotheken geladen, die in diesem Jupyter Notebook verwendet werden. <br><br>
    <b>pandas</b> ist eine Bibliothek, die statistische Methoden enthält. <br>
    <b>numpy</b> ist eine Bibliothek, die ein einfacheres Umgehen mit großen Datenarrays ermöglicht.<br>
    <b>matplotlib</b> ist eine Bibliothek, mit der Visualisierungen erstellt werden können.<br>
    Mit <b>pd, np und plt</b> rufst Du die verschiedenen Bibliotheken auf.<br><br>
    Bitte führe nun die folgende Code-Zelle aus, um die Bibliotheken zu laden! (Tipp: Das geht mit Shift+Enter!)
</div>

In [3]:
# Bibliotheken laden
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Laden der Daten

Hier werden die Daten in das Jupyter Notebook geladen. Wir lesen die Daten als sogenannte **npy-Dateien** ein.
Es liegen zum einen Daten vor, die zur Entwicklung des Empfehlungssystems eingesetzt werden können. Diese Daten werden **Trainingsdaten** (oder Lerndaten) genannt. Zudem liegen Daten vor, die zum Testen des Empfehlungssystems eingesetzt werden können. Diese bezeichnen wir als **Testdaten**.

Die Trainingsdaten speichern wir in <code>R_train</code> und die Testdaten in <code>R_test</code>. 

In [4]:
# Einlesen der Trainingsdaten
R_train = np.load('../data/dataset_1/r_train.npy', allow_pickle=True)
# Einlesen der Testdaten
R_test = np.load('../data/dataset_1/r_test.npy', allow_pickle=True)

Um zu überprüfen, ob das Einlesen der Daten funktioniert hat, lassen wir uns die beiden Datensätze ausgeben:

In [None]:
# Ausgabe der Trainingsdaten
print(R_train)

In [None]:
# Ausgabe der Testdaten
print(R_test)

## Erste Erkundung der Daten und Datenvorbereitung <i class="fa fa-database" style="font-size:26px"></i> 

<div class = "alert alert-warning">
Bei der Analyse der Daten stößt man vielfach auf Daten, die scheinbar fehlerhaft sind. Solche Daten werden aus dem Datensatz entfernt. Hier wird beschrieben, welche Datenvorbereitungsschritte durchgeführt werden. 

Zum Teil sind die Daten so komplex, dass es sinnvoll ist, nur einen ausgewählten Teil des Datensatzes zu betrachten. Hier wird genau beschrieben, welche Teildaten betrachtet wurden und nach welchen Kriterien dieses ausgewählt wurden.
</div>

Auf den ersten Blick scheint es, dass alle Einträge in <code>R_train</code> Null sind. Um zu überprüfen wie viele Bewertungen im Trainingsdatensatz vorhanden sind, lassen wir uns die Anzahl an Einträgen von <code>R_train</code> ausgeben, die größer Null sind:

In [None]:
# Anzahl Einträge größer 0 (= Anzahl der bekannten Trainingsbewertungen)
print("Anzahl Bewertungen im Trainingsdatensatz:")
np.sum(R_train > 0)

Analog bestimmen wir die Anzahl der gegebenen Bewertungen im Testdatensatz. 

In [None]:
# Anzahl Einträge größer 0 (= Anzahl der bekannten Testbewertungen)
print("Anzahl Bewertungen im Testdatensatz:")
np.sum(R_test > 0)

Wir untersuchen, wie viele Nutzer und wie viele Filme im Trainings- und Testdatensatz enthalten sind. Dazu bestimmen wir die Anzahl der Zeilen und Spalten von <code>R_train</code>.

In [None]:
# Visualisieren der Trainingsdaten
print("Anzahl User (= Zeilen) und Anzahl Movies (= Spalten) im Trainingsdatensatz:")
print(np.shape(R_train))

# Visualisieren der Trainingsdaten
print("Anzahl User (= Zeilen) und Anzahl Movies (= Spalten) im Testdatensatz:")
print(np.shape(R_test))

Die Anzahl der Nutzer und der Filme stimmt im Trainings- und Testdatensatz überein.
Wir lassen uns exemplarisch ausgeben, wie viele Filme ein beliebiger Nutzer $i$ bewertet hat:

In [None]:
# Ausgabe der bewerteten Filmes eines beliebigen Nutzers i
i = 12 # i-ter Nutzer
idx1 = np.where(R_train[i,:] > 0) # Suche alle Spalten, in denen Nutzer i einen Eintrag hat

print(f"Nutzer {i} hat folgende Filme bewertet:")
print(idx1)

Zusätzlich untersuchen wir, wie viele Bewertungen pro Nutzern im ganzen Trainingsdatensatz auftreten.

In [None]:
# Zählen der Anzahl der gegebenen Bewertungen pro Nutzer
no_ratings_per_user = np.sum(~np.isnan(R_train), axis = 0) # axis = 0 gibt an, dass entlang der Zeilen (nicht Spalten) die Anzahl positiver Einträgen gezählt wird
print(no_ratings_per_user)

In [None]:
# Maximale und minimale Anzahl Bewertungen pro Nutzer
print("Maximale Anzahl Bewertungen pro Nutzer:")
print(np.max(no_ratings_per_user))

print("Minimale Anzahl Bewertungen pro Nutzer:")
print(np.min(no_ratings_per_user))

Einen besseren Überblick über die Verteilung der Bewertungen pro Nutzer liefert das folgende Histogramm.

In [None]:
hist = plt.hist(no_ratings_per_user, bins=[1,5,10,20,30,40,50,60,100,150])

## Erkenntnisse aus der Datenerkundung

Es wird ersichtlich, dass die meisten Nutzer sehr wenige Bewertungen abgegeben haben.

<div class = "alert alert-warning">
Hier könnten weitere Beobachtungen und Erkenntnisse notiert werden.
</div>

# III. Erster Modellansatz
## Vereinfachungen und Modellannahmen
Wir treffen zunächst folgende Annahmen: 

1. Wir nehmen an, dass eine fehlende Bewertung im Trainingsdatensatz bedeutet, dass der Nutzer den Film noch nicht gesehen hat. 
2. Wir nehmen an, dass alle Nutzer wahrheitsgemäß, d.h. entsprechend ihres tatsächlichen Geschmacks bewerten.

## Entwicklung eines ersten mathematischen Modells
Unser Ansatz ist es, Ähnlichkeiten zwischen Nutzern zu modellieren. Basierend auf den Bewertungen der **ähnlichsten Nutzer** werden wir dann Vorhersagen für fehlende Bewertungen berechnen. Zunächst wir jedoch ein Maß zur Quantifizierung von Ähnlichkeit benötigt.

### Ähnlichkeitsmaß

Konkret modellieren wir die Ähnlichkeit zwischen zwei beliebigen Nutzern über **die mittlere betragsmäßige Abweichung** der Bewertungen. Dabei werden nur die Filme berücksichtigt, die **beide** Nutzer bewertet haben

**Beispiel:**



<div style="text-align:center">
<img src="../figs/user_comparison.png" width="300"/> 
 </div>
 

$$S_{u_1, u_2} = \frac{ |2 - 1 | + |4 - 2| + | 1 - 3 |}{3} = \frac{5}{3}$$

Hierbei ist $S_{u_1,u_2}$, der berechnete Ähnlichkeitswert von Nutzer $u_1$  und Nutzer $u_2$. 


**Allgemein: Berechnung der Ähnlichkeit für zwei beliebige Nutzer**

$$ S_{u_1, u_2} = \frac{1}{N_{u_1,u_2}} \cdot \sum_{j \text{ mit } R_{u_1,j}, R_{u_2,j} > 0} (R_{u_1,j} - R_{u_2,j})$$


Hierbei ist 
* $N_{u_1,u_2}$, die Anzahl der gemeinsamen bewerteten Filme von User $u_1$ und User $u_2$ 
* $R_{u_1,j}$, die  Bewertung von Nutzer $u_1$ für Film $j$  
* $R_{u_2,j}$, die  Bewertung von Nutzer $u_2$ für Film $j$
 

Die berechneten Ähnlichkeitswerte speichern wir für alle Nutzer in einer neuen Tabelle, der Ähnlichkeitstabelle $S$. Dieser Tabelle kann man schnell entnehmen, welche Nutzer sich besonders ähnlich sind. Je kleiner der Wert $S_{u_1,u_2}$, desto ähnlicher sind sich die beiden betrachteten Nutzer.



<div style="text-align:center">
<img src="../figs/Rating_und_Aehnlichkeitstabelle.png" width="1000"/> 
 </div>
 


### Berechnung einer Vorhersage

Um für einen beliebigen Nutzer $u_1$, der den Film $j$ noch nicht gesehen hat, eine Vorhersage zu berechnen gehen wir wie folgt vor:
Wir suchen die $10$ (oder allgemeiner $k$) ähnlichsten Nutzer zu Nutzer $u_1$, die den Film $j$ bereits bewertet haben. 
Die vorhergesagte Bewertung berechnen wir dann über die mittlere Bewertung dieser $k$ ähnlichsten Nutzer:

$$P_{u_1,j} = \frac{\sum_{u_i} R_{u_i,j}}{k}$$


## Computergestützte Berechnungen

Mithilfe von Python führen wir folgende Schritte durch:

1. Berechne paarweise die Ähnlichkeit basierend auf der mittleren betragsmäßigen Abweichung.
    
2. Speichere die Ähnlichkeitswerte in einer neuen Ähnlichkeitstabelle S.
    
3. Für alle fehlenden Bewertungen $R_{i,j}$ in der Trainingstabelle:
    * Berechne Vorhersage als Mittelwert der Bewertungen der $k$ ähnlichsten Nutzer, die den Film $j$ bewertet haben.
    * Speichere die Vorhersagen in einer neuen Tabelle P (engl. *predicitions*).


In folgender Codezelle, wird das beschriebene Modell zur Vorhersage der fehlenden Bewertungen umgesetzt. 

In [None]:
# Berechnung der paarweisen Ähnlichkeiten
def similarity_user_based(R):
    # Initialisiere die Ähnlichkeitstabelle mit nan-Einträgen
    S =  np.ones((R.shape[0], R.shape[0])) * np.nan
    
    # Iteriere über alle Nutzer-Paare i und j
    for i in range(R.shape[0]):
        for j in range(R.shape[0]):
            if i != j:
                if np.count_nonzero(~np.isnan(R[i] - R[j])) > 0: # Prüfe, ob Nutzer i und j überhaupt Filme gemeinsam bewertet haben
                    # Berechne mittlere betragsmäßige Abweichung für gemeinsam bewertete Filme
                    S[i, j] = np.nansum(np.abs(R[i] - R[j])) / np.count_nonzero(~np.isnan(R[i] - R[j])) 
    return S

S = similarity_user_based(R_train)
print(S)

**Berechnung der Vorhersage**

Die Vorhersagen speichern wir in einer neuen Tabelle $P$ (von engl. predicion). 
Diese initialisieren wir in folgender Codezelle. Alle Einträge von P sind zunächst Null.

In [None]:
from tqdm.notebook import tqdm # Bibliothek zur Anzeige des Berechnungsfortschritts -- wird noch geloescht!

def predict_ratings(R, S, k):
    
    '''
    R = Trainingsdaten
    S = Ähnlichkeitstabelle
    k = Anzahl berücksichtigter nächster Nachbarn
    '''
    
   # Initialisiere die Vorhersagetabelle P mit Nullen
    P = np.zeros_like(R) # Tabelle P mit gleicher Größe wie R_train
    
    # Iteriere über alle Benutzer
    for i in tqdm(range(R.shape[0])):
        
        # Sortiere die Ähnlichkeitstabelle für Nutzer i aufsteigend
        sorted_similar_users = S[i].argsort() 
        
        for j in range(R.shape[1]):
            # Prüfe, ob Bewertung von User i für Film j fehlt
            if np.isnan(R[i,j]):
               
                # Speichere die Filmbewertungen der k ähnlichsten User für Film j, sofern diese User den Film bewertet haben.
                movie_ratings = [R[x, j] for x in sorted_similar_users if not np.isnan(R[x, j])][:k]
                
                # Prüfe, ob unter den k ähnlichsten Usern ein Nutzer den Film j bewertet hat.
                if np.isnan(movie_ratings).all():
                    P[i,j] = np.nan
                else:
                    # Berechne den Mittelwert aus den Bewertungen der k ähnlichsten Nutzer
                    P[i,j] = np.nanmean(movie_ratings)
    return P
        
P = predict_ratings(R_train, S, k=5) 

In [None]:
# Ausgabe von P
print(P)

## Validierung der mathematischen Lösung

Wir nutzen die Werte in der Tabelle `R_test` um zu bewerten, wie gut unser Modell die Bewertungen vorhersagt. Als Bewertungsmaß nutzen wir die **Wurzel der gemittelten Summe der Fehlerquadrate** (engl. *Root Mean Squared Error*, kurz RMSE).

Diese lässt sich wie folgt berechnen:

$$ \sqrt{\frac{1}{N} \cdot \left((R_{11} - P_{11})^2 + (R_{12} - P_{12})^2 + (R_{13} - P_{13})^2 + ... + (R_{NN} - P_{NN})^2\right)}.$$

Hierbei ist 
* $N$, die Anzahl der Bewertungen im Testdatensatz
* $R_{ij}$, die bekannte Bewertung im Testdatensatz von Nutzer $i$ für Film $j$ 
* $P_{ij}$, die vorhergesagte Bewertung von Nutzer $i$ für Film $j$ 

In dieser Formel werden also nur die Einträge der Testmatrix $R_{ij}$ berücksichtigt, die tatsächlich bekannt sind.

Wir nutzen das Summenzeichen, um die Formel kompakter darzustellen:

$$\sqrt{\sum_{i,j: r_{ij} \neq 0} \frac{1}{N} (R_{ij} - P_{ij})^2} $$


In [None]:
def compute_RMSE(R,P):
    idx = np.where(R>0) # Indizes bei denen R_test ≠ 0
    N = np.sum(R > 0) # Anzahl Bewertungen im Testdatensatz
    missing_prediction = np.count_nonzero(np.isnan(P[idx])) # Anzahl an Testdaten, für die keine Vorhersage vorliegt 
    
    # Berechne Fehler zwischen tatsächlichen Bewertungen im Testdatensatz und Vorhersagen
    error = np.sqrt(1/N * np.nansum((R[idx] - P[idx])**2))
    print(f"Fehler auf den Testdaten:\n {error}")
    print(f"\nFür {missing_prediction/N*100} % der Testdaten wurde keine Vorhersage berechnet.")
    
    return

In [None]:
# Berechnung des Fehlers bezüglich der Testdaten
compute_RMSE(R_test,P)

## Interpretation der Lösung

Der Fehler bezüglich der Testdaten ist noch recht hoch. Zudem werden mit dem bisherigen Modell für viele Nutzer gar keine Vorhersagen berechnet. Für diese Nutzer können wir somit keine Filmempfehlungen aussprechen.


# IV. Zweiter Modellansatz

<div class = "alert alert-warning">
In der Praxis, sowohl in Forschung als auch Wirtschaft, liefert der erste Durchgang durch den Modellierungskreislauf selten eine zufriedenstellende Lösung! Stattdessen ist es meist notwendig, einige Male durch den Modellierungskreislauf zu laufen und alle oder einzelne Schritte zu überdenken und erneut auszuführen.
    
In diesem Abschnitt werden Modellverbesserungen beschrieben, dokumentiert und umgesetzt.
</div>


## Modifiziertes Modell
Um für alle fehlenden Bewertungen eine Vorhersage zu berechnen, modfizieren wir uns Modell. 
In den Fällen, in denen unser bisheriger Algorithmus keine Vorhersage berechnet, setzen wir die mittlere Bewertung des betrachteten Filmes als Vorhersage.


**Beispiel:** Für den Nutzer $i$ und den Film $j$ konnte mit dem bisherigen *k-nächste Nachbarn*-Verfahren keine Vorhersage berechnet werden. Wir berechnen dann die mittlere Bewertung des Filmes $j$ über alle Nutzer, die diesen Film bewertet haben.  Anschließend setzen wir diesen Mittelwert als Vorhersage: 


$P_{i,j} = \frac{1}{N_j} \cdot \sum_{i} R_{i,j}$

Hierbei ist $N_j$ die Anzahl an Bewertungen, die für Film $j$ vorliegen. 

Das modifizierte Verfahren wird in der folgenden Codezelle umgesetzt.

In [None]:
def predict_ratings_with_movie_mean(R, S, k):
    
    '''
    R = Trainingsdaten
    S = Ähnlichkeitstabelle
    k = Anzahl berücksichtigter nächster Nachbarn
    '''
    
   # Initialisiere die Vorhersagetabelle P mit Nullen
    P = np.zeros_like(R) # Tabelle P mit gleicher Größe wie R_train
    movie_mean_value = np.nanmean(R, axis = 0) 
    movie_mean_value[np.isnan(movie_mean_value)] = np.nanmean(R) #  np.nanmean ignoriert nan-Einträge bei Berechnung des Mittelwerts
    
    # Iteriere über alle Benutzer
    for i in tqdm(range(R.shape[0])):
        
        # Sortiere die Ähnlichkeitstabelle für Nutzer i aufsteigend
        sorted_similar_users = S[i].argsort()
        
        for j in range(R.shape[1]):
            # Prüfe, ob Bewertung von User i für Film j fehlt
            if np.isnan(R[i,j]):
                # Speichere die Filmbewertungen der k ähnlichsten User für Film j, sofern User den Film bewertet hat.
                movie_ratings = [R[x, j] for x in sorted_similar_users if not np.isnan(R[x, j])][:k]
                
                if np.isnan(movie_ratings).all():
                    # Falls keine Vorhersage berechnet werden kann, setze mittlere Bewertung des Filmes j als Vorhersage
                    P[i,j] = movie_mean_value[j] 
                else:
                    # Sonst berechne mittlere Bewertung der k ähnlichsten Nutzer
                    P[i,j] = np.nanmean(movie_ratings)
    return P
        
P = predict_ratings_with_movie_mean(R_train, S, k=5) 


Der Fehler auf den Testdaten beträgt dann:

In [None]:
compute_RMSE(R_test,P)

Der Fehler auf den Testdaten ist nun ...
<div class = "alert alert-warning">
Hier sollte der Fehler eingeordnet werden. Ist er geringer oder größer? Woran kann dies liegen?
</div>


<div class = "alert alert-warning">
... <i class="fas fa-sync"></i> ... <br>
    Hier sollten weitere Abschnitte (Interpretation der neuen Ergebnisse im Hinblick auf das reale Problem oder ggf. weitere Modellansätze) folgen.
</div>

# V. Schlussfolgerung / Empfehlungen 

<div class = "alert alert-warning">
Hier wird der gesamte Modellierungs- und Programmierprozess im Hinblick auf das reale Problem resümiert. Zentrale Erkenntnisse und Hinweise an die oder den Problemstellenden werden zusammengefasst.
</div>

# Ausblick
<div class = "alert alert-warning">
Hier werden mögliche weitere Modellverbesserungsideen beschrieben, die im Rahmen des Projektes (bspw. aus Zeitgründen, wegen fehlender Daten o.ä.) nicht umgesetzt werden konnten.
</div>

* Die Berechnung einer Vorhersage erfolgt bisher über die mittlere Bewertung der $k$ ähnlichsten User. Die Bewertungen der $k$ ähnlichsten Nutzer könnten zusätzlich gemäß ihrer Ähnlichkeit gewichtet werden. Die Vorhersage wird dann über einen **gewichteten Mittelwert** berechnet. 
* Andere Ähnlichkeitsmaße könnten hergeleitet und getestet werden. Zum Beispiel ...
* Weiterhin wäre es sinnvoll, den Wert für den Parameter $k$ zu optimieren. Dazu könnte man ...
* ...