# Recommender System für Bibliona

**Team:** Sarah Blatz, Ida Krämer, Annika Rathai, Markus Kühnle

In diesem Projekt entwickeln wir ein kollaboratives Empfehlungssystem für die Buchplattform Bibliona. Ziel ist es, personalisierte Buchempfehlungen auf Basis vergangener Nutzerbewertungen zu generieren. Wir setzen dabei auf ein bewährtes SVD-Modell (Singular Value Decomposition), das Nutzer- und Item-Latenzfaktoren lernt und daraus individuelle Vorhersagen ableitet.

Zu Beginn analysieren wir die Datenqualität, insbesondere mögliche Cold-Start-Probleme und die Nutzbarkeit von Metadaten für contentbasierte Verfahren. Auf Basis dieser Analyse bereinigen wir anschließend das Rating-Set, indem wir zu dünn besetzte Nutzer- und Item-Profile entfernen, und schaffen so eine stabilere Datengrundlage für das Modelltraining. Daraufhin trainieren wir ein SVD-Modell mit festen Hyperparametern und evaluieren dessen Leistung mit klassischen Fehlermaßen wie MAE und RMSE sowie mit Top-N-Metriken wie Precision@K und Recall@K, um die Qualität der generierten Empfehlungen zu bewerten.

Das System generiert Top-N-Empfehlungen inklusive Confidence-Score (High/Medium/Low) und einer einfachen Erklärungskomponente, die transparent aufzeigt, wie sich die finale Vorhersage zusammensetzt (globaler Mittelwert + Biases + Interaktion). Damit entsteht ein robustes, nachvollziehbares Empfehlungssystem, das praxisnah für reale Anwendungsszenarien auf der Plattform ausgelegt ist.

## Warum SVD statt User-Based und Item-Based Collaborative Filtering?

Nach der Analyse verschiedener kollaborativer Filtering-Ansätze haben wir uns für **SVD (Singular Value Decomposition)** entschieden, da es gegenüber klassischen User-Based und Item-Based Methoden entscheidende Vorteile bietet. Während User-Based CF ähnliche Nutzer sucht und deren Bewertungen übernimmt, und Item-Based CF Ähnlichkeiten zwischen Items berechnet, löst SVD das fundamentale Problem der **hohen Dimensionalität und Sparsity** unserer Nutzer-Item-Matrix durch **Latent Factor Modeling**. Das Modell lernt automatisch versteckte Faktoren (z.B. Genre-Präferenzen, Lesestil, Komplexitätsgrad), die Nutzer und Items in einem niedrigdimensionalen Vektorraum repräsentieren. Diese **Latenzfaktoren** ermöglichen es, auch bei extrem spärlichen Daten (wie in unserem Fall mit über 98% Leerwerten in den Metadaten) aussagekräftige Ähnlichkeiten zu finden. Zusätzlich bietet SVD durch die explizite Modellierung von **globalen, Nutzer- und Item-Biases** eine bessere Interpretierbarkeit der Vorhersagen und kann systematische Bewertungsunterschiede zwischen Nutzern (streng vs. großzügig) und Items (beliebt vs. unbekannt) berücksichtigen. Die finale Vorhersage ergibt sich dabei aus der Summe von globalem Durchschnitt, individuellen Biases und der Interaktion zwischen den latenten Nutzer- und Item-Vektoren, was eine transparente Erklärung der Empfehlungen ermöglicht. 

## Imports

In [1]:
!python --version

Python 3.10.16


In [None]:
!pip install numpy==1.26.4 scikit-learn==1.7.0 scikit-surprise==1.1.4 

Looking in indexes: https://gitlabci:****@gitlab.sigmalto.com/api/v4/projects/573/packages/pypi/simple, https://pypi.org/simple


In [6]:
import pandas as pd

from pathlib import Path
from typing import List, Tuple, Dict, Set

import pandas as pd
import numpy as np

from surprise import Dataset, Reader, SVD, accuracy
from surprise.model_selection import GridSearchCV
from sklearn.preprocessing import MinMaxScaler

In [7]:
# Load the datasets
ratings_df: pd.DataFrame = pd.read_csv('../data/Bewertungsmatrix_Bibliona.csv')
itemprofile_df: pd.DataFrame = pd.read_csv('../data/Itemprofile_Bibliona.csv')
bewertung_df: pd.DataFrame = pd.read_csv('../data/Itemprofile_Bibliona.csv')
test_df: pd.DataFrame = pd.read_csv('../data/Testdaten_Bibliona.csv')

In [16]:
itemprofile_df.head()

Unnamed: 0,item_ID,Book-Title,Pages,Publication_Year,Publisher,"Author_(mei) Kan, fei er de",Author_A. A. Milne,Author_A. Manette Ansay,Author_A. S. Byatt,Author_AMY TAN,...,Genre_literary fiction,Genre_open_syllabus_project,Genre_orphans,Genre_psychological fiction,Genre_science fiction,Genre_suicide,Genre_suspense,Genre_suspense fiction,Genre_thrillers,Genre_Écoles
0,440234743,The Testament,,2000.0,Dell,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,452264464,Beloved (Plume Contemporary Fiction),275.0,1988.0,Plume,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,971880107,Wild Animus,315.0,2004.0,Too Far,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,345402871,Airframe,431.0,1997.0,Ballantine Books,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,345417623,Timeline,496.0,2000.0,Ballantine Books,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


---

Um die Datenqualität besser einzuschätzen, habe ich überprüft, wie viele Bewertungen pro Nutzer vorliegen und wie vollständig die Item-Metadaten sind. Ziel war es zu erkennen, ob Cold-Start-Probleme auftreten könnten und ob sich die Metadaten für contentbasierte Modelle eignen.

In [8]:
# Check 1: Distribution of number of books rated per user
user_item_rating_counts: pd.Series = ratings_df.drop(columns=['user_ID']).notna().sum(axis=1)

# Check 2: Number of users who rated fewer than 10 books
number_of_users_with_less_than_10_ratings: int = (user_item_rating_counts < 10).sum()
proportion_of_users_with_less_than_10_ratings: float = (user_item_rating_counts < 10).mean()

# Check 3: Sparsity of metadata (proportion of non-zero binary features)
binary_feature_columns: list[str] = [col for col in itemprofile_df.columns if col.startswith('Genre_') or col.startswith('Author_')]
item_binary_feature_matrix: pd.DataFrame = itemprofile_df[binary_feature_columns].fillna(0)
metadata_sparsity_ratio: float = (item_binary_feature_matrix == 0).sum().sum() / item_binary_feature_matrix.size

# Prepare results for display
statistics_summary_dataframe: pd.DataFrame = pd.DataFrame({
    "Metric": [
        "Total users",
        "Users with <10 ratings",
        "Proportion of users with <10 ratings",
        "Total metadata features",
        "Metadata sparsity ratio (0 = dense, 1 = empty)"
    ],
    "Value": [
        len(user_item_rating_counts),
        number_of_users_with_less_than_10_ratings,
        proportion_of_users_with_less_than_10_ratings,
        len(binary_feature_columns),
        metadata_sparsity_ratio
    ]
})

statistics_summary_dataframe

Unnamed: 0,Metric,Value
0,Total users,798.0
1,Users with <10 ratings,23.0
2,Proportion of users with <10 ratings,0.028822
3,Total metadata features,792.0
4,"Metadata sparsity ratio (0 = dense, 1 = empty)",0.982766


Die Analyse zeigt: Nur ca. 2,9 % der Nutzer haben weniger als 10 Bewertungen abgegeben, Cold-Start bei Nutzern ist also ein begrenztes Problem. Die Metadaten hingegen sind extrem spärlich (über 98 % Leerwerte), was sie für contentbasierte Ansätze nahezu unbrauchbar macht. Das bestätigt, dass kollaborative Verfahren wie SVD sinnvoller sind.

---

# Unser Recommender System

## 1. Daten laden

Hier wird sichergestellt, dass alle vier bereitgestellten Datensätze geladen werden. Das ist die Grundlage für alles Weitere. Wir holen uns die Bewertungen, das Test-Set, das Item-Profil (Bücher mit Features), und die Bewertungsmatrix für Fallbacks.

In [9]:
def load_all_data(
    ratings_path: str,
    test_path: str,
    itemprofile_path: str,
    bewertungsmatrix_path: str
) -> Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.DataFrame]:
    ratings_df = pd.read_csv(ratings_path)
    test_df = pd.read_csv(test_path)
    itemprofile_df = pd.read_csv(itemprofile_path)
    bewertung_df = pd.read_csv(bewertungsmatrix_path, index_col=0)
    return ratings_df, test_df, itemprofile_df, bewertung_df

## 2. Preprocessing: Entfernen von zu dünnen Nutzern und Items

Wir filtern alle Nutzer raus, die zu wenige Bewertungen abgegeben haben, und auch Items, die zu selten bewertet wurden. Das verbessert die Trainingsdatenqualität und reduziert Cold-Start-Probleme im Modell.

In [10]:
def filter_sparse_users_items(df: pd.DataFrame, user_thresh: int = 10, item_thresh: int = 5) -> pd.DataFrame:
    user_counts = df['user_ID'].value_counts()
    item_counts = df['item_ID'].value_counts()
    return df[
        df['user_ID'].isin(user_counts[user_counts >= user_thresh].index) &
        df['item_ID'].isin(item_counts[item_counts >= item_thresh].index)
    ]

## 3. Modelltraining mit SVD

Hier wird ein kollaboratives Filtermodell auf Basis von SVD (Singular Value Decomposition) trainiert. Die Hyperparameter wurden bewusst fix gesetzt, da wir ohnehin mit einer limitierten Datenbasis arbeiten.

In [11]:
def train_best_svd_model(ratings_df: pd.DataFrame) -> Tuple[SVD, Dataset]:
    reader = Reader(rating_scale=(1, 10))
    data = Dataset.load_from_df(ratings_df[['user_ID', 'item_ID', 'rating']], reader)

    param_grid = {
        'n_factors': [50],
        'n_epochs': [30],
        'lr_all': [0.005],
        'reg_all': [0.02]
    }

    gs = GridSearchCV(SVD, param_grid, measures=['rmse'], cv=3, joblib_verbose=0)
    gs.fit(data)

    best_algo = gs.best_estimator['rmse']
    trainset = data.build_full_trainset()
    best_algo.fit(trainset)

    return best_algo, trainset

## 4.  Zusatzfunktionen: Confidence + Erklärbarkeit

Wir geben eine einfache Confidence-Stufe für Empfehlungen aus und bieten zusätzlich eine rudimentäre "Explainability", d.h. wie sich die Vorhersage zusammensetzt, bestehend aus globalem Durchschnitt, Nutzer- und Item-Bias und Interaktion.

In [12]:
def compute_confidence(score: float) -> str:
    if score >= 0.85:
        return "High"
    elif score >= 0.5:
        return "Medium"
    else:
        return "Low"
    
    
def explain_prediction(algo: SVD, user_id: int, item_id: str) -> Dict[str, float]:
    details = {}
    try:
        user_inner = algo.trainset.to_inner_uid(user_id)
        item_inner = algo.trainset.to_inner_iid(item_id)
        u_bias = algo.pu[user_inner]
        i_bias = algo.qi[item_inner]
        pred = algo.predict(user_id, item_id)
        details = {
            "global_mean": algo.trainset.global_mean,
            "user_bias": algo.bu[user_inner],
            "item_bias": algo.bi[item_inner],
            "interaction": np.dot(u_bias, i_bias),
            "final_pred": pred.est
        }
    except Exception:
        pass
    return details

## 5. Empfehlungen generieren

Für einen Nutzer holen wir Top-N Empfehlungen, skalieren die Scores, fügen Confidence und Erklärungen hinzu. Falls Cold Start, nutzen wir die Bewertungsmatrix als Rückfall.

In [13]:
def get_top_n_recommendations(
    algo: SVD,
    trainset,
    user_id: int,
    top_n: int,
    bewertung_df: pd.DataFrame,
    itemprofile_df: pd.DataFrame
) -> List[Tuple[str, float, str, Dict]]:
    try:
        inner_user_id = trainset.to_inner_uid(user_id)
        rated_items = set(trainset.to_raw_iid(iid) for (iid, _) in trainset.ur[inner_user_id])
        all_items = set(trainset._raw2inner_id_items.keys())
        unseen_items = list(all_items - rated_items)

        raw_predictions = [(iid, algo.predict(user_id, iid).est) for iid in unseen_items]
        scores = [s for _, s in raw_predictions]
        if scores:
            scaler = MinMaxScaler()
            scaled = scaler.fit_transform(np.array(scores).reshape(-1, 1)).flatten()
            enriched_preds = []
            for (iid, _), score in zip(raw_predictions, scaled):
                confidence = compute_confidence(score)
                explanation = explain_prediction(algo, user_id, iid)
                enriched_preds.append((iid, score, confidence, explanation))
            return sorted(enriched_preds, key=lambda x: x[1], reverse=True)[:top_n]
        return []
    except ValueError:
        # Cold-start fallback
        if str(user_id) in bewertung_df.index:
            fallback = list(bewertung_df.loc[str(user_id)].sort_values(ascending=False).head(top_n).items())
            return [(iid, 1.0, "Low", {}) for iid, _ in fallback]
        return []

## 6. Evaluation mit Precision@K, Recall@K, MAE und RMSE

Um zu sehen, ob unser Modell etwas taugt, evaluieren wir es mit Metriken wie MAE, RMSE und natürlich Precision@K & Recall@K (für Top-N-Recommendations).

In [14]:
def precision_at_k(predictions: List[Tuple[str, float, str, Dict]], ground_truth: Set[str], k: int) -> float:
    recommended = [item for item, *_ in predictions[:k]]
    return len(set(recommended) & ground_truth) / k if k > 0 else 0.0


def recall_at_k(predictions: List[Tuple[str, float, str, Dict]], ground_truth: Set[str], k: int) -> float:
    recommended = [item for item, *_ in predictions[:k]]
    return len(set(recommended) & ground_truth) / len(ground_truth) if ground_truth else 0.0


def evaluate_model(
    algo: SVD,
    test_df: pd.DataFrame,
    trainset,
    top_k: int,
    bewertung_df: pd.DataFrame,
    itemprofile_df: pd.DataFrame,
    threshold: int = 7
) -> Dict[str, float]:
    test_preds = []
    precision_sum = 0.0
    recall_sum = 0.0
    user_count = 0

    for user_id in test_df["user_ID"].unique():
        user_test = test_df[test_df["user_ID"] == user_id]
        relevant_items = set(user_test[user_test["rating"] >= threshold]["item_ID"])
        recommendations = get_top_n_recommendations(algo, trainset, user_id, top_k, bewertung_df, itemprofile_df)

        if recommendations and relevant_items:
            precision_sum += precision_at_k(recommendations, relevant_items, top_k)
            recall_sum += recall_at_k(recommendations, relevant_items, top_k)
            user_count += 1

        for _, row in user_test.iterrows():
            test_preds.append(algo.predict(row["user_ID"], row["item_ID"], row["rating"]))

    mae = accuracy.mae(test_preds, verbose=False)
    rmse = accuracy.rmse(test_preds, verbose=False)

    return {
        "MAE": mae,
        "RMSE": rmse,
        "Precision@K": precision_sum / user_count if user_count else 0.0,
        "Recall@K": recall_sum / user_count if user_count else 0.0
    }

## 7. Main Funktion zum Ausführen

Hier passiert alles: Daten laden, Vorverarbeitung, Training, Evaluation und Anzeigen der Top-Empfehlungen mit Confidence und Erklärung. Ideal für direkte Runs oder als Einstiegspunkt für weitere Tests.

In [15]:
def main():
    ratings_path = '../data/Ratings_Bibliona.csv' # TODO: Pfad zu Ratings angeben
    test_path = '../data/Testdaten_Bibliona.csv' # TODO: hier Datensatz zur Evaluation ändern
    itemprofile_path = '../data/Itemprofile_Bibliona.csv' # TODO: Pfad zu Itemprofile angeben
    bewertung_path = '../data/Bewertungsmatrix_Bibliona.csv' # TODO: Pfad zu Bewertungsmatrix angeben

    ratings_df, test_df, itemprofile_df, bewertung_df = load_all_data(
        ratings_path, test_path, itemprofile_path, bewertung_path
    )

    ratings_df = filter_sparse_users_items(ratings_df)
    algo, trainset = train_best_svd_model(ratings_df)
    metrics = evaluate_model(algo, test_df, trainset, top_k=10,
                             bewertung_df=bewertung_df,
                             itemprofile_df=itemprofile_df)
    print("Evaluation Results:", metrics)

    example_user = 243 # TODO: Hier kann die Nutzer-ID für einen beliebigen Nutzer gesetzt werden
    recommendations = get_top_n_recommendations(
        algo, trainset, example_user, 10, bewertung_df, itemprofile_df
    )

    print(f"\nTop 10 recommendations for user {example_user}:")
    for item_id, score, confidence, explanation in recommendations:
        print(f"Item ID: {item_id}, Score: {score:.2f}, Confidence: {confidence}")
        print(f"   → Explain: {explanation}")


if __name__ == "__main__":
    main()

Evaluation Results: {'MAE': 1.1382262440820807, 'RMSE': 1.5398554806003166, 'Precision@K': 0.003913043478260871, 'Recall@K': 0.02716183574879227}

Top 10 recommendations for user 243:
Item ID: 0345339738, Score: 1.00, Confidence: High
   → Explain: {'global_mean': 7.977304341459844, 'user_bias': -0.0010588749393593089, 'item_bias': 1.343942962588493, 'interaction': 0.06423197052692262, 'final_pred': 9.3844203996359}
Item ID: 0877017883, Score: 1.00, Confidence: High
   → Explain: {'global_mean': 7.977304341459844, 'user_bias': -0.0010588749393593089, 'item_bias': 1.146294013669592, 'interaction': 0.26046834762399096, 'final_pred': 9.383007827814067}
Item ID: 0679723161, Score: 0.97, Confidence: High
   → Explain: {'global_mean': 7.977304341459844, 'user_bias': -0.0010588749393593089, 'item_bias': 1.2302347513311311, 'interaction': 0.027248870936890157, 'final_pred': 9.233729088788506}
Item ID: 0553274295, Score: 0.96, Confidence: High
   → Explain: {'global_mean': 7.977304341459844, 'u

**Bewertung & Beispielausgabe**

Die Evaluierung des SVD-Modells zeigt solide RMSE- und MAE-Werte, allerdings fällt die Precision@K mit 0.0035 und die Recall@K mit 0.0214 eher schwach aus. Das liegt vermutlich an der hohen Item-Vielfalt und sparsamen Nutzer-Item-Matrix, wodurch relevante Empfehlungen schwerer zu treffen sind.

Als Beispiel zeigt die Ausgabe für Nutzer 243 zehn Top-Empfehlungen mit hoher Konfidenz. Neben der reinen Score-Normalisierung (0–1) wird jede Empfehlung durch eine einfache "Explainability"-Komponente ergänzt: Die finale Vorhersage ergibt sich aus dem globalen Durchschnitt, dem Nutzer-Bias, dem Item-Bias sowie der latenten Interaktion zwischen Nutzer- und Item-Vektor. Dadurch lassen sich Vorhersagen transparenter nachvollziehen, z. B. ob sie eher durch starke Item-Beliebtheit oder durch ein hohes Matching-Profil zwischen Nutzer und Item beeinflusst sind.