# Recommender System für Bibliona

**Team:** Sarah Blatz, Ida Krämer, Annika Rathai, Markus Kühnle

In diesem Projekt entwickeln wir ein kollaboratives Empfehlungssystem für die Buchplattform Bibliona. Ziel ist es, personalisierte Buchempfehlungen auf Basis vergangener Nutzerbewertungen zu generieren. Wir setzen dabei auf ein bewährtes SVD-Modell (Singular Value Decomposition), das Nutzer- und Item-Latenzfaktoren lernt und daraus individuelle Vorhersagen ableitet.

Zu Beginn analysieren wir die Datenqualität, insbesondere mögliche Cold-Start-Probleme und die Nutzbarkeit von Metadaten für contentbasierte Verfahren. Auf Basis dieser Analyse bereinigen wir anschließend das Rating-Set, indem wir zu dünn besetzte Nutzer- und Item-Profile entfernen, und schaffen so eine stabilere Datengrundlage für das Modelltraining. Daraufhin trainieren wir ein SVD-Modell mit festen Hyperparametern und evaluieren dessen Leistung mit klassischen Fehlermaßen wie MAE und RMSE sowie mit Top-N-Metriken wie Precision@K und Recall@K, um die Qualität der generierten Empfehlungen zu bewerten.

Das System generiert Top-N-Empfehlungen inklusive Confidence-Score (High/Medium/Low) und einer einfachen Erklärungskomponente, die transparent aufzeigt, wie sich die finale Vorhersage zusammensetzt (globaler Mittelwert + Biases + Interaktion). Damit entsteht ein robustes, nachvollziehbares Empfehlungssystem, das praxisnah für reale Anwendungsszenarien auf der Plattform ausgelegt ist.

## Warum SVD statt User-Based und Item-Based Collaborative Filtering?

Nach der Analyse verschiedener kollaborativer Filtering-Ansätze haben wir uns für **SVD (Singular Value Decomposition)** entschieden, da es gegenüber klassischen User-Based und Item-Based Methoden entscheidende Vorteile bietet. Während User-Based CF ähnliche Nutzer sucht und deren Bewertungen übernimmt, und Item-Based CF Ähnlichkeiten zwischen Items berechnet, löst SVD das fundamentale Problem der **hohen Dimensionalität und Sparsity** unserer Nutzer-Item-Matrix durch **Latent Factor Modeling**. Das Modell lernt automatisch versteckte Faktoren (z.B. Genre-Präferenzen, Lesestil, Komplexitätsgrad), die Nutzer und Items in einem niedrigdimensionalen Vektorraum repräsentieren. Diese **Latenzfaktoren** ermöglichen es, auch bei extrem spärlichen Daten (wie in unserem Fall mit über 98% Leerwerten in den Metadaten) aussagekräftige Ähnlichkeiten zu finden. Zusätzlich bietet SVD durch die explizite Modellierung von **globalen, Nutzer- und Item-Biases** eine bessere Interpretierbarkeit der Vorhersagen und kann systematische Bewertungsunterschiede zwischen Nutzern (streng vs. großzügig) und Items (beliebt vs. unbekannt) berücksichtigen. Die finale Vorhersage ergibt sich dabei aus der Summe von globalem Durchschnitt, individuellen Biases und der Interaktion zwischen den latenten Nutzer- und Item-Vektoren, was eine transparente Erklärung der Empfehlungen ermöglicht. 

## Imports

In [18]:
!python --version

Python 3.10.16


In [19]:
!pip install numpy==1.26.4 scikit-learn==1.7.0 scikit-surprise==1.1.4 

Looking in indexes: https://gitlabci:****@gitlab.sigmalto.com/api/v4/projects/573/packages/pypi/simple, https://pypi.org/simple


In [20]:
import pandas as pd
from typing import Optional

from pathlib import Path
from typing import List, Tuple, Dict, Set

import pandas as pd
import numpy as np

from surprise import Dataset, Reader, SVD, accuracy
from surprise.model_selection import GridSearchCV
from sklearn.preprocessing import MinMaxScaler

In [21]:
# Load the datasets
ratings_df: pd.DataFrame = pd.read_csv('../data/Bewertungsmatrix_Bibliona.csv')
itemprofile_df: pd.DataFrame = pd.read_csv('../data/Itemprofile_Bibliona.csv')
bewertung_df: pd.DataFrame = pd.read_csv('../data/Itemprofile_Bibliona.csv')
test_df: pd.DataFrame = pd.read_csv('../data/Testdaten_Bibliona.csv')

In [22]:
itemprofile_df.head()

Unnamed: 0,item_ID,Book-Title,Pages,Publication_Year,Publisher,"Author_(mei) Kan, fei er de",Author_A. A. Milne,Author_A. Manette Ansay,Author_A. S. Byatt,Author_AMY TAN,...,Genre_literary fiction,Genre_open_syllabus_project,Genre_orphans,Genre_psychological fiction,Genre_science fiction,Genre_suicide,Genre_suspense,Genre_suspense fiction,Genre_thrillers,Genre_Écoles
0,440234743,The Testament,,2000.0,Dell,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,452264464,Beloved (Plume Contemporary Fiction),275.0,1988.0,Plume,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,971880107,Wild Animus,315.0,2004.0,Too Far,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,345402871,Airframe,431.0,1997.0,Ballantine Books,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,345417623,Timeline,496.0,2000.0,Ballantine Books,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [32]:
bewertung_df.head()

Unnamed: 0,item_ID,Book-Title,Pages,Publication_Year,Publisher,"Author_(mei) Kan, fei er de",Author_A. A. Milne,Author_A. Manette Ansay,Author_A. S. Byatt,Author_AMY TAN,...,Genre_literary fiction,Genre_open_syllabus_project,Genre_orphans,Genre_psychological fiction,Genre_science fiction,Genre_suicide,Genre_suspense,Genre_suspense fiction,Genre_thrillers,Genre_Écoles
0,440234743,The Testament,,2000.0,Dell,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,452264464,Beloved (Plume Contemporary Fiction),275.0,1988.0,Plume,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,971880107,Wild Animus,315.0,2004.0,Too Far,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,345402871,Airframe,431.0,1997.0,Ballantine Books,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,345417623,Timeline,496.0,2000.0,Ballantine Books,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [33]:
ratings_df.head()

Unnamed: 0,user_ID,002542730X,0060096195,006016848X,0060173289,0060175400,0060188731,006019491X,0060199652,0060391626,...,1573221937,1573225517,1573225789,1573227331,1573228214,1573229326,1573229571,1576737330,1592400876,1878424319
0,243,,,,,,,,,,...,,,,,,,,,,
1,254,,,,,,,,,,...,,,,,,,,,,
2,638,,,,,,,,,,...,,,,,,,,,,
3,1131,,,,,,,,,,...,,,,,,,,,,
4,1435,,,,,,,,,,...,,,,,,,,,,


---

Um die Datenqualität besser einzuschätzen, habe ich überprüft, wie viele Bewertungen pro Nutzer vorliegen und wie vollständig die Item-Metadaten sind. Ziel war es zu erkennen, ob Cold-Start-Probleme auftreten könnten und ob sich die Metadaten für contentbasierte Modelle eignen.

In [23]:
# Check 1: Distribution of number of books rated per user
user_item_rating_counts: pd.Series = ratings_df.drop(columns=['user_ID']).notna().sum(axis=1)

# Check 2: Number of users who rated fewer than 10 books
number_of_users_with_less_than_10_ratings: int = (user_item_rating_counts < 10).sum()
proportion_of_users_with_less_than_10_ratings: float = (user_item_rating_counts < 10).mean()

# Check 3: Sparsity of metadata (proportion of non-zero binary features)
binary_feature_columns: list[str] = [col for col in itemprofile_df.columns if col.startswith('Genre_') or col.startswith('Author_')]
item_binary_feature_matrix: pd.DataFrame = itemprofile_df[binary_feature_columns].fillna(0)
metadata_sparsity_ratio: float = (item_binary_feature_matrix == 0).sum().sum() / item_binary_feature_matrix.size

# Prepare results for display
statistics_summary_dataframe: pd.DataFrame = pd.DataFrame({
    "Metric": [
        "Total users",
        "Users with <10 ratings",
        "Proportion of users with <10 ratings",
        "Total metadata features",
        "Metadata sparsity ratio (0 = dense, 1 = empty)"
    ],
    "Value": [
        len(user_item_rating_counts),
        number_of_users_with_less_than_10_ratings,
        proportion_of_users_with_less_than_10_ratings,
        len(binary_feature_columns),
        metadata_sparsity_ratio
    ]
})

statistics_summary_dataframe

Unnamed: 0,Metric,Value
0,Total users,798.0
1,Users with <10 ratings,23.0
2,Proportion of users with <10 ratings,0.028822
3,Total metadata features,792.0
4,"Metadata sparsity ratio (0 = dense, 1 = empty)",0.982766


Die Analyse zeigt: Nur ca. 2,9 % der Nutzer haben weniger als 10 Bewertungen abgegeben, Cold-Start bei Nutzern ist also ein begrenztes Problem. Die Metadaten hingegen sind extrem spärlich (über 98 % Leerwerte), was sie für contentbasierte Ansätze nahezu unbrauchbar macht. Das bestätigt, dass kollaborative Verfahren wie SVD sinnvoller sind.

---

# Unser Recommender System

## 1. Daten laden

Hier wird sichergestellt, dass alle vier bereitgestellten Datensätze geladen werden. Das ist die Grundlage für alles Weitere. Wir holen uns die Bewertungen, das Test-Set, das Item-Profil (Bücher mit Features), und die Bewertungsmatrix für Fallbacks.

In [24]:
def load_all_data(
    ratings_path: str,
    test_path: str,
    itemprofile_path: str,
    bewertungsmatrix_path: str
) -> Tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.DataFrame]:
    ratings_df = pd.read_csv(ratings_path)
    test_df = pd.read_csv(test_path)
    itemprofile_df = pd.read_csv(itemprofile_path)
    bewertung_df = pd.read_csv(bewertungsmatrix_path, index_col=0)
    return ratings_df, test_df, itemprofile_df, bewertung_df

## 2. Preprocessing: Entfernen von zu dünnen Nutzern und Items

Wir filtern alle Nutzer raus, die zu wenige Bewertungen abgegeben haben, und auch Items, die zu selten bewertet wurden. Das verbessert die Trainingsdatenqualität und reduziert Cold-Start-Probleme im Modell.

In [25]:
def filter_sparse_users_items(df: pd.DataFrame, user_thresh: int = 10, item_thresh: int = 5) -> pd.DataFrame:
    user_counts = df['user_ID'].value_counts()
    item_counts = df['item_ID'].value_counts()
    return df[
        df['user_ID'].isin(user_counts[user_counts >= user_thresh].index) &
        df['item_ID'].isin(item_counts[item_counts >= item_thresh].index)
    ]

## 3. Modelltraining mit SVD

Hier wird ein kollaboratives Filtermodell auf Basis von SVD (Singular Value Decomposition) trainiert. Die Hyperparameter wurden bewusst fix gesetzt, da wir ohnehin mit einer limitierten Datenbasis arbeiten.

In [26]:
def train_best_svd_model(ratings_df: pd.DataFrame) -> Tuple[SVD, Dataset]:
    reader = Reader(rating_scale=(1, 10))
    data = Dataset.load_from_df(ratings_df[['user_ID', 'item_ID', 'rating']], reader)

    param_grid = {
        'n_factors': [50],
        'n_epochs': [30],
        'lr_all': [0.005],
        'reg_all': [0.02]
    }

    gs = GridSearchCV(SVD, param_grid, measures=['rmse'], cv=3, joblib_verbose=0)
    gs.fit(data)

    best_algo = gs.best_estimator['rmse']
    trainset = data.build_full_trainset()
    best_algo.fit(trainset)

    return best_algo, trainset

## 4.  Zusatzfunktionen: Confidence + Erklärbarkeit

Wir geben eine einfache Confidence-Stufe für Empfehlungen aus und bieten zusätzlich eine rudimentäre "Explainability", d.h. wie sich die Vorhersage zusammensetzt, bestehend aus globalem Durchschnitt, Nutzer- und Item-Bias und Interaktion.

In [27]:
def compute_confidence(score: float) -> str:
    if score >= 0.85:
        return "High"
    elif score >= 0.5:
        return "Medium"
    else:
        return "Low"
    
    
def explain_prediction(algo: SVD, user_id: int, item_id: str) -> Dict[str, float]:
    details = {}
    try:
        user_inner = algo.trainset.to_inner_uid(user_id)
        item_inner = algo.trainset.to_inner_iid(item_id)
        u_bias = algo.pu[user_inner]
        i_bias = algo.qi[item_inner]
        pred = algo.predict(user_id, item_id)
        details = {
            "global_mean": algo.trainset.global_mean,
            "user_bias": algo.bu[user_inner],
            "item_bias": algo.bi[item_inner],
            "interaction": np.dot(u_bias, i_bias),
            "final_pred": pred.est
        }
    except Exception:
        pass
    return details

## 5. Empfehlungen generieren

Für einen Nutzer holen wir Top-N Empfehlungen, skalieren die Scores, fügen Confidence und Erklärungen hinzu. Falls Cold Start, nutzen wir die Bewertungsmatrix als Rückfall.

In [28]:
def get_top_n_recommendations(
    algo: SVD,
    trainset,
    user_id: int,
    top_n: int,
    bewertung_df: pd.DataFrame,
    itemprofile_df: pd.DataFrame
) -> List[Tuple[str, float, str, Dict, Dict[str, str]]]:
    """
    Generate top-N recommendations for a user, including confidence, explanation, and selected metadata.
    """
    try:
        inner_user_id: int = trainset.to_inner_uid(user_id)
        rated_items: set[str] = set(trainset.to_raw_iid(iid) for (iid, _) in trainset.ur[inner_user_id])
        all_items: set[str] = set(trainset._raw2inner_id_items.keys())
        unseen_items: list[str] = list(all_items - rated_items)

        # Generate predictions for all unseen items
        predictions: list[Tuple[str, float]] = []
        for item_id in unseen_items:
            pred = algo.predict(user_id, item_id)
            predictions.append((item_id, pred.est))

        scores: list[float] = [score for _, score in predictions]
        if scores:
            scaler: MinMaxScaler = MinMaxScaler()
            scaled_scores: np.ndarray = scaler.fit_transform(np.array(scores).reshape(-1, 1)).flatten()
            enriched_predictions: list[Tuple[str, float, str, Dict, Dict[str, str]]] = []
            for (item_id, _), scaled_score in zip(predictions, scaled_scores):
                confidence: str = compute_confidence(scaled_score)
                explanation: Dict = explain_prediction(algo, user_id, item_id)
                # Lookup metadata
                book_row: Optional[pd.Series] = itemprofile_df.loc[itemprofile_df['item_ID'] == item_id].squeeze() if not itemprofile_df[itemprofile_df['item_ID'] == item_id].empty else None
                metadata: Dict[str, str] = {
                    'Book-Title': book_row['Book-Title'] if book_row is not None and 'Book-Title' in book_row else 'Unknown',
                    'Publication_Year': book_row['Publication_Year'] if book_row is not None and 'Publication_Year' in book_row else 'Unknown',
                    'Publisher': book_row['Publisher'] if book_row is not None and 'Publisher' in book_row else 'Unknown'
                }
                enriched_predictions.append((item_id, scaled_score, confidence, explanation, metadata))
            return sorted(enriched_predictions, key=lambda x: x[1], reverse=True)[:top_n]
        return []
    except ValueError:
        # Cold-start fallback
        if str(user_id) in bewertung_df.index:
            fallback: list[Tuple[str, float]] = list(bewertung_df.loc[str(user_id)].sort_values(ascending=False).head(top_n).items())
            fallback_recommendations: list[Tuple[str, float, str, Dict, Dict[str, str]]] = []
            for iid, _ in fallback:
                book_row: Optional[pd.Series] = itemprofile_df.loc[itemprofile_df['item_ID'] == iid].squeeze() if not itemprofile_df[itemprofile_df['item_ID'] == iid].empty else None
                metadata: Dict[str, str] = {
                    'Book-Title': book_row['Book-Title'] if book_row is not None and 'Book-Title' in book_row else 'Unknown',
                    'Publication_Year': book_row['Publication_Year'] if book_row is not None and 'Publication_Year' in book_row else 'Unknown',
                    'Publisher': book_row['Publisher'] if book_row is not None and 'Publisher' in book_row else 'Unknown'
                }
                fallback_recommendations.append((iid, 1.0, "Low", {}, metadata))
            return fallback_recommendations
        return []

## 6. Evaluation mit Precision@K, Recall@K, MAE und RMSE

Um zu sehen, ob unser Modell etwas taugt, evaluieren wir es mit Metriken wie MAE, RMSE und natürlich Precision@K & Recall@K (für Top-N-Recommendations).

In [29]:
def precision_at_k(predictions: List[Tuple[str, float, str, Dict]], ground_truth: Set[str], k: int) -> float:
    recommended = [item for item, *_ in predictions[:k]]
    return len(set(recommended) & ground_truth) / k if k > 0 else 0.0


def recall_at_k(predictions: List[Tuple[str, float, str, Dict]], ground_truth: Set[str], k: int) -> float:
    recommended = [item for item, *_ in predictions[:k]]
    return len(set(recommended) & ground_truth) / len(ground_truth) if ground_truth else 0.0


def evaluate_model(
    algo: SVD,
    test_df: pd.DataFrame,
    trainset,
    top_k: int,
    bewertung_df: pd.DataFrame,
    itemprofile_df: pd.DataFrame,
    threshold: int = 7
) -> Dict[str, float]:
    test_preds = []
    precision_sum = 0.0
    recall_sum = 0.0
    user_count = 0

    for user_id in test_df["user_ID"].unique():
        user_test = test_df[test_df["user_ID"] == user_id]
        relevant_items = set(user_test[user_test["rating"] >= threshold]["item_ID"])
        recommendations = get_top_n_recommendations(algo, trainset, user_id, top_k, bewertung_df, itemprofile_df)

        if recommendations and relevant_items:
            precision_sum += precision_at_k(recommendations, relevant_items, top_k)
            recall_sum += recall_at_k(recommendations, relevant_items, top_k)
            user_count += 1

        for _, row in user_test.iterrows():
            test_preds.append(algo.predict(row["user_ID"], row["item_ID"], row["rating"]))

    mae = accuracy.mae(test_preds, verbose=False)
    rmse = accuracy.rmse(test_preds, verbose=False)

    return {
        "MAE": mae,
        "RMSE": rmse,
        "Precision@K": precision_sum / user_count if user_count else 0.0,
        "Recall@K": recall_sum / user_count if user_count else 0.0
    }

## 7. Main Funktion zum Ausführen

Hier passiert alles: Daten laden, Vorverarbeitung, Training, Evaluation und Anzeigen der Top-Empfehlungen mit Confidence und Erklärung.

In [31]:
def main():
    ratings_path = '../data/Ratings_Bibliona.csv' # TODO: Pfad zu Ratings angeben
    test_path = '../data/Testdaten_Bibliona.csv' # TODO: hier Datensatz zur Evaluation ändern
    itemprofile_path = '../data/Itemprofile_Bibliona.csv' # TODO: Pfad zu Itemprofile angeben
    bewertung_path = '../data/Bewertungsmatrix_Bibliona.csv' # TODO: Pfad zu Bewertungsmatrix angeben

    ratings_df, test_df, itemprofile_df, bewertung_df = load_all_data(
        ratings_path, test_path, itemprofile_path, bewertung_path
    )

    ratings_df = filter_sparse_users_items(ratings_df)
    algo, trainset = train_best_svd_model(ratings_df)
    metrics = evaluate_model(algo, test_df, trainset, top_k=10,
                             bewertung_df=bewertung_df,
                             itemprofile_df=itemprofile_df)
    print("Evaluation Results:", metrics)

    example_user = 243 # TODO: Hier kann die Nutzer-ID für einen beliebigen Nutzer gesetzt werden
    recommendations = get_top_n_recommendations(
        algo, trainset, example_user, 10, bewertung_df, itemprofile_df
    )

    print(f"\nTop 10 recommendations for user {example_user}:")
    for item_id, score, confidence, explanation, book_metadata in recommendations:
        publication_year = book_metadata['Publication_Year']
        publication_year_int: int = int(publication_year) if not pd.isnull(publication_year) else None
        print(f"Item ID: {item_id}, Score: {score:.2f}, Confidence: {confidence}")
        print(f"   Title: {book_metadata['Book-Title']}")
        print(f"   Year: {publication_year_int}, Publisher: {book_metadata['Publisher']}")
        print(f"   → Explain: {explanation}")


if __name__ == "__main__":
    main()

Evaluation Results: {'MAE': 1.1471790595145435, 'RMSE': 1.5410261215589736, 'Precision@K': 0.004057971014492756, 'Recall@K': 0.03060386473429952}

Top 10 recommendations for user 243:
Item ID: 0553274295, Score: 1.00, Confidence: High
   Title: Where the Red Fern Grows
   Year: 2016, Publisher: Random House Children's Books
   → Explain: {'global_mean': 7.977304341459844, 'user_bias': 0.01270329484449787, 'item_bias': 1.6418491560626969, 'interaction': 0.14225697706676954, 'final_pred': 9.774113769433809}
Item ID: 0345339738, Score: 0.94, Confidence: High
   Title: The Return of the King (The Lord of the Rings, Part 3)
   Year: 1986, Publisher: Del Rey
   → Explain: {'global_mean': 7.977304341459844, 'user_bias': 0.01270329484449787, 'item_bias': 1.321671797937582, 'interaction': 0.12699399212359982, 'final_pred': 9.438673426365524}
Item ID: 0446310786, Score: 0.91, Confidence: High
   Title: To Kill a Mockingbird
   Year: 1993, Publisher: Little Brown & Company
   → Explain: {'global_

In [34]:
def analyze_user_rating_distribution(user_id: int, ratings_df: pd.DataFrame, itemprofile_df: pd.DataFrame) -> Dict[str, any]:
    """
    Analyze the rating distribution for a specific user.
    """
    # Get user's ratings from the ratings matrix
    user_ratings_row = ratings_df[ratings_df['user_ID'] == user_id]
    
    if user_ratings_row.empty:
        return {"error": f"User {user_id} not found in ratings data"}
    
    # Get all non-null ratings for this user
    ratings_data = user_ratings_row.drop(columns=['user_ID']).squeeze()
    non_null_ratings = ratings_data.dropna()
    
    # Count ratings by star level
    rating_counts = non_null_ratings.value_counts().sort_index()
    
    # Get total number of ratings
    total_ratings = len(non_null_ratings)
    
    # Calculate average rating
    average_rating = non_null_ratings.mean()
    
    # Get the actual books rated with their titles
    rated_books = []
    for item_id, rating in non_null_ratings.items():
        book_info = itemprofile_df[itemprofile_df['item_ID'] == item_id]
        if not book_info.empty:
            title = book_info.iloc[0].get('Book-Title', 'Unknown')
            rated_books.append({
                'item_ID': item_id,
                'title': title,
                'rating': rating
            })
    
    return {
        'user_id': user_id,
        'total_ratings': total_ratings,
        'average_rating': round(average_rating, 2),
        'rating_distribution': rating_counts.to_dict(),
        'rated_books': sorted(rated_books, key=lambda x: x['rating'], reverse=True)
    }


def analyze_user_preferences(user_id: int, ratings_df: pd.DataFrame, itemprofile_df: pd.DataFrame) -> Dict[str, any]:
    """
    Analyze user's author and genre preferences based on their ratings.
    """
    # Get user's ratings
    user_ratings_row = ratings_df[ratings_df['user_ID'] == user_id]
    
    if user_ratings_row.empty:
        return {"error": f"User {user_id} not found in ratings data"}
    
    # Get all non-null ratings for this user
    ratings_data = user_ratings_row.drop(columns=['user_ID']).squeeze()
    non_null_ratings = ratings_data.dropna()
    
    # Initialize counters
    author_ratings = {}
    genre_ratings = {}
    
    # Analyze each rated book
    for item_id, rating in non_null_ratings.items():
        book_info = itemprofile_df[itemprofile_df['item_ID'] == item_id]
        
        if not book_info.empty:
            book_row = book_info.iloc[0]
            
            # Get authors (columns starting with 'Author_')
            author_columns = [col for col in itemprofile_df.columns if col.startswith('Author_')]
            for author_col in author_columns:
                if book_row[author_col] == 1:
                    author_name = author_col.replace('Author_', '')
                    if author_name not in author_ratings:
                        author_ratings[author_name] = {'total_rating': 0, 'count': 0}
                    author_ratings[author_name]['total_rating'] += rating
                    author_ratings[author_name]['count'] += 1
            
            # Get genres (columns starting with 'Genre_')
            genre_columns = [col for col in itemprofile_df.columns if col.startswith('Genre_')]
            for genre_col in genre_columns:
                if book_row[genre_col] == 1:
                    genre_name = genre_col.replace('Genre_', '')
                    if genre_name not in genre_ratings:
                        genre_ratings[genre_name] = {'total_rating': 0, 'count': 0}
                    genre_ratings[genre_name]['total_rating'] += rating
                    genre_ratings[genre_name]['count'] += 1
    
    # Calculate average ratings and sort by preference
    author_preferences = []
    for author, data in author_ratings.items():
        avg_rating = data['total_rating'] / data['count']
        author_preferences.append({
            'author': author,
            'average_rating': round(avg_rating, 2),
            'books_rated': data['count']
        })
    author_preferences.sort(key=lambda x: x['average_rating'], reverse=True)
    
    genre_preferences = []
    for genre, data in genre_ratings.items():
        avg_rating = data['total_rating'] / data['count']
        genre_preferences.append({
            'genre': genre,
            'average_rating': round(avg_rating, 2),
            'books_rated': data['count']
        })
    genre_preferences.sort(key=lambda x: x['average_rating'], reverse=True)
    
    return {
        'user_id': user_id,
        'author_preferences': author_preferences[:10],  # Top 10 authors
        'genre_preferences': genre_preferences[:10]     # Top 10 genres
    }

In [37]:
# Test the new functions for user 243
print("User 243 Rating Analysis")
rating_analysis = analyze_user_rating_distribution(243, ratings_df, itemprofile_df)
if 'error' not in rating_analysis:
    print(f"User {rating_analysis['user_id']} has rated {rating_analysis['total_ratings']} books")
    print(f"Average rating: {rating_analysis['average_rating']}")
    print("\nRating distribution:")
    for stars, count in rating_analysis['rating_distribution'].items():
        print(f"  {stars} points: {count} books")
    
    print(f"\nTop 5 rated books:")
    for i, book in enumerate(rating_analysis['rated_books'][:5]):
        print(f"  {i+1}. {book['title']} - {book['rating']} points")

print("\n=== User 243 Preferences Analysis ===")
preferences_analysis = analyze_user_preferences(243, ratings_df, itemprofile_df)
if 'error' not in preferences_analysis:
    print("Top 5 Authors (by average rating):")
    for i, author in enumerate(preferences_analysis['author_preferences'][:5]):
        print(f"  {i+1}. {author['author']} - {author['average_rating']} points ({author['books_rated']} books)")
    
    print("\nTop 5 Genres (by average rating):")
    for i, genre in enumerate(preferences_analysis['genre_preferences'][:5]):
        print(f"  {i+1}. {genre['genre']} - {genre['average_rating']} points ({genre['books_rated']} books)")
else:
    print(preferences_analysis['error'])

User 243 Rating Analysis
User 243 has rated 10 books
Average rating: 7.9

Rating distribution:
  5.0 points: 1 books
  6.0 points: 1 books
  7.0 points: 3 books
  9.0 points: 3 books
  10.0 points: 2 books

Top 5 rated books:
  1. The Bean Trees - 10.0 points
  2. Memoirs of a Geisha - 10.0 points
  3. The Pilot's Wife : A Novel - 9.0 points
  4. Unnatural Exposure - 9.0 points
  5. The General's Daughter - 9.0 points

=== User 243 Preferences Analysis ===
Top 5 Authors (by average rating):
  1. Barbara Kingsolver - 10.0 points (1 books)
  2. Arthur Golden - 10.0 points (1 books)
  3. Anita Shreve - 9.0 points (1 books)
  4. Patricia Cornwell - 9.0 points (1 books)
  5. Nelson De Mille - 9.0 points (1 books)

Top 5 Genres (by average rating):
  1. Fiction, coming of age - 10.0 points (1 books)
  2. Fiction, humorous, general - 10.0 points (1 books)
  3. Friendship - 10.0 points (1 books)
  4. Friendship, fiction - 10.0 points (1 books)
  5. Literature - 10.0 points (2 books)


**Bewertung & Beispielausgabe**

Die Evaluierung des SVD-Modells zeigt solide RMSE- und MAE-Werte, allerdings fällt die Precision@K mit 0.0035 und die Recall@K mit 0.0214 eher schwach aus. Das liegt vermutlich an der hohen Item-Vielfalt und sparsamen Nutzer-Item-Matrix, wodurch relevante Empfehlungen schwerer zu treffen sind.

Als Beispiel zeigt die Ausgabe für Nutzer 243 zehn Top-Empfehlungen mit hoher Konfidenz. Neben der reinen Score-Normalisierung (0–1) wird jede Empfehlung durch eine einfache "Explainability"-Komponente ergänzt: Die finale Vorhersage ergibt sich aus dem globalen Durchschnitt, dem Nutzer-Bias, dem Item-Bias sowie der latenten Interaktion zwischen Nutzer- und Item-Vektor. Dadurch lassen sich Vorhersagen transparenter nachvollziehen, z. B. ob sie eher durch starke Item-Beliebtheit oder durch ein hohes Matching-Profil zwischen Nutzer und Item beeinflusst sind.