In [1]:
from surprise import Dataset, Reader
from surprise.prediction_algorithms.matrix_factorization import SVD
from surprise import accuracy
import pandas as pd
from surprise.model_selection import cross_validate
import os
import pickle

In [2]:
def read_ratings(ratings_csv: str, data_dir: str = "/home/antoine/Ml_Ops_Movies_Reco/data/raw") -> pd.DataFrame:
    """
    Lit le fichier CSV contenant les évaluations des films.

    :param ratings_csv: Nom du fichier CSV contenant les évaluations.
    :param data_dir: Répertoire où se trouve le fichier CSV.
    :return: DataFrame contenant les évaluations.
    """
    df = pd.read_csv(os.path.join(data_dir, ratings_csv))
    print("Dataset ratings chargé")
    return df



def train_model(df: pd.DataFrame) -> SVD:
    """Entraîne le modèle de recommandation sur les données fournies."""
    # Diviser les données en ensembles d'entraînement et de test
    reader = Reader(rating_scale=(0.5, 5))

    data = Dataset.load_from_df(df[['userId', 'movieId', 'rating']], reader=reader)

    # Extraire le Trainset
    trainset = data.build_full_trainset()

    model = SVD(n_factors=150, n_epochs=30, lr_all=0.01, reg_all=0.05)

    # Entraîner le modèle
    model.fit(trainset)

    print("Début de la cross-validation")

    # Effectuer la validation croisée sur le Trainset
    cv_results = cross_validate(model, data, measures=['RMSE', 'MAE'], cv=5, return_train_measures=True)

    # Afficher les résultats
    mean_rmse = cv_results['test_rmse'].mean()
    print("Moyenne des RMSE :", mean_rmse)

    return model, mean_rmse

def save_model(model: SVD, filepath: str, version: str) -> None:
    """Sauvegarde le modèle entraîné dans un fichier."""
    os.makedirs(os.path.dirname(filepath), exist_ok=True)

    # Modifier le nom du fichier pour inclure la version
    base, ext = os.path.splitext(filepath)
    versioned_filepath = f"{base}_{version}{ext}"

    with open(versioned_filepath, 'wb') as file:
        pickle.dump(model, file)
        print(f'Modèle sauvegardé sous {versioned_filepath}')

def save_best_score(score: float, filepath: str) -> None:
    """Sauvegarde le meilleur score dans un fichier."""
    with open(filepath, 'w') as file:
        file.write(str(score))

def load_best_score(filepath: str) -> float:
    """Charge le meilleur score à partir d'un fichier."""
    if not os.path.exists(filepath):
        return float('inf')  # Valeur par défaut très haute pour que n'importe quel score soit meilleur
    with open(filepath, 'r') as file:
        return float(file.read().strip())

def read_version(filepath: str) -> int:
    """Lit la version actuelle à partir d'un fichier."""
    if not os.path.exists(filepath):
        return 0  # Valeur par défaut si le fichier n'existe pas
    with open(filepath, 'r') as file:
        return int(file.read().strip())

def write_version(filepath: str, version: int) -> None:
    """Écrit la nouvelle version dans un fichier."""
    with open(filepath, 'w') as file:
        file.write(str(version))


In [3]:
ratings = read_ratings('ratings.csv')

ratings.head()

Dataset ratings chargé


Unnamed: 0,userId,movieId,rating,timestamp
0,1,2,3.5,1112486027
1,1,29,3.5,1112484676
2,1,32,3.5,1112484819
3,1,47,3.5,1112484727
4,1,50,3.5,1112484580


In [None]:
svd, mean_rmse = train_model(ratings)

Début de la cross-validation
