# 1 Instalación de surprise por medio del terminal de anaconda con derechos de administrador
## Se introduce la instrucción conda install -c conda-forge scikit-surprise

Surprise requiere python 3.10.x no funciona con versiones inferiores o superiores. Se adpata también en consola,
instalando python 3.10.19


# 2 Instalación de librerías necesarias

In [3]:
# Importación de módulos especificos de surprise
from surprise import Dataset, Reader
from surprise import SVD, KNNBasic
from surprise.model_selection import train_test_split, cross_validate

# Importación de otras liberías útiles
import heapq
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from mlx.frequent_patterns import apriori, association_ruules

ModuleNotFoundError: No module named 'surprise'

# 3 Importación de datos de movilens
## Para mayor simplicidad se ha importado los datos en el fichero dataset.csv con los campos siguientes:
* userId
* movieId
* Title
* rating

In [None]:
reader = Reader(line_format='userId movieId rating', sep=';')
data = Dataset.load_from_file('dataset.csv', reader=reader)

# 4 División del fichero entre entrenamiento y test

In [None]:
    # test_size=0.2 significa que 20%  de los datos servirá para el test
    trainset, testset = train_test_split(data, test_size=0.2, random_state=42)
    print(f"\nTraining set size: {len(trainset.all_ratings())}")
    print(f"Test set size: {len(testset)}")

# 5 Entrenamiento del modelo SVD

In [None]:
    print("\n Entrenando al modelo SVD...")
    
    svd = SVD(n_factors=100, n_epochs=20, lr_all=0.005, reg_all=0.02)
    svd.fit(trainset)

# 6 Evaluación del modelo en el set de test

In [None]:
    predictions = svd.test(testset)
    rmse = accuracy.rmse(predictions)
    mae = accuracy.mae(predictions)
    
    print(f"Evaluación del modelo en el set de test:")
    print(f"RMSE: {rmse:.4f}") # RMSE (Root Mean Square Error): valores bajos indican un mejor resultado
    print(f"MAE: {mae:.4f}") # MAE (Mean Absolute Error): medida de la exactitud de la predicción

# 7 Función para obtener las N mejores recomendaciones para un usuario

In [None]:
    def get_top_n_recommendations(predictions, n=10):
        """Devuelve las n mejores recomendaciones para cada usuario
        en este caso las 10 mejores"""
        # Diccionario con las predicciones para cada usuario
        top_n = defaultdict(list)
        for uid, iid, true_r, est, _ in predictions:
            top_n[uid].append((iid, est))
            
        # Se ordenan las predicciones para cada usuario y se encuentran las mejores
        for uid, user_ratings in top_n.items():
            user_ratings.sort(key=lambda x: x[1], reverse=True)
            top_n[uid] = user_ratings[:n]
            
        return top_n

# 8 Función para generar recomendaciones para un usuario

In [None]:
    
    def recommend_for_user(user_id, n=10):
        """Crea n recommendaciones para un usuario espedífico"""
        # Obtener la lista de todos los identificadores de películas
        all_movie_ids = ratings_df['movieId'].unique()
        
        # Obeter los identificadores de las películas que el usuario ya ha visto
        user_rated_movies = set(ratings_df[ratings_df['userId'] == user_id]['movieId'])
        
        # Identificadores de las películas que el usuario no ha visto para hacer predicciones
        movies_to_predict = [movie_id for movie_id in all_movie_ids if movie_id not in user_rated_movies]
        
        # Hacer predicciones
        predictions = [svd.predict(user_id, movie_id) for movie_id in movies_to_predict]
        
        # Ordenar las predicciones usanto evaluaciones estimadas
        predictions.sort(key=lambda x: x.est, reverse=True)
        
        # Guardar las n mejores y devolverlas
        top_recommendations = predictions[:n]
        
        return top_recommendations

# 9 Predicción para un usuario determinado 

In [None]:

    # Choose a user that exists in your dataset
    sample_user = ratings_df['userId'].iloc[0]
    print(f"\nGenerando recommendaciones para el user {sample_user}...")
    
    recommendations = recommend_for_user(sample_user, n=10)
    
    print(f"\n 10 películas recommendadas para el usuario {sample_user}:")
    for i, rec in enumerate(recommendations, 1):
        movie_id = rec.iid
        predicted_rating = rec.est
        title = movie_titles.get(movie_id, f"Identificador de la película: {movie_id}")
        print(f"{i}. {title} (Evaluación prevista: {predicted_rating:.2f})")
    

# 10 Archivar el modelo para usos futuros

In [None]:
    import pickle
    with open('svd_model.pkl', 'wb') as file:
        pickle.dump(svd, file)
    
    print("\nModelo guradado como 'svd_model.pkl'")

## Notes on the Implementation

1. **SVD Algorithm**: Surprise's SVD implementation is a matrix factorization algorithm optimized for recommendation systems. It's similar to the algorithm that won the Netflix Prize.

2. **Hyperparameters**:
   - `n_factors`: Number of latent factors (dimensions)
   - `n_epochs`: Number of iterations over the training data
   - `lr_all`: Learning rate for all parameters
   - `reg_all`: Regularization term for all parameters

3. **Evaluation Metrics**:
   - RMSE (Root Mean Square Error): Lower values indicate better performance
   - MAE (Mean Absolute Error): Another measure of prediction accuracy

4. **Recommendation Functions**:
   - `get_top_n_recommendations`: Gets top N recommendations for all users
   - `recommend_for_user`: Gets recommendations for a specific user

5. **Cold Start Problem**: This implementation doesn't specifically address the cold start problem (new users or items). For production systems, you might need additional strategies.

6. **Model Persistence**: The model is saved using pickle for future use without retraining.

## Improving the Model

To improve the model's performance, you could:

1. **Tune hyperparameters** using grid search or random search
2. **Try different algorithms** like NMF, KNNBasic, or KNNWithMeans
3. **Add content-based features** if you have movie metadata
4. **Implement hybrid approaches** combining collaborative filtering with content-based methods
5. **Use cross-validation** instead of a simple train/test split

This implementation provides a solid foundation for a recommendation system that you can build upon and refine based on your specific needs.

In [None]:
    # Conversión usando DataFrames de los sets de entrenamiento y test guardados como CSV
    # Set de entrenamiento
    train_users, train_items, train_ratings = [], [], []
    for (uid, iid, rating) in trainset.all_ratings():
        # Map internal ids back to raw ids
        user = trainset.to_raw_uid(uid)
        item = trainset.to_raw_iid(iid)
        train_users.append(user)
        train_items.append(item)
        train_ratings.append(rating)
    
    train_df = pd.DataFrame({
        'userId': train_users,
        'movieId': train_items,
        'rating': train_ratings
    })
    
    # Set de test
    test_users = [uid for (uid, _, _) in testset]
    test_items = [iid for (_, iid, _) in testset]
    test_ratings = [r for (_, _, r) in testset]
    
    test_df = pd.DataFrame({
        'userId': test_users,
        'movieId': test_items,
        'rating': test_ratings
    })
    
    # Save to CSV
    train_df.to_csv('movielens_train_surprise.csv', index=False)
    test_df.to_csv('movielens_test_surprise.csv', index=False)
    
    print("\nFicheros guardados como'movielens_train_surprise.csv' y 'movielens_test_surprise.csv'")

