# ü§ñ Modelo de Recomendaci√≥n de Pel√≠culas

**Objetivo:** Implementar algoritmo de Collaborative Filtering Item-Based

**Fecha:** 22 de noviembre de 2024

**Algoritmo:** Item-Based Collaborative Filtering
- Calcula similitud entre pel√≠culas
- Recomienda pel√≠culas similares a las que le gustaron al usuario

## Pasos:
1. Cargar datos limpios
2. Crear matriz de similitud
3. Implementar funci√≥n de recomendaci√≥n
4. Evaluar el modelo
5. Guardar modelo

In [4]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.model_selection import train_test_split
import pickle

# Cargar datos limpios
ratings = pd.read_csv('../data/processed/ratings_clean.csv')
movies = pd.read_csv('../data/processed/movies_clean.csv')

print("‚úÖ Datos cargados")
print(f"üìä Ratings: {len(ratings):,}")
print(f"üé¨ Pel√≠culas: {len(movies):,}")
print(f"üë• Usuarios: {ratings['user_id'].nunique()}")

‚úÖ Datos cargados
üìä Ratings: 94,968
üé¨ Pel√≠culas: 939
üë• Usuarios: 943


In [5]:
# Crear matriz pivote: usuarios en filas, pel√≠culas en columnas
user_movie_matrix = ratings.pivot_table(
    index='user_id',
    columns='item_id',
    values='rating',
    fill_value=0
)

print("üìä MATRIZ USUARIO-PEL√çCULA")
print(f"Dimensiones: {user_movie_matrix.shape}")
print(f"Usuarios: {user_movie_matrix.shape[0]}")
print(f"Pel√≠culas: {user_movie_matrix.shape[1]}")
print()
print("Primeras 5 filas y 5 columnas:")
user_movie_matrix.iloc[:5, :5]

üìä MATRIZ USUARIO-PEL√çCULA
Dimensiones: (943, 939)
Usuarios: 943
Pel√≠culas: 939

Primeras 5 filas y 5 columnas:


item_id,1,2,3,4,5
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,5.0,3.0,4.0,3.0,3.0
2,4.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0
5,4.0,3.0,0.0,0.0,0.0


In [6]:
# Transponer para tener pel√≠culas en filas
movie_user_matrix = user_movie_matrix.T

# Calcular similitud coseno entre pel√≠culas
print("‚è≥ Calculando similitud entre pel√≠culas...")
movie_similarity = cosine_similarity(movie_user_matrix)

# Convertir a DataFrame para facilitar uso
movie_similarity_df = pd.DataFrame(
    movie_similarity,
    index=movie_user_matrix.index,
    columns=movie_user_matrix.index
)

print("‚úÖ Matriz de similitud calculada")
print(f"Dimensiones: {movie_similarity_df.shape}")
print()
print("Ejemplo - Similitud entre primeras 5 pel√≠culas:")
movie_similarity_df.iloc[:5, :5]

‚è≥ Calculando similitud entre pel√≠culas...
‚úÖ Matriz de similitud calculada
Dimensiones: (939, 939)

Ejemplo - Similitud entre primeras 5 pel√≠culas:


item_id,1,2,3,4,5
item_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,1.0,0.402382,0.330245,0.454938,0.286714
2,0.402382,1.0,0.273069,0.502571,0.318836
3,0.330245,0.273069,1.0,0.324866,0.212957
4,0.454938,0.502571,0.324866,1.0,0.334239
5,0.286714,0.318836,0.212957,0.334239,1.0


In [8]:
def get_movie_recommendations(movie_id, n_recommendations=10):
    """
    Obtiene recomendaciones basadas en similitud con una pel√≠cula
    
    Args:
        movie_id: ID de la pel√≠cula
        n_recommendations: N√∫mero de recomendaciones a retornar
        
    Returns:
        DataFrame con pel√≠culas recomendadas y su score de similitud
    """
    # Obtener pel√≠culas similares
    similar_movies = movie_similarity_df[movie_id].sort_values(ascending=False)
    
    # Quitar la misma pel√≠cula
    similar_movies = similar_movies[similar_movies.index != movie_id]
    
    # Top N recomendaciones
    top_movies = similar_movies.head(n_recommendations)
    
    # Crear DataFrame con informaci√≥n de pel√≠culas
    recommendations = pd.DataFrame({
        'item_id': top_movies.index,
        'similarity_score': top_movies.values
    })
    
    # Agregar t√≠tulos
    recommendations = recommendations.merge(
        movies[['item_id', 'title']], 
        on='item_id'
    )
    
    return recommendations[['title', 'similarity_score']]

print("‚úÖ Funci√≥n de recomendaci√≥n creada")

‚úÖ Funci√≥n de recomendaci√≥n creada


In [9]:
# Probar con una pel√≠cula popular
test_movie_id = 50  # Star Wars (1977)

# Obtener nombre de la pel√≠cula
movie_name = movies[movies['item_id'] == test_movie_id]['title'].values[0]

print(f"üé¨ PEL√çCULA BASE: {movie_name}")
print(f"üìù ID: {test_movie_id}")
print()
print("üéØ TOP 10 RECOMENDACIONES:")
print("=" * 70)

recommendations = get_movie_recommendations(test_movie_id, n_recommendations=10)

for idx, row in recommendations.iterrows():
    print(f"{idx+1:2d}. {row['title']:50s} - Score: {row['similarity_score']:.3f}")

üé¨ PEL√çCULA BASE: Star Wars (1977)
üìù ID: 50

üéØ TOP 10 RECOMENDACIONES:
 1. Return of the Jedi (1983)                          - Score: 0.884
 2. Raiders of the Lost Ark (1981)                     - Score: 0.765
 3. Empire Strikes Back, The (1980)                    - Score: 0.750
 4. Toy Story (1995)                                   - Score: 0.735
 5. Godfather, The (1972)                              - Score: 0.697
 6. Independence Day (ID4) (1996)                      - Score: 0.693
 7. Indiana Jones and the Last Crusade (1989)          - Score: 0.689
 8. Fargo (1996)                                       - Score: 0.687
 9. Silence of the Lambs, The (1991)                   - Score: 0.676
10. Star Trek: First Contact (1996)                    - Score: 0.674


In [10]:
# Probar con una pel√≠cula popular
test_movie_id = 50  # Star Wars (1977)

# Obtener nombre de la pel√≠cula
movie_name = movies[movies['item_id'] == test_movie_id]['title'].values[0]

print(f"üé¨ PEL√çCULA BASE: {movie_name}")
print(f"üìù ID: {test_movie_id}")
print()
print("üéØ TOP 10 RECOMENDACIONES:")
print("=" * 70)

recommendations = get_movie_recommendations(test_movie_id, n_recommendations=10)

for idx, row in recommendations.iterrows():
    print(f"{idx+1:2d}. {row['title']:50s} - Score: {row['similarity_score']:.3f}")

üé¨ PEL√çCULA BASE: Star Wars (1977)
üìù ID: 50

üéØ TOP 10 RECOMENDACIONES:
 1. Return of the Jedi (1983)                          - Score: 0.884
 2. Raiders of the Lost Ark (1981)                     - Score: 0.765
 3. Empire Strikes Back, The (1980)                    - Score: 0.750
 4. Toy Story (1995)                                   - Score: 0.735
 5. Godfather, The (1972)                              - Score: 0.697
 6. Independence Day (ID4) (1996)                      - Score: 0.693
 7. Indiana Jones and the Last Crusade (1989)          - Score: 0.689
 8. Fargo (1996)                                       - Score: 0.687
 9. Silence of the Lambs, The (1991)                   - Score: 0.676
10. Star Trek: First Contact (1996)                    - Score: 0.674


In [11]:
import os

# Crear carpeta models si no existe
os.makedirs('../src', exist_ok=True)

# Guardar matriz de similitud
with open('../src/movie_similarity.pkl', 'wb') as f:
    pickle.dump(movie_similarity_df, f)

# Guardar datos necesarios
with open('../src/movies_data.pkl', 'wb') as f:
    pickle.dump(movies, f)

print("‚úÖ Modelo guardado en:")
print("   üìÅ src/movie_similarity.pkl")
print("   üìÅ src/movies_data.pkl")

‚úÖ Modelo guardado en:
   üìÅ src/movie_similarity.pkl
   üìÅ src/movies_data.pkl


In [14]:
print("=" * 70)
print("üéâ MODELO DE RECOMENDACI√ìN COMPLETADO")
print("=" * 70)
print()
print("‚úÖ Algoritmo: Item-Based Collaborative Filtering")
print(f"‚úÖ Pel√≠culas en el modelo: {movie_similarity_df.shape[0]}")

# Mostrar RMSE solo si existe
try:
    print(f"‚úÖ RMSE: {rmse:.3f}")
except NameError:
    print("‚úÖ RMSE: No evaluado (saltado por tiempo)")

print()
print("üéØ PR√ìXIMOS PASOS:")
print("   1. Crear interfaz web con Streamlit")
print("   2. Integrar modelo con la interfaz")
print("   3. Permitir que usuarios seleccionen pel√≠culas")
print("   4. Mostrar recomendaciones personalizadas")
print()
print("=" * 70)

üéâ MODELO DE RECOMENDACI√ìN COMPLETADO

‚úÖ Algoritmo: Item-Based Collaborative Filtering
‚úÖ Pel√≠culas en el modelo: 939
‚úÖ RMSE: No evaluado (saltado por tiempo)

üéØ PR√ìXIMOS PASOS:
   1. Crear interfaz web con Streamlit
   2. Integrar modelo con la interfaz
   3. Permitir que usuarios seleccionen pel√≠culas
   4. Mostrar recomendaciones personalizadas

