***Proyecto 5:*** Sistema Recomendador de Pel√≠culas

***Descripci√≥n del demo:*** Este proyecto implementa un sistema recomendador de pel√≠culas utilizando t√©cnicas de procesamiento de lenguaje natural (NLP). En este caso, las recomendaciones se basan en la similitud de g√©nero y clasificaci√≥n de MPAA (Rating). Usamos **TF-IDF** y **Similitud del Coseno** para encontrar las pel√≠culas m√°s similares.

Tecnolog√≠as utilizadas

| Herramienta               | Uso principal                                  |
|---------------------------|------------------------------------------------|
|  **Python 3**           | Lenguaje principal del an√°lisis                |
|  **Pandas**             | Manipulaci√≥n y an√°lisis de datos               |
|  **Scikit-learn**       | Modelos de machine learning (cosine similarity) |
|  **TF-IDF**             | Vectorizaci√≥n del texto                         |
|  **Google Colab**       | Entorno de ejecuci√≥n recomendado               |

# ***Demo***

üì¶ 1. Instalaci√≥n de librer√≠as necesarias (si est√°s en local, descomenta)

In [1]:
!pip install pandas scikit-learn



üìö 2. Importaci√≥n de librer√≠as

In [2]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

üìÇ 3. Carga del dataset

In [3]:
from google.colab import files
uploaded = files.upload()

Saving disney_movies.csv to disney_movies.csv


üìë 4. Lectura del dataset

In [4]:
filename = list(uploaded.keys())[0]
df = pd.read_csv(filename)

üëÄ 5. Vista previa del dataset

In [5]:
df.head()

Unnamed: 0,movie_title,release_date,genre,mpaa_rating,total_gross,inflation_adjusted_gross
0,Snow White and the Seven Dwarfs,1937-12-21,Musical,G,184925485,5228953251
1,Pinocchio,1940-02-09,Adventure,G,84300000,2188229052
2,Fantasia,1940-11-13,Musical,G,83320000,2187090808
3,Song of the South,1946-11-12,Adventure,G,65000000,1078510579
4,Cinderella,1950-02-15,Drama,G,85000000,920608730


üßº 6. Preprocesamiento

In [6]:
# Asegurar columnas necesarias y eliminar nulos
df = df[['movie_title', 'genre', 'mpaa_rating']].dropna()

# Crear una columna combinada para representar el contenido
df['combined'] = df['genre'] + ' ' + df['mpaa_rating']

üß† 7. Vectorizaci√≥n y similitud

In [7]:
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(df['combined'])

# Calculamos la matriz de similitud del coseno
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

üìå 8. Funci√≥n de recomendaci√≥n

In [8]:
def recomendar(titulo, top_n=5):
    if titulo not in df['movie_title'].values:
        print("‚ùå T√≠tulo no encontrado en la base de datos.")
        return
    idx = df[df['movie_title'] == titulo].index[0]
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)[1:top_n+1]
    movie_indices = [i[0] for i in sim_scores]
    print(f"üéØ Recomendaciones para '{titulo}':")
    print(df['movie_title'].iloc[movie_indices].to_string(index=False))

üé¨ 9. Prueba del recomendador

In [13]:
recomendar("Cinderella")  # Cambia por un t√≠tulo que est√© en tu CSV

üéØ Recomendaciones para 'Cinderella':
Lady and the Tramp
The Color of Money
          Cocktail
   An Innocent Man
             Blaze
