
# üì∫ Sistema de Recomendaci√≥n de Pel√≠culas y Series de Netflix

Este notebook implementa un **sistema de recomendaci√≥n basado en contenido** (Content-Based Filtering) usando el dataset **netflix_titles.csv**.

El objetivo es sugerir t√≠tulos similares a uno dado, analizando sus descripciones textuales mediante **TF-IDF** y **Similitud de Coseno**.



## üìå 1. Importar Librer√≠as
Importamos las librer√≠as necesarias para an√°lisis de datos, procesamiento de texto y c√°lculo de similitud.


In [None]:

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity



## üìå 2. Cargar el Dataset
Cargamos el archivo **netflix_titles.csv** y exploramos su estructura.


In [None]:

df = pd.read_csv('netflix_titles.csv')
print("Shape:", df.shape)
df.head()



## üìå 3. Inspeccionar las Columnas
Verificamos los tipos de datos y las columnas disponibles.


In [None]:

df.info()



## üìå 4. Manejo de Valores Nulos
Verificamos valores nulos en las columnas relevantes.


In [None]:

df.isnull().sum()



Eliminamos filas sin descripci√≥n, ya que no pueden ser utilizadas para recomendaciones basadas en contenido.


In [None]:

df = df.dropna(subset=['description']).reset_index(drop=True)
print("Shape despu√©s de eliminar nulos:", df.shape)



Eliminamos duplicados para evitar recomendaciones redundantes.


In [None]:

df = df.drop_duplicates(subset=['title', 'description']).reset_index(drop=True)
print("Shape despu√©s de quitar duplicados:", df.shape)



## üìå 5. Vectorizaci√≥n de Texto con TF-IDF
Convertimos las descripciones en vectores num√©ricos usando TF-IDF.


In [None]:

tfidf = TfidfVectorizer(stop_words='english')
df['description'] = df['description'].fillna('')
tfidf_matrix = tfidf.fit_transform(df['description'])
print("Shape de la matriz TF-IDF:", tfidf_matrix.shape)



## üìå 6. Calcular la Similitud de Coseno
Calculamos la similitud de coseno entre todos los t√≠tulos.


In [None]:

cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
cosine_sim.shape



## üìå 7. Crear √çndice de B√∫squeda por T√≠tulo
Creamos un √≠ndice que mapea el t√≠tulo al n√∫mero de fila.


In [None]:

indices = pd.Series(df.index, index=df['title']).drop_duplicates()
indices.head()



## üìå 8. Definir la Funci√≥n de Recomendaci√≥n
Esta funci√≥n devuelve las 10 recomendaciones m√°s similares a un t√≠tulo dado.


In [None]:

def get_recommendations(title, cosine_sim=cosine_sim):
    if title not in indices:
        print(f"‚ö†Ô∏è El t√≠tulo '{title}' no existe en la base de datos.")
        return
    
    idx = indices[title]
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:11]
    movie_indices = [i[0] for i in sim_scores]
    return df[['title', 'description']].iloc[movie_indices]



## üìå 9. Ejemplo de Uso
Probamos la funci√≥n con un t√≠tulo conocido del cat√°logo.


In [None]:

get_recommendations('Sherlock Holmes')



---
## ‚úÖ Conclusi√≥n

Hemos creado un **sencillo sistema de recomendaci√≥n basado en contenido**, que:

- Usa descripciones textuales con **TF-IDF**.  
- Calcula similitudes con **Cosine Similarity**.  
- Ofrece recomendaciones de t√≠tulos similares.

Puedes mejorarlo a√±adiendo m√°s campos (g√©nero, pa√≠s, etc.) o combin√°ndolo con **filtrado colaborativo**.

---
