
# 📺 Sistema de Recomendación de Películas y Series de Netflix

Este notebook implementa un **sistema de recomendación basado en contenido** (Content-Based Filtering) usando el dataset **netflix_titles.csv**.

El objetivo es sugerir títulos similares a uno dado, analizando sus descripciones textuales mediante **TF-IDF** y **Similitud de Coseno**.



## 📌 1. Importar Librerías
Importamos las librerías necesarias para análisis de datos, procesamiento de texto y cálculo de similitud.


In [None]:

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity



## 📌 2. Cargar el Dataset
Cargamos el archivo **netflix_titles.csv** y exploramos su estructura.


In [None]:

df = pd.read_csv('netflix_titles.csv')
print("Shape:", df.shape)
df.head()



## 📌 3. Inspeccionar las Columnas
Verificamos los tipos de datos y las columnas disponibles.


In [None]:

df.info()



## 📌 4. Manejo de Valores Nulos
Verificamos valores nulos en las columnas relevantes.


In [None]:

df.isnull().sum()



Eliminamos filas sin descripción, ya que no pueden ser utilizadas para recomendaciones basadas en contenido.


In [None]:

df = df.dropna(subset=['description']).reset_index(drop=True)
print("Shape después de eliminar nulos:", df.shape)



Eliminamos duplicados para evitar recomendaciones redundantes.


In [None]:

df = df.drop_duplicates(subset=['title', 'description']).reset_index(drop=True)
print("Shape después de quitar duplicados:", df.shape)



## 📌 5. Vectorización de Texto con TF-IDF
Convertimos las descripciones en vectores numéricos usando TF-IDF.


In [None]:

tfidf = TfidfVectorizer(stop_words='english')
df['description'] = df['description'].fillna('')
tfidf_matrix = tfidf.fit_transform(df['description'])
print("Shape de la matriz TF-IDF:", tfidf_matrix.shape)



## 📌 6. Calcular la Similitud de Coseno
Calculamos la similitud de coseno entre todos los títulos.


In [None]:

cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
cosine_sim.shape



## 📌 7. Crear Índice de Búsqueda por Título
Creamos un índice que mapea el título al número de fila.


In [None]:

indices = pd.Series(df.index, index=df['title']).drop_duplicates()
indices.head()



## 📌 8. Definir la Función de Recomendación
Esta función devuelve las 10 recomendaciones más similares a un título dado.


In [None]:

def get_recommendations(title, cosine_sim=cosine_sim):
    if title not in indices:
        print(f"⚠️ El título '{title}' no existe en la base de datos.")
        return
    
    idx = indices[title]
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:11]
    movie_indices = [i[0] for i in sim_scores]
    return df[['title', 'description']].iloc[movie_indices]



## 📌 9. Ejemplo de Uso
Probamos la función con un título conocido del catálogo.


In [None]:

get_recommendations('Sherlock Holmes')



---
## ✅ Conclusión

Hemos creado un **sencillo sistema de recomendación basado en contenido**, que:

- Usa descripciones textuales con **TF-IDF**.  
- Calcula similitudes con **Cosine Similarity**.  
- Ofrece recomendaciones de títulos similares.

Puedes mejorarlo añadiendo más campos (género, país, etc.) o combinándolo con **filtrado colaborativo**.

---
