In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('./movie_dataset_clean(by_alexDRandom).csv')

In [4]:
df.columns

Index(['budget', 'genres', 'original_language', 'overview', 'popularity',
       'production_companies', 'production_countries', 'release_date',
       'revenue', 'runtime', 'spoken_languages', 'status', 'tagline', 'title',
       'vote_average', 'belongs_to_collection', 'release_year', 'return'],
      dtype='object')

In [6]:
dupes = df['title'].duplicated()
dupes_rows = df[dupes]
df['title_count'] = df.groupby('title')['title'].transform('count')

In [7]:
print(dupes_rows)

           budget                           genres original_language  \
886     2238813.0   ['Comedy', 'Drama', 'Romance']                en   
928           0.0                        ['Drama']                en   
1294          0.0            ['Drama', 'Thriller']                en   
1463          0.0             ['Drama', 'Romance']                de   
1642   80000000.0           ['Drama', 'Adventure']                en   
...           ...                              ...               ...   
45332         0.0             ['Drama', 'Foreign']                zh   
45364         0.0   ['Crime', 'Drama', 'Thriller']                hi   
45365         0.0              ['Comedy', 'Drama']                en   
45371         0.0   ['Drama', 'Action', 'Romance']                en   
45373         0.0  ['Action', 'Drama', 'Thriller']                en   

                                                overview  popularity  \
886    Linus and David Larrabee are the two sons of a...    7.3

La última pregunta a Claude
___
Bien, siguiendo en ese contexto (hablando de un proyecto ML en una academia de data-science), tengo un dataset con películas, hay una columna 'title' entre otras, también hay una 'overview' que contiene una descripción de cada película, y finalmente hay otras columnas ya numéricas que son 'popularity' y 'vote_average' que quizás también se podrían tener en cuenta para un sistema de recomendación.
El usuario indica un título y se le recomiendan 5 películas similares.
quizás usando algo de lo que explican en este artículo:
https://medium.com/web-mining-is688-spring-2021/cosine-similarity-and-tfidf-c2a7079e13fa

Su respuesta:
___
Con este conjunto de datos, aquí está cómo podrías crear un sistema de recomendación de películas:

- Hacer preprocesamiento en los campos de texto 'title' y 'overview':
    - Convertir todo a minúsculas
    - Eliminar signos de puntuación y números
    - Eliminar stopwords
    - Lematizar las palabras

- Crear una matriz de términos usando todas las palabras únicas en los campos 'title' y 'overview' combinados.

- Crear vectores bag-of-words para cada fila:
    - Asignar 1 a las entradas de la matriz de términos si la palabra aparece en 'title' o 'overview', 0 en otro caso.   


- Calcular TF-IDF para cada entrada vectorial. Puede dar más peso a términos inusuales y menos frecuentes.

- Calcular la similitud cosinusal entre el vector del título dado por el usuario y los vectores de todas las otras películas.

- Ordenar todas las demás películas en función de su similitud cosinusal (de mayor a menor).

- Recomendar las 5 películas con la similitud cosinusal más alta.

- (Opcional) Ajustar los resultados usando otros campos como 'popularity' y 'vote_average'.

Para probar este sistema, puedes:
    - Separar el conjunto de datos en train/test
    - Probar con títulos en el conjunto de test
    - Verificar si los resultados coinciden con la intuición humana

Entonces en resumen, usando vectorización, TF-IDF, similitud cosinusal y posiblemente otros campos numéricos, se puede crear un sistema básico de recomendación de películas. ¡Déjame saber si esto tiene sentido o necesitas más detalles!