# Importing Labraries

In [277]:
import pandas as pd
import numpy as np
from unidecode import unidecode
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
from sklearn.metrics.pairwise import cosine_similarity 

In [36]:
df_movies = pd.read_csv("../processed_data/movies.csv")
df_movies.head(2)

Unnamed: 0,budget,id,original_language,overview,popularity,release_date,revenue,runtime,title,vote_average,...,collection,genres_list,spoken_languages_list,production_companies_list,production_countries_list,release_year,return,release_month,release_day,directors
0,30000000.0,862,en,"Led by Woody, Andy's toys live happily in his ...",21.946943,1995-10-30,373554033.0,81.0,Toy Story,7.7,...,Toy Story Collection,"['Animation', 'Comedy', 'Family']",['en'],['Pixar Animation Studios'],['US'],1995,12.45,octubre,lunes,['John Lasseter']
1,65000000.0,8844,en,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,262797249.0,104.0,Jumanji,6.9,...,,"['Adventure', 'Fantasy', 'Family']","['en', 'fr']","['TriStar Pictures', 'Teitler Film', 'Intersco...",['US'],1995,4.04,diciembre,viernes,['Joe Johnston']


In [299]:
def string_transformation(text):
    if type(text) == str:
        text = text.lower().strip().replace(" ", "")
        text = unidecode(text)  # delete accents
        text = re.sub(r'[^\w\s]', '', text)  # delete special characters and punctuation marks
        return text
    else:
     return "Entered value is not valid." 

# Understanding the functions

index = pd.Series(test.index, test["title"]).drop_duplicates(): Esta línea crea una serie de pandas llamada index donde los índices son los títulos de las películas y los valores son los índices correspondientes en el DataFrame test. La función drop_duplicates() se utiliza para eliminar las filas duplicadas en caso de que haya películas con el mismo título.

def get_recommendations(title, cosine_sin = cosine_sin):: Esta línea define una función llamada get_recommendations que toma el título de una película como argumento y también tiene un parámetro opcional cosine_sin que por defecto es igual a la matriz de similitud calculada anteriormente.

idx = index[title]: Esta línea obtiene el índice de la película en el DataFrame test utilizando el título proporcionado como argumento y la serie index.

sim_scores = enumerate(cosine_sin[idx]): Esta línea enumera los valores de similitud para la película seleccionada en relación con todas las demás películas. Enumerar los valores de similitud devuelve una tupla que contiene el índice de la película y el valor de similitud.

sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True): Esta línea ordena los valores de similitud en orden descendente para obtener las películas más similares en primer lugar. La función sorted() se utiliza con el parámetro key para especificar que se ordene según el valor de similitud.

sim_scores = sim_scores[1:11]: Esta línea selecciona las 10 películas más similares, excluyendo la película consultada.

sim_index = [i[0] for i in sim_scores]: Esta línea extrae los índices de las películas más similares de la lista sim_scores.

print(df_movies["title"].iloc[sim_index]): Esta línea imprime los títulos de las películas más similares del DataFrame df_movies

In [153]:
tfidf = TfidfVectorizer(stop_words="english") # stop_words delete common words
test_list = ['Animation', 'Comedy', 'Family']
test_list2 = [ ['Animation', 'Comedy', 'Family'],  ['Animation', 'Comedy', 'Family']]
test_list3 = df_movies["genres_list"][0:2]
test_string = "Animation", "Comedy", "Family"
test_sentence = '''Led by Woody, Andy's toys live happily in his room until Andy's birthday brings Buzz Lightyear onto the scene. 
                Afraid of losing his place in Andy's heart, Woody plots against Buzz. But when circumstances separate 
                  Buzz and Woody from their owner, the duo eventually learns to put aside their differences.'''
test_row = df_movies["overview"][0]
test_combination = df_movies["genres_list"][0:2] + " " + df_movies["overview"][0:2]

In [143]:
df_movies["genres_list"][0:2] +  df_movies["overview"][0:2]

0    ['Animation', 'Comedy', 'Family']Led by Woody,...
1    ['Adventure', 'Fantasy', 'Family']When sibling...
dtype: object

In [190]:
# can process list, but not list of lists 

tfidf.fit_transform(test_list) # calculate parameters, vectorize and transform to a matrix
tfidf.get_feature_names_out() 

array(['animation', 'comedy', 'family'], dtype=object)

In [116]:
tfidf.fit_transform(test_string) # calculate parameters, vectorize and transform to a matrix
tfidf.get_feature_names_out() 

array(['animation', 'comedy', 'family'], dtype=object)

In [108]:
tfidf.fit_transform(test_list3) # calculate parameters, vectorize and transform to a matrix
tfidf.get_feature_names_out() 

array(['adventure', 'animation', 'comedy', 'family', 'fantasy'],
      dtype=object)

In [93]:
# doesn't process strings directly

tfidf.fit_transform(df_movies["overview"].fillna("")) # calculate parameters, vectorize and transform to a matrix
tfidf.get_feature_names_out() 

array(['00', '000', '000km', ..., '첫사랑', 'ﬁrst', 'ﬁve'], dtype=object)

In [151]:
tfidf.fit_transform(test_combination) # calculate parameters, vectorize and transform to a matrix
tfidf.get_feature_names_out() 

array(['26', 'adult', 'adventure', 'afraid', 'alan', 'andy', 'animation',
       'aside', 'birthday', 'board', 'brings', 'buzz', 'circumstances',
       'comedy', 'creatures', 'differences', 'discover', 'door', 'duo',
       'enchanted', 'eventually', 'evil', 'family', 'fantasy', 'finish',
       'freedom', 'game', 'giant', 'happily', 'heart', 'hope', 'inside',
       'invite', 'judy', 'learns', 'led', 'lightyear', 'live', 'living',
       'losing', 'magical', 'monkeys', 'opens', 'owner', 'peter', 'place',
       'plots', 'proves', 'rhinoceroses', 'risky', 'room', 'running',
       'scene', 'separate', 'siblings', 'terrifying', 'toys', 'trapped',
       'unwittingly', 'woody', 'world', 'years'], dtype=object)

# Filtering dataframe

In [232]:
df_movies_sample = df_movies[df_movies["vote_count"] >= 100]

## One column

In [262]:
tfidf = TfidfVectorizer(stop_words="english")

In [263]:
tfidf_matrix = tfidf.fit_transform(df_movies_sample["genres_list"])

In [264]:
cosine_sin = linear_kernel(tfidf_matrix, tfidf_matrix) 
#np.save("cosine_sim.npy", cosine_sin) # to check the size in megabytes of the matrix

In [265]:
index = pd.Series(df_movies_sample.index, df_movies_sample["title"]).drop_duplicates()

In [268]:
def get_recommendations(title, cosine_sin = cosine_sin):
    idx = index[title]
    sim_scores = enumerate(cosine_sin[idx])
    sim_scores = sorted(sim_scores,key = lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:11]

    sim_index = [i[0]for i in sim_scores]
    print(df_movies_sample["title"].iloc[sim_index])

get_recommendations('Toy Story')

695                    Oliver & Company
726                       A Close Shave
1108                 The Wrong Trousers
1936          The Great Mouse Detective
2994                        Toy Story 2
3624                        Chicken Run
4751                     Monsters, Inc.
6789       Looney Tunes: Back in Action
7723                           Garfield
8241    The SpongeBob SquarePants Movie
Name: title, dtype: object


## More than one column

In [278]:
tfidf = TfidfVectorizer(stop_words='english')

In [279]:
combined_features = df_movies_sample['overview'] + " " + df_movies_sample["genres_list"] + " " + df_movies_sample["directors"] + " " + df_movies_sample["collection"]

In [280]:
combined_tfidf_matrix = tfidf.fit_transform(combined_features.fillna(""))

In [285]:
cosine_sim = cosine_similarity(combined_tfidf_matrix, combined_tfidf_matrix)
#np.save("cosine_sim.npy", cosine_sin) # to check the size in megabytes of the matrix

In [284]:
index = pd.Series(df_movies_sample.index, df_movies_sample["title"]).drop_duplicates()

In [297]:
def get_recommendations(title, cosine_sin = cosine_sin):
    idx = index[title]
    sim_scores = enumerate(cosine_sin[idx])
    sim_scores = sorted(sim_scores,key = lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:11]

    sim_index = [i[0]for i in sim_scores]
    print(df_movies_sample["title"].iloc[sim_index])

get_recommendations('Toy Story')

695                    Oliver & Company
726                       A Close Shave
1108                 The Wrong Trousers
1936          The Great Mouse Detective
2994                        Toy Story 2
3624                        Chicken Run
4751                     Monsters, Inc.
6789       Looney Tunes: Back in Action
7723                           Garfield
8241    The SpongeBob SquarePants Movie
Name: title, dtype: object


In [293]:
df_movies[df_movies["title"] == "Mean Girls"]["vote_count"]

7278    2401.0
Name: vote_count, dtype: float64

In [301]:

def get_recommendations(titulo):
    
    df_movies_sample = df_movies[df_movies["vote_count"] >= 100]
    tfidf = TfidfVectorizer(stop_words="english")
    combined_features = df_movies_sample['overview'] + " " + df_movies_sample["genres_list"] + " " + df_movies_sample["directors"] + " " + df_movies_sample["collection"]
    combined_tfidf_matrix = tfidf.fit_transform(combined_features.fillna(""))
    cosine_sim = cosine_similarity(combined_tfidf_matrix, combined_tfidf_matrix)

    title = string_transformation(titulo)
    df_movies_sample["transformed_title"] = [string_transformation(x) for x in df_movies_sample["title"]]
    index = pd.Series(df_movies_sample.index, df_movies_sample["transformed_title"]).drop_duplicates()
    idx = index[title]
    sim_scores = enumerate(cosine_sim[idx])
    sim_scores = sorted(sim_scores,key = lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:11]

    sim_index = [i[0]for i in sim_scores]
    return df_movies_sample["title"].iloc[sim_index]

get_recommendations("toy story")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_movies_sample["transformed_title"] = [string_transformation(x) for x in df_movies_sample["title"]]


2994                                  Toy Story 2
15335                                 Toy Story 3
1881                               Child's Play 3
29287                      Paul Blart: Mall Cop 2
22554                         Justice League: War
16571                        I Spit on Your Grave
4751                               Monsters, Inc.
4761     Harry Potter and the Philosopher's Stone
3582                                  Firestarter
11487                        Happily N'Ever After
Name: title, dtype: object


# Muestreo para entrenamiento
df_sample = df_movies.sample(n=100)  # Tomar una muestra de 100 películas

# Preprocesamiento de los datos
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(df_sample['overview'])

# Entrenamiento del modelo cosine_sim
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

# Objeto para el cual deseas obtener recomendaciones
new_object = "A new movie with a unique plot"

# Preprocesamiento del nuevo objeto
new_object_tfidf = tfidf.transform([new_object])

# Cálculo de similitud entre el nuevo objeto y las películas de la muestra
similarity_scores = cosine_similarity(new_object_tfidf, tfidf_matrix)

# Obtención de las recomendaciones basadas en la similitud
top_indices = similarity_scores.argsort()[0][-5:]  # Obtener los índices de las 5 películas más similares
recommendations = df_sample.iloc[top_indices]['title'].tolist()  # Obtener los títulos de las películas recomendadas

print("Recomendaciones:")
for movie in recommendations:
    print(movie)



from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
import pandas as pd

# Ejemplo de DataFrame con las columnas "overview" y "genres"
data = {
    'overview': ['Una película de acción y aventura', 'Una película de comedia romántica', 'Un thriller psicológico'],
    'genres': [['Acción', 'Aventura'], ['Comedia', 'Romántica'], ['Thriller', 'Drama']]
}
df_movies = pd.DataFrame(data)

# Preprocesamiento de datos (puedes adaptarlo a tus necesidades)
df_movies['overview'] = df_movies['overview'].apply(lambda x: x.lower())

# Creación de matriz de características
tfidf = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf.fit_transform(df_movies['overview'])

# Combinación de matrices de características (overview y genres)
genres_str = df_movies['genres'].apply(lambda x: ' '.join(x))
combined_features = df_movies['overview'] + ' ' + genres_str
combined_tfidf_matrix = tfidf.fit_transform(combined_features)

# Cálculo de similitud
cosine_sim = linear_kernel(combined_tfidf_matrix, combined_tfidf_matrix)

# Función de recomendación
def get_recommendations(title, cosine_sim=cosine_sim, movies=df_movies):
    idx = movies[movies['overview'] == title].index[0]
    sim_scores = list(enumerate(cosine_sim[idx]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    sim_scores = sim_scores[1:11]
    movie_indices = [i[0] for i in sim_scores]
    recommended_movies = movies.loc[movie_indices, 'overview']
    return recommended_movies

# Ejemplo de uso
recommendations = get_recommendations('una película de acción')
print(recommendations)

In [15]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import KNeighborsClassifier

# Crear un DataFrame de ejemplo
data = {
    'title': ['Pelicula 1', 'Pelicula 2', 'Pelicula 3'],
    'budget': [1000000, 2000000, 1500000],
    "revenue": [10000000, 2030000, 500000],
    'duration': [120, 90, 105],
    'votes': [500, 1000, 800],
    'genre': ['Action', 'Comedy', 'Drama'],
    'synopsis': ['Una pelicula de accion emocionante', 'Una comedia divertida', 'Un drama conmovedor']
}

df = pd.DataFrame(data)

# Crear los vectores TF-IDF de la columna de sinopsis
tfidf = TfidfVectorizer(stop_words='english')
synopsis_tfidf = tfidf.fit_transform(df['synopsis'])

# Entrenar un modelo de regresión lineal para predecir el éxito financiero (recaudación)
regression_model = LinearRegression()
regression_model.fit(df[['budget', 'duration', 'votes']], df['revenue'])

# Entrenar un modelo de clasificación para predecir el género de la película
classification_model = KNeighborsClassifier(n_neighbors=3)
classification_model.fit(synopsis_tfidf, df['genre'])

# Función de recomendación que combina ambas predicciones
def recommend_movie(title):
    # Obtener la información de la película de interés
    movie = df[df['title'] == title]
    budget = movie['budget'].values[0]
    duration = movie['duration'].values[0]
    votes = movie['votes'].values[0]
    synopsis = movie['synopsis'].values[0]

    # Realizar las predicciones
    revenue_prediction = regression_model.predict([[budget, duration, votes]])
    genre_prediction = classification_model.predict(tfidf.transform([synopsis]))
    
    # Filtrar las películas recomendadas por género y recaudación
    recommended_movies = df[df['genre'] == genre_prediction[0]]
    recommended_movies = recommended_movies[recommended_movies['revenue'] >= revenue_prediction[0]]
    
    return recommended_movies['title']

# Ejemplo de recomendación
recommendations = recommend_movie('Pelicula 1')
print(recommendations)


0    Pelicula 1
Name: title, dtype: object




# Differences between

In [127]:
feature_names = tfidf.get_feature_names_out()

for i in range(len(df_movies_sample["genres_list"])):
    row = tfidf_matrix[i]
    words = row.indices
    frequencies = row.data
    word_frequencies = {feature_names[word]: freq for word, freq in zip(words, frequencies)}
    print(f"Palabras y frecuencias en la fila {i}:")
    print(word_frequencies)

Palabras y frecuencias en la fila 0:
{'family': 0.585527581279311, 'comedy': 0.47198889118803083, 'animation': 0.6590780971601871}
Palabras y frecuencias en la fila 1:
{'fantasy': 0.6020192419453495, 'adventure': 0.4827411051825575, 'family': 0.6360297616422282}
Palabras y frecuencias en la fila 2:
{'thriller': 0.47829268111052503, 'drama': 0.44441704890427014, 'crime': 0.617959773380167, 'action': 0.43801291798673875}
Palabras y frecuencias en la fila 3:
{'thriller': 0.5935307803899864, 'action': 0.5435461576161746, 'adventure': 0.5935307803899864}
Palabras y frecuencias en la fila 4:
{'drama': 0.5838599201429302, 'crime': 0.8118544165370359}
Palabras y frecuencias en la fila 5:
{'crime': 0.6630272926469062, 'adventure': 0.513174344205168, 'comedy': 0.545020092890996}
Palabras y frecuencias en la fila 6:
{'mystery': 0.6289779828721855, 'fiction': 0.47154840996530856, 'science': 0.47154840996530856, 'thriller': 0.3995884022095926}
Palabras y frecuencias en la fila 7:
{'mystery': 0.6938