## Instalando dependencias necesarias

In [1]:
%%capture
%pip install -U sentence-transformers pandas
from sentence_transformers import SentenceTransformer, util


## Entendiendo el dataset

In [None]:
#Se descarga la base de datos de la siguiente ruta:
# https://www.kaggle.com/datasets/omarhanyy/imdb-top-1000?resource=download

In [2]:
#Si el archivo se carga en google drive conectas por medio del siguiente comando te conectas a tu cuenta
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
#En caso que el archivo lo tengas en tu equipo local usa el siguiente Codigo para seleccionarlo
from google.colab import files
uploaded = files.upload()

In [2]:
import pandas as pd


In [3]:
# Se lee el archivo CSV y se crea el dataframe df
df = pd.read_csv("data\IMDB top 1000.csv")

In [4]:
# se muestran los primeros 5 registros
df.head()

Unnamed: 0.1,Unnamed: 0,Title,Certificate,Duration,Genre,Rate,Metascore,Description,Cast,Info
0,0,1. The Shawshank Redemption (1994),R,142 min,Drama,9.3,80.0,Two imprisoned men bond over a number of years...,"Director: Frank Darabont | Stars: Tim Robbins,...","Votes: 2,295,987 | Gross: $28.34M"
1,1,2. The Godfather (1972),R,175 min,"Crime, Drama",9.2,100.0,The aging patriarch of an organized crime dyna...,Director: Francis Ford Coppola | Stars: Marlon...,"Votes: 1,584,782 | Gross: $134.97M"
2,2,3. The Dark Knight (2008),PG-13,152 min,"Action, Crime, Drama",9.0,84.0,When the menace known as the Joker wreaks havo...,Director: Christopher Nolan | Stars: Christian...,"Votes: 2,260,649 | Gross: $534.86M"
3,3,4. The Godfather: Part II (1974),R,202 min,"Crime, Drama",9.0,90.0,The early life and career of Vito Corleone in ...,Director: Francis Ford Coppola | Stars: Al Pac...,"Votes: 1,107,253 | Gross: $57.30M"
4,4,5. The Lord of the Rings: The Return of the Ki...,PG-13,201 min,"Action, Adventure, Drama",8.9,94.0,Gandalf and Aragorn lead the World of Men agai...,"Director: Peter Jackson | Stars: Elijah Wood, ...","Votes: 1,614,369 | Gross: $377.85M"


In [5]:
# Se valida el tamaño del dataframe en este caso tiene 1000 registros
df.shape

(1000, 10)

In [6]:
# Se valida si existen registro duplicados
df.duplicated(df.columns[1])

0      False
1      False
2      False
3      False
4      False
       ...  
995     True
996     True
997     True
998     True
999     True
Length: 1000, dtype: bool

In [7]:
# Se eliminan los duplicados
df = df.drop_duplicates(df.columns[1])

In [8]:
# Se valida el tamaño del Dataframe despues de la eliminacion de duplicados
df.shape

(398, 10)

Se crea una nuevo columna **Busqueda** con la union de las columnas **Title**,**Description**,**cast**,**Genre** las cuales tienen informacion relevante como es el titulo de la pelicula, descripcion, director, actores y genero,  con el fin ampliar el espectro semantico para el modelo

In [9]:
df['Busqueda']= 'Titulo: '+df['Title']+' | '+'Description: '+df['Description']+'|'+df['Cast']+' | '+'Genre :'+df['Genre']

In [10]:
# Se valida la columna creada mostrando los primeros 5 registros
print(df.head())

   Unnamed: 0                                              Title Certificate  \
0           0                 1. The Shawshank Redemption (1994)           R   
1           1                            2. The Godfather (1972)           R   
2           2                          3. The Dark Knight (2008)       PG-13   
3           3                   4. The Godfather: Part II (1974)           R   
4           4  5. The Lord of the Rings: The Return of the Ki...       PG-13   

  Duration                     Genre  Rate  Metascore  \
0  142 min                     Drama   9.3       80.0   
1  175 min              Crime, Drama   9.2      100.0   
2  152 min      Action, Crime, Drama   9.0       84.0   
3  202 min              Crime, Drama   9.0       90.0   
4  201 min  Action, Adventure, Drama   8.9       94.0   

                                         Description  \
0  Two imprisoned men bond over a number of years...   
1  The aging patriarch of an organized crime dyna...   
2  When 

## Usando Sentence Transformer para crear embeddings

In [12]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

In [13]:
#se vectoriza la columna Busqueda
embeddings = model.encode(df['Busqueda'],batch_size=64,show_progress_bar=True)

Batches: 100%|██████████| 7/7 [00:08<00:00,  1.22s/it]


In [14]:
#Se crea una nueva columna con los valores de la vectorizacion
df['embeddings'] = embeddings.tolist()

In [15]:
print(df.head())

   Unnamed: 0                                              Title Certificate  \
0           0                 1. The Shawshank Redemption (1994)           R   
1           1                            2. The Godfather (1972)           R   
2           2                          3. The Dark Knight (2008)       PG-13   
3           3                   4. The Godfather: Part II (1974)           R   
4           4  5. The Lord of the Rings: The Return of the Ki...       PG-13   

  Duration                     Genre  Rate  Metascore  \
0  142 min                     Drama   9.3       80.0   
1  175 min              Crime, Drama   9.2      100.0   
2  152 min      Action, Crime, Drama   9.0       84.0   
3  202 min              Crime, Drama   9.0       90.0   
4  201 min  Action, Adventure, Drama   8.9       94.0   

                                         Description  \
0  Two imprisoned men bond over a number of years...   
1  The aging patriarch of an organized crime dyna...   
2  When 

## Calculando la similitud usando la métrica de similitud por coseno

In [16]:
def compute_similarity(example, query_embedding):
    embedding = example['embeddings']
    similarity = util.cos_sim(embedding, query_embedding).item()
    return similarity


## Ejecuntando la búsqueda

In [None]:
while True:
    entrada = input("Introduce patron busqueda (o escribe 'salir' para terminar): ")

    if entrada.lower() == 'salir':  # Compara la entrada con 'salir' (sin importar mayúsculas)
        print("Programa finalizado.")
        break  # Sale del bucle si el usuario escribe 'salir'

    try:
        nombre = (entrada)  # Intenta convertir la entrada a un número
        query_embedding = model.encode(nombre)
        df['similarity'] = df.apply(lambda x: compute_similarity(x, query_embedding), axis=1)
        df = df.sort_values(by='similarity', ascending=False)
        print(df[['Title','Description','similarity']].head())
        # Aquí puedes añadir más lógica según lo que necesites hacer con el número
    except ValueError:
        print("Por favor, PATRON busqueda o 'salir'.")
