# Práctica de Laboratorio de Procesamiento del Lenguaje Natural (NLP)
Tema: Modelos de lenguaje

## Contexto del cliente

Imagina que trabajas en una empresa de análisis de películas llamada "CineAnalyzer". La empresa se dedica a categorizar automáticamente las películas en diferentes géneros, como acción, comedia, ciencia ficción, drama, etc. Para automatizar este proceso, han decidido utilizar técnicas de Procesamiento del Lenguaje Natural (NLP) y te han asignado la tarea de preparar los textos para después poder realizar distintas analíticas y clasificaciones sobre ellos.

## Dataset

In [23]:
argumentos_peliculas = [
    "Un detective privado lucha por desentrañar los secretos oscuros de una mansión embrujada en 'Misterios en la Mansión Húngara'.",
    "Un equipo de astronautas debe luchar por sobrevivir en un planeta desconocido después de un aterrizaje forzoso en 'Planeta Olvidado'.",
    "En un mundo post-apocalíptico, un grupo de sobrevivientes busca refugio en 'La Última Esperanza'.",
    "Un científico brillante inventa una máquina del tiempo que desencadena consecuencias inesperadas en 'El Viaje Temporal'.",
    "Dos desconocidos quedan atrapados en un ascensor durante horas y descubren que tienen más en común de lo que imaginaban en 'Atrapados en el Ascensor'.",
    "Una joven talentosa lucha por alcanzar sus sueños musicales en 'Notas de Pasión'.",
    "Un detective de homicidios persigue a un asesino en serie que deja acertijos macabros en 'El Enigma del Asesino'.",
    "En un mundo de magia y criaturas míticas, un joven campesino emprende una búsqueda épica en 'La Búsqueda del Dragón'.",
    "Un grupo de amigos se enfrenta a sus miedos más oscuros cuando deciden pasar la noche en una casa encantada en 'Pesadillas Nocturnas'.",
    "Un hombre común descubre que tiene habilidades sobrenaturales y debe aprender a controlarlas en 'El Elegido'.",
    "Una periodista intrépida investiga una conspiración gubernamental en 'La Verdad Oculta'.",
    "En un futuro distópico, la lucha por los recursos desencadena una guerra mortal en 'Desierto de Hierro'.",
    "Una joven se embarca en un viaje mágico para salvar a su familia en 'El Libro de los Encantamientos'.",
    "Un grupo de adolescentes se enfrenta a un asesino en serie que imita a famosos psicópatas en 'El Juego del Asesino'.",
    "Un científico loco crea un monstruo gigante que amenaza con destruir la ciudad en 'La Ira del Coloso'.",
    "Una joven artista se debate entre el amor y la ambición en 'Pinceladas del Corazón'.",
    "Un detective retirado es llamado de vuelta al servicio para resolver un último caso en 'El Último Caso'.",
    "Un equipo de exploradores descubre una civilización perdida en las profundidades de la selva en 'El Enigma de los Mayas'.",
    "Una inteligencia artificial cobra conciencia y desafía a la humanidad en 'El Despertar de la Máquina'.",
    "Dos amigos de la infancia se reencuentran en un viaje por carretera que cambiará sus vidas en 'Camino a la Amistad'.",
    "Un grupo de reclusos se une para escapar de una prisión de máxima seguridad en 'Fuga Imposible'.",
    "Una mujer debe enfrentar a su pasado traumático cuando regresa a su ciudad natal en 'Secretos Enterrados'.",
    "Un aventurero intrépido busca un tesoro perdido en 'La Búsqueda del Oro'.",
    "Un circo ambulante esconde oscuros secretos detrás de su apariencia encantadora en 'El Circo de las Sombras'.",
    "Una madre soltera lucha por proteger a su hijo de un peligroso criminal en 'Refugio en la Oscuridad'.",
    "Un grupo de científicos debe detener un virus mortal que amenaza con destruir la humanidad en 'Pandemia Mortal'.",
    "Un músico talentoso se enfrenta a sus demonios internos mientras busca la fama en 'Notas de Desesperación'.",
    "Un equipo de arqueólogos descubre una antigua profecía que podría cambiar el mundo en 'La Profecía Olvidada'.",
    "Un detective ciego resuelve crímenes utilizando sus otros sentidos en 'El Ojo de la Justicia'.",
    "Una joven rebelde se convierte en la líder de una revolución en 'Rebeldía en la Ciudad'.",
    "Un grupo de amigos de la infancia regresa a su pueblo natal para enfrentar un trauma del pasado en 'Secretos Oscuros'.",
    "Un explorador solitario se adentra en la selva amazónica en busca de una criatura legendaria en 'El Rostro del Amazonas'.",
    "Un científico brillante inventa una forma de viajar a dimensiones paralelas en 'El Portal Interdimensional'.",
    "Un detective atormentado investiga una serie de suicidios que podrían estar relacionados en 'Misterios Mortales'.",
    "Un grupo de astronautas queda atrapado en una estación espacial averiada en 'El Riesgo del Espacio'.",
    "Una joven hereda una mansión encantada y descubre secretos oscuros en 'La Herencia Maldita'.",
    "Un grupo de surfistas se enfrenta a un tiburón asesino en 'Olas de Terror'.",
    "Un periodista investiga una serie de desapariciones en un pequeño pueblo en 'El Misterio de la Desolación'.",
    "Un científico obsesionado busca pruebas de vida extraterrestre en 'Encuentro en el Espacio'.",
    "Un equipo de detectives de lo paranormal investiga fenómenos inexplicables en 'Cazadores de Fantasmas'.",
    "Un grupo de adolescentes descubre un portal a un mundo mágico en 'El Portal de la Fantasía'.",
    "Un viaje en crucero se convierte en una pesadilla cuando un asesino comienza a atacar a los pasajeros en 'Crucero de Terror'."
]



## Ejercicio 1: : Preprocesamiento de Texto
El siguiente paso es preprocesar el argumento de las películas. Sigue los siguientes pasos: 

1. Tokenizar las frases en palabras
2. Lematizar cada token
3. Unir los tokens de nuevo en una frase utilizando join (esto se debe a que Bag of Words, TFIDF, etc, necesitan como entrada un conjunto de frases, no un conjunto de tokens).


In [28]:
import spacy

# Cargar el modelo de idioma en español
nlp = spacy.load("es_core_news_sm")

argumentos_peliculas_preprocesados = []

for argumento in argumentos_peliculas:
    # Procesar el texto con spaCy
    doc = nlp(argumento)
    # Obtener lemas de las palabras
    lemmatized_tokens = []
    for token in doc:
        if not token.is_stop:
            lemmatized_tokens.append(token.lemma_)
    
    texto_procesado = ' '.join(lemmatized_tokens)
    argumentos_peliculas_preprocesados.append(texto_procesado)


# Mostrar las películas preprocesadas
print(argumentos_peliculas_preprocesados)

["detective privado luchar desentrañar secreto oscuro mansión embrujado ' Misterios Mansión Húngara ' .", "equipo astronauta luchar sobrevivir planeta desconocido aterrizaje forzoso ' Planeta Olvidado ' .", "mundo post-apocalíptico , grupo sobreviviente buscar refugio ' Esperanza ' .", "científico brillante inventar máquina tiempo desencadenar consecuencia inesperado ' Viaje Temporal ' .", "desconocido quedar atrapado ascensor hora descubrir común imaginar ' Atrapados Ascensor ' .", "joven talentós lucha alcanzar sueño musical ' Notas Pasión ' .", "detective homicidio perseguir asesino serie dejar acertijo macabro ' Enigma Asesino ' .", "mundo magia criatura mítico , joven campesino emprender búsqueda épico ' Búsqueda Dragón ' .", "grupo amigo enfrentar miedo oscuro decidir pasar noche casa encantado ' Pesadillas Nocturnas ' .", "hombre común descubrir habilidad sobrenatural aprender controlar él ' Elegido ' .", "periodista intrépido investigar conspiración gubernamental ' Oculta ' .",

In [29]:
#### Otra forma de hacerlo generando una función de preprocesamiento que incluye todas las operaciones


import spacy

# Cargar el modelo de idioma en español
nlp = spacy.load("es_core_news_sm")

def preprocess_text(text):
    # Procesar el texto con spaCy
    doc = nlp(text)
    
    # Obtener lemas de las palabras
    lemmatized_tokens = []
    for token in doc:
        if not token.is_stop: # si la palabra no es stopword, entonces la guardamos
            lemmatized_tokens.append(token.lemma_)
    
    return ' '.join(lemmatized_tokens)


# Aplicar la función de preprocesamiento a la lista de argumentos de películas
argumentos_peliculas_preprocesados = [preprocess_text(argumento) for argumento in argumentos_peliculas]

# Mostrar las películas preprocesadas
print(argumentos_peliculas_preprocesados)

["detective privado luchar desentrañar secreto oscuro mansión embrujado ' Misterios Mansión Húngara ' .", "equipo astronauta luchar sobrevivir planeta desconocido aterrizaje forzoso ' Planeta Olvidado ' .", "mundo post-apocalíptico , grupo sobreviviente buscar refugio ' Esperanza ' .", "científico brillante inventar máquina tiempo desencadenar consecuencia inesperado ' Viaje Temporal ' .", "desconocido quedar atrapado ascensor hora descubrir común imaginar ' Atrapados Ascensor ' .", "joven talentós lucha alcanzar sueño musical ' Notas Pasión ' .", "detective homicidio perseguir asesino serie dejar acertijo macabro ' Enigma Asesino ' .", "mundo magia criatura mítico , joven campesino emprender búsqueda épico ' Búsqueda Dragón ' .", "grupo amigo enfrentar miedo oscuro decidir pasar noche casa encantado ' Pesadillas Nocturnas ' .", "hombre común descubrir habilidad sobrenatural aprender controlar él ' Elegido ' .", "periodista intrépido investigar conspiración gubernamental ' Oculta ' .",

## Ejercicio 2: Modelo Bag of Words (BoW)
Ahora, vamos a crear un modelo Bag of Words para representar los argumentos de las películas. Utiliza la librería CountVectorizer de Scikit-Learn.

In [31]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

# Crear un vectorizador BoW
vectorizer = CountVectorizer()

# Transformar los textos en vectores BoW
X_bow = vectorizer.fit_transform(argumentos_peliculas_preprocesados)

# Mostrar el vocabulario generado
print("Vocabulario BoW:", vectorizer.get_feature_names_out())

# Mostrarlo en dataframe
df = pd.DataFrame(X_bow.toarray(), columns=vectorizer.get_feature_names_out(), index=argumentos_peliculas_preprocesados)

df.head()



Vocabulario BoW: ['acertijo' 'adentrar' 'adolescente' 'alcanzar' 'amazonas' 'amazónico'
 'ambición' 'ambulante' 'amenazar' 'amigo' 'amistad' 'amor' 'antiguo'
 'apariencia' 'apocalíptico' 'aprender' 'arqueólogo' 'artificial'
 'artista' 'ascensor' 'asesino' 'astronauta' 'atacar' 'aterrizaje'
 'atormentado' 'atrapado' 'atrapados' 'aventurero' 'averiado' 'brillante'
 'busca' 'buscar' 'búsqueda' 'cambiar' 'camino' 'campesino' 'carretera'
 'casa' 'caso' 'cazadores' 'ciego' 'científico' 'circo' 'ciudad'
 'civilización' 'cobrar' 'coloso' 'comenzar' 'común' 'conciencia'
 'consecuencia' 'conspiración' 'controlar' 'convertir' 'corazón' 'creer'
 'criatura' 'crimen' 'criminal' 'crucero' 'debatir' 'decidir' 'dejar'
 'demonio' 'desafía' 'desaparición' 'desconocido' 'descubrir'
 'desencadenar' 'desentrañar' 'desesperación' 'desierto' 'desolación'
 'despertar' 'destruir' 'detective' 'detener' 'dimensión' 'distópico'
 'dragón' 'elegido' 'embarcar' 'embrujado' 'emprender' 'encantado'
 'encantador' 'encan

Unnamed: 0,acertijo,adentrar,adolescente,alcanzar,amazonas,amazónico,ambición,ambulante,amenazar,amigo,...,traumático,unir,utilizar,viajar,viaje,vida,virus,vuelta,él,épico
detective privado luchar desentrañar secreto oscuro mansión embrujado ' Misterios Mansión Húngara ' .,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
equipo astronauta luchar sobrevivir planeta desconocido aterrizaje forzoso ' Planeta Olvidado ' .,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
"mundo post-apocalíptico , grupo sobreviviente buscar refugio ' Esperanza ' .",0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
científico brillante inventar máquina tiempo desencadenar consecuencia inesperado ' Viaje Temporal ' .,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
desconocido quedar atrapado ascensor hora descubrir común imaginar ' Atrapados Ascensor ' .,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## Ejercicio 3: Modelo Bag of N-grams
Ahora, vamos a crear un modelo Bag of N-grams para representar las noticias.

In [32]:
from sklearn.feature_extraction.text import CountVectorizer

# Crear un vectorizador de N-grams
vectorizer = CountVectorizer(ngram_range=(2, 2))  # Utiliza bigramas

# Transformar los textos en vectores de N-grams
X_ngrams = vectorizer.fit_transform(argumentos_peliculas_preprocesados)

# Mostrar el vocabulario de N-grams generado
print("Vocabulario de N-grams:", vectorizer.get_feature_names_out())

# Mostrarlo en dataframe
df = pd.DataFrame(X_ngrams.toarray(), columns=vectorizer.get_feature_names_out(), index=argumentos_peliculas_preprocesados)

df.head()


Vocabulario de N-grams: ['acertijo macabro' 'adentrar selva' 'adolescente descubrir'
 'adolescente enfrentar' 'alcanzar sueño' 'amazónico busca'
 'ambición pinceladas' 'ambulante esconder' 'amenazar destruir'
 'amigo enfrentar' 'amigo infancia' 'amor ambición' 'antiguo profecía'
 'apariencia encantador' 'apocalíptico grupo' 'aprender controlar'
 'arqueólogo descubrir' 'artificial cobrar' 'artista debatir'
 'ascensor hora' 'asesino comenzar' 'asesino olas' 'asesino serie'
 'astronauta luchar' 'astronauta quedar' 'atacar pasajero'
 'aterrizaje forzoso' 'atormentado investigar' 'atrapado ascensor'
 'atrapado estación' 'atrapados ascensor' 'aventurero intrépido'
 'averiado riesgo' 'brillante inventar' 'busca criatura' 'buscar fama'
 'buscar prueba' 'buscar refugio' 'buscar tesoro' 'búsqueda dragón'
 'búsqueda oro' 'búsqueda épico' 'cambiar mundo' 'cambiar vida'
 'camino amistad' 'campesino emprender' 'carretera cambiar'
 'casa encantado' 'caso caso' 'cazadores fantasmas' 'ciego resolver'
 

Unnamed: 0,acertijo macabro,adentrar selva,adolescente descubrir,adolescente enfrentar,alcanzar sueño,amazónico busca,ambición pinceladas,ambulante esconder,amenazar destruir,amigo enfrentar,...,viaje carretera,viaje crucero,viaje mágico,viaje temporal,vida camino,vida extraterrestrar,virus mortal,vuelta servicio,él elegido,épico búsqueda
detective privado luchar desentrañar secreto oscuro mansión embrujado ' Misterios Mansión Húngara ' .,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
equipo astronauta luchar sobrevivir planeta desconocido aterrizaje forzoso ' Planeta Olvidado ' .,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
"mundo post-apocalíptico , grupo sobreviviente buscar refugio ' Esperanza ' .",0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
científico brillante inventar máquina tiempo desencadenar consecuencia inesperado ' Viaje Temporal ' .,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
desconocido quedar atrapado ascensor hora descubrir común imaginar ' Atrapados Ascensor ' .,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## Ejercicio 4: Modelo TF-IDF
Ahora, vamos a crear un modelo TF-IDF para representar los argumentos de las películas.

In [33]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Crear un vectorizador TF-IDF
vectorizer = TfidfVectorizer()

# Transformar los textos en vectores TF-IDF
X_tfidf = vectorizer.fit_transform(argumentos_peliculas_preprocesados)

# Mostrar el vocabulario TF-IDF generado
print("Vocabulario TF-IDF:", vectorizer.get_feature_names_out())

# Mostrarlo en dataframe
tfidf_df = pd.DataFrame(X_tfidf.toarray(), columns=vectorizer.get_feature_names_out(), index=argumentos_peliculas_preprocesados)

tfidf_df.head()

Vocabulario TF-IDF: ['acertijo' 'adentrar' 'adolescente' 'alcanzar' 'amazonas' 'amazónico'
 'ambición' 'ambulante' 'amenazar' 'amigo' 'amistad' 'amor' 'antiguo'
 'apariencia' 'apocalíptico' 'aprender' 'arqueólogo' 'artificial'
 'artista' 'ascensor' 'asesino' 'astronauta' 'atacar' 'aterrizaje'
 'atormentado' 'atrapado' 'atrapados' 'aventurero' 'averiado' 'brillante'
 'busca' 'buscar' 'búsqueda' 'cambiar' 'camino' 'campesino' 'carretera'
 'casa' 'caso' 'cazadores' 'ciego' 'científico' 'circo' 'ciudad'
 'civilización' 'cobrar' 'coloso' 'comenzar' 'común' 'conciencia'
 'consecuencia' 'conspiración' 'controlar' 'convertir' 'corazón' 'creer'
 'criatura' 'crimen' 'criminal' 'crucero' 'debatir' 'decidir' 'dejar'
 'demonio' 'desafía' 'desaparición' 'desconocido' 'descubrir'
 'desencadenar' 'desentrañar' 'desesperación' 'desierto' 'desolación'
 'despertar' 'destruir' 'detective' 'detener' 'dimensión' 'distópico'
 'dragón' 'elegido' 'embarcar' 'embrujado' 'emprender' 'encantado'
 'encantador' 'en

Unnamed: 0,acertijo,adentrar,adolescente,alcanzar,amazonas,amazónico,ambición,ambulante,amenazar,amigo,...,traumático,unir,utilizar,viajar,viaje,vida,virus,vuelta,él,épico
detective privado luchar desentrañar secreto oscuro mansión embrujado ' Misterios Mansión Húngara ' .,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
equipo astronauta luchar sobrevivir planeta desconocido aterrizaje forzoso ' Planeta Olvidado ' .,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
"mundo post-apocalíptico , grupo sobreviviente buscar refugio ' Esperanza ' .",0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
científico brillante inventar máquina tiempo desencadenar consecuencia inesperado ' Viaje Temporal ' .,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.267709,0.0,0.0,0.0,0.0,0.0
desconocido quedar atrapado ascensor hora descubrir común imaginar ' Atrapados Ascensor ' .,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


## Ejercicio 5: Cálculo de Similitud con Coseno
Finalmente, vamos a calcular la similitud entre documentos utilizando la medida del coseno.

In [34]:
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

# Calcular la similitud entre los documentos usando coseno
similarity_matrix = cosine_similarity(X_tfidf, X_tfidf)

# Mostrar la matriz de similitud (ejemplo: similitud entre el documento 0 y el documento 1)
print("Similitud entre documento 0 y documento 1:", similarity_matrix[0][1])

# Mostrar la matriz completa
print(similarity_matrix)

# Convertir la matriz de similitud en un DataFrame de Pandas
similarity_df = pd.DataFrame(similarity_matrix, columns=range(len(argumentos_peliculas_preprocesados)), index=range(len(argumentos_peliculas_preprocesados)))

similarity_df.head()

Similitud entre documento 0 y documento 1: 0.0748493684822179
[[1.         0.07484937 0.         ... 0.05683504 0.         0.        ]
 [0.07484937 1.         0.         ... 0.06992558 0.         0.        ]
 [0.         0.         1.         ... 0.         0.14144055 0.        ]
 ...
 [0.05683504 0.06992558 0.         ... 1.         0.         0.        ]
 [0.         0.         0.14144055 ... 0.         1.         0.        ]
 [0.         0.         0.         ... 0.         0.         1.        ]]


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,32,33,34,35,36,37,38,39,40,41
0,1.0,0.074849,0.0,0.0,0.0,0.0,0.04819,0.0,0.058382,0.0,...,0.0,0.155246,0.0,0.340533,0.0,0.0,0.0,0.056835,0.0,0.0
1,0.074849,1.0,0.0,0.0,0.074533,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.088481,0.0,0.0,0.0,0.0,0.069926,0.0,0.0
2,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.071246,0.045873,0.0,...,0.0,0.0,0.052444,0.0,0.063101,0.0,0.091466,0.0,0.141441,0.0
3,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.26373,0.0,0.0,0.0,0.0,0.0,0.070841,0.0,0.0,0.06305
4,0.0,0.074533,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.136786,...,0.0,0.0,0.179508,0.055815,0.0,0.0,0.0,0.0,0.054107,0.0


## El desafío final: 

Ahora, el desafío es crear un sistema que pueda recibir un nuevo argumento de películas, preprocesarlo, vectorizarlo con el modelo de lenguaje que elijas, que calcule la similitud coseno con los otros argumentos, y devuelva el argumento de película más similar. ¡Suerte! Utiliza para compararlo el argumentos_peliculas_preprocesados que has generado antes.

In [45]:
import re
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity



# Nuevo documento de películas
nuevo_documento = "Un grupo de científicos aventureros encuentran una tribu perdida en las profundidades de la sabana en 'Los buscadores de la sangre ancestral'."

# Preprocesar el nuevo documento
nuevo_documento_preprocesado = preprocess_text(nuevo_documento)

# Crear un vectorizador TF-IDF y ajustarlo a los documentos procesados
vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(argumentos_peliculas_preprocesados)

# Transformar el nuevo documento en una representación vectorial TF-IDF
X_tfidf_nuevo = vectorizer.transform([nuevo_documento_preprocesado])

# Calcular la similitud coseno entre el nuevo documento y todos los documentos en el corpus
similaridades = cosine_similarity(X_tfidf_nuevo, X_tfidf)


# Encontrar el índice del documento más similar
indice_documento_similar = similaridades.argmax()
valor_similitud = similaridades.max()

# Obtener el documento más similar
documento_similar = argumentos_peliculas_preprocesados[indice_documento_similar]


print("Matriz similaridades", similaridades)
print("Nuevo Documento: ", nuevo_documento_preprocesado)
print("Documento Más Similar: ", documento_similar)
print("Valor similitud: ", valor_similitud)


Matriz similaridades [[0.         0.         0.07511249 0.09560114 0.         0.
  0.         0.         0.06014969 0.         0.         0.
  0.         0.06446719 0.09304334 0.         0.         0.3474641
  0.         0.         0.06557809 0.         0.38280696 0.
  0.         0.15072973 0.         0.         0.         0.
  0.06886664 0.         0.09803588 0.         0.06876599 0.
  0.08273906 0.         0.10645798 0.         0.07016155 0.        ]]
Nuevo Documento:  grupo científico aventurero encontrar tribu perdido profundidad sabana ' buscador sangre ancestral ' .
Documento Más Similar:  aventurero intrépido buscar tesoro perdido ' Búsqueda Oro ' .
Valor similitud:  0.38280695565699085
