<a href="https://colab.research.google.com/github/Viny2030/HUMAI/blob/main/ejercicios_clase_uno_consigna.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicios embeddings de oraciones

In [None]:
!pip install spacy
!pip install scikit-learn
!python -m spacy download es_core_news_md

# Ejercicio 1

Desarrolla una función que tome dos argumentos: una oración objetivo y una lista de oraciones. Esta función debe calcular y devolver la oración de la lista que es más similar a la oración objetivo, basándose en la medida de la similitud coseno. Además, la función también debe retornar el puntaje de similitud obtenido por esta oración.

In [None]:
import spacy

# Cargar el modelo de lenguaje en español
nlp = spacy.load('es_core_news_md')

def encontrar_frase_similar(frase_objetivo, lista_de_frases):
    # Crear un embedding para la frase objetivo
    objetivo_embedding = nlp(frase_objetivo)

    mayor_similitud = -1
    frase_similar = None

    # Iterar sobre todas las frases en la lista
    for frase in lista_de_frases:
        # Crear un embedding para la frase actual
        frase_embedding = nlp(frase)

        # Calcular la similitud coseno entre la frase objetivo y la frase actual
        similitud = objetivo_embedding.similarity(frase_embedding)

        # Si la similitud es mayor que la similitud más alta encontrada hasta ahora,
        # actualizamos la similitud más alta y la frase más similar
        if similitud > mayor_similitud:
            mayor_similitud = similitud
            frase_similar = frase

    # Devolver la frase más similar y su similitud con la frase objetivo
    return frase_similar, mayor_similitud

In [None]:
encontrar_frase_similar('amo el helado de chocolate', ['amo el helado de vainilla', 'amo la ensalada de pepino'])

('amo el helado de vainilla', 0.9888834836736868)

# Ejercicio 2

Desarrolla la misma funcion, pero esta vez utilizando TF-IDF en lugar de Spacy para crear los vectores.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def encontrar_frase_similar_tfidf(frase_objetivo, lista_de_frases_input):
    # Incluir la frase objetivo en la lista de frases
    lista_de_frases = lista_de_frases_input.copy()
    lista_de_frases.append(frase_objetivo)

    # Crear el TfidfVectorizer y transformar la lista de frases
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(lista_de_frases)

    # Calcular la similitud coseno entre la frase objetivo (la última en la matriz)
    # y todas las demás frases
    similitudes = cosine_similarity(tfidf_matrix[-1:], tfidf_matrix)

    # Obtener el índice de la frase con la mayor similitud (excluyendo la última)
    indice_similar = similitudes.argsort()[0][-2]

    # Normalizar el puntaje de similitud a que esté entre 0 y 1

    # Devolver la frase más similar y su puntaje de similitud
    return lista_de_frases[indice_similar], similitudes[0, indice_similar]

In [None]:
encontrar_frase_similar_tfidf('amo el helado de chocolate', ['amo el helado de vainilla', 'amo la ensalada de pepino'])

('amo el helado de vainilla', 0.6496702663128741)

# Ejercicio 3

Prueba ambas funciones con el siguiente dataset. Encuentras una diferencia en el rendimiento? A qué se debe? Cuándo sería mejor utilizar una respecto a otra?


In [None]:
oracion_objetivo = "Me gusta mucho el fútbol, mi equipo favorito es River Plate."

dataset = ["A él también le encanta el fútbol, siempre lo está viendo.",
            "El deporte favorito de María es el baloncesto, y su equipo es River Plate.",
            "El fútbol es un deporte muy popular en el mundo.",
            "Nunca he entendido por qué a la gente le gusta tanto el fútbol.",
            "El helado de vainilla es mi sabor favorito.",
            "Estoy aprendiendo a tocar la guitarra.",
            "Me encanta leer libros, es mi pasatiempo favorito."]

('El deporte favorito de María es el baloncesto, y su equipo es River Plate.',
 0.4747570003382626)

In [None]:
encontrar_frase_similar_tfidf(oracion_objetivo, dataset)

In [None]:
encontrar_frase_similar(oracion_objetivo, dataset)