<a href="https://colab.research.google.com/github/MauricioCastroF/NLP-desafios/blob/main/Desaf%C3%ADo_1_NLP_CastroFMauricio_VecDoc.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [35]:
import numpy as np
import torch
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer


In [12]:
corpus = np.array(['Podrá nublarse el sol eternamente', 'Podrá secarse en un instante el mar', 'Podrá romperse el eje de la Tierra como un débil cristal',
                   "Podrá la muerte Cubrirme con su fúnebre crespón", "Pero jamás en mí podrá apagarse la llama de tu amor"])

# ***1 - Obtener el vocabulario del corpus (los términos utilizados)***
*   Cada documento transformarlo en una lista de términos
*   Armar un vector de términos no repetidos de todos los documentos

In [13]:
# Transformar cada documento en una lista de términos
documentos = [doc.lower().split() for doc in corpus]

In [14]:
# Armar un vector de términos no repetidos de todos los documentos
vocabulario = list(set([palabra for doc in documentos for palabra in doc]))

In [15]:
# Crear un diccionario para mapear cada término a un índice
vocabulario_dict = {palabra: indice for indice, palabra in enumerate(vocabulario)}

In [16]:
# Imprimir el vocabulario
print("Vocabulario:")
print(vocabulario)

Vocabulario:
['pero', 'de', 'tu', 'mí', 'apagarse', 'el', 'su', 'amor', 'llama', 'cristal', 'podrá', 'como', 'eternamente', 'mar', 'con', 'un', 'romperse', 'eje', 'nublarse', 'sol', 'jamás', 'secarse', 'cubrirme', 'instante', 'tierra', 'crespón', 'muerte', 'fúnebre', 'débil', 'la', 'en']


In [17]:
# Convertir los documentos a vectores de términos utilizando el vocabulario
documentos_vectorizados = []
for doc in documentos:
    vector = np.zeros(len(vocabulario))
    for palabra in doc:
        if palabra in vocabulario_dict:
            indice = vocabulario_dict[palabra]
            vector[indice] += 1
    documentos_vectorizados.append(vector)

In [18]:
# Convertir los documentos vectorizados a tensores de PyTorch
documentos_tensor = torch.tensor(documentos_vectorizados)

In [19]:
#documentos vectorizados
print("\nDocumentos vectorizados:")
print(documentos_tensor)


Documentos vectorizados:
tensor([[0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0.,
         1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 1., 0., 1., 0., 0.,
         0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 1.],
        [0., 1., 0., 0., 0., 1., 0., 0., 0., 1., 1., 1., 0., 0., 0., 1., 1., 1.,
         0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 1., 1., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 1., 0., 0., 0., 1., 0., 0., 0.,
         0., 0., 0., 0., 1., 0., 0., 1., 1., 1., 0., 1., 0.],
        [1., 1., 1., 1., 1., 0., 0., 1., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1.]],
       dtype=torch.float64)


# ***2- OneHot encoding***
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [20]:
# OneHot encoding
onehot = []
for documento in corpus:
    vector = []
    palabras = documento.lower().split()
    for palabra in vocabulario:
        if palabra in palabras:
            vector.append(1)
        else:
            vector.append(0)
    onehot.append(vector)

In [21]:
# Imprimir los vectores OneHot
print("Vectores OneHot:")
for vector in onehot:
    print(vector)
print()

Vectores OneHot:
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1]
[0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0]
[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0]
[1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1]



# ***3- Vectores de frecuencia***
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [22]:
# Vectores de frecuencia
vectores_frecuencia = []
for documento in corpus:
    vector = []
    palabras = documento.lower().split()
    for palabra in vocabulario:
        vector.append(palabras.count(palabra))
    vectores_frecuencia.append(vector)

In [23]:
# Imprimir los vectores de frecuencia
print("Vectores de frecuencia:")
for vector in vectores_frecuencia:
    print(vector)
print()

Vectores de frecuencia:
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1]
[0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0]
[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0]
[1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1]



# ***4- TF-IDF***
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [32]:
# Función para obtener los vectores TF-IDF de un corpus
def get_tfidf_vectors(corpus):
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(corpus)
    tfidf_vectors = X.toarray()
    return tfidf_vectors

In [24]:
# TF-IDF
import math

In [25]:
idf = {}
for palabra in vocabulario:
    df = sum([palabra in documento.lower().split() for documento in corpus])
    idf[palabra] = math.log(len(corpus) / (1 + df))

vectores_tfidf = []
for documento in corpus:
    vector = []
    palabras = documento.lower().split()
    for palabra in vocabulario:
        tf = palabras.count(palabra)
        vector.append(tf * idf[palabra])
    vectores_tfidf.append(vector)

In [26]:
# Imprimir los vectores TF-IDF
print("Vectores TF-IDF:")
for vector in vectores_tfidf:
    print(vector)

Vectores TF-IDF:
[0.0, 0.0, 0.0, 0.0, 0.0, 0.22314355131420976, 0.0, 0.0, 0.0, 0.0, -0.1823215567939546, 0.0, 0.9162907318741551, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9162907318741551, 0.9162907318741551, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.22314355131420976, 0.0, 0.0, 0.0, 0.0, -0.1823215567939546, 0.0, 0.0, 0.9162907318741551, 0.0, 0.5108256237659907, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9162907318741551, 0.0, 0.9162907318741551, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.5108256237659907]
[0.0, 0.5108256237659907, 0.0, 0.0, 0.0, 0.22314355131420976, 0.0, 0.0, 0.0, 0.9162907318741551, -0.1823215567939546, 0.9162907318741551, 0.0, 0.0, 0.0, 0.5108256237659907, 0.9162907318741551, 0.9162907318741551, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9162907318741551, 0.0, 0.0, 0.0, 0.9162907318741551, 0.22314355131420976, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9162907318741551, 0.0, 0.0, 0.0, -0.1823215567939546, 0.0, 0.0, 0.0, 0.9162907318741551, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.9162

# ***5 - Comparación de documentos***
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [27]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

In [33]:
def sort_documents_by_similarity(corpus, index):
    tfidf_vectors = get_tfidf_vectors(corpus)
    target_vector = tfidf_vectors[index]
    similarities = []
    for i, vector in enumerate(tfidf_vectors):
        similarity = cosine_similarity(target_vector, vector)
        similarities.append((i, similarity))
    similarities.sort(key=lambda x: x[1], reverse=True)
    sorted_documents = [corpus[i] for i, _ in similarities]
    return sorted_documents

In [36]:
sorted_documents = sort_documents_by_similarity(corpus, 1)
print("Documentos ordenados por similitud coseno:")
for document in sorted_documents:
    print(document)

Documentos ordenados por similitud coseno:
Podrá secarse en un instante el mar
Podrá romperse el eje de la Tierra como un débil cristal
Podrá nublarse el sol eternamente
Pero jamás en mí podrá apagarse la llama de tu amor
Podrá la muerte Cubrirme con su fúnebre crespón
