<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [8]:
# Tokenizar cada documento
tokenized_corpus = [doc.split() for doc in corpus]

# Armar un vector de términos no repetidos de todos los documentos
vocabulary = set()
for doc in tokenized_corpus:
    vocabulary.update(doc)

vocabulary = list(vocabulary)  # Convierte el conjunto en una lista

print("Vocabulario del corpus:")
print(vocabulary)

Vocabulario del corpus:
['muchas', 'martes', 'que', 'el', 'dia', 'hoy', 'de', 'gracias', 'es']


### 2- OneHot encoding
Dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [13]:
def create_one_hot_matrix(texts):
    # Crear un vocabulario único
    vocabulary = set()
    for text in texts:
        words = text.split()
        vocabulary.update(words)

    # Asignar un índice único a cada palabra en el vocabulario
    word_to_index = {word: i for i, word in enumerate(vocabulary)}

    # Crear la matriz One-Hot Encoding
    num_texts = len(texts)
    num_words = len(vocabulary)
    one_hot_matrix = np.zeros((num_texts, num_words), dtype=int)

    for i, text in enumerate(texts):
        words = text.split()
        for word in words:
            word_index = word_to_index[word]
            one_hot_matrix[i, word_index] = 1

    return one_hot_matrix

In [14]:
# Ejemplo
texts = ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']
one_hot_matrix = create_one_hot_matrix(texts)

print("Matriz One-Hot Encoding:")
print(one_hot_matrix)

Matriz One-Hot Encoding:
[[0 0 1 0 1 1 0 0 1]
 [0 1 0 1 1 1 1 0 1]
 [1 1 0 0 0 0 0 1 0]]


### 3- Vectores de frecuencia
Dada una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [34]:
def create_frequency_matrix(texts):
    # Crear un vocabulario único
    vocabulary = set()
    for text in texts:
        words = text.split()
        vocabulary.update(words)

    # Asignar un índice único a cada palabra en el vocabulario
    word_to_index = {word: i for i, word in enumerate(vocabulary)}

    # Crear la matriz de representación de frecuencia
    num_texts = len(texts)
    num_words = len(vocabulary)
    frequency_matrix = np.zeros((num_texts, num_words), dtype=int)

    for i, text in enumerate(texts):
        words = text.split()
        for word in words:
            frequency_matrix[i, word_to_index[word]] += 1

    return frequency_matrix

In [35]:
# Ejemplo
texts = ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']
frequency_matrix = create_frequency_matrix(texts)

print("Matriz de Representación de Frecuencia:")
print(frequency_matrix)

Matriz de Representación de Frecuencia:
[[0 0 1 0 1 1 0 0 1]
 [0 2 0 1 1 1 1 0 1]
 [1 1 0 0 0 0 0 1 0]]


### 4- TF-IDF
Dada una lista de textos, devolver una matriz con la representacion TFIDF

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno