<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np
import pandas as pd
from collections import Counter
import math

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
# Cada documento se transforma en una lista de términos
documentos_como_listas = [doc.split() for doc in corpus]
print("Documentos como listas de términos:")
print(documentos_como_listas)

# Armar un vector de términos no repetidos de todos los documentos
vocabulario = set()
for lista in documentos_como_listas:
    vocabulario.update(lista)

# Convertir el conjunto a una lista
vocabulario = list(vocabulario)
print("\nVocabulario del corpus:")
print(vocabulario)

Documentos como listas de términos:
[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]

Vocabulario del corpus:
['el', 'martes', 'muchas', 'es', 'gracias', 'de', 'hoy', 'que', 'dia']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [5]:
import numpy as np

def one_hot_encoding(docs):
    # Crear el vocabulario
    vocab = set(word for doc in docs for word in doc.split())
    vocab = sorted(list(vocab))
    
    # Crear una matriz de ceros
    one_hot = np.zeros((len(docs), len(vocab)), dtype=int)
    
    # Rellenar la matriz
    for i, doc in enumerate(docs):
        for word in doc.split():
            one_hot[i, vocab.index(word)] = 1
            
    return one_hot, vocab

# Lista de textos
docs = ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']

# Obtener la representación One-Hot Encoding
matrix, vocabulary = one_hot_encoding(docs)
pd.DataFrame(np.array(matrix), 
             columns = vocabulary, 
             index = ["Doc1", "Doc2", "Doc3"])

Unnamed: 0,de,dia,el,es,gracias,hoy,martes,muchas,que
Doc1,0,1,0,1,0,1,0,0,1
Doc2,1,1,1,1,0,1,1,0,0
Doc3,0,0,0,0,1,0,1,1,0


### 3- Vectores de frecuencia
Data una lista de textos?, devolver una matriz con la representación de frecuencia de estos

In [6]:
def term_frequency(docs):
    # Crear el vocabulario
    vocab = set(word for doc in docs for word in doc.split())
    vocab = sorted(list(vocab))
    
    # Crear una matriz de ceros
    tf_matrix = np.zeros((len(docs), len(vocab)), dtype=int)
    
    # Rellenar la matriz con frecuencias
    for i, doc in enumerate(docs):
        for word in doc.split():
            tf_matrix[i, vocab.index(word)] += 1
            
    return tf_matrix, vocab

# Lista de textos
docs = ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']

# Obtener la representación de frecuencia de términos
matrix, vocabulary = term_frequency(docs)
pd.DataFrame(np.array(matrix), 
             columns = vocabulary, 
             index = ["Doc1", "Doc2", "Doc3"])

Unnamed: 0,de,dia,el,es,gracias,hoy,martes,muchas,que
Doc1,0,1,0,1,0,1,0,0,1
Doc2,1,1,1,1,0,1,2,0,0
Doc3,0,0,0,0,1,0,1,1,0


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [7]:
def compute_tfidf(docs):
    # Paso 1: Obtener el vocabulario
    vocab = set()
    for doc in docs:
        words = doc.split()
        vocab.update(words)
    vocab = sorted(list(vocab))

    # Paso 2: Calcular la Frecuencia de Término (TF)
    tf = np.zeros((len(docs), len(vocab)))
    for i, doc in enumerate(docs):
        words = doc.split()
        word_count = Counter(words)
        for j, term in enumerate(vocab):
            tf[i, j] = word_count[term]

    # Paso 3: Calcular la Frecuencia Inversa de Documento (IDF)
    idf = np.zeros(len(vocab))
    for i, term in enumerate(vocab):
        idf[i] = math.log10(len(docs) / sum([term in doc for doc in docs]))

    # Paso 4: Calcular TF-IDF
    tfidf = tf * idf

    return vocab, tfidf

docs = ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']

vocab, tfidf_matrix = compute_tfidf(docs)
pd.DataFrame(np.array(tfidf_matrix), 
             columns = vocab, 
             index = ["Doc1", "Doc2", "Doc3"])


Unnamed: 0,de,dia,el,es,gracias,hoy,martes,muchas,que
Doc1,0.0,0.176091,0.0,0.0,0.0,0.176091,0.0,0.0,0.477121
Doc2,0.477121,0.176091,0.477121,0.0,0.0,0.176091,0.352183,0.0,0.0
Doc3,0.0,0.0,0.0,0.0,0.477121,0.0,0.176091,0.477121,0.0


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [8]:
import numpy as np
from collections import Counter
import math

def compute_tfidf(docs):
    vocab = set()
    for doc in docs:
        words = doc.split()
        vocab.update(words)
    vocab = sorted(list(vocab))
    
    tf = np.zeros((len(docs), len(vocab)))
    for i, doc in enumerate(docs):
        words = doc.split()
        word_count = Counter(words)
        for j, term in enumerate(vocab):
            tf[i, j] = word_count[term]

    idf = np.zeros(len(vocab))
    for i, term in enumerate(vocab):
        idf[i] = math.log10(len(docs) / sum([term in doc for doc in docs]))

    tfidf = tf * idf
    return tfidf

def rank_docs_by_similarity(docs, index):
    tfidf_matrix = compute_tfidf(docs)
    target = tfidf_matrix[index]
    
    similarities = []
    for i, doc_vector in enumerate(tfidf_matrix):
        sim = cosine_similarity(target, doc_vector)
        similarities.append((i, sim))
    
    sorted_similarities = sorted(similarities, key=lambda x: x[1], reverse=True)
    
    return [docs[i[0]] for i in sorted_similarities]

docs = ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias', 'hoy es un buen dia']

index = 0
print(rank_docs_by_similarity(docs, index))


['que dia es hoy', 'hoy es un buen dia', 'martes el dia de hoy es martes', 'martes muchas gracias']
