<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


#### Procesamiento de lenguaje natural
#### Vectorización


>  
>  1 - Obtener el vocabulario del corpus (los términos utilizados)  
> * Cada documento transformarlo en una lista de términos  
> * Armar un vector de términos no repetidos de todos los documentos   
2- OneHot encoding 
> * Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos  
3- Vectores de frecuencia  
> * Data una lista de textos, devolver una matriz con la representación de frecuencia de estos  
4- TF-IDF  
> * Data una lista de textos, devolver una matriz con la representacion TFIDF  
5 - Comparación de documentos  
>* Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos   ordenados por la similitud coseno

In [1]:
import numpy as np
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

In [2]:
def obtener_vocabulario(corpus):
    vocabulario = set()
    for documento in corpus:
        for termino in documento.split():
            vocabulario.add(termino)
    return list(vocabulario)

def texto_a_matriz_frecuencia(corpus, vocabulario):
    matriz = np.zeros((len(corpus), len(vocabulario)))
    for i, documento in enumerate(corpus):
        for j, termino in enumerate(vocabulario):
            matriz[i, j] = documento.split().count(termino)
    return matriz

def texto_a_matriz_onehot(corpus, vocabulario):
    matriz = np.zeros((len(corpus), len(vocabulario)))
    for i, documento in enumerate(corpus):
        for j, termino in enumerate(vocabulario):
            if termino in documento.split():
                matriz[i, j] = 1
    return matriz

def calcular_idf(corpus, vocabulario):
    df = np.zeros(len(vocabulario))
    for termino_idx, termino in enumerate(vocabulario):
        for documento in corpus:
            if termino in documento.split():
                df[termino_idx] += 1
    idf = np.log(len(corpus) / (df + 1))
    return idf

def texto_a_matriz_tfidf(corpus, vocabulario):
    matriz = np.zeros((len(corpus), len(vocabulario)))
    idf = calcular_idf(corpus, vocabulario)
    for i, documento in enumerate(corpus):
        for j, termino in enumerate(vocabulario):
            frecuencia_termino = documento.split().count(termino)
            if frecuencia_termino > 0:
                matriz[i, j] = (1 + np.log(frecuencia_termino)) * idf[j]
    return matriz

def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

def ordenar_por_similitud_coseno(corpus, indice_documento):
    vocabulario = obtener_vocabulario(corpus)
    matriz_tfidf = texto_a_matriz_tfidf(corpus, vocabulario)
    similitudes = []
    for i in range(len(corpus)):
        if i != indice_documento:
            similitud = cosine_similarity(matriz_tfidf[indice_documento], matriz_tfidf[i])
            similitudes.append((i, similitud))
    similitudes_ordenadas = sorted(similitudes, key=lambda x: x[1], reverse=True)
    for idx, similitud in similitudes_ordenadas:
        print(f"Documento {idx}: {corpus[idx]}")
    return similitudes_ordenadas


In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])
similitudes = ordenar_por_similitud_coseno(corpus, 1)

Documento 0: que dia es hoy
Documento 2: martes muchas gracias
