<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [3]:
import numpy as np
from math import log10

In [4]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [5]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [6]:
def obtener_terminos(corpus):
    corpus_split = [corpus[i].split() for i in range(len(corpus))]
    corpus_set = {termino for documento in corpus_split for termino in documento}
    terminos = np.array(list(corpus_set))
    return (terminos)

terminos= obtener_terminos(corpus)
terminos


array(['es', 'hoy', 'gracias', 'el', 'que', 'martes', 'muchas', 'dia',
       'de'], dtype='<U7')

In [7]:
ohe_matrix = np.zeros((len(corpus),len(terminos)))

In [8]:
ohe_matrix.shape

(3, 9)

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [9]:
ohe_matrix = np.zeros((len(corpus),len(terminos)))
for t,termino in enumerate(terminos):
    for d,documento in enumerate(corpus):
        if termino in documento:
            ohe_matrix[d,t]=1
print(f"corpus: {corpus}")
print(f"terminos: {terminos}")
ohe_matrix
        

corpus: ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
terminos: ['es' 'hoy' 'gracias' 'el' 'que' 'martes' 'muchas' 'dia' 'de']


array([[1., 1., 0., 0., 1., 0., 0., 1., 0.],
       [1., 1., 0., 1., 0., 1., 0., 1., 1.],
       [1., 0., 1., 0., 0., 1., 1., 0., 0.]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [10]:
def vect_frec(corpus,terminos):
    freq_matrix = np.zeros((len(corpus),len(terminos)))
    for t,termino in enumerate(terminos):
        for d,documento in enumerate(corpus):
            freq_matrix [d,t]= np.sum(np.array(documento.split()) == termino)
    return freq_matrix


print(f"corpus: {corpus}")
print(f"terminos: {terminos}")
freq_matrix = vect_frec(corpus,terminos)
print(freq_matrix)
        


corpus: ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
terminos: ['es' 'hoy' 'gracias' 'el' 'que' 'martes' 'muchas' 'dia' 'de']
[[1. 1. 0. 0. 1. 0. 0. 1. 0.]
 [1. 1. 0. 1. 0. 2. 0. 1. 1.]
 [0. 0. 1. 0. 0. 1. 1. 0. 0.]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [11]:

#TFIDF = TF * IDF

def tfidf(corpus,terminos):
    tfidf = np.zeros((len(corpus),len(terminos)))
    n = len(corpus)


    df = np.zeros(len(terminos))
    for t,termino in enumerate(terminos):
        for documento in corpus:
            if termino in documento.split():
                df[t]=df[t]+1


    for t,termino in enumerate(terminos):
        for d,documento in enumerate(corpus):
            tfidf[d,t]=freq_matrix[d,t]*log10(n/df[t])
    return tfidf

tfidf(corpus,terminos)

array([[0.17609126, 0.17609126, 0.        , 0.        , 0.47712125,
        0.        , 0.        , 0.17609126, 0.        ],
       [0.17609126, 0.17609126, 0.        , 0.47712125, 0.        ,
        0.35218252, 0.        , 0.17609126, 0.47712125],
       [0.        , 0.        , 0.47712125, 0.        , 0.        ,
        0.17609126, 0.47712125, 0.        , 0.        ]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [12]:
def order_cosine_similarity(corpus, index):
    terminos = obtener_terminos(corpus)
    
    tf_vectors = vect_frec(corpus,terminos)
    reference_vector = tf_vectors[index]
    similarity_scores = [cosine_similarity(reference_vector, doc) for doc in tf_vectors]
    document_indices = sorted(range(len(similarity_scores)), key=lambda i: similarity_scores[i], reverse=True)
    sorted_documents = [corpus[i] for i in document_indices]
    return sorted_documents

sorted_documents = order_cosine_similarity(corpus, 0)

for doc in sorted_documents:
    print(doc)


que dia es hoy
martes el dia de hoy es martes
martes muchas gracias


In [13]:
corpus = np.array(['es un dia maravilloso', 'es un dia lluvioso', 'la entropia del universo aumenta dia a dia'])
order_cosine_similarity(corpus, 1)


['es un dia lluvioso',
 'es un dia maravilloso',
 'la entropia del universo aumenta dia a dia']