<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [87]:
import numpy as np

In [88]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [89]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [90]:
def vocabulario(corpus):
    palabras = []
    for doc in corpus:
        palabras.extend(doc.split())
    return np.unique(palabras)


In [91]:
vocabulario(corpus)

array(['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas',
       'que'], dtype='<U7')

### 2- OneHot encoding
Dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [92]:
def oneHotEncoding(corpus):
    palabras = vocabulario(corpus)
    oneHotMatrix = np.zeros((len(corpus), len(palabras)))
    for j in range(len(palabras)):
        for i in range(len(corpus)):
            if palabras[j] in corpus[i].split():
                oneHotMatrix[i,j] = 1
    return oneHotMatrix
    

In [93]:
oneHotEncoding(corpus)

array([[0., 1., 0., 1., 0., 1., 0., 0., 1.],
       [1., 1., 1., 1., 0., 1., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0., 1., 1., 0.]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [94]:
def vectoresFrecuencia(corpus):
    palabras = vocabulario(corpus)
    frecMatrix = np.zeros((len(corpus), len(palabras)))
    for j in range(len(palabras)):
        for i in range(len(corpus)):
                frecMatrix[i,j] = corpus[i].split().count(palabras[j])
    return frecMatrix

In [95]:
vectoresFrecuencia(corpus)

array([[0., 1., 0., 1., 0., 1., 0., 0., 1.],
       [1., 1., 1., 1., 0., 1., 2., 0., 0.],
       [0., 0., 0., 0., 1., 0., 1., 1., 0.]])

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [96]:
def tf_idf(corpus):
    palabras = vocabulario(corpus)
    contador_idf = np.zeros(len(palabras))
    for j in range(len(palabras)):
        for i in range(len(corpus)):
                if palabras[j] in corpus[i].split():
                    contador_idf[j] += 1
    factor_idf = np.log10(np.full(len(palabras), len(corpus))/contador_idf)

    return vectoresFrecuencia(corpus) * factor_idf

In [97]:
tf_idf(corpus)

array([[0.        , 0.17609126, 0.        , 0.17609126, 0.        ,
        0.17609126, 0.        , 0.        , 0.47712125],
       [0.47712125, 0.17609126, 0.47712125, 0.17609126, 0.        ,
        0.17609126, 0.35218252, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.47712125,
        0.        , 0.17609126, 0.47712125, 0.        ]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [98]:
def comparacionDocs(corpus, indice):
    documentos = tf_idf(corpus)
    similitud_coseno = []
    for doc in documentos:
        similitud_coseno.append(cosine_similarity(doc, documentos[indice]))
    sorted_idx = np.argsort(similitud_coseno)[::-1]
    return corpus[sorted_idx]

In [99]:
comparacionDocs(corpus, 2)

array(['martes muchas gracias', 'martes el dia de hoy es martes',
       'que dia es hoy'], dtype='<U30')