<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [24]:
import numpy as np

In [25]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [26]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [27]:
lineas = [linea.split() for linea in corpus]

for linea in lineas:
    print(linea)

['que', 'dia', 'es', 'hoy']
['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
['martes', 'muchas', 'gracias']


In [28]:
lista = " ".join(corpus)

print(lista)

que dia es hoy martes el dia de hoy es martes martes muchas gracias


In [29]:
wlista = lista.split()
print(wlista)

['que', 'dia', 'es', 'hoy', 'martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes', 'martes', 'muchas', 'gracias']


In [30]:
norepetidos = set(wlista)
print(norepetidos)

{'martes', 'muchas', 'gracias', 'que', 'es', 'hoy', 'el', 'de', 'dia'}


In [31]:
def vocab(corpus):
    palabras = []
    for doc in corpus:
        palabras.extend(doc.split())
    return np.unique(palabras)

In [32]:
vocab(corpus)

array(['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas',
       'que'], dtype='<U7')

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [33]:
def OHE(corpus):
    palabras = vocab(corpus)
    OHMatrix = np.zeros((len(corpus), len(palabras)))
    for j in range(len(palabras)):
        for i in range(len(corpus)):
            if palabras[j] in corpus[i].split():
                OHMatrix[i,j] = 1
    return OHMatrix

In [34]:
OHE(corpus)

array([[0., 1., 0., 1., 0., 1., 0., 0., 1.],
       [1., 1., 1., 1., 0., 1., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0., 1., 1., 0.]])

In [35]:
OHEc=OHE(corpus)

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [36]:
def frecVectors(corpus):
    palabras = vocab(corpus)
    frecMatrix = np.zeros((len(corpus), len(palabras)))
    for j in range(len(palabras)):
        for i in range(len(corpus)):
                frecMatrix[i,j] = corpus[i].split().count(palabras[j])
    return frecMatrix

In [37]:
frecVectors(corpus)

array([[0., 1., 0., 1., 0., 1., 0., 0., 1.],
       [1., 1., 1., 1., 0., 1., 2., 0., 0.],
       [0., 0., 0., 0., 1., 0., 1., 1., 0.]])

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [38]:
def tf_idf(corpus):
    palabras = vocab(corpus)
    contador_idf = np.zeros(len(palabras))
    for j in range(len(palabras)):
        for i in range(len(corpus)):
                if palabras[j] in corpus[i].split():
                    contador_idf[j] += 1
    factor_idf = np.log10(np.full(len(palabras), len(corpus))/contador_idf)

    return frecVectors(corpus) * factor_idf

In [39]:
tf_idf(corpus)

array([[0.        , 0.17609126, 0.        , 0.17609126, 0.        ,
        0.17609126, 0.        , 0.        , 0.47712125],
       [0.47712125, 0.17609126, 0.47712125, 0.17609126, 0.        ,
        0.17609126, 0.35218252, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.47712125,
        0.        , 0.17609126, 0.47712125, 0.        ]])

In [40]:
ti=tf_idf(corpus)

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [41]:
def comparaDocs(corpus, indice):
    docs = tf_idf(corpus)
    similitud_coseno = []
    for doc in docs:
        similitud_coseno.append(cosine_similarity(doc, docs[indice]))
    sorted_idx = np.argsort(similitud_coseno)[::-1]
    return corpus[sorted_idx]

In [42]:
comparaDocs(corpus, 2)

array(['martes muchas gracias', 'martes el dia de hoy es martes',
       'que dia es hoy'], dtype='<U30')