<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
lineas = [linea.split() for linea in corpus]

for linea in lineas:
    print(linea)

['que', 'dia', 'es', 'hoy']
['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
['martes', 'muchas', 'gracias']


In [5]:
lista = " ".join(corpus)

print(lista)

que dia es hoy martes el dia de hoy es martes martes muchas gracias


In [6]:
wlista = lista.split()
print(wlista)

['que', 'dia', 'es', 'hoy', 'martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes', 'martes', 'muchas', 'gracias']


In [7]:
norepetidos = set(wlista)
print(norepetidos)

{'el', 'martes', 'muchas', 'que', 'dia', 'de', 'hoy', 'gracias', 'es'}


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [8]:
words = sorted(list(set(" ".join(corpus).split())))
onehot = np.zeros((len(corpus), len(words)))
for i, text in enumerate(corpus):
    for j, word in enumerate(words):
        if word in text.split():
            onehot[i][j] = 1
print(onehot)

[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]


Para realizar este ejercicio, utilizé ChatGPT por primera vez. La sentencia que le escribí es la siguiente:
"Utilizando numpy con lenguaje pyton, y los siguientes datos: corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']) realizar un codigo que dada la lista de textos en el vector corpus que devuelva una matriz con la representación oneHotEncoding de estos".
Impresionante

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [9]:
print(wlista)

['que', 'dia', 'es', 'hoy', 'martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes', 'martes', 'muchas', 'gracias']


In [10]:
frecuenciaPalab = []
for w in wlista:
    frecuenciaPalab.append(wlista.count(w))
print(frecuenciaPalab)

[1, 2, 2, 2, 3, 1, 2, 1, 2, 2, 3, 3, 1, 1]


In [11]:
print(lineas)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]


In [12]:
frecuenciaW = []
for w in lineas:
    frecuenciaW.append(lineas.count(w))
print(frecuenciaW)

[1, 1, 1]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [14]:
tf = np.zeros((len(corpus), len(words)))
tf

array([[0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [16]:
for i, text in enumerate(corpus):
    for j, word in enumerate(words):
        if word in text.split():
            tf[i][j] = text.split().count(word)
tf

array([[0., 1., 0., 1., 0., 1., 0., 0., 1.],
       [1., 1., 1., 1., 0., 1., 2., 0., 0.],
       [0., 0., 0., 0., 1., 0., 1., 1., 0.]])

In [18]:
idf = np.zeros((1, len(words)))
for j, word in enumerate(words):
    for text in corpus:
        if word in text.split():
            idf[0][j] += 1
    idf[0][j] = np.log(len(corpus) / idf[0][j])
idf

array([[1.09861229, 0.40546511, 1.09861229, 0.40546511, 1.09861229,
        0.40546511, 0.40546511, 1.09861229, 1.09861229]])

In [19]:
tfidf = tf * idf
print(tfidf)

[[0.         0.40546511 0.         0.40546511 0.         0.40546511
  0.         0.         1.09861229]
 [1.09861229 0.40546511 1.09861229 0.40546511 0.         0.40546511
  0.81093022 0.         0.        ]
 [0.         0.         0.         0.         1.09861229 0.
  0.40546511 1.09861229 0.        ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno