<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [245]:
import numpy as np

In [246]:
corpus = []

In [247]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [248]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [249]:
d1 = corpus[0]
t1 = np.char.split(d1," ")
d2 = corpus[1]
t2 = np.char.split(d2," ")
d3 = corpus[2]
t3 = np.char.split(d3," ")
bow = set()
for i in corpus:
    bow.update(set(bow for bow in i.strip().split() ))
print(bow)

{'es', 'dia', 'muchas', 'de', 'gracias', 'el', 'martes', 'hoy', 'que'}


In [250]:
d2

'martes el dia de hoy es martes'

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [251]:
def onehotenc(corpus_):
  bow = set()
  for i in corpus_:
    bow.update(set(bow for bow in i.strip().split() ))
  size = len(bow)
  ohe = np.zeros((len(corpus_), size))
  for id, doc in enumerate(corpus_):

    #print(id)

    for i in doc.split():
      
      #print(i)
      for idx, bw in enumerate(bow):
        if i == bw:
          ohe[id,idx] = 1
 
  return ohe


In [252]:
ohe = onehotenc(corpus)
print('matriz de One Hot Encoding:\n', ohe)

matriz de One Hot Encoding:
 [[1. 1. 0. 0. 0. 0. 0. 1. 1.]
 [1. 1. 0. 1. 0. 1. 1. 1. 0.]
 [0. 0. 1. 0. 1. 0. 1. 0. 0.]]


In [253]:
ohe.shape

(3, 9)

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [254]:
def frecu(corpus_):
  bow = set()
  for i in corpus_:
    bow.update(set(bow for bow in i.strip().split() ))
  size = len(bow)
 
  frec = np.zeros((len(corpus_), size))
  for id, doc in enumerate(corpus_):

    #print(id)

    for i in doc.split():
      
      #print(i)
      for idx, bw in enumerate(bow):
        if i == bw:
          frec[id,idx] += 1

  return frec

In [255]:
frec = frecu(corpus)
print('matriz de Frecuencia:\n', frec)

matriz de Frecuencia:
 [[1. 1. 0. 0. 0. 0. 0. 1. 1.]
 [1. 1. 0. 1. 0. 1. 2. 1. 0.]
 [0. 0. 1. 0. 1. 0. 1. 0. 0.]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [256]:
def idf(corpus_):
  ohe_ = onehotenc(corpus_)
  sum = np.zeros(ohe.shape[1])
  for cols in range(ohe.shape[1]):
    sum[cols] = np.sum(ohe_[:,cols])
  return np.log10(ohe.shape[0]/sum)




In [257]:
idf(corpus)
TF_IDF = frecu(corpus)*idf(corpus)
print('Matriz de TF-IDF: \n,', TF_IDF)


Matriz de TF-IDF: 
, [[0.17609126 0.17609126 0.         0.         0.         0.
  0.         0.17609126 0.47712125]
 [0.17609126 0.17609126 0.         0.47712125 0.         0.47712125
  0.35218252 0.17609126 0.        ]
 [0.         0.         0.47712125 0.         0.47712125 0.
  0.17609126 0.         0.        ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [258]:
def simcoseno(corpus_, doc_idx):
  tfidf = frecu(corpus_)*idf(corpus_)
  index = np.zeros(len(corpus_))
  for i in range(len(corpus_)):
    sc = cosine_similarity(tfidf[doc_idx,:],tfidf[i,:])
    print('valor de similitud de coseno del documento {} vs documento {}: {}'.format(doc_idx, i, sc))
    #index[i] = sc
  return index.argsort()[::-1][:len(corpus_)]

In [259]:
a= simcoseno(corpus,2)

valor de similitud de coseno del documento 2 vs documento 0: 0.0
valor de similitud de coseno del documento 2 vs documento 1: 0.10845711727883083
valor de similitud de coseno del documento 2 vs documento 2: 1.0


In [260]:
print('El ínidice de similitud de coseno para los documentos del corpus es: \n', a)

El ínidice de similitud de coseno para los documentos del corpus es: 
 [2 1 0]
