<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


TP1: Vectorización de texto.

Juan Pablo Nieto Uribe

juanpablonietou@gmail.com

In [None]:
import numpy as np

In [None]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [None]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [None]:
def constructor_LdT():
  contador_doc=0
  resp=[]
  resp_temp=[]
  for doc in corpus:
    contador_doc+=1
    resp_temp=[]
    for word in doc.split():
      resp_temp.append(word)
    resp.append(resp_temp)
  return resp

bow=constructor_LdT()
print(bow)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]


In [None]:
#Dadas las listas que generamos anteriormente, las mezclamos para eliminar los elementos repetidos
lista_merged=bow[0]+bow[1]+bow[2]
lista_unicos=np.unique(lista_merged)
print('--------El vector de términos no repetidos es--------------------')
print(lista_unicos)
print('-----------------------------------------------------------------')

--------El vector de términos no repetidos es--------------------
['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
-----------------------------------------------------------------


### 2- OneHot encoding
Dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [None]:
#Definimos una matriz en ceros que vamos a poder utilizar en distintos puntos de este desafío.
def matrizEnCeros(noRepetidos):
  #Comenzamos por obtener la dimensión del vector de términos no repetidos, y el número de textos para crear la matriz
  long_no_repetidos=len(lista_unicos)
  long_corpus=len(corpus)

  #Creamos el array
  arr_resp=np.zeros((long_corpus+1,long_no_repetidos),dtype=object)

  #Recorremos y agregamos los valores
  for x in range(long_no_repetidos):
    arr_resp[0,x]=noRepetidos[x]
  
  return arr_resp

In [None]:
arrRespP2=matrizEnCeros(lista_unicos)
print(arrRespP2)

[['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
 [0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0]]


Ahora pasamos a crear la lista de One Hot encoding

In [None]:
indice_palabra=0
for palabra in lista_unicos:
  for linea in range(1,len(corpus)+1):
    if palabra in corpus[linea-1]:
      arrRespP2[linea,indice_palabra]=1
  indice_palabra+=1

In [None]:
print(arrRespP2)

[['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
 [0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 1 0]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [None]:
#Partiendo de una de las matrices que creamos en el punto anterior
arrRespP3=matrizEnCeros(lista_unicos)
print(arrRespP3)

[['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
 [0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0]]


In [None]:
#Recorremos de una manera parecida a lo que hicimos al punto anterior pero...
def punto3(elCorpus):

  indice_palabra=0
  for palabra in lista_unicos:
    for linea in range(0,len(elCorpus)):
    #...aquí cambia
      #print(indice_palabra,corpus[linea],'fff',palabra,'kkk',corpus[linea].count(palabra))
      numero=corpus[linea].count(palabra)
      arrRespP3[linea+1,indice_palabra]=numero
    
    indice_palabra+=1
    return arrRespP3
arrRespP3T=punto3(corpus)  

In [None]:
print(arrRespP3T)

[['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
 [0 1 0 1 0 1 0 0 1]
 [1 1 1 3 0 1 2 0 0]
 [0 0 0 1 1 0 1 1 0]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [None]:
#Partiendo de una de las matrices que nos genera la función matriz en ceros
arrRespP4=matrizEnCeros(lista_unicos)
print(arrRespP4)

[['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
 [0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0]]


Teniendo en cuenta que Df será igual a sumar los valores obtenidos en el one hot encoding por columna y que tf es el valor que obtuvimos en el punto 3:

In [None]:
n=len(corpus)
valsOHE=[]
for valPalabra in range(0,len(lista_unicos)):
  valorOHE=0
  for val in range(1,len(corpus)+1):
    valorOHE=valorOHE+arrRespP2[val,valPalabra]

  valorOHEd=np.log10(n/valorOHE)
  valsOHE.append(valorOHEd)

  for punto3 in range(1,len(corpus)+1):
    numAnalizado=arrRespP3T[punto3,valPalabra]
    arrRespP4[punto3,valPalabra]=numAnalizado*valsOHE[valPalabra]


In [None]:
print(arrRespP4)

[['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
 [0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]
 [0.47712125471966244 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]
 [0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [None]:
def sorter(arrr):
  k=arrr[arrr[:, -1].argsort()]
  k2=np.flipud(k)
  return k2

def simCos(A,B):
  arriba=np.sum(np.multiply(A,B))
  abajoI=np.sqrt(np.sum(np.multiply(A,A)))
  abajoD=np.sqrt(np.sum(np.multiply(B,B)))
  abajo=np.multiply(abajoI,abajoD)
  return arriba/abajo

def simCoseno(elCorpus, indiceDoc):
  #inicializamos una matriz con dimensiones len(corpus-1),2 que nos sirva de dimesiones
  arrResp=np.zeros((len(elCorpus)-1,2))
  i_resp=0
  #Partimos del vector de  frecuencia que obtuvimos en el punto 3
  vecs=punto3(corpus)
  tuplaSec=[]
  A=vecs[indiceDoc]
  for i in range(1,len(elCorpus)+1):
    emb=0
    if i==indiceDoc:
      pass
    else:
      B=vecs[i]
      emb=simCos(A,B)
      #Ponemos los valores calculados en la matriz de respuesta
      arrResp[i_resp,0]=i
      arrResp[i_resp,1]=emb
      #Aumento en 1 el índice de respuesta
      i_resp+=1
  return sorter(arrResp)

  

similitudCoseno=simCoseno(corpus,1)


In [None]:
print(similitudCoseno)

[[2.         0.60633906]
 [3.         0.25      ]]
