<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


Alumno: Jorge Heyul Chavez Arias

In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos


In [4]:
lista_t = []
for x in corpus:
  lista_t.extend([x.split()])
print(lista_t)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]


- Armar un vector de términos no repetidos de todos los documentos


In [5]:
lista_unica = []
c=[]
for lista in lista_t:

  for palabra in lista:
    if palabra not in lista_unica:
      lista_unica.append(palabra)

  c.append(lista_unica)
  lista_unica = []

print(c)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es'], ['martes', 'muchas', 'gracias']]


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [6]:
diccionario = []
 
for lista in lista_t:

  for palabra in lista:
    if palabra not in diccionario:
      diccionario.append(palabra)
 
print(diccionario)
 

['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']


In [7]:
OneHE = np.zeros((len(corpus), len(diccionario)))

i=0
for doc in lista_t:
  #print(doc)
  for palabra in doc:
      OneHE[i,diccionario.index(palabra)] = 1
      #if palabra in diccionario:
      #print(diccionario.index(palabra))
  i=i+1   
print(OneHE)

[[1. 1. 1. 1. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 1. 1. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 1. 1.]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [8]:
matriz_frec = np.zeros((len(corpus), len(diccionario)))

i=0
for doc in lista_t:
  #print(doc)
  for palabra in doc:
      matriz_frec[i,diccionario.index(palabra)] = matriz_frec[i,diccionario.index(palabra)] +1
      #if palabra in diccionario:
      #print(diccionario.index(palabra))
  i=i+1   
print(matriz_frec)

[[1. 1. 1. 1. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 2. 1. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 1. 1.]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [9]:
corpus

array(['que dia es hoy', 'martes el dia de hoy es martes',
       'martes muchas gracias'], dtype='<U30')

In [10]:
IDF=np.log10(len(corpus)/OneHE.sum(0))
IDF

array([0.47712125, 0.17609126, 0.17609126, 0.17609126, 0.17609126,
       0.47712125, 0.47712125, 0.47712125, 0.47712125])

In [11]:
matriz_frec

array([[1., 1., 1., 1., 0., 0., 0., 0., 0.],
       [0., 1., 1., 1., 2., 1., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 1., 1.]])

In [12]:
TFIDF=IDF*matriz_frec
TFIDF

array([[0.47712125, 0.17609126, 0.17609126, 0.17609126, 0.        ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.17609126, 0.17609126, 0.17609126, 0.35218252,
        0.47712125, 0.47712125, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.17609126,
        0.        , 0.        , 0.47712125, 0.47712125]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [13]:
def compara(corpus, indice):
    #lista de terminos
    lista_t = []
    for x in corpus:
        lista_t.extend([x.split()])
    #print(lista_t)

    #Diccionario
    diccionario = []
    
    for lista in lista_t:
        for palabra in lista:
            if palabra not in diccionario:
                diccionario.append(palabra)

    ##ONE HOT ENC
    OneHE = np.zeros((len(corpus), len(diccionario)))
    i=0
    for doc in lista_t:
        for palabra in doc:
            OneHE[i,diccionario.index(palabra)] = 1
        i=i+1   

    #Matriz de frecuencia
    matriz_frec = np.zeros((len(corpus), len(diccionario)))
    i=0

    for doc in lista_t:
        for palabra in doc:
            matriz_frec[i,diccionario.index(palabra)] = matriz_frec[i,diccionario.index(palabra)] +1
        i=i+1   

    #IDF
    IDF=np.log10(len(corpus)/OneHE.sum(0))

    #TFIDF
    TFIDF=IDF*matriz_frec

    ##
    salida=np.array([[]])
    b = np.array([[1, indice]])
    print("Similitud Coseno - Documento")
    
    for i in range(len(corpus)):
        if indice != i:
            b=np.concatenate((b, [[cosine_similarity(TFIDF[indice],TFIDF[i]),i]]), axis=0)
            #cosine_similarity(TFIDF[indice],TFIDF[i])
            #print(cosine_similarity(TFIDF[indice],TFIDF[i]))

    ##ordena mayor a menor ,
    #  b es una matriz que tiene el primer termino similutid coseno y el segundo indice
    b=b[b[:,0].argsort()[::-1]]   

    for i in range(len(corpus)):
        print("{:.2f}".format(b[i,0]),' - ' , corpus[int(b[i,1])])
        
    
 

In [14]:
compara(corpus,2)

Similitud Coseno - Documento
1.00  -  martes muchas gracias
0.11  -  martes el dia de hoy es martes
0.00  -  que dia es hoy
