<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [101]:
# Lista de terminos de cada documento
corpus_split = []
for docu in corpus:
    corpus_split.append(docu.split())    
corpus_split

[['que', 'dia', 'es', 'hoy'],
 ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'],
 ['martes', 'muchas', 'gracias']]

In [65]:
# Vector no repetido de terminos de todos los documentos
terminos = []
for i in corpus_split:
    for j in i:
        terminos.append(j)
terminos = np.array(list(set(terminos)))
terminos

array(['que', 'dia', 'es', 'de', 'muchas', 'hoy', 'gracias', 'martes',
       'el'], dtype='<U7')

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [109]:
print('Terminos:\n')
print(terminos)
print('\n')
print('Documentos:\n')
for i in corpus_split:
    print(i)

Terminos:

['que' 'dia' 'es' 'de' 'muchas' 'hoy' 'gracias' 'martes' 'el']


Documentos:

['que', 'dia', 'es', 'hoy']
['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
['martes', 'muchas', 'gracias']


In [98]:
ohe = np.zeros([len(corpus_split), terminos.shape[0]])
for i, docu in enumerate(corpus_split):
    for j, termino in enumerate(terminos):
        if termino in docu:
            ohe[i,j] = 1
ohe


array([[1., 1., 1., 0., 0., 1., 0., 0., 0.],
       [0., 1., 1., 1., 0., 1., 0., 1., 1.],
       [0., 0., 0., 0., 1., 0., 1., 1., 0.]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [108]:
freq = np.zeros([len(corpus_split), terminos.shape[0]])
for i, docu in enumerate(corpus_split):
    for j, termino in enumerate(terminos):
        freq[i,j] = docu.count(termino)
freq

array([[1., 1., 1., 0., 0., 1., 0., 0., 0.],
       [0., 1., 1., 1., 0., 1., 0., 2., 1.],
       [0., 0., 0., 0., 1., 0., 1., 1., 0.]])

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [120]:
# Calculo el Document Frequency como la suma del OHE por cada termino
df = np.sum(ohe,0)
# Calcolu la Inverse Document Frequency
idf = np.log10(len(corpus_split)/df)
idf
# Calculo el (Term frequency-Inverse term frequency)
tf_idf = freq*idf
tf_idf

array([[0.47712125, 0.17609126, 0.17609126, 0.        , 0.        ,
        0.17609126, 0.        , 0.        , 0.        ],
       [0.        , 0.17609126, 0.17609126, 0.47712125, 0.        ,
        0.17609126, 0.        , 0.35218252, 0.47712125],
       [0.        , 0.        , 0.        , 0.        , 0.47712125,
        0.        , 0.47712125, 0.17609126, 0.        ]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [122]:
cosine_similarity(freq[0], freq[1])

0.5

In [171]:
def simil(corpus, indice):
    
      # Lista de terminos de cada documento
      corpus_split = []
      for docu in corpus:
             corpus_split.append(docu.split())             

      # Vector no repetido de terminos de todos los documentos
      terminos = []
      for i in corpus_split:
             for j in i:
                   terminos.append(j)
      terminos = np.array(list(set(terminos)))  

      ohe = np.zeros([len(corpus_split), terminos.shape[0]])
      for i, docu in enumerate(corpus_split):
            for j, termino in enumerate(terminos):
                  if termino in docu:
                        ohe[i,j] = 1

      cossimil = []
      docindex = []
      
      for j, i in enumerate(ohe):
            cossimil.append(cosine_similarity(ohe[indice], i))
            docindex.append(j)
            
      orden0 = np.stack([docindex,cossimil])
      orden0 = orden0[:,orden0[1,:].argsort()]
      orden = orden0[0][::-1].astype('int')
      result = corpus[orden]
      
      return result

In [140]:
corpus

array(['que dia es hoy', 'martes el dia de hoy es martes',
       'martes muchas gracias'], dtype='<U30')

In [175]:
simil(corpus, 2)


array(['martes muchas gracias', 'martes el dia de hoy es martes',
       'que dia es hoy'], dtype='<U30')