<a href="https://www.inove.com.ar"><img src="https://github.com/hernancontigiani/ceia_memorias_especializacion/raw/master/Figures/logoFIUBA.jpg" width="500" align="center"></a>


# Procesamiento de lenguaje natural
## Word2vect


In [69]:
import numpy as np

In [70]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [71]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

In [72]:
# Voculario --> son todas las palabras "únicas o sin repetir que aparecen en nuestro courpus"
vocab = ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'muchas', 'gracias']

In [73]:
doc_1 = 'que dia es hoy'
resultado = ['que', 'dia', 'es', 'hoy']

In [74]:
doc_1.split(" ")

['que', 'dia', 'es', 'hoy']

In [75]:
'''
[
    ['que', 'dia', 'es', 'hoy'],
    ['que', 'dia', 'es', 'hoy'],
    ['que', 'dia', 'es', 'hoy']
]
'''
corpus_terminos = []
for doc in corpus:
    terminos = doc.split(" ")
    corpus_terminos.append(terminos)

corpus_terminos

[['que', 'dia', 'es', 'hoy'],
 ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'],
 ['martes', 'muchas', 'gracias']]

In [76]:
vocab_completo = np.sum(corpus_terminos)  # se hace un Set en ves de listas
vocab_completo

['que',
 'dia',
 'es',
 'hoy',
 'martes',
 'el',
 'dia',
 'de',
 'hoy',
 'es',
 'martes',
 'martes',
 'muchas',
 'gracias']

In [77]:
vocab_1 = set(vocab_completo)
vocab_1

{'de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas', 'que'}

In [78]:
vocab_2 = np.unique(vocab_completo)
vocab_2

array(['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas',
       'que'], dtype='<U7')

In [79]:
vocab = vocab_2

In [80]:
vocab

array(['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas',
       'que'], dtype='<U7')

In [81]:
vocab.shape

(9,)

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [82]:
corpus_terminos = []
for doc in corpus:
    terminos = doc.split(" ")
    corpus_terminos.append(terminos)

# Se obtiene un corpus que es una lista de listas de términos:
#a,b = corpus_terminos.shape()
corpus_len = len(corpus_terminos)
print("Longitud del corpus: ", corpus_len)
corpus_terminos

Longitud del corpus:  3


[['que', 'dia', 'es', 'hoy'],
 ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'],
 ['martes', 'muchas', 'gracias']]

In [83]:
np.warnings.filterwarnings('ignore', category=np.VisibleDeprecationWarning)                 
vocab_completo = np.sum(corpus_terminos)
vocab_unique = np.unique(vocab_completo)
vocab_len = int(len(vocab_unique))
print(vocab_completo)
print("El vocabulario del corpus es: ")
print(vocab_unique)
print("Longitud del vocabulario: ", vocab_len)

['que', 'dia', 'es', 'hoy', 'martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes', 'martes', 'muchas', 'gracias']
El vocabulario del corpus es: 
['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
Longitud del vocabulario:  9


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [84]:
# Tengo el corpus, el vocabulario y sus longitudes
# Creo la matriz de OneHotEncoding
# Recorro cada documento y con eso recorro el vocabulario, si el termino 
# del vocabulario se encuentra en el documento, modifico la matriz de datos.
ohe = np.zeros((corpus_len,vocab_len))

for i,doc in enumerate(corpus_terminos):
  for j, vocab_term in enumerate(vocab_unique):
    if vocab_term in doc:
      ohe[i][j] = 1
print(corpus_terminos)
print(vocab_unique)
print(ohe)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [85]:
# Tengo el corpus, el vocabulario y sus longitudes
# Creo la matriz de OneHotEncoding
# Recorro cada documento y con eso recorro el vocabulario, si el termino 
# del vocabulario se encuentra en el documento, modifico la matriz de datos.
vF = np.zeros((corpus_len,vocab_len))

for i,doc in enumerate(corpus_terminos):
  for term in doc:  #for z, term in enumerate(doc):
    for j, vocab_term in enumerate(vocab_unique):
      if vocab_term == term:
        vF[i][j] += 1

print(corpus_terminos)
print(vocab_unique)
print(vF)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 2. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [86]:
N = corpus_len
TF = np.zeros((corpus_len,vocab_len))
IDF = np.zeros(vocab_len) # Vector de logaritmos
TF_IDF = np.zeros((corpus_len,vocab_len))

# Preparación de la matriz TF:
for i,doc in enumerate(corpus_terminos):
  for term in doc:  #for z, term in enumerate(doc):
    for j, vocab_term in enumerate(vocab_unique):
      if vocab_term == term:
        TF[i][j] += 1
print("Matriz de frecuencia:")
print(TF)

# Vector IDF:
for i,doc in enumerate(corpus_terminos):
  for j,  vocab_term in enumerate(vocab_unique):
    if vocab_term in doc:
      IDF[j] += 1
#IDF
IDF = np.log10(N/IDF)
print("\nVector IDF con logaritmos aplicados: ")
print(np.round(IDF,4))

# TF_IDF:
for i in range(len(TF_IDF)):
  TF_IDF[i] = IDF * TF[i]
 
print("\nMatriz TF-IDF: ")
print(np.round(TF_IDF,4))

Matriz de frecuencia:
[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 2. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]

Vector IDF con logaritmos aplicados: 
[0.4771 0.1761 0.4771 0.1761 0.4771 0.1761 0.1761 0.4771 0.4771]

Matriz TF-IDF: 
[[0.     0.1761 0.     0.1761 0.     0.1761 0.     0.     0.4771]
 [0.4771 0.1761 0.4771 0.1761 0.     0.1761 0.3522 0.     0.    ]
 [0.     0.     0.     0.     0.4771 0.     0.1761 0.4771 0.    ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [87]:
# se puede una matriz de 3*3 con los cosenos en todos lados
# es para saber cual doc se parece mas a otros

ohecos = np.zeros((corpus_len, corpus_len))
for i in range(corpus_len):
  for j in range(corpus_len):
    ohecos[i][j] = cosine_similarity(ohe[i], ohe[j].T)

vFcos = np.zeros((corpus_len, corpus_len))
for i in range(corpus_len):
  for j in range(corpus_len):
    vFcos[i][j] = cosine_similarity(vF[i], vF[j].T)

TF_IDFcos = np.zeros((corpus_len, corpus_len))
for i in range(corpus_len):
  for j in range(corpus_len):
    TF_IDFcos[i][j] = cosine_similarity(TF_IDF[i], TF_IDF[j].T)
print("Similitud coseno OHE:")
print(ohecos)
print("\nSimilitud coseno vector de frecuencias:")
print(vFcos)
print("\nSimilitud coseno TF-IDF:")
print(TF_IDFcos)

Similitud coseno OHE:
[[1.         0.61237244 0.        ]
 [0.61237244 1.         0.23570226]
 [0.         0.23570226 1.        ]]

Similitud coseno vector de frecuencias:
[[1.         0.5        0.        ]
 [0.5        1.         0.38490018]
 [0.         0.38490018 1.        ]]

Similitud coseno TF-IDF:
[[1.         0.2003419  0.        ]
 [0.2003419  1.         0.10845712]
 [0.         0.10845712 1.        ]]


En las matrices anteriores se puede visualizar la relación que hay entre los distintos documentos, donde en la diagonal vemos que tanto se parece un documento consigo mismo.
Se puede apreciar que, si bien los distintos métodos dan valores relaciones ditintas, el primer documento se asemeja en mayor medida con el segundo, luego el segundo con el tercero, y finalmente el primero con el tercero no son similares en lo absoluto.