#DESAFÍO Nro. 1 NLP 

* Vocabulario.
* Representaciones: OHE, vectores de frecuencia y TF-IDF.
* Comparación de documentos.

By Anahi Bazet

## Librerías

In [1]:
import numpy as np
#Para la función de comparación de documentos.
import operator

## Datos

Exploración de la información del corpus.

In [2]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])
print("Información sobre el corpus:")
print (corpus)
print ("Tipo:",type(corpus))
print ("Forma:",corpus.shape)
print ("Tamaño:",len(corpus))
print("Primer elemento del corpus:")
print(corpus[0])
print ("Tipo:",type(corpus[0]))
print ("Forma:",corpus[0].shape)
print ("Tamaño:",len(corpus[0]))

Información sobre el corpus:
['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
Tipo: <class 'numpy.ndarray'>
Forma: (3,)
Tamaño: 3
Primer elemento del corpus:
que dia es hoy
Tipo: <class 'numpy.str_'>
Forma: ()
Tamaño: 14


## 1- Obtener el vocabulario del corpus (los términos utilizados)

La función get_vocabulary devuelve el vocabulario y una lista de documentos del corpus.

In [3]:
# Parámetros:
# cor: corpus.
# Devuelve:
# vocabulary_array: vector de términos no repetidos de los documentos (vocabulario).
# document_list: lista de documentos en donde en cada posición se encuentra
# la lista de sus términos.
def get_vocabulary(cor):
  document_list=[]
  vocabulary=set()
  #Para cada documento del corpus.
  for i,document in enumerate(cor):
    #Se separan los términos de cada documento por los espacios.
    document_list.append(document.split())
    #A cada documento se lo transforma en un set agregando solo los términos
    #que no se encuentran duplicados. 
    vocabulary.update(document_list[i])
  #Se transforma el vocabulario de un tipo set(conjunto) a un array de numpy.
  vocabulary_array=np.array(list(vocabulary))
  return vocabulary_array,document_list

Solo a modo de mostrar la impresión de cierta información se crea una función similar, pero con prints llamada get_vocabulary_with_prints

In [4]:
# Parámetros:
# cor: corpus.
# Devuelve:
# vocabulary_array: vector de términos no repetidos de los documentos (vocabulario).
# document_list: lista de documentos en donde en cada posición se encuentra
# la lista de sus términos.
def get_vocabulary_with_prints(cor):
  document_list=[]
  vocabulary=set()
  #Para cada documento del corpus.
  for i,document in enumerate(cor):
    #Se separan los términos de cada documento por los espacios.
    document_list.append(document.split())
    #A cada documento se lo transforma en un set agregando solo los términos
    #que no se encuentran duplicados. 
    vocabulary.update(document_list[i])
  print("Lista de documentos con lista de términos de cada uno:")
  print (document_list)
  print ("Tipo:",type(document_list))
  print ("Tamaño:",len(document_list))
  print ("Primer documento:")
  print (document_list[0])
  print ("Tipo:",type(document_list[0]))
  print ("Tamaño:",len(document_list[0]))
  print ("Vocabulario set:")
  print (vocabulary)
  print ("Tipo:",type(vocabulary))
  print ("Tamaño:",len(vocabulary))
  #Se transforma el vocabulario de un tipo set(conjunto) a un array de numpy.
  vocabulary_array=np.array(list(vocabulary))
  print ("Vocabulario array:")
  print (vocabulary_array)
  print ("Tipo:",type(vocabulary_array))
  print ("Forma:", vocabulary_array.shape)
  print ("Tamaño:",len(vocabulary_array))
  return vocabulary_array,document_list

In [5]:
vocabulary,documents=get_vocabulary_with_prints(corpus)

Lista de documentos con lista de términos de cada uno:
[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
Tipo: <class 'list'>
Tamaño: 3
Primer documento:
['que', 'dia', 'es', 'hoy']
Tipo: <class 'list'>
Tamaño: 4
Vocabulario set:
{'muchas', 'martes', 'el', 'hoy', 'que', 'de', 'dia', 'es', 'gracias'}
Tipo: <class 'set'>
Tamaño: 9
Vocabulario array:
['muchas' 'martes' 'el' 'hoy' 'que' 'de' 'dia' 'es' 'gracias']
Tipo: <class 'numpy.ndarray'>
Forma: (9,)
Tamaño: 9


##2- One Hot Encoding (OHE)

La función OHE_representation dado un corpus devuelve una matriz con la representación OneHotEncoding de éste.

In [6]:
# Parámetros:
# corp: corpus.
# Devuelve:
# mat_OHE: matriz de numpy aplicando la técnica de OHE.
def OHE_representation(corp):
  #Se obtiene el vocabulario y la lista de documentos.
  vocabulary,documents=get_vocabulary(corp)
  print ("Vocabulario en OHE:",vocabulary)
  #Se inicializa la matriz en ceros.
  mat_OHE=np.zeros((len(documents),len(vocabulary)))
  #Para cada palabra del vocabulario.
  for j,word in enumerate(vocabulary):
    #Para cada documento.
    for i in range(len(documents)):
      #Si la palabra está presente en el documento se coloca un 1
      #en la posición de la matriz perteneciente a
      #(número de documento, posición de la palabra en el diccionario).
      if word in documents[i]:
        mat_OHE[i,j]=1
  return mat_OHE

In [7]:
print ("Corpus:",corpus)
matrix_OHE=OHE_representation(corpus)
print ("La matriz de OHE es:\n",matrix_OHE)

Corpus: ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
Vocabulario en OHE: ['muchas' 'martes' 'el' 'hoy' 'que' 'de' 'dia' 'es' 'gracias']
La matriz de OHE es:
 [[0. 0. 0. 1. 1. 0. 1. 1. 0.]
 [0. 1. 1. 1. 0. 1. 1. 1. 0.]
 [1. 1. 0. 0. 0. 0. 0. 0. 1.]]


## 3- Vectores de frecuencia

La función frecuency_representation dado un corpus devuelve una matriz con la representación de frecuencia de éste.

In [8]:
# Parámetros:
# corp: corpus.
# Devuelve:
# mat_frecuency: matriz de numpy aplicando la técnica de vectores de frecuencia.
def frecuency_representation(corp):
  #Se obtiene el vocabulario y la lista de documentos.
  vocabulary,documents=get_vocabulary(corp)
  print ("Vocabulario en vectores de frecuencia:",vocabulary)
  #Se inicializa la matriz en ceros.
  mat_frecuency=np.zeros((len(documents),len(vocabulary)))
  #Para cada palabra del vocabulario. 
  for j,word in enumerate(vocabulary):
    #Para cada palabra del documento.
    for i in range(len(documents)):
      #Se cuenta cuantas veces aparece la palabra en el documento y 
      #se coloca en la posición de la matriz perteneciente a
      #(número de documento, posición de la palabra en el diccionario).
      mat_frecuency[i,j]=documents[i].count(word)
  return mat_frecuency

In [9]:
print ("Corpus:",corpus)
matrix_frecuency=frecuency_representation(corpus)
print ("La matriz de frecuencia es:\n",matrix_frecuency)

Corpus: ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
Vocabulario en vectores de frecuencia: ['muchas' 'martes' 'el' 'hoy' 'que' 'de' 'dia' 'es' 'gracias']
La matriz de frecuencia es:
 [[0. 0. 0. 1. 1. 0. 1. 1. 0.]
 [0. 2. 1. 1. 0. 1. 1. 1. 0.]
 [1. 1. 0. 0. 0. 0. 0. 0. 1.]]


## 4- TF-IDF

La función TF-IDF_representation dado un corpus devuelve una matriz con la representación TF-IDF de éste.

In [10]:
# Parámetros:
# corp: corpus.
# Devuelve:
# mat_TFIDF: matriz de numpy aplicando la técnica de TFIDF.
def TFIDF_representation(corp):
  #Se obtiene la matriz OHE.
  OHE_matrix=OHE_representation(corpus)
  #Se obtiene la matriz de frecuencia.
  frecuency_matrix=frecuency_representation(corpus)
  #Se obtiene el vector IDF con la fórmula vista en clase.
  #print(np.sum(OHE_matrix,axis=0))
  vector_IDF=np.log10(OHE_matrix.shape[0]/np.sum(OHE_matrix,axis=0))
  #print ("El vector IDF es:", vector_IDF)
  #Se obtiene la matriz TFIDF multiplicando la matriz de frecuencia por el 
  #vector IDF elemento a elemento con broadcasting de numpy.
  mat_TFIDF=frecuency_matrix*vector_IDF
  return mat_TFIDF

In [11]:
print ("Corpus:",corpus)
matrix_TFIDF=TFIDF_representation(corpus)
print ("La matriz TF-IDF es:\n",matrix_TFIDF)  

Corpus: ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
Vocabulario en OHE: ['muchas' 'martes' 'el' 'hoy' 'que' 'de' 'dia' 'es' 'gracias']
Vocabulario en vectores de frecuencia: ['muchas' 'martes' 'el' 'hoy' 'que' 'de' 'dia' 'es' 'gracias']
La matriz TF-IDF es:
 [[0.         0.         0.         0.17609126 0.47712125 0.
  0.17609126 0.17609126 0.        ]
 [0.         0.35218252 0.47712125 0.17609126 0.         0.47712125
  0.17609126 0.17609126 0.        ]
 [0.47712125 0.17609126 0.         0.         0.         0.
  0.         0.         0.47712125]]


## 5- Comparación de documentos

La función compare_documents dado un corpus y el índice de un documento, devuelve los documentos ordenados por la similitud coseno de mayor a menor.

NOTA: además de lo solicitado se agregó lo siguiente:
* Que devuelva también, junto con el documento, el valor de la similitud coseno correspondiente.
* Que calcule la distancia coseno para una representación (vectores de frecuencia, OHE e TF-IDF) indicada por parámetro. 

In [12]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

In [13]:
# Parámetros:
# corp: corpus.
# index_doc: indice del documento a comparar.
# opt_representation: cómo se va a construir la matriz de representación:
# 1 frecuencia - 2 OHE - 3 TFIDF.
# Devuelve:
# Lista de tuplas en donde en la primera posición se encuentra cada documento
# y en la segunda la similitud coseno. La lista se encuentra ordenada por
# similitud coseno de mayor a menor.
def compare_documents(corp,index_doc,opt_representation):
  similarity_dict={}
  # Se establece el diccionario que realiza el switch de opciones.
  switcher = { 1: frecuency_representation, 2: OHE_representation, 3: TFIDF_representation}
  # Se obtiene el nombre de la función, según la representación elegida por parámetro.
  function_representation = switcher.get(opt_representation, "Representación inválida.")
  #Se chequea que se haya ingresado una opción de representación válida.
  if function_representation == "Representación inválida.":
    return function_representation
  else:
    #Se obtiene la matriz según la representación elegida.
    representation_matrix=function_representation(corp)
  #Se chequea que el índice del documento enviado por parámetro esté dentro del rango.
  if index_doc>=representation_matrix.shape[0]:
    return "Índice del documento fuera de rango."
  #Para cada documento se construye un diccionario en donde la clave es el documento
  #y el valor es la similitud conseno entre ese documento y el indicado por 
  #parámetro.
  for i in range(representation_matrix.shape[0]):
    similarity_dict.update([(corp[i],cosine_similarity(representation_matrix[index_doc], representation_matrix[i]))])
  #print ("Diccionario:",similarity_dict)
  #Se ordena el diccionario en orden descendente según el valor (similitud coseno).
  return sorted(similarity_dict.items(), key=operator.itemgetter(1), reverse=True)

In [15]:
opt=1
index=1
print ("Corpus:",corpus)
vocabulary,documents=get_vocabulary(corpus)
documents_similarity=compare_documents(corpus,index,opt)
print ("La similitud coseno del documento {} es:\n{}".format(documents[index],documents_similarity))

Corpus: ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
Vocabulario en vectores de frecuencia: ['muchas' 'martes' 'el' 'hoy' 'que' 'de' 'dia' 'es' 'gracias']
La similitud coseno del documento ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'] es:
[('martes el dia de hoy es martes', 1.0), ('que dia es hoy', 0.5), ('martes muchas gracias', 0.3849001794597505)]


##Conclusiones

Las conclusiones se realizan relacionando la comparación de documentos y las formas de representación:

* Si se cambia la forma de representación (comparando con el mismo documento), el orden de los documentos en cuanto a la similitud coseno sigue siendo la misma. Logicamente lo que cambian son los valores obtenidos.

* La similitud coseno de un documento consigo mismo es de 1 (o un valor muy aproximado a uno). Esto hace sentido, ya que la coincidencia es exacta.

* Si los documentos no tienen términos en común, la similitud coseno es de cero. Por ejemplo, "que dia es hoy" con "martes muchas gracias".

* Luego, el resto de los resultados de la similitud conseno se mueven entre valores mayores a cero y menores a 1 porque poseen algunos términos en común.