In [2]:
import numpy as np
import pandas as pd

In [3]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

**Datos**

In [4]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy

Documento 2 --> martes el dia de hoy es martes

Documento 3 --> martes muchas gracias

**1 - Obtener el vocabulario del corpus (los términos utilizados)**


*   Cada documento transformarlo en una lista de términos
*   Armar un vector de términos no repetidos de todos los documentos



In [5]:
lista1 = corpus[0].split()
lista1

['que', 'dia', 'es', 'hoy']

In [6]:
lista2 = corpus[1].split()
lista2

['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']

In [7]:
lista3 = corpus[2].split()
lista3

['martes', 'muchas', 'gracias']

In [8]:
vocabulario = lista1 + lista2 + lista3
vocabulario = list(set(vocabulario))
vocabulario

['dia', 'muchas', 'que', 'de', 'es', 'hoy', 'el', 'martes', 'gracias']

**2- OneHot encoding**

Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos.

In [9]:
oraciones = ["el sol brilla en el cielo azul",
             "los pajaros cantan en el cielo azul",
             "el cielo azul es hermoso el cielo es celeste cielo", "sol sol"]

In [10]:
def oneHotEncoding(textos):
  listasTerminos = [cadena.split() for cadena in textos]
  lista_plana = [palabra for lista in listasTerminos for palabra in lista]
  vocabulario = list(set(lista_plana))

  onehot_encoded = [[1 if palabra in texto else 0 for palabra in vocabulario] for texto in textos]

  return vocabulario, onehot_encoded, pd.DataFrame(data = onehot_encoded, columns = vocabulario)

In [11]:
oneHotEncoding(oraciones)[2]

Unnamed: 0,pajaros,cielo,en,sol,azul,cantan,es,hermoso,brilla,el,celeste,los
0,0,1,1,1,1,0,0,0,1,1,0,0
1,1,1,1,0,1,1,0,0,0,1,0,1
2,0,1,0,0,1,0,1,1,0,1,1,0
3,0,0,0,1,0,0,0,0,0,0,0,0


**3- Vectores de frecuencia**

Data una lista de textos, devolver una matriz con la representación de frecuencia de estos.

In [12]:
def vectorFrec(textos):
  listasTerminos = [cadena.split() for cadena in textos]
  lista_plana = [palabra for lista in listasTerminos for palabra in lista]
  vocabulario = list(set(lista_plana))

  vectorFrecuencia = [[textoSplit.count(palabra) for palabra in vocabulario] for textoSplit in listasTerminos]

  return vocabulario, vectorFrecuencia, pd.DataFrame(data = vectorFrecuencia, columns = vocabulario)

In [13]:
vectorFrec(oraciones)[2]

Unnamed: 0,pajaros,cielo,en,sol,azul,cantan,es,hermoso,brilla,el,celeste,los
0,0,1,1,1,1,0,0,0,1,2,0,0
1,1,1,1,0,1,1,0,0,0,1,0,1
2,0,3,0,0,1,0,2,1,0,2,1,0
3,0,0,0,2,0,0,0,0,0,0,0,0


**4- TF-IDF**

Data una lista de textos, devolver una matriz con la representacion TFIDF.

In [14]:
def TF_IDF_fun(textos):
  listasTerminos = [cadena.split() for cadena in textos]
  lista_plana = [palabra for lista in listasTerminos for palabra in lista]
  vocabulario = list(set(lista_plana))

  TF = [[textoSplit.count(palabra) for palabra in vocabulario] for textoSplit in listasTerminos]

  IDF = [np.log(len(textos)/lista_plana.count(palabra)) for palabra in vocabulario]

  TF_IDF = [[a * b for a, b in zip(fila, IDF)] for fila in TF]

  return vocabulario, TF_IDF, pd.DataFrame(data = TF_IDF, columns = vocabulario)

In [15]:
TF_IDF_fun(oraciones)[2]

Unnamed: 0,pajaros,cielo,en,sol,azul,cantan,es,hermoso,brilla,el,celeste,los
0,0.0,-0.223144,0.693147,0.287682,0.287682,0.0,0.0,0.0,1.386294,-0.446287,0.0,0.0
1,1.386294,-0.223144,0.693147,0.0,0.287682,1.386294,0.0,0.0,0.0,-0.223144,0.0,1.386294
2,0.0,-0.669431,0.0,0.0,0.287682,0.0,1.386294,1.386294,0.0,-0.446287,1.386294,0.0
3,0.0,-0.0,0.0,0.575364,0.0,0.0,0.0,0.0,0.0,-0.0,0.0,0.0


**5 - Comparación de documentos**

Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno.

In [16]:
def comparacionDocs(textos, indice):
  listasTerminos = [cadena.split() for cadena in textos]
  lista_plana = [palabra for lista in listasTerminos for palabra in lista]
  vocabulario = list(set(lista_plana))

  vectorFrecuencia = [[textoSplit.count(palabra) for palabra in vocabulario] for textoSplit in listasTerminos]

  puntajes = [cosine_similarity(vectorFrecuencia[indice], vector) for vector in vectorFrecuencia]

  indices_ordenados = np.argsort(puntajes)[::-1]

  docs_ordenados = textos[indices_ordenados]

  return docs_ordenados

In [17]:
comparacionDocs(corpus, 1)

array(['martes el dia de hoy es martes', 'que dia es hoy',
       'martes muchas gracias'], dtype='<U30')

In [18]:
corpus

array(['que dia es hoy', 'martes el dia de hoy es martes',
       'martes muchas gracias'], dtype='<U30')