# Similitud de textos

In [158]:
! pip3 install nltk



Natural language toolkit (NLTK) es la biblioteca más popular para el procesamiento de lenguaje natural (NLP) en Python. Contiene librerías de procesamiento de texto para tokenización, análisis sintáctico, clasificación, derivación, etiquetado y razonamiento semántico.

In [159]:
!pip3 install gensim




Gensim es una librería Procesamiento de Lenguaje Natural (NLP) para procesar textos, trabajando con modelos de vectores de palabras (como Word2Vec, FastText, etc.)

In [160]:
import nltk
import gensim
import numpy as np
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize
nltk.download('punkt')
from nltk.corpus import stopwords
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/dreguera/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/dreguera/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [161]:
data = "La Inteligencia Aritifical son sistemas que permiten dotar a las máquinas de inteligencia para imitar destrezas humanas."

Usamos el método word_tokenize() para dividir una frase en palabras

In [162]:
print(sent_tokenize(data))


['La Inteligencia Aritifical son sistemas que permiten dotar a las máquinas de inteligencia para imitar destrezas humanas.']


In [163]:
print(word_tokenize(data))

['La', 'Inteligencia', 'Aritifical', 'son', 'sistemas', 'que', 'permiten', 'dotar', 'a', 'las', 'máquinas', 'de', 'inteligencia', 'para', 'imitar', 'destrezas', 'humanas', '.']


In [164]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

file_docs = []

with open ('demo.txt') as f:
    tokens = sent_tokenize(f.read())
    for line in tokens:
        file_docs.append(line)

print("Number of documents:",len(file_docs))

Number of documents: 3


Leemos el archivo demo.txt y agregamos frases con token en la matriz para la conversión de palabras.

In [165]:
gen_docs = [[w.lower() for w in word_tokenize(text)] 
            for text in file_docs]

In [166]:
gen_docs

[['con',
  'las',
  'redes',
  'neuronales',
  'artificiales',
  'obtenemos',
  'conocimiento',
  'de',
  'grandes',
  'volúmenes',
  'de',
  'datos',
  '.'],
 ['la',
  'sistemas',
  'expertos',
  'nos',
  'permite',
  'simular',
  'destrezas',
  'humanas',
  'mediante',
  'algormitmos',
  'inteligentes',
  '.'],
 ['la',
  'inteligencia',
  'artificial',
  'va',
  'desde',
  'sistemas',
  'expertos',
  'hasta',
  'algoritmos',
  'que',
  'aprenden',
  'de',
  'los',
  'datos',
  '.']]

Un diccionario mapea a cada palabra con un número. Gensim te permite leer el texto y actualizar el diccionario, una línea a la vez, sin cargar todo el archivo de texto en la memoria del sistema.



In [167]:
gen_docs

[['con',
  'las',
  'redes',
  'neuronales',
  'artificiales',
  'obtenemos',
  'conocimiento',
  'de',
  'grandes',
  'volúmenes',
  'de',
  'datos',
  '.'],
 ['la',
  'sistemas',
  'expertos',
  'nos',
  'permite',
  'simular',
  'destrezas',
  'humanas',
  'mediante',
  'algormitmos',
  'inteligentes',
  '.'],
 ['la',
  'inteligencia',
  'artificial',
  'va',
  'desde',
  'sistemas',
  'expertos',
  'hasta',
  'algoritmos',
  'que',
  'aprenden',
  'de',
  'los',
  'datos',
  '.']]

In [168]:
dictionary = gensim.corpora.Dictionary(gen_docs)
print(dictionary.token2id)

{'.': 0, 'artificiales': 1, 'con': 2, 'conocimiento': 3, 'datos': 4, 'de': 5, 'grandes': 6, 'las': 7, 'neuronales': 8, 'obtenemos': 9, 'redes': 10, 'volúmenes': 11, 'algormitmos': 12, 'destrezas': 13, 'expertos': 14, 'humanas': 15, 'inteligentes': 16, 'la': 17, 'mediante': 18, 'nos': 19, 'permite': 20, 'simular': 21, 'sistemas': 22, 'algoritmos': 23, 'aprenden': 24, 'artificial': 25, 'desde': 26, 'hasta': 27, 'inteligencia': 28, 'los': 29, 'que': 30, 'va': 31}


In [169]:
corpus = [dictionary.doc2bow(gen_doc) for gen_doc in gen_docs]


In [170]:
corpus

[[(0, 1),
  (1, 1),
  (2, 1),
  (3, 1),
  (4, 1),
  (5, 2),
  (6, 1),
  (7, 1),
  (8, 1),
  (9, 1),
  (10, 1),
  (11, 1)],
 [(0, 1),
  (12, 1),
  (13, 1),
  (14, 1),
  (15, 1),
  (16, 1),
  (17, 1),
  (18, 1),
  (19, 1),
  (20, 1),
  (21, 1),
  (22, 1)],
 [(0, 1),
  (4, 1),
  (5, 1),
  (14, 1),
  (17, 1),
  (22, 1),
  (23, 1),
  (24, 1),
  (25, 1),
  (26, 1),
  (27, 1),
  (28, 1),
  (29, 1),
  (30, 1),
  (31, 1)]]

In [171]:
tf_idf = gensim.models.TfidfModel(corpus)
for doc in tf_idf[corpus]:
    print([[dictionary[id], np.around(freq, decimals=2)] for id, freq in doc])

[['artificiales', 0.32], ['con', 0.32], ['conocimiento', 0.32], ['datos', 0.12], ['de', 0.24], ['grandes', 0.32], ['las', 0.32], ['neuronales', 0.32], ['obtenemos', 0.32], ['redes', 0.32], ['volúmenes', 0.32]]
[['algormitmos', 0.34], ['destrezas', 0.34], ['expertos', 0.13], ['humanas', 0.34], ['inteligentes', 0.34], ['la', 0.13], ['mediante', 0.34], ['nos', 0.34], ['permite', 0.34], ['simular', 0.34], ['sistemas', 0.13]]
[['datos', 0.12], ['de', 0.12], ['expertos', 0.12], ['la', 0.12], ['sistemas', 0.12], ['algoritmos', 0.32], ['aprenden', 0.32], ['artificial', 0.32], ['desde', 0.32], ['hasta', 0.32], ['inteligencia', 0.32], ['los', 0.32], ['que', 0.32], ['va', 0.32]]


In [172]:
sims = gensim.similarities.Similarity('a/',tf_idf[corpus],
                                        num_features=len(dictionary))

In [173]:
file2_docs = []

with open ('demo2.txt') as f:
    tokens = sent_tokenize(f.read())
    for line in tokens:
        file2_docs.append(line)

print("Number of documents:",len(file2_docs))  
for line in file2_docs:
    query_doc = [w.lower() for w in word_tokenize(line)]
    query_doc_bow = dictionary.doc2bow(query_doc) 
    

Number of documents: 3


In [174]:
query_doc_tf_idf = tf_idf[query_doc_bow]


In [175]:
print('Comparing Result:', sims[query_doc_tf_idf]) 


Comparing Result: [0.04221008 0.04529131 0.99999994]


In [176]:
import numpy as np

sum_of_sims =(np.sum(sims[query_doc_tf_idf], dtype=np.float32))
print(sum_of_sims)

1.0875013


In [177]:
percentage_of_similarity = round(float((sum_of_sims / len(file_docs)) * 100))
print(f'Average similarity float: {float(sum_of_sims / len(file_docs))}')
print(f'Average similarity percentage: {float(sum_of_sims / len(file_docs)) * 100}')
print(f'Average similarity rounded percentage: {percentage_of_similarity}')

Average similarity float: 0.3625004291534424
Average similarity percentage: 36.25004291534424
Average similarity rounded percentage: 36
