In [7]:
import numpy as np
import sklearn
from sklearn.feature_extraction.text import CountVectorizer

In [8]:
def containment(n_gram_array):
  """
  Calcula a contenção entre dois textos. Normaliza a interseção de contadores n-gram entre textos.
  arg: n_gram_array(array): Um array com as contagens n-gramas dos dois textos a serem comparados
  retorno: o valor de contenção normalizado
  """
  intersection_list = np.amin(n_gram_array,axis = 0)
  intersection_count = np.sum(intersection_list)
  A_idx = 0
  A_count = np.sum(n_gram_array[A_idx])
  containment_val = intersection_count / A_count

  return containment_val

In [9]:
text_compare = "comercio varejista de mercadorias em geral com predominancia de produtos alimenticios  minimercados mercearias e armazens"
text_font =  "comercio varejista de produtos alimenticios em geral ou especializado em produtos alimenticios nao especificados anteriormente"

In [10]:
counts_grams = CountVectorizer(analyzer='word', ngram_range=(1,1))
gram_counts = counts_grams.fit_transform([text_compare,text_font])

containment_val = containment(gram_counts.toarray())

print('Containment for n=1: ', containment_val)

Containment for n=1:  0.5


In [11]:
counts_grams = CountVectorizer(analyzer='word', ngram_range=(2,2))
gram_counts = counts_grams.fit_transform([text_compare,text_font])

containment_val = containment(gram_counts.toarray())

print('Containment for n=2: ', containment_val)

Containment for n=2:  0.38461538461538464


In [12]:
counts_grams = CountVectorizer(analyzer='word', ngram_range=(3,3))
gram_counts = counts_grams.fit_transform([text_compare,text_font])

containment_val = containment(gram_counts.toarray())

print('Containment for n=3: ', containment_val)

Containment for n=3:  0.16666666666666666
