In [1]:
import numpy as np
import sklearn

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

texto_base = "Suponha que esse seja o texto principal"

texto_comparado = "Suponha que esse seja o texto que desejo comparar"

#Número de ngramas
n = 1  #unigrama

#instância o contador de ngramas
counts = CountVectorizer(analyzer='word', ngram_range=(n,n))

#criando dicionário de ngramas
dic2int = counts.fit([texto_comparado, texto_base]).vocabulary_

#printando dicionário de palavras:index
print(dic2int)

{'suponha': 6, 'que': 4, 'esse': 2, 'seja': 5, 'texto': 7, 'desejo': 1, 'comparar': 0, 'principal': 3}


In [3]:
## Mostrando outros exemplos

#número de ngramas
n = 2   #bigrama

#contador de ngramas
counts = CountVectorizer(analyzer = 'word', ngram_range = (n,n))

#dicionário de ngramas
dic2int = counts.fit([texto_comparado, texto_base]).vocabulary_

# dicionário de palavras:index
print(dic2int)

{'suponha que': 5, 'que esse': 3, 'esse seja': 1, 'seja texto': 4, 'texto que': 7, 'que desejo': 2, 'desejo comparar': 0, 'texto principal': 6}


In [4]:
## último exemplo

#número de ngramas
n = 3   #trigrama

#contador de ngramas
counts = CountVectorizer(analyzer = 'word', ngram_range = (n,n))

#dicionário de ngramas
dic2int = counts.fit([texto_comparado, texto_base]).vocabulary_

#dicionário palavras:index
print(dic2int)

{'suponha que esse': 5, 'que esse seja': 2, 'esse seja texto': 0, 'seja texto que': 4, 'texto que desejo': 6, 'que desejo comparar': 1, 'seja texto principal': 3}


In [5]:
## Array de NGRAMAS

#número de ngramas
n = 1

#contador de ngramas
counts = CountVectorizer(analyzer = 'word', ngram_range = (n,n))

#matriz de contagem de ngramas para ambos textos
ngrams = counts.fit_transform([texto_comparado, texto_base])

#contador de ngramas
dic2int = counts.fit([texto_comparado, texto_base]).vocabulary_

ngrams_array = ngrams.toarray()

print('vetor de ngramas:\n\n', ngrams_array)
print()
print('vetor de ngramas: \n\n', dic2int)

vetor de ngramas:

 [[1 1 1 0 2 1 1 1]
 [0 0 1 1 1 1 1 1]]

vetor de ngramas: 

 {'suponha': 6, 'que': 4, 'esse': 2, 'seja': 5, 'texto': 7, 'desejo': 1, 'comparar': 0, 'principal': 3}


In [6]:
## verificando interseções (palavras que estão em ambos os textos)

intersec_list = np.amin(ngrams_array, axis=0)
print(intersec_list)

[0 0 1 0 1 1 1 1]


In [8]:
intersec_count = np.sum(intersec_list)
print(intersec_count)

5


In [7]:
index_A = 0
A_count = np.sum(ngrams_array[index_A])
print(A_count)

8


In [10]:
## grau de similaridade entre os textos (0 a 1)
similaridade = intersec_count/A_count
print(similaridade)

0.625


In [12]:
## Criando função para simplificador os passos acima

def containment(ngram_array):
    '''Cálcula o containment entre dois textos. Normaliza a interseção de ngramas entre os textos.
    Argumentos:
    ngram_array: Um array com as contagens de ngramas dos dois textos a serem comparados
    
    Retorna:
    O valor de containmente normalizado'''
    
    # Cria uma lista que contém o valor minimo encontrado nas colunas
    # 0 se não houver correspondência e 1+ para as palavras condinzentes
    intersec_list = np.amin(ngram_array, axis = 0)
    
    # soma numeros de interseção
    intersec_count = np.sum(intersec_list)
    
    #conta número de ngramas no texto
    A_idx = 0
    A_count = np.sum(ngram_array[A_idx])
    
    #similaridade
    similaridade = intersec_count/A_count
    
    return similaridade


In [13]:
 print('Similaridade:', containment(ngrams_array)) 

Similaridade: 0.625


In [14]:
# mudando de unigrama para bigrama
counts_2grams = CountVectorizer(analyzer = 'word', ngram_range = (2,2))
bigram_counts = counts_2grams.fit_transform([texto_comparado, texto_base])

#calculando similaridade
print('Similaridade:', containment(bigram_counts.toarray()))

Similaridade: 0.5714285714285714
