In [1]:
from sklearn.feature_extraction.text import CountVectorizer

W wielu przypadku, gdy dokumenty pochodza z różnych dzidzin zastosowanie unigramów może być wystarczające. W innym przypadku należy zastosować bigramy lub sekwencje wyższych rzędów.

In [74]:
# poniżej przykłady zdań w różnych kontekstach
texts = ["aparat fotograficzny robi ładne zdjęcia",
         "aparat wyprostował moje zęby", 
         "kupiłem aparat fotograficzny",
         "mój syn nosi aparat na zęby"]

Stwórz obiekt do wektoryzacji, następnie macierz cech

In [75]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)
print(X.toarray())

[[1 1 0 0 0 0 0 1 0 0 1 0 1]
 [1 0 0 1 0 0 0 0 0 1 0 1 0]
 [1 1 1 0 0 0 0 0 0 0 0 0 0]
 [1 0 0 0 1 1 1 0 1 0 0 1 0]]


Oblicz macierz podobieństwa

#### unigramy

In [76]:
from sklearn.metrics.pairwise import cosine_similarity

sim_matrix = cosine_similarity(X, X)
sim_matrix

array([[1.        , 0.2236068 , 0.51639778, 0.18257419],
       [0.2236068 , 1.        , 0.28867513, 0.40824829],
       [0.51639778, 0.28867513, 1.        , 0.23570226],
       [0.18257419, 0.40824829, 0.23570226, 1.        ]])

In [77]:
sim_text = zip([sim_matrix[0][n] for n in range(0, len(texts))], texts)

for sim, text in sorted(sim_text, reverse=True):
  print(f"{sim:<5.02}  {text}")

1.0    aparat fotograficzny robi ładne zdjęcia
0.52   kupiłem aparat fotograficzny
0.22   aparat wyprostował moje zęby
0.18   mój syn nosi aparat na zęby


#### bigramy

In [78]:
vectorizer_bigrams = CountVectorizer(ngram_range=(1,2))
X_bigrams = vectorizer_bigrams.fit_transform(texts)
print(X_bigrams.toarray())

[[1 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 1 1]
 [1 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0]
 [1 1 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [1 0 1 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 1 1 0 0 0 1 0 0]]


In [79]:
vectorizer_bigrams.get_feature_names()

['aparat',
 'aparat fotograficzny',
 'aparat na',
 'aparat wyprostował',
 'fotograficzny',
 'fotograficzny robi',
 'kupiłem',
 'kupiłem aparat',
 'moje',
 'moje zęby',
 'mój',
 'mój syn',
 'na',
 'na zęby',
 'nosi',
 'nosi aparat',
 'robi',
 'robi ładne',
 'syn',
 'syn nosi',
 'wyprostował',
 'wyprostował moje',
 'zdjęcia',
 'zęby',
 'ładne',
 'ładne zdjęcia']

In [80]:
sim_matrix_bigrams = cosine_similarity(X_bigrams, X_bigrams)
sim_matrix_bigrams

array([[1.        , 0.12598816, 0.4472136 , 0.10050378],
       [0.12598816, 1.        , 0.16903085, 0.22792115],
       [0.4472136 , 0.16903085, 1.        , 0.13483997],
       [0.10050378, 0.22792115, 0.13483997, 1.        ]])

In [81]:
sim_text_bigrams = zip([sim_matrix_bigrams[0][n] for n in range(0, len(texts))], texts)

for sim, text in sorted(sim_text_bigrams, reverse=True):
  print(f"{sim:<7.04}  {text}")

1.0      aparat fotograficzny robi ładne zdjęcia
0.4472   kupiłem aparat fotograficzny
0.126    aparat wyprostował moje zęby
0.1005   mój syn nosi aparat na zęby


trigramy

In [82]:
vectorizer_trigrams = CountVectorizer(ngram_range=(1,3))
X_trigrams = vectorizer_trigrams.fit_transform(texts)
print(X_trigrams.toarray())

[[1 1 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 1 0 1 1]
 [1 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 1 0 0]
 [1 1 0 0 0 0 0 1 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 1 1 1 0 0 0 0 1 0 0]]


In [83]:
print(vectorizer_trigrams.get_feature_names())

['aparat', 'aparat fotograficzny', 'aparat fotograficzny robi', 'aparat na', 'aparat na zęby', 'aparat wyprostował', 'aparat wyprostował moje', 'fotograficzny', 'fotograficzny robi', 'fotograficzny robi ładne', 'kupiłem', 'kupiłem aparat', 'kupiłem aparat fotograficzny', 'moje', 'moje zęby', 'mój', 'mój syn', 'mój syn nosi', 'na', 'na zęby', 'nosi', 'nosi aparat', 'nosi aparat na', 'robi', 'robi ładne', 'robi ładne zdjęcia', 'syn', 'syn nosi', 'syn nosi aparat', 'wyprostował', 'wyprostował moje', 'wyprostował moje zęby', 'zdjęcia', 'zęby', 'ładne', 'ładne zdjęcia']


In [84]:
sim_matrix_trigrams = cosine_similarity(X_trigrams, X_trigrams)
sim_matrix_trigrams

array([[1.        , 0.09622504, 0.35355339, 0.0745356 ],
       [0.09622504, 1.        , 0.13608276, 0.17213259],
       [0.35355339, 0.13608276, 1.        , 0.10540926],
       [0.0745356 , 0.17213259, 0.10540926, 1.        ]])

In [85]:
sim_text_trigrams = zip([sim_matrix_trigrams[0][n] for n in range(0, len(texts))], texts)

for sim, text in sorted(sim_text_trigrams, reverse=True):
  print(f"{sim:<7.04}  {text}")

1.0      aparat fotograficzny robi ładne zdjęcia
0.3536   kupiłem aparat fotograficzny
0.09623  aparat wyprostował moje zęby
0.07454  mój syn nosi aparat na zęby
