In [1]:
doc = """
         Supervised learning is the machine learning task of 
         learning a function that maps an input to an output based 
         on example input-output pairs.[1] It infers a function 
         from labeled training data consisting of a set of 
         training examples.[2] In supervised learning, each 
         example is a pair consisting of an input object 
         (typically a vector) and a desired output value (also 
         called the supervisory signal). A supervised learning 
         algorithm analyzes the training data and produces an 
         inferred function, which can be used for mapping new 
         examples. An optimal scenario will allow for the algorithm 
         to correctly determine the class labels for unseen 
         instances. This requires the learning algorithm to  
         generalize from the training data to unseen situations 
         in a 'reasonable' way (see inductive bias).
      """

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

In [5]:
n_gram_range = (1, 1)
stop_words = "english"

# Extract candidate words/phrases
count = CountVectorizer(ngram_range=n_gram_range, stop_words=stop_words).fit([doc])
candidates = count.get_feature_names_out()

In [6]:
print(candidates)

['algorithm' 'allow' 'analyzes' 'based' 'bias' 'called' 'class'
 'consisting' 'correctly' 'data' 'desired' 'determine' 'example'
 'examples' 'function' 'generalize' 'inductive' 'inferred' 'infers'
 'input' 'instances' 'labeled' 'labels' 'learning' 'machine' 'mapping'
 'maps' 'new' 'object' 'optimal' 'output' 'pair' 'pairs' 'produces'
 'reasonable' 'requires' 'scenario' 'set' 'signal' 'situations'
 'supervised' 'supervisory' 'task' 'training' 'typically' 'unseen' 'used'
 'value' 'vector' 'way']


In [7]:
from sentence_transformers import SentenceTransformer

In [8]:
model = SentenceTransformer('distilbert-base-nli-mean-tokens')
doc_embedding = model.encode([doc])
candidate_embeddings = model.encode(candidates)

Downloading:   0%|          | 0.00/690 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/3.99k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/550 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/265M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/466k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/450 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/229 [00:00<?, ?B/s]

In [10]:
print(candidate_embeddings)

[[-1.2811013  -0.19414109  0.18960989 ... -0.6902668  -0.08735374
  -0.056315  ]
 [-0.0193114   0.13757567  0.54817647 ...  0.2380234  -0.42322937
  -0.2317776 ]
 [-0.6177495   0.12768656  0.35085416 ... -0.5085139  -0.01452515
  -0.19826831]
 ...
 [-0.27959195  0.07733721  0.3053566  ... -0.2380215  -0.4777018
  -0.6240247 ]
 [-1.0448499  -0.03661103 -0.19841288 ... -0.5176953  -0.01872175
  -0.29708317]
 [-0.35578153  0.01782171  0.37409398 ... -0.19778389  0.04601141
  -0.2993699 ]]


In [9]:
from sklearn.metrics.pairwise import cosine_similarity

In [11]:
top_n = 5
distances = cosine_similarity(doc_embedding, candidate_embeddings)
keywords = [candidates[index] for index in distances.argsort()[0][-top_n:]]

In [12]:
keywords

['mapping', 'class', 'training', 'algorithm', 'learning']

In [14]:
lekarze = """Super lekarz i człowiek przez duże C . 
Bardzo duże doświadczenie i trafne diagnozy . 
Wielka cierpliwość do ludzi starszych . Od lat opiekuje się moją Mamą staruszką , i twierdzę , że mamy duże szczęście , 
że mamy takiego lekarza . Naprawdę nie wiem cobyśmy zrobili , gdyby nie Pan doktor . 
Dzięki temu , moja mama żyje . Każda wizyta u specjalisty jest u niego konsultowana i uważam , 
że jest lepszy od każdego z nich . Mamy do Niego prawie nieograniczone zaufanie . 
Można wiele dobrego o Panu doktorze jeszcze napisać . Niestety , ma bardzo dużo pacjentów , jest przepracowany 
( z tego powodu nawet obawiam się o jego zdrowie ) i dostęp do niego jest trudny , ale zawsze możliwy .
        """

In [17]:
stop_words2 = "polski"

# Extract candidate words/phrases
count2 = CountVectorizer(ngram_range=n_gram_range, stop_words=stop_words).fit([lekarze])
candidates2 = count2.get_feature_names_out()

In [18]:
candidates2

array(['ale', 'bardzo', 'cierpliwość', 'cobyśmy', 'człowiek', 'diagnozy',
       'dobrego', 'doktor', 'doktorze', 'dostęp', 'doświadczenie', 'duże',
       'dużo', 'dzięki', 'gdyby', 'jego', 'jest', 'jeszcze', 'każda',
       'każdego', 'konsultowana', 'lat', 'lekarz', 'lekarza', 'lepszy',
       'ludzi', 'ma', 'mama', 'mamy', 'mamą', 'moja', 'moją', 'możliwy',
       'można', 'napisać', 'naprawdę', 'nawet', 'nich', 'nie', 'niego',
       'nieograniczone', 'niestety', 'obawiam', 'od', 'opiekuje',
       'pacjentów', 'pan', 'panu', 'powodu', 'prawie', 'przepracowany',
       'przez', 'się', 'specjalisty', 'starszych', 'staruszką', 'super',
       'szczęście', 'takiego', 'tego', 'temu', 'trafne', 'trudny',
       'twierdzę', 'uważam', 'wiele', 'wielka', 'wiem', 'wizyta',
       'zaufanie', 'zawsze', 'zdrowie', 'zrobili', 'że', 'żyje'],
      dtype=object)

In [19]:
doc_embedding2 = model.encode([lekarze])
candidate_embeddings2 = model.encode(candidates2)

In [23]:
top_n = 6
distances2 = cosine_similarity(doc_embedding2, candidate_embeddings2)
keywords2 = [candidates2[index] for index in distances2.argsort()[0][-top_n:]]

In [24]:
keywords2

['wielka',
 'człowiek',
 'cierpliwość',
 'zdrowie',
 'przepracowany',
 'doświadczenie']