In [1]:
import morfeusz2
import plwn

In [2]:
stop_words_file = 'polish.stopwords.txt'

In [3]:
wn = plwn.load_default()

In [4]:
class Wordnet:
    
    def __init__(self, wordnet):
        self._wordnet = wordnet
        self._lexical_units = self._valid_lexical_units()
        
    def _valid_lexical_units(self):
        return [(lu.lemma, lu.synset, lu.definition) for lu in self._wordnet.lexical_units() if lu.is_polish and lu.definition is not None]
    
    def senses(self, word):
        return [lu for lu in self._lexical_units if lu[0] == word]


In [5]:
class StopWord:
    
    def __init__(self, file):
        self._stop_words = self._load_file(file)
    
    @property
    def stop_words(self):
        return self._stop_words
    
    def _load_file(self, file):
        f = open(file, encoding='utf-8')
        lines = f.read().splitlines()
        return lines
    
    def is_stop_word(self, word):
        return word.lower() in self._stop_words

In [6]:
def clean_text(text, sw):
    text_without_stop_words = [word for word in text.split() if not sw.is_stop_word(word)]
    text_without_stop_words = ' '.join(text_without_stop_words)
    return text_without_stop_words

In [7]:
wn = Wordnet(wn)

In [8]:
sw = StopWord(stop_words_file)

In [9]:
morf = morfeusz2.Morfeusz()

In [17]:
text = 'Zamek Piotr to ogromna i piękna budowla obronna'
text_without_stop_words = clean_text(text, sw)

In [18]:
morf.analyse(text_without_stop_words)

[(0, 1, ('Zamek', 'zamek:s1', 'subst:sg:nom.acc:m3', ['nazwa pospolita'], [])),
 (0, 1, ('Zamek', 'zamek:s2', 'subst:sg:nom.acc:m3', ['nazwa pospolita'], [])),
 (1, 2, ('Piotr', 'Piotr:s2', 'subst:sg:nom:m1', ['nazwisko'], [])),
 (1,
  2,
  ('Piotr',
   'Piotr:s3',
   'subst:sg.pl:nom.gen.dat.acc.inst.loc.voc:f',
   ['nazwisko'],
   [])),
 (1, 2, ('Piotr', 'Piotr:s1', 'subst:sg:nom:m1', ['imię'], [])),
 (2, 3, ('ogromna', 'ogromny', 'adj:sg:nom.voc:f:pos', [], [])),
 (3, 4, ('piękna', 'piękny', 'adj:sg:nom.voc:f:pos', [], [])),
 (3, 4, ('piękna', 'piękno', 'subst:sg:gen:n:ncol', ['nazwa pospolita'], [])),
 (3,
  4,
  ('piękna',
   'piękno',
   'subst:pl:nom.acc.voc:n:ncol',
   ['nazwa pospolita'],
   [])),
 (4, 5, ('budowla', 'budowla', 'subst:sg:nom:f', ['nazwa pospolita'], [])),
 (5, 6, ('obronna', 'obronny', 'adj:sg:nom.voc:f:pos', [], []))]

In [19]:
wn.senses('zamek')

[('zamek',
  <Synset id=4189 lemma='zamek' pos=<PoS.noun: 'noun'> variant=1>,
  'warowna budowla mieszkalna, rezydencja pana, króla, księcia lub magnata.'),
 ('zamek',
  <Synset id=4190 lemma='zamek' pos=<PoS.noun: 'noun'> variant=2>,
  'mechanizm lub urządzenie do zamykania drzwi, szuflad, walizek.'),
 ('zamek',
  <Synset id=46716 lemma='zamek błyskawiczny' pos=<PoS.noun: 'noun'> variant=1 [+ 3 unit(s)]>,
  'zapięcie przy ubraniu, suwak, ekler.'),
 ('zamek',
  <Synset id=43594 lemma='zamek' pos=<PoS.noun: 'noun'> variant=4>,
  'mechanizm broni palnej służący do zamykania na czas wystrzału i otwierania po strzale tylnej części lufy.'),
 ('zamek',
  <Synset id=43596 lemma='zamek' pos=<PoS.noun: 'noun'> variant=7>,
  'zagranie taktyczne w hokeju; zamknięcie przeciwnika w jego tercji lodowiska/boiska.'),
 ('zamek',
  <Synset id=46718 lemma='zamek' pos=<PoS.noun: 'noun'> variant=3>,
  'urządzenie do łączenia lub zabezpieczania w ustalonym położeniu elementów maszyny.'),
 ('zamek',
  <Synse