In [17]:
import re
from typing import List
import pymorphy2

morph = pymorphy2.MorphAnalyzer(lang='uk')

In [18]:
text = '''Джерело: російська правозахисниця Вікторія Івлєва в Facebook, 
"Крим.Реалії" Адміністрація московського слідчого ізолятора "Лефортово" прийняла передачі 
для п'яти українських політв'язнів - Володимира Балуха, Станіслава Клиха, Олександра Кольченка, Павла Гриба 
і Миколи Карпюка.  Пряма мова: "Нечуване з Лефортово. Поїхали навмання в Лефортово, зібравши п'ять передачок. 
Усі передачі взяли...  Усередині СІЗО не буваю, права такого у мене немає, але не бачу сенсу приймати передачі 
для людей, яких там немає".  Деталі: Прямого підтвердження від адміністрації "Лефортово" перебування у них 
українських політв'язнів немає. Адвокат Володимира Балуха Ольга Дінзе відмовився коментувати інформацію 
правозахисниці Івлєвій. Чому це важливо: В СІЗО утримуються особи не засуджені або вирок щодо яких іще не 
вступив в силу.  У "Лефортово", зокрема, знаходяться українські полонені моряки, яких, згідно з вимогою 
України, задоволеною Трибуналом ООН 25 травня, вже мали відпустити на свободу. Те що одразу п'ять відомих 
українських політв'язнів могли опинитися разом із полоненими моряками в "Лефортово" може свідчити на користь 
досягнення певних домовленостей між Росією та Україною стосовно обміну політв'язнями. Нагадаємо: Балух, 
засуджений до майже п'яти років колонії і штрафу, перебував у колонії Тверської області. Гриб, засуджений до 
шести років позбавлення волі, знаходився у краснодарській колонії.  Кольченко засуджений до 10 років позбавлення волі 
в колонії суворого режиму за однією справою з режисером Олегом Сенцової. Клиха і Карпюка засудили до 20 і 22,5 років 
колонії суворого режиму. 25 листопада 2018 року у Керченській протоці російські військові обстріляли і 
захопили українські катери "Бердянськ" та "Нікополь", а також буксир "Яни Капу" з екіпажами, які прямували з 
Одеси до Маріуполя. Троє українських моряків під час атаки росіян зазнали поранень. Окупаційні "суди" у Криму 
заарештували 24 українських військових, їх було перевезено до російського СІЗО "Лефортово". Полоненим українцям 
пред'явили звинувачення за ч.3 ст.322 КК Росії (незаконне перетинання кордону), їм загрожує до 6 років позбавлення 
волі. 25 травня 2019 року постійно діючий трибунал, створений у відповідності до Конвенції ООН з морського права, 
задовольнив ключову вимогу України у справі про тимчасові заходи, які має здійснити Росія та зобов’язав РФ 
відпустити захоплених моряків.'''


In [19]:
def load_stop_words(file_name):
    with open(file_name, encoding='utf-8') as f:
        result = [w.strip() for w in f]
        return result


def tokenize(text: str):
    text = " ".join(word.lower() for word in text.split())  # lowercasing and removing short words
    text = re.sub('\-\s\r\n\s{1,}|\-\s\r\n|\r\n', '', text)  # deleting newlines and line-breaks
    text = re.sub('[.,:;%©?*,!@#$%^&()\d]|[+=]|[[]|[]]|[/]|"|\s{2,}|-', ' ', text)  # deleting symbols
    words = text.split()
    return words


def remove_stop_words(words: List[str], stop_words: List[str]):
    res = []
    for w in words:
        if w not in stop_words:
            res.append(w)
    return res


def make_lemmatization(words):
    lemma = []
    for word in words:
        p = morph.parse(word)[0]
        lemma.append(p.normal_form)
    return lemma



In [20]:
    stop_words_list = load_stop_words('stopwords_ukr.txt')
    tokens = tokenize(text)
    lemmas = make_lemmatization(tokens)
    print('количество лемм:', len(lemmas))
    lemmas = remove_stop_words(lemmas, stop_words_list)
    print('количество лемм после удаления стоп слов', len(lemmas))
    print('леммы:')
    for l in lemmas:
        print(l)

количество лемм: 311
количество лемм после удаления стоп слов 223
леммы:
джерело
російський
правозахисниця
вікторія
івлєв
facebook
крим
реалія
адміністрація
московський
слідчий
ізолятор
лефортово
прийняти
передача
п'ята
український
політв'язень
володимир
балух
станіслав
клихий
олександр
кольченко
павло
гриб
микола
карпюк
прямий
мова
нечуваний
лефортово
поїхати
навмання
лефортово
зібравши
передачка
увесь
передача
взяти
усередині
сізо
бувати
право
мен
бачити
сенс
приймати
передача
деталь
прямий
підтвердження
адміністрація
лефортово
перебування
український
політв'язень
адвокат
володимир
балух
ольга
дінзе
відмовитися
коментувати
інформація
правозахисниця
івлєва
чома
важливо
сізо
утримуватися
особа
засуджений
вирок
щодо
іще
вступити
сила
лефортово
зокрема
знаходитися
український
полонений
моряк
згідно
вимога
україна
задоволений
трибунал
оон
травень
відпустити
свобода
одразу
відомий
український
політв'язень
опинитися
із
полонений
моряк
лефортово
свідчити
користь
досягнення
певний
домовленіст