# Лемматизация и очистка скачаных словарей с новостями

In [3]:
import numpy as np
import re

import pandas as pd
import pickle

# Токенизатор (разбивает на слова) 
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')

# Лемматизатор 
# ВАЖНО: надо поставить !pip install pymorphy2
# документация на русском: https://pymorphy2.readthedocs.io/en/latest/
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

# Стоп-слова 
from nltk.corpus import stopwords
stop = set(stopwords.words('russian'))

In [4]:
# Функция для токенизации, лемматизации и очистки от стоп-слов
def token_lemma(statia, stop = stop):
    # Токенизация 
    out_1 = tokenizer.tokenize(statia.lower())
    # Лемматизация и очистка от стоп-слов
    out_2 = [morph.parse(tx)[0].normal_form for tx in out_1 if tx not in stop]
    return out_2

In [9]:
files = ['president_speach.pickle']

In [10]:
# Библиотека для распараллеливания кода
from joblib import Parallel, delayed
from tqdm import tqdm_notebook
n_jobs = -1 # параллелим на все ядра 


def prep(text):
    return token_lemma(text, stop = stop)

In [None]:
# подгрузили данные 
with open('data.pickle', 'rb') as f:
    texts = pickle.load(f)

In [None]:
# лемматизируем тексты
texts_lemm = Parallel(n_jobs=n_jobs)(delayed(prep)(
    text) for text in tqdm_notebook(texts))

In [None]:
# сохраняем данные
with open('data_lemm.pickle', 'wb') as f:
    pickle.dump(texts_lemm, f)    

Это для одной группы. Можно сразу подгрузить все группы в большой список и запустить лемматизацию. 