# 1. Обработка данных
### Токенизация, частота слов
Токенизация — разбиение текста на осмысленные элементы (слова, фразы, символы), называемые токенами.  
Частота слов — отношение числа вхождений некоторого слова к общему числу слов документа.

In [11]:
def tokenize(text):
    return text.lower().split()

def term_frequency(text):
    words = text.lower().split()
    unique_words = set(words)
    frequency_words = {}
    for word in unique_words:
        frequency_words[word] = words.count(word)
    return frequency_words

input_text = '''
Ехал Грека через реку 
Видит Грека в реке рак 
Сунул в реку руку Грека 
Рак за руку Греку цап 
'''
term_frequency(input_text)

{'в': 2,
 'видит': 1,
 'грека': 3,
 'греку': 1,
 'ехал': 1,
 'за': 1,
 'рак': 2,
 'реке': 1,
 'реку': 2,
 'руку': 2,
 'сунул': 1,
 'цап': 1,
 'через': 1}

### Тестирование функции

In [12]:
import unittest 
import sys

class TermFrequency(unittest.TestCase):
    def test_term_frequency_1(self):
        self.assertDictEqual(term_frequency('a b c'), {'a': 1, 'b': 1, 'c': 1})
        
    def test_term_frequency_more_than_1(self):
        self.assertDictEqual(term_frequency('a b c b b c'), {'b': 3, 'c': 2, 'a': 1})

suite = unittest.TestLoader().loadTestsFromTestCase(TermFrequency)
unittest.TextTestRunner(verbosity=2, stream=sys.stdout).run(suite)

test_term_frequency_1 (__main__.TermFrequency) ... ok
test_term_frequency_more_than_1 (__main__.TermFrequency) ... ok

----------------------------------------------------------------------
Ran 2 tests in 0.008s

OK


<unittest.runner.TextTestResult run=2 errors=0 failures=0>

### Лемматизация
Лемматизация - приведение слова к словарной (начальной)  форме. Инфинитив для глагола, именительный падеж единственного числа — для существительных и прилагательных.

In [None]:
!pip uninstall pymorphy2

In [13]:
import pymorphy2

morph = pymorphy2.MorphAnalyzer()
morph.parse('реку')[0].normal_form

'река'

### Стеммизация
Стеммизация (лингвистическая основа слова) — это устранение придатков к корню, то есть отделение суффикса,приставки, окончания.

In [None]:
!pip install nltk

In [16]:
from nltk import SnowballStemmer

stem = SnowballStemmer('russian').stem('реку')
stem

'рек'