Лисицына Анастасия, МКЛ181 Компьютерная Лингвистика

In [1]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/lisa/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [65]:
from nltk.corpus import stopwords
from pymorphy2 import MorphAnalyzer
from string import punctuation

punct = punctuation+'«»—…“”*№–'
morph = MorphAnalyzer()
stops = set(stopwords.words('russian'))

Данные

In [60]:
text = open('hobbit.txt', 'r', encoding='utf-8').read()

In [64]:
text[:200]

'Джон Рональд Руэл ТОЛКИН\nХОББИТ, Или ТУДА И ОБРАТНО\n\nГЛАВА 1\nНЕЖДАННОЕ УГОЩЕНИЕ\n\n   В земле была нора, а в норе жил хоббит. Нора была вовсе не грязная и совсем не сырая; не копошились в ней черви, не '

## Токенизация, удаление стоп-слов и нормализация.

In [66]:
def normalize(text):
    
    words = [word.strip(punct) for word in text.lower().split()] # разобьём текст на токены
    # выберем не-стоп-слова и приведём к нормальной форме
    words = [morph.parse(word)[0].normal_form for word in words if word and word not in stops]

    return words

Представим текст как список слов в нормальной форме

In [67]:
text_norm = normalize(text)

In [68]:
text_norm[:10]

['джон',
 'рональд',
 'руэла',
 'толкина',
 'хоббит',
 'туда',
 'обратно',
 'глава',
 '1',
 'нежданный']

Напишем функцию, которая создаёт словарь частотности для уникальных слов, а затем сортирует полученный словарь по величине частотности

In [70]:
def sort(text):
    frequencies = {}
    for word in text:
        if word in frequencies:
            freq = frequencies[word]
            frequencies[word]=freq+1
        else:
            frequencies[word]=1
    sorted_freq = sorted(frequencies.items(), key=lambda item: item[1], reverse=True)
    return(sorted_freq)

In [71]:
sort(text_norm)[:15]

[('бильбо', 630),
 ('гном', 499),
 ('хоббит', 391),
 ('который', 270),
 ('это', 265),
 ('торина', 258),
 ('свой', 251),
 ('гора', 216),
 ('гэндальф', 213),
 ('гоблин', 210),
 ('эльф', 184),
 ('сказать', 172),
 ('дракон', 159),
 ('тот', 140),
 ('самый', 138)]

Очень хорошо! Но есть ненужные слова. Ограничим ключевые слова только существительными

In [72]:
def normalize_pos(text):
    
    words = [word.strip(punct) for word in text.lower().split()] # разобьём текст на токены
    words = [morph.parse(word)[0] for word in words if word and word not in stops]
    words = [word.normal_form for word in words if word.tag.POS == 'NOUN'] # выберем существительные

    return words

In [73]:
sorted_tokens = sort(normalize_pos(text))

In [74]:
sorted_tokens[:15]

[('бильбо', 630),
 ('гном', 499),
 ('хоббит', 391),
 ('торина', 258),
 ('гора', 216),
 ('гэндальф', 213),
 ('гоблин', 210),
 ('эльф', 184),
 ('дракон', 159),
 ('торбинс', 129),
 ('король', 118),
 ('время', 115),
 ('река', 110),
 ('день', 110),
 ('голлум', 106)]

Торин нормализовался в "Торина":), остальное хорошо

In [58]:
sorted_tokens

[('бильбо', 630),
 ('гном', 499),
 ('хоббит', 391),
 ('торина', 258),
 ('гора', 216),
 ('гэндальф', 213),
 ('гоблин', 210),
 ('эльф', 184),
 ('дракон', 159),
 ('торбинс', 129),
 ('король', 118),
 ('время', 115),
 ('река', 110),
 ('день', 110),
 ('голлум', 106),
 ('господин', 103),
 ('дело', 101),
 ('пещера', 99),
 ('маг', 96),
 ('дерево', 93),
 ('рука', 92),
 ('конец', 88),
 ('человек', 86),
 ('нога', 86),
 ('дверь', 85),
 ('вода', 80),
 ('слово', 77),
 ('сокровище', 75),
 ('глаз', 74),
 ('берег', 73),
 ('друг', 71),
 ('кольцо', 69),
 ('балин', 69),
 ('свет', 69),
 ('голова', 68),
 ('земля', 65),
 ('пони', 65),
 ('пора', 62),
 ('дорога', 61),
 ('камень', 61),
 ('дом', 60),
 ('путник', 60),
 ('меч', 59),
 ('паук', 56),
 ('беорн', 55),
 ('бард', 55),
 ('сторона', 53),
 ('озеро', 53),
 ('путь', 52),
 ('стена', 51),
 ('огонь', 50),
 ('золото', 50),
 ('филя', 49),
 ('лихолесья', 49),
 ('ночь', 49),
 ('эсгарот', 48),
 ('город', 47),
 ('ход', 47),
 ('голос', 45),
 ('бомбур', 45),
 ('место', 4