## Предобработка текста

1. **Токенизация** — самый первый шаг при обработке текста.
2. **Нормализация** — приведение к одному регистру, удаляются пунктуации, исправление опечаток и т.д.
3.
    * **Стемминг** —  выделение псевдоосновы слова.
    * **Лемматизация** — приведение слов к словарной ("начальной") форме.
4. **Удаление стоп-слов** — слов, которые не несут никакой смысловой нагрузки (предлоги, союзы и т.п.) Список зависит от задачи!

**Важно!** Не всегда нужны все этапы, все зависит от задачи.

## Токенизация

#### Сколько слов в этом предложении?

*На дворе трава, на траве дрова, не руби дрова на траве двора.*

* 12 токенов: На, дворе, трава, на, траве, дрова, не, руби, дрова, на, траве, двора
* 8 - 9 словоформ: Н/на, дворе, трава, траве, дрова, не, руби, двора.
* 6  лексем: на, не, двор, трава, дрова, рубить


### Токен и словоформа

**Словоформа**  – уникальное слово из текста

**Токен**  – словоформа и её позиция в тексте

Объем корпуса измеряется в токенах, объем словаря — в словоформах или лексемах.

### Обозначения
$N$ = число токенов

$V$ = словарь (все словоформы)

$|V|$ = количество словоформ в словаре

### Токен ≠ слово

## 1. Наивная токенизация

Текст можно разбить на токены по пробелам.

In [None]:
text ='''
Театр "Компас".
Безымянная звезда.

Была на спектакле "Безымянная звезда" 31.01.2020 - смотрела впервые этот спектакль.
Понравилась сама постановка, единственное показалось в первом действии слегка затянутый сюжет,
а со второго действия было очень интересно.
Спасибо актёрам за игру. Есть интерес и дальше знакомиться с остальными спектаклями театра.

Ника написал(а)  07 февраля
'''


In [None]:
tokens = text.split()
print(tokens)
len(tokens)

['Театр', '"Компас"', 'Безымянная', 'звезда', 'Была', 'на', 'спектакле', '"Безымянная', 'звезда"', '31.01.2020', '-', 'смотрела', 'впервые', 'этот', 'спектакль.', 'Понравилась', 'сама', 'постановка,', 'единственное', 'показалось', 'в', 'первом', 'действии', 'слегка', 'затянутый', 'сюжет,', 'а', 'со', 'второго', 'действия', 'было', 'очень', 'интересно.', 'Спасибо', 'актёрам', 'за', 'игру.', 'Есть', 'интерес', 'и', 'дальше', 'знакомиться', 'с', 'остальными', 'спектаклями', 'театра.', 'Ника', 'написал(а)', '07', 'февраля']


50

## 2. Библиотека NTLK

# Библиотека NLTK

## Назначение и область применения
**NLTK (Natural Language Toolkit)** — это библиотека для работы с естественным языком (Natural Language Processing, NLP) на языке Python. Она предоставляет инструменты для обработки текстов, анализа данных, токенизации, классификации, парсинга, семантического анализа и других задач, связанных с обработкой естественного языка.

**Области применения:**
- Лингвистические исследования
- Машинное обучение и анализ текстов
- Построение чат-ботов и диалоговых систем
- Классификация текстов (спам/не спам, тональность и т.д.)
- Извлечение информации и анализ данных
- Обучение моделей для NLP

## Разработчик
NLTK была разработана **Стивеном Бёрдом** и **Эдвардом Лопером** в рамках образовательного проекта в Университете Пенсильвании. Библиотека активно развивается и поддерживается сообществом.

## Основные функции
1. **Токенизация**:
   - Разбиение текста на слова, предложения или другие единицы.
   ```python
   from nltk.tokenize import word_tokenize
   text = "NLTK — это мощный инструмент для NLP."
   tokens = word_tokenize(text)
   ```

2. **Стемминг и лемматизация**:
   - Приведение слов к их базовой форме.
   ```python
   from nltk.stem import PorterStemmer
   stemmer = PorterStemmer()
   stemmed_word = stemmer.stem("running")
   ```

3. **Частеречная разметка (POS-tagging)**:
   - Определение частей речи для каждого слова.
   ```python
   from nltk import pos_tag
   tagged_words = pos_tag(tokens)
   ```

4. **Синтаксический анализ**:
   - Построение деревьев зависимостей.
   ```python
   from nltk import CFG, ChartParser
   grammar = CFG.fromstring("S -> NP VP")
   parser = ChartParser(grammar)
   ```

5. **Классификация текстов**:
   - Обучение моделей для классификации текстов.
   ```python
   from nltk.classify import NaiveBayesClassifier
   classifier = NaiveBayesClassifier.train(train_data)
   ```

6. **Работа с корпусами текстов**:
   - Доступ к предварительно загруженным текстовым данным.
   ```python
   from nltk.corpus import gutenberg
   text = gutenberg.raw("shakespeare-hamlet.txt")
   ```

7. **Извлечение именованных сущностей (NER)**:
   - Поиск имен, организаций, дат и других сущностей.
   ```python
   from nltk import ne_chunk
   entities = ne_chunk(tagged_words)
   ```

8. **Анализ тональности**:
   - Определение эмоциональной окраски текста.
   ```python
   from nltk.sentiment import SentimentIntensityAnalyzer
   sia = SentimentIntensityAnalyzer()
   sentiment = sia.polarity_scores("NLTK is amazing!")
   ```

NLTK — это мощный инструмент для работы с текстами, который подходит как для образовательных целей, так и для профессионального использования в NLP. Она предоставляет широкий набор функций для анализа и обработки естественного языка, что делает её одной из самых популярных библиотек в этой области.

Каждый из элементов, загружаемых с помощью `nltk.download()`, представляет собой набор данных, моделей или ресурсов, необходимых для выполнения определённых задач в библиотеке NLTK. Вот подробное объяснение, зачем нужны эти элементы:

---

### 1. **`nltk.download('stopwords')`**
   - **Назначение**: Загружает список стоп-слов для различных языков.
   - **Зачем нужен**: Стоп-слова — это слова, которые часто встречаются в тексте, но не несут значимой смысловой нагрузки (например, предлоги, союзы, местоимения). Они удаляются на этапе предобработки текста, чтобы уменьшить размер данных и улучшить качество анализа.
   - **Пример использования**:
     ```python
     from nltk.corpus import stopwords
     stop_words = set(stopwords.words('english'))
     ```

---

### 2. **`nltk.download('punkt')`**
   - **Назначение**: Загружает токенизатор для разделения текста на слова и предложения.
   - **Зачем нужен**: Токенизация — это первый шаг в обработке текста. Этот ресурс позволяет разбивать текст на отдельные слова или предложения, что необходимо для дальнейшего анализа.
   - **Пример использования**:
     ```python
     from nltk.tokenize import word_tokenize
     tokens = word_tokenize("This is a sample sentence.")
     ```
---    
### **`nltk.download('punkt_tab')`**
   - это ресурс, связанный с токенизацией текста в библиотеке NLTK. Однако, в отличие от стандартного punkt, этот ресурс используется для работы с табулярными данными (например, текстами, разделёнными табуляцией или другими разделителями).
---

### 3. **`nltk.download('snowball_data')`**
   - **Назначение**: Загружает данные для стеммера Snowball.
   - **Зачем нужен**: Snowball — это стеммер, который используется для приведения слов к их корневой форме (например, "running" → "run"). Этот ресурс необходим для работы стеммера.
   - **Пример использования**:
     ```python
     from nltk.stem import SnowballStemmer
     stemmer = SnowballStemmer("english")
     stemmed_word = stemmer.stem("running")
     ```

---

### 4. **`nltk.download('perluniprops')`**
   - **Назначение**: Загружает данные для работы с Unicode-свойствами символов.
   - **Зачем нужен**: Этот ресурс используется для анализа текста на основе Unicode (например, определение, является ли символ буквой, цифрой или пробелом). Он полезен для задач токенизации и нормализации текста.
   - **Пример использования**: Используется внутри NLTK для обработки текста.

---

### 5. **`nltk.download('universal_tagset')`**
   - **Назначение**: Загружает универсальный набор тегов для частеречной разметки.
   - **Зачем нужен**: Универсальный набор тегов упрощает классификацию частей речи, используя общие категории (например, "NOUN", "VERB", "ADJ"). Это полезно для анализа текста и сравнения результатов между разными языками.
   - **Пример использования**:
     ```python
     from nltk import pos_tag
     tagged_words = pos_tag(["This", "is", "a", "test"], tagset='universal')
     ```

---

### 6. **`nltk.download('nonbreaking_prefixes')`**
   - **Назначение**: Загружает список префиксов, которые не должны разрывать предложения.
   - **Зачем нужен**: Этот ресурс используется для корректной токенизации предложений. Например, сокращения вроде "Mr." или "Dr." не должны разрывать предложение на части.
   - **Пример использования**: Используется внутри NLTK для токенизации предложений.

---

### 7. **`nltk.download('wordnet')`**
   - **Назначение**: Загружает лексическую базу данных WordNet.
   - **Зачем нужен**: WordNet — это семантическая сеть, которая группирует слова в синонимические наборы (синсеты) и предоставляет информацию о их значениях, синонимах, антонимах и других связях. Используется для лемматизации, поиска синонимов и анализа смысла слов.
   - **Пример использования**:
     ```python
     from nltk.corpus import wordnet
     synsets = wordnet.synsets("dog")
     ```



In [None]:
import nltk

nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('snowball_data')
nltk.download('perluniprops')
nltk.download('universal_tagset')
nltk.download('stopwords')
nltk.download('nonbreaking_prefixes')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package snowball_data to /root/nltk_data...
[nltk_data]   Package snowball_data is already up-to-date!
[nltk_data] Downloading package perluniprops to /root/nltk_data...
[nltk_data]   Package perluniprops is already up-to-date!
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Package universal_tagset is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package nonbreaking_prefixes to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package nonbreaking_prefixes is already up

True

In [None]:
from nltk.tokenize import word_tokenize, ToktokTokenizer
#word_tokenize — это встроенная функция NLTK для токенизации текста на слова.
#Она использует предобученную модель punkt, которая хорошо работает для большинства задач.
#ToktokTokenizer — это токенизатор, разработанный для работы с текстами на низкоресурсных языках
#(например, африканские или азиатские языки).
#Он менее сложен, чем punkt, но может быть полезен для специфических задач.

tokens = word_tokenize(text)
print(tokens)
len(tokens)

['Театр', '``', 'Компас', "''", 'Безымянная', 'звезда', 'Была', 'на', 'спектакле', '``', 'Безымянная', 'звезда', "''", '31.01.2020', '-', 'смотрела', 'впервые', 'этот', 'спектакль', '.', 'Понравилась', 'сама', 'постановка', ',', 'единственное', 'показалось', 'в', 'первом', 'действии', 'слегка', 'затянутый', 'сюжет', ',', 'а', 'со', 'второго', 'действия', 'было', 'очень', 'интересно', '.', 'Спасибо', 'актёрам', 'за', 'игру', '.', 'Есть', 'интерес', 'и', 'дальше', 'знакомиться', 'с', 'остальными', 'спектаклями', 'театра', '.', 'Ника', 'написал', '(', 'а', ')', '07', 'февраля']


63

In [None]:
tknzr = ToktokTokenizer()
tokens = tknzr.tokenize(text)
print(tokens)
len(tokens)

['Театр', '"', 'Компас', '"', 'Безымянная', 'звезда', 'Была', 'на', 'спектакле', '"', 'Безымянная', 'звезда', '"', '31.01.2020', '-', 'смотрела', 'впервые', 'этот', 'спектакль.', 'Понравилась', 'сама', 'постановка', ',', 'единственное', 'показалось', 'в', 'первом', 'действии', 'слегка', 'затянутый', 'сюжет', ',', 'а', 'со', 'второго', 'действия', 'было', 'очень', 'интересно.', 'Спасибо', 'актёрам', 'за', 'игру.', 'Есть', 'интерес', 'и', 'дальше', 'знакомиться', 'с', 'остальными', 'спектаклями', 'театра.', 'Ника', 'написал', '(', 'а', ')', '07', 'февраля']


59

In [None]:

#В nltk есть довольно много токенизаторов:
from nltk import tokenize
dir(tokenize)[:16]

['BlanklineTokenizer',
 'LegalitySyllableTokenizer',
 'LineTokenizer',
 'MWETokenizer',
 'NLTKWordTokenizer',
 'PunktSentenceTokenizer',
 'PunktTokenizer',
 'RegexpTokenizer',
 'ReppTokenizer',
 'SExprTokenizer',
 'SpaceTokenizer',
 'StanfordSegmenter',
 'SyllableTokenizer',
 'TabTokenizer',
 'TextTilingTokenizer',
 'ToktokTokenizer']

## 3. Сегментация предложений

Сегментацию предложений иногда называют **сплиттингом**.

Основные признаки — знаки препинания. "?", "!" как правило однозначны, проблемы возникают с "."  Возможное решение: бинарный классификатор для сегментации предложений. Для каждой точки "." определить, является ли она концом предложения или нет.

In [None]:
from nltk.tokenize import sent_tokenize

sents = sent_tokenize(text)
print(len(sents))
sents

7


['\nТеатр "Компас".',
 'Безымянная звезда.',
 'Была на спектакле "Безымянная звезда" 31.01.2020 - смотрела впервые этот спектакль.',
 'Понравилась сама постановка, единственное показалось в первом действии слегка затянутый сюжет, \nа со второго действия было очень интересно.',
 'Спасибо актёрам за игру.',
 'Есть интерес и дальше знакомиться с остальными спектаклями театра.',
 'Ника написал(а)  07 февраля']

**rusenttokenize** — это специализированный инструмент для токенизации русскоязычных текстов на предложения. Он входит в библиотеку NLTK и предназначен для корректного разделения текста на предложения с учётом особенностей русского языка.

In [None]:
!pip install --user rusenttokenize




In [None]:
from rusenttokenize import ru_sent_tokenize
sents = ru_sent_tokenize(text)

print(len(sents))
sents

7


['Театр "Компас".',
 'Безымянная звезда.',
 'Была на спектакле "Безымянная звезда" 31.01.2020 - смотрела впервые этот спектакль.',
 'Понравилась сама постановка, единственное показалось в первом действии слегка затянутый сюжет, \nа со второго действия было очень интересно.',
 'Спасибо актёрам за игру.',
 'Есть интерес и дальше знакомиться с остальными спектаклями театра.',
 'Ника написал(а)  07 февраля']

## 4. Нормализация

**Нормализация в NLP (Natural Language Processing)** — это процесс приведения текста к единому стандартному формату, чтобы упростить его дальнейшую обработку и анализ. Нормализация включает в себя различные этапы, такие как приведение текста к нижнему регистру, удаление лишних символов, исправление ошибок, приведение слов к их базовой форме и другие преобразования.

Цель нормализации — уменьшить разнообразие форм слов и текстовых данных, чтобы улучшить качество анализа и упростить работу алгоритмов машинного обучения.

1. **Уменьшение размерности данных**:
   - Нормализация сокращает количество уникальных слов, что упрощает обработку и анализ.
2. **Улучшение качества моделей**:
   - Алгоритмы машинного обучения работают лучше, когда данные представлены в едином формате.
3. **Упрощение анализа**:
   - Нормализация делает текст более структурированным и удобным для анализа.
4. **Сравнение текстов**:
   - Нормализация позволяет сравнивать тексты, игнорируя незначительные различия (например, регистр, пунктуацию).

## Основные этапы нормализации

### 1. **Приведение к нижнему регистру**
   - Все символы в тексте приводятся к нижнему регистру, чтобы избежать дублирования слов из-за разного регистра (например, "Слово" и "слово" будут считаться одним и тем же словом).
   - **Пример**:
     ```python
     text = "Это Пример Текста."
     normalized_text = text.lower()
     print(normalized_text)  # "это пример текста."
     ```

### 2. **Удаление пунктуации и специальных символов**
   - Удаляются знаки препинания, цифры, специальные символы и другие неалфавитные элементы, которые не несут смысловой нагрузки.
   - **Пример**:
     ```python
     import re
     text = "Это пример текста, с пунктуацией! И цифрами: 123."
     normalized_text = re.sub(r'[^\w\s]', '', text)
     print(normalized_text)  # "Это пример текста с пунктуацией И цифрами 123"
     ```

### 3. **Удаление стоп-слов**
   - Удаляются стоп-слова (слова, которые не несут значимой информации, такие как предлоги, союзы, местоимения).
   - **Пример**:
     ```python
     from nltk.corpus import stopwords
     stop_words = set(stopwords.words('russian'))
     text = "Это пример текста с некоторыми стоп-словами."
     normalized_text = " ".join([word for word in text.split() if word not in stop_words])
     print(normalized_text)  # "пример текста стоп-словами."
     ```

### 4. **Лемматизация**
   - Приведение слов к их базовой форме (лемме). Например, "бежал", "бежать", "бегу" → "бежать".
   - **Пример**:
     ```python
     from nltk.stem import WordNetLemmatizer
     lemmatizer = WordNetLemmatizer()
     word = "running"
     normalized_word = lemmatizer.lemmatize(word, pos='v')
     print(normalized_word)  # "run"
     ```

### 5. **Стемминг**
   - Приведение слов к их корневой форме путём отсечения окончаний. Например, "бежал", "бежать", "бегу" → "беж".
  
### 6. **Исправление опечаток**
   - Автоматическое исправление ошибок в тексте (например, "првиет" → "привет").
   - **Пример**:
     Используются библиотеки, такие как `pyspellchecker` или `symspellpy`.

### 7. **Удаление лишних пробелов**
   - Удаление лишних пробелов и приведение текста к единому формату.
   - **Пример**:
     ```python
     text = "Это   текст  с  лишними  пробелами."
     normalized_text = " ".join(text.split())
     print(normalized_text)  # "Это текст с лишними пробелами."
     ```


### Удаление пунктуации

In [None]:
# Удаление пунктуации и цифр
clean_words = [word for word in tokens if word.isalpha()]
print(clean_words)


['Театр', 'Компас', 'Безымянная', 'звезда', 'Была', 'на', 'спектакле', 'Безымянная', 'звезда', 'смотрела', 'впервые', 'этот', 'Понравилась', 'сама', 'постановка', 'единственное', 'показалось', 'в', 'первом', 'действии', 'слегка', 'затянутый', 'сюжет', 'а', 'со', 'второго', 'действия', 'было', 'очень', 'Спасибо', 'актёрам', 'за', 'Есть', 'интерес', 'и', 'дальше', 'знакомиться', 'с', 'остальными', 'спектаклями', 'Ника', 'написал', 'а', 'февраля']


### Преобразование регистра

In [None]:
clean_words = [w.lower() for w in clean_words if w != '']
print(clean_words)

['театр', 'компас', 'безымянная', 'звезда', 'была', 'на', 'спектакле', 'безымянная', 'звезда', 'смотрела', 'впервые', 'этот', 'понравилась', 'сама', 'постановка', 'единственное', 'показалось', 'в', 'первом', 'действии', 'слегка', 'затянутый', 'сюжет', 'а', 'со', 'второго', 'действия', 'было', 'очень', 'спасибо', 'актёрам', 'за', 'есть', 'интерес', 'и', 'дальше', 'знакомиться', 'с', 'остальными', 'спектаклями', 'ника', 'написал', 'а', 'февраля']


### Стоп-слова

**Стоп-слова** — высокочастотные слова, которые не дают нам никакой информации о конкретном тексте. Они составляют верхушку частотного списка в любом языке. Набор стоп-слов не универсален, он будет зависеть от вашей задачи!

В NLTK есть готовые списки стоп-слов для многих языков.

In [None]:
from nltk.corpus import stopwords

# смотрим, какие языки есть
stopwords.fileids()

['albanian',
 'arabic',
 'azerbaijani',
 'basque',
 'belarusian',
 'bengali',
 'catalan',
 'chinese',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hebrew',
 'hinglish',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'tamil',
 'turkish']

In [None]:
sw = stopwords.words('russian')
print(sw)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

In [None]:
stop_words = [w for w in clean_words if w in sw]
print(stop_words)
real_words = [w for w in clean_words if w not in sw]
print(real_words)

['была', 'на', 'этот', 'в', 'а', 'со', 'было', 'за', 'есть', 'и', 'с', 'а']
['театр', 'компас', 'безымянная', 'звезда', 'спектакле', 'безымянная', 'звезда', 'смотрела', 'впервые', 'понравилась', 'сама', 'постановка', 'единственное', 'показалось', 'первом', 'действии', 'слегка', 'затянутый', 'сюжет', 'второго', 'действия', 'очень', 'спасибо', 'актёрам', 'интерес', 'дальше', 'знакомиться', 'остальными', 'спектаклями', 'ника', 'написал', 'февраля']


## Стемминг

**Стемминг** — отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Стем необязательно совпадает с морфлогической основой слова. Одинаковый стем может получиться и не у однокоренных слов и наоборот — в этом проблема стемминга.

* 1-ый вид ошибки: белый, белка, белье $\implies$  бел

* 2-ой вид ошибки: трудность, трудный $\implies$  трудност, труд

* 3-ий вид ошибки: быстрый, быстрее $\implies$  быст, побыстрее $\implies$  побыст

Самый простой алгоритм, алгоритм Портера, состоит из 5 циклов команд, на каждом цикле – операция удаления / замены суффикса. Возможны вероятностные расширения алгоритма.

### Snowball stemmer
Улучшенный вариант стеммера Портера; в отличие от него умеет работать не только с английским текстом.

In [None]:
from nltk.stem.snowball import SnowballStemmer

SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [None]:
tokens = [w for w in real_words if w not in sw and w != '']
print(tokens)

['театр', 'компас', 'безымянная', 'звезда', 'спектакле', 'безымянная', 'звезда', 'смотрела', 'впервые', 'понравилась', 'сама', 'постановка', 'единственное', 'показалось', 'первом', 'действии', 'слегка', 'затянутый', 'сюжет', 'второго', 'действия', 'очень', 'спасибо', 'актёрам', 'интерес', 'дальше', 'знакомиться', 'остальными', 'спектаклями', 'ника', 'написал', 'февраля']


In [None]:
snowball = SnowballStemmer("russian")

for w in real_words:
    print("%s: %s" % (w, snowball.stem(w)))

театр: театр
компас: компас
безымянная: безымя
звезда: звезд
спектакле: спектакл
безымянная: безымя
звезда: звезд
смотрела: смотрел
впервые: вперв
понравилась: понрав
сама: сам
постановка: постановк
единственное: единствен
показалось: показа
первом: перв
действии: действ
слегка: слегк
затянутый: затянут
сюжет: сюжет
второго: втор
действия: действ
очень: очен
спасибо: спасиб
актёрам: актер
интерес: интерес
дальше: дальш
знакомиться: знаком
остальными: остальн
спектаклями: спектакл
ника: ник
написал: написа
февраля: феврал


## 5. Частотный анализ текста


In [15]:
from nltk.probability import FreqDist


In [16]:
# Подсчёт частоты слов
freq_dist = FreqDist(tokens)

# Вывод 10 самых частых слов
print("10 самых частых слов:")
print(freq_dist.most_common(10))

NameError: name 'tokens' is not defined

# Задание:
Проведите частотный анализ текста:

Миром правят мечты. Вы скажете, что так бывает только в кино. Но не стоит забывать, что съёмки фильмов – это не только колоссальный труд, но и тоже чья-то мечта.

Особенно показательным является история создания фильма «Фицкарральдо» немецкого режиссёра Вернера Херцога.

Лента повествует о фанатично влюблённом в музыку и голос великого тенора Энрико Карузо этническом ирландце, обанкротившемся магнате Брайане Фицджеральде, живущем в Латинской Америке. Ради того, чтобы вживую услышать голос кумира, он проделывает путешествие в 2000 миль по Амазонке. После встречи с прекрасным он решает построить оперный театр в деревушке Икитос – самом сердце непроходимой перуанской сельвы. Но, как это зачастую и бывает, осуществлению мечты мешает финансовый вопрос. Фицкарральдо, как называют Фицджеаральда в Америке, решает снарядить экспедицию ради разработки каучуковых плантаций, никем доселе нетронутых ввиду их недоступности. Но дорога к богатству лежит через преодоление крайне опасных порогов рек и встречу с враждебно настроенными индейскими племенами.

Звучит невероятно, правда? Однако главный герой фильма имел реальный прототип – «каучукового барона» Карлоса Фермина Фицкарральдо, на самом деле осуществившим сложнейший переход через смертельно опасный порог на корабле массой 28 тонн, уговорив помочь в этом индейцев.

Согласитесь, впечатляет. Но и это далеко не всё. Дело в том, что преданный искусству не менее фанатично, чем его герой, режиссёр Вернер Херцог на протяжении четырёх лет создавал картину о том, на что способен человек, ведомый одной лишь мечтой. Он повторил невероятную экспедицию, собрав корабль массой 328 (!) тонн и заручившись поддержкой и согласием на съёмки вождя настоящего индейского племени. Все сцены фильма выполнялись без использования спецэффектов: режиссёр с маниакальной страстью старался убедить зрителя в реальности происходящего. Съёмки происходили в тяжелейших условиях непроходимых перуанских лесов, нетронутых цивилизацией и девственно чистых.

Вот так, рассказывая о воплощении безумной мечты, совершенно невозможной и немыслимой, Херцог воплотил в жизнь свою. Он подарил нам эпических размахов воодушевляющую историю. За проведённую титаническую работу Вернер Херцог был удостоен пальмовой ветви лучшему режиссёру на престижнейшем кинофестивале в Канне в 1982 году.

In [8]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from nltk.probability import FreqDist

# Загрузка необходимых ресурсов NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('snowball_data')

text = """
Миром правят мечты. Вы скажете, что так бывает только в кино. Но не стоит забывать, что съёмки фильмов – это не только колоссальный труд, но и тоже чья-то мечта.

Особенно показательным является история создания фильма «Фицкарральдо» немецкого режиссёра Вернера Херцога.

Лента повествует о фанатично влюблённом в музыку и голос великого тенора Энрико Карузо этническом ирландце, обанкротившемся магнате Брайане Фицджеральде, живущем в Латинской Америке. Ради того, чтобы вживую услышать голос кумира, он проделывает путешествие в 2000 миль по Амазонке. После встречи с прекрасным он решает построить оперный театр в деревушке Икитос – самом сердце непроходимой перуанской сельвы. Но, как это зачастую и бывает, осуществлению мечты мешает финансовый вопрос. Фицкарральдо, как называют Фицджеаральда в Америке, решает снарядить экспедицию ради разработки каучуковых плантаций, никем доселе нетронутых ввиду их недоступности. Но дорога к богатству лежит через преодоление крайне опасных порогов рек и встречу с враждебно настроенными индейскими племенами.

Звучит невероятно, правда? Однако главный герой фильма имел реальный прототип – «каучукового барона» Карлоса Фермина Фицкарральдо, на самом деле осуществившим сложнейший переход через смертельно опасный порог на корабле массой 28 тонн, уговорив помочь в этом индейцев.

Согласитесь, впечатляет. Но и это далеко не всё. Дело в том, что преданный искусству не менее фанатично, чем его герой, режиссёр Вернер Херцог на протяжении четырёх лет создавал картину о том, на что способен человек, ведомый одной лишь мечтой. Он повторил невероятную экспедицию, собрав корабль массой 328 (!) тонн и заручившись поддержкой и согласием на съёмки вождя настоящего индейского племени. Все сцены фильма выполнялись без использования спецэффектов: режиссёр с маниакальной страстью старался убедить зрителя в реальности происходящего. Съёмки происходили в тяжелейших условиях непроходимых перуанских лесов, нетронутых цивилизацией и девственно чистых.

Вот так, рассказывая о воплощении безумной мечты, совершенно невозможной и немыслимой, Херцог воплотил в жизнь свою. Он подарил нам эпических размахов воодушевляющую историю. За проведённую титаническую работу Вернер Херцог был удостоен пальмовой ветви лучшему режиссёру на престижнейшем кинофестивале в Канне в 1982 году.
"""

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package snowball_data to /root/nltk_data...


In [9]:
text = text.lower()

In [11]:
text = re.sub(r'[^\w\s]', '', text)
text = re.sub(r'\d+', '', text)

In [12]:
russian_stopwords = set(stopwords.words('russian'))
words = [word for word in words if word not in russian_stopwords]

NameError: name 'words' is not defined

In [13]:
stemmer = SnowballStemmer('russian')
stemmed_words = [stemmer.stem(word) for word in words]


NameError: name 'words' is not defined

In [17]:
word_counts = Counter(stemmed_words)
most_common_words = word_counts.most_common(10)

print("\n10 самых частых слов:")
for word, count in most_common_words:
    print(f"{word}: {count}")

NameError: name 'stemmed_words' is not defined