<a href="https://colab.research.google.com/github/CodeHunterOfficial/A_PythonLibraries/blob/main/%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0_NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Библиотека NLTK

## Введение

Библиотека NLTK (Natural Language Toolkit) — это мощный инструмент для работы с обработкой естественного языка (NLP) на языке Python. Она предоставляет возможность анализа текстов, создания и использования различных языковых ресурсов и инструментов, что делает её идеальным выбором для исследователей, разработчиков и студентов, работающих в области языковых технологий.

В этой лекции мы рассмотрим:
- Основные компоненты NLTK.
- Как устанавливать NLTK и использовать его.
- Различные функции и возможности библиотеки.
- Примеры кода, демонстрирующие использование NLTK.

## Установка NLTK

Для начала работы с NLTK необходимо установить библиотеку. Это можно сделать с помощью менеджера пакетов pip. Откройте терминал и выполните следующую команду:

```bash
pip install nltk
```

После установки NLTK, для использования некоторых ресурсов и данных библиотеки, необходимо загрузить их. Для этого запустите следующий код в Python:

```python
import nltk
nltk.download()
```

Эта команда откроет графический интерфейс, из которого вы сможете выбрать необходимые ресурсы для загрузки.

## Основные компоненты NLTK

NLTK состоит из нескольких важных компонентов, среди которых:
- **Корпуса** — коллекции текстов на разных языках.
- **Токенизация** — процесс разбивки текста на отдельные элементы (слова, предложения и т.д.).
- **Частеречная разметка** — определение частей речи для каждого слова в тексте.
- **Стемминг и лемматизация** — преобразование слов к их базовым формам.
- **Синтаксический и семантический анализ** — анализ структуры и смысла предложений.
- **Модели для машинного обучения** — инструменты для построения и использования моделей NLP.

## 1. Токенизация

### Что такое токенизация?

Токенизация — это процесс разбивки текста на отдельные элементы, называемые токенами. Токены могут быть словами, предложениями или даже отдельными символами. Токенизация является одним из первых шагов в обработке естественного языка.

### Пример токенизации предложений и слов

В следующем примере мы покажем, как использовать NLTK для токенизации текста на предложения и слова.

```python
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

# Пример текста
text = "Привет! Как дела? Это пример текста для токенизации."

# Токенизация предложений
sentences = sent_tokenize(text, language='russian')
print("Предложения:", sentences)

# Токенизация слов
words = word_tokenize(text, language='russian')
print("Слова:", words)
```

### Объяснение кода

1. Импортируем необходимые модули из NLTK.
2. Определяем текст, который мы хотим токенизировать.
3. Используем `sent_tokenize` для разбиения текста на предложения.
4. Используем `word_tokenize` для разбиения текста на слова.
5. Выводим результаты на экран.

## 2. Частеречная разметка

### Что такое частеречная разметка?

Частеречная разметка — это процесс определения частей речи (существительное, глагол, прилагательное и т.д.) для каждого слова в тексте. Это помогает понять грамматическую структуру текста и значение слов.

### Пример частеречной разметки

В следующем примере мы покажем, как использовать NLTK для частеречной разметки.

```python
import nltk
from nltk import pos_tag
from nltk.tokenize import word_tokenize

# Пример текста
text = "Собака бегает по парку."

# Токенизация слов
words = word_tokenize(text, language='russian')

# Частеречная разметка
tagged_words = pos_tag(words, lang='rus')
print("Частеречная разметка:", tagged_words)
```

### Объяснение кода

1. Импортируем необходимые модули.
2. Определяем текст, который мы хотим разобрать.
3. Используем `word_tokenize` для токенизации текста на слова.
4. Применяем `pos_tag` для разметки слов по частям речи.
5. Выводим разметку на экран.

## 3. Стемминг и лемматизация

### Что такое стемминг и лемматизация?

- **Стемминг** — это процесс сокращения слова до его корня (стема). Например, слова "бегать", "бегу", "бежал" могут быть приведены к стему "бег".
- **Лемматизация** — это более сложный процесс, который включает в себя преобразование слова в его базовую форму (лемму), принимая во внимание его значение и грамматическую форму. Например, слово "бегал" преобразуется в "бегать".

### Пример стемминга и лемматизации

В NLTK есть встроенные инструменты для стемминга и лемматизации, но лемматизация требует дополнительных ресурсов.

```python
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer

# Создание объектов стеммера и лемматизатора
stemmer = SnowballStemmer(language='russian')
lemmatizer = WordNetLemmatizer()

# Примеры слов
words = ["бегаю", "бегал", "бегу"]

# Стемминг
stemmed_words = [stemmer.stem(word) for word in words]
print("Стемминг:", stemmed_words)

# Лемматизация (для демонстрации)
# В NLTK нет русской лемматизации, поэтому здесь используется английский пример
english_words = ["running", "ran", "runs"]
lemmatized_words = [lemmatizer.lemmatize(word) for word in english_words]
print("Лемматизация:", lemmatized_words)
```

### Объяснение кода

1. Импортируем стеммер и лемматизатор.
2. Создаём объекты для стемминга и лемматизации.
3. Определяем список слов для стемминга.
4. Применяем стемминг к каждому слову с помощью спискового включения.
5. Для демонстрации лемматизации используем английские слова.
6. Выводим результаты на экран.

## 4. Синтаксический анализ

### Что такое синтаксический анализ?

Синтаксический анализ включает в себя разбор предложений на составные части и выявление их грамматической структуры. Это позволяет понять, как слова в предложении связаны между собой.

### Пример синтаксического анализа

В NLTK можно использовать парсеры для синтаксического анализа. Вот пример простого синтаксического анализа:

```python
import nltk
from nltk import CFG

# Определение контекстно-свободной грамматики
grammar = CFG.fromstring("""
    S -> NP VP
    NP -> Det N
    VP -> V NP
    Det -> 'в' | 'один'
    N -> 'парк' | 'собака'
    V -> 'бегает'
""")

# Пример предложения
sentence = 'один собака бегает в парк'.split()

# Синтаксический анализ
parser = nltk.ChartParser(grammar)
for tree in parser.parse(sentence):
    print(tree)
    tree.pretty_print()
```

### Объяснение кода

1. Импортируем необходимые модули из NLTK.
2. Определяем контекстно-свободную грамматику (CFG) для нашего примера.
3. Задаём предложение, которое хотим разобрать.
4. Создаём парсер и применяем его к предложению.
5. Выводим синтаксическое дерево и его визуализацию.

## 5. Модели для машинного обучения

### Возможности машинного обучения в NLTK

NLTK предоставляет возможность использовать различные алгоритмы машинного обучения для задач обработки естественного языка, включая классификацию текстов, анализ настроений и т.д.

### Пример классификации текста

В этом примере мы используем NLTK для классификации текста на основе простого набора данных.

```python
import nltk
from nltk.corpus import movie_reviews
import random

# Загружаем отзывы о фильмах
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

# Перемешиваем документы
random.shuffle(documents)

# Извлекаем слова
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words)[:2000]

# Определяем функцию для извлечения признаков
def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features[f'contains({word})'] = (word in document_words)
    return features

# Подготавливаем обучающие и тестовые наборы
featuresets = [(document_features(doc), category) for (doc, category) in documents]
train_set, test_set = featuresets[100:],

 featuresets[:100]

# Обучаем классификатор
classifier = nltk.NaiveBayesClassifier.train(train_set)

# Оцениваем точность классификатора
print("Accuracy:", nltk.classify.accuracy(classifier, test_set))

# Печатаем наиболее информативные признаки
classifier.show_most_informative_features(5)
```

### Объяснение кода

1. Импортируем необходимые модули.
2. Загружаем отзывы о фильмах из корпуса `movie_reviews`.
3. Перемешиваем документы для создания случайного набора данных.
4. Извлекаем 2000 наиболее частых слов в отзывах.
5. Определяем функцию `document_features`, которая извлекает признаки из документа.
6. Готовим обучающие и тестовые наборы.
7. Обучаем классификатор Наивного Байеса на обучающем наборе.
8. Оцениваем точность классификатора на тестовом наборе и выводим наиболее информативные признаки.


#Дополнительные возможности NLTK



## 1. Работа с корпусами текстов на русском языке

### Использование русских текстов и корпусов

Корпуса текстов — это большие коллекции текстов, которые могут использоваться для анализа, исследования и обучения. В NLTK можно создать собственный корпус или использовать уже доступные. К сожалению, стандартные корпуса в NLTK в основном ориентированы на английский язык, поэтому мы можем использовать внешние источники или создавать собственные.

### Пример создания корпуса

Для создания собственного корпуса на русском языке вы можете использовать `PlaintextCorpusReader`. Предположим, у вас есть папка с текстовыми файлами на русском.

```python
from nltk.corpus import PlaintextCorpusReader

# Укажите путь к папке с текстами
corpus_root = 'путь/к/вашей/папке/с/текстами'
corpus = PlaintextCorpusReader(corpus_root, '.*\.txt')

# Просмотр файлов в корпусе
print(corpus.fileids())

# Чтение текста первого файла
print(corpus.raw(corpus.fileids()[0]))
```

### Примеры доступных ресурсов

Существуют открытые ресурсы, такие как [Национальный корпус русского языка](http://www.ruscorpora.ru) или [Тексты на русском языке на Kaggle](https://www.kaggle.com/datasets), которые можно использовать для создания корпусов.

## 2. Расширенные методы токенизации

### Настройка токенизаторов для русского языка

Токенизация — это один из первых шагов в анализе текста. Для русского языка токенизация может быть немного сложнее, особенно если текст содержит аббревиатуры, числовые значения и специальные символы.

### Пример токенизации с учетом специфики

NLTK предоставляет стандартные методы токенизации, но вы можете создать свои токенизаторы для более точного анализа:

```python
import nltk
from nltk.tokenize import RegexpTokenizer

# Создаем токенизатор, который разделяет текст по пробелам и учитывает только буквы и цифры
tokenizer = RegexpTokenizer(r'\w+')

text = "Привет! Сегодня 26 сентября 2024 года. Время: 14:30."
tokens = tokenizer.tokenize(text)
print("Токены:", tokens)
```

### Обработка сложных случаев

Для более сложных случаев можно использовать регулярные выражения, чтобы учитывать различные форматы, такие как аббревиатуры и числовые данные.

```python
import re

# Пример текста с аббревиатурами
text = "Система АБС работает 24/7. Скорость: 100 км/ч."

# Регулярное выражение для токенизации
tokens = re.findall(r'\w+', text)
print("Токены с учетом аббревиатур:", tokens)
```

## 3. Стемминг и лемматизация на русском языке

### Специальные алгоритмы для русскоязычных текстов

Для работы с русским языком часто используются алгоритмы стемминга и лемматизации. Как уже упоминалось, для стемминга можно использовать Snowball Stemmer, а для лемматизации — Pymorphy2.

### Пример стемминга

```python
from nltk.stem import SnowballStemmer

# Создаем объект стеммера
stemmer = SnowballStemmer(language='russian')

# Примеры слов
words = ["бегаю", "бегал", "бег"]

# Стемминг слов
stemmed_words = [stemmer.stem(word) for word in words]
print("Стемминг:", stemmed_words)
```

### Пример лемматизации с использованием Pymorphy2

```python
import pymorphy2

# Создаем объект морфологического анализатора
morph = pymorphy2.MorphAnalyzer()

# Примеры слов для лемматизации
words = ["бегаю", "бегал", "бег", "бегут"]

# Лемматизация слов
lemmas = [morph.parse(word)[0].normal_form for word in words]
print("Леммы:", lemmas)
```

### Сравнение стемминга и лемматизации

- **Стемминг**: более грубый подход, просто обрезает окончания.
- **Лемматизация**: более точный метод, учитывающий значение слова и его грамматические формы.

## 4. Обработка текстов с использованием регулярных выражений

Регулярные выражения — мощный инструмент для предварительной обработки текстов, позволяющий находить и заменять определенные шаблоны.

### Пример использования регулярных выражений

```python
import re

# Пример текста
text = "Это пример текста с лишними символами!!! @#$%^&*()"

# Удаление специальных символов
cleaned_text = re.sub(r'[^а-яА-Я0-9\s]', '', text)
print("Очистка текста:", cleaned_text)

# Удаление лишних пробелов
cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()
print("Очистка текста от лишних пробелов:", cleaned_text)
```

### Очистка текста от HTML-тегов

Если у вас есть текст с HTML-разметкой, можно использовать регулярные выражения для удаления тегов:

```python
html_text = "<p>Это пример текста <b>с жирным текстом</b>.</p>"
cleaned_text = re.sub(r'<.*?>', '', html_text)
print("Текст без HTML:", cleaned_text)
```

## 5. Классификация текстов и анализ настроений

### Более сложные примеры машинного обучения

Классификация текстов позволяет автоматически определять категорию текста. В NLTK можно обучать классификаторы с использованием различных алгоритмов, таких как Наивный Байес, SVM и т.д.

### Пример классификации

```python
import pandas as pd
from nltk.corpus import movie_reviews
import random

# Загружаем отзывы о фильмах
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

# Перемешиваем документы
random.shuffle(documents)

# Извлекаем слова
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words)[:2000]

# Определяем функцию для извлечения признаков
def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features[f'contains({word})'] = (word in document_words)
    return features

# Подготавливаем обучающие и тестовые наборы
featuresets = [(document_features(doc), category) for (doc, category) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]

# Обучаем классификатор
classifier = nltk.NaiveBayesClassifier.train(train_set)

# Оцениваем точность классификатора
print("Accuracy:", nltk.classify.accuracy(classifier, test_set))
```

### Применение моделей на основе глубокого обучения

Для более сложных задач классификации, таких как анализ настроений, можно использовать библиотеки глубокого обучения, такие как TensorFlow или PyTorch, совместно с NLTK для предварительной обработки текстов.


## 6. Синтаксический анализ и разбор предложений на русском языке

Для синтаксического анализа текста на русском языке с использованием библиотеки `spaCy`, необходимо загрузить и установить русскоязычную модель. Далее модель применяется для разметки текста, после чего можно извлекать деревья зависимостей и другую полезную информацию о структуре предложений.

### Продолжение примера синтаксического анализа с использованием `spaCy`

```python
import spacy

# Загружаем русскую модель
nlp = spacy.load('ru_core_news_sm')

# Пример предложения на русском
text = "Кошка сидит на подоконнике и смотрит в окно."

# Обрабатываем текст с помощью spaCy
doc = nlp(text)

# Выводим морфологический анализ каждого токена
for token in doc:
    print(f"{token.text}: {token.pos_}, {token.dep_}, {token.head.text}")
```

### Объяснение вывода

- **token.text**: оригинальный текст токена.
- **token.pos_**: часть речи токена (например, существительное, глагол и т.д.).
- **token.dep_**: синтаксическая зависимость токена (например, подлежащее, дополнение).
- **token.head**: головное слово, с которым этот токен связан (например, для дополнений — это глагол, к которому они относятся).

### Пример вывода

```
Кошка: NOUN, nsubj, сидит
сидит: VERB, ROOT, сидит
на: ADP, case, подоконнике
подоконнике: NOUN, obl, сидит
и: CCONJ, cc, смотрит
смотрит: VERB, conj, сидит
в: ADP, case, окно
окно: NOUN, obl, смотрит
.: PUNCT, punct, сидит
```

В этом примере мы видим, что `Кошка` — это подлежащее (nsubj) для глагола `сидит` (главного глагола предложения), а `подоконнике` — это обстоятельство (obl) того же глагола.


## 7. Работа с семантическим анализом

Семантический анализ — это процесс извлечения смысла из текста. В этой области можно выделить два популярных подхода:

- **Использование векторных представлений слов (Word Embeddings)**, таких как Word2Vec или FastText, которые помогают моделировать семантические связи между словами.
- **Latent Semantic Analysis (LSA)** — метод для уменьшения размерности данных и выявления латентных (скрытых) семантических тем в корпусе текстов.

### Примеры использования векторных моделей слов (Word2Vec, FastText)

**Word2Vec** и **FastText** позволяют представлять слова в виде векторов в многомерном пространстве, где семантически близкие слова располагаются рядом. Эти методы хорошо работают для обработки больших объемов текста и полезны для таких задач, как кластеризация или определение семантической близости.

#### Пример использования Word2Vec с Gensim

Для работы с Word2Vec в Python часто используется библиотека `Gensim`, которая позволяет обучать модель на текстах.

```python
from gensim.models import Word2Vec
import nltk

# Пример текста для обучения
sentences = [
    "собака лает",
    "кошка мяукает",
    "птица поет",
    "машина едет",
    "человек говорит",
]

# Токенизация предложений
tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]

# Обучение модели Word2Vec
model = Word2Vec(tokenized_sentences, vector_size=100, window=5, min_count=1, workers=4)

# Поиск наиболее похожих слов
similar_words = model.wv.most_similar("собака")
print("Семантически близкие слова к 'собака':", similar_words)
```

**FastText** — это расширение Word2Vec, которое использует информацию о символах и может обрабатывать редкие слова или незнакомые формы. Он особенно полезен для работы с русским языком.

#### Пример использования FastText

```python
from gensim.models import FastText

# Обучение модели FastText
fasttext_model = FastText(tokenized_sentences, vector_size=100, window=5, min_count=1, workers=4)

# Поиск похожих слов
similar_words_ft = fasttext_model.wv.most_similar("кошка")
print("Семантически близкие слова к 'кошка':", similar_words_ft)
```

### LSA (Latent Semantic Analysis)

LSA используется для анализа больших текстовых коллекций и выявления скрытых тем. Этот метод полезен для задачи тематического моделирования.

#### Пример тематического моделирования с использованием LSA

```python
from sklearn.decomposition import TruncatedSVD
from sklearn.feature_extraction.text import CountVectorizer

# Пример текстов
documents = [
    "собака лает на кошку",
    "кошка мяукает и убегает",
    "собака гонится за кошкой",
    "кошка прячется от собаки"
]

# Преобразование текстов в мешок слов
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)

# Применение LSA для извлечения двух латентных тем
lsa = TruncatedSVD(n_components=2)
lsa_result = lsa.fit_transform(X)

print("Темы в текстах:")
print(lsa_result)
```

## 8. Примеры реальных приложений NLTK

Теперь рассмотрим, как NLTK может применяться в реальных задачах, таких как создание чат-ботов, системы рекомендаций и анализ отзывов.

### 1. Создание простого чат-бота

NLTK можно использовать для создания чат-ботов с простыми правилами и обработкой естественного языка. Вот пример на основе ключевых слов и шаблонов.

```python
import random
import nltk

# Набор примитивных шаблонов для общения
responses = {
    'привет': ['Привет!', 'Здравствуйте!', 'Добрый день!'],
    'как дела': ['Хорошо, спасибо. А у вас?', 'Все отлично!', 'Дела идут!'],
    'пока': ['До свидания!', 'Пока!', 'Всего хорошего!'],
}

def chatbot_response(user_input):
    # Токенизация пользовательского ввода
    tokens = nltk.word_tokenize(user_input.lower())
    
    # Поиск подходящего ответа по ключевым словам
    for token in tokens:
        if token in responses:
            return random.choice(responses[token])
    
    return "Извините, я вас не понял."

# Пример использования бота
user_input = "Привет"
print("Чат-бот:", chatbot_response(user_input))
```

### 2. Реализация системы рекомендаций на основе анализа текстов

Системы рекомендаций могут использовать текстовую информацию для создания персонализированных рекомендаций. Например, на основе анализа предпочтений пользователя и текстов товаров (или фильмов) можно рекомендовать похожие объекты.

Примером может быть использование анализа настроений для фильтрации отзывов или обучение модели на отзывах о фильмах:

```python
from nltk.corpus import movie_reviews
from nltk import NaiveBayesClassifier
from nltk.classify import accuracy

# Загружаем отзывы о фильмах
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

# Перемешиваем и разбиваем данные на обучение и тестирование
random.shuffle(documents)
train_set = documents[:1600]
test_set = documents[1600:]

# Обучаем классификатор
classifier = NaiveBayesClassifier.train(train_set)

# Оцениваем точность модели
print("Точность:", accuracy(classifier, test_set))

# Печатаем наиболее информативные признаки
classifier.show_most_informative_features(5)
```

## Заключение

NLTK — это мощный инструмент для обработки естественного языка, предлагающий множество возможностей, начиная от токенизации и частеречной разметки до синтаксического анализа и классификации текстов. В этой лекции мы рассмотрели основные компоненты и примеры использования NLTK, что поможет вам начать работать с этой библиотекой.



