|||
|---|---|
|ДИСЦИПЛИНА|Методы глубокого анализа данных|
|ИНСТИТУТ|ИПТИП|
|КАФЕДРА|Индустриального программирования|
|ВИД УЧЕБНОГО МАТЕРИАЛА|Лекционные материалы|
|ПРЕПОДАВАТЕЛЬ|Астафьев Рустам Уралович|
|СЕМЕСТР|2 семестр, 2024/2025 уч. год|

---

# **Лекция №3 Основы NLP**

---

## **1. Введение**  

Сегодня мы поговорим о Natural Language Processing, или NLP — область искусственного интеллекта, которая занимается взаимодействием компьютеров и человеческого языка.  

Почему это важно? В современном мире огромное количество данных — это тексты: сообщения в соцсетях, электронные письма, документы, отзывы, новости. NLP позволяет компьютерам понимать, анализировать и даже генерировать текст, что открывает огромные возможности для бизнеса, науки и повседневной жизни.  

Например, NLP используется в чат-ботах, которые помогают нам решать вопросы с поддержкой клиентов, в переводчиках вроде Google Translate, в системах анализа тональности, которые определяют, положительный или отрицательный отзыв оставил клиент.  

Сегодня мы разберем основные задачи NLP, посмотрим на инструменты, которые используются для их решения, и рассмотрим практические примеры.  

---

## **2. Основные задачи NLP**  

Давайте начнем с основных задач, которые решает NLP.  

1. **Токенизация** — это процесс разбиения текста на отдельные слова или токены. Например, предложение "Я люблю NLP" будет разбито на три токена: "Я", "люблю", "NLP".  

2. **Лемматизация и стемминг** — это приведение слов к их начальной форме. Например, слово "бегу" будет приведено к форме "бежать" (лемматизация) или "бег" (стемминг).  

3. **Распознавание именованных сущностей (NER)** — это поиск в тексте имен, названий организаций, дат и других сущностей. Например, в предложении "Иван работает в Google с 2020 года" система NER выделит "Иван" (личное имя), "Google" (организация) и "2020" (дата).  

4. **Анализ тональности** — это определение эмоциональной окраски текста: положительный, отрицательный или нейтральный. Например, отзыв "Этот фильм ужасен" будет классифицирован как отрицательный.  

5. **Машинный перевод** — это автоматический перевод текста с одного языка на другой. Самый известный пример — Google Translate.  

6. **Генерация текста** — это создание текста на основе входных данных. Например, GPT-3 может писать статьи, отвечать на вопросы и даже сочинять стихи.  

7. **Вопросно-ответные системы** — это системы, которые могут отвечать на вопросы пользователя. Например, виртуальные помощники вроде Siri или Alexa.  

8. **Классификация текста** — это отнесение текста к определенной категории. Например, определение, является ли письмо спамом или нет.  

---

### **Пример 1: Токенизация и лемматизация с использованием библиотеки spaCy**

**Цель:** Показать, как текст разбивается на токены и как слова приводятся к их начальной форме.

**Шаги:**
1. Установите библиотеку spaCy (если еще не установлена):

In [1]:
!pip install spacy
!python -m spacy download ru_core_news_sm  # для русского языка
#После первой установки не забудьте обновить среду исполнения

Collecting ru-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.7.0/ru_core_news_sm-3.7.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m81.3 MB/s[0m eta [36m0:00:00[0m
Collecting pymorphy3>=1.0.0 (from ru-core-news-sm==3.7.0)
  Downloading pymorphy3-2.0.3-py3-none-any.whl.metadata (1.9 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3>=1.0.0->ru-core-news-sm==3.7.0)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3>=1.0.0->ru-core-news-sm==3.7.0)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.3-py3-none-any.whl (53 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.8/53.8 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3_dicts

2. Пример кода:

In [2]:
import spacy

# Загружаем модель для русского языка
nlp = spacy.load("ru_core_news_sm")

# Пример текста
text = "Я изучаю методы глубокого анализа данных."

# Обрабатываем текст
doc = nlp(text)

# Токенизация и лемматизация
for token in doc:
  print(f"Слово: {token.text}, Лемма: {token.lemma_}")

Слово: Я, Лемма: я
Слово: изучаю, Лемма: изучать
Слово: методы, Лемма: метод
Слово: глубокого, Лемма: глубокий
Слово: анализа, Лемма: анализ
Слово: данных, Лемма: данных
Слово: ., Лемма: .


**Пояснение:**
- `token.text` — исходное слово.
- `token.lemma_` — лемма (начальная форма слова).
---
### **Пример 2: Распознавание именованных сущностей (NER) с использованием Hugging Face**

**Цель:** Показать, как извлекать имена, организации и даты из текста.

**Шаги:**
1. Перейдите на сайт Hugging Face: [https://huggingface.co/](https://huggingface.co/).
2. Найдите модель для NER, например, `dslim/bert-base-NER`.
3. Используйте демонстрацию на сайте или напишите код:

In [3]:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("dslim/bert-base-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-base-NER")

# Загружаем модель для NER
nlp = pipeline("ner", model=model, tokenizer=tokenizer)

# Пример текста
example = "My name is Wolfgang and I live in Berlin"

# Извлекаем сущности
ner_results = nlp(example)
print(ner_results)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/59.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/829 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/433M [00:00<?, ?B/s]

Some weights of the model checkpoint at dslim/bert-base-NER were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


[{'entity': 'B-PER', 'score': 0.9990139, 'index': 4, 'word': 'Wolfgang', 'start': 11, 'end': 19}, {'entity': 'B-LOC', 'score': 0.999645, 'index': 9, 'word': 'Berlin', 'start': 34, 'end': 40}]


**Пояснение:**
- `B-PER` — начало имени.
- `B-LOC` — начало местоположения.
---
### **Пример 3: Анализ тональности с использованием TextBlob**

**Цель:** Показать, как определить эмоциональную окраску текста.

**Шаги:**
1. Установите библиотеку TextBlob:

In [4]:
!pip install textblob



2. Пример кода:

In [5]:
from textblob import TextBlob

# Пример текста
text = "This movie is terrible, but the actors play well."

# Анализ тональности
blob = TextBlob(text)
sentiment = blob.sentiment

print(f"Полярность: {sentiment.polarity}, Субъективность: {sentiment.subjectivity}")

Полярность: -1.0, Субъективность: 1.0


**Пояснение:**
- Полярность: от -1 (отрицательный) до 1 (положительный).
- Субъективность: от 0 (объективный) до 1 (субъективный).

---

## **3. Инструменты и библиотеки для NLP**  

Теперь давайте поговорим о том, какие инструменты и библиотеки используются для решения задач NLP.  

1. **spaCy** — это мощная библиотека для обработки текста, которая поддерживает токенизацию, лемматизацию, NER и многое другое.  
2. **NLTK** — это библиотека для лингвистических задач, которая часто используется в образовательных целях.  
3. **Hugging Face Transformers** — это платформа, которая предоставляет доступ к предобученным моделям, таким как BERT и GPT.  
4. **Gensim** — это библиотека для тематического моделирования и работы с векторными представлениями слов.  
5. **TensorFlow и PyTorch** — это фреймворки для создания собственных моделей машинного обучения.  

---
### **Пример 4: Генерация текста с использованием Hugging Face и GPT**

**Цель:** Показать, как модели GPT могут генерировать текст.

**Шаги:**
1. Перейдите на сайт Hugging Face: [https://huggingface.co/](https://huggingface.co/).
2. Найдите модель для генерации текста, например, `openai-community/gpt2-large`.
3. Используйте демонстрацию на сайте или напишите код:

In [7]:
from transformers import pipeline, set_seed
generator = pipeline('text-generation', model='gpt2-large')
set_seed(42)
generator("The man worked as a", max_length=10, num_return_sequences=5)

Device set to use cpu
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'The man worked as a supervisor for the company.'},
 {'generated_text': 'The man worked as a security guard at the University'},
 {'generated_text': 'The man worked as a construction worker for 18 years'},
 {'generated_text': 'The man worked as a lab technician but quit to'},
 {'generated_text': 'The man worked as a delivery man at the restaurant'}]

In [6]:
set_seed(42)
generator("The woman worked as a", max_length=10, num_return_sequences=5)

config.json:   0%|          | 0.00/666 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/3.25G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cpu
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'The woman worked as a supervisor for the company.'},
 {'generated_text': 'The woman worked as a social worker and was diagnosed'},
 {'generated_text': 'The woman worked as a legal assistant for the U'},
 {'generated_text': 'The woman worked as a manager at a beauty salon'},
 {'generated_text': 'The woman worked as a delivery driver at the hospital'}]

**Пояснение:**
- Модель GPT-2 генерирует текст на основе входного запроса.

---

## **4. Практические примеры и кейсы**  

Теперь перейдем к практическим примерам.

---

### **Пример 5: Создание простого чат-бота с использованием DialogFlow**

**Цель:** Показать, как создать чат-бота для ответов на вопросы.

**Шаги:**
1. Перейдите на сайт DialogFlow: [https://dialogflow.cloud.google.com/](https://dialogflow.cloud.google.com/).
2. Создайте новый агент и добавьте интенты (intents) для обработки запросов.
3. Пример интента:
   - Запрос пользователя: "Какая погода сегодня?"
   - Ответ бота: "Сегодня солнечно, +20 градусов."

4. Протестируйте бота в интерфейсе DialogFlow.

**Пояснение:**
- DialogFlow позволяет создавать чат-ботов без написания кода, используя графический интерфейс.

---
### **Пример 6: Классификация текста (спам/не спам) с использованием scikit-learn и spaCy**

**Цель:** Показать, как обучить модель для классификации текста.

**Шаги:**
1. Установите необходимые библиотеки:

In [8]:
!pip install scikit-learn spacy
!python -m spacy download ru_core_news_sm

Collecting ru-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.7.0/ru_core_news_sm-3.7.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m28.1 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


2. Пример кода:

In [10]:
import spacy
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Пример данных
texts = ["Купите наши новые часы!", "Давайте встретимся завтра.", "Выиграйте миллион рублей!"]
labels = ["спам", "не спам", "спам"]

# Создаем пайплайн
model = make_pipeline(CountVectorizer(), MultinomialNB())

# Обучаем модель
model.fit(texts, labels)

# Предсказание
new_text = "Ты уже выбрал, когда мы встретимся?"
print(model.predict([new_text]))

['не спам']


**Пояснение:**
- Модель классифицирует текст как "спам" или "не спам" на основе обучающих данных.

---
### **Пример 7: Анализ тональности отзывов на фильмы**

**Цель:** Показать, как анализировать тональность текста на реальных данных.

**Шаги:**
1. Используйте библиотеку TextBlob (как в примере 3).
2. Пример текста:

In [12]:
reviews = [
       "The movie was amazing, the actors are great!",
       "The plot is boring, I don't recommend it."
   ]
for review in reviews:
  blob = TextBlob(review)
  print(f"Отзыв: {review}, Полярность: {blob.sentiment.polarity}")

Отзыв: The movie was amazing, the actors are great!, Полярность: 0.8
Отзыв: The plot is boring, I don't recommend it., Полярность: -1.0


**Пояснение:**
- Полярность показывает, насколько отзыв положительный или отрицательный.

---

#### **5. Обсуждение и вопросы**  

Теперь давайте обсудим, какие задачи NLP наиболее востребованы в индустрии. Например, анализ тональности активно используется в маркетинге, а машинный перевод — в международных компаниях.  

Какие вызовы существуют в NLP? Например, понимание контекста и многозначность слов — это сложные задачи, которые до сих пор решаются не идеально.  

Как NLP может быть интегрирован в другие области? Например, в медицине NLP используется для анализа медицинских записей, а в финансах — для анализа новостей и прогнозирования рынка.  

---

#### **6. Заключение**  

Итак, сегодня мы познакомились с основными задачами NLP, инструментами для их решения и рассмотрели практические примеры.