<a href="https://colab.research.google.com/github/vifirsanova/compling/blob/main/supplementary/nlp_basics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Основные операции обработки естественного языка

Обзор инструментов из популярных библиотек для обработки текстов `NLTK` и `Spacy`

## Импорт библиотек

Начнем с импорта библиотек.

Обратите внимание: для работы NLTK нужно дополнительно загрузить ресурсы.

In [8]:
import nltk
nltk.download('punkt') # ресурс для токенизации
nltk.download('wordnet') # ресурс для лемматизации
nltk.download('stopwords') # ресурс для извлечения списка стоп-слов

import spacy

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...


## Токенизация

Инструмент `word_tokenize` из библиотеки `NLTK`

In [5]:
from nltk.tokenize import word_tokenize

# образец текста
text = "The quick brown fox jumps over the lazy dog"

# загружаем текст в токенизатор
tokens = word_tokenize(text)

print("Наш текст:", text)
print("Токены:", tokens)

Наш текст: The quick brown fox jumps over the lazy dog
Токены: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']


Токенизация с помощью `spacy`

In [14]:
# загружаем модель Spacy для английского языка
nlp = spacy.load("en_core_web_sm")

# образец текста
text = "The quick brown fox jumps over the lazy dog"

# обработка текста (создаем объект spacy)
doc = nlp(text)

# извлечение токенов
tokens = [token.text for token in doc]

print("Наш текст:", text)
print("Токены:", tokens)

Наш текст: The quick brown fox jumps over the lazy dog
Токены: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']


## Лемматизация

Инструмент `WordNetLemmatizer` из библиотеки `NLTK`

In [12]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

# образец текста
text = "The quick brown fox jumps over the lazy dog"

# токенизация
tokens = word_tokenize(text)

# лемматизация: инициализация WordNetLemmatizer и извлечение лемм
lemmatizer = WordNetLemmatizer()
lemmatized_text = [lemmatizer.lemmatize(word) for word in tokens]

print("Наш текст:", text)
print("Леммы:", lemmatized_text)

Наш текст: The quick brown fox jumps over the lazy dog
Леммы: ['The', 'quick', 'brown', 'fox', 'jump', 'over', 'the', 'lazy', 'dog']


Лемматизация с помощью `spacy`

In [16]:
# загружаем модель Spacy для английского языка
nlp = spacy.load("en_core_web_sm")

# образец текста
text = "The quick brown fox jumps over the lazy dog"

# обработка текста (создаем объект spacy)
doc = nlp(text)

# извлечение лемм
lemmatized_text = [token.lemma_ for token in doc]

print("Наш текст:", text)
print("Леммы:", lemmatized_text)

Наш текст: The quick brown fox jumps over the lazy dog
Леммы: ['the', 'quick', 'brown', 'fox', 'jump', 'over', 'the', 'lazy', 'dog']


## Удаление стоп-слов

Инструмент `word_tokenize` из библиотеки `NLTK`

In [19]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# образец текста
text = "The quick brown fox jumps over the lazy dog"

# токенизация
tokens = word_tokenize(text)

# загружаем стоп-слова
stop_words = set(stopwords.words('english'))

# удаляем стоп-слова
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]

print("Наш текст:", text)
print("Токены без стоп-слов:", filtered_tokens)

Наш текст: The quick brown fox jumps over the lazy dog
Токены без стоп-слов: ['quick', 'brown', 'fox', 'jumps', 'lazy', 'dog']


Лемматизация с помощью `spacy`

In [20]:
# загружаем модель Spacy для английского языка
nlp = spacy.load("en_core_web_sm")

# образец текста
text = "The quick brown fox jumps over the lazy dog"

# обработка текста (создаем объект spacy)
doc = nlp(text)

# фильтрация от стоп-слов
filtered_tokens = [token.text for token in doc if not token.is_stop]

print("Наш текст:", text)
print("Токены без стоп-слов:", filtered_tokens)

Наш текст: The quick brown fox jumps over the lazy dog
Токены без стоп-слов: ['quick', 'brown', 'fox', 'jumps', 'lazy', 'dog']


```
Курс "Компьютерная лингвистика" | НИУ ВШЭ Санкт-Петербург
2024 (c) В.И. Фирсанова
```