# Введение в NLP

1. Введение в NLP
2. Установка библиотеки NLTK
3. Токенизация текста
4. Удаление стоп-слов
5. Стемминг и лемматизация
6. Разметка частей речи
7. Распознавание именованных сущностей

### Шаг 2: Установка NLTK
NLTK (Natural Language Toolkit) - популярная библиотека для работы с NLP в Python.
Для установки NLTK, вам нужно выполнить команду: pip install nltk

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
from nltk import pos_tag
from nltk.chunk import ne_chunk


# Убедитесь, что вы загрузили необходимые ресурсы NLTK:
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')
nltk.download('stopwords')
nltk.download('wordnet')

### Шаг 3: Токенизация текста
Токенизация - это процесс разделения текста на предложения или слова.

In [13]:
example_text = "China blames Canada for ‘malicious, provocative’ moves after close midair intercepts over South China Sea"
word_tokens = word_tokenize(example_text)
print("Токены слов:", word_tokens)

Токены слов: ['China', 'blames', 'Canada', 'for', '‘', 'malicious', ',', 'provocative', '’', 'moves', 'after', 'close', 'midair', 'intercepts', 'over', 'South', 'China', 'Sea']


### Шаг 4: Удаление стоп-слов
Стоп-слова - это общие слова, которые часто игнорируются в NLP, так как они мало влияют на смысл текста.

In [14]:
stop_words = set(stopwords.words('english'))
print('Стоп-слова:', stop_words)
filtered_sentence = [w for w in word_tokens if not w.lower() in stop_words]
print("Отфильтрованные слова:", filtered_sentence)

Стоп-слова: {'between', 'how', 'him', 'themselves', 'out', 'in', 't', 'now', 'be', 'that', 'itself', 'should', 'aren', 'more', 'only', 'yourself', 'than', 'there', 'have', 'and', 'are', 'you', 'it', 'until', 'about', 'here', 'from', 'he', 'shan', "doesn't", 'because', "hadn't", 'herself', 'which', 'hadn', 'myself', 'all', 'ourselves', "you've", 'a', "shan't", 'on', "you'd", 'm', 'being', 'some', 'been', 'just', 'o', 'hers', 'our', 'such', 're', 'after', 'below', 'as', 'no', 'is', 'through', 'with', 'couldn', 'again', 'down', 's', 'haven', 'i', 'yourselves', 'to', 'up', "you're", "should've", 'didn', 'its', 'll', 'few', "shouldn't", 'weren', "mustn't", 'but', 'won', 'these', 'other', "weren't", "it's", 'of', 'further', 'has', 'd', "you'll", 'yours', 'we', 'for', 'nor', "didn't", 'doing', 'those', 'both', 'not', 'once', 'don', 'shouldn', 'when', 'very', 'she', 'had', 'own', 'his', "needn't", "won't", 'my', "don't", 'am', 'wasn', 'their', 'at', 'over', 'your', 'will', 'wouldn', 'doesn', '

### Шаг 5: Стемминг и лемматизация
Стемминг - это процесс приведения слов к их корневой форме.
Лемматизация - это более сложный процесс, который учитывает контекст и приводит слово к его базовой форме.


In [16]:
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()
stemmed_words = [stemmer.stem(w) for w in filtered_sentence]
lemmatized_words = [lemmatizer.lemmatize(w) for w in filtered_sentence]
print('Original: ', filtered_sentence)
print("Стеммированные слова:", stemmed_words)
print("Лемматизированные слова:", lemmatized_words)

Original:  ['China', 'blames', 'Canada', '‘', 'malicious', ',', 'provocative', '’', 'moves', 'close', 'midair', 'intercepts', 'South', 'China', 'Sea']
Стеммированные слова: ['china', 'blame', 'canada', '‘', 'malici', ',', 'provoc', '’', 'move', 'close', 'midair', 'intercept', 'south', 'china', 'sea']
Лемматизированные слова: ['China', 'blame', 'Canada', '‘', 'malicious', ',', 'provocative', '’', 'move', 'close', 'midair', 'intercept', 'South', 'China', 'Sea']


### Шаг 6: Разметка частей речи
POS-tagging (Part-Of-Speech tagging) - это процесс определения части речи для каждого слова.


In [18]:
pos_tags = pos_tag(filtered_sentence)
for tag in pos_tags:
    print(tag)

('China', 'NNP')
('blames', 'VBZ')
('Canada', 'NNP')
('‘', 'NNP')
('malicious', 'JJ')
(',', ',')
('provocative', 'JJ')
('’', 'NN')
('moves', 'NNS')
('close', 'RB')
('midair', 'JJ')
('intercepts', 'NNS')
('South', 'NNP')
('China', 'NNP')
('Sea', 'NNP')


В библиотеке NLTK для разметки частей речи (POS-tagging) используется набор тегов, основанный на корпусе Penn Treebank. Вот некоторые из наиболее часто встречающихся тегов и их значения:


* NN: Существительное в единственном числе (noun, singular or mass)
* NNS: Существительное во множественном числе (noun plural)
* NNP: Имя собственное в единственном числе (proper noun, singular)
* NNPS: Имя собственное во множественном числе (proper noun, plural)
* PRP: Личное местоимение (personal pronoun)
* PRP$: Притяжательное местоимение (possessive pronoun)
* RB: Наречие (adverb)
* RBR: Сравнительная степень наречия (adverb, comparative)
* RBS: Превосходная степень наречия (adverb, superlative)
* VB: Глагол в основной форме (verb, base form)
* VBD: Глагол в прошедшем времени (verb, past tense)
* VBG: Глагол или существительное в форме настоящего длительного времени (verb, gerund/present participle)
* VBN: Прошедшее причастие (verb, past participle)
* VBP: Глагол в настоящем времени, не 3-е лицо единственного числа (verb, non-3rd person singular present)
* VBZ: Глагол в настоящем времени, 3-е лицо единственного числа (verb, 3rd person singular present)
* JJ: Прилагательное (adjective)
* JJR: Сравнительная степень прилагательного (adjective, comparative)
* JJS: Превосходная степень прилагательного (adjective, superlative)
* DT: Артикль (determiner)
* IN: Предлог или подчинительный союз (preposition/subordinating conjunction)
* CC: Союз (coordinating conjunction)
* MD: Модальный глагол (modal)
* TO: частица "to" (to)
* WDT: Определяющее слово (wh-determiner)
* WP: Местоимение вопросительное (wh-pronoun)
* WRB: Наречие вопросительное (wh-adverb)

### Шаг 7: Распознавание именованных сущностей
Распознавание именованных сущностей (Named Entity Recognition, NER) - это процесс определения и классификации именованных сущностей в тексте в категории, такие как имена, места, компании, даты, суммы денег и т.д.

In [19]:
# Пример текста для NER
ner_text = "Mark and John are working at Google since 2010"
ner_tokens = word_tokenize(ner_text)

# Применяем POS-tagging перед NER
ner_tags = pos_tag(ner_tokens)

# Используем ne_chunk для распознавания именованных сущностей
named_entities = ne_chunk(ner_tags)

# ne_chunk возвращает дерево с именованными сущностями и категориями
print("Именованные сущности и категории:")
for entity in named_entities:
    if hasattr(entity, 'label'):
        print(entity.label(), ' '.join(c[0] for c in entity))

Именованные сущности и категории:
PERSON Mark
PERSON John
ORGANIZATION Google


Этот скрипт демонстрирует базовое использование NER для определения людей и организаций в тексте.

В заключение, давайте обсудим, как эти инструменты могут быть использованы в реальных задачах NLP.
Например, токенизация и удаление стоп-слов полезны для предобработки данных перед их использованием в моделях машинного обучения.
Стемминг и лемматизация помогают уменьшить размерность векторного пространства приложений, таких как моделирование тем или поиск по тексту.
POS-tagging и NER используются для извлечения информации и понимания структуры предложений для более сложных задач, таких как автоматическое резюмирование текста или вопросно-ответные системы.

In [20]:
!pip install natasha

Collecting natasha
  Obtaining dependency information for natasha from https://files.pythonhosted.org/packages/32/9c/bb9d33c13564bcc939bb727087ef51b16ed3b49cc3b8fdec07c87b02f1de/natasha-1.6.0-py3-none-any.whl.metadata
  Downloading natasha-1.6.0-py3-none-any.whl.metadata (23 kB)
Collecting pymorphy2 (from natasha)
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m355.7 kB/s[0m eta [36m0:00:00[0m:--:--[0m
[?25hCollecting razdel>=0.5.0 (from natasha)
  Using cached razdel-0.5.0-py3-none-any.whl (21 kB)
Collecting navec>=0.9.0 (from natasha)
  Downloading navec-0.10.0-py3-none-any.whl (23 kB)
Collecting slovnet>=0.6.0 (from natasha)
  Downloading slovnet-0.6.0-py3-none-any.whl (46 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.7/46.7 kB[0m [31m51.6 kB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting yargy>=0.16.0 (from natasha)
  Obtaining dependency inform

In [21]:
from natasha import (
    Segmenter,
    MorphVocab,
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    PER,
    NamesExtractor,
    Doc
)

segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)

text = 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу понять, как прославление тех, кто непосредственно принимал участие в ужасных антисемитских преступлениях, помогает бороться с антисемитизмом и ксенофобией. Украина не должна забывать о преступлениях, совершенных против украинских евреев, и никоим образом не отмечать их через почитание их исполнителей», — написал дипломат. 11 декабря Львовский областной совет принял решение провозгласить 2019 год в регионе годом Степана Бандеры в связи с празднованием 110-летия со дня рождения лидера ОУН (Бандера родился 1 января 1909 года). В июле аналогичное решение принял Житомирский областной совет. В начале месяца с предложением к президенту страны Петру Порошенко вернуть Бандере звание Героя Украины обратились депутаты Верховной Рады. Парламентарии уверены, что признание Бандеры национальным героем поможет в борьбе с подрывной деятельностью против Украины в информационном поле, а также остановит «распространение мифов, созданных российской пропагандой». Степан Бандера (1909-1959) был одним из лидеров Организации украинских националистов, выступающей за создание независимого государства на территориях с украиноязычным населением. В 2010 году в период президентства Виктора Ющенко Бандера был посмертно признан Героем Украины, однако впоследствии это решение было отменено судом. '
doc = Doc(text)

In [22]:
doc

Doc(text='Посол Израиля на Украине Йоэль Лион признался, чт...)

In [23]:
doc.segment(segmenter)

In [24]:
print(doc.tokens[:5])

[DocToken(stop=5, text='Посол'), DocToken(start=6, stop=13, text='Израиля'), DocToken(start=14, stop=16, text='на'), DocToken(start=17, stop=24, text='Украине'), DocToken(start=25, stop=30, text='Йоэль')]


In [26]:
doc.tag_morph(morph_tagger)

In [27]:
for token in doc.tokens:
    token.lemmatize(morph_vocab)

In [28]:
print(doc.tokens[:5])

[DocToken(stop=5, text='Посол', pos='NOUN', feats=<Anim,Nom,Masc,Sing>, lemma='посол'), DocToken(start=6, stop=13, text='Израиля', pos='PROPN', feats=<Inan,Gen,Masc,Sing>, lemma='израиль'), DocToken(start=14, stop=16, text='на', pos='ADP', lemma='на'), DocToken(start=17, stop=24, text='Украине', pos='PROPN', feats=<Inan,Loc,Fem,Sing>, lemma='украина'), DocToken(start=25, stop=30, text='Йоэль', pos='PROPN', feats=<Anim,Nom,Masc,Sing>, lemma='йоэль')]
