<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/PythonLibraries/%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0%20SpaCy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Введение**

SpaCy — это современная библиотека для обработки естественного языка (Natural Language Processing, NLP), которая сочетает высокую производительность с простотой использования. Она предназначена для профессионального использования в приложениях, связанных с извлечением информации, машинным обучением и анализом больших объемов текстовых данных. В отличие от более старых библиотек, таких как NLTK, SpaCy предоставляет готовые к использованию модели и инструменты для токенизации, синтаксического анализа, частеречной разметки, лемматизации, распознавания именованных сущностей (NER) и других задач.

Установка SpaCy
Чтобы начать работу с SpaCy, необходимо установить библиотеку и загрузить языковую модель. Установка библиотеки осуществляется через пакетный менеджер pip:


pip install spacy

После этого требуется загрузить модель для выбранного языка. Например, для работы с английским языком можно использовать команду: python -m spacy download en_core_web_sm

**Языковые модели в SpaCy**

Языковые модели в SpaCy содержат различные компоненты для обработки текста. Каждая модель включает в себя:

Токенизатор: Разбивает текст на отдельные слова и знаки препинания.

**Частеречную** разметку (POS tagging): Определяет часть речи для каждого токена.

**Лемматизатор**: Приводит слова к их исходной форме.

**Синтаксический анализатор**: Строит дерево зависимостей предложений.

**Модуль распознавания именованных сущностей (NER)**: Определяет имена людей, места, даты и другие сущности.

Теперь давайте рассмотрим основные возможности SpaCy на практике.



**1. Токенизация**
**Токенизация** — это процесс, при котором текст разбивается на отдельные слова, знаки препинания и другие значимые элементы, называемые токенами. В SpaCy токенизация выполняется автоматически при обработке текста с помощью загруженной языковой модели.

Пример токенизации текста:

In [None]:
import spacy

# Загрузка английской языковой модели
nlp = spacy.load("en_core_web_sm")

# Пример текста
text = "Hello, world! Welcome to the world of SpaCy."

# Обработка текста с помощью модели
doc = nlp(text)

# Вывод всех токенов
for token in doc:
    print(token.text)

Hello
,
world
!
Welcome
to
the
world
of
SpaCy
.


Объяснение:
Мы загружаем модель английского языка с помощью функции spacy.load().


Передаем текст в модель, которая создает объект doc, представляющий собой обработанный текст.

Затем мы выводим каждый токен в тексте через цикл for, используя свойство text для каждого токена.

**2. Лемматизация**
**Лемматизация** — это процесс приведения слов к их исходной форме, называемой леммой. Леммы позволяют нормализовать слова для их дальнейшего анализа, игнорируя грамматические изменения (например, спряжение глаголов).

Пример лемматизации:

In [None]:
# Лемматизация токенов
for token in doc:
    print(f'Token: {token.text}, Lemma: {token.lemma_}')

Token: Hello, Lemma: Hello
Token: ,, Lemma: ,
Token: world, Lemma: world
Token: !, Lemma: !
Token: Welcome, Lemma: welcome
Token: to, Lemma: to
Token: the, Lemma: the
Token: world, Lemma: world
Token: of, Lemma: of
Token: SpaCy, Lemma: SpaCy
Token: ., Lemma: .


*Объяснение:*

Мы выводим исходный текст каждого токена, а также его лемму с помощью свойства lemma_.

Лемматизация полезна при работе с текстами, чтобы сгруппировать разные формы одного и того же слова.

**3. Частеречная разметка (POS-tagging)**
Частеречная разметка (POS-tagging) — это процесс, при котором каждому слову в предложении присваивается его часть речи, например, существительное, глагол, прилагательное и т. д. Это позволяет лучше понять синтаксическую структуру текста и его грамматические зависимости.

Пример частеречной разметки:

In [None]:
# Часть речи для каждого токена
for token in doc:
    print(f'Token: {token.text}, POS: {token.pos_}, Detailed POS: {token.tag_}')

Token: Hello, POS: PROPN, Detailed POS: NNP
Token: ,, POS: PUNCT, Detailed POS: ,
Token: world, POS: NOUN, Detailed POS: NN
Token: !, POS: PUNCT, Detailed POS: .
Token: Welcome, POS: INTJ, Detailed POS: UH
Token: to, POS: ADP, Detailed POS: IN
Token: the, POS: DET, Detailed POS: DT
Token: world, POS: NOUN, Detailed POS: NN
Token: of, POS: ADP, Detailed POS: IN
Token: SpaCy, POS: PROPN, Detailed POS: NNP
Token: ., POS: PUNCT, Detailed POS: .


Объяснение:

Мы выводим часть речи для каждого токена с помощью свойства pos_ (например, NOUN — существительное, VERB — глагол).

Также выводим детализированную информацию о части речи с помощью tag_, которая даёт более точные грамматические характеристики.

**4. Синтаксический анализ (Dependency Parsing)**

Синтаксический анализ позволяет определить грамматические отношения между словами в предложении. В процессе синтаксического анализа строится дерево зависимостей, где каждое слово имеет связь с другими словами.

Пример синтаксического анализа:

In [None]:
# Синтаксические зависимости и связи между токенами
for token in doc:
    print(f'Token: {token.text}, Head: {token.head.text}, Dependency: {token.dep_}')

Token: Hello, Head: Hello, Dependency: ROOT
Token: ,, Head: Hello, Dependency: punct
Token: world, Head: Hello, Dependency: appos
Token: !, Head: Hello, Dependency: punct
Token: Welcome, Head: Welcome, Dependency: ROOT
Token: to, Head: Welcome, Dependency: prep
Token: the, Head: world, Dependency: det
Token: world, Head: to, Dependency: pobj
Token: of, Head: world, Dependency: prep
Token: SpaCy, Head: of, Dependency: pobj
Token: ., Head: Welcome, Dependency: punct


Объяснение:

Свойство head показывает "главное" слово, к которому относится данный токен.
Свойство dep_ описывает тип грамматической зависимости между токенами (например, nsubj — подлежащее, obj — дополнение).

**5. Распознавание именованных сущностей (NER)**

Распознавание именованных сущностей (NER) — это процесс идентификации и классификации ключевых сущностей в тексте, таких как имена людей, компании, города, даты и суммы денег. SpaCy поддерживает распознавание таких сущностей и присваивает им метки.

Пример распознавания именованных сущностей:

In [None]:
# Распознавание именованных сущностей
for ent in doc.ents:
    print(f'Entity: {ent.text}, Label: {ent.label_}')

Entity: SpaCy, Label: PERSON


Объяснение:

Мы используем атрибут ents, который хранит список всех распознанных сущностей в документе.

Свойство label_ показывает тип сущности (например, PERSON — человек, ORG — организация, DATE — дата).

В нашем примере нет явных именованных сущностей, кроме "SpaCy", которая распознана как организация (ORG).

**6. Работа с предложениями**
SpaCy также умеет разбивать текст на предложения. Это полезно для анализа текста на уровне предложений, например, при генерации текста или выделении отдельных предложений из абзацев.

Пример разбивки на предложения:

In [None]:
# Разбивка текста на предложения
for sent in doc.sents:
    print(sent.text)

Hello, world!
Welcome to the world of SpaCy.


Объяснение:

Атрибут sents объекта doc содержит список всех предложений в тексте.
Мы проходим по каждому предложению и выводим его.

**7. Работа с несколькими языками**
SpaCy поддерживает множество языков, включая русский, испанский, немецкий и другие. Для каждого языка доступны

предобученные модели.

Пример работы с русским языком:

Сначала нужно загрузить русскую модель:



In [None]:
!python -m spacy download ru_core_news_sm

Collecting ru-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.8.0/ru_core_news_sm-3.8.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m84.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pymorphy3>=1.0.0 (from ru-core-news-sm==3.8.0)
  Downloading pymorphy3-2.0.2-py3-none-any.whl.metadata (1.8 kB)
Collecting dawg-python>=0.7.1 (from pymorphy3>=1.0.0->ru-core-news-sm==3.8.0)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl.metadata (7.0 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3>=1.0.0->ru-core-news-sm==3.8.0)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.2-py3-none-any.whl (53 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.8/53.8 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Downloading pymor

После загрузки модели можно использовать её для обработки текстов на русском языке.

In [None]:
# Загрузка русской модели
nlp = spacy.load("ru_core_news_sm")

# Пример русского текста
doc = nlp("Привет, мир! Добро пожаловать в мир SpaCy.")

# Вывод токенов и частей речи
for token in doc:
    print(f'Token: {token.text}, POS: {token.pos_}')



Token: Привет, POS: NOUN
Token: ,, POS: PUNCT
Token: мир, POS: NOUN
Token: !, POS: PUNCT
Token: Добро, POS: NOUN
Token: пожаловать, POS: VERB
Token: в, POS: ADP
Token: мир, POS: NOUN
Token: SpaCy, POS: PROPN
Token: ., POS: PUNCT


**Углубленное изучение возможностей библиотеки SpaCy**

**1. Кастомизация пайплайна SpaCy**
Кастомизация пайплайна в SpaCy позволяет адаптировать стандартные компоненты обработки текста под специфические требования вашего проекта. Вы можете добавлять новые компоненты, изменять порядок существующих или полностью заменять их.

Пример кастомизации пайплайна

Предположим, что у вас есть текст, и вы хотите добавить свой компонент, который будет выделять определенные ключевые слова:

In [None]:
import spacy
from spacy.language import Language
from spacy.tokens import Doc

# Загрузка модели
nlp = spacy.load("en_core_web_sm")

# Регистрация расширения для ключевых слов
Doc.set_extension("keywords", default=[])

# Кастомный компонент для выделения ключевых слов
@Language.component("keyword_extractor")
def keyword_extractor(doc):
    keywords = []
    for token in doc:
        if token.text.lower() in ["spacy", "nlp", "machine learning"]:
            keywords.append(token.text)
    doc._.keywords = keywords  # Теперь это будет работать
    return doc

# Регистрация компонента в пайплайне
nlp.add_pipe("keyword_extractor", last=True)

# Обработка текста
doc = nlp("SpaCy is an amazing library for NLP and machine learning.")
print(doc._.keywords)  # Вывод ключевых слов

['SpaCy', 'NLP']


Объяснение:

Мы создаем новый компонент keyword_extractor, который добавляет в документ список ключевых слов.
Ключевые слова добавляются в атрибут ._.keywords документа.

Компонент регистрируется в пайплайне с помощью add_pipe(), а затем используется для обработки текста.

**2. Обучение кастомных моделей NER**

Создание кастомных моделей NER позволяет распознавать специфические сущности, которые могут быть не представлены в стандартных моделях SpaCy. Например, для медицинских текстов это могут быть названия лекарств.

Пример обучения модели NER

Подготовка данных: Данные должны быть размечены в формате, который SpaCy принимает для обучения моделей. Обычно это формат JSON.

In [None]:
TRAIN_DATA = [
    ("Aspirin is a pain reliever.", {"entities": [(0, 7, "MEDICINE")]}),
    ("Tylenol is also known as acetaminophen.", {"entities": [(0, 7, "MEDICINE"), (30, 43, "MEDICINE")]}),
]

Обучение модели:


In [None]:
import spacy
from spacy.training import Example

# Загрузка базовой модели
nlp = spacy.blank("en")
ner = nlp.add_pipe("ner")

# Добавление новой метки
ner.add_label("MEDICINE")

# Обучение модели
optimizer = nlp.begin_training()
for epoch in range(30):
    for text, annotations in TRAIN_DATA:
        example = Example.from_dict(nlp.make_doc(text), annotations)
        nlp.update([example], drop=0.5, losses={})



Объяснение:

Мы создаем тренировочные данные с размеченными сущностями и добавляем новую метку "MEDICINE".

Обучение происходит через 30 эпох, где каждый текст обновляет модель.

**3. Обработка текстов на разных языках**

SpaCy поддерживает множество языков, и каждая языковая модель имеет свои особенности. Чтобы использовать SpaCy для обработки текстов на другом языке, просто загрузите соответствующую языковую модель.

Пример работы с русским языком:

python -m spacy download ru_core_news_sm

Затем в коде:

In [None]:
import spacy

# Загрузка русской модели
nlp = spacy.load("ru_core_news_sm")

# Пример текста на русском языке
doc = nlp("Привет, мир! Добро пожаловать в мир SpaCy.")

# Вывод токенов и частей речи
for token in doc:
    print(f'Token: {token.text}, POS: {token.pos_}, Lemma: {token.lemma_}')

Token: Привет, POS: NOUN, Lemma: привет
Token: ,, POS: PUNCT, Lemma: ,
Token: мир, POS: NOUN, Lemma: мир
Token: !, POS: PUNCT, Lemma: !
Token: Добро, POS: NOUN, Lemma: добро
Token: пожаловать, POS: VERB, Lemma: пожаловать
Token: в, POS: ADP, Lemma: в
Token: мир, POS: NOUN, Lemma: мир
Token: SpaCy, POS: PROPN, Lemma: spacy
Token: ., POS: PUNCT, Lemma: .


**4. Использование SpaCy с библиотеками для машинного обучения**

SpaCy может быть использован в сочетании с популярными библиотеками для машинного обучения, такими как Scikit-learn. Это позволяет подготавливать текстовые данные для обучения классификаторов и других моделей.

Пример использования SpaCy с Scikit-learn:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Данные для классификации
data = ["I love SpaCy!", "SpaCy is amazing.", "I hate bugs.", "Bugs are annoying."]
labels = ["positive", "positive", "negative", "negative"]

# Создание модели
model = make_pipeline(CountVectorizer(), MultinomialNB())
model.fit(data, labels)

# Прогнозирование
predicted = model.predict(["I enjoy working with SpaCy."])
print(predicted)  # Вывод: ['positive']

['positive']


Объяснение:

Мы используем CountVectorizer для преобразования текстов в числовые векторы.

Затем применяется MultinomialNB для классификации.

**5. Тональность текста и анализ сентимента**

Хотя SpaCy не имеет встроенных моделей анализа сентимента, вы можете использовать её для предобработки текста перед применением других библиотек.

Пример анализа сентимента с TextBlob:

In [None]:
from textblob import TextBlob

# Предобработка текста с помощью SpaCy
doc = nlp("SpaCy is a great library for NLP!")

# Применение TextBlob для анализа сентимента
blob = TextBlob(doc.text)
print(blob.sentiment)  # Вывод: Sentiment(polarity=0.5, subjectivity=0.6)

Sentiment(polarity=1.0, subjectivity=0.75)


**6. Кастомные токенизаторы и правила токенизации**

Кастомные токенизаторы могут быть полезны, если стандартные правила токенизации не подходят для вашего текста. Например, вы можете создать токенизатор, который будет учитывать специфические знаки препинания или технические термины.

Пример создания кастомного токенизатора:

In [None]:
from spacy.tokenizer import Tokenizer
from spacy.util import compile_infix_regex

# Создание кастомного токенизатора
infixes = [r'(?<=[a-z])(?=[A-Z])']  # Пример для разбиения camelCase
infix_regex = compile_infix_regex(infixes)

tokenizer = Tokenizer(nlp.vocab, infix_finditer=infix_regex.finditer)

doc = tokenizer("ThisIsAnExample")
print([token.text for token in doc])  # ['This', 'Is', 'An', 'Example']


['This', 'Is', 'An', 'Example']


**7. Семантическая обработка и сходство текстов**

SpaCy может вычислять семантическое сходство между словами и предложениями с помощью word embeddings.

Пример вычисления сходства:

In [None]:
# Сравнение сходства между токенами
doc1 = nlp("I love programming.")
doc2 = nlp("I enjoy coding.")
similarity = doc1.similarity(doc2)
print(f'Similarity: {similarity}')  # Выводит значение от 0 до 1

Similarity: 0.974075717051845


  similarity = doc1.similarity(doc2)


**8. Работа с большими объёмами данных**

При работе с большими наборами данных важно оптимизировать использование памяти и производительность.

Пример пакетной обработки:

In [None]:
texts = ["Text 1", "Text 2", "Text 3"]  # Массив больших данных
docs = list(nlp.pipe(texts))  # Используем pipe для пакетной обработки

**9. Интеграция с Gensim для анализа тем**

SpaCy может быть интегрирован с Gensim для выполнения тематического моделирования.

Пример анализа тем с Gensim:

In [None]:
import gensim
from gensim import corpora

# Подготовка данных
texts = [["spaCy", "is", "great"], ["nlp", "with", "python"], ["machine", "learning"]]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

# Модель LDA
lda_model = gensim.models.LdaModel(corpus, num_topics=2, id2word=dictionary, passes=10)

**10. Обработка структуры текста**

SpaCy может быть настроен для обработки структур текста, таких как абзацы и заголовки.

Пример обработки структуры текста:

In [None]:
# Разделение текста на абзацы
text = "This is the first paragraph.\n\nThis is the second paragraph."
paragraphs = text.split("\n\n")
for paragraph in paragraphs:
    doc = nlp(paragraph)
    print(f"Paragraph: {paragraph}")

Paragraph: This is the first paragraph.
Paragraph: This is the second paragraph.


**11. Кастомные модели на основе правила**

Кастомные модели на основе правил могут быть использованы для решения простых задач, где не требуется машинное обучение.

Пример создания модели на основе правил:

In [None]:
# Простой пример нахождения чисел в тексте
text = "The price is 100 dollars and 50 cents."
doc = nlp(text)
numbers = [token.text for token

 in doc if token.like_num]
print(numbers)  # ['100', '50']

['100', '50']


**12. Морфологический анализ**

SpaCy может выполнять морфологический анализ, что полезно для языков с богатой морфологией, таких как русский.

Пример морфологического анализа:

In [None]:
nlp = spacy.load("ru_core_news_sm")
doc = nlp("Мальчик играет в футбол.")
for token in doc:
    print(f'Слово: {token.text}, Падеж: {token.morph.get("Case")}, Число: {token.morph.get("Number")}')

Слово: Мальчик, Падеж: ['Nom'], Число: ['Sing']
Слово: играет, Падеж: [], Число: ['Sing']
Слово: в, Падеж: [], Число: []
Слово: футбол, Падеж: ['Acc'], Число: ['Sing']
Слово: ., Падеж: [], Число: []


**Заключение**

Библиотека SpaCy предлагает богатый функционал для обработки естественного языка. От кастомизации пайплайнов до интеграции с другими библиотеками и анализом семантики — возможности SpaCy практически безграничны. Каждая из рассмотренных тем открывает новые горизонты для обработки текстовых данных, что делает SpaCy мощным инструментом для разработчиков и исследователей в области NLP.


**Вопросы для самопроверки**

1.Что такое SpaCy и в чем его основные преимущества по сравнению с другими библиотеками для обработки естественного языка?

2.Как установить SpaCy и загрузить языковую модель?

3.Что такое токенизация и как она реализована в SpaCy?

4.Как выполнить лемматизацию текста с помощью SpaCy?

5.В чем разница между частеречной разметкой (POS-tagging) и синтаксическим анализом?

6.Как работает распознавание именованных сущностей (NER) в SpaCy и какие типы сущностей можно распознавать?

7.Как разбить текст на предложения с помощью SpaCy?

8.Как можно кастомизировать пайплайн SpaCy для добавления новых компонентов?

9.Как обучить кастомную модель NER на основе размеченных данных?

10.Как использовать nlp.pipe() для пакетной обработки текстов и какие преимущества это дает?

11.Как можно извлечь числовые значения из текста с помощью SpaCy?

12.В чем заключается морфологический анализ и как его можно выполнить в SpaCy?

13.Как использовать SpaCy для анализа сентимента текста?

14.Как реализовать кастомный токенизатор для специфических текстов?

15.Как вычислить семантическое сходство между двумя текстами с помощью SpaCy?

16.Как можно использовать SpaCy в сочетании с библиотеками машинного обучения, такими как Scikit-learn?

17.Как визуализировать деревья зависимостей с помощью displacy?

18.Какие существуют способы извлечения информации из текстов с помощью SpaCy?

19.Как обрабатывать тексты на нескольких языках с использованием SpaCy?

20.Какие методы оптимизации производительности можно использовать при работе с большими объемами данных в SpaCy?

**Задачи для самостоятельной работы**
1. Установите SpaCy и загрузите английскую языковую модель. Проверьте, что установка прошла успешно, обработав простой текст.

In [None]:
!pip install spacy
!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m86.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: en-core-web-sm
  Attempting uninstall: en-core-web-sm
    Found existing installation: en-core-web-sm 3.7.1
    Uninstalling en-core-web-sm-3.7.1:
      Successfully uninstalled en-core-web-sm-3.7.1
Successfully installed en-core-web-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


2. Токенизация текста на английском языке

In [None]:
import spacy

# Загрузка модели
nlp = spacy.load("en_core_web_sm")

# Текст для токенизации
text = "SpaCy is an amazing library for NLP and machine learning."
doc = nlp(text)

# Вывод токенов в виде списка
tokens = [token.text for token in doc]
print(tokens)



['SpaCy', 'is', 'an', 'amazing', 'library', 'for', 'NLP', 'and', 'machine', 'learning', '.']


3. Лемматизация набора предложений

In [None]:
# Лемматизация
lemmas = [(token.text, token.lemma_) for token in doc]
print(lemmas)

[('SpaCy', 'SpaCy'), ('is', 'be'), ('an', 'an'), ('amazing', 'amazing'), ('library', 'library'), ('for', 'for'), ('NLP', 'NLP'), ('and', 'and'), ('machine', 'machine'), ('learning', 'learning'), ('.', '.')]


4. Частеречная разметка (POS-tagging)

In [None]:
pos_tags = [(token.text, token.pos_) for token in doc]
print(pos_tags)

[('SpaCy', 'PROPN'), ('is', 'AUX'), ('an', 'DET'), ('amazing', 'ADJ'), ('library', 'NOUN'), ('for', 'ADP'), ('NLP', 'PROPN'), ('and', 'CCONJ'), ('machine', 'NOUN'), ('learning', 'NOUN'), ('.', 'PUNCT')]


5. Синтаксический анализ и дерево зависимостей

In [None]:
# Вывод дерева зависимостей
for token in doc:
    print(f'{token.text} --> {token.dep_} --> {token.head.text}')

SpaCy --> nsubj --> is
is --> ROOT --> is
an --> det --> library
amazing --> amod --> library
library --> attr --> is
for --> prep --> library
NLP --> pobj --> for
and --> cc --> NLP
machine --> compound --> learning
learning --> conj --> NLP
. --> punct --> is


6. Распознавание именованных сущностей (NER)

In [None]:
# NER
for ent in doc.ents:
    print(f'{ent.text} ({ent.label_})')

7. Разбиение текста на предложения

In [None]:
# Разбиение на предложения
sentences = list(doc.sents)
for sentence in sentences:
    print(sentence.text)

8. Загрузка русской языковой модели и токенизация русского текста

In [None]:
!python -m spacy download ru_core_news_sm

Collecting ru-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.8.0/ru_core_news_sm-3.8.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m88.9 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

# Загрузка русской модели
nlp_ru = spacy.load("ru_core_news_sm")

# Русский текст для токенизации
text_ru = "SpaCy — это отличная библиотека для обработки естественного языка."
doc_ru = nlp_ru(text_ru)

# Вывод токенов и их частей речи
for token in doc_ru:
    print(f'{token.text} ({token.pos_})')

SpaCy (PROPN)
— (PUNCT)
это (PART)
отличная (ADJ)
библиотека (NOUN)
для (ADP)
обработки (NOUN)
естественного (ADJ)
языка (NOUN)
. (PUNCT)


9. Кастомный компонент для выделения ключевых слов

In [None]:
from spacy.language import Language
@Language.component("keyword_extractor")
def keyword_extractor(doc):
    keywords = [token.text for token in doc if token.pos_ in ['NOUN', 'PROPN']]
    doc._.keywords = keywords
    return doc

# Регистрация компонента в пайплайне
nlp.add_pipe("keyword_extractor", last=True)

# Обработка текста с выделением ключевых слов
doc = nlp("SpaCy is an amazing library for NLP and machine learning.")
print(doc._.keywords)

['SpaCy', 'library', 'NLP', 'machine', 'learning']


**11. Пакетная обработка текстов с использованием nlp.pipe()**


In [None]:
texts = ["Text one.", "Text two.", "Text three."]
docs = list(nlp.pipe(texts))

# Измерение времени выполнения (не забудьте импортировать time)
import time

start_time = time.time()
docs = list(nlp.pipe(texts))
end_time = time.time()
print(f"Время выполнения: {end_time - start_time} секунд")

Время выполнения: 0.01977705955505371 секунд


**12. Анализ сентимента с использованием SpaCy и TextBlob (требует установки TextBlob)**

In [None]:
!pip install textblob



In [None]:
from textblob import TextBlob

text_blob = TextBlob("SpaCy is an amazing library for NLP.")
print(text_blob.sentiment)  # Выводит полярность и субъективность

Sentiment(polarity=0.6000000000000001, subjectivity=0.9)


13. Извлечение чисел из текста

In [None]:
numbers = [token.text for token in doc if token.like_num]
print(numbers)

[]


14. Кастомный токенизатор для специфических текстов (например, медицинских терминов)

In [None]:
import re

def custom_tokenizer(nlp):
    return nlp.tokenizer

nlp.tokenizer = custom_tokenizer(nlp)

text_medical = "Aspirin is used to reduce fever and relieve pain."
doc_medical = nlp(text_medical)
tokens_medical = [token.text for token in doc_medical]
print(tokens_medical)

['Aspirin', 'is', 'used', 'to', 'reduce', 'fever', 'and', 'relieve', 'pain', '.']


15. Семантический анализ сходства между двумя предложениями

In [None]:
doc1 = nlp("I love natural language processing.")
doc2 = nlp("Natural language processing is fascinating.")

similarity = doc1.similarity(doc2)
print(f"Сходство: {similarity}")

Сходство: 0.6726497349273787


  similarity = doc1.similarity(doc2)


16. Анализ частоты слов в тексте (самостоятельно)
17. Обработка текстов на нескольких языках
18. Модель классификации текста с использованием Scikit-learn (требует больше кода и данных)
19. Морфологический анализ для русского текста (используйте атрибуты токенов)
20. Извлечение имен собственных из текста в формате JSON (используйте json библиотеку)
21. Кастомные правила для выделения паттернов в тексте (например, регулярные выражения)
22. Анализ структуры текста (разбиение на абзацы и предложения)
23. Визуализация деревьев зависимостей с помощью displacy (требует установки displacy)
24. Обучение кастомной модели для распознавания специфических сущностей
25. Анализ текста на предмет наличия негативных и позитивных слов
26. Система рекомендаций на основе анализа текстов
27. Анализ тональности текстов и визуализация результатов
28. Автоматизированный процесс извлечения информации из текстов
29. Приложение для обработки вводимого текста
30. Оптимизация производительности обработки текста