# Практическое задание 1: Введение в NLTK, spaCy и обработку текста
**Курс:** Information Retrieval & Information Extraction
**Автор:** Абылайхан Бари

Этот отчет содержит реализацию основных операций обработки текста:
✅ Токенизация (NLTK, spaCy)
✅ Удаление стоп-слов (NLTK, spaCy)
✅ Сравнение результатов
✅ Анализ работы с русским текстом


In [7]:
!pip install nltk spacy
!python -m spacy download en_core_web_sm
!python -m spacy download ru_core_news_sm


Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [91m━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/12.8 MB[0m [31m37.6 kB/s[0m eta [36m0:05:07[0m
[?25h[31mERROR: Exception:
Traceback (most recent call last):
  File "/Users/aikei/PycharmProjects/IRIE_practice_1/.venv/lib/python3.9/site-packages/pip/_vendor/urllib3/response.py", line 438, in _error_catcher
    yield
  File "/Users/aikei/PycharmProjects/IRIE_practice_1/.venv/lib/python3.9/site-packages/pip/_vendor/urllib3/response.py", line 561, in read
    data = self._fp_read(amt) if not fp_closed else b""
  File "/Users/aikei/PycharmProjects/IRIE_practice_1/.venv/lib/python3.9/site-packages/pip/_vendor/urllib3/response.py", line 527, in _fp_read
    return self._fp.read(amt) if amt is not None else self._fp.read()
  File "/Users/aikei/PycharmProjects/IRIE_pr

In [13]:
import nltk
import spacy
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Загрузка необходимых ресурсов NLTK
nltk.download('punkt')
nltk.download('stopwords')

# Загрузка моделей spaCy
nlp_en = spacy.load("en_core_web_sm")
nlp_ru = spacy.load("ru_core_news_sm")


[nltk_data] Downloading package punkt to /Users/aikei/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /Users/aikei/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [14]:
text_en = """
Natural Language Processing (NLP) is an exciting field of artificial intelligence.
It enables computers to understand, interpret, and respond to human language.
Many applications, such as chatbots, translation services, and sentiment analysis,
rely on NLP technology.
Furthermore, machine learning and deep learning techniques have significantly improved NLP capabilities.
"""

text_ru = """
Обработка естественного языка — это увлекательная область искусственного интеллекта.
Она позволяет компьютерам понимать, интерпретировать и отвечать на человеческий язык.
Многие приложения, такие как чат-боты, переводчики и анализ настроений, используют технологии NLP.
Кроме того, машинное обучение и глубокие нейросети значительно улучшили возможности обработки текста.
"""

print("English Text:", text_en)
print("Russian Text:", text_ru)


English Text: 
Natural Language Processing (NLP) is an exciting field of artificial intelligence.
It enables computers to understand, interpret, and respond to human language.
Many applications, such as chatbots, translation services, and sentiment analysis,
rely on NLP technology.
Furthermore, machine learning and deep learning techniques have significantly improved NLP capabilities.

Russian Text: 
Обработка естественного языка — это увлекательная область искусственного интеллекта.
Она позволяет компьютерам понимать, интерпретировать и отвечать на человеческий язык.
Многие приложения, такие как чат-боты, переводчики и анализ настроений, используют технологии NLP.
Кроме того, машинное обучение и глубокие нейросети значительно улучшили возможности обработки текста.



In [15]:
# --- Task 1: Tokenization ---
# NLTK Tokenization
tokens_nltk_en = word_tokenize(text_en)
tokens_nltk_ru = word_tokenize(text_ru, language="russian")

# spaCy Tokenization
doc_en = nlp_en(text_en)
tokens_spacy_en = [token.text for token in doc_en]

doc_ru = nlp_ru(text_ru)
tokens_spacy_ru = [token.text for token in doc_ru]

print("🔹 English Tokenization (NLTK):", tokens_nltk_en)
print("🔹 English Tokenization (spaCy):", tokens_spacy_en)
print("🔹 Russian Tokenization (NLTK):", tokens_nltk_ru)
print("🔹 Russian Tokenization (spaCy):", tokens_spacy_ru)


🔹 English Tokenization (NLTK): ['Natural', 'Language', 'Processing', '(', 'NLP', ')', 'is', 'an', 'exciting', 'field', 'of', 'artificial', 'intelligence', '.', 'It', 'enables', 'computers', 'to', 'understand', ',', 'interpret', ',', 'and', 'respond', 'to', 'human', 'language', '.', 'Many', 'applications', ',', 'such', 'as', 'chatbots', ',', 'translation', 'services', ',', 'and', 'sentiment', 'analysis', ',', 'rely', 'on', 'NLP', 'technology', '.', 'Furthermore', ',', 'machine', 'learning', 'and', 'deep', 'learning', 'techniques', 'have', 'significantly', 'improved', 'NLP', 'capabilities', '.']
🔹 English Tokenization (spaCy): ['\n', 'Natural', 'Language', 'Processing', '(', 'NLP', ')', 'is', 'an', 'exciting', 'field', 'of', 'artificial', 'intelligence', '.', '\n', 'It', 'enables', 'computers', 'to', 'understand', ',', 'interpret', ',', 'and', 'respond', 'to', 'human', 'language', '.', '\n', 'Many', 'applications', ',', 'such', 'as', 'chatbots', ',', 'translation', 'services', ',', 'and'

In [16]:
# --- Task 2: Stop-word Removal ---
# NLTK Stop-word removal
stop_words_en = set(stopwords.words('english'))
filtered_words_nltk_en = [word for word in tokens_nltk_en if word.lower() not in stop_words_en]

stop_words_ru = set(stopwords.words('russian'))
filtered_words_nltk_ru = [word for word in tokens_nltk_ru if word.lower() not in stop_words_ru]

# spaCy Stop-word removal
filtered_words_spacy_en = [token.text for token in doc_en if not token.is_stop]
filtered_words_spacy_ru = [token.text for token in doc_ru if not token.is_stop]

print("🔹 English Stop-word Removal (NLTK):", filtered_words_nltk_en)
print("🔹 English Stop-word Removal (spaCy):", filtered_words_spacy_en)
print("🔹 Russian Stop-word Removal (NLTK):", filtered_words_nltk_ru)
print("🔹 Russian Stop-word Removal (spaCy):", filtered_words_spacy_ru)


🔹 English Stop-word Removal (NLTK): ['Natural', 'Language', 'Processing', '(', 'NLP', ')', 'exciting', 'field', 'artificial', 'intelligence', '.', 'enables', 'computers', 'understand', ',', 'interpret', ',', 'respond', 'human', 'language', '.', 'Many', 'applications', ',', 'chatbots', ',', 'translation', 'services', ',', 'sentiment', 'analysis', ',', 'rely', 'NLP', 'technology', '.', 'Furthermore', ',', 'machine', 'learning', 'deep', 'learning', 'techniques', 'significantly', 'improved', 'NLP', 'capabilities', '.']
🔹 English Stop-word Removal (spaCy): ['\n', 'Natural', 'Language', 'Processing', '(', 'NLP', ')', 'exciting', 'field', 'artificial', 'intelligence', '.', '\n', 'enables', 'computers', 'understand', ',', 'interpret', ',', 'respond', 'human', 'language', '.', '\n', 'applications', ',', 'chatbots', ',', 'translation', 'services', ',', 'sentiment', 'analysis', ',', '\n', 'rely', 'NLP', 'technology', '.', '\n', 'Furthermore', ',', 'machine', 'learning', 'deep', 'learning', 'techn

In [17]:
print("🔍 Words removed by NLTK but kept by spaCy (English):", set(filtered_words_nltk_en) - set(filtered_words_spacy_en))
print("🔍 Words removed by spaCy but kept by NLTK (English):", set(filtered_words_spacy_en) - set(filtered_words_nltk_en))

print("🔍 Words removed by NLTK but kept by spaCy (Russian):", set(filtered_words_nltk_ru) - set(filtered_words_spacy_ru))
print("🔍 Words removed by spaCy but kept by NLTK (Russian):", set(filtered_words_spacy_ru) - set(filtered_words_nltk_ru))


🔍 Words removed by NLTK but kept by spaCy (English): {'Many'}
🔍 Words removed by spaCy but kept by NLTK (English): {'\n'}
🔍 Words removed by NLTK but kept by spaCy (Russian): {'чат-боты', 'Кроме', 'Многие', 'такие', 'это'}
🔍 Words removed by spaCy but kept by NLTK (Russian): {'\n', 'чат', 'боты', '-'}


## Выводы
1. **Токенизация**:
   - NLTK разбивает текст просто на слова и знаки препинания.
   - spaCy использует более сложные алгоритмы и корректно обрабатывает знаки препинания.

2. **Удаление стоп-слов**:
   - NLTK использует фиксированный список стоп-слов.
   - spaCy использует динамический список, основанный на моделях.

3. **Различия между NLTK и spaCy**:
   - spaCy чаще оставляет важные слова, даже если они есть в списке стоп-слов NLTK.
   - В русском языке spaCy работает точнее, так как у NLTK могут отсутствовать некоторые слова.

4. **Вывод по русскому языку**:
   - NLTK хуже справляется с токенизацией русского текста.
   - spaCy лучше распознает границы слов и знаки препинания.

**💡 Рекомендация:** Для большинства задач spaCy более удобен, особенно для работы с русским текстом.
