# Обработка текста

Предварительная обработка текстовых данных

- преобразование в нижний регистр;
- удаление знаков препинания;
- удаление стоп-слов;
- токенизация корпуса;
- стемминг – замена слова на его неизменяемую при склонении часть;
- лемматизация — приведение словоформы к лемме — нормальной словарной форме.

### Подготовка среды

In [None]:
from IPython.display import clear_output

!pip install nltk
!pip install pymystem3
clear_output()

In [None]:
import re
import string

import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from pymystem3 import Mystem

### Ввод текста

In [None]:
text = """
    Python - это простой в использовании, но мощный в своих возможностях язык программирования. 
    Он широко используется для веб-разработки, научных вычислений, искусственного интеллекта и многого другого.
    """

### Преобразование в нижний регистр

In [None]:
text_lower = text.lower()
print(text_lower)

### Удаление знаков препинания

In [None]:
# Вариант I. Оставляем только кириллические буквы

# Используем регулярное выражение для поиска слов с русскими буквами
text_onlyrus = ' '.join(re.findall(r'\b[а-яА-Я]+\b', text_lower))
print(text_onlyrus)

In [None]:
# Вариант II. Удаляем знаки препинания и лишние пробелы

# Создаем таблицу перевода, заменяющую знаки препинания на пробелы
translator = str.maketrans('', '', string.punctuation)
# Применяем таблицу перевода к тексту и удаляем лишние пробелы
words = text_lower.translate(translator).split()
text_clear = ' '.join(words)
print(text_clear)

### Удаление стоп-слов

In [None]:
stop_set = set(stopwords.words('russian'))
print("Стоп-слова:", ", ".join(stop_set))

In [None]:
tokens = [word for word in text_clear.split() if word not in stop_set]
print(tokens)

### Стемминг

In [None]:
stemmer = SnowballStemmer(language='russian')
tokens_stemm = [stemmer.stem(word) for word in tokens]
print(tokens_stemm)

### Лемматизация

In [None]:
mystem = Mystem()
tokens_lemma = list(filter(lambda x: x not in [' ', '\n'], mystem.lemmatize(' '.join(tokens))))
print(tokens_lemma)