# Обработка текста

Предварительная обработка текстовых данных

- преобразование в нижний регистр;
- удаление знаков препинания;
- удаление стоп-слов;
- токенизация корпуса;
- стемминг – замена слова на его неизменяемую при склонении часть;
- лемматизация — приведение словоформы к лемме — нормальной словарной форме.

### Подготовка среды

In [2]:
from IPython.display import clear_output

!pip install nltk
!pip install pymystem3
clear_output()

In [3]:
import re
import string

import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from pymystem3 import Mystem

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/aleksioprime/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Ввод текста

In [4]:
text = """
    Python - это простой в использовании, но мощный в своих возможностях язык программирования. 
    Он широко используется для веб-разработки, научных вычислений, искусственного интеллекта и многого другого.
    """

### Преобразование в нижний регистр

In [5]:
text_lower = text.lower()
print(text_lower)


    python - это простой в использовании, но мощный в своих возможностях язык программирования. 
    он широко используется для веб-разработки, научных вычислений, искусственного интеллекта и многого другого.
    


### Удаление знаков препинания

In [6]:
# Вариант I. Оставляем только кириллические буквы

# Используем регулярное выражение для поиска слов с русскими буквами
text_onlyrus = ' '.join(re.findall(r'\b[а-яА-Я]+\b', text_lower))
print(text_onlyrus)

это простой в использовании но мощный в своих возможностях язык программирования он широко используется для веб разработки научных вычислений искусственного интеллекта и многого другого


In [7]:
# Вариант II. Удаляем знаки препинания и лишние пробелы

# Создаем таблицу перевода, заменяющую знаки препинания на пробелы
translator = str.maketrans('', '', string.punctuation)
# Применяем таблицу перевода к тексту и удаляем лишние пробелы
words = text_lower.translate(translator).split()
text_clear = ' '.join(words)
print(text_clear)

python это простой в использовании но мощный в своих возможностях язык программирования он широко используется для вебразработки научных вычислений искусственного интеллекта и многого другого


### Удаление стоп-слов

In [8]:
stop_set = set(stopwords.words('russian'))
print("Стоп-слова:", ", ".join(stop_set))

Стоп-слова: потом, было, того, от, были, я, перед, куда, с, между, разве, него, к, два, им, и, себя, более, так, ни, всю, за, конечно, ничего, же, нет, этот, такой, через, меня, она, при, из, них, надо, зачем, бы, всегда, эти, больше, мне, ты, никогда, там, для, уже, том, нибудь, со, быть, вдруг, уж, какой, три, как, на, без, может, ей, опять, можно, чем, всех, иногда, у, что, или, в, ведь, об, наконец, будто, мы, нас, по, будет, нее, всего, есть, да, мой, потому, ну, была, они, чего, этом, сам, этой, вы, хорошо, себе, лучше, до, тот, во, то, кто, тоже, когда, эту, он, ему, если, тем, только, какая, где, даже, про, все, здесь, моя, но, вам, ним, хоть, чтоб, тогда, совсем, много, под, не, о, над, их, ее, один, был, тут, а, его, ли, почти, вот, теперь, ней, другой, чуть, после, этого, чтобы, еще, впрочем, нельзя, ж, свою, сейчас, вас, раз, тебя


In [9]:
tokens = [word for word in text_clear.split() if word not in stop_set]
print(tokens)

['python', 'это', 'простой', 'использовании', 'мощный', 'своих', 'возможностях', 'язык', 'программирования', 'широко', 'используется', 'вебразработки', 'научных', 'вычислений', 'искусственного', 'интеллекта', 'многого', 'другого']


### Стемминг

In [10]:
stemmer = SnowballStemmer(language='russian')
tokens_stemm = [stemmer.stem(word) for word in tokens]
print(tokens_stemm)

['python', 'эт', 'прост', 'использован', 'мощн', 'сво', 'возможн', 'язык', 'программирован', 'широк', 'использ', 'вебразработк', 'научн', 'вычислен', 'искусствен', 'интеллект', 'мног', 'друг']


### Лемматизация

In [11]:
mystem = Mystem()
tokens_lemma = list(filter(lambda x: x not in [' ', '\n'], mystem.lemmatize(' '.join(tokens))))
print(tokens_lemma)

['python', 'это', 'простой', 'использование', 'мощный', 'свой', 'возможность', 'язык', 'программирование', 'широко', 'использоваться', 'вебразработка', 'научный', 'вычисление', 'искусственный', 'интеллект', 'многий', 'другой']
