# Обработка текста

Предварительная обработка текстовых данных

- преобразование в нижний регистр;
- удаление знаков препинания;
- удаление стоп-слов;
- токенизация корпуса;
- стемминг – замена слова на его неизменяемую при склонении часть;
- лемматизация — приведение словоформы к лемме — нормальной словарной форме.

In [5]:
!python --version
!pip install nltk
!pip install pymystem3

Python 3.9.19
Collecting pymystem3
  Using cached pymystem3-0.2.0-py3-none-any.whl.metadata (5.5 kB)
Using cached pymystem3-0.2.0-py3-none-any.whl (10 kB)
Installing collected packages: pymystem3
Successfully installed pymystem3-0.2.0


In [6]:
import re
import string

import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from pymystem3 import Mystem


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/aleksioprime/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Ввод текста

In [7]:
text = """
    Python - это простой в использовании, но мощный в своих возможностях язык программирования. 
    Он широко используется для веб-разработки, научных вычислений, искусственного интеллекта и многого другого.
    """

### Преобразование в нижний регистр

In [8]:
text_lower = text.lower()
print(text_lower)


    python - это простой в использовании, но мощный в своих возможностях язык программирования. 
    он широко используется для веб-разработки, научных вычислений, искусственного интеллекта и многого другого.
    


### Удаление знаков препинания

In [9]:
# Вариант I. Оставляем только кириллические буквы

# Используем регулярное выражение для поиска слов с русскими буквами
text_onlyrus = ' '.join(re.findall(r'\b[а-яА-Я]+\b', text_lower))
print(text_onlyrus)

это простой в использовании но мощный в своих возможностях язык программирования он широко используется для веб разработки научных вычислений искусственного интеллекта и многого другого


In [10]:
# Вариант II. Удаляем знаки препинания и лишние пробелы

# Создаем таблицу перевода, заменяющую знаки препинания на пробелы
translator = str.maketrans('', '', string.punctuation)
# Применяем таблицу перевода к тексту и удаляем лишние пробелы
words = text_lower.translate(translator).split()
text_clear = ' '.join(words)
print(text_clear)

python это простой в использовании но мощный в своих возможностях язык программирования он широко используется для вебразработки научных вычислений искусственного интеллекта и многого другого


### Удаление стоп-слов

In [11]:
stop_set = set(stopwords.words('russian'))
print("Стоп-слова:", ", ".join(stop_set))

Стоп-слова: не, больше, иногда, какой, три, того, только, лучше, вдруг, вам, него, без, с, хоть, моя, может, сейчас, между, так, им, эту, ну, всегда, когда, мне, этот, из, во, разве, бы, уже, что, потом, тем, будто, два, другой, за, нибудь, себя, опять, никогда, вы, и, чего, при, том, где, о, ли, по, ведь, он, для, можно, нее, тоже, почти, в, его, до, еще, надо, этом, к, вас, чтобы, на, ты, эти, этой, нас, если, них, какая, а, ни, да, была, об, всю, наконец, со, перед, куда, тебя, зачем, после, чуть, или, над, уж, был, будет, совсем, ее, этого, теперь, быть, вот, такой, от, нет, тут, ей, нельзя, раз, потому, сам, себе, более, под, они, хорошо, я, ней, тот, тогда, даже, у, впрочем, же, там, чтоб, как, то, есть, много, но, конечно, ничего, один, мой, меня, все, мы, свою, чем, через, ему, она, ним, здесь, ж, кто, всех, были, про, было, всего, их


In [12]:
tokens = [word for word in text_clear.split() if word not in stop_set]
print(tokens)

['python', 'это', 'простой', 'использовании', 'мощный', 'своих', 'возможностях', 'язык', 'программирования', 'широко', 'используется', 'вебразработки', 'научных', 'вычислений', 'искусственного', 'интеллекта', 'многого', 'другого']


### Стемминг

In [13]:
stemmer = SnowballStemmer(language='russian')
tokens_stemm = [stemmer.stem(word) for word in tokens]
print(tokens_stemm)

['python', 'эт', 'прост', 'использован', 'мощн', 'сво', 'возможн', 'язык', 'программирован', 'широк', 'использ', 'вебразработк', 'научн', 'вычислен', 'искусствен', 'интеллект', 'мног', 'друг']


### Лемматизация

In [14]:
mystem = Mystem()
tokens_lemma = list(filter(lambda x: x not in [' ', '\n'], mystem.lemmatize(' '.join(tokens))))
print(tokens_lemma)

['python', 'это', 'простой', 'использование', 'мощный', 'свой', 'возможность', 'язык', 'программирование', 'широко', 'использоваться', 'вебразработка', 'научный', 'вычисление', 'искусственный', 'интеллект', 'многий', 'другой']
