# Обработка текста

Предварительная обработка текстовых данных

- преобразование в нижний регистр;
- удаление знаков препинания;
- удаление стоп-слов;
- токенизация корпуса;
- стемминг;
- лемматизация.


### Подготовка среды

In [None]:
from IPython.display import clear_output

!pip install nltk
!pip install pymystem3
clear_output()

In [None]:
import re
import string

import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from pymystem3 import Mystem

### Ввод текста

In [None]:
text = """
    Python - это простой в использовании, но мощный в своих возможностях язык программирования. 
    Он широко используется для веб-разработки, научных вычислений, искусственного интеллекта и многого другого.
    """

### Преобразование в нижний регистр

Слово с заглавной и строчной буквой для нас одно и то же, но компьютер такие слова воспринимает как разные из-за разного регистра. Чтобы все слова выглядели одинаково, нужно преобразовать их в нижний регистр.

In [None]:
text_lower = text.lower()
print(text_lower)

### Удаление знаков препинания

Знаки препинания, такие как точки, запятые, восклицательные знаки и т.д., часто не несут смысловой нагрузки в анализе текста. Поэтому их удаляют, чтобы упростить дальнейшую работу. 

In [None]:
# Вариант I. Оставляем только кириллические буквы

# Используем регулярное выражение для поиска слов с русскими буквами
text_onlyrus = ' '.join(re.findall(r'\b[а-яА-Я]+\b', text_lower))
print(text_onlyrus)

In [None]:
# Вариант II. Удаляем знаки препинания и лишние пробелы

# Создаем таблицу перевода, заменяющую знаки препинания на пробелы
translator = str.maketrans('', '', string.punctuation)
# Применяем таблицу перевода к тексту и удаляем лишние пробелы
words = text_lower.translate(translator).split()
text_clear = ' '.join(words)
print(text_clear)

### Удаление стоп-слов и токенизация

Стоп-слова – это часто встречающиеся слова, которые обычно не содержат важной информации для анализа, такие как "и", "в", "на", "это" и т.д. Их удаляют, чтобы сосредоточиться на более значимых словах.
Токенизация – это процесс разделения текста на отдельные слова или фразы, которые называются токенами.

In [None]:
stop_set = set(stopwords.words('russian'))
print("Стоп-слова:", ", ".join(stop_set))

In [None]:
tokens = [word for word in text_clear.split() if word not in stop_set]
print(tokens)

### Стемминг

Стемминг – это процесс, при котором у слов обрезаются окончания, чтобы привести их к базовой или корневой форме. Это помогает упростить анализ, так как разные формы одного и того же слова будут рассматриваться как одно слово.

In [None]:
stemmer = SnowballStemmer(language='russian')
tokens_stemm = [stemmer.stem(word) for word in tokens]
print(tokens_stemm)

### Лемматизация

Лемматизация похожа на стемминг, но здесь слова преобразуются в их начальную (словарную) форму, называемую леммой. Лемматизация сложнее, чем стемминг, потому что она учитывает грамматические правила и контекст.

In [None]:
mystem = Mystem()
tokens_lemma = list(filter(lambda x: x not in [' ', '\n'], mystem.lemmatize(' '.join(tokens))))
print(tokens_lemma)

## Дополнительная обработка

### Перевод текста на другой язык

In [None]:
!pip install googletrans==4.0.0-rc1
clear_output()

In [None]:
from googletrans import Translator

def translate_text(text, src_language='ru', dest_language='en'):
    translator = Translator()
    translation = translator.translate(text, src=src_language, dest=dest_language)
    return translation.text

In [None]:
text_to_translate = """Привет, как дела? У меня всё хорошо"""

In [None]:
translated_text = translate_text(text_to_translate)
print(translated_text)

### Исправление орфографических ошибок

In [None]:
!pip install pyaspeller
clear_output()

In [None]:
from pyaspeller import YandexSpeller

def correct_spelling(text):
    speller = YandexSpeller()
    corrections = speller.spell(text)
    
    corrected_text = text
    for correction in corrections:
        word = correction['word']
        suggestions = correction['s']
        if suggestions:
            corrected_text = corrected_text.replace(word, suggestions[0])
    
    return corrected_text

In [None]:
text_with_errors = """Превет, как дила? У миня вcе харащо!"""

In [None]:
corrected_text = correct_spelling(text_with_errors)
print(f"Исправленный текст: {corrected_text}")