# Работа с текстом
Неструктурированные текстовые данные, такие как содержимое книги или твита, являются одними из самых интересных источников признаков и одними из самых сложных для обработки. Рассмотрим стратегии преобразования текста в информационно богатые признаки. 

***

### 1. Очистка текста
##### Задача
Даны некоторые неструктурированные текстовые данные, требуется выполнить их элементарную очистку
##### Решение
Используем элементарные операции языка Python над строковыми значениями: `strip()`, `replace()`, `split()`

In [1]:
# Создать текст
text_data = [
    '  Война и мир. Лев Толстой',
    'Идиот. Федор Достоевский   ',
    ' Узник замка Иф. Александр Дюма ',
]

# Удалить пробелы
strip_whitespace = [string.strip() for string in text_data]

# Показать текст
strip_whitespace

['Война и мир. Лев Толстой',
 'Идиот. Федор Достоевский',
 'Узник замка Иф. Александр Дюма']

In [2]:
# Удалить точки
remove_periods = [string.replace('.', '') for string in strip_whitespace]

# Показать текст
remove_periods

['Война и мир Лев Толстой',
 'Идиот Федор Достоевский',
 'Узник замка Иф Александр Дюма']

Также можно создать собственную функцию преобразования:

In [3]:
# Создать функцию
def capitalizer(string: str) -> str:
    return string.upper()

# Применить функцию
[capitalizer(string) for string in remove_periods]

['ВОЙНА И МИР ЛЕВ ТОЛСТОЙ',
 'ИДИОТ ФЕДОР ДОСТОЕВСКИЙ',
 'УЗНИК ЗАМКА ИФ АЛЕКСАНДР ДЮМА']

Для выполнения строковых операций можно воспользоваться регулярными выражениями:

In [4]:
# Импортировать библиотеку
import re 

# Создать функцию
def replace_letters_with_X(string: str) -> str:
    return re.sub(r"[а-яА-я]", "X", string)

# Применить функцию
[replace_letters_with_X(string) for string in remove_periods]

['XXXXX X XXX XXX XXXXXXX',
 'XXXXX XXXXX XXXXXXXXXXX',
 'XXXXX XXXXX XX XXXXXXXXX XXXX']

Большинство текстовых данных требуется очистить перед тем, как их использовать для построения признаков. Подавляющую часть элементарной очистки текста можно выполнять м помощью стандартных строковых операций Python. На практике имеет смысл разработать собственные функции очистки и включить их в общий pipeline анализа данных.
##### Дополнительные материалы
* ["Практическое руководство по регулярным выражениям в Python"](https://www.analyticsvidhya.com/blog/2015/06/regular-expression-python/)

### 2.  Разбор и очистка разметки HTML
##### Задача 
Даны текстовые данные с элементами HTML, требуется извлечь только текст
##### Решение
Используем набор функциональных средств библиотеки `Beautiful Soup`

In [6]:
# Загрузить библиотеку
from bs4 import BeautifulSoup

# Создать код HTML
html = """
        <div id="shell">
               <h3>
                  Global earthquake activity since 1973 and nuclear power plant locations
               </h3>
        </div>
       """
# Выполнить разбор HTML
soup = BeautifulSoup(html, 'lxml')

# Найти элемент div с id=shell, показать текст
soup.find('div', {'id': 'shell'}).text.strip()

'Global earthquake activity since 1973 and nuclear power plant locations'

`BeautifulSoup` мощная библиотека Python, предназначенная для "выскабливания" HTML. Как правило ее используют для вычищения "живых" веб-сайтов. Но ее также можно применять для извлечения текстовых данных, встроенных в HTML.
##### Дополнительные материалы
* [Библиотека BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)

### 3. Удаление знаков препинания
##### Задача
Дан признак в текстовых данных, и требуется кдалить знаки препинания
##### Решение
Используем функцию `translate()` со словарем знаков препинания

In [11]:
# Загрузить библиотеки
import unicodedata
import sys

# Создать текст
text_data = [
    'Разн!!ообразный и богатый оп,.;ыт говорит нам, ',
    'что в.,.ысокотехнологичная концепция общественного уклада ',
    'является ка;чествен%но новой ступенью анализа существующих паттернов??? поведения. ',
    'Таким образом, убеждённо*сть некоторых оппо?!нентов напрямую',
    'зависит от распред:,.еления внутренних резервов ::и ресурсов.',
]

# Создать словарь знаков препинания
punctuation = dict.fromkeys(
    i for i in range(sys.maxunicode)
    if unicodedata.category(chr(i)).startswith('P')
)

# Удалить любые знаки препинания во всех строковых значениях
[string.translate(punctuation) for string in text_data]

['Разнообразный и богатый опыт говорит нам ',
 'что высокотехнологичная концепция общественного уклада ',
 'является качественно новой ступенью анализа существующих паттернов поведения ',
 'Таким образом убеждённость некоторых оппонентов напрямую',
 'зависит от распределения внутренних резервов и ресурсов']

Метод `translate()` языка Python популярен благодаря невероятной скорости. В данном решение сначала был создан словарь `punctuation`, в котором в качестве ключей размещены все знаки препинания, присутствующие в Юникоде, и в качестве значений – `None`. Затем все символы строкового значения, которые находились среди значков препинания были преобразованы в `None`, фактически удалив их.

Существуют и более читаемые способы удаления знаков препинания, но данное решение значительно быстрее работает, чем остальные.

Важно помнить, что знаки препинания содержат информацию. Например: "правильно?" или "правильно!". Удаление знаков препинания часто является необходимым злом для создания признаков; однако если знаки препинания важны, мы должны принимать их во внимание.

### 4. Лексемизация текста
##### Задача
Дан текст, и тербуется развить его на отдельные слова
##### Решение
Используем комплект естественно-языковых инструментов NLTK (Natural Language Toolkit for Python)

In [16]:
# Загрузить библиотеку
from nltk.tokenize import word_tokenize

# Создать текст
string = 'Сегодняшняя наука — это технология завтрашнего дня'

# Лексемизировать слова
word_tokenize(string)

['Сегодняшняя', 'наука', '—', 'это', 'технология', 'завтрашнего', 'дня']

Лексимизация, в особенности лексимизация на слова, является распространенной задачей после очистки текстовых данных, потому что это первый шаг в процессе превращения текста в данные, которые можно использовать для создания полезных признаков.

### 5. Удаление стоп-слов
##### Задача
Имеются лексимизированные текстовые данные, из которых требуется удалить частые обще употребимые слова
##### Решение
Используем функцию `stopwords()` библиотеки `NLTK`

In [22]:
# Загрузить библиотеки
import nltk
from nltk.corpus import stopwords

# Сформировать набор стоп-слов
nltk.download('stopwords')
stop_words = stopwords.words('russian')

# Создать лексемы слов
text_data = """
    Внезапно, непосредственные участники технического прогресса являются только методом политического участия и 
    смешаны с не уникальными данными до степени совершенной неузнаваемости, из-за чего возрастает их статус 
    бесполезности. Вот вам яркий пример современных тенденций - высокотехнологичная концепция общественного уклада
    влечет за собой процесс внедрения и модернизации приоритизации разума над эмоциями. Но выбранный нами 
    инновационный путь не оставляет шанса для дальнейших направлений развития.
    """

tokenized_words = word_tokenize(text_data)

# Удалить стоп-слова
[word for word in tokenized_words if word not in stop_words][:10]

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/antonneverovich/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['Внезапно',
 ',',
 'непосредственные',
 'участники',
 'технического',
 'прогресса',
 'являются',
 'методом',
 'политического',
 'участия']

Хотя стоп-слова могут относиться к любому набору слов, которые мы хотим удалить перед обработкой, часто этот термин относится к чрезвычайно распространенным словам, которые сами по себе содержат мало информации. NLTK имеет список общеупотребимых стоп-слов, который можно использовать для их отыскания и удаления в наших лексимизированные словах:

In [23]:
# Удалить стоп-слова
stop_words[:5]

['и', 'в', 'во', 'не', 'что']

Следует обратить внимание, что функция `stopwords` библиотеки NLTK исходит из того, ято все лексимизируемые слова находятся в нижнем регистре.