# Глава 6: Работа с текстом


# Введение 

Неструктурированные текстовые данные, такие как содержимое книги или твита являются одним из самых интересных источников признаков и одним из самых сложных для обработки. 

В этой главе я рассмотрю стратегии преобразования текста в информационно богатые признаки. 

Это не означает, что все эти примеры являются всеобъемлющими. Существуют целые академические дисциплины, ориентированные на обработку этого и подобных типов данных и содержимое всех их методов заполнит небольшую библиотеку. 

Несмотря на это есть часто используемые методы, и овладение ими добавит ценные инструменты. 


# 6.1 Очистка текста

**Задача**: Даны некоторые неструктурированные текстовые данные и требуется выполнить их элементарную очистку. 

**Решение**: Большинство элементарных операций очистки текста соответствуют элементарным операциям языка Python над строковыми значениями, в частности `strip`, `replace` и `split`:

In [1]:
# Создам какой-нибудь текст 
text = ['Привет, меня зовут Никита.     ',
        'Сегодня я продуктивный.',
        '    Завтра надеюсь быть таким же!']

# Уберу пробелы
strip_whitspace = [string.strip() for string in text]

strip_whitspace

['Привет, меня зовут Никита',
 'Сегодня я продуктивный',
 'Завтра надеюсь быть таким же!']

In [4]:
# Теперь удалю точки
without_dots = [string.replace('.', '') for string in strip_whitspace]
without_dots

['Привет, меня зовут Никита',
 'Сегодня я продуктивный',
 'Завтра надеюсь быть таким же!']

Также мы обычно применяем свои функции для манипулции с текстом:

In [5]:
# Функция которая переводит слова в верхний регистр
def capitalizer(string:str) -> str:
    return string.upper()

In [6]:
[capitalizer(string) for string in without_dots]

['ПРИВЕТ, МЕНЯ ЗОВУТ НИКИТА',
 'СЕГОДНЯ Я ПРОДУКТИВНЫЙ',
 'ЗАВТРА НАДЕЮСЬ БЫТЬ ТАКИМ ЖЕ!']

Для более мощных операций можно использовать регулярки:

In [23]:
import re

# Понятно по названию что буду менять все буквы на ДАБЛЙУ
def replace_letters_with_W(string:str) -> str:
    return re.sub(r'[а-яА-Я]', 'W', string)

In [24]:
[replace_letters_with_W(string) for string in without_dots]

['WWWWWW, WWWW WWWWW WWWWWW',
 'WWWWWWW W WWWWWWWWWWWW',
 'WWWWWW WWWWWWW WWWW WWWWW WW!']

-----------------------------------------------------------------------------------------------------

**Обсуждение**:

Большинство текстовых данных следует очистить перед тем как их применять для построения признаков. 

Подавляющую часть элементарной очистки текста можно выполнять с помощью стандартных функций Python.

В реальном мире мы скорее всего сами определим функцию очистки (например `capitalizer`), объединяющую несколько задач очистки и применим её к текстовым данным.

**Дополнительные материалы для чтения**:
- "Практическое руководство по регулярным выражениям в Python для начинаю­щих", ресурс для аналитиков данных Analytics Vidhya (http://bit.ly/2HTGZuu). Если не пускает - VPN или другой ресурс =)

# 6.2 Разбор и очистка разметки HTML

**Задача**: Даны текстовые данные с элементами HTML и требуется извлечь только текст. 

**Решение**: Использовать обширный функционал библиотеки BeautifulSoup для анализа и извлечение текста из HTML

In [25]:
# Загружу библиотеку
from bs4 import BeautifulSoup

# Сделаю немного кода на HTML
html = ''' 
       <div class = 'full_name'><span style = 'font-weight:bold'>
       Nikita</span> Anka </div>"
'''

# Выполню разбор HTML
soup = BeautifulSoup(html, 'lxml')

# Найду элемент div с классом 'full_name' и покажу текст
soup.find('div', {'class': 'full_name'}).text

'\n       Nikita Anka '

-----------------------------------------------------------------------------------------------------

**Обсуждение**:

Несмотря на странное название Beautiful Soup - мощная библиотека в Python, предназначенная для 'выскабливания' HTML.

Как правило эта библиотека используется для вычищения живых веб-сайтов, но её можно также легко применять для извлечения текстовых данных, встроенных в HTML. 

Полный спектр операций биб­лиотеки Beautiful Soup выходит за рамки этой книги (проходил её в вузе), но даже те несколько методов, примененных в нашем решении, показывают, как легко можно проанализировать разметку HTML для извлечения данных, которые нам необходимы.

**Дополнительные материалы для чтения**:
- Веб-сайт библиотеки Beautiful Soup (http://bit.ly/2pwZcYs).

# 6.3 Удаление знаков препинания

**Задача**: Дан признак в виде текстовых данных, и требуется удалить знаки препинания.

**Решение**: Определить функцию, которая использует метод `translate` со словарем знаков пре­пинания:

In [4]:
import unicodedata
import sys

# Сделал текст
text_data = ['Hi!!!! I. Love. This. Song....', 
             '10000% Agree! !! !, #LoveIT', 
             'Right?!?!']

In [5]:
# Создаю словарь знаков препинания 
punctuation = dict.fromkeys(i for i in range(sys.maxunicode)
                            if unicodedata.category(chr(i)).startswith('P'))

In [6]:
# Удаляю любые знаки препинания во всех строковых значениях 
[string.translate(punctuation) for string in text_data]

['Hi I Love This Song', '10000 Agree   LoveIT', 'Right']

**Обсуждение**:

Метод `translate` языка Python популярен благодаря своей невероятной скорости. В моем решении сначала мы создали словарь `punctuation`, в котором в качестве ключей размещены все знаки препинания, присутствующие в Юникоде, и в качест­ве значений — None. 

Затем я преобразовал все символы строкового значения, которые находятся среди знаков препинания, в None, фактически удалив их. Существуют более читаемые способы удаления знаков препинания, но это несколько хакерское решение имеет преимущество в том, что оно гораздо быстрее, чем другие альтернативы.

Важно осознавать тот факт, что знаки препинания содержат информацию (напри­мер, сравните "правильно?" и "правильно!"). Удаление знаков препинания часто является необходимым злом для создания признаков; однако, если знаки препина­ния важны, мы должны обязательно принимать их во внимание.

# 6.4 Лексемизация текста

**Задача**: Дан текст и требуется разбить его на отдельные слова

**Решение**: Комплект естественно-языковых инструментов NLTK (Natural Language Toolkit for Python) имеет мощный набор операций над текстом, включая лексемизацию на слова:

In [4]:
import nltk 
nltk.download()



showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [None]:
import nltk
import ssl

try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    pass
else:
    ssl._create_default_https_context = _create_unverified_https_context

nltk.download()

In [7]:
import nltk

In [None]:
# Загрузить библиотеку
from nltk.tokenize import word_tokenize
# Создать текст
string = "Сегодняшняя наука — это технология завтрашнего дня"
# Лексемизировать на слова 
word_tokenize(string)