# Работа с текстом
Неструктурированные текстовые данные, такие как содержимое книги или твита, являются одними из самых интересных источников признаков и одними из самых сложных для обработки. Рассмотрим стратегии преобразования текста в информационно богатые признаки. 

***

### 1. Очистка текста
##### Задача
Даны некоторые неструктурированные текстовые данные, требуется выполнить их элементарную очистку
##### Решение
Используем элементарные операции языка Python над строковыми значениями: `strip()`, `replace()`, `split()`

In [1]:
# Создать текст
text_data = [
    '  Война и мир. Лев Толстой',
    'Идиот. Федор Достоевский   ',
    ' Узник замка Иф. Александр Дюма ',
]

# Удалить пробелы
strip_whitespace = [string.strip() for string in text_data]

# Показать текст
strip_whitespace

['Война и мир. Лев Толстой',
 'Идиот. Федор Достоевский',
 'Узник замка Иф. Александр Дюма']

In [2]:
# Удалить точки
remove_periods = [string.replace('.', '') for string in strip_whitespace]

# Показать текст
remove_periods

['Война и мир Лев Толстой',
 'Идиот Федор Достоевский',
 'Узник замка Иф Александр Дюма']

Также можно создать собственную функцию преобразования:

In [3]:
# Создать функцию
def capitalizer(string: str) -> str:
    return string.upper()

# Применить функцию
[capitalizer(string) for string in remove_periods]

['ВОЙНА И МИР ЛЕВ ТОЛСТОЙ',
 'ИДИОТ ФЕДОР ДОСТОЕВСКИЙ',
 'УЗНИК ЗАМКА ИФ АЛЕКСАНДР ДЮМА']

Для выполнения строковых операций можно воспользоваться регулярными выражениями:

In [4]:
# Импортировать библиотеку
import re 

# Создать функцию
def replace_letters_with_X(string: str) -> str:
    return re.sub(r"[а-яА-я]", "X", string)

# Применить функцию
[replace_letters_with_X(string) for string in remove_periods]

['XXXXX X XXX XXX XXXXXXX',
 'XXXXX XXXXX XXXXXXXXXXX',
 'XXXXX XXXXX XX XXXXXXXXX XXXX']

Большинство текстовых данных требуется очистить перед тем, как их использовать для построения признаков. Подавляющую часть элементарной очистки текста можно выполнять м помощью стандартных строковых операций Python. На практике имеет смысл разработать собственные функции очистки и включить их в общий pipeline анализа данных.
##### Дополнительные материалы
* ["Практическое руководство по регулярным выражениям в Python"](https://www.analyticsvidhya.com/blog/2015/06/regular-expression-python/)

### 2.  Разбор и очистка разметки HTML
##### Задача 
Даны текстовые данные с элементами HTML, требуется извлечь только текст
##### Решение
Используем набор функциональных средств библиотеки `Beautiful Soup`

In [6]:
# Загрузить библиотеку
from bs4 import BeautifulSoup

# Создать код HTML
html = """
        <div id="shell">
               <h3>
                  Global earthquake activity since 1973 and nuclear power plant locations
               </h3>
        </div>
       """
# Выполнить разбор HTML
soup = BeautifulSoup(html, 'lxml')

# Найти элемент div с id=shell, показать текст
soup.find('div', {'id': 'shell'}).text.strip()

'Global earthquake activity since 1973 and nuclear power plant locations'

`BeautifulSoup` мощная библиотека Python, предназначенная для "выскабливания" HTML. Как правило ее используют для вычищения "живых" веб-сайтов. Но ее также можно применять для извлечения текстовых данных, встроенных в HTML.
##### Дополнительные материалы
* [Библиотека BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)

### 3. Удаление знаков препинания
##### Задача
Дан признак в текстовых данных, и требуется кдалить знаки препинания
##### Решение
Используем функцию `translate()` со словарем знаков препинания

In [11]:
# Загрузить библиотеки
import unicodedata
import sys

# Создать текст
text_data = [
    'Разн!!ообразный и богатый оп,.;ыт говорит нам, ',
    'что в.,.ысокотехнологичная концепция общественного уклада ',
    'является ка;чествен%но новой ступенью анализа существующих паттернов??? поведения. ',
    'Таким образом, убеждённо*сть некоторых оппо?!нентов напрямую',
    'зависит от распред:,.еления внутренних резервов ::и ресурсов.',
]

# Создать словарь знаков препинания
punctuation = dict.fromkeys(
    i for i in range(sys.maxunicode)
    if unicodedata.category(chr(i)).startswith('P')
)

# Удалить любые знаки препинания во всех строковых значениях
[string.translate(punctuation) for string in text_data]

['Разнообразный и богатый опыт говорит нам ',
 'что высокотехнологичная концепция общественного уклада ',
 'является качественно новой ступенью анализа существующих паттернов поведения ',
 'Таким образом убеждённость некоторых оппонентов напрямую',
 'зависит от распределения внутренних резервов и ресурсов']

Метод `translate()` языка Python популярен благодаря невероятной скорости. В данном решение сначала был создан словарь `punctuation`, в котором в качестве ключей размещены все знаки препинания, присутствующие в Юникоде, и в качестве значений – `None`. Затем все символы строкового значения, которые находились среди значков препинания были преобразованы в `None`, фактически удалив их.

Существуют и более читаемые способы удаления знаков препинания, но данное решение значительно быстрее работает, чем остальные.

Важно помнить, что знаки препинания содержат информацию. Например: "правильно?" или "правильно!". Удаление знаков препинания часто является необходимым злом для создания признаков; однако если знаки препинания важны, мы должны принимать их во внимание.

### 4. Лексемизация текста
##### Задача
Дан текст, и тербуется развить его на отдельные слова
##### Решение
Используем комплект естественно-языковых инструментов NLTK (Natural Language Toolkit for Python)

In [16]:
# Загрузить библиотеку
from nltk.tokenize import word_tokenize

# Создать текст
string = 'Сегодняшняя наука — это технология завтрашнего дня'

# Лексемизировать слова
word_tokenize(string)

['Сегодняшняя', 'наука', '—', 'это', 'технология', 'завтрашнего', 'дня']

Лексимизация, в особенности лексимизация на слова, является распространенной задачей после очистки текстовых данных, потому что это первый шаг в процессе превращения текста в данные, которые можно использовать для создания полезных признаков.

### 5. Удаление стоп-слов
##### Задача
Имеются лексимизированные текстовые данные, из которых требуется удалить частые обще употребимые слова
##### Решение
Используем функцию `stopwords()` библиотеки `NLTK`

In [22]:
# Загрузить библиотеки
import nltk
from nltk.corpus import stopwords

# Сформировать набор стоп-слов
nltk.download('stopwords')
stop_words = stopwords.words('russian')

# Создать лексемы слов
text_data = """
    Внезапно, непосредственные участники технического прогресса являются только методом политического участия и 
    смешаны с не уникальными данными до степени совершенной неузнаваемости, из-за чего возрастает их статус 
    бесполезности. Вот вам яркий пример современных тенденций - высокотехнологичная концепция общественного уклада
    влечет за собой процесс внедрения и модернизации приоритизации разума над эмоциями. Но выбранный нами 
    инновационный путь не оставляет шанса для дальнейших направлений развития.
    """

tokenized_words = word_tokenize(text_data)

# Удалить стоп-слова
[word for word in tokenized_words if word not in stop_words][:10]

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/antonneverovich/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['Внезапно',
 ',',
 'непосредственные',
 'участники',
 'технического',
 'прогресса',
 'являются',
 'методом',
 'политического',
 'участия']

Хотя стоп-слова могут относиться к любому набору слов, которые мы хотим удалить перед обработкой, часто этот термин относится к чрезвычайно распространенным словам, которые сами по себе содержат мало информации. NLTK имеет список общеупотребимых стоп-слов, который можно использовать для их отыскания и удаления в наших лексимизированные словах:

In [23]:
# Удалить стоп-слова
stop_words[:5]

['и', 'в', 'во', 'не', 'что']

Следует обратить внимание, что функция `stopwords` библиотеки NLTK исходит из того, ято все лексимизируемые слова находятся в нижнем регистре.

### 6. Выделение основ слов
##### Задача
Даны лексемизированные слова, требуется преобразовать их в корневые формы
##### Решение
Используем класс `PorterStemmer` библиотеки NLTK

In [24]:
# Загрузить библиотеку
from nltk.stem.porter import PorterStemmer

# Создать лексемы слов
tokenized_words = [
    'i',
    'am',
    'humbled',
    'by',
    'this',
    'traditional',
    'meeting',
]

# Создать стеммер
porter = PorterStemmer()

# применить стеммер
[porter.stem(word) for word in tokenized_words]

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

Для слов русского языка имспользуется стеммер `Snowball`:

In [25]:
# Загрузить библиотеку
from nltk.stem.snowball import SnowballStemmer

# Создать лексемы слов
tokenized_words_rus = [
    'Рыбаки',
    'рыбачили',
    'на',
    'реке',
    'и',
    'поймали',
    'большую',
    'рыбу',
]

# Создать стеммер
snowball = SnowballStemmer('russian')

# Применить стеммер
[snowball.stem(word) for word in tokenized_words_rus]

['рыбак', 'рыбач', 'на', 'рек', 'и', 'пойма', 'больш', 'рыб']

Выделение основ слов сводит слово к его основе путем выявления и отсечения окончаний и аффиксов (например, герундийных форм в англ. языке), сохраняя при этом корневой смысл слова. Например, слова $tradition$  и $traditional$ имеют $tradit$ в качестве основы, указывая на то, что хотя это и разные слова, они представляют одно и тоже обще понятийное пространство. Используя текстовые данные можно преобразовать слова во что-то немее читаемое, но близкое к базовому значению, и следовательно более подходящее для сопоставления наблюдений. Класс NLTK `PorterStemmer` реализует широко используемый алгоритм выделения основ Портера, который отсекаетили заменяет общеупотребительные суффиксы для получения основы слова.
##### Дополнительные материалы
* [Алгоритм выделения основ слов (стеммер) Портера](https://tartarus.org/martin/PorterStemmer/)
* [Алгоритм выделения основ слов русского языка (стеммер) Snowball](http://snowball.tartarus.org/algorithms/russian/stemmer.html)

### 7. Лемматизация слов
##### Задача
Даны лексимизированные слова, требуется собрать их в синонимические ряды
##### Решение
Используем класс NLTK `WordNetLemmatizer`

In [29]:
# Загрузить библиотеку
from nltk.stem import WordNetLemmatizer

# Создать лексемы слов
tokenized_words = [
    'go',
    'gone',
    'went',
    'am',
    'be',
    'is',
    'are',
    'were'
]

# Создать леммтизатор
lemmatizer = WordNetLemmatizer()

# Применить лемматизатор
[lemmatizer.lemmatize(word, pos='v') for word in tokenized_words]

['go', 'go', 'go', 'be', 'be', 'be', 'be', 'be']

Аналогично выделению основы слова, лемматизация также собирает разные флективные формы слова в группу, чтобы они могли анализироваться как одинаковые.

В отличие от выделения основы слова, данная процедура более запутанная и требует некоторых дополнительных знаний, нпаример, правильная метка части речи связанная с каждым словом, которое подлежит лемматизации. Результат лематизации называется леммой и в сущности является словом в буквальном смысле. Простой подход с отсечением суффиксов для лемматизации работать не будет, потому что, например, некоторые формы неправильного глагола в английском языке имеют совершенно другую морфологию, чем их лемма. Например, $go, goes, going, went$ и все они должны бысть сопоставлены глаголу $go$.

### 8. Разметка на части речи
##### Задача
Даны текстовые данные, и требуется пометить каждое слово или сомвол своей частью речи
##### Решение
Используем предварительно натренированный разметчик частей речи библиотеки NLTK

In [32]:
# Загрузить библиотеки
from nltk import pos_tag

# Создать текст
text_data = 'Chris loved outdoor running'

# Использовать предварительно натренированный разметчик частей речи
text_tagged = pos_tag(word_tokenize(text_data))

# Показать части речи
text_tagged

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]

В результате получен список кортежей со словом и тегом части речи. NLTK использует метки частей речи текстового корпуса Penn Treebank. Примедем несколько примеров этих меток:

Метка | Часть речи
----- | -----------
NNP   | Имя собственное, единственное число
NN    | Существительное, единственное число или неисчисляемое
RB    | Наречие
VBD   | Глагол, прошедшее время
VBG   | Глагол, герундий или причастие настоящего времени
JJ    | Прилагательное
PRP   | Личное местоимение

После того, как текст был помечен, метки можно использовать для поиска определенных частей речи. Например, вот все существительные:


In [34]:
# Отфильтровать слова
[word for word, tag in text_tagged if tag in ['NN', 'NNS', 'NNP', 'NNPS']]

['Chris']

Более реалистичной является ситуация, когда есть данные, где каждое наблюение содержит твит, и необходимо преобраховать эти предложения в признаки отдельных частей речи. Напрмер, признак $1$, если присутствует собственное существительное, и $0$ в противном случае:

In [35]:
# Загрузить библиотеки
from sklearn.preprocessing import MultiLabelBinarizer

# Создать текст
tweets = [
    'I am eating a burrito for breakfast',
    'Political science is an amzing field',
    'San Francisco is a awesome city',
]

# Создать список
tagged_tweets = []

# Пометить каждое слово и каждый твит
for tweet in tweets:
    tweet_tag = nltk.pos_tag(word_tokenize(tweet))
    tagged_tweets.append([tag for word, tag in tweet_tag])
    
# Применить кодирование с одним активным состоянием, чтобы конвертировать метки в признаки
one_hot_multi = MultiLabelBinarizer()
one_hot_multi.fit_transform(tagged_tweets)

array([[1, 1, 0, 1, 0, 1, 1, 1, 0],
       [1, 0, 1, 1, 0, 0, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0, 0, 1]])

Применив атрибут `classes_` можно увидеть, что каждый признак является меткой части речи:

In [36]:
# Показать имена признаков
one_hot_multi.classes_

array(['DT', 'IN', 'JJ', 'NN', 'NNP', 'PRP', 'VBG', 'VBP', 'VBZ'],
      dtype=object)

Если исследуемый текст написан на английском языке и не относится к специализированной теме, например, к медицине, то самым простым решением являтся использование предварительно натренированного разметчика на части речи NLTK. Однако, если функция `pos_tag` не очень точна, то NLTK также дает возможность натренировать собственный разметчик. Основным недостатком тренировки разметчика является то, что нам нужен большой текстовый корпус, где метка каждого слова известна. Создание такого помеченного корпуса, очевидно, является трудоемкой задачей, и вероятно будет последним средством, к которому стоит обращаться.

С учетом вышесказанного, натренируем разметчик на стандартном корпусе американского английского языка университета Брауна (Brown Corpus). Используем $n$-граммный разметчик с откатом, где $n$ — это количество предыдущий слов, которые необходимо учитывать во время предсказания метки части речи. Сначала принимается во внимание два предыдущих слова, используя триграммный разметчик `TrigramTagger`; если два слова отсутствуют, то принимается во внимание метка предыдущего слова, используя биграммный разметчик `BigramTagger`. Наконец, если и это не удается, используется униграммный разметчик `UnigramTagger`. Для того, чтобы проверить точность разметчика, необходимо разбить текстовые данные на две части. На одной будет происходить тернировка разметчика, на другой – тестирование.

In [39]:
# Загрузить библиотеку
from nltk.corpus import brown
from nltk.tag import UnigramTagger, BigramTagger, TrigramTagger

# Получить текст из стандартного текстового корпуса, разбитого на предложения
sentences = brown.tagged_sents(categories='news')

# Разбить на 4000 предложений для тренировки и 4000 – для тестирования
train = sentences[:4000]
test = sentences[4000:]

# Создать разметчик с откатом
unigram = UnigramTagger(train)
bigram = BigramTagger(train, backoff=unigram)
trigram = TrigramTagger(train, backoff=bigram)

# Показать точность
trigram.evaluate(test)

0.8174734002697437

##### Дополнительные материалы
* [Алфавитный список частей речи текстового корпуса Penn Treebank](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html)
* [Стандартный корпус современного американского варианта английского языка университета Brown](https://en.wikipedia.org/wiki/Brown_Corpus)
* [Определение частей речи слов в русском языке](https://habr.com/ru/post/125988/)

### 9. Кодирование текста в качестве мешка слов
##### Задача
Даны таекстовые данные, требуется создать набор признаков, указывающих на количество вхождений определенного слова в текст
##### Решение
Используем класс `CountVectorizer` библиотеки Scikit-learn

In [40]:
# Загурзить библиотеки
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

# Создать текст
text_data = np.array([
    'Бразилия — моя любовь! Бразилия!',
    'Швеция – лучше',
    'Россия бьет обоих!',
])

# Создать матрицу признаков
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

# Показать матрицу признаков
bag_of_words

<3x8 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

Этот результат является разряженным массивом, который необходим, когда объем текста большой. В данном игрушечном случае для просмотра матрицы частности слов по каждому наблюдения можно применить метод `toarray()`:

In [41]:
bag_of_words.toarray()

array([[2, 0, 0, 1, 1, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 0, 1],
       [0, 1, 0, 0, 0, 1, 1, 0]])

Для просмотра слов, связанного с каждым признаком, можно применить метод `get_features_names()`:

In [42]:
# Показать имена признаков
count.get_feature_names()

['бразилия', 'бьет', 'лучше', 'любовь', 'моя', 'обоих', 'россия', 'швеция']

Этот результат может сбить с толку, поэтому для ясности покажем эту матрицу как таблицу, где имена столбцов будут именами признаков, а каждая строка – наблюдением:

In [47]:
import pandas as pd
pd.DataFrame(data=bag_of_words.toarray(), columns=count.get_feature_names())

Unnamed: 0,бразилия,бьет,лучше,любовь,моя,обоих,россия,швеция
0,2,0,0,1,1,0,0,0
1,0,0,1,0,0,0,0,1
2,0,1,0,0,0,1,1,0


Олним из наиболее распространенных методов преобразования текста в признаки является использование модели *мешка слов*. Эти модели выводят признак для каждого уникального слова в текстовых данных, при этом каждый признак содержит Количество вхождений в наблюдениях. Поскольку модель мешка слов создает признаки для каждого уникального слова, на практике результирующая матрица может содержать тысячи признаков. В таких случаях необходимо уменьшать объем данных.

Для этого можно воспользоваться общей особенностью мешка слов. Большинство слов, скорее всего, не встреаются в большинстве наблюдений, и поэтому матрицы признаков на основе мешка слов будут в качестве значений содержать нули. Такие матрицы называются *разряженными*. Вместо того, чтобы хранить все значения, можно хранить только ненулевые значения, исходя из того, что все остальные равны $0$. При наличии крупных матриц признаков – такой подход может сэкономить оперативнуб память. Одной из особенностей векторизатора частотностей `CountVectorizer` является то, что результатом по умточанию будет разряженная матрица.

Класс `CountVectorizer` сопровождается рядом полезных параметров, которые упрощают создание матриц признака на основе мешка слов.
* Во-первых, хотя каждый признак является словом, это не обязательно. Вместо этого можно установить, чтобы каждый признак был комбинацией двух слов (2-граммы) или даже трех слов (3-граммы). Парметр, `ngram_range=` устанавливает минимальный и максимальный размеры $n$-грамм. Например, параметр `ngram_range=(2,3)` вернет все 2-граммы и 3-граммы.
* Во-вторых, можно легко удалить слово с низкой информацией, используя стоп-слова в параметре `stop_words=`, либо с помощью встроенного, либо с помощью собственного псика стоп-слов.
* В-третьих, можно ограничить слова или фразы, которые необходимо рассмотреть, заданные списком слов, используя параметр `vacabulary=`. Например, можно создать матрицу признаков на сонове мешка слов только для вхождений названий стран:

In [49]:
# Создать матрицу признаков с аргументами
count_2gram = CountVectorizer(ngram_range=(1, 2),
                             stop_words='english',  # или использовать собственный список
                             vocabulary=['бразилия'])
bag = count_2gram.fit_transform(text_data)

# Взглянуть на матрицу признаков
bag.toarray()

array([[2],
       [0],
       [0]])

In [50]:
# Взглянуть на 1-граммы и 2-граммы
count_2gram.vocabulary_

{'бразилия': 0}

##### Дополнительные материалы
* ["N-граммы"](https://ru.wikipedia.org/wiki/N-%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0)
* ["Мешок слов встречается со стаканом попкорна"](https://www.kaggle.com/c/word2vec-nlp-tutorial)

### 10. Взвешивание важности слов
##### Задача
Требуется мешок слов, но сословами, взвешенными по их важности для наблюдения
##### Решение
Для сравнения частоты слов в документе с частотой слов в других документах используется статистическая мера словарной частоты (tf-idf).

Используем класс `TfidVectorizer` библиотеки Scikit-learn

In [52]:
# Загрузить библиотеки
from sklearn.feature_extraction.text import TfidfVectorizer

# Создать матрицу признаков на основе меры tf-idf
tfdif = TfidfVectorizer()
feature_matrix = tfdif.fit_transform(text_data)

# Показать матрицу признаков на основе меры tf-idf
feature_matrix

<3x8 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

Как и в предыдущем примере получется разряженная матрица, однако если требуется взглянуть на рещультат, как на плотную матрицу, можно использовать метод `toarray()`:

In [53]:
# Показать плотную матрицу признаков на основе tf-idf
feature_matrix.toarray()

array([[0.81649658, 0.        , 0.        , 0.40824829, 0.40824829,
        0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.70710678, 0.        , 0.        ,
        0.        , 0.        , 0.70710678],
       [0.        , 0.57735027, 0.        , 0.        , 0.        ,
        0.57735027, 0.57735027, 0.        ]])

Атрибут `vocabulary_` показывает слово каждого признака:

In [54]:
tfdif.vocabulary_

{'бразилия': 0,
 'моя': 4,
 'любовь': 3,
 'швеция': 7,
 'лучше': 2,
 'россия': 6,
 'бьет': 1,
 'обоих': 5}

Чем чаще слово поялятся в документе, тем более вероятно, что оно важно для этого документа. Например, если слово *\"экономика\"* встречается часто, то это свидетельствет о том, что это документ может касаться экономики. Данная мера частотной встречаемости слова в документе назывется *словарной частостой (tf)*.

Напротив, если слово появляется во многих документах, оно скорее всего , менее важно для любого отдельного документа. Напрмер, если в каждом документе встречается слово *\"после\"*, то это слово, скорее всего, не представляет важность. Такая мера частотной встречаемости слова во всех документах называется *документной частотой (df)*. 

Объединив эти два статистических показателя, можно определить оценку каждому слову, тем самым показывая, насколько важно слово в документе. В частности, необходимо умножить $tf$ на обратную частоту документа $idf$:
$$tf-idf(t, d) = tf(t, d) \cdot idf(t, d)$$
где $t$ – слово, $d$ – документ.

Существует ряд отличий в том, как рассчитываются $tf$ и $idf$. В библиотеке Scikit-learn $tf$ – это просто количество раз, когда слово появляется в документе, а $idf$ – рассчитывается следующим образом:
$$idf(t) = log \frac{1 + n_d}{1 + df(d, t} + 1$$
где $n_d$ – это количество документов, $df(d, t)$ –документная частота слова $t$ (т.е. количество документов, в которых появляется это слово).

По умолчанию Scikit-learn затем нормализует векторы $tf-idf4$, используя евклидову норму $L^2$, чем выше результирующее значение, тем важнее слово для документа.

##### Дополнительные материалы
* [Документация библиотеки Scikit-learn: вщвешивание на основе весогового коэффициента tf-idf](https://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting)