# Семинар 1. Предобработка текстовых данных

<img src="data/imgs/photo-1472737817652-4120ab61af6c.jpeg">

Компьютеры не понимают человеческие языки, поэтому текстовые данные нужно каким-то образом преобразовывать. Это часто не простой и не тривиальный процесс. На этом занятии мы разберем основные способы очистки данных, нормализации и векторизации. Также мы посмотрим на готовые интрументы, предназначенные для работы с русским языком. В конце занятия мы попробуем порешать задачу автоматического определения тональности твитов.

## Очистка данных

Часто в данных, с которыми нам нужно работать помимо текста присутствует ещё какая-то лишняя информация: тэги, ссылки, код, разметка. От всего этого нужно избавляться.

In [None]:
# сразу импортируем все нужные библиотеки
# подробнее о каждой из них я расскажу по ходу
import string
from nltk.tokenize import word_tokenize, wordpunct_tokenize
from pymorphy2 import MorphAnalyzer
from pymystem3 import Mystem
from nltk.corpus import stopwords
from string import punctuation
import re
mystem = Mystem()
morph = MorphAnalyzer()

<font color=red>Ошибки:</font>
Если возникает ошибка **ImportError**, значит у вас не установлен какой-то пакет.
выполните в консоли *"pip install package_name"* (или pip3, если у вас две разные версии питона).
Также это можно сделать и внутри ноутбука, просто поставьте **!** перед командой

In [None]:
!pip3 install nltk pymystem3 pymorphy2

Если ругается **nltk**, нужно запустить *nltk.download()* и скачать нужные модели или данные.

In [None]:
import nltk
nltk.download()

Возьмем в качестве примера несколько статей с Хабрахабра. Они были скачаны автоматически и в них остались некоторые тэги.

In [None]:
# загрузим статьи в список
habr_texts = [open('data/habr/habr_{}.txt'.format(i)).read() for i in range(5)]

In [None]:
# посмотрим на статью
print(habr_texts[1])

В html все тэги заключаются в угловые скобки. Мы можем использовать это, чтобы легко избавиться от всех тэгов сразу. Напишем простую регулярку, которая будет удалять всё, что попадает между символами **<** и **>** и не является **>**.

In [None]:
# re - модуль регулярных выражений в питоне
# функция sub заменяет все, что подходит под шаблон, на указанный текст
def remove_tags_1(text):
    return re.sub(r'<[^>]+>', '', text)

Проверим как работает наша функция.

In [None]:
print(remove_tags_1(habr_texts[1]))

Можно заметить, что в некоторых местах удаление тэгов приводит к тому, что между точкой и началом следующего 
предложения нет пробела, а это может помешать правильно токенизировать текст,
поэтому сделаем так, чтобы тэг заменялся пробелом.

In [None]:
def remove_tags_2(text):
    return re.sub(r'<[^>]+>', ' ', text)

In [None]:
print(remove_tags_2(habr_texts[0]))

Теперь куски текста не слипаются, но появились последовательности из нескольких пробелов, чтобы убрать их, добавим ещё одно регулярное выражение и применим его к тексту, из которого уже удалили тэги.

In [None]:
def remove_tags_3(text):
    no_tags_text = re.sub(r'<[^>]+>', ' ', text)
    no_space_sequences_text = re.sub('  +', ' ', no_tags_text)
    return no_space_sequences_text

In [None]:
print(remove_tags_3(habr_texts[3]))

Теперь текст более менее чистый.

## Токенизация

Из текста теперь нужно выделить интересующие нас объекты. Чаще всего нужно просто слова.

Самый простой способ поделить текст на слова — стандартный питоновский ***str.split*** метод.
    По умолчанию он разбивает текст по последовательностям пробелов
 (т.е. даже со второй версией remove_tags всё бы хорошо разделилось).

Попробуем на какой-нибудь очищенной статье.

In [None]:
clean_habr_texts = [remove_tags_2(text) for text in habr_texts]

In [None]:
clean_habr_texts[1].split()

Большая часть слов отделяется, но знаки препинания лепятся к словам.
Можно пройтись по всем словам и убрать из них пунктцацию с методом str.translate.

In [None]:
#основные знаки преминания хранятся в питоноском модуле string.punctuation
string.punctuation

In [None]:
# сделаем словарь, который будет всем знакам препинания сопостовлять None
# и преобразуем текст
table = str.maketrans({ch: None for ch in string.punctuation})
[word.translate(table) for word in clean_habr_texts[3].split()][:10]

Все разобралось очень хорошо, остались слова в кавычках-елочках и лапках, длинное тире, но наверное это и к лучшему.
Не к лучшему то, что многоточие не удаляется.
Ещё можно отметить то, что такой способ будет, например, удалять апострофы.

In [None]:
"father's".translate(table)

Исправить и то и другое можно добавив или удалив какие-то знаки пунктуации к/из ***string.punctuation***.

In [None]:
punct_extended = string.punctuation + '«»—…“”'
table = str.maketrans({ch: None for ch in punct_extended})
[word.translate(table) for word in clean_habr_texts[3].split()][:10]

In [None]:
punct_no_apostrophie = re.sub("'", '', string.punctuation)
table = str.maketrans({ch: None for ch in punct_no_apostrophie})
print("father's".translate(table))

Ещё есть готовые токенизаторы из nltk. Они не удаляют пунктуацию, а выделяют её отдельным токеном

Например ***wordpunct_tokenizer*** разбирает по регулярке - '**\w+|[^\w\s]+**'

In [None]:
wordpunct_tokenize(clean_habr_texts[1])

Ещё есть ***word_tokenize***. Он также построен на регулярках, но они там более сложные (учитывается последовательность некоторых 
символов, символы начала, конца слова и т.д). 

Специально подобранного под русский язык токенизатора там нет, 
но и с английским всё работает достаточно хорошо:
сокращения типа **т.к** собираются в один токен, дефисные слова тоже не разделяются. Многоточия тут тоже не отделяются, но это можно поправить.

In [None]:
word_tokenize(clean_habr_texts[3])

# Нормализация

Часто после выделения слов (или других вещей) нужно привести разные формы одного слова к одной стандартной или получить подробную информацию об отдельном слове.

Эта задача уже в разы сложнее предыдущих. Простой функцией тут не отделаешься. К счастью, есть готовые инструменты.

Для русского основых варианта два: Mystem и Pymorphy.

Майстем работает немного лучше и сам токенизирует,
поэтому можно в него засовывать сырой текст.

In [None]:
# mystem.lemmatize функция лемматизации в майстеме
# сам объект mystem нужно заранее инициализировать
# мы сделали это в начале тетрадки строчкой "mystem = Mystem()"
mystem.lemmatize(clean_habr_texts[1])[:10]

In [None]:
# Если нужна грамматическая информация или надо сохранить ненормализованный текст,
# есть функция mystem.analyze
words_analized = mystem.analyze(clean_habr_texts[1])

In [None]:
# возвращает она список словарей
# каждый словарь имеет либо одно поле 'text' (когда попался пробел) или text и analysis
# в analysis снова список словарей с вариантами разбора (первый самый вероятный)
# поля в analysis - 'gr' - грамматическая информация, 'lex' - лемма
# analysis - может быть пустым списком
words_analized[:10]

In [None]:
print('Слово - ', words_analized[0]['text'])
print('Разбор слова - ', words_analized[0]['analysis'][0])
print('Лемма слова - ', words_analized[0]['analysis'][0]['lex'])
print('Грамматическая информация слова - ', words_analized[0]['analysis'][0]['gr'])

In [None]:
#леммы можно достать в одну строчку
[parse['analysis'][0]['lex'] for parse in words_analized if parse.get('analysis')][:10]

Недостатки Mystem: это продукт Яндекса с некоторыми ограничениями на использование, больше он не развивается.

Pymorphy - открытый и развивается (можно поучаствовать на гитхабе)

Ссылка на репозиторий: https://github.com/kmike/pymorphy2

У него нет втстроенной токенизации и он расценивает всё как слово (это одновременно плюс и минус).

In [None]:
# основная функция - pymorphy.parse
words_analized = [morph.parse(token) for token in word_tokenize(clean_habr_texts[2])]

In [None]:
# Она похожа на analyze в майстеме только возрващает список объектов Parse
# Первый в списке - самый вероятный разбор (у каждого есть score)
# Информация достается через атрибут (Parse.word - например)
# Грамматическая информация хранится в объекте OpencorporaTag и из него удобно доставать
# части речи или другие категории
print('Cлово - ', words_analized[0][0].word)
print('Разбор слова - ', words_analized[0][0])
print('Лемма слова - ', words_analized[0][0].normal_form)
print('Грамматическая информация слова - ', words_analized[0][0].tag)
print('Часть речи слова - ', words_analized[0][0].tag.POS)
print('Род слова - ', words_analized[0][0].tag.gender)
print('Число  слова - ', words_analized[0][0].tag.number)
print('Падеж слова - ', words_analized[0][0].tag.case)

## Дополнительная очистка текста

Пунктуация часто совсем не нужна и поэтому можно выбросить её заранее. Если нужно обрабатывать много текста, это может немного ускорить процесс.


In [None]:
# Оставим только буквено-численные токены
# Это не самый лучший вариант, так как удалятся сокращения с точкой, слова через дефис
text = 'В этом случае слова вроде т.к. и по-другому не пройдут фильтр и будут удалены.'
good_tokens = [word for word in word_tokenize(text) if word.isalnum()]
[morph.parse(token)[0].normal_form for token in good_tokens]

In [None]:
#можно сделать фильтр по длине, или оставить всё, что не целиком состоит из знаков препинания
good_tokens = [word for word in word_tokenize(text) if len(word) > 1 
                                                    and not all([ch in punct_extended for ch in word])]
[morph.parse(token)[0].normal_form for token in good_tokens]

Если не хочется делать нормализацию, то можно хотя бы просто привести все слова к одному регистру.

In [None]:
print('СпАсИбО'.lower())
print('СпАсИбО'.upper())
print('СпАсИбО'.capitalize())

После нормализации можно убрать стоп-слова (предлоги, союзы, местоимения, частотные слова).

In [None]:
# стоп-слова есть в nltk
stops = stopwords.words('russian')
print(stops)

Список не идеальный и его можно расширять под свои задачи (в примере можно бы ещё удалить слово "это" и "вроде")

In [None]:
words_normalized = [morph.parse(token)[0].normal_form for token in good_tokens]
words_normalized_no_stops = [word for word in words_normalized if word not in stops]
print(words_normalized_no_stops)

# Классификация

Попробуем теперь применить эти знания на настоящей задаче. Возьмем данные Dialog Evaluation по анализу тональности твитов пользователей в адрес телекоммуникационных компаний. В изначальной формулировке нужно определять тональность относительно упомянутой компании, но мы упростим её до простого определения тональности твита.

Таким образом нам нужно по тексту твита приписать ему класс - негативный, нейтральный или положительный.

In [None]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import precision_score, recall_score, f1_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt
%matplotlib inline  
pd.set_option('max_colwidth', 1000)

In [None]:
# я заранее подготовил для вас данные
train_data = pd.read_csv('data/sentiment_twitter/train_sentiment_ttk.tsv', sep='\t')
test_data = pd.read_csv('data/sentiment_twitter/test_sentiment_ttk.tsv', sep='\t')

Посмотрим на данные, чтобы убедиться, что всё нормально

In [None]:
train_data.head()

In [None]:
test_data.head()

Проверим распределение классов (-1 - негативный отзыв, 1 - положительный, 0 - отрицательный)

In [None]:
train_data.label.hist()

In [None]:
test_data.label.hist()

Видно, что положительный заметно меньше. 

Посмотрим на какой-нибудь негативный твит.

In [None]:
train_data['text'][10]

И на положительный

In [None]:
train_data['text'][9]

## Бейзлайн

В начале стоит попробовать самый простой возможный вариант. 
Count_vectorizer - без какой-либо нормализации подойдет.

Почти у всего в sklearn индентичный интерфейс. 
1. Нужно инициализировать нужный объект

    ***`vectorizer = CountVectorizer()`***

2. "Обучить" модель на наших данных.
    
    ***`vectorizer.fit(texts)`***
    
3. Преобразовать с помощью обученной модели наши данные в вектора.
    
    ***`X = vectorizer.transform(texts)`***

In [None]:
# посмотрим какие опции есть у count_vectorizer
?CountVectorizer

In [None]:
# у count_vectorizer есть встроенный токенизатор, поэтому можно подавать текст напрямую
# обучим векторайзер на обучающей выборке и преобразуем тексты в векторы
count_vectorizer = CountVectorizer()
count_vectorizer.fit(train_data.text.values) 

X_train = count_vectorizer.transform(train_data.text.values)
X_test = count_vectorizer.transform(test_data.text.values)

In [None]:
# посмотрим на размеры матрицы
# первое число - количество твитов
# второе - размер каждого вектора (равен размеру словаря)
X_train.shape

In [None]:
# нужно чтобы второе число совпадало в обучающей и тестовой выборке
X_test.shape

In [None]:
# выделим классы в отдельные переменные
y_train = train_data.label.values
y_test = test_data.label.values

В качесте классификатора будем использовать Логистическую регрессию.

Интерфейс почти в точности такой же. 
1. Нужно инициализировать нужный объект

    ***`clf = LogisticRegression()`***

2. Обучить модель на наших заранее преобразованных данных.
    
    ***`clf.fit(X)`***
    
3. Предсказать классы на новых данных.
    
    ***`preds = clf.predict(texts)`***

In [None]:
#также можно для начала посмотреть параметры
#основной параметр это С, коэффициент регуляризации.
#Регуляризация нужна для того, чтобы ограничить значения выучиваемых параметров, чтобы избежать переобучения
# l2 стоит по умолчанию и обычно лучше работает, но
# l1 зануляет ненужные признаки и увеличивает значения важных
# поэтому её можно использовать для отбора признаков
#попробуйте перебрать значения (0.01, 0.1, 1(по умолчанию), 10, 100)
?LogisticRegression

In [None]:
clf = LogisticRegression(penalty="l1", C=0.1)
clf.fit(X_train, y_train)

In [None]:
# предскажем значения тестовых твитов
y_pred = clf.predict(X_test)

In [None]:
# замерим качество классификации
print(classification_report(y_test, y_pred))
print('Макросредняя F1 мера - ',f1_score(y_test, y_pred, average='macro'))
print('Микросредняя F1 мера - ',f1_score(y_test, y_pred, average='micro'))

У некоторых классификаторов можно посмотреть значимость признаков. У логрега они хранится в ***clf.coef_*** . Это массив размером (количество классов, количество признаков). 

Признаки можно достать из векторайзера с помощью метода ***get_feature_names***.

Вместе их можно соотнести встроеной функцией *zip*. При использовании **L1** регуляризации значений признака можно интерпретировать как важность.

In [None]:
def print_important(vectorizer, clf, topn=10):
    features = vectorizer.get_feature_names()
    classes = clf.classes_
    importances = clf.coef_
    for i, cls in enumerate(classes):
        print('Значимые слова для класса - ', cls)
        important_words = sorted(list(zip(features, importances[i])), key=lambda x: abs(x[1]), reverse=True)[:topn]
        print([word for word,_ in important_words])
        print()


In [None]:
print_important(count_vectorizer, clf)

Для визуализации важных слов можно ещё использовать библиотеку **wordcloud**.

In [None]:
#!pip install wordcloud

In [None]:
from wordcloud import WordCloud

In [None]:
top = 150
features = count_vectorizer.get_feature_names()
importances = clf.coef_
classes = clf.classes_
words_with_weights = sorted(list(zip(features, importances[0])),key=lambda x: abs(x[1]), reverse=True)
only_words = [word for word,_ in words_with_weights][:top]

cloud = WordCloud(width=1000, height=500).generate(' '.join(only_words))
plt.figure(figsize=(15, 15))
plt.imshow(cloud)
plt.axis('off')

### Попробуем теперь TfidfVectorizer.

In [None]:
# интерфейс точно такой же, но немного отличаются параметры
# токенизация по умолчанию также включена, поэтому подаём текст как есть
?TfidfVectorizer

In [None]:
tfidf = TfidfVectorizer()
tfidf.fit(train_data.text.values)
X_train = tfidf.transform(train_data.text.values)
X_test = tfidf.transform(test_data.text.values)

In [None]:
X_train.shape

In [None]:
clf = LogisticRegression(penalty='l1')
clf.fit(X_train, y_train)

In [None]:
y_pred = clf.predict(X_test)

In [None]:
# замерим качество классификации
print(classification_report(y_test, y_pred))
print('Макросредняя F1 мера - ',f1_score(y_test, y_pred, average='macro'))
print('Микросредняя F1 мера - ',f1_score(y_test, y_pred, average='micro'))

Также бывает полезно посмотреть на confision matrix.

Для красоты визуализируем с помощью библиотеки seaborn.

In [None]:
#!pip install seaborn

In [None]:
import seaborn as sns

In [None]:
labels = clf.classes_
fig, ax = plt.subplots(figsize=(10,5))
sns.heatmap(data=confusion_matrix(y_test, y_pred), annot=True, 
            fmt="d", xticklabels=labels, yticklabels=labels, ax=ax)
plt.title("Confusion matrix")
plt.show()

In [None]:
# если не устанавливается, посмотрите просто так
confusion_matrix(y_test, y_pred)

In [None]:
print_important(tfidf, clf, 20)

## Улучшение качества классификации

#### По самым характерным словам видно, что в корпусе есть мусор, стоп слова, разные формы одного слова. Чтобы улучшить результат попробуйте почистить данные и добавить нормализацию.

In [None]:
def normalize(text):
    """
    функция нормализации
    
    ::парметры::
    @text - ненормализованный текст (string)
    
    ::returns::
    нормализованный текст (string)
    """
    
    tokens = # ваш код здесь
    lemmas = # ваш код здесь
    
    return ' '.join(lemmas)
    

Чтобы применить нормализацию ко всему корпусу, воспользуйтесь функцией apply.

In [None]:
train_data['normalized'] = train_data['text'].apply(normalize)
test_data['normalized'] = test_data['text'].apply(normalize)

Обучите новую модель на нормализованных данных.

In [None]:
tfidf = TfidfVectorizer()
tfidf.fit(train_data['normalized'].values)

X_train = tfidf.transform(train_data['normalized'].values)
X_test = tfidf.transform(test_data['normalized'].values)

In [None]:
clf = LogisticRegression()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

In [None]:
print(classification_report(y_test, y_pred))
print('Макросредняя F1 мера - ',f1_score(y_test, y_pred, average='macro'))
print('Микросредняя F1 мера - ',f1_score(y_test, y_pred, average='micro'))