# Обработка текстов

##  Предобработка текстов 

Правильная предобработка текста позволяет добиться:
* улучшения получаемых результатов
* ускорения экспериментов
* воспроизводимости экспериментов
* удобной интерпретации и презентации результатов

### Наивные методы

In [None]:
sent = ''' «Тинькофф Банк» — российский коммерческий банк, сфокусированный полностью на дистанционном обслуживании
, не имеющий розничных отделений. Штаб-квартира банка расположена в Москве.'''
sent.lower()

In [None]:
sent.split(" ")

### Регулярные выражение

Регулярное выражение — это последовательность символов, используемая для поиска и замены текста в строке или файле

* поиска в строке;
* разбиения строки на подстроки;
* замены части строки.

In [None]:
from IPython.display import Image
Image(filename='CheatSheet.png') 

In [None]:
import re

In [None]:
result = re.match(r'Tinkoff', ' junior Tinkoff the best')
result

In [None]:
result = re.search(r'Tinkoff', 'Tinkoff Junior the Best Team Tinkoff Bank')
result

In [None]:
result = re.findall(r'Tinkoff', 'Tinkoff Junior the Best Team Tinkoff Bank')
result

In [None]:
result = re.split(r'the', 'Tinkoff Junior the Best Team Tinkoff Bank')
result

In [None]:
result = re.sub(r'Bank', 'World', 'Tinkoff Junior the Best Team Tinkoff Bank')
result

можно создавать паттерны

In [None]:
pattern = re.compile('Tinkoff')
result = pattern.findall('Tinkoff Junior the Best Team Tinkoff Bank')
result

In [None]:
line = 'asdf fjdk;afed,fjek,asdf,foo' 
result = re.split(r'[;,\s]', line)
result


In [None]:
# TODO: Оставить в тексте только русские буквы

In [None]:
import re
sent = '''Ночь закрытых дверей!!! Штаб-квартира Tinkoff.ru 27 ноября'''
expr = '[a-zA-Z0-9!.-]'
parser=re.compile(expr)
tmp_string = re.sub(expr, '', sent)
print(tmp_string)

In [None]:
re.sub(r'\s+',r' ',tmp_string )

In [None]:
# TODO: Извлечь домены, заменить все домены на tinkoff.ru

In [None]:
result = re.findall(r'@(\w+).(\w+)', 'abc.test@gmail.com, xyz@test.in, test.first@analyticsvidhya.com, first.test@rest.biz')
result

Больше примеров регулярных выражений: https://regex101.com/r/nG1gU7/27

### Спелл чекеры - проверка правописания

**Левенштейн**

Расстояние Левенштейна (также редакционное расстояние или дистанция редактирования) между двумя строками в теории информации и компьютерной лингвистике — это минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую.

In [None]:
!pip install python-Levenshtein

In [None]:
import Levenshtein

https://pypi.org/project/python-Levenshtein/

In [None]:
Levenshtein.distance('Банк', 'ит-компания')

### Уменьшение словаря
* Плохие слова:
* Слишком частые 
  * русский язык: и, но, я, ты, ... 
  * английский язык: a, the, I, ... 
  * специфичные для коллекции: "сообщать" в новостях
* Слишком редкие
* Стоп-слова 
  *Предлоги, междометия, частицы, цифры

**NLTK**

https://www.nltk.org

In [None]:
import nltk
nltk.download('stopwords')

In [None]:
from nltk.corpus import stopwords
sw_eng = set(stopwords.words('english'))
list(sw_eng)[:6]

In [None]:
from nltk.corpus import stopwords
sw_ru = set(stopwords.words('russian'))
len(sw_ru)

In [None]:
sent = 'Наступило молчание. Графиня глядела на гостью, приятно улыбаясь, впрочем, не скрывая \
того, что не огорчится теперь нисколько, если гостья поднимется и уедет.\
Дочь гостьи уже оправляла платье, вопросительно глядя на мать, как вдруг из\
соседней комнаты послышался бег к двери нескольких мужских и женских ног,\
грохот зацепленного и поваленного стула, и в комнату вбежала тринадцатилетняя девочка,\
запахнув что-то короткою кисейною юбкою, и остановилась посередине комнаты. Очевидно было,\
она нечаянно, с нерассчитанного бега, заскочила так далеко. В дверях в ту же минуту показались\
студент с малиновым воротником, гвардейский офицер, пятнадцатилетняя девочка и толстый румяный\
мальчик в детской курточке.'

clean_sent = ' '.join([word for word in sent.split() if not word in sw_ru])
print('До {} слов'.format(len(sent.split())))
print('После {} слов'.format(len(clean_sent.split())))


In [None]:
clean_sent

In [None]:
sent = 'быть или не быть'
clean_sent = ' '.join([word for word in sent.split() if not word in sw_ru])
clean_sent

### Токенизация
разделение на токены, элементарные единицы текста

In [None]:
light_string = 'Привет, какая у меня полная сумма задолженности по кредитной карте'
light_string.split()

In [None]:
hard_string = 'Ой, у вас несколько кредитных карт, выберите, пожалуйста, одну и введите ее номер'
hard_string.split()

In [None]:
import re

hard_string = 'Привет! Ты видел мр.Смита сегодня утром?'
expr = r'[^(\w.\w)\w\s]'
parser=re.compile(expr)
tmp_string = parser.sub(r'', hard_string)
print(tmp_string.split())

In [None]:
import re

hard_string = 'Привет. Ты видел мр.Смита сегодня утром?'
tmp_string = re.split(r'[!.?]', hard_string)
print(tmp_string)

In [None]:
hard_string = 'Привет. Ты видел мр.Смита сегодня утром?'
exp = r'(?<!\w\.\w.)(?<![А-Я][а-я]\.)(?<=\.|\?)\s'
tmp_string = re.split(exp, hard_string)
print(tmp_string)

### Нормализация

**Стемминг** - нормализация слов путем отбрасывания окончаний (согласно правилам, основанным на грамматике языка)
* Стеммеры (nltk)
    * Porter stemmer
    * Snowball stemmer
    * Lancaster stemmer
    * MyStem

In [None]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer(language='english')
sent = 'George admitted the talks happened'
print(' '.join([stemmer.stem(word) for word in sent.split()]))


In [None]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer(language='english')
sent = 'write wrote written'
print(' '.join([stemmer.stem(word) for word in sent.split()]))

In [None]:
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer(language='russian')
sent = 'Опрошенные считают налоги необходимыми'
print(' '.join([stemmer.stem(word) for word in sent.split()]))

In [None]:
sent = 'поле пол полка полк'
print(' '.join([stemmer.stem(word) for word in sent.split()]))

In [None]:
sent = 'крутой крутейший крутить'
print(' '.join([stemmer.stem(word) for word in sent.split()]))


**Лемматизация** - приведение слов к начальной морфологической форме (с помощью словаря и грамматики языка)

Лемматизаторы:
* pymorphy2 (язык русский, украинский)
* mystem3 (язык русский)
* Wordnet Lemmatizer (NLTK, язык английский, требует POS метку)
* Metaphraz (язык русский)
* Coda/Cadenza (языки русский и английский)

Лемматизатор на самом деле довольно сложно устроены, им нужны теги частей речи (POS).

По умолчанию функция WordNetLemmatizer.lemmatize () будет считать, что это слово является существительным, если на входе не обнаружен тег POS.

Сначала вам понадобится функция pos_tag, чтобы пометить предложение и использовать тег, чтобы преобразовать его в теги WordNet, а затем передать его в WordNetLemmatizer.

Примечание. Лемматизация не будет работать только на одиночных словах без контекста или знании своего тега POS 

In [None]:
from nltk import wordnet, pos_tag
def get_wordnet_pos(treebank_tag):
    my_switch = {
        'J': wordnet.wordnet.ADJ,
        'V': wordnet.wordnet.VERB,
        'N': wordnet.wordnet.NOUN,
        'R': wordnet.wordnet.ADV,
    }
    for key, item in my_switch.items():
        if treebank_tag.startswith(key):
            return item
    return wordnet.wordnet.NOUN

In [None]:
nltk.download('averaged_perceptron_tagger')


In [None]:
sent = 'George admitted the talks happened'.split()
pos_tagged = pos_tag(sent)
print(pos_tagged)

In [None]:
nltk.download('wordnet')

In [None]:
print([get_wordnet_pos(tag) for word, tag in pos_tagged])


In [None]:
from nltk import WordNetLemmatizer
def my_lemmatizer(sent):
    lemmatizer = WordNetLemmatizer()
    tokenized_sent = sent.split()
    pos_tagged = [(word, get_wordnet_pos(tag))
                 for word, tag in pos_tag(tokenized_sent)]
    return ' '.join([lemmatizer.lemmatize(word, tag)
                    for word, tag in pos_tagged])

In [None]:
sent = 'George admitted the talks happened'
my_lemmatizer(sent)

In [None]:
sent = 'write wrote written'
my_lemmatizer(sent)

In [None]:
!pip install pymorphy2

In [None]:
import pymorphy2
def my_lemmatizer_ru(sent):
    lemmatizer = pymorphy2.MorphAnalyzer()
    tokenized_sent = sent.split()
    return ' '.join([lemmatizer.parse(word)[0].normal_form
                    for word in tokenized_sent])

In [None]:
sent = 'Опрошенные считают налоги необходимыми'
my_lemmatizer_ru(sent)

In [None]:
sent = 'Выйду в поле с конем'
my_lemmatizer_ru(sent)

In [None]:
sent = 'крутой крутейший крутить'
print(my_lemmatizer_ru(sent))

*Стемминг *
* Плохо работает для русского языка
* Нормально работает для английского
* Повышает качество модели

*Лемматизация*
* Лучше стемминга для русского языка
* Хорошо работает для английского языка
* Повышает качество модели
* Гораздо медленнее чем стемминг

## Представление текста

### One-hot encoding

Представление словаря в виде бинарных векторов, у которых все значения равны 0, кроме одного, отвечающего за соответствующее слово

In [None]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
corpus = ['Кредитная Дебетовая', 'Дебетовая', 'All Airlines', 'Bravo', 'All games']
label_encoder = LabelEncoder()
corpus_encoded = label_encoder.fit_transform(corpus)

In [None]:
label_encoder.classes_

In [None]:
onehot_encoder = OneHotEncoder(sparse=False)
corpus_encoded = corpus_encoded.reshape(len(corpus_encoded), 1)
corpus_onehot_encoded = onehot_encoder.fit_transform(corpus_encoded)
print(corpus_onehot_encoded)

### CountVectorizer

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
vectorizer


In [None]:
corpus = [
    'This is the first text text text.',
    'This is the second second text.',
    'And the third one.',
    'Is this the first text?',
]
X = vectorizer.fit_transform(corpus)
print(vectorizer.vocabulary_)

In [None]:
X.todense()

### TF-IDF

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
idf_vectorizer = TfidfVectorizer()

In [None]:
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]
Y = idf_vectorizer.fit_transform(corpus)
print(idf_vectorizer.vocabulary_)

In [None]:
Y.todense()

## Задача

In [None]:
from sklearn.datasets import fetch_20newsgroups
categories = ['alt.atheism', 'soc.religion.christian',
              'comp.graphics', 'sci.med']
twenty_train = fetch_20newsgroups(subset='train',
                                  categories=categories, shuffle=True, random_state=42)
twenty_test = fetch_20newsgroups(subset='test',
                                 categories=categories, shuffle=True, random_state=42)

In [None]:
print("\n".join(twenty_train.data[0].split("\n")))

In [None]:
print(twenty_train.target_names[twenty_train.target[0]])

In [None]:
len(twenty_train.data)

In [None]:
twenty_train.target_names

In [None]:
twenty_train.target[:10]

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(twenty_train.data)
X_train_counts.shape

In [None]:
X_test_counts = count_vect.transform(twenty_test.data)
X_test_counts.shape

In [None]:
import warnings

In [None]:
from sklearn.linear_model import SGDClassifier
svm = SGDClassifier()
svm.fit(X_train_counts, twenty_train.target)
predicted = svm.predict(X_test_counts)

In [None]:
from sklearn import metrics
print(metrics.classification_report(twenty_test.target, predicted,
                                    target_names=twenty_test.target_names))

In [None]:
# Самостоятельная работа: попробовать другие преобразования

In [None]:
# Ваш код здесь