## Предобработка текста с помощью Python 

### 1.Введение в библиотеку re

Регулярное выражение — это последовательность символов, используемая для поиска и замены текста в строке или файле.

Регулярные выражения используют два типа символов:

- специальные символы: как следует из названия, у этих символов есть специальные значения. 
- литералы (например: a, b, 1, 2 и т. д.).

Примеры регулярных выражений:

- . – любой символ, кроме перевода строки;
- \w – одно слово;
- \d – одна цифра;
- \s – один пробел;
- \W – одно НЕслово;
- \D – одна НЕцифра;
- \S – один НЕпробел;
- [abc] – находит любой из указанных символов match any of a, b, or c;
- [^abc] – находит любой символ, кроме указанных;
- [a-g] – находит символ в промежутке от a до g.


В Python для работы с регулярными выражениями есть модуль re. Для использования его нужно импортировать:

In [1]:
import re
help(re)

Help on module re:

NAME
    re - Support for regular expressions (RE).

DESCRIPTION
    This module provides regular expression matching operations similar to
    those found in Perl.  It supports both 8-bit and Unicode strings; both
    the pattern and the strings being processed can contain null bytes and
    characters outside the US ASCII range.
    
    Regular expressions can contain both special and ordinary characters.
    Most ordinary characters, like "A", "a", or "0", are the simplest
    regular expressions; they simply match themselves.  You can
    concatenate ordinary characters, so last matches the string 'last'.
    
    The special characters are:
        "."      Matches any character except a newline.
        "^"      Matches the start of the string.
        "$"      Matches the end of the string or just before the newline at
                 the end of the string.
        "*"      Matches 0 or more (greedy) repetitions of the preceding RE.
                 Greedy 

Чаще всего регулярные выражения используются для:
- поиска в строке;
- разбиения строки на подстроки;
- замены части строки.

Давайте посмотрим на методы, которые предоставляет библиотека re для этих задач.

#### re.match(pattern, string):

Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод match() на строке «find matched pattern» с шаблоном «find», то он завершится успешно. Однако если мы будем искать «matched», то результат будет отрицательный.

In [9]:
result = re.match(r'find', 'find matched pattern')
print(result.group(0))

result = re.match(r'matched', 'find matched pattern')
print(result)

find
None


In [4]:
result = re.match(r'find', 'find matched pattern find')
print(result.group(0))


find


#### re.search(pattern, string)

Этот метод похож на match(), но он ищет не только в начале строки. В отличие от предыдущего, search() вернет объект, если мы попытаемся найти «matched».

In [12]:
result = re.search(r'matched', 'find matched pattern')
print(result.group(0))

matched


#### re.findall(pattern, string)

Этот метод возвращает список всех найденных совпадений. У метода findall() нет ограничений на поиск в начале или конце строки. Для поиска рекомендуется использовать именно findall(), так как он может работать и как re.search(), и как re.match().

In [13]:
result = re.findall(r're', 'we want re to find all re in this text re')
print(result)

['re', 're', 're']


Вернуть список доменов из списка адресов электронной почты.
Online regex tester and debugger: https://regex101.com/

In [20]:
result = re.findall(r'@\w+.\w+', 'abc.test@gmail.com, xyz@test.in, test.first@mail.ru')
print(result)


['@gmail.com', '@test.in', '@mail.ru']


Извлечь дату из строки.

In [23]:
result = re.findall(r'\d{2}-\d{2}-\d{4}', 'Name 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009')
print(result)

['12-05-2007', '11-11-2011', '12-01-2009']


#### re.split(pattern, string, [maxsplit=0])

Этот метод разделяет строку по заданному шаблону.

In [16]:
result = re.split(r'e', 'we want to devide')
print(result)

['w', ' want to d', 'vid', '']


#### re.sub(pattern, repl, string)

Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.


In [18]:
result = re.sub(r'Russia', 'the World', 'I want to be the best nlp specialist in Russia')
print(result)


I want to be the best nlp specialist in the World


#### Удаление пунктуации

Мы можем использовать регулярные выражения для дополнительного фильтрова

In [60]:
text = 'Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia.'
no_punctuation_text = re.sub(r'[^\w\s]',' ', text)
no_punctuation_text

'Russian is an East Slavic language  which is an official language in Russia  Belarus  Kazakhstan  Kyrgyzstan  as well as being widely used throughout Eastern Europe  the Baltic states  the Caucasus and Central Asia '

### 2.Токенизация

Привести к нижнему регистру  .lower()

In [32]:
text = 'This is a Demo Text for NLP using NLTK. Full form of NLTK is Natural Language Toolkit'
lower_text = text.lower()
print(lower_text)

this is a demo text for nlp using nltk. full form of nltk is natural language toolkit


Разделить строку на отдельные слова  re.split()

In [40]:
bag_of_words = re.split(r' ', lower_text)
bag_of_words

['this',
 'is',
 'a',
 'demo',
 'text',
 'for',
 'nlp',
 'using',
 'nltk.',
 'full',
 'form',
 'of',
 'nltk',
 'is',
 'natural',
 'language',
 'toolkit']

### 3. Подсчет частот слов TF, IDF

TF (term frequency — частота слова) – отношение числа вхождений слова к общему числу слов документа.

In [43]:
def computeTF(word_dict, bag_of_words):
    tf_dict = {}
    bag_of_words_count = len(bag_of_words)
    for word, count in word_dict.items():
        tf_dict[word] = count / float(bag_of_words_count)
    return tf_dict

unique_words = set(bag_of_words)

num_of_words = dict.fromkeys(unique_words, 0)
for word in bag_of_words:
    num_of_words[word] += 1

tf = computeTF(num_of_words, bag_of_words)
tf

{'demo': 0.058823529411764705,
 'of': 0.058823529411764705,
 'full': 0.058823529411764705,
 'this': 0.058823529411764705,
 'is': 0.11764705882352941,
 'using': 0.058823529411764705,
 'a': 0.058823529411764705,
 'form': 0.058823529411764705,
 'language': 0.058823529411764705,
 'toolkit': 0.058823529411764705,
 'text': 0.058823529411764705,
 'natural': 0.058823529411764705,
 'for': 0.058823529411764705,
 'nltk': 0.058823529411764705,
 'nltk.': 0.058823529411764705,
 'nlp': 0.058823529411764705}

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции.

In [44]:
text = 'nltk is a basic nlp library'
bag_of_words_2 = re.split(r' ', text)

In [46]:
def computeIDF(documents):
    import math
    N = len(documents)
    
    idf_dict = dict.fromkeys(documents[0].keys(), 0)
    for document in documents:
        for word, val in document.items():
            if val > 0:
                idf_dict[word] += 1
    
    for word, val in idf_dict.items():
        idf_dict[word] = math.log(N / float(val))
    return idf_dict

unique_words = set(bag_of_words).union(set(bag_of_words_2))

num_of_words = dict.fromkeys(unique_words, 0)

for word in bag_of_words:
    num_of_words[word] += 1
    
num_of_words_2 = dict.fromkeys(unique_words, 0)

for word in bag_of_words_2:
    num_of_words_2[word] += 1

idfs = computeIDF([num_of_words, num_of_words_2])
idfs

{'of': 0.6931471805599453,
 'full': 0.6931471805599453,
 'this': 0.6931471805599453,
 'form': 0.6931471805599453,
 'library': 0.6931471805599453,
 'language': 0.6931471805599453,
 'toolkit': 0.6931471805599453,
 'nlp': 0.0,
 'demo': 0.6931471805599453,
 'is': 0.0,
 'using': 0.6931471805599453,
 'a': 0.0,
 'text': 0.6931471805599453,
 'natural': 0.6931471805599453,
 'for': 0.6931471805599453,
 'nltk': 0.0,
 'basic': 0.6931471805599453,
 'nltk.': 0.6931471805599453}

TF-IDF (сокращение от term frequency — inverse document frequency) – это статистическая мера для оценки важности слова в документе, который является частью коллекции или корпуса.

In [38]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

document = ["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']
tfidf_vectorizer = TfidfVectorizer()
values = tfidf_vectorizer.fit_transform(document)

# Show the Model as a pandas DataFrame
feature_names = tfidf_vectorizer.get_feature_names()
pd.DataFrame(values.toarray(), columns = feature_names)

Unnamed: 0,awesome,funny,hate,it,like,love,movie,nice,one,this,was
0,0.0,0.571848,0.0,0.365003,0.450852,0.0,0.450852,0.0,0.0,0.365003,0.0
1,0.0,0.0,0.702035,0.0,0.0,0.0,0.553492,0.0,0.0,0.4481,0.0
2,0.539445,0.0,0.0,0.344321,0.425305,0.0,0.0,0.0,0.0,0.344321,0.539445
3,0.0,0.0,0.0,0.345783,0.0,0.541736,0.0,0.541736,0.541736,0.0,0.0


### 4.Введение в библиотеку NLTK

#### NLTK (Natural Language Toolkit)
Ведущая платформа для создания NLP-программ на Python. У нее есть легкие в использовании интерфейсы для многих языковых корпусов, а также библиотеки для обработки текстов для классификации, токенизации, стемминга, разметки и фильтрации.

In [50]:
import nltk
help(nltk)

Help on package nltk:

NAME
    nltk

DESCRIPTION
    The Natural Language Toolkit (NLTK) is an open source Python library
    for Natural Language Processing.  A free online book is available.
    (If you use the library for academic research, please cite the book.)
    
    Steven Bird, Ewan Klein, and Edward Loper (2009).
    Natural Language Processing with Python.  O'Reilly Media Inc.
    http://nltk.org/book
    
    @version: 3.4.5

PACKAGE CONTENTS
    app (package)
    book
    ccg (package)
    chat (package)
    chunk (package)
    classify (package)
    cluster (package)
    collections
    collocations
    compat
    corpus (package)
    data
    decorators
    downloader
    draw (package)
    featstruct
    grammar
    help
    inference (package)
    internals
    jsontags
    lazyimport
    lm (package)
    metrics (package)
    misc (package)
    parse (package)
    probability
    sem (package)
    sentiment (package)
    stem (package)
    tag (package)
    tbl (pac

##### Токенизация по предложениям 
– это процесс разделения письменного языка на предложения-компоненты. В английском и некоторых других языках мы можем вычленять предложение каждый раз, когда находим определенный знак пунктуации – точку.

Но даже в английском эта задача нетривиальна, так как точка используется и в сокращениях. Таблица сокращений может сильно помочь во время обработки текста, чтобы избежать неверной расстановки границ предложений. В большинстве случаев для этого используются библиотеки, так что можете особо не переживать о деталях реализации.

In [51]:
text = "Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia. Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch. There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian."
sentences = nltk.sent_tokenize(text)
for sentence in sentences:
    print(sentence)
    print()

Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia.

Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch.

There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian.



##### Токенизация по словам 
– это процесс разделения предложений на слова-компоненты. В английском и многих других языках, использующих ту или иную версию латинского алфавита, пробел – это неплохой разделитель слов.

Тем не менее, могут возникнуть проблемы, если мы будем использовать только пробел – в английском составные существительные пишутся по-разному и иногда через пробел. И тут вновь нам помогают библиотеки.

Давайте возьмем предложения из предыдущего примера и применим к ним метод nltk.word_tokenize.

In [52]:
for sentence in sentences:
    words = nltk.word_tokenize(sentence)
    print(words)
    print()

['Russian', 'is', 'an', 'East', 'Slavic', 'language', ',', 'which', 'is', 'an', 'official', 'language', 'in', 'Russia', ',', 'Belarus', ',', 'Kazakhstan', ',', 'Kyrgyzstan', ',', 'as', 'well', 'as', 'being', 'widely', 'used', 'throughout', 'Eastern', 'Europe', ',', 'the', 'Baltic', 'states', ',', 'the', 'Caucasus', 'and', 'Central', 'Asia', '.']

['Russian', 'belongs', 'to', 'the', 'family', 'of', 'Indo-European', 'languages', ',', 'one', 'of', 'the', 'four', 'living', 'members', 'of', 'the', 'East', 'Slavic', 'languages', 'alongside', ',', 'and', 'part', 'of', 'the', 'larger', 'Balto-Slavic', 'branch', '.']

['There', 'is', 'a', 'high', 'degree', 'of', 'mutual', 'intelligibility', 'between', 'Russian', ',', 'Belarusian', 'and', 'Ukrainian', '.']



##### Лемматизация и стемминг текста

Обычно тексты содержат разные грамматические формы одного и того же слова, а также могут встречаться однокоренные слова. Лемматизация и стемминг преследуют цель привести все встречающиеся словоформы к одной, нормальной словарной форме.

##### Примеры:

- Приведение разных словоформ к одной: dog, dogs, dog’s, dogs’ => dog
- То же самое, но уже применительно к целому предложению: the boy’s dogs are different sizes => the boy dog be differ size


Лемматизация и стемминг – это частные случаи нормализации и они отличаются.

##### Стемминг
– это грубый эвристический процесс, который отрезает «лишнее» от корня слов, часто это приводит к потере словообразовательных суффиксов.

##### Лемматизация
– это более тонкий процесс, который использует словарь и морфологический анализ, чтобы в итоге привести слово к его канонической форме – лемме.

Отличие в том, что стеммер (конкретная реализация алгоритма стемминга – прим.переводчика) действует без знания контекста и, соответственно, не понимает разницу между словами, которые имеют разный смысл в зависимости от части речи. Однако у стеммеров есть и свои преимущества: их проще внедрить и они работают быстрее. Плюс, более низкая «аккуратность» может не иметь значения в некоторых случаях.

##### Примеры:

- Слово good – это лемма для слова better. Стеммер не увидит эту связь, так как здесь нужно сверяться со словарем.
- Слово play – это базовая форма слова playing. Тут справятся и стемминг, и лемматизация.
- Слово meeting может быть как нормальной формой существительного, так и формой глагола to meet, в зависимости от контекста. В - отличие от стемминга, лемматизация попробует выбрать правильную лемму, опираясь на контекст.

In [54]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import wordnet

def compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word, pos):
    """
    Print the results of stemmind and lemmitization using the passed stemmer, lemmatizer, word and pos (part of speech)
    """
    print("Stemmer:", stemmer.stem(word))
    print("Lemmatizer:", lemmatizer.lemmatize(word, pos))
    print()

lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "seen", pos = wordnet.VERB)
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "drove", pos = wordnet.VERB)

Stemmer: seen
Lemmatizer: see

Stemmer: drove
Lemmatizer: drive



##### Стоп-слова

Стоп-слова – это слова, которые выкидываются из текста до/после обработки текста. Когда мы применяем машинное обучение к текстам, такие слова могут добавить много шума, поэтому необходимо избавляться от нерелевантных слов.

Стоп-слова это обычно понимают артикли, междометия, союзы и т.д., которые не несут смысловой нагрузки. При этом надо понимать, что не существует универсального списка стоп-слов, все зависит от конкретного случая.

В NLTK есть предустановленный список стоп-слов. Перед первым использованием вам понадобится его скачать: nltk.download(“stopwords”). После скачивания можно импортировать пакет stopwords и посмотреть на сами слова:

In [56]:
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

Рассмотрим, как можно убрать стоп-слова из предложения:

In [57]:
stop_words = set(stopwords.words("english"))
sentence = "Backgammon is one of the oldest known board games."

words = nltk.word_tokenize(sentence)
without_stop_words = [word for word in words if not word in stop_words]
print(without_stop_words)

['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']
