## Предобработка текста с помощью Python 

### 1.Введение в библиотеку re

Регулярное выражение — это последовательность символов, используемая для поиска и замены текста в строке или файле.

Регулярные выражения используют два типа символов:

- специальные символы: как следует из названия, у этих символов есть специальные значения. 
- литералы (например: a, b, 1, 2 и т. д.).

Примеры регулярных выражений:

- . – любой символ, кроме перевода строки;
- \w – одно слово;
- \d – одна цифра;
- \s – один пробел;
- \W – одно НЕслово;
- \D – одна НЕцифра;
- \S – один НЕпробел;
- [abc] – находит любой из указанных символов match any of a, b, or c;
- [^abc] – находит любой символ, кроме указанных;
- [a-g] – находит символ в промежутке от a до g.


В Python для работы с регулярными выражениями есть модуль re. Для использования его нужно импортировать:

In [57]:
import re
help(re)

Help on module re:

NAME
    re - Support for regular expressions (RE).

MODULE REFERENCE
    https://docs.python.org/3.8/library/re
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    This module provides regular expression matching operations similar to
    those found in Perl.  It supports both 8-bit and Unicode strings; both
    the pattern and the strings being processed can contain null bytes and
    characters outside the US ASCII range.
    
    Regular expressions can contain both special and ordinary characters.
    Most ordinary characters, like "A", "a", or "0", are the simplest
    regular expressions; they simply match themselves.  You can
    concatenate ordinary characters, so last mat

Чаще всего регулярные выражения используются для:
- поиска в строке;
- разбиения строки на подстроки;
- замены части строки.

Давайте посмотрим на методы, которые предоставляет библиотека re для этих задач.

#### re.match(pattern, string):

Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод match() на строке «find matched pattern» с шаблоном «find», то он завершится успешно. Однако если мы будем искать «matched», то результат будет отрицательный.

In [2]:
re.match(r'find', 'find matched pattern')

<re.Match object; span=(0, 4), match='find'>

In [3]:
print(re.match(r'matched', 'find matched pattern'))

None


In [4]:
re.match(r'[a-z]', 'find matched pattern')

<re.Match object; span=(0, 1), match='f'>

In [5]:
re.match(r'[a-z]+', 'find matched pattern')

<re.Match object; span=(0, 4), match='find'>

#### re.search(pattern, string)

Этот метод похож на match(), но он ищет не только в начале строки. В отличие от предыдущего, search() вернет объект, если мы попытаемся найти «matched».

In [6]:
result = re.search(r'matched', 'find matched pattern')
print(result.group())

matched


In [7]:
re.search(r'\w+', 'find matched pattern')

<re.Match object; span=(0, 4), match='find'>

#### re.findall(pattern, string)

Этот метод возвращает список всех найденных совпадений. У метода findall() нет ограничений на поиск в начале или конце строки. Для поиска рекомендуется использовать именно findall(), так как он может работать и как re.search(), и как re.match().

In [8]:
result = re.findall(r're', 'we want re to find all re in this text re')
print(result)

['re', 're', 're']


Вернуть список доменов из списка адресов электронной почты.
Online regex tester and debugger: https://regex101.com/

In [97]:
result = re.findall(r'@\w+.\w+', 'dsdf, abc.test@gmail.com, xyz@test.in, test.first@mail.ru, dhjsd@hjk*fhjd')
print(result)


['@gmail.com', '@test.in', '@mail.ru', '@hjk*fhjd']


Извлечь дату из строки.

In [10]:
result = re.findall(r'\d{2}-\d{2}-\d{4}', 'Name 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009')
print(result)

['12-05-2007', '11-11-2011', '12-01-2009']


#### re.split(pattern, string, [maxsplit=0])

Этот метод разделяет строку по заданному шаблону.

In [98]:
result = re.split(r' ', 'we want to devide')
print(result)

['we', 'want', 'to', 'devide']


#### re.sub(pattern, repl, string)

Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.


In [12]:
result = re.sub(r'Russia', 'the World', 'I want to be the best nlp specialist in Russia')
print(result)


I want to be the best nlp specialist in the World


#### Удаление пунктуации

Мы можем использовать регулярные выражения для дополнительного фильтрова

In [13]:
text = 'Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia.'
no_punctuation_text = re.sub(r'[^\w\s]', '', text)
no_punctuation_text

'Russian is an East Slavic language which is an official language in Russia Belarus Kazakhstan Kyrgyzstan as well as being widely used throughout Eastern Europe the Baltic states the Caucasus and Central Asia'

In [99]:
import string

In [15]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [100]:
string.whitespace

' \t\n\r\x0b\x0c'

In [16]:
''.join([ch for ch in list(text) if ch not in string.punctuation])

'Russian is an East Slavic language which is an official language in Russia Belarus Kazakhstan Kyrgyzstan as well as being widely used throughout Eastern Europe the Baltic states the Caucasus and Central Asia'

### 2.Токенизация

Привести к нижнему регистру  .lower()

In [111]:
text = 'This is, a ... Demo. Text, 1.3.4 for NLP using NLTK????!!!!!! Full form of NLTK is Natural Language Toolkit'

In [112]:
text

'This is, a ... Demo. Text, 1.3.4 for NLP using NLTK????!!!!!! Full form of NLTK is Natural Language Toolkit'

In [113]:
text.split()

['This',
 'is,',
 'a',
 '...',
 'Demo.',
 'Text,',
 '1.3.4',
 'for',
 'NLP',
 'using',
 'NLTK????!!!!!!',
 'Full',
 'form',
 'of',
 'NLTK',
 'is',
 'Natural',
 'Language',
 'Toolkit']

In [114]:
text = 'This is a Demo Text for NLP using NLTK. Full form of NLTK is Natural Language Toolkit'
lower_text = text.lower()
print(lower_text)

this is a demo text for nlp using nltk. full form of nltk is natural language toolkit


Разделить строку на отдельные слова  re.split()

In [18]:
bag_of_words = re.split(r' ', lower_text)
bag_of_words

['this',
 'is',
 'a',
 'demo',
 'text',
 'for',
 'nlp',
 'using',
 'nltk.',
 'full',
 'form',
 'of',
 'nltk',
 'is',
 'natural',
 'language',
 'toolkit']

In [116]:
text = 'This is a Demo 20.20.10 Text for NLP using NLTK. Full form of NLTK is Natural Language Toolkit'

In [117]:
text.split(sep='!')

['This is a Demo 20',
 '20',
 '10 Text for NLP using NLTK',
 ' Full form of NLTK is Natural Language Toolkit']

### 4.Введение в библиотеку NLTK

#### NLTK (Natural Language Toolkit)
Ведущая платформа для создания NLP-программ на Python. У нее есть легкие в использовании интерфейсы для многих языковых корпусов, а также библиотеки для обработки текстов для классификации, токенизации, стемминга, разметки и фильтрации.

In [19]:
import nltk
help(nltk)

Help on package nltk:

NAME
    nltk

DESCRIPTION
    The Natural Language Toolkit (NLTK) is an open source Python library
    for Natural Language Processing.  A free online book is available.
    (If you use the library for academic research, please cite the book.)
    
    Steven Bird, Ewan Klein, and Edward Loper (2009).
    Natural Language Processing with Python.  O'Reilly Media Inc.
    http://nltk.org/book
    
    @version: 3.4.5

PACKAGE CONTENTS
    app (package)
    book
    ccg (package)
    chat (package)
    chunk (package)
    classify (package)
    cluster (package)
    collections
    collocations
    compat
    corpus (package)
    data
    decorators
    downloader
    draw (package)
    featstruct
    grammar
    help
    inference (package)
    internals
    jsontags
    lazyimport
    lm (package)
    metrics (package)
    misc (package)
    parse (package)
    probability
    sem (package)
    sentiment (package)
    stem (package)
    tag (package)
    tbl (pac

##### Токенизация по предложениям 
– это процесс разделения письменного языка на предложения-компоненты. В английском и некоторых других языках мы можем вычленять предложение каждый раз, когда находим определенный знак пунктуации – точку.

Но даже в английском эта задача нетривиальна, так как точка используется и в сокращениях. Таблица сокращений может сильно помочь во время обработки текста, чтобы избежать неверной расстановки границ предложений. В большинстве случаев для этого используются библиотеки, так что можете особо не переживать о деталях реализации.

In [1]:
text = "Russian is an East'sa Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia. Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch. There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian."
text

"Russian is an East'sa Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia. Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch. There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian."

In [2]:
text.split()

['Russian',
 'is',
 'an',
 "East'sa",
 'Slavic',
 'language,',
 'which',
 'is',
 'an',
 'official',
 'language',
 'in',
 'Russia,',
 'Belarus,',
 'Kazakhstan,',
 'Kyrgyzstan,',
 'as',
 'well',
 'as',
 'being',
 'widely',
 'used',
 'throughout',
 'Eastern',
 'Europe,',
 'the',
 'Baltic',
 'states,',
 'the',
 'Caucasus',
 'and',
 'Central',
 'Asia.',
 'Russian',
 'belongs',
 'to',
 'the',
 'family',
 'of',
 'Indo-European',
 'languages,',
 'one',
 'of',
 'the',
 'four',
 'living',
 'members',
 'of',
 'the',
 'East',
 'Slavic',
 'languages',
 'alongside,',
 'and',
 'part',
 'of',
 'the',
 'larger',
 'Balto-Slavic',
 'branch.',
 'There',
 'is',
 'a',
 'high',
 'degree',
 'of',
 'mutual',
 'intelligibility',
 'between',
 'Russian,',
 'Belarusian',
 'and',
 'Ukrainian.']

In [7]:
text.split('.')

["Russian is an East'sa Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia",
 ' Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch',
 ' There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian',
 '']

In [20]:
from nltk.tokenize import word_tokenize, wordpunct_tokenize

In [21]:
from nltk import tokenize as tknz

In [9]:
tknz.word_tokenize(text)

['Russian',
 'is',
 'an',
 "East'sa",
 'Slavic',
 'language',
 ',',
 'which',
 'is',
 'an',
 'official',
 'language',
 'in',
 'Russia',
 ',',
 'Belarus',
 ',',
 'Kazakhstan',
 ',',
 'Kyrgyzstan',
 ',',
 'as',
 'well',
 'as',
 'being',
 'widely',
 'used',
 'throughout',
 'Eastern',
 'Europe',
 ',',
 'the',
 'Baltic',
 'states',
 ',',
 'the',
 'Caucasus',
 'and',
 'Central',
 'Asia',
 '.',
 'Russian',
 'belongs',
 'to',
 'the',
 'family',
 'of',
 'Indo-European',
 'languages',
 ',',
 'one',
 'of',
 'the',
 'four',
 'living',
 'members',
 'of',
 'the',
 'East',
 'Slavic',
 'languages',
 'alongside',
 ',',
 'and',
 'part',
 'of',
 'the',
 'larger',
 'Balto-Slavic',
 'branch',
 '.',
 'There',
 'is',
 'a',
 'high',
 'degree',
 'of',
 'mutual',
 'intelligibility',
 'between',
 'Russian',
 ',',
 'Belarusian',
 'and',
 'Ukrainian',
 '.']

In [8]:
tknz.wordpunct_tokenize(text)

['Russian',
 'is',
 'an',
 'East',
 "'",
 'sa',
 'Slavic',
 'language',
 ',',
 'which',
 'is',
 'an',
 'official',
 'language',
 'in',
 'Russia',
 ',',
 'Belarus',
 ',',
 'Kazakhstan',
 ',',
 'Kyrgyzstan',
 ',',
 'as',
 'well',
 'as',
 'being',
 'widely',
 'used',
 'throughout',
 'Eastern',
 'Europe',
 ',',
 'the',
 'Baltic',
 'states',
 ',',
 'the',
 'Caucasus',
 'and',
 'Central',
 'Asia',
 '.',
 'Russian',
 'belongs',
 'to',
 'the',
 'family',
 'of',
 'Indo',
 '-',
 'European',
 'languages',
 ',',
 'one',
 'of',
 'the',
 'four',
 'living',
 'members',
 'of',
 'the',
 'East',
 'Slavic',
 'languages',
 'alongside',
 ',',
 'and',
 'part',
 'of',
 'the',
 'larger',
 'Balto',
 '-',
 'Slavic',
 'branch',
 '.',
 'There',
 'is',
 'a',
 'high',
 'degree',
 'of',
 'mutual',
 'intelligibility',
 'between',
 'Russian',
 ',',
 'Belarusian',
 'and',
 'Ukrainian',
 '.']

In [10]:
tknz.ToktokTokenizer().tokenize(text)

['Russian',
 'is',
 'an',
 'East',
 "'",
 'sa',
 'Slavic',
 'language',
 ',',
 'which',
 'is',
 'an',
 'official',
 'language',
 'in',
 'Russia',
 ',',
 'Belarus',
 ',',
 'Kazakhstan',
 ',',
 'Kyrgyzstan',
 ',',
 'as',
 'well',
 'as',
 'being',
 'widely',
 'used',
 'throughout',
 'Eastern',
 'Europe',
 ',',
 'the',
 'Baltic',
 'states',
 ',',
 'the',
 'Caucasus',
 'and',
 'Central',
 'Asia.',
 'Russian',
 'belongs',
 'to',
 'the',
 'family',
 'of',
 'Indo-European',
 'languages',
 ',',
 'one',
 'of',
 'the',
 'four',
 'living',
 'members',
 'of',
 'the',
 'East',
 'Slavic',
 'languages',
 'alongside',
 ',',
 'and',
 'part',
 'of',
 'the',
 'larger',
 'Balto-Slavic',
 'branch.',
 'There',
 'is',
 'a',
 'high',
 'degree',
 'of',
 'mutual',
 'intelligibility',
 'between',
 'Russian',
 ',',
 'Belarusian',
 'and',
 'Ukrainian',
 '.']

In [11]:
tknz.TweetTokenizer().tokenize(text)

['Russian',
 'is',
 'an',
 "East'sa",
 'Slavic',
 'language',
 ',',
 'which',
 'is',
 'an',
 'official',
 'language',
 'in',
 'Russia',
 ',',
 'Belarus',
 ',',
 'Kazakhstan',
 ',',
 'Kyrgyzstan',
 ',',
 'as',
 'well',
 'as',
 'being',
 'widely',
 'used',
 'throughout',
 'Eastern',
 'Europe',
 ',',
 'the',
 'Baltic',
 'states',
 ',',
 'the',
 'Caucasus',
 'and',
 'Central',
 'Asia',
 '.',
 'Russian',
 'belongs',
 'to',
 'the',
 'family',
 'of',
 'Indo-European',
 'languages',
 ',',
 'one',
 'of',
 'the',
 'four',
 'living',
 'members',
 'of',
 'the',
 'East',
 'Slavic',
 'languages',
 'alongside',
 ',',
 'and',
 'part',
 'of',
 'the',
 'larger',
 'Balto-Slavic',
 'branch',
 '.',
 'There',
 'is',
 'a',
 'high',
 'degree',
 'of',
 'mutual',
 'intelligibility',
 'between',
 'Russian',
 ',',
 'Belarusian',
 'and',
 'Ukrainian',
 '.']

In [14]:
tknz.RegexpTokenizer?

In [16]:
tknz.RegexpTokenizer("\w+").tokenize(text)

['Russian',
 'is',
 'an',
 'East',
 'sa',
 'Slavic',
 'language',
 'which',
 'is',
 'an',
 'official',
 'language',
 'in',
 'Russia',
 'Belarus',
 'Kazakhstan',
 'Kyrgyzstan',
 'as',
 'well',
 'as',
 'being',
 'widely',
 'used',
 'throughout',
 'Eastern',
 'Europe',
 'the',
 'Baltic',
 'states',
 'the',
 'Caucasus',
 'and',
 'Central',
 'Asia',
 'Russian',
 'belongs',
 'to',
 'the',
 'family',
 'of',
 'Indo',
 'European',
 'languages',
 'one',
 'of',
 'the',
 'four',
 'living',
 'members',
 'of',
 'the',
 'East',
 'Slavic',
 'languages',
 'alongside',
 'and',
 'part',
 'of',
 'the',
 'larger',
 'Balto',
 'Slavic',
 'branch',
 'There',
 'is',
 'a',
 'high',
 'degree',
 'of',
 'mutual',
 'intelligibility',
 'between',
 'Russian',
 'Belarusian',
 'and',
 'Ukrainian']

In [17]:
text = 'Russian is an East 12.12.2020 Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia. Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch. There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian.'

In [22]:
sentences = nltk.sent_tokenize(text)
for sentence in sentences:
    print(sentence)
    print()

Russian is an East 12.12.2020 Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia.

Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch.

There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian.



##### Токенизация по словам 
– это процесс разделения предложений на слова-компоненты. В английском и многих других языках, использующих ту или иную версию латинского алфавита, пробел – это неплохой разделитель слов.

Тем не менее, могут возникнуть проблемы, если мы будем использовать только пробел – в английском составные существительные пишутся по-разному и иногда через пробел. И тут вновь нам помогают библиотеки.

Давайте возьмем предложения из предыдущего примера и применим к ним метод nltk.word_tokenize.

In [36]:
sentences

['Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia.',
 'Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch.',
 'There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian.']

In [48]:
tt = 'Russian is an East Slavic language. Ehich is 1.4.6 an official language in Russia. Belarus, Kazakhstan, Kyrgyzstan, as well as 10.22.2020 being widely used. throughout Eastern Europe, the Baltic states! The Caucasus and Central Asia.'

In [23]:
nltk.sent_tokenize?

In [51]:
nltk.sent_tokenize(tt)

['Russian is an East Slavic language.',
 'Ehich is 1.4.6 an official language in Russia.',
 'Belarus, Kazakhstan, Kyrgyzstan, as well as 10.22.2020 being widely used.',
 'throughout Eastern Europe, the Baltic states!',
 'The Caucasus and Central Asia.']

In [26]:
s = "Выва аовлд 10.05.2020 аволдв. Иыты лдва олы!"

In [28]:
print(nltk.sent_tokenize(s))

['Выва аовлд 10.05.2020 аволдв.', 'Иыты лдва олы!']


In [29]:
for sentence in sentences:
    words = nltk.word_tokenize(sentence)
    print(words)
    print()

['Russian', 'is', 'an', 'East', '12.12.2020', 'Slavic', 'language', ',', 'which', 'is', 'an', 'official', 'language', 'in', 'Russia', ',', 'Belarus', ',', 'Kazakhstan', ',', 'Kyrgyzstan', ',', 'as', 'well', 'as', 'being', 'widely', 'used', 'throughout', 'Eastern', 'Europe', ',', 'the', 'Baltic', 'states', ',', 'the', 'Caucasus', 'and', 'Central', 'Asia', '.']

['Russian', 'belongs', 'to', 'the', 'family', 'of', 'Indo-European', 'languages', ',', 'one', 'of', 'the', 'four', 'living', 'members', 'of', 'the', 'East', 'Slavic', 'languages', 'alongside', ',', 'and', 'part', 'of', 'the', 'larger', 'Balto-Slavic', 'branch', '.']

['There', 'is', 'a', 'high', 'degree', 'of', 'mutual', 'intelligibility', 'between', 'Russian', ',', 'Belarusian', 'and', 'Ukrainian', '.']



##### Лемматизация и стемминг текста

Обычно тексты содержат разные грамматические формы одного и того же слова, а также могут встречаться однокоренные слова. Лемматизация и стемминг преследуют цель привести все встречающиеся словоформы к одной, нормальной словарной форме.

##### Примеры:

- Приведение разных словоформ к одной: dog, dogs, dog’s, dogs’ => dog
- То же самое, но уже применительно к целому предложению: the boy’s dogs are different sizes => the boy dog be differ size


Лемматизация и стемминг – это частные случаи нормализации и они отличаются.

##### Стемминг
– это грубый эвристический процесс, который отрезает «лишнее» от корня слов, часто это приводит к потере словообразовательных суффиксов.

##### Лемматизация
– это более тонкий процесс, который использует словарь и морфологический анализ, чтобы в итоге привести слово к его канонической форме – лемме.

Отличие в том, что стеммер (конкретная реализация алгоритма стемминга – прим.переводчика) действует без знания контекста и, соответственно, не понимает разницу между словами, которые имеют разный смысл в зависимости от части речи. Однако у стеммеров есть и свои преимущества: их проще внедрить и они работают быстрее. Плюс, более низкая «аккуратность» может не иметь значения в некоторых случаях.

##### Примеры:

- Слово good – это лемма для слова better. Стеммер не увидит эту связь, так как здесь нужно сверяться со словарем.
- Слово play – это базовая форма слова playing. Тут справятся и стемминг, и лемматизация.
- Слово meeting может быть как нормальной формой существительного, так и формой глагола to meet, в зависимости от контекста. В - отличие от стемминга, лемматизация попробует выбрать правильную лемму, опираясь на контекст.

In [32]:
from nltk.stem.snowball import SnowballStemmer

In [33]:
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [34]:
text_test = "Практический опыт показывает, что реализация намеченного плана развития обеспечивает широкому кругу специалистов участие в формировании позиций, занимаемых участниками в отношении поставленных задач. Повседневная практика показывает, что новая модель организационной деятельности обеспечивает широкому кругу специалистов участие в формировании экономической целесообразности принимаемых решений. С другой стороны курс на социально-ориентированный национальный проект способствует подготовке и реализации модели развития!"
text_test

'Практический опыт показывает, что реализация намеченного плана развития обеспечивает широкому кругу специалистов участие в формировании позиций, занимаемых участниками в отношении поставленных задач. Повседневная практика показывает, что новая модель организационной деятельности обеспечивает широкому кругу специалистов участие в формировании экономической целесообразности принимаемых решений. С другой стороны курс на социально-ориентированный национальный проект способствует подготовке и реализации модели развития!'

In [35]:
snowball = SnowballStemmer('russian')

In [36]:
words = word_tokenize(text_test)

In [37]:
words

['Практический',
 'опыт',
 'показывает',
 ',',
 'что',
 'реализация',
 'намеченного',
 'плана',
 'развития',
 'обеспечивает',
 'широкому',
 'кругу',
 'специалистов',
 'участие',
 'в',
 'формировании',
 'позиций',
 ',',
 'занимаемых',
 'участниками',
 'в',
 'отношении',
 'поставленных',
 'задач',
 '.',
 'Повседневная',
 'практика',
 'показывает',
 ',',
 'что',
 'новая',
 'модель',
 'организационной',
 'деятельности',
 'обеспечивает',
 'широкому',
 'кругу',
 'специалистов',
 'участие',
 'в',
 'формировании',
 'экономической',
 'целесообразности',
 'принимаемых',
 'решений',
 '.',
 'С',
 'другой',
 'стороны',
 'курс',
 'на',
 'социально-ориентированный',
 'национальный',
 'проект',
 'способствует',
 'подготовке',
 'и',
 'реализации',
 'модели',
 'развития',
 '!']

In [38]:
for w in words:
    print('{} - {}'.format(w, snowball.stem(w)))

Практический - практическ
опыт - оп
показывает - показыва
, - ,
что - что
реализация - реализац
намеченного - намечен
плана - план
развития - развит
обеспечивает - обеспечива
широкому - широк
кругу - круг
специалистов - специалист
участие - участ
в - в
формировании - формирован
позиций - позиц
, - ,
занимаемых - занима
участниками - участник
в - в
отношении - отношен
поставленных - поставлен
задач - задач
. - .
Повседневная - повседневн
практика - практик
показывает - показыва
, - ,
что - что
новая - нов
модель - модел
организационной - организацион
деятельности - деятельн
обеспечивает - обеспечива
широкому - широк
кругу - круг
специалистов - специалист
участие - участ
в - в
формировании - формирован
экономической - экономическ
целесообразности - целесообразн
принимаемых - принима
решений - решен
. - .
С - с
другой - друг
стороны - сторон
курс - курс
на - на
социально-ориентированный - социально-ориентирова
национальный - национальн
проект - проект
способствует - способств
подготовке -

In [39]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import wordnet

def compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word, pos):
    """
    Print the results of stemmind and lemmitization using the passed stemmer, lemmatizer, word and pos (part of speech)
    """
    print("Stemmer:", stemmer.stem(word))
    print("Lemmatizer:", lemmatizer.lemmatize(word, pos))
    print()

lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "seen", pos = wordnet.VERB)
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "drove", pos = wordnet.VERB)

Stemmer: seen
Lemmatizer: see

Stemmer: drove
Lemmatizer: drive



In [67]:
# !pip install pymystem3

In [41]:
from pymystem3 import Mystem

m = Mystem()
lemmas = m.lemmatize(' '.join(words))
print(lemmas)

['практический', ' ', 'опыт', ' ', 'показывать', ' , ', 'что', ' ', 'реализация', ' ', 'намечать', ' ', 'план', ' ', 'развитие', ' ', 'обеспечивать', ' ', 'широкий', ' ', 'круг', ' ', 'специалист', ' ', 'участие', ' ', 'в', ' ', 'формирование', ' ', 'позиция', ' , ', 'занимать', ' ', 'участник', ' ', 'в', ' ', 'отношение', ' ', 'поставлять', ' ', 'задача', ' ', '. ', 'повседневный', ' ', 'практика', ' ', 'показывать', ' , ', 'что', ' ', 'новый', ' ', 'модель', ' ', 'организационный', ' ', 'деятельность', ' ', 'обеспечивать', ' ', 'широкий', ' ', 'круг', ' ', 'специалист', ' ', 'участие', ' ', 'в', ' ', 'формирование', ' ', 'экономический', ' ', 'целесообразность', ' ', 'принимать', ' ', 'решение', ' ', '. ', 'с', ' ', 'другой', ' ', 'сторона', ' ', 'курс', ' ', 'на', ' ', 'социально', '-', 'ориентированный', ' ', 'национальный', ' ', 'проект', ' ', 'способствовать', ' ', 'подготовка', ' ', 'и', ' ', 'реализация', ' ', 'модель', ' ', 'развитие', ' ', '!', '\n']


In [54]:
for wrd, lemm in zip(words, lemmas[::2]):
    print('{} - {}'.format(wrd, lemm))

Практический - практический
опыт - опыт
показывает - показывать
, - что
что - реализация
реализация - намечать
намеченного - план
плана - развитие
развития - обеспечивать
обеспечивает - широкий
широкому - круг
кругу - специалист
специалистов - участие
участие - в
в - формирование
формировании - позиция
позиций - занимать
, - участник
занимаемых - в
участниками - отношение
в - поставлять
отношении - задача
поставленных - . 
задач -  
. -  
Повседневная -  , 
практика -  
показывает -  
, -  
что -  
новая -  
модель -  
организационной -  
деятельности -  
обеспечивает -  
широкому -  
кругу -  
специалистов -  
участие -  
в -  
формировании -  
экономической -  
целесообразности - с
принимаемых - другой
решений - сторона
. - курс
С - на
другой - социально
стороны - ориентированный
курс - национальный
на - проект
социально-ориентированный - способствовать
национальный - подготовка
проект - и
способствует - реализация
подготовке - модель
и - развитие
реализации - !


In [48]:
from pymorphy2 import MorphAnalyzer

morph = MorphAnalyzer()
morph.parse('стали')

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

In [49]:
morph.normal_forms('стали')

['стать', 'сталь']

In [51]:
morph.parse('стали')[0].normal_form

'стать'

In [53]:
for wrd in words:
    print('{} - {}'.format(wrd, morph.parse(wrd)[0].normal_form))

Практический - практический
опыт - опыт
показывает - показывать
, - ,
что - что
реализация - реализация
намеченного - наметить
плана - план
развития - развитие
обеспечивает - обеспечивать
широкому - широкий
кругу - круг
специалистов - специалист
участие - участие
в - в
формировании - формирование
позиций - позиция
, - ,
занимаемых - занимать
участниками - участник
в - в
отношении - отношение
поставленных - поставить
задач - задача
. - .
Повседневная - повседневный
практика - практика
показывает - показывать
, - ,
что - что
новая - новый
модель - модель
организационной - организационный
деятельности - деятельность
обеспечивает - обеспечивать
широкому - широкий
кругу - круг
специалистов - специалист
участие - участие
в - в
формировании - формирование
экономической - экономический
целесообразности - целесообразность
принимаемых - принимать
решений - решение
. - .
С - с
другой - другой
стороны - сторона
курс - курс
на - на
социально-ориентированный - социально-ориентировать
национальный - 

##### Стоп-слова

Стоп-слова – это слова, которые выкидываются из текста до/после обработки текста. Когда мы применяем машинное обучение к текстам, такие слова могут добавить много шума, поэтому необходимо избавляться от нерелевантных слов.

Стоп-слова это обычно понимают артикли, междометия, союзы и т.д., которые не несут смысловой нагрузки. При этом надо понимать, что не существует универсального списка стоп-слов, все зависит от конкретного случая.

В NLTK есть предустановленный список стоп-слов. Перед первым использованием вам понадобится его скачать: nltk.download(“stopwords”). После скачивания можно импортировать пакет stopwords и посмотреть на сами слова:

In [81]:
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [61]:
stopwords.fileids()

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [55]:
print(stopwords.words("russian"))

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

Рассмотрим, как можно убрать стоп-слова из предложения:

In [38]:
stop_words = set(stopwords.words("english"))
sentence = "Backgammon is one of the oldest known board games."

words = nltk.word_tokenize(sentence)
without_stop_words = [word for word in words if not word in stop_words]
print(without_stop_words)

['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']


In [78]:
from stop_words import get_stop_words

In [79]:
stop_words = get_stop_words('ru')

In [80]:
stop_words

['а',
 'в',
 'г',
 'е',
 'ж',
 'и',
 'к',
 'м',
 'о',
 'с',
 'т',
 'у',
 'я',
 'бы',
 'во',
 'вы',
 'да',
 'до',
 'ее',
 'ей',
 'ею',
 'её',
 'же',
 'за',
 'из',
 'им',
 'их',
 'ли',
 'мы',
 'на',
 'не',
 'ни',
 'но',
 'ну',
 'нх',
 'об',
 'он',
 'от',
 'по',
 'со',
 'та',
 'те',
 'то',
 'ту',
 'ты',
 'уж',
 'без',
 'был',
 'вам',
 'вас',
 'ваш',
 'вон',
 'вот',
 'все',
 'всю',
 'вся',
 'всё',
 'где',
 'год',
 'два',
 'две',
 'дел',
 'для',
 'его',
 'ему',
 'еще',
 'ещё',
 'или',
 'ими',
 'имя',
 'как',
 'кем',
 'ком',
 'кто',
 'лет',
 'мне',
 'мог',
 'мож',
 'мои',
 'мой',
 'мор',
 'моя',
 'моё',
 'над',
 'нам',
 'нас',
 'наш',
 'нее',
 'ней',
 'нем',
 'нет',
 'нею',
 'неё',
 'них',
 'оба',
 'она',
 'они',
 'оно',
 'под',
 'пор',
 'при',
 'про',
 'раз',
 'сам',
 'сих',
 'так',
 'там',
 'тем',
 'тех',
 'том',
 'тот',
 'тою',
 'три',
 'тут',
 'уже',
 'чем',
 'что',
 'эта',
 'эти',
 'это',
 'эту',
 'алло',
 'буду',
 'будь',
 'бывь',
 'была',
 'были',
 'было',
 'быть',
 'вами',
 'ваша',
 

## Сделаем стандартную предобработку данных с сайта Lenta.ru

In [55]:
import pandas as pd
pd.set_option('display.max_columns', None)  
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 800)

data = pd.read_csv('lenta-ru-partial.csv')
data.sample(5)

Unnamed: 0,title,text
12005,ЦБ лишил лицензии тверской банк,"ЦБ отозвал лицензию у тверского Международного торгово-промышленного банка за нарушение законов о минимальном размере собственных средств, сказано в пресс-релизе ЦБ. Распоряжением ЦБ в МТПБ назначена временная администрация. Как сообщает ЦБ, тверской банк отражал в своей отчетности ценные бумаги, которых фактически не было в его активах. Таким образом, собственные средства банка оказались ниже допустимого законодательством значения. Международный торгово-промышленный банк занимает 907 место по объему активов (около 300 миллионов рублей) на апрель 2011 года согласно информации портала Банки.ру. Чистый убыток на 1 апреля составлял 21,4 миллиона рублей. До мая 2008 года МТПБ назывался Приупсбанк и располагался в Туле. Банк является участником Системы страхования вкладов, поэтому клиенты ..."
36118,ВВС США ограничили высоту полета истребителей F-22,"ВВС США ввели ограничение на предельную высоту полета истребителей F-22 в ходе выполнения обычных тренировочных полетов, сообщает Defense News. Согласно новому распоряжению Авиационного боевого командования (ACC) ВВС США, предельная высота полета F-22 не должна превышать 7,6 тысячи метров. Причиной для такого решения стало расследование, целью которого является проверка бортовых систем генерации кислорода (OBOGS), установленных на многие истребители ВВС США. Ограничения по высоте полета, аналогичные F-22, были введены и для всех других боевых самолетов ВВС США, оборудованных OBOGS. По данным ACC, используемая военными OBOGS может быть дефектной. В частности, предполагается, что причиной потери F-22 17 ноября 2010 года на Аляске могли стать неполадки OBOGS. Эта система отвечает за генер..."
11312,Британцы недооценили стоимость новых ядерных ракет и авианосцев,"Стоимость замены комплексов с баллистическими ракетами морского базирования Trident, а также строительства и оснащения двух новых авианосцев для ВМС Великобритании составит 130 миллиардов фунтов стерлингов (210 миллиардов долларов). Как пишет 18 сентября газета The Guardian, это значительно больше, чем утверждает британское правительство. К такому выводу , как подчеркивает издание, пришли эксперты международной экологической организации Greenpeace. В частности, по данным аналитиков, официальная оценка стоимости вооружения не учитывает затраты, которые предстоят британскому бюджету на протяжении тридцатилетнего периода эксплуатации вооружения. А это еще примерно 79 миллиардов фунтов. Ориентировочная цена авианосцев, которые должны быть построены для ВМС Великобритании, за последние деся..."
1761,"Структура ВТБ попытается выкупить ""Булгартабак"" у Софии","""ВТБ Капитал"", инвестподразделение госбанка ВТБ, намерен приобрести 80 процентов акций болгарского табачного холдинга ""Булгартабак"", сообщает ""Интерфакс"". Австрийская компания BT Invest, представляющая интересы ""ВТБ Капитала"", предложила за контрольный пакет акций ""Булгартабака"" более 100 миллионов евро. BT Invest является единственным кандидатом на покупку ""Булгартабака"". Ранее интерес к 79,8 процентам акций ""Булгартабака"" проявляла British American Tobacco, но отказалась от участия в конкурсе по причинам ""коммерческого и стратегического характера"". Теперь оценить предложение BT Invest предстоит Агентству по приватизации Болгарии. За последние 10 лет правительство Болгарии уже в четвертый раз пыталось продать крупнейшего в стране производителя табачных изделий, который контролирует 30..."
31503,Тренера сборной Мадагаскара уволили после первого матча,"Главный тренер футбольной сборной Мадагаскара Жан-Поль Россиньоль был уволен после первого же матча на посту наставника команды. 25 марта Мадагаскар в рамках отборочного турнира Кубка Африки - 2008 потерпел крупное домашнее поражение от Кот д'Ивуара (0:3) и потерял все шансы пробиться в финальную часть соревнований. Как сообщает Reuters, инициатива увольнения французского специалиста исходила от правительства Мадагаскара. Сборная этого островного государства выступает в отборочной группе А вместе с командами Габона и Кот д'Ивуара. Четвертым участником должна была быть команды Джибути, но она снялась с турнира. Мадагаскар не сумел набрать ни одного очка в двух первых матчах: до неудачи в матче с Кот д'Ивуаром было поражение от Габона (0:4). Финальный турнир Кубка Африки пройдет в 2008 г..."


In [58]:
m = MorphAnalyzer()

# убираем все небуквенные символы
regex = re.compile("[А-Яа-яA-z]+")

def words_only(text, regex=regex):
    try:
        return regex.findall(text.lower())
    except:
        return []

In [59]:
print(data.text[0])

В южноафриканском Кейптауне победой сборной России завершился чемпионат мира среди бездомных. В финальном матче российские футболисты, впервые в своей истории ставшие чемпионами мира, обыграли команду Казахстана со счетом 1:0, передает BBC News. В первенстве принимали участие почти 500 человек, которые представляли 48 стран мира. Все матчи, каждый из которых продолжался 15 минут, проходили на асфальтовых полях, причем в одной команде могли играть как мужчины, так и женщины. Сборная России провела на турнире 13 матчей, во всех из которых добилась победы. На предыдущих чемпионатах мира достижения российской команды были скромнее: в 2003-м году – 13-е место, в 2004-м году – 5-е место, в 2005-м году – 12-е место.


In [62]:
print(*words_only(data.text[0]))

в южноафриканском кейптауне победой сборной россии завершился чемпионат мира среди бездомных в финальном матче российские футболисты впервые в своей истории ставшие чемпионами мира обыграли команду казахстана со счетом передает bbc news в первенстве принимали участие почти человек которые представляли стран мира все матчи каждый из которых продолжался минут проходили на асфальтовых полях причем в одной команде могли играть как мужчины так и женщины сборная россии провела на турнире матчей во всех из которых добилась победы на предыдущих чемпионатах мира достижения российской команды были скромнее в м году е место в м году е место в м году е место


Метод @lru_cashe создает для функции lemmatize кэш указанного размера, что позволяет в целом ускорить лемматизацию текста (что очень полезно, так как лемматизация - ресурсоемкий процесс).

In [69]:
from functools import lru_cache

In [70]:
@lru_cache(maxsize=128)
def lemmatize_word(token, pymorphy=m):
    return pymorphy.parse(token)[0].normal_form

def lemmatize_text(text):
    return [lemmatize_word(w) for w in text]

In [71]:
tokens = words_only(data.text[0])

print(lemmatize_text(tokens))

['в', 'южноафриканский', 'кейптаун', 'победа', 'сборный', 'россия', 'завершиться', 'чемпионат', 'мир', 'среди', 'бездомный', 'в', 'финальный', 'матч', 'российский', 'футболист', 'впервые', 'в', 'свой', 'история', 'стать', 'чемпион', 'мир', 'обыграть', 'команда', 'казахстан', 'с', 'счёт', 'передавать', 'bbc', 'news', 'в', 'первенство', 'принимать', 'участие', 'почти', 'человек', 'который', 'представлять', 'страна', 'мир', 'весь', 'матч', 'каждый', 'из', 'который', 'продолжаться', 'минута', 'проходить', 'на', 'асфальтовый', 'поле', 'причём', 'в', 'один', 'команда', 'мочь', 'играть', 'как', 'мужчина', 'так', 'и', 'женщина', 'сборная', 'россия', 'провести', 'на', 'турнир', 'матч', 'в', 'весь', 'из', 'который', 'добиться', 'победа', 'на', 'предыдущий', 'чемпионат', 'мир', 'достижение', 'российский', 'команда', 'быть', 'скромный', 'в', 'метр', 'год', 'е', 'место', 'в', 'метр', 'год', 'е', 'место', 'в', 'метр', 'год', 'е', 'место']


In [87]:
mystopwords = stopwords.words('russian')
def remove_stopwords(lemmas, stop_words = mystopwords):
    return [w for w in lemmas if w not in stop_words]

In [88]:
lemmas = lemmatize_text(tokens)

print(*remove_stopwords(lemmas))

южноафриканский кейптаун победа сборный россия завершиться чемпионат мир среди бездомный финальный матч российский футболист впервые свой история стать чемпион мир обыграть команда казахстан счёт передавать bbc news первенство принимать участие человек который представлять страна мир весь матч каждый который продолжаться минута проходить асфальтовый поле причём команда мочь играть мужчина женщина сборная россия провести турнир матч весь который добиться победа предыдущий чемпионат мир достижение российский команда скромный метр год е место метр год е место метр год е место


In [89]:
def remove_stopwords(lemmas, stopwords = mystopwords):
    return [w for w in lemmas if not w in stopwords and len(w) > 3]

In [90]:
print(*remove_stopwords(lemmas))

южноафриканский кейптаун победа сборный россия завершиться чемпионат среди бездомный финальный матч российский футболист впервые свой история стать чемпион обыграть команда казахстан счёт передавать news первенство принимать участие человек который представлять страна весь матч каждый который продолжаться минута проходить асфальтовый поле причём команда мочь играть мужчина женщина сборная россия провести турнир матч весь который добиться победа предыдущий чемпионат достижение российский команда скромный метр место метр место метр место


Если собрать все в одну функцию:

In [94]:
def clean_text(text):
    tokens = words_only(text)
    lemmas = lemmatize_text(tokens)
    
    return remove_stopwords(lemmas)

In [95]:
print(*clean_text(data.text[3]))

известный голливудский актёр майкл дуглас совершить неожиданный визит сообщать издание cubadebate цель поездка дуглас уточняться утверждаться лишь актёр посетить несколько памятный место число закусочный floridita который некогда любить бывать эрнест хемингуэй майкл дуглас также осмотреть достопримечательность исторический центр гавана понаблюдать процесс изготовление кубинский сигара табачный фабрика стоить отметить свободный посещение куба американский гражданин иметь родственник остров запретить американец поездка требоваться специальный разрешение государственный департамент получать дуглас разрешение сообщаться напомнить дуглас единственный знаменитый голливудский актёр посетить последний время ранее страна качество корреспондент журнал vanity fair прибыть визит пенна двукратный обладатель премия оскар намереваться взять интервью фидель кастро поездка пенный сопровождать известный филантроп дайана дженкинс


Если нужно предобработать большой объем текста, помимо кэширования может помочь распараллеливание, например, методом Pool библиотеки multiprocessing:

In [96]:
from multiprocessing import Pool
from tqdm import tqdm_notebook as tqdm

In [119]:
%%time
N = 1000
data['text'][:N].apply(clean_text)

CPU times: user 31.3 s, sys: 55.5 ms, total: 31.4 s
Wall time: 31.4 s


0                                                                                                                                                                                                    [южноафриканский, кейптаун, победа, сборный, россия, завершиться, чемпионат, среди, бездомный, финальный, матч, российский, футболист, впервые, свой, история, стать, чемпион, обыграть, команда, казахстан, счёт, передавать, news, первенство, принимать, участие, человек, который, представлять, страна, весь, матч, каждый, который, продолжаться, минута, проходить, асфальтовый, поле, причём, команда, мочь, играть, мужчина, женщина, сборная, россия, провести, турнир, матч, весь, который, добиться, победа, предыдущий, чемпионат, достижение, российский, команда, скромный, метр, место, метр, место, метр, место]
1      [анна, курников, проиграть, испанка, кончить, мартинес, conchita, martinez, первое, круг, выбыть, борьба, победа, турнир, family, circle, сообщать, российский, теннисистка, уступить, ста

In [123]:
%%time
N = 1000

with Pool(8) as p:
    lemmas = list(tqdm(p.imap(clean_text, data['text'][:N]), total=N))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`


HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))


CPU times: user 586 ms, sys: 341 ms, total: 928 ms
Wall time: 4.32 s


In [124]:
data = data.head(N)
data['lemmas'] = lemmas
data.sample(3)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['lemmas'] = lemmas


Unnamed: 0,title,text,lemmas
378,СМИ назвали срок выхода PC-версии GTA V,"СМИ выяснили срок выхода PC-версии экшна GTA V. Как передает Eurogamer со ссылкой на свои источники в игровой индустрии, на этой платформе игра станет доступна в начале 2014 года. Издательство Rockstar пока не анонсировало версию GTA V для PC официально. Представители компании отказались подтвердить новую информацию о выходе игры на персональных компьютерах. Ранее в Сеть неоднократно попадали косвенные подтверждения того, что разработчики планируют выпустить новую часть криминального сериала на PC. Так, версия для этой платформы упоминалась на встрече с инвесторами, которую проводила компания Nvidia. После того, как сведения об этом стали известны СМИ, представители компании заявили, что им неизвестно о готовящемся релизе. По их словам, на встрече с инвесторами игра упоминалась лишь по...","[выяснить, срок, выход, версия, экшный, передавать, eurogamer, ссылка, свой, источник, игровой, индустрия, платформа, игра, стать, доступный, начало, издательство, rockstar, пока, анонсировать, версия, официально, представитель, компания, отказаться, подтвердить, новый, информация, выход, игра, персональный, компьютер, ранее, сеть, неоднократно, попадать, косвенный, подтверждение, разработчик, планировать, выпустить, новый, часть, криминальный, сериал, версия, платформа, упоминаться, встреча, инвестор, который, проводить, компания, nvidia, сведение, стать, известный, представитель, компания, заявить, неизвестно, готовиться, релиз, слово, встреча, инвестор, игра, упоминаться, лишь, ждать, выход, геймер, также, неоднократно, требовать, rockstar, выпустить, персональный, компьютер, создат..."
294,"Лучшим комиксом-манга оказалось ""Искусство войны""","Министерство иностранных дел Японии назвало имя победителя первого конкурса среди неяпонских художников, работающих в стиле манга. Им стал 43-летний выходец из Гонконга Ли Чицзин, автор манги по мотивам ""Искусства войны"" китайского полководца и теоретика военной стратегии Сунь-Цзы, сообщается в пресс-релизе ведомства. Официальная церемония награждения состоится в Токио 2 июля 2007 года. Кроме Ли Чицзина награды получат 28-летний уроженец Гонконга по имени Гай, 30 летний малаец Бенни Вон Тон Хоу и 26-летняя австралийка Маделейн Роска. На конкурс поступило 146 работ из 25 стран. Денежные призы условиями конкурса не предусмотрены, но всех победителей ожидает десятидневная поездка в Японию. Проект, направленный на популяризацию японской культуры в мире, курирует министр иностранных дел Тар...","[министерство, иностранный, дело, япония, назвать, победитель, первое, конкурс, среди, неяпонский, художник, работать, стиль, манга, стать, летний, выходец, гонконг, чицзина, автор, манга, мотив, искусство, война, китайский, полководец, теоретик, военный, стратегия, сунуть, сообщаться, пресс, релиз, ведомство, официальный, церемония, награждение, состояться, токио, июль, кроме, чицзина, награда, получить, летний, уроженец, гонконг, летний, малаец, бенний, летний, австралийка, маделейн, роска, конкурс, поступить, работа, страна, денежный, приз, условие, конкурс, предусмотреть, весь, победитель, ожидать, десятидневный, поездка, япония, проект, направить, популяризация, японский, культура, курировать, министр, иностранный, дело, таро, объявлять, открытие, конкурс, сравнить, важность, жанр..."
723,"""Лукойл"" в 2012 году увеличил инвестиции на 40 процентов","Объем инвестиций ""Лукойла"" по итогам 2012 года окажется на уровне 13,7 миллиарда долларов, что на 40 процентов больше уровня предыдущего года. Об этом сообщается в пресс-релизе корпорации. Цифры были озвучены на заседании совета директоров ""Лукойла"". Добыча нефти компании сократилась за год на 0,9 процента до 89,9 миллиона тонн. В то же время добыча газа увеличилась на 1,2 процента до 24,5 миллиарда кубометров. В целом производство углеводородного сырья выросло на 1,4 миллиона тонн условного топлива до 114,4 миллиона тонн. В 2012 году прирост запасов углеводородного сырья по российской классификации может составить 137,6 миллиона тонн условного топлива. ""Лукойлу"" удалось открыть пять месторождений в Пермском крае, Татарстане, Волгоградской области и Узбекистане. Кроме этого было открыт...","[объесть, инвестиция, лукойл, итог, оказаться, уровень, миллиард, доллар, процент, большой, уровень, предыдущий, сообщаться, пресс, релиз, корпорация, цифра, озвучить, заседание, совет, директор, лукойл, добыча, нефть, компания, сократиться, процент, миллион, тонна, время, добыча, газа, увеличиться, процент, миллиард, кубометр, целое, производство, углеводородный, сырьё, вырасти, миллион, тонна, условный, топливо, миллион, тонна, прирост, запас, углеводородный, сырьё, российский, классификация, мочь, составить, миллион, тонна, условный, топливо, лукойл, удаться, открыть, пять, месторождение, пермский, край, татарстан, волгоградский, область, узбекистан, кроме, открыто, новый, залежь, ранее, открытый, месторождение, переработка, нефтяной, сырьё, завод, компания, должный, составить, милл..."


### Итого:

- посмотрели, как делать все стандартные этапы предобработки текста
- научились работать с морфологоческими парсерами