## Предобработка текста с помощью Python 

### 1.Введение в библиотеку re

Регулярное выражение — это последовательность символов, используемая для поиска и замены текста в строке или файле.

Регулярные выражения используют два типа символов:

- специальные символы: как следует из названия, у этих символов есть специальные значения. 
- литералы (например: a, b, 1, 2 и т. д.).

Примеры регулярных выражений:

- . – любой символ, кроме перевода строки;
- \w – одно слово;
- \d – одна цифра;
- \s – один пробел;
- \W – одно НЕслово;
- \D – одна НЕцифра;
- \S – один НЕпробел;
- [abc] – находит любой из указанных символов match any of a, b, or c;
- [^abc] – находит любой символ, кроме указанных;
- [a-g] – находит символ в промежутке от a до g.


В Python для работы с регулярными выражениями есть модуль re. Для использования его нужно импортировать:

In [1]:
import re
help(re)

Help on module re:

NAME
    re - Support for regular expressions (RE).

MODULE REFERENCE
    https://docs.python.org/3.8/library/re
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    This module provides regular expression matching operations similar to
    those found in Perl.  It supports both 8-bit and Unicode strings; both
    the pattern and the strings being processed can contain null bytes and
    characters outside the US ASCII range.
    
    Regular expressions can contain both special and ordinary characters.
    Most ordinary characters, like "A", "a", or "0", are the simplest
    regular expressions; they simply match themselves.  You can
    concatenate ordinary characters, so last mat

Чаще всего регулярные выражения используются для:
- поиска в строке;
- разбиения строки на подстроки;
- замены части строки.

Давайте посмотрим на методы, которые предоставляет библиотека re для этих задач.

#### re.match(pattern, string):

Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод match() на строке «find matched pattern» с шаблоном «find», то он завершится успешно. Однако если мы будем искать «matched», то результат будет отрицательный.

In [2]:
re.match(r'find', 'find matched pattern')

<re.Match object; span=(0, 4), match='find'>

In [3]:
print(re.match(r'matched', 'find matched pattern'))

None


In [4]:
re.match(r'[a-z]', 'find matched pattern')

<re.Match object; span=(0, 1), match='f'>

In [5]:
re.match(r'[a-z]+', 'find matched pattern')

<re.Match object; span=(0, 4), match='find'>

#### re.search(pattern, string)

Этот метод похож на match(), но он ищет не только в начале строки. В отличие от предыдущего, search() вернет объект, если мы попытаемся найти «matched».

In [6]:
result = re.search(r'matched', 'find matched pattern')
print(result.group())

matched


In [7]:
re.search(r'\w+', 'find matched pattern')

<re.Match object; span=(0, 4), match='find'>

#### re.findall(pattern, string)

Этот метод возвращает список всех найденных совпадений. У метода findall() нет ограничений на поиск в начале или конце строки. Для поиска рекомендуется использовать именно findall(), так как он может работать и как re.search(), и как re.match().

In [8]:
result = re.findall(r're', 'we want re to find all re in this text re')
print(result)

['re', 're', 're']


Вернуть список доменов из списка адресов электронной почты.
Online regex tester and debugger: https://regex101.com/

In [97]:
result = re.findall(r'@\w+.\w+', 'dsdf, abc.test@gmail.com, xyz@test.in, test.first@mail.ru, dhjsd@hjk*fhjd')
print(result)


['@gmail.com', '@test.in', '@mail.ru', '@hjk*fhjd']


Извлечь дату из строки.

In [10]:
result = re.findall(r'\d{2}-\d{2}-\d{4}', 'Name 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009')
print(result)

['12-05-2007', '11-11-2011', '12-01-2009']


#### re.split(pattern, string, [maxsplit=0])

Этот метод разделяет строку по заданному шаблону.

In [98]:
result = re.split(r' ', 'we want to devide')
print(result)

['we', 'want', 'to', 'devide']


#### re.sub(pattern, repl, string)

Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.


In [12]:
result = re.sub(r'Russia', 'the World', 'I want to be the best nlp specialist in Russia')
print(result)


I want to be the best nlp specialist in the World


#### Удаление пунктуации

Мы можем использовать регулярные выражения для дополнительного фильтрова

In [13]:
text = 'Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia.'
no_punctuation_text = re.sub(r'[^\w\s]', '', text)
no_punctuation_text

'Russian is an East Slavic language which is an official language in Russia Belarus Kazakhstan Kyrgyzstan as well as being widely used throughout Eastern Europe the Baltic states the Caucasus and Central Asia'

In [99]:
import string

In [15]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [100]:
string.whitespace

' \t\n\r\x0b\x0c'

In [16]:
''.join([ch for ch in list(text) if ch not in string.punctuation])

'Russian is an East Slavic language which is an official language in Russia Belarus Kazakhstan Kyrgyzstan as well as being widely used throughout Eastern Europe the Baltic states the Caucasus and Central Asia'

### 2.Токенизация

Привести к нижнему регистру  .lower()

In [111]:
text = 'This is, a ... Demo. Text, 1.3.4 for NLP using NLTK????!!!!!! Full form of NLTK is Natural Language Toolkit'

In [112]:
text

'This is, a ... Demo. Text, 1.3.4 for NLP using NLTK????!!!!!! Full form of NLTK is Natural Language Toolkit'

In [113]:
text.split()

['This',
 'is,',
 'a',
 '...',
 'Demo.',
 'Text,',
 '1.3.4',
 'for',
 'NLP',
 'using',
 'NLTK????!!!!!!',
 'Full',
 'form',
 'of',
 'NLTK',
 'is',
 'Natural',
 'Language',
 'Toolkit']

In [114]:
text = 'This is a Demo Text for NLP using NLTK. Full form of NLTK is Natural Language Toolkit'
lower_text = text.lower()
print(lower_text)

this is a demo text for nlp using nltk. full form of nltk is natural language toolkit


Разделить строку на отдельные слова  re.split()

In [18]:
bag_of_words = re.split(r' ', lower_text)
bag_of_words

['this',
 'is',
 'a',
 'demo',
 'text',
 'for',
 'nlp',
 'using',
 'nltk.',
 'full',
 'form',
 'of',
 'nltk',
 'is',
 'natural',
 'language',
 'toolkit']

In [116]:
text = 'This is a Demo 20.20.10 Text for NLP using NLTK. Full form of NLTK is Natural Language Toolkit'

In [117]:
text.split(sep='!')

['This is a Demo 20',
 '20',
 '10 Text for NLP using NLTK',
 ' Full form of NLTK is Natural Language Toolkit']

### 3. Подсчет частот слов TF, IDF

TF (term frequency — частота слова) – отношение числа вхождений слова к общему числу слов документа.

In [20]:
def computeTF(word_dict, bag_of_words):
    tf_dict = {}
    bag_of_words_count = len(bag_of_words)
    for word, count in word_dict.items():
        tf_dict[word] = count / float(bag_of_words_count)
    return tf_dict

unique_words = set(bag_of_words)

num_of_words = dict.fromkeys(unique_words, 0)
for word in bag_of_words:
    num_of_words[word] += 1

tf = computeTF(num_of_words, bag_of_words)
tf

{'natural': 0.058823529411764705,
 'toolkit': 0.058823529411764705,
 'full': 0.058823529411764705,
 'for': 0.058823529411764705,
 'text': 0.058823529411764705,
 'this': 0.058823529411764705,
 'nltk.': 0.058823529411764705,
 'language': 0.058823529411764705,
 'demo': 0.058823529411764705,
 'a': 0.058823529411764705,
 'nlp': 0.058823529411764705,
 'is': 0.11764705882352941,
 'using': 0.058823529411764705,
 'nltk': 0.058823529411764705,
 'form': 0.058823529411764705,
 'of': 0.058823529411764705}

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции.

In [21]:
text = 'nltk is a basic nlp library'
bag_of_words_2 = re.split(r' ', text)

In [22]:
def computeIDF(documents):
    import math
    N = len(documents)
    
    idf_dict = dict.fromkeys(documents[0].keys(), 0)
    for document in documents:
        for word, val in document.items():
            if val > 0:
                idf_dict[word] += 1
    
    for word, val in idf_dict.items():
        idf_dict[word] = math.log(N / float(val))
    return idf_dict

unique_words = set(bag_of_words).union(set(bag_of_words_2))

num_of_words = dict.fromkeys(unique_words, 0)

for word in bag_of_words:
    num_of_words[word] += 1
    
num_of_words_2 = dict.fromkeys(unique_words, 0)

for word in bag_of_words_2:
    num_of_words_2[word] += 1

idfs = computeIDF([num_of_words, num_of_words_2])
idfs

{'natural': 0.6931471805599453,
 'toolkit': 0.6931471805599453,
 'nltk.': 0.6931471805599453,
 'text': 0.6931471805599453,
 'this': 0.6931471805599453,
 'language': 0.6931471805599453,
 'demo': 0.6931471805599453,
 'library': 0.6931471805599453,
 'nltk': 0.0,
 'is': 0.0,
 'form': 0.6931471805599453,
 'full': 0.6931471805599453,
 'basic': 0.6931471805599453,
 'for': 0.6931471805599453,
 'a': 0.0,
 'nlp': 0.0,
 'using': 0.6931471805599453,
 'of': 0.6931471805599453}

TF-IDF (сокращение от term frequency — inverse document frequency) – это статистическая мера для оценки важности слова в документе, который является частью коллекции или корпуса.

In [23]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

document = ["I like this movie, it's funny funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']
vectorizer = CountVectorizer(analyzer='char', ngram_range=(1, 3))
values = vectorizer.fit_transform(document)

# Show the Model as a pandas DataFrame
feature_names = vectorizer.get_feature_names()
pd.DataFrame(values.toarray(), columns = feature_names)

Unnamed: 0,Unnamed: 1,a,aw,f,fu,h,ha,i,i.1,it,...,vie,w,wa,was,we,wes,y,y.1,y f,y.
0,6,0,0,2,2,0,0,1,0,1,...,1,0,0,0,0,0,2,1,1,1
1,3,0,0,0,0,1,1,0,0,0,...,1,0,0,0,0,0,0,0,0,0
2,5,1,1,0,0,0,0,2,1,1,...,0,2,1,1,1,1,0,0,0,0
3,4,0,0,0,0,0,0,2,1,1,...,0,0,0,0,0,0,0,0,0,0


In [26]:
from sklearn.feature_extraction.text import HashingVectorizer

In [27]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

document = ["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']
tfidf_vectorizer = TfidfVectorizer()
values = tfidf_vectorizer.fit_transform(document)

# Show the Model as a pandas DataFrame
feature_names = tfidf_vectorizer.get_feature_names()
pd.DataFrame(values.toarray(), columns = feature_names)

Unnamed: 0,awesome,funny,hate,it,like,love,movie,nice,one,this,was
0,0.0,0.571848,0.0,0.365003,0.450852,0.0,0.450852,0.0,0.0,0.365003,0.0
1,0.0,0.0,0.702035,0.0,0.0,0.0,0.553492,0.0,0.0,0.4481,0.0
2,0.539445,0.0,0.0,0.344321,0.425305,0.0,0.0,0.0,0.0,0.344321,0.539445
3,0.0,0.0,0.0,0.345783,0.0,0.541736,0.0,0.541736,0.541736,0.0,0.0


### 4.Введение в библиотеку NLTK

#### NLTK (Natural Language Toolkit)
Ведущая платформа для создания NLP-программ на Python. У нее есть легкие в использовании интерфейсы для многих языковых корпусов, а также библиотеки для обработки текстов для классификации, токенизации, стемминга, разметки и фильтрации.

In [118]:
import nltk
help(nltk)

Help on package nltk:

NAME
    nltk

DESCRIPTION
    The Natural Language Toolkit (NLTK) is an open source Python library
    for Natural Language Processing.  A free online book is available.
    (If you use the library for academic research, please cite the book.)
    
    Steven Bird, Ewan Klein, and Edward Loper (2009).
    Natural Language Processing with Python.  O'Reilly Media Inc.
    http://nltk.org/book
    
    @version: 3.4.5

PACKAGE CONTENTS
    app (package)
    book
    ccg (package)
    chat (package)
    chunk (package)
    classify (package)
    cluster (package)
    collections
    collocations
    compat
    corpus (package)
    data
    decorators
    downloader
    draw (package)
    featstruct
    grammar
    help
    inference (package)
    internals
    jsontags
    lazyimport
    lm (package)
    metrics (package)
    misc (package)
    parse (package)
    probability
    sem (package)
    sentiment (package)
    stem (package)
    tag (package)
    tbl (pac

##### Токенизация по предложениям 
– это процесс разделения письменного языка на предложения-компоненты. В английском и некоторых других языках мы можем вычленять предложение каждый раз, когда находим определенный знак пунктуации – точку.

Но даже в английском эта задача нетривиальна, так как точка используется и в сокращениях. Таблица сокращений может сильно помочь во время обработки текста, чтобы избежать неверной расстановки границ предложений. В большинстве случаев для этого используются библиотеки, так что можете особо не переживать о деталях реализации.

In [119]:
text = "Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia. Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch. There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian."
text

'Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia. Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch. There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian.'

In [120]:
text.split()

['Russian',
 'is',
 'an',
 'East',
 'Slavic',
 'language,',
 'which',
 'is',
 'an',
 'official',
 'language',
 'in',
 'Russia,',
 'Belarus,',
 'Kazakhstan,',
 'Kyrgyzstan,',
 'as',
 'well',
 'as',
 'being',
 'widely',
 'used',
 'throughout',
 'Eastern',
 'Europe,',
 'the',
 'Baltic',
 'states,',
 'the',
 'Caucasus',
 'and',
 'Central',
 'Asia.',
 'Russian',
 'belongs',
 'to',
 'the',
 'family',
 'of',
 'Indo-European',
 'languages,',
 'one',
 'of',
 'the',
 'four',
 'living',
 'members',
 'of',
 'the',
 'East',
 'Slavic',
 'languages',
 'alongside,',
 'and',
 'part',
 'of',
 'the',
 'larger',
 'Balto-Slavic',
 'branch.',
 'There',
 'is',
 'a',
 'high',
 'degree',
 'of',
 'mutual',
 'intelligibility',
 'between',
 'Russian,',
 'Belarusian',
 'and',
 'Ukrainian.']

In [58]:
text.split('.')

['Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia',
 ' Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch',
 ' There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian',
 '']

In [1]:
from nltk.tokenize import word_tokenize, wordpunct_tokenize

In [2]:
from nltk import tokenize as tknz

In [3]:
text =['Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia',
 ' Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch',
 ' There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian',
 '']

In [4]:
tknz.word_tokenize(text)

LookupError: 
**********************************************************************
  Resource [93mpunkt[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt/english.pickle[0m

  Searched in:
    - 'C:\\Users\\user/nltk_data'
    - 'C:\\Users\\user\\anaconda3\\nltk_data'
    - 'C:\\Users\\user\\anaconda3\\share\\nltk_data'
    - 'C:\\Users\\user\\anaconda3\\lib\\nltk_data'
    - 'C:\\Users\\user\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - ''
**********************************************************************


In [33]:
tknz.wordpunct_tokenize(text)

['Russian',
 'is',
 'an',
 'East',
 'Slavic',
 'language',
 ',',
 'which',
 'is',
 'an',
 'official',
 'language',
 'in',
 'Russia',
 ',',
 'Belarus',
 ',',
 'Kazakhstan',
 ',',
 'Kyrgyzstan',
 ',',
 'as',
 'well',
 'as',
 'being',
 'widely',
 'used',
 'throughout',
 'Eastern',
 'Europe',
 ',',
 'the',
 'Baltic',
 'states',
 ',',
 'the',
 'Caucasus',
 'and',
 'Central',
 'Asia',
 '.',
 'Russian',
 'belongs',
 'to',
 'the',
 'family',
 'of',
 'Indo',
 '-',
 'European',
 'languages',
 ',',
 'one',
 'of',
 'the',
 'four',
 'living',
 'members',
 'of',
 'the',
 'East',
 'Slavic',
 'languages',
 'alongside',
 ',',
 'and',
 'part',
 'of',
 'the',
 'larger',
 'Balto',
 '-',
 'Slavic',
 'branch',
 '.',
 'There',
 'is',
 'a',
 'high',
 'degree',
 'of',
 'mutual',
 'intelligibility',
 'between',
 'Russian',
 ',',
 'Belarusian',
 'and',
 'Ukrainian',
 '.']

In [34]:
tknz.ToktokTokenizer().tokenize(text)

['Russian',
 'is',
 'an',
 'East',
 'Slavic',
 'language',
 ',',
 'which',
 'is',
 'an',
 'official',
 'language',
 'in',
 'Russia',
 ',',
 'Belarus',
 ',',
 'Kazakhstan',
 ',',
 'Kyrgyzstan',
 ',',
 'as',
 'well',
 'as',
 'being',
 'widely',
 'used',
 'throughout',
 'Eastern',
 'Europe',
 ',',
 'the',
 'Baltic',
 'states',
 ',',
 'the',
 'Caucasus',
 'and',
 'Central',
 'Asia.',
 'Russian',
 'belongs',
 'to',
 'the',
 'family',
 'of',
 'Indo-European',
 'languages',
 ',',
 'one',
 'of',
 'the',
 'four',
 'living',
 'members',
 'of',
 'the',
 'East',
 'Slavic',
 'languages',
 'alongside',
 ',',
 'and',
 'part',
 'of',
 'the',
 'larger',
 'Balto-Slavic',
 'branch.',
 'There',
 'is',
 'a',
 'high',
 'degree',
 'of',
 'mutual',
 'intelligibility',
 'between',
 'Russian',
 ',',
 'Belarusian',
 'and',
 'Ukrainian',
 '.']

In [66]:
tknz.TweetTokenizer().tokenize(text)

['Russian',
 'is',
 'an',
 'East',
 'Slavic',
 'language',
 ',',
 'which',
 'is',
 'an',
 'official',
 'language',
 'in',
 'Russia',
 ',',
 'Belarus',
 ',',
 'Kazakhstan',
 ',',
 'Kyrgyzstan',
 ',',
 'as',
 'well',
 'as',
 'being',
 'widely',
 'used',
 'throughout',
 'Eastern',
 'Europe',
 ',',
 'the',
 'Baltic',
 'states',
 ',',
 'the',
 'Caucasus',
 'and',
 'Central',
 'Asia',
 '.',
 'Russian',
 'belongs',
 'to',
 'the',
 'family',
 'of',
 'Indo-European',
 'languages',
 ',',
 'one',
 'of',
 'the',
 'four',
 'living',
 'members',
 'of',
 'the',
 'East',
 'Slavic',
 'languages',
 'alongside',
 ',',
 'and',
 'part',
 'of',
 'the',
 'larger',
 'Balto-Slavic',
 'branch',
 '.',
 'There',
 'is',
 'a',
 'high',
 'degree',
 'of',
 'mutual',
 'intelligibility',
 'between',
 'Russian',
 ',',
 'Belarusian',
 'and',
 'Ukrainian',
 '.']

In [None]:
tknz.RegexpTokenizer()

In [123]:
text = 'Russian is an East 12.12.2020 Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia. Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch. There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian.'

In [124]:
sentences = nltk.sent_tokenize(text)
for sentence in sentences:
    print(sentence)
    print()

Russian is an East 12.12.2020 Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia.

Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch.

There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian.



##### Токенизация по словам 
– это процесс разделения предложений на слова-компоненты. В английском и многих других языках, использующих ту или иную версию латинского алфавита, пробел – это неплохой разделитель слов.

Тем не менее, могут возникнуть проблемы, если мы будем использовать только пробел – в английском составные существительные пишутся по-разному и иногда через пробел. И тут вновь нам помогают библиотеки.

Давайте возьмем предложения из предыдущего примера и применим к ним метод nltk.word_tokenize.

In [36]:
sentences

['Russian is an East Slavic language, which is an official language in Russia, Belarus, Kazakhstan, Kyrgyzstan, as well as being widely used throughout Eastern Europe, the Baltic states, the Caucasus and Central Asia.',
 'Russian belongs to the family of Indo-European languages, one of the four living members of the East Slavic languages alongside, and part of the larger Balto-Slavic branch.',
 'There is a high degree of mutual intelligibility between Russian, Belarusian and Ukrainian.']

In [48]:
tt = 'Russian is an East Slavic language. Ehich is 1.4.6 an official language in Russia. Belarus, Kazakhstan, Kyrgyzstan, as well as 10.22.2020 being widely used. throughout Eastern Europe, the Baltic states! The Caucasus and Central Asia.'

In [52]:
nltk.sent_tokenize?

In [51]:
nltk.sent_tokenize(tt)

['Russian is an East Slavic language.',
 'Ehich is 1.4.6 an official language in Russia.',
 'Belarus, Kazakhstan, Kyrgyzstan, as well as 10.22.2020 being widely used.',
 'throughout Eastern Europe, the Baltic states!',
 'The Caucasus and Central Asia.']

In [125]:
s = "Выва аовлд 10.05.2020 аволдв. Иыты лдва олы!"

In [127]:
print(nltk.sent_tokenize(s)

['Выва аовлд 10.05.2020 аволдв.', 'Иыты лдва олы!']


In [37]:
for sentence in sentences:
    words = nltk.word_tokenize(sentence)
    print(words)
    print()

['Russian', 'is', 'an', 'East', 'Slavic', 'language', ',', 'which', 'is', 'an', 'official', 'language', 'in', 'Russia', ',', 'Belarus', ',', 'Kazakhstan', ',', 'Kyrgyzstan', ',', 'as', 'well', 'as', 'being', 'widely', 'used', 'throughout', 'Eastern', 'Europe', ',', 'the', 'Baltic', 'states', ',', 'the', 'Caucasus', 'and', 'Central', 'Asia', '.']

['Russian', 'belongs', 'to', 'the', 'family', 'of', 'Indo-European', 'languages', ',', 'one', 'of', 'the', 'four', 'living', 'members', 'of', 'the', 'East', 'Slavic', 'languages', 'alongside', ',', 'and', 'part', 'of', 'the', 'larger', 'Balto-Slavic', 'branch', '.']

['There', 'is', 'a', 'high', 'degree', 'of', 'mutual', 'intelligibility', 'between', 'Russian', ',', 'Belarusian', 'and', 'Ukrainian', '.']



##### Лемматизация и стемминг текста

Обычно тексты содержат разные грамматические формы одного и того же слова, а также могут встречаться однокоренные слова. Лемматизация и стемминг преследуют цель привести все встречающиеся словоформы к одной, нормальной словарной форме.

##### Примеры:

- Приведение разных словоформ к одной: dog, dogs, dog’s, dogs’ => dog
- То же самое, но уже применительно к целому предложению: the boy’s dogs are different sizes => the boy dog be differ size


Лемматизация и стемминг – это частные случаи нормализации и они отличаются.

##### Стемминг
– это грубый эвристический процесс, который отрезает «лишнее» от корня слов, часто это приводит к потере словообразовательных суффиксов.

##### Лемматизация
– это более тонкий процесс, который использует словарь и морфологический анализ, чтобы в итоге привести слово к его канонической форме – лемме.

Отличие в том, что стеммер (конкретная реализация алгоритма стемминга – прим.переводчика) действует без знания контекста и, соответственно, не понимает разницу между словами, которые имеют разный смысл в зависимости от части речи. Однако у стеммеров есть и свои преимущества: их проще внедрить и они работают быстрее. Плюс, более низкая «аккуратность» может не иметь значения в некоторых случаях.

##### Примеры:

- Слово good – это лемма для слова better. Стеммер не увидит эту связь, так как здесь нужно сверяться со словарем.
- Слово play – это базовая форма слова playing. Тут справятся и стемминг, и лемматизация.
- Слово meeting может быть как нормальной формой существительного, так и формой глагола to meet, в зависимости от контекста. В - отличие от стемминга, лемматизация попробует выбрать правильную лемму, опираясь на контекст.

In [38]:
from nltk.stem.snowball import SnowballStemmer

In [39]:
SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [40]:
text_test = "Практический опыт показывает, что реализация намеченного плана развития обеспечивает широкому кругу специалистов участие в формировании позиций, занимаемых участниками в отношении поставленных задач. Повседневная практика показывает, что новая модель организационной деятельности обеспечивает широкому кругу специалистов участие в формировании экономической целесообразности принимаемых решений. С другой стороны курс на социально-ориентированный национальный проект способствует подготовке и реализации модели развития!"
text_test

'Практический опыт показывает, что реализация намеченного плана развития обеспечивает широкому кругу специалистов участие в формировании позиций, занимаемых участниками в отношении поставленных задач. Повседневная практика показывает, что новая модель организационной деятельности обеспечивает широкому кругу специалистов участие в формировании экономической целесообразности принимаемых решений. С другой стороны курс на социально-ориентированный национальный проект способствует подготовке и реализации модели развития!'

In [41]:
snowball = SnowballStemmer('russian')

In [128]:
words = word_tokenize(text_test)

In [129]:
words

['Практический',
 'опыт',
 'показывает',
 ',',
 'что',
 'реализация',
 'намеченного',
 'плана',
 'развития',
 'обеспечивает',
 'широкому',
 'кругу',
 'специалистов',
 'участие',
 'в',
 'формировании',
 'позиций',
 ',',
 'занимаемых',
 'участниками',
 'в',
 'отношении',
 'поставленных',
 'задач',
 '.',
 'Повседневная',
 'практика',
 'показывает',
 ',',
 'что',
 'новая',
 'модель',
 'организационной',
 'деятельности',
 'обеспечивает',
 'широкому',
 'кругу',
 'специалистов',
 'участие',
 'в',
 'формировании',
 'экономической',
 'целесообразности',
 'принимаемых',
 'решений',
 '.',
 'С',
 'другой',
 'стороны',
 'курс',
 'на',
 'социально-ориентированный',
 'национальный',
 'проект',
 'способствует',
 'подготовке',
 'и',
 'реализации',
 'модели',
 'развития',
 '!']

In [43]:
for w in words:
    print('{} - {}'.format(w, snowball.stem(w)))

Практический - практическ
опыт - оп
показывает - показыва
, - ,
что - что
реализация - реализац
намеченного - намечен
плана - план
развития - развит
обеспечивает - обеспечива
широкому - широк
кругу - круг
специалистов - специалист
участие - участ
в - в
формировании - формирован
позиций - позиц
, - ,
занимаемых - занима
участниками - участник
в - в
отношении - отношен
поставленных - поставлен
задач - задач
. - .
Повседневная - повседневн
практика - практик
показывает - показыва
, - ,
что - что
новая - нов
модель - модел
организационной - организацион
деятельности - деятельн
обеспечивает - обеспечива
широкому - широк
кругу - круг
специалистов - специалист
участие - участ
в - в
формировании - формирован
экономической - экономическ
целесообразности - целесообразн
принимаемых - принима
решений - решен
. - .
С - с
другой - друг
стороны - сторон
курс - курс
на - на
социально-ориентированный - социально-ориентирова
национальный - национальн
проект - проект
способствует - способств
подготовке -

In [47]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import wordnet

def compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word, pos):
    """
    Print the results of stemmind and lemmitization using the passed stemmer, lemmatizer, word and pos (part of speech)
    """
    print("Stemmer:", stemmer.stem(word))
    print("Lemmatizer:", lemmatizer.lemmatize(word, pos))
    print()

lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "seen", pos = wordnet.VERB)
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "drove", pos = wordnet.VERB)

Stemmer: seen
Lemmatizer: see

Stemmer: drove
Lemmatizer: drive



In [67]:
# !pip install pymystem3

In [71]:
from pymystem3 import Mystem

m = Mystem()
lemmas = m.lemmatize(' '.join(word))
print(lemmas)

['практический', ' ', 'опыт', ' ', 'показывать', ' , ', 'что', ' ', 'реализация', ' ', 'намечать', ' ', 'план', ' ', 'развитие', ' ', 'обеспечивать', ' ', 'широкий', ' ', 'круг', ' ', 'специалист', ' ', 'участие', ' ', 'в', ' ', 'формирование', ' ', 'позиция', ' , ', 'занимать', ' ', 'участник', ' ', 'в', ' ', 'отношение', ' ', 'поставлять', ' ', 'задача', ' ', '. ', 'повседневный', ' ', 'практика', ' ', 'показывать', ' , ', 'что', ' ', 'новый', ' ', 'модель', ' ', 'организационный', ' ', 'деятельность', ' ', 'обеспечивать', ' ', 'широкий', ' ', 'круг', ' ', 'специалист', ' ', 'участие', ' ', 'в', ' ', 'формирование', ' ', 'экономический', ' ', 'целесообразность', ' ', 'принимать', ' ', 'решение', ' ', '. ', 'с', ' ', 'другой', ' ', 'сторона', ' ', 'курс', ' ', 'на', ' ', 'социально', '-', 'ориентированный', ' ', 'национальный', ' ', 'проект', ' ', 'способствовать', ' ', 'подготовка', ' ', 'и', ' ', 'реализация', ' ', 'модель', ' ', 'развитие', ' ', '!', '\n']


In [73]:
from pymorphy2 import MorphAnalyzer

morph = MorphAnalyzer()
morph.parse('стали')

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

##### Стоп-слова

Стоп-слова – это слова, которые выкидываются из текста до/после обработки текста. Когда мы применяем машинное обучение к текстам, такие слова могут добавить много шума, поэтому необходимо избавляться от нерелевантных слов.

Стоп-слова это обычно понимают артикли, междометия, союзы и т.д., которые не несут смысловой нагрузки. При этом надо понимать, что не существует универсального списка стоп-слов, все зависит от конкретного случая.

В NLTK есть предустановленный список стоп-слов. Перед первым использованием вам понадобится его скачать: nltk.download(“stopwords”). После скачивания можно импортировать пакет stopwords и посмотреть на сами слова:

In [54]:
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [61]:
stopwords.fileids()

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [55]:
print(stopwords.words("russian"))

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

Рассмотрим, как можно убрать стоп-слова из предложения:

In [38]:
stop_words = set(stopwords.words("english"))
sentence = "Backgammon is one of the oldest known board games."

words = nltk.word_tokenize(sentence)
without_stop_words = [word for word in words if not word in stop_words]
print(without_stop_words)

['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']


In [62]:
from stop_words import get_stop_words

In [63]:
stop_words = get_stop_words('ru')

In [64]:
stop_words

['а',
 'в',
 'г',
 'е',
 'ж',
 'и',
 'к',
 'м',
 'о',
 'с',
 'т',
 'у',
 'я',
 'бы',
 'во',
 'вы',
 'да',
 'до',
 'ее',
 'ей',
 'ею',
 'её',
 'же',
 'за',
 'из',
 'им',
 'их',
 'ли',
 'мы',
 'на',
 'не',
 'ни',
 'но',
 'ну',
 'нх',
 'об',
 'он',
 'от',
 'по',
 'со',
 'та',
 'те',
 'то',
 'ту',
 'ты',
 'уж',
 'без',
 'был',
 'вам',
 'вас',
 'ваш',
 'вон',
 'вот',
 'все',
 'всю',
 'вся',
 'всё',
 'где',
 'год',
 'два',
 'две',
 'дел',
 'для',
 'его',
 'ему',
 'еще',
 'ещё',
 'или',
 'ими',
 'имя',
 'как',
 'кем',
 'ком',
 'кто',
 'лет',
 'мне',
 'мог',
 'мож',
 'мои',
 'мой',
 'мор',
 'моя',
 'моё',
 'над',
 'нам',
 'нас',
 'наш',
 'нее',
 'ней',
 'нем',
 'нет',
 'нею',
 'неё',
 'них',
 'оба',
 'она',
 'они',
 'оно',
 'под',
 'пор',
 'при',
 'про',
 'раз',
 'сам',
 'сих',
 'так',
 'там',
 'тем',
 'тех',
 'том',
 'тот',
 'тою',
 'три',
 'тут',
 'уже',
 'чем',
 'что',
 'эта',
 'эти',
 'это',
 'эту',
 'алло',
 'буду',
 'будь',
 'бывь',
 'была',
 'были',
 'было',
 'быть',
 'вами',
 'ваша',
 

## Сделаем стандартную предобработку данных с сайта Lenta.ru

In [81]:
import pandas as pd
pd.set_option('display.max_columns', None)  
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 800)

data = pd.read_csv('lenta-ru-partial.csv')
data.sample(5)

Unnamed: 0,title,text
34679,Белоруссия отпустит курс рубля,"Белоруссия отпустит курс национальной валюты с середины сентября. Об этом заявил президент страны Александр Лукашенко, передает ""Интерфакс"". Как передает БЕЛТА, президент добавил, что курс белорусского рубля будет определяться спросом и предложением. Рыночный курс национальной валюты будет устанавливаться на дополнительной сессии торгов на валютной бирже. ""Мы искусственно поддерживать курс не планируем"", - цитирует Лукашенко ""Интерфакс"". РИА Новости указывает, что одновременно Лукашенко поручил комитету государственного контроля воспрепятствовать спекуляциям, которые может вызвать ситуация в стране. Президент добавил, что Нацбанк Белоруссии ""должен ежедневно отслеживать ситуацию и при необходимости вмешиваться, сбивая спекулятивные атаки"". Сейчас в Белоруссии, с весны 2011 года пережив..."
38792,Saxo Bank предсказал закрытие бирж и банков в Европе на неделю,"Saxo Bank опубликовал свои ежегодные ""Шокирующие предсказания"" для мировой экономики на будущий год. Среди рисков, которые инвесторам стоит учитывать при формировании портфеля в 2012 году, Saxo Bank назвал рецессию в Австралии, падение акций Apple в два раза и закрытие банков и бирж в Европе на неделю и более. В своих предсказаниях Saxo Bank описывает маловероятные события, возможность которых, тем не менее, является выше ожиданий инвесторов. Если что-то из описанного произойдет, то на рынки будет оказано очень сильное давление. В десятку возможных событий вошли также победа нового кандидата в борьбе на выборах президента США, введение правил банковского регулирования ""Базель-3"", которое может привести к национализации 50 банков в ЕС, замена Швейцарии Швецией и Норвегией в качестве мир..."
37432,На Бориса Гребенщикова напали в центре Киева,"На лидера группы «Аквариум» Бориса Гребенщикова во время уличного концерта в Киеве напал неизвестный. Об этом сообщает издание «Украина.ру». Отмечается, что на сцену прорвался национал-радикал, который пытался напасть на артиста. Нападавший обвинил музыканта в «рашизме», однако был оперативно задержан. Гребенщиков пожелал провокатору прийти в себя. Рок-музыкант прибыл в Киев 22 июня, чтобы провести ряд концертов в украинской столице."
22752,Центробанк потребовал ужесточить подход к работе с VIP-клиентами,"Банк России потребовал от финансово-кредитных организаций ужесточить подход к работе с клиентами премиального сегмента. Об этом в понедельник, 14 марта, сообщает «Коммерсантъ» со ссылкой на письмо регулятора, направленное банкирам в начале текущего месяца. ЦБ связывает такое требование с активизировавшейся в последнее время схемой по обналичиванию средств VIP-клиентов через их карты. Регулятор обратил внимание на объемы сомнительных наличных операций, которые сохраняются «на высоком уровне». Они проводятся банками прежде всего через карты физических лиц премиального и массового сегментов. Схема заключается в следующем: транзитные компании, аккумулирующие деньги на своих счетах, распределяют средства на карты физлиц суммами от 100 тысяч до 3 миллионов рублей в течение 1-3 месяцев под ви..."
18749,"Футболист ""Челси"" признался в употреблении кокаина","Нападающий ""Челси"" и сборной Румынии Адриан Муту признался в употреблении кокаина. Об этом сообщил глава профсоюза британских футболистов Гордон Тейлор. Он отметил, что Муту не будет ждать результатов допинг-пробы ""В"" и теперь ждет наказания, которая вынесет футбольная ассоциация Англии. ""Надеюсь, что ФА вынесет свое решение как можно быстрее на основании тех данных, которые у них есть"", - сказал Тейлор. Муту может быть дисквалифицирован на два года, но существует вероятность, что наказание будет менее строгим, с учетом признания самого футболиста. Адриан Муту в настоящее время наказан и своим клубом ""Челси"", который оставил игрока без зарплаты до тех пор, пока футбольная ассоциация не огласит свое решение. Для игрока могут настать трудные дни, так как ему нужно платить заработную плат..."


In [82]:
m = MorphAnalyzer()

# убираем все небуквенные символы
regex = re.compile("[А-Яа-яA-z]+")

def words_only(text, regex=regex):
    try:
        return regex.findall(text.lower())
    except:
        return []

In [83]:
print(data.text[0])

В южноафриканском Кейптауне победой сборной России завершился чемпионат мира среди бездомных. В финальном матче российские футболисты, впервые в своей истории ставшие чемпионами мира, обыграли команду Казахстана со счетом 1:0, передает BBC News. В первенстве принимали участие почти 500 человек, которые представляли 48 стран мира. Все матчи, каждый из которых продолжался 15 минут, проходили на асфальтовых полях, причем в одной команде могли играть как мужчины, так и женщины. Сборная России провела на турнире 13 матчей, во всех из которых добилась победы. На предыдущих чемпионатах мира достижения российской команды были скромнее: в 2003-м году – 13-е место, в 2004-м году – 5-е место, в 2005-м году – 12-е место.


In [84]:
print(*words_only(data.text[0]))

в южноафриканском кейптауне победой сборной россии завершился чемпионат мира среди бездомных в финальном матче российские футболисты впервые в своей истории ставшие чемпионами мира обыграли команду казахстана со счетом передает bbc news в первенстве принимали участие почти человек которые представляли стран мира все матчи каждый из которых продолжался минут проходили на асфальтовых полях причем в одной команде могли играть как мужчины так и женщины сборная россии провела на турнире матчей во всех из которых добилась победы на предыдущих чемпионатах мира достижения российской команды были скромнее в м году е место в м году е место в м году е место


Метод @lru_cashe создает для функции lemmatize кэш указанного размера, что позволяет в целом ускорить лемматизацию текста (что очень полезно, так как лемматизация - ресурсоемкий процесс).

In [85]:
from functools import lru_cache

In [86]:
@lru_cache(maxsize=128)
def lemmatize_word(token, pymorphy=m):
    return pymorphy.parse(token)[0].normal_form

def lemmatize_text(text):
    return [lemmatize_word(w) for w in text]

In [87]:
tokens = words_only(data.text[0])

print(lemmatize_text(tokens))

['в', 'южноафриканский', 'кейптаун', 'победа', 'сборный', 'россия', 'завершиться', 'чемпионат', 'мир', 'среди', 'бездомный', 'в', 'финальный', 'матч', 'российский', 'футболист', 'впервые', 'в', 'свой', 'история', 'стать', 'чемпион', 'мир', 'обыграть', 'команда', 'казахстан', 'с', 'счёт', 'передавать', 'bbc', 'news', 'в', 'первенство', 'принимать', 'участие', 'почти', 'человек', 'который', 'представлять', 'страна', 'мир', 'весь', 'матч', 'каждый', 'из', 'который', 'продолжаться', 'минута', 'проходить', 'на', 'асфальтовый', 'поле', 'причём', 'в', 'один', 'команда', 'мочь', 'играть', 'как', 'мужчина', 'так', 'и', 'женщина', 'сборная', 'россия', 'провести', 'на', 'турнир', 'матч', 'в', 'весь', 'из', 'который', 'добиться', 'победа', 'на', 'предыдущий', 'чемпионат', 'мир', 'достижение', 'российский', 'команда', 'быть', 'скромный', 'в', 'метр', 'год', 'е', 'место', 'в', 'метр', 'год', 'е', 'место', 'в', 'метр', 'год', 'е', 'место']


In [88]:
mystopwords = stopwords.words('russian') 

def remove_stopwords(lemmas, stopwords = mystopwords):
    return [w for w in lemmas if not w in stopwords]

In [89]:
lemmas = lemmatize_text(tokens)

print(*remove_stopwords(lemmas))

южноафриканский кейптаун победа сборный россия завершиться чемпионат мир среди бездомный финальный матч российский футболист впервые свой история стать чемпион мир обыграть команда казахстан счёт передавать bbc news первенство принимать участие человек который представлять страна мир весь матч каждый который продолжаться минута проходить асфальтовый поле причём команда мочь играть мужчина женщина сборная россия провести турнир матч весь который добиться победа предыдущий чемпионат мир достижение российский команда скромный метр год е место метр год е место метр год е место


In [90]:
def remove_stopwords(lemmas, stopwords = mystopwords):
    return [w for w in lemmas if not w in stopwords and len(w) > 3]

In [91]:
print(*remove_stopwords(lemmas))

южноафриканский кейптаун победа сборный россия завершиться чемпионат среди бездомный финальный матч российский футболист впервые свой история стать чемпион обыграть команда казахстан счёт передавать news первенство принимать участие человек который представлять страна весь матч каждый который продолжаться минута проходить асфальтовый поле причём команда мочь играть мужчина женщина сборная россия провести турнир матч весь который добиться победа предыдущий чемпионат достижение российский команда скромный метр место метр место метр место


Если собрать все в одну функцию:

In [92]:
def clean_text(text):
    tokens = words_only(text)
    lemmas = lemmatize_text(tokens)
    
    return remove_stopwords(lemmas)

In [93]:
print(*clean_text(data.text[3]))

известный голливудский актёр майкл дуглас совершить неожиданный визит сообщать издание cubadebate цель поездка дуглас уточняться утверждаться лишь актёр посетить несколько памятный место число закусочный floridita который некогда любить бывать эрнест хемингуэй майкл дуглас также осмотреть достопримечательность исторический центр гавана понаблюдать процесс изготовление кубинский сигара табачный фабрика стоить отметить свободный посещение куба американский гражданин иметь родственник остров запретить американец поездка требоваться специальный разрешение государственный департамент получать дуглас разрешение сообщаться напомнить дуглас единственный знаменитый голливудский актёр посетить последний время ранее страна качество корреспондент журнал vanity fair прибыть визит пенна двукратный обладатель премия оскар намереваться взять интервью фидель кастро поездка пенный сопровождать известный филантроп дайана дженкинс


Если нужно предобработать большой объем текста, помимо кэширования может помочь распараллеливание, например, методом Pool библиотеки multiprocessing:

In [94]:
from multiprocessing import Pool
from tqdm import tqdm_notebook as tqdm

In [95]:
N = 200

with Pool(8) as p:
    lemmas = list(tqdm(p.imap(clean_text, data['text'][:N]), total=N))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  lemmas = list(tqdm(p.imap(clean_text, data['text'][:N]), total=N))


HBox(children=(FloatProgress(value=0.0, max=200.0), HTML(value='')))




In [96]:
data = data.head(200)
data['lemmas'] = lemmas
data.sample(3)

Unnamed: 0,title,text,lemmas
83,СМИ сообщили о госпитализации Армена Джигарханяна,"Актер Армен Джигарханян доставлен в одну из столичных клиник и помещен в блок интенсивной терапии, сообщает 11 февраля LifeNews. Причиной госпитализации артиста стали жалобы на сердце. По словам врачей, состояние Джигарханяна средней тяжести. У 80-летнего актера ишемическая болезнь сердца, на фоне которой возникла нестабильная стенокардия. В клинику Джигарханяна доставила его 36-летняя супруга Виталина Цымбалюк-Романовская. Армен Джигарханян — народный артист СССР, актер и театральный режиссер, основатель Московского драматического театра под руководством Армена Джигарханяна. В его фильмографии такие картины, как «Здравствуйте, я ваша тетя!», «Место встречи изменить нельзя», «Мужчины», «Четвертый», «Профессия — следователь» и другие.","[актёр, армен, джигарханян, доставить, столичный, клиника, поместить, блок, интенсивный, терапия, сообщать, февраль, lifenews, причина, госпитализация, артист, стать, жалоба, сердце, слово, врач, состояние, джигарханян, средний, тяжесть, летний, актёр, ишемический, болезнь, сердце, который, возникнуть, нестабильный, стенокардия, клиника, джигарханян, доставить, летний, супруг, виталина, цымбалюк, романовский, армен, джигарханян, народный, артист, ссср, актёр, театральный, режиссёр, основатель, московский, драматический, театр, руководство, армен, джигарханян, фильмография, картина, здравствовать, тётя, место, встреча, изменить, мужчина, четыре, профессия, следователь]"
93,Осязание роботов превзошло человеческое,"Ученые разработали метод осязания, позволяющий роботам различать сходные по текстуре поверхности лучше, чем это делают люди. Работа опубликована в журнале Frontiers in Neurorobotics, ее краткое содержание можно прочитать на сайте Университета Южной калифорнии. Исследователи собрали тестового робота из коммерчески доступных компонентов и занялись созданием программного обеспечения, которое позволило бы ему максимально достоверно различать сходные поверхности. Тактильный сенсор, на основе которого происходило осязание, имитировал строение человеческого пальца. Снаружи он был покрыт эластичной ""кожей"", несущей папиллярные узоры, а внутри был заполнен жидкостью. Внутри находились датчики тепла, силы и давления. Когда искусственный палец скользил по поверхности, в жидкости возникали колебан...","[учёный, разработать, метод, осязание, позволять, робот, различать, сходный, текстура, поверхность, хороший, делать, человек, работа, опубликовать, журнал, frontiers, neurorobotics, краткий, содержание, прочитать, сайт, университет, южный, калифорния, исследователь, собрать, тестовый, робот, коммерчески, доступный, компонент, заняться, создание, программный, обеспечение, который, позволить, максимально, достоверно, различать, сходный, поверхность, тактильный, сенсор, основа, который, происходить, осязание, имитировать, строение, человеческий, палец, снаружи, покрыть, эластичный, кожа, несущий, папиллярный, узор, внутри, заполнить, жидкость, внутри, находиться, датчик, тепло, сила, давление, искусственный, палец, скользить, поверхность, жидкость, возникать, колебание, который, записыват..."
38,Дель Боске продлил контракт со сборной Испании,"Главный тренер сборной Испании по футболу Висенте дель Боске продлил соглашение с командой. Новый контракт будет действовать до конца чемпионата мира 2014 года, который пройдет в Бразилии, сообщает испанское издание Marca. ""Я вновь с испанской командой"", - приводит слова дель Боске Marca. Предыдущее соглашение дель Боске со сборной Испании заканчивалось после чемпионата Европы-2012. Дель Боске возглавил сборную Испании после победного чемпионата Европы-2008, заменив на этом посту Луиса Арагонеса. В 2010 году сборная Испании под руководством дель Боске впервые выиграла чемпионат мира. В финале мирового первенства, которое проходило в ЮАР, испанцы обыграли в дополнительное время сборную Нидерландов. Испанцы уверенно отобрались на чемпионат Европы-2012, который пройдет в Польше и Украине ...","[главный, тренер, сборный, испания, футбол, висенте, дель, боска, продлить, соглашение, команда, новый, контракт, действовать, конец, чемпионат, который, пройти, бразилия, сообщать, испанский, издание, marca, вновь, испанский, команда, приводить, слово, дель, боска, marca, предыдущий, соглашение, дель, боска, сборный, испания, заканчиваться, чемпионат, европа, дель, боска, возглавить, сборная, испания, победный, чемпионат, европа, заменить, пост, луис, арагонес, сборная, испания, руководство, дель, боска, впервые, выиграть, чемпионат, финал, мировой, первенство, который, проходить, испанец, обыграть, дополнительный, время, сборная, нидерланды, испанец, уверенно, отобраться, чемпионат, европа, который, пройти, польша, украина, июнь, июль, групповой, этап, турнир, испания, сыграть, итали..."


### Итого:

- посмотрели, как делать все стандартные этапы предобработки текста
- научились работать с морфологоческими парсерами