# Чтение данных из файлов и предобработка текстовых данных

В этом ноутбуке мы разберем как считывать данные из файлов различного формата и предобрабатывать текстовые данные

## Чтение файлов

### текстовый формат

Для чтения данных из текстовых файлов можно использовать стандартные средства Python. В качестве примера, давайте прочитаем текстовый файл `profstd_dataset.txt`, в котором содержатся тексты профессиальных стандартов.

In [2]:
dataset_list = [] # Создаем пустой список, в котором будем хранить прочитанные строки
with open('profstd_dataset.txt', 'r') as infile: # Открываем файл для чтения
    for line in infile.readlines(): # Считываем файл построчно и перебираем строки в цикле
        dataset_list.append(line) # Добавляем прочитанную строку в список

In [3]:
print('В файле содержится {} строк'.format(len(dataset_list)))
print('Пример прочитанной строки из файла: {}'.format(dataset_list[10]))

В файле содержится 16173 строк
Пример прочитанной строки из файла: СЃРїРµС†РёР°Р»СЊРЅС‹Рµ Р·РЅР°РЅРёСЏ РїРѕ СЂР°Р±РѕС‚Рµ СЃ СѓСЃС‚Р°РЅРѕРІР»РµРЅРЅРѕР№ Р±Рґ



### csv-таблицы

csv-таблицы можно считывать различными методами, как встроенными в Python, так и с помощью внешних библиотек (например Pandas). Давайте попробуем считать данные из таблицы `Yelp.csv`, содержащей в каждой строке текст отзыва и перефразированный текст, двумя разными способами. И начнем мы с встроенных средств:

In [4]:
import csv # импортируем библиотеку для работы с файлами csv

csv_dataset_list = [] # Создаем пустой список, в котором будем хранить данные из прочитанных строк
with open('Yelp.csv', 'r') as csv_file: # открываем csv-файл для чтения
    # для чтения таблицы используем reader, в параметрах delimiter - это символ, 
    # с помощью которого разделены значения в колонках таблицы. Его можно узнать, 
    # открыв csv-файл в Excel или в обычном блокноте
    reader = csv.reader(csv_file, delimiter=',')  
    for line in reader: # Считываем файл построчно и перебираем строки в цикле
        initial, periphrase = line # Кажда строка - список значений колонок. (В данном случае у нас две колонки)
        csv_dataset_list.append((initial, periphrase)) # Добавляем прочитанные значения в виде кортежа в список

In [5]:
print('В файле содержится {} строк'.format(len(csv_dataset_list)))
print('''Пример прочитанной строки из файла 
изначальное предложение: {} 
перефразированное предложение: {}'''.format(csv_dataset_list[10][0], csv_dataset_list[10][1]))

В файле содержится 1000 строк
Пример прочитанной строки из файла 
изначальное предложение: so i asked for the card to be refunded . 
перефразированное предложение: i might consider asking for the card to be refunded .


Еще один способ чтения csv-файлов - использование библиотеки Pandas. Эта библиотека не установлена по умолчанию в Python. Ее нужно установить. Для этого нужно зайти в терминал и набрать команду `pip install pandas`. После того, как она успешно установится, можно начинать работу с ней.

In [7]:
import pandas as pd # Импортируем библиотеку Pandas

# Считываем файл Yelp.csv. Символ-разделитель указывается в параметре sep. 
# У столбцов нашей таблицы нет наименований, по этому указываем header=None.
# Pandas считывает данные в структуру данных, называемую DataFrame. 
# Эта структура данных представляет из себя таблицу.
frame = pd.read_csv('Yelp.csv', sep=',', header=None)  

# Чтобы вывести первые строки фрейма, используется функция head()
frame.head()

Unnamed: 0,0,1
0,took my suite to get fitted and a new button p...,took my suit to get fitted and they put a new ...
1,"the environment was cozy , the servers were fr...",the place was not inviting and staff seemed aloof
2,"french toast plate was good , mom said , but e...","french toast plate was good , mom said , eggs ..."
3,you have to sit outside to get the best experi...,sitting outside makes this place worse .
4,"for the record i am a good cook , i use season...","for the record i am a terrific cook , i use al..."


In [8]:
# Чтобы узнать более подробную информацию о таблице, ее размеры, типы данных колонок, сколько памяти она занимает,
# используется функция info().
frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       1000 non-null   object
 1   1       1000 non-null   object
dtypes: object(2)
memory usage: 15.8+ KB


До этого момента мы рассматривали чтение csv-таблицы, у каторой нет заголовка. Давайте прочитаем csv-файл с заголовком. Чтобы узнать есть в таблице заголовок или нет, можно открыть csv-файл в Excel или блокнот. В качестве примера возьмем файл `Dataset.csv`, содержащий в первой колонке заголовки новостей, а во второй лейбл (0 или 1), показывающий является ли заголовок сарказмом или нет.

In [13]:
csv_dataset_list = []
with open('Dataset.csv', 'r') as csv_file:
    reader = csv.DictReader(csv_file, delimiter=',') # В случае файла с заголовком используем DictReader вместо reader
    for line in reader: # Считываем файл построчно и перебираем строки в цикле
        # каждая строка представляет из себя словарь, ключи которого имена колонок,
        # а значения - значение колонки в данной строке
        initial = line['headline']
        is_sarcastic = line['is_sarcastic']
        csv_dataset_list.append((initial, is_sarcastic))

In [14]:
print('В файле содержится {} строк'.format(len(csv_dataset_list)))
print('''Пример прочитанной строки из файла 
изначальное предложение: {} 
перефразированное предложение: {}'''.format(csv_dataset_list[10][0], csv_dataset_list[10][1]))

В файле содержится 28619 строк
Пример прочитанной строки из файла 
изначальное предложение: leave no person with disabilities behind 
перефразированное предложение: 0


In [17]:
# Для считывания csv-файла с заголовком с помощью Pandas нужно использовать функцию read_csv 
# без передачи параметра header=None
frame = pd.read_csv('Dataset.csv', sep=',')  

frame.head()

Unnamed: 0,headline,is_sarcastic
0,dem rep . totally nails why congress is fallin...,0
1,eat your veggies : _num_ deliciously different...,0
2,my white inheritance,0
3,_num_ ways to file your taxes with less stress,0
4,lots of parents know this scenario,0


### формат pickle

Файлы формата pickle представляют из себя сохраненные в бинарном формате объекты Python. Для чтения таких файлов используется встроенная в python библиотека pickle. Существенным недостатком такого формата хранения является потеря информации о структуре объектов, хранимых в файле.
Давайте прочитаем файл `labels_test_12.pkl`.

In [18]:
import pickle # Импортируем библиотеку pickle

with open('labels_test_12.pkl', 'rb') as infile: # открываем бинарный pickle-файл для чтения
    data_dict = pickle.load(infile) # считываем объекты из файла

# Дальше мы попытаемся определить структуру объекта
# Для начала определим его тип
print(type(data_dict))

<class 'dict'>


In [19]:
# Наш объект - это словарь. Каждый словарь имеет ключи. Выведем ключи прочитанного словаря
print(data_dict.keys())

dict_keys(['semples'])


In [21]:
# Словарь имеет только один ключ. Выведем тип значения по заданному ключу
print(type((data_dict['semples'])))

<class 'list'>


In [22]:
# В словаре хранится список. Выведем длину этого списка
print(len((data_dict['semples'])))

127790


In [24]:
# Определим какие типы данных хранятся в элементе списка
for item in data_dict['semples'][0]:
    print(type(item))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.str_'>
<class 'numpy.str_'>
<class 'numpy.int32'>
<class 'numpy.int64'>


### формат json

json - это формат идентичный записи объектов JavaScript. Для чтения данных из json используется встроенная в python библиотека `json`. В качестве примера прочитаем данные из файла `ps2hh.json`, в котором записаны отображения формулировок скилов из профессиональных стандартов в формулировки скилов из сайта HeadHunter.

In [26]:
import json # Импортируем библиотеку json

with open('ps2hh.json', 'r') as infile: # открываем json-файл для чтения
    json_data = json.load(infile) # Считываем данные из файла. Данные будут преобразованы к Python-словарю

print(json_data.keys()) # Смотрим ключи у прочитанного словаря

dict_keys(['описание информационных и математических моделей', 'оформление технического документа в соответствии с заданным стандартом', 'подготовка графической схемы по заданному описанию или эскизу', 'подготовка слайд-шоу и раздаточных материалов для доклада', 'управление разработкой комплекта технической документации', 'составление описания продукции или технологии для публикации в рекламном буклете, в каталоге, на веб-сайте', 'создание и ведение справочного ресурса для специалистов по информационным технологиям', 'создание демонстрационного или обучающего видеоролика', 'разметка технического документа в соответствии с правилами заданного языка разметки', 'проектирование комплекта технической документации'])


In [27]:
print(json_data['описание информационных и математических моделей']) # Берем значение по заданному ключу

['uml', 'idef', 'eepc', 'bpmn', 'формирование функциональных требований', 'проработка требований', 'формирование требований', 'формирование технических требований', 'большой объем информации', 'декомпозиция', 'множество информации', 'обобщение материалов', 'систематизировать информацию', 'системное мышление', 'структуризация', 'структурировать', 'структурировать информацию', 'системная аналитика', 'формирование нефункциональных требований', 'строить диаграммы последовательности', 'декомпозиция', 'блок-схема', 'блок-схемы', 'актуализация бизнес-процессов', 'модели процессов', 'описывать бизнес-процессы', 'разработка бизнес-процессов', 'бизнес-аналитика', 'анализ материалов', 'аналитические способности']


Как и в случае с файлом pickle мы не знаем изначальную структуру словаря, однако, файлы в формате json можно открыть для просмотра в текстовом редакторе, где мы можем просмотреть структуру словаря

### формат xml

Файлы в формате xml по своей структуре походят на HTML. Как и HTML-документы, xml можно представить в виде дерева (в случае HTML это дерево носит название DOM). Для обхода этого дерева служит модуль xml, встроенный в python.

In [45]:
from xml.dom import minidom # Импортируем класс minidom из модуля xml, который проходит по дереву.

mydom = minidom.parse('plant_catalog.xml') # Загрузка и парсинг файла xml, преобразование его в дерево 

items = mydom.getElementsByTagName('PLANT') # Поиск всех узлов дерева с именем PLANT

for item in items: # Перебираем все найденные узлы с именем PLANT
    # Берем данные из узла COMMON из каждого узла PLANT
    item_name = item.getElementsByTagName('COMMON')[0].firstChild.data
    # Берем данные из узла PRICE из каждого узла PLANT
    item_price = item.getElementsByTagName('PRICE')[0].firstChild.data
    print('{} - {}'.format(item_name, item_price))

Кровавый корень - $2.44
Аквилегия - $9.37
Болотная Календула - $6.81
Первоцвет - $9.90
Борец Английский - $6.44
Дикий Имбирь - $9.03
Перелеска - $4.45
Печеночница - $3.99
Аризема Трехлистная - $3.23
Подофил - $2.98
Флокс, Лесистая Местность - $2.80
Флокс, Голубой - $5.59
Клейтония - $6.59
Триллиум - $3.90
Триллиум - $3.20
Фиалка, "Пёсий Клык" - $9.04
Форелевая Лилия - $6.94
Ужовник - $9.58
Ветреница - $8.86
Греческая Ветреница - $9.16
Пчелиный Бальзам - $4.59
Бергамот - $7.16
Черноглазый Гибискус - $9.80
Лютик - $2.57
Лютик - $9.34
Бабочкина Травка - $2.78
Лапчатка - $7.06
Примула - $6.56
Горечавка - $7.81
Голубая Горечавка - $8.56
Лестница Джейкобса - $9.26
Греческая Валериана - $4.36
Калифорнийский Мак - $7.89
Стреляющая Звезда - $8.60
Змеиный Корень - $5.63
Цветок Кардинала - $3.02


## Предобработка данных

Этап предобработки данных необходим для дальнейшего использования данных в алгоритмах машинного обучения. В области NLP предобработка данных подразделяется на несколько шагов:
* удаление специальных символов
* приведение текста к нижнему регистру
* преобразование чисел 
* удаление стоп-слов
* лематизация
* токенизация

Давайте подробнее рассмотрим каждый из этих этапов. Для этого воспользуемся созданным ранее списком `dataset_list`

### Удаление незначащих символов

Для удаления специальных символов используется модуль для работы с регулярными выражениями `re`. Основной функцией из этого модуля является функция `re.sub`, которая ищет фрагменты строки по заданному шаблону и заменяет на указанную подстроку. Давайте посмотрим работу этой функции на примере.

Часто входными данными служат документы HTML, получающиеся в ходе парсинга сайта. Дана строка, содержащая HTML-тэги, и нам необходимо удалить эти тэги из строки. Понятно, что подобным же образом можно искать и заменять любые подстроки в строке, например удалять гиперссылки, заменять числа на специальный токен и т.д.

In [14]:
import re # Импортируем модуль для работы с регулярными выражениями

test_str = '<p>Hello <b>World!!!</b><p>'
print(test_str)

# Используем функцию re.sub. Первый ее аргумент - шаблон строки, по которому нужно искать подстроки.
# Второй аргумент - строка, на которую нужно заменить найденную подстроку. Третий аргумент - строка, 
# в которой нужно искать и заменять подстроки.
clear_str = re.sub(r'<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});', '', test_str)
print(clear_str)

<p>Hello <b>World!!!</b><p>
Hello World!!!


### Токенизация строк

Токенизация - это разбиение текста на отдельные составляющие (слова, символы, знаки препинания). Для этого применим еще одну внешнюю библиотеку stanza. Чтобы ее установить, нужно набрать в терминале `pip install stanza`.

In [17]:
import stanza # Импортируем библиотеку stanza
# Чтобы использовать библиотеку для английского языка, нужно скачать набор моделей.
stanza.download('en')

test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))


# Создадим обработчик для английского языка, который будет включать в себя токенизатор
nlp = stanza.Pipeline(lang='en', processors='tokenize')

# Передаем в созданный обработчик заданный текст и получаем на выходе обработанный текст, 
# записанный в определенной структуре.
doc = nlp(test_str)

tokens = [] # Создадим список, в котором будем хранить отдельные слова
for sent in doc.sentences: # Перебираем предложения
    for word in sent.words: # Перебираем все слова в каждом из предложений
        tokens.append(word.text) # Чтобы получить доступ к слову, необходимо обратиться к нему word.text

tokenized_str = ' '.join(tokens) # Объединяем отдельные слова в один текст, разделяя слова пробелами
print('Токенизированный текст: {}'.format(tokenized_str))

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/master/resources_1.1.0.json: 122kB [00:00, 1.98MB/s]
2020-10-07 17:46:01 INFO: Downloading default packages for language: en (English)...
2020-10-07 17:46:02 INFO: File exists: C:\Users\79222\stanza_resources\en\default.zip.
2020-10-07 17:46:07 INFO: Finished downloading models and saved to C:\Users\79222\stanza_resources.
2020-10-07 17:46:07 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:46:07 INFO: Use device: cpu
2020-10-07 17:46:07 INFO: Loading: tokenize
2020-10-07 17:46:07 INFO: Done loading processors!


Исходный текст: Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.
Токенизированный текст: Stanza is a Python natural language analysis package . It contains tools , which can be used in a pipeline , to convert a string containing human language text into lists of sentences and words , to generate base forms of those words , their parts of speech and morphological features , to give a syntactic structure dependency parse , and to recognize named entities . The toolkit is designed to be parallel among more than 60 languages , using the Universal Dependencies formali

Еще одной библиотекой для токенизации текста является nltk. Для разделения текста на отдельные токены нам понадобится функция `nltk.tokenize.word_tokenize`.

In [19]:
from nltk.tokenize import word_tokenize

tokens = word_tokenize(test_str)

tokenized_str = ' '.join(tokens)
print('Токенизированный текст: {}'.format(tokenized_str))

Токенизированный текст: Stanza is a Python natural language analysis package . It contains tools , which can be used in a pipeline , to convert a string containing human language text into lists of sentences and words , to generate base forms of those words , their parts of speech and morphological features , to give a syntactic structure dependency parse , and to recognize named entities . The toolkit is designed to be parallel among more than 60 languages , using the Universal Dependencies formalism .


Перед тем как приступать к токенизации текста, важно посмотреть на текст глазами, открыв файл с датасетом в любом текстовом редакторе. Возможно кто-то за вас уже провел токенизацию текста и все символы в тексте разделены пробелами (как например в файле `Yelp.csv`, который мы использовали ранее). В этом случае нужно просто воспользоваться методом строк - `split`:

In [20]:
tokens = tokenized_str.strip().split()

print('Токены строки: {}'.format(tokens))

Токены строки: ['Stanza', 'is', 'a', 'Python', 'natural', 'language', 'analysis', 'package', '.', 'It', 'contains', 'tools', ',', 'which', 'can', 'be', 'used', 'in', 'a', 'pipeline', ',', 'to', 'convert', 'a', 'string', 'containing', 'human', 'language', 'text', 'into', 'lists', 'of', 'sentences', 'and', 'words', ',', 'to', 'generate', 'base', 'forms', 'of', 'those', 'words', ',', 'their', 'parts', 'of', 'speech', 'and', 'morphological', 'features', ',', 'to', 'give', 'a', 'syntactic', 'structure', 'dependency', 'parse', ',', 'and', 'to', 'recognize', 'named', 'entities', '.', 'The', 'toolkit', 'is', 'designed', 'to', 'be', 'parallel', 'among', 'more', 'than', '60', 'languages', ',', 'using', 'the', 'Universal', 'Dependencies', 'formalism', '.']


### Приведение текста к нижнему регистру

Часто одни и те же слова могут начинаться с маленькой и большой букв(например, в начале предложений). Чтобы модель не делала различий между этими двумя вариантами, нужно приводить текст к нижнему регистру. Для этого используется встроенный в Python метод - `lower`. Рассмотрим как приводить слова к нижнему регистру, когда вы используете библиотеку stanza и когда разделяете предложение с помощью `split`:

In [21]:
test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        tokens.append(word.text.lower()) # Приведение к нижнему регистру

tokenized_str = ' '.join(tokens)
print('Токенизированный текст: {}'.format(tokenized_str))

Исходный текст: Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.
Токенизированный текст: stanza is a python natural language analysis package . it contains tools , which can be used in a pipeline , to convert a string containing human language text into lists of sentences and words , to generate base forms of those words , their parts of speech and morphological features , to give a syntactic structure dependency parse , and to recognize named entities . the toolkit is designed to be parallel among more than 60 languages , using the universal dependencies formali

In [22]:
tokens = [token.lower() for token in tokenized_str.strip().split()]

print('Токены строки: {}'.format(tokens))

Токены строки: ['stanza', 'is', 'a', 'python', 'natural', 'language', 'analysis', 'package', '.', 'it', 'contains', 'tools', ',', 'which', 'can', 'be', 'used', 'in', 'a', 'pipeline', ',', 'to', 'convert', 'a', 'string', 'containing', 'human', 'language', 'text', 'into', 'lists', 'of', 'sentences', 'and', 'words', ',', 'to', 'generate', 'base', 'forms', 'of', 'those', 'words', ',', 'their', 'parts', 'of', 'speech', 'and', 'morphological', 'features', ',', 'to', 'give', 'a', 'syntactic', 'structure', 'dependency', 'parse', ',', 'and', 'to', 'recognize', 'named', 'entities', '.', 'the', 'toolkit', 'is', 'designed', 'to', 'be', 'parallel', 'among', 'more', 'than', '60', 'languages', ',', 'using', 'the', 'universal', 'dependencies', 'formalism', '.']


### Преобразование чисел

Часто в тексте встречаются числа. Моделям не обязательно знать, что это за числа. По этому, чтобы система не делала различий между числами, принято заменять их специальным токеном, например `__NUM__`. Рассмотрим, как можно заменить все числа в тексте при помощи библиотеки stanza или регулярных выражений.

In [27]:
test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

# Помимо токенизатора используем модули, отвечающие за определение части речи. 
nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos')

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        # Все числа имеюбт часть речи NUM
        # А если вы захотите удалить все знаки пунктуации, то вам поможет часть речи PUNCT
        if word.upos == 'NUM':
            tokens.append('__NUM__') # Заменяем все числа на специальный токен
        else:
            tokens.append(word.text.lower()) # Если нам встретилось не число, то помещаем его в список

tokenized_str = ' '.join(tokens)
print('Токенизированный текст без чисел: {}'.format(tokenized_str))

2020-09-25 14:02:52 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |
| pos       | ewt     |

2020-09-25 14:02:52 INFO: Use device: cpu
2020-09-25 14:02:52 INFO: Loading: tokenize
2020-09-25 14:02:52 INFO: Loading: pos


Исходный текст: Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.


2020-09-25 14:02:53 INFO: Done loading processors!


Токенизированный текст без чисел: stanza is a python natural language analysis package . it contains tools , which can be used in a pipeline , to convert a string containing human language text into lists of sentences and words , to generate base forms of those words , their parts of speech and morphological features , to give a syntactic structure dependency parse , and to recognize named entities . the toolkit is designed to be parallel among more than __NUM__ languages , using the universal dependencies formalism .


In [29]:
# используем метод re.sub для замены всех чисел в строке
string_without_numbers = re.sub('[0-9]+', '__NUM__', test_str)
print('Токенизированный текст без чисел: {}'.format(string_without_numbers))

Токенизированный текст без чисел: Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than __NUM__ languages, 
using the Universal Dependencies formalism.


### Удаление стоп-слов

Для некоторых задач обработки естественного языка часть слов не только не несет какой-то значимой информации, но и мешают работе моделей. Примеры таких слов для английского языка: a, an, the, at, in и т.д. Весь список стоп-слов для конкретного языка можно увидеть, вызвав `nltk.corpus.stopwords.words('english')`:

In [30]:
from nltk.corpus import stopwords

swords = stopwords.words('english')
print(swords)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

Рассмотрим, как удалить стоп-слова при обработке текста библиотекой stanza и при разделении текста с помощью функции split.

In [31]:
test_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos')

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        if word.upos == 'NUM':
            tokens.append('__NUM__')
        else:
            token = word.text.lower()
            if token not in swords:
                tokens.append(token)

tokenized_str = ' '.join(tokens)
print('Токенизированный текст без чисел: {}'.format(tokenized_str))

2020-09-25 14:24:56 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |
| pos       | ewt     |

2020-09-25 14:24:56 INFO: Use device: cpu
2020-09-25 14:24:56 INFO: Loading: tokenize
2020-09-25 14:24:56 INFO: Loading: pos


Исходный текст: Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.


2020-09-25 14:24:56 INFO: Done loading processors!


Токенизированный текст без чисел: stanza python natural language analysis package . contains tools , used pipeline , convert string containing human language text lists sentences words , generate base forms words , parts speech morphological features , give syntactic structure dependency parse , recognize named entities . toolkit designed parallel among __NUM__ languages , using universal dependencies formalism .


In [32]:
tokens = [word.lower() for word in tokenized_str.strip().split() if word not in swords]

print('Токены строки: {}'.format(tokens))

Токены строки: ['stanza', 'python', 'natural', 'language', 'analysis', 'package', '.', 'contains', 'tools', ',', 'used', 'pipeline', ',', 'convert', 'string', 'containing', 'human', 'language', 'text', 'lists', 'sentences', 'words', ',', 'generate', 'base', 'forms', 'words', ',', 'parts', 'speech', 'morphological', 'features', ',', 'give', 'syntactic', 'structure', 'dependency', 'parse', ',', 'recognize', 'named', 'entities', '.', 'toolkit', 'designed', 'parallel', 'among', '__num__', 'languages', ',', 'using', 'universal', 'dependencies', 'formalism', '.']


### Лематизация

Часто в языках одни и те же слова имеют различные словоформы. Например, для русского языка - дом, дома, дому и т.д. Модели машинного обучения нужно понимать, что все эти формы слова означают одно и тоже. Для этого используют лематизацию - приведение слов к изначальной форме. Рассмотрим, как можно реализовать лематизацию при помощи библиотеки stanza.

In [34]:
est_str = '''Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.'''
print('Исходный текст: {}'.format(test_str))

# Добавляем обработчик, ответственный за нахождение изначальных форм слов
nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos,lemma')

doc = nlp(test_str)

tokens = []
for sent in doc.sentences:
    for word in sent.words:
        if word.upos == 'NUM':
            tokens.append('__NUM__')
        else:
            token = word.lemma.lower() # Находим изначальную форму слова
            if token not in swords:
                tokens.append(token)

tokenized_str = ' '.join(tokens)
print('Токенизированный текст без чисел: {}'.format(tokenized_str))

2020-09-25 14:34:59 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |
| pos       | ewt     |
| lemma     | ewt     |

2020-09-25 14:34:59 INFO: Use device: cpu
2020-09-25 14:34:59 INFO: Loading: tokenize
2020-09-25 14:34:59 INFO: Loading: pos


Исходный текст: Stanza is a Python natural language analysis package. 
It contains tools, which can be used in a pipeline, to convert a string containing human language 
text into lists of sentences and words, to generate base forms of those words, 
their parts of speech and morphological features, to give a syntactic structure dependency parse, 
and to recognize named entities. The toolkit is designed to be parallel among more than 60 languages, 
using the Universal Dependencies formalism.


2020-09-25 14:35:00 INFO: Loading: lemma
2020-09-25 14:35:00 INFO: Done loading processors!


Токенизированный текст без чисел: stanza python natural language analysis package . contain tool , use pipeline , convert string contain human language text list sentence word , generate base form word , part speech morphological feature , give syntactic structure dependency parse , recognize name entity . toolkit design parallel among __NUM__ language , use universal dependency formalism .


## Упражнения

В качестве упражнения давайте посчитаем информацию, которой обладает каждое слово в данном датасете. В качестве датасета выберем файл `Yelp.csv`, содержащий отзывы покупателей. 

Напишите функцию, которая будет считывать данные из файла (нам нужна только первая колонка) и возвращать список текстов.

In [9]:
import csv

def read_dataset(filename: str) -> list:
    dataset_list  = [] 
    with open('Yelp.csv', 'r') as csv_file: 
        reader = csv.reader(csv_file, delimiter=',')  
        for line in reader:
            dataset_list.append(line[0])
    return dataset_list

lines = read_dataset('Yelp.csv')


Напишите функцию, которая будет принимать на вход текст и на выходе давать список токенов этого текста (т.е. функция должна производить токенизацию, преобразование чисел, приведение к нижнему регистру) 

In [16]:
import re


def text_preprocessing(text: str) -> list:
    text = re.sub('[0-9]+', '__NUM__', text)
    tokens = word.lower()
    for word in text.split()
    print(tokens)
    return tokens

tokenized_lines = [text_preprocessing(line) for line in lines]

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/master/resources_1.1.0.json: 122kB [00:00, 2.34MB/s]
2020-10-07 17:45:22 INFO: Downloading default packages for language: en (English)...
2020-10-07 17:45:23 INFO: File exists: C:\Users\79222\stanza_resources\en\default.zip.
2020-10-07 17:45:28 INFO: Finished downloading models and saved to C:\Users\79222\stanza_resources.
2020-10-07 17:45:28 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:28 INFO: Use device: cpu
2020-10-07 17:45:28 INFO: Loading: tokenize
2020-10-07 17:45:28 INFO: Done loading processors!
2020-10-07 17:45:28 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:28 INFO: Use device: cpu
2020-10-07 17:45:28 INFO: Loading: tokenize
2020-10-07 17:45:28 INFO: Done loading processors!
2020-10-07 17:45:28 INFO: Load

2020-10-07 17:45:29 INFO: Use device: cpu
2020-10-07 17:45:29 INFO: Loading: tokenize
2020-10-07 17:45:29 INFO: Done loading processors!
2020-10-07 17:45:29 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:29 INFO: Use device: cpu
2020-10-07 17:45:29 INFO: Loading: tokenize
2020-10-07 17:45:29 INFO: Done loading processors!
2020-10-07 17:45:29 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:29 INFO: Use device: cpu
2020-10-07 17:45:29 INFO: Loading: tokenize
2020-10-07 17:45:29 INFO: Done loading processors!
2020-10-07 17:45:29 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:29 INFO: Use device: cpu
2020-10-07 17:45:29 INFO: Loading: tokenize
2020-10-07 17:45:29 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:30 INFO: Use device: cpu
2020-10-07 17:45:30 INFO: Loading: tokenize
2020-10-07 17:45:30 INFO: Done loading processors!
2020-10-07 17:45:30 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:30 INFO: Use device: cpu
2020-10-07 17:45:30 INFO: Loading: tokenize
2020-10-07 17:45:30 INFO: Done loading processors!
2020-10-07 17:45:30 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:30 INFO: Use device: cpu
2020-10-07 17:45:30 INFO: Loading: tokenize
2020-10-07 17:45:30 INFO: Done loading processors!
2020-10-07 17:45:30 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:30 INFO: Use device: cpu
2020-10-07 17:45:30 INFO: Loading: tokenize
2020-10-07 17:45:30 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:30 INFO: Use device: cpu
2020-10-07 17:45:30 INFO: Loading: tokenize
2020-10-07 17:45:30 INFO: Done loading processors!
2020-10-07 17:45:30 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:30 INFO: Use device: cpu
2020-10-07 17:45:30 INFO: Loading: tokenize
2020-10-07 17:45:30 INFO: Done loading processors!
2020-10-07 17:45:31 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:31 INFO: Use device: cpu
2020-10-07 17:45:31 INFO: Loading: tokenize
2020-10-07 17:45:31 INFO: Done loading processors!
2020-10-07 17:45:31 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:31 INFO: Use device: cpu
2020-10-07 17:45:31 INFO: Loading: tokenize
2020-10-07 17:45:31 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:31 INFO: Use device: cpu
2020-10-07 17:45:31 INFO: Loading: tokenize
2020-10-07 17:45:31 INFO: Done loading processors!
2020-10-07 17:45:31 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:31 INFO: Use device: cpu
2020-10-07 17:45:31 INFO: Loading: tokenize
2020-10-07 17:45:31 INFO: Done loading processors!
2020-10-07 17:45:31 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:31 INFO: Use device: cpu
2020-10-07 17:45:31 INFO: Loading: tokenize
2020-10-07 17:45:31 INFO: Done loading processors!
2020-10-07 17:45:31 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:31 INFO: Use device: cpu
2020-10-07 17:45:31 INFO: Loading: tokenize
2020-10-07 17:45:31 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:32 INFO: Use device: cpu
2020-10-07 17:45:32 INFO: Loading: tokenize
2020-10-07 17:45:32 INFO: Done loading processors!
2020-10-07 17:45:32 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:32 INFO: Use device: cpu
2020-10-07 17:45:32 INFO: Loading: tokenize
2020-10-07 17:45:32 INFO: Done loading processors!
2020-10-07 17:45:32 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:32 INFO: Use device: cpu
2020-10-07 17:45:32 INFO: Loading: tokenize
2020-10-07 17:45:32 INFO: Done loading processors!
2020-10-07 17:45:32 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:32 INFO: Use device: cpu
2020-10-07 17:45:32 INFO: Loading: tokenize
2020-10-07 17:45:32 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:33 INFO: Use device: cpu
2020-10-07 17:45:33 INFO: Loading: tokenize
2020-10-07 17:45:33 INFO: Done loading processors!
2020-10-07 17:45:33 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:33 INFO: Use device: cpu
2020-10-07 17:45:33 INFO: Loading: tokenize
2020-10-07 17:45:33 INFO: Done loading processors!
2020-10-07 17:45:33 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:33 INFO: Use device: cpu
2020-10-07 17:45:33 INFO: Loading: tokenize
2020-10-07 17:45:33 INFO: Done loading processors!
2020-10-07 17:45:33 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:33 INFO: Use device: cpu
2020-10-07 17:45:33 INFO: Loading: tokenize
2020-10-07 17:45:33 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:34 INFO: Use device: cpu
2020-10-07 17:45:34 INFO: Loading: tokenize
2020-10-07 17:45:34 INFO: Done loading processors!
2020-10-07 17:45:34 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:34 INFO: Use device: cpu
2020-10-07 17:45:34 INFO: Loading: tokenize
2020-10-07 17:45:34 INFO: Done loading processors!
2020-10-07 17:45:34 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:34 INFO: Use device: cpu
2020-10-07 17:45:34 INFO: Loading: tokenize
2020-10-07 17:45:34 INFO: Done loading processors!
2020-10-07 17:45:34 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:34 INFO: Use device: cpu
2020-10-07 17:45:34 INFO: Loading: tokenize
2020-10-07 17:45:34 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:35 INFO: Use device: cpu
2020-10-07 17:45:35 INFO: Loading: tokenize
2020-10-07 17:45:35 INFO: Done loading processors!
2020-10-07 17:45:35 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:35 INFO: Use device: cpu
2020-10-07 17:45:35 INFO: Loading: tokenize
2020-10-07 17:45:35 INFO: Done loading processors!
2020-10-07 17:45:35 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:35 INFO: Use device: cpu
2020-10-07 17:45:35 INFO: Loading: tokenize
2020-10-07 17:45:35 INFO: Done loading processors!
2020-10-07 17:45:35 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:35 INFO: Use device: cpu
2020-10-07 17:45:35 INFO: Loading: tokenize
2020-10-07 17:45:35 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:35 INFO: Use device: cpu
2020-10-07 17:45:35 INFO: Loading: tokenize
2020-10-07 17:45:35 INFO: Done loading processors!
2020-10-07 17:45:35 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:35 INFO: Use device: cpu
2020-10-07 17:45:35 INFO: Loading: tokenize
2020-10-07 17:45:35 INFO: Done loading processors!
2020-10-07 17:45:36 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:36 INFO: Use device: cpu
2020-10-07 17:45:36 INFO: Loading: tokenize
2020-10-07 17:45:36 INFO: Done loading processors!
2020-10-07 17:45:36 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:36 INFO: Use device: cpu
2020-10-07 17:45:36 INFO: Loading: tokenize
2020-10-07 17:45:36 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:36 INFO: Use device: cpu
2020-10-07 17:45:36 INFO: Loading: tokenize
2020-10-07 17:45:36 INFO: Done loading processors!
2020-10-07 17:45:36 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:36 INFO: Use device: cpu
2020-10-07 17:45:36 INFO: Loading: tokenize
2020-10-07 17:45:36 INFO: Done loading processors!
2020-10-07 17:45:36 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:36 INFO: Use device: cpu
2020-10-07 17:45:36 INFO: Loading: tokenize
2020-10-07 17:45:36 INFO: Done loading processors!
2020-10-07 17:45:36 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:36 INFO: Use device: cpu
2020-10-07 17:45:36 INFO: Loading: tokenize
2020-10-07 17:45:36 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:37 INFO: Use device: cpu
2020-10-07 17:45:37 INFO: Loading: tokenize
2020-10-07 17:45:37 INFO: Done loading processors!
2020-10-07 17:45:37 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:37 INFO: Use device: cpu
2020-10-07 17:45:37 INFO: Loading: tokenize
2020-10-07 17:45:37 INFO: Done loading processors!
2020-10-07 17:45:37 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:37 INFO: Use device: cpu
2020-10-07 17:45:37 INFO: Loading: tokenize
2020-10-07 17:45:37 INFO: Done loading processors!
2020-10-07 17:45:37 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:37 INFO: Use device: cpu
2020-10-07 17:45:37 INFO: Loading: tokenize
2020-10-07 17:45:37 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:38 INFO: Use device: cpu
2020-10-07 17:45:38 INFO: Loading: tokenize
2020-10-07 17:45:38 INFO: Done loading processors!
2020-10-07 17:45:38 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:38 INFO: Use device: cpu
2020-10-07 17:45:38 INFO: Loading: tokenize
2020-10-07 17:45:38 INFO: Done loading processors!
2020-10-07 17:45:38 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:38 INFO: Use device: cpu
2020-10-07 17:45:38 INFO: Loading: tokenize
2020-10-07 17:45:38 INFO: Done loading processors!
2020-10-07 17:45:38 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:38 INFO: Use device: cpu
2020-10-07 17:45:38 INFO: Loading: tokenize
2020-10-07 17:45:38 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:38 INFO: Use device: cpu
2020-10-07 17:45:38 INFO: Loading: tokenize
2020-10-07 17:45:38 INFO: Done loading processors!
2020-10-07 17:45:38 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:38 INFO: Use device: cpu
2020-10-07 17:45:38 INFO: Loading: tokenize
2020-10-07 17:45:39 INFO: Done loading processors!
2020-10-07 17:45:39 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:39 INFO: Use device: cpu
2020-10-07 17:45:39 INFO: Loading: tokenize
2020-10-07 17:45:39 INFO: Done loading processors!
2020-10-07 17:45:39 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:39 INFO: Use device: cpu
2020-10-07 17:45:39 INFO: Loading: tokenize
2020-10-07 17:45:39 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:39 INFO: Use device: cpu
2020-10-07 17:45:39 INFO: Loading: tokenize
2020-10-07 17:45:39 INFO: Done loading processors!
2020-10-07 17:45:39 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:39 INFO: Use device: cpu
2020-10-07 17:45:39 INFO: Loading: tokenize
2020-10-07 17:45:39 INFO: Done loading processors!
2020-10-07 17:45:39 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:39 INFO: Use device: cpu
2020-10-07 17:45:39 INFO: Loading: tokenize
2020-10-07 17:45:39 INFO: Done loading processors!
2020-10-07 17:45:39 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:39 INFO: Use device: cpu
2020-10-07 17:45:39 INFO: Loading: tokenize
2020-10-07 17:45:39 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:40 INFO: Use device: cpu
2020-10-07 17:45:40 INFO: Loading: tokenize
2020-10-07 17:45:40 INFO: Done loading processors!
2020-10-07 17:45:40 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:40 INFO: Use device: cpu
2020-10-07 17:45:40 INFO: Loading: tokenize
2020-10-07 17:45:40 INFO: Done loading processors!
2020-10-07 17:45:40 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:40 INFO: Use device: cpu
2020-10-07 17:45:40 INFO: Loading: tokenize
2020-10-07 17:45:40 INFO: Done loading processors!
2020-10-07 17:45:40 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:40 INFO: Use device: cpu
2020-10-07 17:45:40 INFO: Loading: tokenize
2020-10-07 17:45:40 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:41 INFO: Use device: cpu
2020-10-07 17:45:41 INFO: Loading: tokenize
2020-10-07 17:45:41 INFO: Done loading processors!
2020-10-07 17:45:41 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:41 INFO: Use device: cpu
2020-10-07 17:45:41 INFO: Loading: tokenize
2020-10-07 17:45:41 INFO: Done loading processors!
2020-10-07 17:45:41 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:41 INFO: Use device: cpu
2020-10-07 17:45:41 INFO: Loading: tokenize
2020-10-07 17:45:41 INFO: Done loading processors!
2020-10-07 17:45:41 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:41 INFO: Use device: cpu
2020-10-07 17:45:41 INFO: Loading: tokenize
2020-10-07 17:45:41 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:42 INFO: Use device: cpu
2020-10-07 17:45:42 INFO: Loading: tokenize
2020-10-07 17:45:42 INFO: Done loading processors!
2020-10-07 17:45:42 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:42 INFO: Use device: cpu
2020-10-07 17:45:42 INFO: Loading: tokenize
2020-10-07 17:45:42 INFO: Done loading processors!
2020-10-07 17:45:42 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:42 INFO: Use device: cpu
2020-10-07 17:45:42 INFO: Loading: tokenize
2020-10-07 17:45:42 INFO: Done loading processors!
2020-10-07 17:45:42 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:42 INFO: Use device: cpu
2020-10-07 17:45:42 INFO: Loading: tokenize
2020-10-07 17:45:42 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:43 INFO: Use device: cpu
2020-10-07 17:45:43 INFO: Loading: tokenize
2020-10-07 17:45:43 INFO: Done loading processors!
2020-10-07 17:45:43 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:43 INFO: Use device: cpu
2020-10-07 17:45:43 INFO: Loading: tokenize
2020-10-07 17:45:43 INFO: Done loading processors!
2020-10-07 17:45:43 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:43 INFO: Use device: cpu
2020-10-07 17:45:43 INFO: Loading: tokenize
2020-10-07 17:45:43 INFO: Done loading processors!
2020-10-07 17:45:43 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:43 INFO: Use device: cpu
2020-10-07 17:45:43 INFO: Loading: tokenize
2020-10-07 17:45:43 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:44 INFO: Use device: cpu
2020-10-07 17:45:44 INFO: Loading: tokenize
2020-10-07 17:45:44 INFO: Done loading processors!
2020-10-07 17:45:44 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:44 INFO: Use device: cpu
2020-10-07 17:45:44 INFO: Loading: tokenize
2020-10-07 17:45:44 INFO: Done loading processors!
2020-10-07 17:45:44 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:44 INFO: Use device: cpu
2020-10-07 17:45:44 INFO: Loading: tokenize
2020-10-07 17:45:44 INFO: Done loading processors!
2020-10-07 17:45:44 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:44 INFO: Use device: cpu
2020-10-07 17:45:44 INFO: Loading: tokenize
2020-10-07 17:45:44 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:44 INFO: Use device: cpu
2020-10-07 17:45:44 INFO: Loading: tokenize
2020-10-07 17:45:44 INFO: Done loading processors!
2020-10-07 17:45:44 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:44 INFO: Use device: cpu
2020-10-07 17:45:44 INFO: Loading: tokenize
2020-10-07 17:45:44 INFO: Done loading processors!
2020-10-07 17:45:44 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:44 INFO: Use device: cpu
2020-10-07 17:45:44 INFO: Loading: tokenize
2020-10-07 17:45:44 INFO: Done loading processors!
2020-10-07 17:45:44 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:44 INFO: Use device: cpu
2020-10-07 17:45:44 INFO: Loading: tokenize
2020-10-07 17:45:44 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:45 INFO: Use device: cpu
2020-10-07 17:45:45 INFO: Loading: tokenize
2020-10-07 17:45:45 INFO: Done loading processors!
2020-10-07 17:45:45 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:45 INFO: Use device: cpu
2020-10-07 17:45:45 INFO: Loading: tokenize
2020-10-07 17:45:45 INFO: Done loading processors!
2020-10-07 17:45:45 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:45 INFO: Use device: cpu
2020-10-07 17:45:45 INFO: Loading: tokenize
2020-10-07 17:45:45 INFO: Done loading processors!
2020-10-07 17:45:45 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:45 INFO: Use device: cpu
2020-10-07 17:45:45 INFO: Loading: tokenize
2020-10-07 17:45:45 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:46 INFO: Use device: cpu
2020-10-07 17:45:46 INFO: Loading: tokenize
2020-10-07 17:45:46 INFO: Done loading processors!
2020-10-07 17:45:46 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:46 INFO: Use device: cpu
2020-10-07 17:45:46 INFO: Loading: tokenize
2020-10-07 17:45:46 INFO: Done loading processors!
2020-10-07 17:45:46 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:46 INFO: Use device: cpu
2020-10-07 17:45:46 INFO: Loading: tokenize
2020-10-07 17:45:46 INFO: Done loading processors!
2020-10-07 17:45:46 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:46 INFO: Use device: cpu
2020-10-07 17:45:46 INFO: Loading: tokenize
2020-10-07 17:45:46 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:47 INFO: Use device: cpu
2020-10-07 17:45:47 INFO: Loading: tokenize
2020-10-07 17:45:47 INFO: Done loading processors!
2020-10-07 17:45:47 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:47 INFO: Use device: cpu
2020-10-07 17:45:47 INFO: Loading: tokenize
2020-10-07 17:45:47 INFO: Done loading processors!
2020-10-07 17:45:47 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:47 INFO: Use device: cpu
2020-10-07 17:45:47 INFO: Loading: tokenize
2020-10-07 17:45:47 INFO: Done loading processors!
2020-10-07 17:45:47 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:47 INFO: Use device: cpu
2020-10-07 17:45:47 INFO: Loading: tokenize
2020-10-07 17:45:47 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:48 INFO: Use device: cpu
2020-10-07 17:45:48 INFO: Loading: tokenize
2020-10-07 17:45:48 INFO: Done loading processors!
2020-10-07 17:45:48 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:48 INFO: Use device: cpu
2020-10-07 17:45:48 INFO: Loading: tokenize
2020-10-07 17:45:48 INFO: Done loading processors!
2020-10-07 17:45:48 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:48 INFO: Use device: cpu
2020-10-07 17:45:48 INFO: Loading: tokenize
2020-10-07 17:45:48 INFO: Done loading processors!
2020-10-07 17:45:48 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:48 INFO: Use device: cpu
2020-10-07 17:45:48 INFO: Loading: tokenize
2020-10-07 17:45:48 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:48 INFO: Use device: cpu
2020-10-07 17:45:48 INFO: Loading: tokenize
2020-10-07 17:45:48 INFO: Done loading processors!
2020-10-07 17:45:48 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:48 INFO: Use device: cpu
2020-10-07 17:45:48 INFO: Loading: tokenize
2020-10-07 17:45:48 INFO: Done loading processors!
2020-10-07 17:45:48 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:48 INFO: Use device: cpu
2020-10-07 17:45:48 INFO: Loading: tokenize
2020-10-07 17:45:48 INFO: Done loading processors!
2020-10-07 17:45:49 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:49 INFO: Use device: cpu
2020-10-07 17:45:49 INFO: Loading: tokenize
2020-10-07 17:45:49 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:49 INFO: Use device: cpu
2020-10-07 17:45:49 INFO: Loading: tokenize
2020-10-07 17:45:49 INFO: Done loading processors!
2020-10-07 17:45:49 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:49 INFO: Use device: cpu
2020-10-07 17:45:49 INFO: Loading: tokenize
2020-10-07 17:45:49 INFO: Done loading processors!
2020-10-07 17:45:49 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:49 INFO: Use device: cpu
2020-10-07 17:45:49 INFO: Loading: tokenize
2020-10-07 17:45:49 INFO: Done loading processors!
2020-10-07 17:45:49 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:49 INFO: Use device: cpu
2020-10-07 17:45:49 INFO: Loading: tokenize
2020-10-07 17:45:49 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:50 INFO: Use device: cpu
2020-10-07 17:45:50 INFO: Loading: tokenize
2020-10-07 17:45:50 INFO: Done loading processors!
2020-10-07 17:45:50 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:50 INFO: Use device: cpu
2020-10-07 17:45:50 INFO: Loading: tokenize
2020-10-07 17:45:50 INFO: Done loading processors!
2020-10-07 17:45:50 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:50 INFO: Use device: cpu
2020-10-07 17:45:50 INFO: Loading: tokenize
2020-10-07 17:45:50 INFO: Done loading processors!
2020-10-07 17:45:50 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:50 INFO: Use device: cpu
2020-10-07 17:45:50 INFO: Loading: tokenize
2020-10-07 17:45:50 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:51 INFO: Use device: cpu
2020-10-07 17:45:51 INFO: Loading: tokenize
2020-10-07 17:45:51 INFO: Done loading processors!
2020-10-07 17:45:51 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:51 INFO: Use device: cpu
2020-10-07 17:45:51 INFO: Loading: tokenize
2020-10-07 17:45:51 INFO: Done loading processors!
2020-10-07 17:45:51 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:51 INFO: Use device: cpu
2020-10-07 17:45:51 INFO: Loading: tokenize
2020-10-07 17:45:51 INFO: Done loading processors!
2020-10-07 17:45:51 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:51 INFO: Use device: cpu
2020-10-07 17:45:51 INFO: Loading: tokenize
2020-10-07 17:45:51 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:51 INFO: Use device: cpu
2020-10-07 17:45:51 INFO: Loading: tokenize
2020-10-07 17:45:51 INFO: Done loading processors!
2020-10-07 17:45:51 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:51 INFO: Use device: cpu
2020-10-07 17:45:51 INFO: Loading: tokenize
2020-10-07 17:45:52 INFO: Done loading processors!
2020-10-07 17:45:52 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:52 INFO: Use device: cpu
2020-10-07 17:45:52 INFO: Loading: tokenize
2020-10-07 17:45:52 INFO: Done loading processors!
2020-10-07 17:45:52 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:52 INFO: Use device: cpu
2020-10-07 17:45:52 INFO: Loading: tokenize
2020-10-07 17:45:52 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:52 INFO: Use device: cpu
2020-10-07 17:45:52 INFO: Loading: tokenize
2020-10-07 17:45:52 INFO: Done loading processors!
2020-10-07 17:45:52 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:52 INFO: Use device: cpu
2020-10-07 17:45:52 INFO: Loading: tokenize
2020-10-07 17:45:52 INFO: Done loading processors!
2020-10-07 17:45:52 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:52 INFO: Use device: cpu
2020-10-07 17:45:52 INFO: Loading: tokenize
2020-10-07 17:45:52 INFO: Done loading processors!
2020-10-07 17:45:52 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:52 INFO: Use device: cpu
2020-10-07 17:45:52 INFO: Loading: tokenize
2020-10-07 17:45:52 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:53 INFO: Use device: cpu
2020-10-07 17:45:53 INFO: Loading: tokenize
2020-10-07 17:45:53 INFO: Done loading processors!
2020-10-07 17:45:53 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:53 INFO: Use device: cpu
2020-10-07 17:45:53 INFO: Loading: tokenize
2020-10-07 17:45:53 INFO: Done loading processors!
2020-10-07 17:45:53 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:53 INFO: Use device: cpu
2020-10-07 17:45:53 INFO: Loading: tokenize
2020-10-07 17:45:53 INFO: Done loading processors!
2020-10-07 17:45:53 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:53 INFO: Use device: cpu
2020-10-07 17:45:53 INFO: Loading: tokenize
2020-10-07 17:45:53 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:54 INFO: Use device: cpu
2020-10-07 17:45:54 INFO: Loading: tokenize
2020-10-07 17:45:54 INFO: Done loading processors!
2020-10-07 17:45:54 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:54 INFO: Use device: cpu
2020-10-07 17:45:54 INFO: Loading: tokenize
2020-10-07 17:45:54 INFO: Done loading processors!
2020-10-07 17:45:54 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:54 INFO: Use device: cpu
2020-10-07 17:45:54 INFO: Loading: tokenize
2020-10-07 17:45:54 INFO: Done loading processors!
2020-10-07 17:45:54 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:54 INFO: Use device: cpu
2020-10-07 17:45:54 INFO: Loading: tokenize
2020-10-07 17:45:54 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:55 INFO: Use device: cpu
2020-10-07 17:45:55 INFO: Loading: tokenize
2020-10-07 17:45:55 INFO: Done loading processors!
2020-10-07 17:45:55 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:55 INFO: Use device: cpu
2020-10-07 17:45:55 INFO: Loading: tokenize
2020-10-07 17:45:55 INFO: Done loading processors!
2020-10-07 17:45:55 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:55 INFO: Use device: cpu
2020-10-07 17:45:55 INFO: Loading: tokenize
2020-10-07 17:45:55 INFO: Done loading processors!
2020-10-07 17:45:55 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:55 INFO: Use device: cpu
2020-10-07 17:45:55 INFO: Loading: tokenize
2020-10-07 17:45:55 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:56 INFO: Use device: cpu
2020-10-07 17:45:56 INFO: Loading: tokenize
2020-10-07 17:45:56 INFO: Done loading processors!
2020-10-07 17:45:56 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:56 INFO: Use device: cpu
2020-10-07 17:45:56 INFO: Loading: tokenize
2020-10-07 17:45:56 INFO: Done loading processors!
2020-10-07 17:45:56 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:56 INFO: Use device: cpu
2020-10-07 17:45:56 INFO: Loading: tokenize
2020-10-07 17:45:56 INFO: Done loading processors!
2020-10-07 17:45:56 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:56 INFO: Use device: cpu
2020-10-07 17:45:56 INFO: Loading: tokenize
2020-10-07 17:45:56 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:56 INFO: Use device: cpu
2020-10-07 17:45:56 INFO: Loading: tokenize
2020-10-07 17:45:56 INFO: Done loading processors!
2020-10-07 17:45:56 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:56 INFO: Use device: cpu
2020-10-07 17:45:56 INFO: Loading: tokenize
2020-10-07 17:45:56 INFO: Done loading processors!
2020-10-07 17:45:56 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:56 INFO: Use device: cpu
2020-10-07 17:45:56 INFO: Loading: tokenize
2020-10-07 17:45:56 INFO: Done loading processors!
2020-10-07 17:45:56 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:56 INFO: Use device: cpu
2020-10-07 17:45:56 INFO: Loading: tokenize
2020-10-07 17:45:56 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:57 INFO: Use device: cpu
2020-10-07 17:45:57 INFO: Loading: tokenize
2020-10-07 17:45:57 INFO: Done loading processors!
2020-10-07 17:45:57 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:57 INFO: Use device: cpu
2020-10-07 17:45:57 INFO: Loading: tokenize
2020-10-07 17:45:57 INFO: Done loading processors!
2020-10-07 17:45:57 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:57 INFO: Use device: cpu
2020-10-07 17:45:57 INFO: Loading: tokenize
2020-10-07 17:45:57 INFO: Done loading processors!
2020-10-07 17:45:57 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:57 INFO: Use device: cpu
2020-10-07 17:45:57 INFO: Loading: tokenize
2020-10-07 17:45:57 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:58 INFO: Use device: cpu
2020-10-07 17:45:58 INFO: Loading: tokenize
2020-10-07 17:45:58 INFO: Done loading processors!
2020-10-07 17:45:58 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:58 INFO: Use device: cpu
2020-10-07 17:45:58 INFO: Loading: tokenize
2020-10-07 17:45:58 INFO: Done loading processors!
2020-10-07 17:45:58 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:58 INFO: Use device: cpu
2020-10-07 17:45:58 INFO: Loading: tokenize
2020-10-07 17:45:58 INFO: Done loading processors!
2020-10-07 17:45:58 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:58 INFO: Use device: cpu
2020-10-07 17:45:58 INFO: Loading: tokenize
2020-10-07 17:45:58 INFO: Done loading processors!
2020-10-

2020-10-07 17:45:59 INFO: Use device: cpu
2020-10-07 17:45:59 INFO: Loading: tokenize
2020-10-07 17:45:59 INFO: Done loading processors!
2020-10-07 17:45:59 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:59 INFO: Use device: cpu
2020-10-07 17:45:59 INFO: Loading: tokenize
2020-10-07 17:45:59 INFO: Done loading processors!
2020-10-07 17:45:59 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:59 INFO: Use device: cpu
2020-10-07 17:45:59 INFO: Loading: tokenize
2020-10-07 17:45:59 INFO: Done loading processors!
2020-10-07 17:45:59 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:45:59 INFO: Use device: cpu
2020-10-07 17:45:59 INFO: Loading: tokenize
2020-10-07 17:45:59 INFO: Done loading processors!
2020-10-

2020-10-07 17:46:00 INFO: Use device: cpu
2020-10-07 17:46:00 INFO: Loading: tokenize
2020-10-07 17:46:00 INFO: Done loading processors!
2020-10-07 17:46:00 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:46:00 INFO: Use device: cpu
2020-10-07 17:46:00 INFO: Loading: tokenize
2020-10-07 17:46:00 INFO: Done loading processors!
2020-10-07 17:46:00 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:46:00 INFO: Use device: cpu
2020-10-07 17:46:00 INFO: Loading: tokenize
2020-10-07 17:46:00 INFO: Done loading processors!
2020-10-07 17:46:00 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:46:00 INFO: Use device: cpu
2020-10-07 17:46:00 INFO: Loading: tokenize
2020-10-07 17:46:00 INFO: Done loading processors!
2020-10-

2020-10-07 17:46:00 INFO: Use device: cpu
2020-10-07 17:46:00 INFO: Loading: tokenize
2020-10-07 17:46:00 INFO: Done loading processors!
2020-10-07 17:46:00 INFO: Loading these models for language: en (English):
| Processor | Package |
-----------------------
| tokenize  | ewt     |

2020-10-07 17:46:00 INFO: Use device: cpu
2020-10-07 17:46:00 INFO: Loading: tokenize
2020-10-07 17:46:00 INFO: Done loading processors!


Создаем словарь, отображающий слова в количество слов и цикл, считающий количество слов

In [18]:
word2count = {}
for line in tokenized_lines:
    for token in line:
        if token not in word2count:
            word2count[token] = 1
        else:
            word2count[token] += 1

Напишите функцию, на вход которой подается словарь `word2count`, на выходе функция должна считать общее количество слов в датасете.

In [19]:
def total_word_count(word_dict: dict) -> int:
    result = 0
    for key in word_dict:
        result+=1
    return result

total_count = total_word_count(word2count)
#print (total_count)

1752


Собственная информация - величина, показывающая сколько информации несет в себе конкретное вероятностное событие. Ее можно вычислить по следующей формуле:

$$I_X(x) = -log_2(p_X(x))=log_2(\frac{1}{p_X(x)})$$

Напишите функцию, которая будет принимать на вход количество появлений данного слова и общее количество слов, а возвращать совместную информацию для данного слова.

In [23]:
def word_self_information(word_count: int, total_count: int) -> float:
    #используем встроенную библиотеку
    import math
    locinfo = -1*math.log2(word_count/total_count)
    return locinfo

word2information = {}
for words, word_count in word2count.items():
    word2information[words] = word_self_information(word_count, total_count)



took 5
my 89
suite 1
to 168
get 25
fitted 1
and 357
a 179
new 9
button 1
put 2
on 35
it 136
. 833
the 461
environment 1
was 215
cozy 1
, 243
servers 1
were 47
friendly 31
top 6
of 85
things 2
french 1
toast 1
plate 5
good 72
mom 2
said 10
but 53
eggs 2
cold 9
you 59
have 58
sit 9
outside 3
best 34
experience 16
from 22
this 123
place 77
for 82
record 1
i 268
am 5
cook 2
use 3
seasoning 1
! 155
very 82
nice 19
location 14
weekend 3
volleyball 1
< 14
UNK 14
> 14
desert 2
followed 2
nothing 13
special 9
as 28
soon 1
they 66
delivered 1
like 22
ugh 1
is 199
most 8
authentic 7
thai 6
in 83
valley 4
actually 8
can 17
wait 10
come 10
back 35
next 6
year 1
so 57
asked 5
card 2
be 30
refunded 1
an 24
arizona 2
native 2
been 17
going 9
years 5
tonight 2
though 7
ordered 11
go 31
food 91
just 31
busy 7
service 67
skipped 1
eating 5
we 57
went 12
beer 6
great 88
prices 17
associates 2
there 37
are 65
all 29
customer 18
helpful 10
has 19
pissed 3
me 33
off 10
last 10
time 25
fun 13
catch 2
game 2
t

fatty 1
per 1
requested 1
ca 2
believe 2
inconsiderate 1
pharmacy 1
% 1
capacity 1
california 1
burrito 4
phone 1
promptly 1
server 3
spent 1
buds 1
ceiling 1
air 1
conditioner 1
hallway 1
loud 1
competitive 1
frys 1
box 3
portion 1
sub 2
watery 1
acceptable 1
wo 4
happens 1
holding 1
breath 1
salads 3
crispy 2
tamale 1
sampler 1
rare 2
excited 1
fountain 1
machine 1
dipping 1
complaints 1
steamed 1
veggies 1
fairly 2
head 1
processed 1
def 1
occasion 2
design 1
collection 1
seems 1
high 3
compared 1
started 1
diners 1
reminds 1
father 1
decided 1
upgrade 1
mothers 1
engagement 1
ring 1
xmas 1
ate 2
kicked 1
lady 1
massage 2
manicure 2
having 1
cesar 1
blackened 1
exhibit 1
c 1
student 1
peeps 1
sides 1
hopefully 1
bugs 1
used 1
car 3
dealers 1
sun 1
dining 1
sort 1
morning 2
variety 2
rolls 1
brittany 1
haircut 2
completely 2
detailed 1
single 1
pack 1
peppers 1
asking 1
help 2
especially 2
expensive 2
future 1
promise 1
deliver 2
miserable 1
white 1
living 2
odd 1
joking 1
news 1
vis

Запишем эти данные в файл pickle для дальнейшего их использования.

In [24]:
import pickle

with open('word2information.pkl', 'wb') as fout:
    pickle.dump(word2information, fout, protocol=pickle.HIGHEST_PROTOCOL)