# Тема № 03. Работа с текстовыми данными

*Текстовый* файл, пожалуй, самый простой тип файла для человека, хранит текст - последовательность символов. Каждый символ представляется некоторым числом, и в компьютерах есть *таблицы символов*, которые показывают какое число соответствует символу (есть несколько разных таблицы, мы сегодня будем работать только с одной из них). Эти числа одинаковой длины, т.е. в них одно и то же количество бит (обычно один или два байта). Программы, которые работают с текстовыми файлами, конечно, обрабатывают последовательности чисел по специальным правилам, но отображают эти числа в виде символов, так и получается видимый нами текст. 

Чтобы работать с файлами, текстовыми или любыми другими, сначала нужно как-то сказать компьютеру, с каким именно файлом мы будем работать. Говорят, что мы должны __открыть__ файл.
__Открыть__ файл значит разрешить к нему доступ, когда файл больше не нужен, его нужно __закрыть__, т.е. прекратить доступ к нему. Чтобы понимать к какому именно файлу мы получаем доступ, по каким правилам разрешаем его обрабатывать команда открытия создаст некоторый *идентификатор*, ссылку на файл, который мы можем назвать *поток*. Операционная система будет строго следить за тем, чтобы работа с файлом не нарушала правил, если мы при открытии разрешили только читать файл, то не сможем в него ничего записать. Иногда операционная система может помешать нам в некоторых действиях с файлами, например удалить его, если нет прав на удаление и т.п. Тут нужно быть внимательным и всегда поверять открылся ли нужный файл или нет. 



##  1. Открытие, закрытие и чтение текстовых файлов
Текстовые файлы открываются встроенной функцией `open()`. Мы указываем путь имя и расширение файла, правила как его открыть, в том числе указываем открываем файл в текстовом виде (по умолчанию) или в бинарном.  

Команда возвращает файловый объект, у которого есть метод `read()` для чтения содержимого файла. Если открыть файл не получилось (например, нет такого файла), то вернется ошибка. 

Давайте откроем для чтения и прочитаем файл eng_text.txt, он расположен в той же папке, в которой мы работаем, поэтому он будет легко найден.  

Попробуйте поменять имя файла на несуществующее и посмотреть, что получится.


In [1]:
f = open("eng_text.txt", "r")
print(f.read())

Hello! Welcome to demofile.txt
This file is for testing purposes.
Good Luck!


По умолчанию `read()` возвращает все содержимое файла, но также можно задать количество символов, которые будут возвращены после прочтения.

Файл читается последовательно, если мы прочитали 6 символов из него, и опять выполним команду для чтения 6 символов, то нам вернутся следующие 6 символов, а не те же самые. До тех пор, пока не достигнем конца файла, потом команда чтения будет возвращать пустую переменную.

Кстати, пробелы, запятые, точки - это тоже символы и они также читаются.

Попробуйте прочитать больше символов.

In [2]:
f = open("eng_text.txt", "r")
print(f.read(6))
print(f.read(5))

Hello!
 Welc


Метод `readline()` позволяет читать текстовый файл по строкам. А в файлах, чтобы разделить строки между собой, вставляются специальные символы, они не видны на экране, но есть в файле.

(Мы каждый раз открываем файл по-новому, чтобы читать его сначала, а не продолжать с того места где остановились)

In [3]:
f = open("eng_text.txt", "r")
print(f.readline())

Hello! Welcome to demofile.txt



In [4]:
print(f.readline())
print(f.readline())

This file is for testing purposes.

Good Luck!


In [5]:
joblib.dump(data, 'data/data.pkl')


[]


Кстати, в этой функции тоже можно указать дополнительный аргумент, равный количеству символов для прочтения. Обратите внимание как именно при этом будут прочитаны строки. 

In [6]:
f = open("eng_text.txt", "r")

print(f.readline(18))
print(f.readline(18))
print(f.readline(18))
print(f.readline(18))

Hello! Welcome to 
demofile.txt

This file is for t
esting purposes.



Метод `readlines()` позволяет прочитать все строки из файла в список, разбив по строкам.

Ниже мы получим список из трех элементов, каждый будет содержат свою строку.

Обратите внимание на `\n` это обозначение специального символа переноса строки, который есть в файле. Это только обозначение, в файле такой символ хранится как число.

In [7]:
f = open("eng_text.txt", "r")
print(f.readlines())

['Hello! Welcome to demofile.txt\n', 'This file is for testing purposes.\n', 'Good Luck!']


Похожий результат можно получить, читая файл в цикле. Тут мы явно не вызываем команду для чтения, но она вызывается автоматически при итерировании

In [8]:
f = open("eng_text.txt", "r")
for x in f:
    print(x)

Hello! Welcome to demofile.txt

This file is for testing purposes.

Good Luck!


Встроенная функция `close()` закрывает файл. При закрытии файла все ресурсы освобождаются, и больше не занимают память. Важно закрывать файлы всегда, когда они больше не нужны. Иначе в системе останется мусор, который будет занимать лишнюю память и замедлять работу. Это не страшно, когда файлов мало, но когда одновременно открыто много файлов, это может существенно повлиять на работу компьютера.

Выше мы не закрывали файлы, хотя это нужно было делать.

После закрытия файла мы уже не можем с ним работать. Попробуйте что-то прочитать после закрытия.

In [9]:
f = open("eng_text.txt", "r")
print(f.readline())
f.close()
# print(f.readline())

Hello! Welcome to demofile.txt



###  Форматы и режимы работы с файлами

Основные форматы файлов это *текстовый* и *бинарный*. По сути, они одинаковы, и текстовый и бинарный файл это последовательности байт, но интерпретируются они по-разному. Мы научились читать текстовые файлы. Рассмотренные функции работают также и для чтения бинарных файлов.

Для работы с другими форматами файлов их тоже придется открывать, закрывать, но работать с ними будем с помощью других функций. Некоторые из них мы рассмотрим на последующих уроках.

Файлы можно не только читать - получать информацию из них, но и писать - записывать информацию в файл.

Что именно мы хотим сделать с файлом можно указать в дополнительном аргументе `mode` команды `open()`

`'r'` : Открыть файл только для чтения (Read), запись в него запрещена. 

`'w'` : Открыть файл для записи (Write). Если файл уже существует все данные в нем будут стерты. Если файла нет, он будет создан. Читать такой файл нельзя.

`'a'` : Открыть файл для записи с добавлением. Если файла нет, он будет создан. Если файл уже существует все данные в нем сохранятся, а новые данные будут добавляться после старых.

`'+'` : Открыть файл для модификаций и на чтение и на запись. При этом указывая `'r+'` мы сохраняем старое содержание файла, `'w+'` - очищаем файл. 

## 2. Запись в текстовый файл

Есть две встроенные функции, чтобы записать текст (строки) в файл:

`write()` : Записывает одну строку `str1` в текстовый файл.

`writelines()` : Записывает в текстовый файл *список* строк, разделители строк не добавляются, если это нужно надо создавать самим.


In [10]:
train_df['target'].value_counts()


In [11]:
output_file.write("Привет \n") # запишем в файл строку "Привет" с переносом
output_file.writelines(L) # запишем созданный ранее список строк
output_file.close() # закроем файл

Теперь откроем файл для модификаций, и прочитаем что в нем записано. Можете также посмотреть на диске. 

In [12]:
output_file = open("myfile.txt","r+")  # откроем файл для модификаций, r+ поэтому содержимое сохранится.

print("В том файле написано: \n") #
print(output_file.read()) # прочитаем содержимое и выведем на экран

В том файле написано: 

Привет 
Строка 2: Мы 
Строка 3: хотим 
Строка 4: что-то записать 



In [13]:
output_file.close()

Разберем подробнее, что мы только что сделали:

1) мы создали файловый объект - открыли файл. Обратите внимание на режим - `'w'` - запись.

2) Создали список строк `L` в котором содержится три строки с произвольным текстом, которые мы хотели бы записать в файл

3) записали в файл строку "Привет"

4) записали в файл ранее сформированный список строк `L`

5) закрыли файл

6) открыли файл в режиме модификаций `r+`

7) прочитали что в нем записано.

8) закрыли файл.

Обратите внимание, что можно записывать либо как в пункте 3, либо как в пункте 4 - не обязательно использовать оба сразу. Надо выбирать, в какой ситуации удобней записывать по одной строке за раз, а в какой все строки в списке.

## 3. Добавление текста к файлу

Давайте разберем ситуацию, когда файл уже существует, в нем записана какая-то информация, и надо, не уничтожая ее, записать в файл еще что-то. Такое встречается постоянно, как пример - запись файлов логов.

Откроем файл с соответствующим режимом `'a'` (append) и запишем туда какую-нибудь новую информацию

In [14]:
appended_file = open("myfile.txt","a") # открыли файл для добавления
appended_file.write("Мы открыли файл и добавили туда эту строку \n") # добавили в него текст
appended_file.close() # закрыли файл

Давайте теперь посмотрим, что хранится в этом файле:

In [15]:
sns.countplot(train_df['target'])


После добавления в файле оказалось: 

['Привет \n', 'Строка 2: Мы \n', 'Строка 3: хотим \n', 'Строка 4: что-то записать \n', 'Мы открыли файл и добавили туда эту строку \n']


Новая строка добавлена, старые сохранились.

## 4. Перезапись файла

Бывают ситуации, когда информацию файла надо не сохранить, а полностью перезаписать (с другой стороны, если ее перезаписывать не надо, то надо точно знать, что так делать нельзя).

Давайте попробуем перезаписать файл. Для этого можно использовать все те же конструкции, просто открыть файл не для добавления, а для записи (с уже знакомым режимом `'w'`).

In [16]:
rewrited_file = open("myfile.txt","w") # откроем файл для записи
rewrited_file.write("Мы перезаписали этот файл \n")  # запишем
rewrited_file.close() # закроем

Проверим, что получилось:

In [17]:
rewrited_file_check = open("myfile.txt","r")  # откроем для чтения
print("После перезаписи в файле осталось только: \n") #
print(rewrited_file_check.readlines())  # прочитаем
rewrited_file_check.close() # закроем

После перезаписи в файле осталось только: 

['Мы перезаписали этот файл \n']


# 5. Работа со строками

Когда мы прочитали текст из файла, получили наборы строк в памяти. Их можно обрабатывать, выполнять разные действия со строками.

Строка - это массив символов, со строками можно обращаться как с массивами и делать доступ по индексам. То есть, какое-то слово можно получить, зная его местоположение в строке и количество символов в нем.

In [18]:
s = 'Эта строка' # сделаем строку
s[4:] # получим элементы, начиная с пятого (помним что индексы начинаются с нуля!)

'строка'

Узнать количество символов в строке, ее длину можно командой `len()`. Она считает все элементы, включая пробелы, непечатаемые символы и др. Вставьте, например, символ `\n` в конец строки, хоть он написан нами двумя символами ' \ ' и ' n ' это управляющий символ и считается за один.

In [19]:
len(s)# длина строки

10

In [20]:
train_time = train_df[times]
train_time.head()


Эта строка
10
Эта строка

11


Наоборот, по нужному слову (строке) найти его местоположение в нашей строке можно при помощи функции `find()`. Она вернет нам индекс элемента, с которого слово начинается, а если такое слово не найдено, то вернет -1.

In [21]:
s = 'Эта строка' # сделаем строку
s.find('строка')# попробуйте поискать другое слово

4

In [22]:
s[s.find('строка'):] # проверим что найден именно нужный индекс, выведем строку начиная с этого найденного индекса. 

'строка'

А как по местоположению начала слова получить все слово без остального текста?

Зная индекс и длину - просто.

In [23]:
s[s.find('строка'):s.find('строка') + len('строка')] # вот так

'строка'

In [24]:
s.find('строка') # первый find вернул нам индекс 4

4

In [25]:
session_start_hour = train_time['time1'].apply(lambda ts: ts.hour).values


10

Чтобы разбить строки (тексты) на более простые части (предложения, слова, или что-то более специфичное), можно использовать функцию `split()`. Мы указываем строку-разделитель, по которой будет проходить разбиение, она может быть любой, хоть цифра, хоть буква, хоть знак препинания и даже несколько символов. Сама строка-разделитель пропадет.

In [26]:
s.split(' ') # символ-разделитель - пробел. Получим две строки.

['Эта', 'строка']

In [27]:
s = 'Большой и интересный текст это. Привет, мир, - говорит программа. Что-то оптимизировалось.'
l = s.split('.') # символ-разделитель - точка .
s.split('.')

['Большой и интересный текст это',
 ' Привет, мир, - говорит программа',
 ' Что-то оптимизировалось',
 '']

Чтобы обратно склеить разбитые части, можно использовать функцию `join()`. При этом в аргумент мы подаем список строк, которые надо склеить в одну, а сам метод применяем к строке, которую будем использовать как клей (она была строкой-разделителем в предыдущей команде).

In [28]:
' '.join(l) # строка- клей - пробел ' '

'Большой и интересный текст это  Привет, мир, - говорит программа  Что-то оптимизировалось '

Обратите внимание, что получившийся текст отличается от первоначального. Когда мы разбивали на предложения с символом-разделителем '.', то они исчезли, а когда мы склеивали обратно через пробел, точки ниоткуда не взялись. Исправим это и сравним с исходным текстом.

In [29]:
'.'.join(l) # строка- клей - точка '.'

'Большой и интересный текст это. Привет, мир, - говорит программа. Что-то оптимизировалось.'

In [30]:
sns.countplot(session_start_hour)


True

# 6. Обработка текста модулем `spacy`

Простые функции обработки строк ничего не знают о тексте, о правилах языка. Но часто нужна более продвинутая обработка, например узнать все имена существительные в тексте. Для этого нужно использовать специальные библиотеки. Сегодня мы кратко рассмотрим две из них: `spacy` и `nltk`. Когда же будем более подробно заниматься текстом, мы эти библиотеки рассмотрим более подробно. 

Библиотека __spacy__  (описание см. https://nlpub.mipt.ru/SpaCy  https://spacy.io/usage/spacy-101) 
предназначена для обработки текстов на естественном языке (NLP, Natural Language Processing). 

Если она еще не установлена на компьютере - надо установить ее, дополнительную библиотеку __textacy__ (https://github.com/chartbeat-labs/textacy), загрузить модель (для английского языка, ~1Гб):
```
# Установка spaCy 
pip3 install -U spacy

# Загрузка модели для анализа английского языка
python3 -m spacy download en_core_web_lg

# Установка textacy
pip3 install -U textacy
```

Сначала мы подключим библиотеку ```import spacy```

Загрузим в память модель для английского языка ``` nlp = spacy.load('en_core_web_lg') ``` 
(для русского пока нет)

en_core_web_lg это название модели, которая была заранее скачена на диск.

Создадим некоторый текст `text`, который будем обрабатывать, можете создать свой.

Выполним __парсинг__ текста командой `nlp()`. Парсинг проанализирует текст и определит типы слов\словосочетаний, к чему они относятся.
Например, можем узнать все __именованные сущности__ `ents`: найденные имена собственные, слова (словосочетания) которые указывают на положение объектов, слова которые описывают дату\время и др. Их много разных типов: https://spacy.io/api/annotation#named-entities
Обозначение и смысл их приведен ниже:
```
PERSON	Люди (имена, фамилии, прозвища и т.п.), в том числе вымышленные.
NORP	Названия национальных, религиозных, политических объединений.
FAC	Названия зданий, аэропортов, шоссе, мостов ... 
ORG	Названия компаний, агентств, организаций ...
GPE	Названия стран, городов, штатов (округов) ...
LOC	Названия географических областей (кроме относящихся к GPE), горных массивов, водоемов... 
PRODUCT	Названия товаров, автомобилей, еды (кроме услуг) ...
EVENT	Названия событий, ураганов, битв, войн, спортивных состязаний...
WORK_OF_ART	Названия произведений искусств, книг, картин, песен... 
LAW	Названия юридических документов
LANGUAGE	Название языка
DATE	Указание на даты и периоды, абсолютные или относительные
TIME	Указание на время (меньше дня)
PERCENT	Указания на проценты ”%“
MONEY	Указания на деньги, значение и единицы
QUANTITY	Указания на количество чего-либо, вес, размер, .... 
ORDINAL	Указание на порядок “первый”, “второй”, и так далее
CARDINAL	Числа, которые не попали в другие категории
```



In [31]:
import spacy # подключим библиотеку

# Загрузим NLP-модель для английского языка
nlp = spacy.load('en_core_web_lg') # en_core_web_lg это название модели, которая была скачена и установлена

# Текст для анализа. Можете написать свой текст (на английском)
text = """London is the capital and most populous city of England and 
the United Kingdom.  Standing on the River Thames in the south east 
of the island of Great Britain, London has been a major settlement 
for two millennia. It was founded by the Romans, who named it Londinium.
"""

# Парсинг текста с помощью spaCy. Эта команда запускает целый конвейер по обработке текста
doc = nlp(text)

# в переменной 'doc' теперь содержится обработанная версия текста
# мы можем делать с ней все что угодно!
# например, распечатать все обнаруженные именованные сущности (в .ents)
for entity in doc.ents:
    print(f"{entity.text} ({entity.label_})")# печатаем слово .text (словосочетание) и его тип .label_


ModuleNotFoundError: No module named 'spacy'

Обратите внимание, модели могут и ошибаться. Почему Londinium отнесен к организациям а не городам? Так получилось... 

Попробуйте обработать свой текст. Для этого или исправьте текст выше или загрузите свой - вы уже умеете это делать.

# 7. Обработка текста модулем `nltk`
Библиотека `nltk` также предназначена для работы с текстом на естественном языке.
Документацию смотрите на https://www.nltk.org/
Библиотеку необходимо установить заранее.

Сама библиотека лишь предоставляет функции для обработки, правила обработки, какой вид обработки делать, зависит от *модели* которая будет использоваться.
Один из видов обработки это __токенизация__.


Токенизация (иногда – сегментация) - это разбиение текста на части, по словам, по предложениям и т.п.

Для английского языка для токенизации мы загрузим модель `'punkt'` с помощью функции `nltk.download()`. Модель уже была обучена на большом количестве текстов, чтобы правильно проводить токенизацию.

In [32]:
import nltk
nltk.download('punkt')
#import nltk.data

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\neuron\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Токенизация по предложениям

Токенизация по предложениям – это процесс разделения письменного языка на предложения-компоненты. В английском и некоторых других языках мы можем вычленять предложение каждый раз, когда находим определенный знак пунктуации – точку.

Но даже в английском эта задача нетривиальна, так как точка используется и в сокращениях. Таблица сокращений может сильно помочь во время обработки текста, чтобы избежать неверной расстановки границ предложений. В большинстве случаев для этого используются библиотеки, так что можете особо не переживать о деталях реализации.

Чтобы сделать токенизацию предложений с помощью NLTK, можно воспользоваться методом `nltk.sent_tokenize`

Конечно модели могут и ошибаться, попробуйте сделать текст, чтобы обмануть токенайзер.

In [33]:
text = "We try to implement NLTK.Sent_tokenize. It is very hard to produce good tokens. Our approach is model-based one! And they has already train a good model for tokenizing. Really? Yes ... try. Hard words: vice president, half sister"
sentences = nltk.sent_tokenize(text)
for sentence in sentences:
    print(sentence)
    print()

We try to implement NLTK.Sent_tokenize.

It is very hard to produce good tokens.

Our approach is model-based one!

And they has already train a good model for tokenizing.

Really?

Yes ... try.

Hard words: vice president, half sister



### Токенизация по словам

Токенизация (иногда – сегментация) по словам – это процесс разделения предложений на слова-компоненты. В английском и многих других языках, использующих ту или иную версию латинского алфавита, пробел – это неплохой разделитель слов.

Тем не менее, могут возникнуть проблемы, если мы будем использовать только пробел – в английском составные существительные пишутся по-разному и иногда через пробел. И тут вновь нам помогают библиотеки.

Возьмем предложения из предыдущего блока кода и применим к каждому из них метод `word_tokenize()`

In [34]:
for sentence in sentences:
    words = nltk.word_tokenize(sentence)
    print(words)
    print()

['We', 'try', 'to', 'implement', 'NLTK.Sent_tokenize', '.']

['It', 'is', 'very', 'hard', 'to', 'produce', 'good', 'tokens', '.']

['Our', 'approach', 'is', 'model-based', 'one', '!']

['And', 'they', 'has', 'already', 'train', 'a', 'good', 'model', 'for', 'tokenizing', '.']

['Really', '?']

['Yes', '...', 'try', '.']

['Hard', 'words', ':', 'vice', 'president', ',', 'half', 'sister']



### Лемматизация и стемминг текста

Обычно тексты содержат разные грамматические формы одного и того же слова, а также могут встречаться однокоренные слова. Лемматизация и стемминг преследуют цель привести все встречающиеся словоформы к одной, нормальной словарной форме.

Лемматизация и стемминг – это частные случаи нормализации и они отличаются.

Стемминг – это грубый эвристический процесс, который отрезает «лишнее» от корня слов, часто это приводит к потере словообразовательных суффиксов.

Лемматизация – это более тонкий процесс, который использует словарь и морфологический анализ, чтобы в итоге привести слово к его канонической форме – лемме.

Отличие в том, что стеммер (конкретная реализация алгоритма стемминга) действует без знания контекста и, соответственно, не понимает разницу между словами, которые имеют разный смысл в зависимости от части речи. Однако у стеммеров есть и свои преимущества: их проще внедрить и они работают быстрее. Плюс, более низкая «аккуратность» может не иметь значения в некоторых случаях.

Примеры:

Слово good – это лемма для слова better. Стеммер не увидит эту связь, так как здесь нужно сверяться со словарем.
Слово play – это базовая форма слова playing. Тут справятся и стемминг, и лемматизация.
Слово meeting может быть как нормальной формой существительного, так и формой глагола to meet, в зависимости от контекста. В отличие от стемминга, лемматизация попробует выбрать правильную лемму, опираясь на контекст.

Теперь, когда мы знаем, в чем разница, давайте рассмотрим пример.

Сначала мы подключим модель стемминга  `PorterStemmer` и лемматизации `WordNetLemmatizer`, загрузим и подключим "корпус" `wordnet`  в котором много слов, синонимов и т.п.

Создадим функцию `compare_stemmer_and_lemmatizer()`, которая будет приводить слова к нормальной форме. Ей мы укажем каким стеммером и леммером (есть такое слово, а?) пользоваться, само слово, которое надо лемматизировать, и часть речи `POS` желаемого результата (`VERB`  - глагол, `NOUN` - существительное).
```
Обозначение 	 Значение 	    Примеры
ADJ              прилагательное  new, good, high, special, big, local
ADP              предлог         on, of, at, with, by, into, under
ADV              наречие         really, already, still, early, now
CONJ             союз            and, or, but, if, while, although
DET              артикль,        
                 определитель    the, a, some, most, every, no, which
NOUN             существительное year, home, costs, time, Africa
NUM              числительное    twenty-four, fourth, 1991, 14:24
PRT              частица         at, on, out, over per, that, up, with
PRON             местоимение     he, their, her, its, my, I, us
VERB             глагол          is, say, told, given, playing, would
.                знак пунктуации . , ; !
X                другое          ersatz, esprit, dunno, gr8, univeristy

```
Стеммер вызывается функцией `stem(word)`, ему все-равно какая часть речи должна получиться.

Леммер вызывается функцией `lemmatize(word,pos)`, ему мы указываем и слово и желаемую часть речи. 


In [35]:
morning = ((session_start_hour >= 7 ) & (session_start_hour<=11)).astype('int')
day = ((session_start_hour >= 12 ) & (session_start_hour<= 18)).astype('int')
evening = ((session_start_hour >= 19 ) & (session_start_hour<=23)).astype('int')
night = ((session_start_hour >= 0 ) & (session_start_hour<=6)).astype('int')


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\neuron\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Stemmer: seek
Lemmatizer: seek

Stemmer: drove
Lemmatizer: drive

Stemmer: meet
Lemmatizer: meeting

Stemmer: meet
Lemmatizer: meet



### Стоп-слова

Стоп-слова – это слова, которые выкидываются из текста до/после обработки текста. Когда мы применяем машинное обучение к текстам, такие слова могут добавить много шума, поэтому необходимо избавляться от ненужных слов.

Стоп-слова это обычно артикли, междометия, союзы и т.д., которые не несут смысловой нагрузки. При этом надо понимать, что не существует универсального списка стоп-слов, все зависит от конкретного случая.

В NLTK есть предустановленный список стоп-слов. Перед первым использованием вам понадобится его скачать: `nltk.download("stopwords")`. После скачивания можно подключить модуль `stopwords` и посмотреть на сами слова:

In [36]:
nltk.download("stopwords")
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\neuron\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Рассмотрим, как можно убрать стоп-слова из предложения:

In [37]:
stop_words = set(stopwords.words("english")) # получим стоп-слова, превратим их в множество с помощью set()
sentence = "Backgammon is one of the oldest known board games." # зададим строку

words = nltk.word_tokenize(sentence) # токенизируем ее по словам

# и будем в цикле перебирать все слова из words, проверять входит ли оно в множество стоп-слов stop_words,
# и если нет, то вернем слово word, иначе ничего не вернем. 
without_stop_words = [word for word in words if not word in stop_words] 
print(without_stop_words) #


['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']


## Чистка текста

Возможно, вы заметили, что, когда мы разбили текст на предложения, они выглядели неприглядно: начинались с символа пробела, содержали пустую строку в конце списка. 

При работе с текстами такая ситуация - не редкость. Более того, в текстах может содержаться гораздо более противный и мешающий мусор. Зачастую тексты надо чистить от персональных данных и другой чувствительной информации.

Иногда бывает, что в тексты закрадываются целые блоки кода или мусора после парсинга веб страниц.
Иногда же надо просто избавиться от определенного списка слов.

Все это понимается под чисткой текста. Мы уже встречались с ее частным случаем ранее - когда удаляли из текста стоп слова методами библиотеки `nltk`. 

В общем случае чистка текста - нетривиальная и творческая задача: иногда достаточно сложно задать правило, благодаря которому будут найдены нужные слова. Иногда для этого даже нужно будет воспользоваться обученными NER моделями. Это все придет с практикой и в будущем.

Но есть один метод, который будет применяться чаще всего и почти всегда, и это метод `replace()`, который позволяет заменить часть строки (подстроку) на другую строку.

Этот метод применяется к строке, которую хотим изменить. В качестве первого аргумента надо записать часть строки, которую хотим заменить, а в качестве второго - на что хотим.

При этом обратите внимание, что сам метод не осуществляет изменения строки, если мы не выполняли операцию присваивания.

In [38]:
s # наш текст

'Большой и интересный текст это. Привет, мир, - говорит программа. Что-то оптимизировалось.'

In [39]:
s.replace('это', '') # заменяем все подстроки 'это'  на пробел.

'Большой и интересный текст . Привет, мир, - говорит программа. Что-то оптимизировалось.'

In [40]:
train_time['morning'] = morning
train_time['day'] = day
train_time['evening'] = evening
train_time['night'] = night

'Большой и интересный текст это. Привет, мир, - говорит программа. Что-то оптимизировалось.'

In [41]:
s = s.replace('это', '') # если хотим поменять - надо переприсвоить ей значение.
s # Теперь строка изменилась

'Большой и интересный текст . Привет, мир, - говорит программа. Что-то оптимизировалось.'

## Дополнительное чтение 
 
Дополнительно почитайте самостоятельно про __регулярные выражения__
 https://habr.com/ru/post/349860/
 
и про парсер для русского языка `Natasha`. С его помощью можно вытаскивать некоторые именованные сущности на русском языке из текста для дальнейшего анализа и обработки, такие как адреса, даты, имена. 
https://habr.com/ru/post/349864/

Посмотрите на полезный список инструментов для обработки естественных языков

Там указано, для каких задач они предназначены и для каких языков. 
https://nlpub.mipt.ru/Обработка_текста

Сейчас мы не будем про это говорить, но, когда будем обрабатывать тексты - еще вернемся.  

## Домашнее задание

Написать на английском языке сочинение на 1 страницу о том, как вы провели лето и определить все именованные сущности и их тип в этом тексте.

В тексте должно быть указано, где вы были, когда и с кем. 

