In [1]:
!git clone https://github.com/neuralcomputer/ML_School.git

Cloning into 'ML_School'...
remote: Enumerating objects: 94, done.[K
remote: Counting objects: 100% (15/15), done.[K
remote: Compressing objects: 100% (15/15), done.[K
remote: Total 94 (delta 5), reused 0 (delta 0), pack-reused 79 (from 1)[K
Receiving objects: 100% (94/94), 33.83 MiB | 18.82 MiB/s, done.
Resolving deltas: 100% (29/29), done.


# Работа с текстовыми данными

*Текстовый* файл, пожалуй, самый простой тип файла для человека, хранит текст - последовательность символов. Каждый символ представляется некоторым числом, и в компьютерах есть *таблицы символов*, которые показывают какое число соответствует символу (есть несколько разных таблицы, мы сегодня будем работать только с одной из них). Эти числа одинаковой длины, т.е. в них одно и то же количество бит (обычно один или два байта). Программы, которые работают с текстовыми файлами, конечно, обрабатывают последовательности чисел по специальным правилам, но отображают эти числа в виде символов, так и получается видимый нами текст.

Чтобы работать с файлами, текстовыми или любыми другими, сначала нужно как-то сказать компьютеру, с каким именно файлом мы будем работать. Говорят, что мы должны __открыть__ файл.
__Открыть__ файл значит разрешить к нему доступ, когда файл больше не нужен, его нужно __закрыть__, т.е. прекратить доступ к нему. Чтобы понимать к какому именно файлу мы получаем доступ, по каким правилам разрешаем его обрабатывать команда открытия создаст некоторый *идентификатор*, ссылку на файл, который мы можем назвать *поток*. Операционная система будет строго следить за тем, чтобы работа с файлом не нарушала правил, если мы при открытии разрешили только читать файл, то не сможем в него ничего записать. Иногда операционная система может помешать нам в некоторых действиях с файлами, например удалить его, если нет прав на удаление и т.п. Тут нужно быть внимательным и всегда поверять открылся ли нужный файл или нет.



##  1. Открытие, закрытие и чтение текстовых файлов
Текстовые файлы открываются встроенной функцией `open()`. Мы указываем путь имя и расширение файла, правила как его открыть, в том числе указываем открываем файл в текстовом виде (по умолчанию) или в бинарном.  

Команда возвращает файловый объект, у которого есть метод `read()` для чтения содержимого файла. Если открыть файл не получилось (например, нет такого файла), то вернется ошибка.

Давайте откроем для чтения и прочитаем файл eng_text.txt, он расположен в той же папке, в которой мы работаем, поэтому он будет легко найден.  

Попробуйте поменять имя файла на несуществующее и посмотреть, что получится.


In [2]:
fname="ML_School/eng_text.txt"

In [3]:
f = open(fname, "r")
print(f.read())

Hello! Welcome to demofile.txt
This file is for testing purposes.
Good Luck!


По умолчанию `read()` возвращает все содержимое файла, но также можно задать количество символов, которые будут возвращены после прочтения.

Файл читается последовательно, если мы прочитали 6 символов из него, и опять выполним команду для чтения 6 символов, то нам вернутся следующие 6 символов, а не те же самые. До тех пор, пока не достигнем конца файла, потом команда чтения будет возвращать пустую переменную.

Кстати, пробелы, запятые, точки - это тоже символы и они также читаются.

Попробуйте прочитать больше символов.

In [4]:
f = open(fname, "r")
print(f.read(6))
print(f.read(5))

Hello!
 Welc


Метод `readline()` позволяет читать текстовый файл по строкам. А в файлах, чтобы разделить строки между собой, вставляются специальные символы, они не видны на экране, но есть в файле.

(Мы каждый раз открываем файл по-новому, чтобы читать его сначала, а не продолжать с того места где остановились)

In [5]:
f = open(fname, "r")
print(f.readline())

Hello! Welcome to demofile.txt



In [6]:
print(f.readline())
print(f.readline())

This file is for testing purposes.

Good Luck!


In [7]:
print(f.readlines())

[]


Кстати, в этой функции тоже можно указать дополнительный аргумент, равный количеству символов для прочтения. Обратите внимание как именно при этом будут прочитаны строки.

In [11]:
f = open(fname, "r")

print(f.readline(18))
print(f.readline(18))
print(f.readline(18))
print(f.readline(18))

Hello! Welcome to 
demofile.txt

This file is for t
esting purposes.



Метод `readlines()` позволяет прочитать все строки из файла в список, разбив по строкам.

Ниже мы получим список из трех элементов, каждый будет содержат свою строку.

Обратите внимание на `\n` это обозначение специального символа переноса строки, который есть в файле. Это только обозначение, в файле такой символ хранится как число.

In [12]:
f = open(fname, "r")
print(f.readlines())

['Hello! Welcome to demofile.txt\n', 'This file is for testing purposes.\n', 'Good Luck!']


Похожий результат можно получить, читая файл в цикле. Тут мы явно не вызываем команду для чтения, но она вызывается автоматически при итерировании

In [13]:
f = open(fname, "r")
for x in f:
    print(x)

Hello! Welcome to demofile.txt

This file is for testing purposes.

Good Luck!


Встроенная функция `close()` закрывает файл. При закрытии файла все ресурсы освобождаются, и больше не занимают память. Важно закрывать файлы всегда, когда они больше не нужны. Иначе в системе останется мусор, который будет занимать лишнюю память и замедлять работу. Это не страшно, когда файлов мало, но когда одновременно открыто много файлов, это может существенно повлиять на работу компьютера.

Выше мы не закрывали файлы, хотя это нужно было делать.

После закрытия файла мы уже не можем с ним работать. Попробуйте что-то прочитать после закрытия.

In [16]:
f = open(fname, "r")
print(f.readline())
f.close()
#print(f.readline())

Hello! Welcome to demofile.txt



In [17]:
f.read() # после закрытия доступа больше нет

ValueError: I/O operation on closed file.

###  Форматы и режимы работы с файлами

Основные форматы файлов это *текстовый* и *бинарный*. По сути, они одинаковы, и текстовый и бинарный файл это последовательности байт, но интерпретируются они по-разному. Мы научились читать текстовые файлы. Рассмотренные функции работают также и для чтения бинарных файлов.

Для работы с другими форматами файлов их тоже придется открывать, закрывать, но работать с ними будем с помощью других функций. Некоторые из них мы рассмотрим на последующих уроках.

Файлы можно не только читать - получать информацию из них, но и писать - записывать информацию в файл.

Что именно мы хотим сделать с файлом можно указать в дополнительном аргументе `mode` команды `open()`

`'r'` : Открыть файл только для чтения (Read), запись в него запрещена.

`'w'` : Открыть файл для записи (Write). Если файл уже существует все данные в нем будут стерты. Если файла нет, он будет создан. Читать такой файл нельзя.

`'a'` : Открыть файл для записи с добавлением. Если файла нет, он будет создан. Если файл уже существует все данные в нем сохранятся, а новые данные будут добавляться после старых.

`'+'` : Открыть файл для модификаций и на чтение и на запись. При этом указывая `'r+'` мы сохраняем старое содержание файла, `'w+'` - очищаем файл.

## 2. Запись в текстовый файл

Есть две встроенные функции, чтобы записать текст (строки) в файл:

`write()` : Записывает одну строку `str1` в текстовый файл.

`writelines()` : Записывает в текстовый файл *список* строк, разделители строк не добавляются, если это нужно надо создавать самим.


In [20]:
output_file = open("myfile.txt","w") # Откроем файл myfile.txt на запись
L = ["Строка 2: Мы \n","Строка 3: хотим \n","Строка 4: что-то записать \n"] # сделаем некоторый список строк, который потом запишем в файл
# мы сами добавляем в эти строки знак \n - перенос строки.

In [21]:
output_file.write("Привет \n") # запишем в файл строку "Привет" с переносом


8

In [22]:
output_file.writelines(L) # запишем созданный ранее список строк


In [23]:
output_file.close() # закроем файл

Теперь откроем файл для модификаций, и прочитаем что в нем записано. Можете также посмотреть на диске.

In [24]:
output_file = open("myfile.txt","r+")  # откроем файл для модификаций, r+ поэтому содержимое сохранится.

print("В том файле написано: \n") #
print(output_file.read()) # прочитаем содержимое и выведем на экран

В том файле написано: 

Привет 
Строка 2: Мы 
Строка 3: хотим 
Строка 4: что-то записать 



In [25]:
output_file.close()

Разберем подробнее, что мы только что сделали:

1) мы создали файловый объект - открыли файл. Обратите внимание на режим - `'w'` - запись.

2) Создали список строк `L` в котором содержится три строки с произвольным текстом, которые мы хотели бы записать в файл

3) записали в файл строку "Привет"

4) записали в файл ранее сформированный список строк `L`

5) закрыли файл

6) открыли файл в режиме модификаций `r+`

7) прочитали что в нем записано.

8) закрыли файл.

Обратите внимание, что можно записывать либо как в пункте 3, либо как в пункте 4 - не обязательно использовать оба сразу. Надо выбирать, в какой ситуации удобней записывать по одной строке за раз, а в какой все строки в списке.

## 3. Добавление текста к файлу

Давайте разберем ситуацию, когда файл уже существует, в нем записана какая-то информация, и надо, не уничтожая ее, записать в файл еще что-то. Такое встречается постоянно, как пример - запись файлов логов.

Откроем файл с соответствующим режимом `'a'` (append) и запишем туда какую-нибудь новую информацию

In [26]:
appended_file = open("myfile.txt","a") # открыли файл для добавления
appended_file.write("Мы открыли файл и добавили туда эту строку \n") # добавили в него текст
appended_file.close() # закрыли файл

Давайте теперь посмотрим, что хранится в этом файле:

In [27]:
appended_file_check = open("myfile.txt","r") # снова открыли файл, в режиме чтения
print("После добавления в файле оказалось: \n") #
print(appended_file_check.readlines())  # прочитали что там записано
appended_file_check.close() # закрыли файл

После добавления в файле оказалось: 

['Привет \n', 'Строка 2: Мы \n', 'Строка 3: хотим \n', 'Строка 4: что-то записать \n', 'Мы открыли файл и добавили туда эту строку \n']


Новая строка добавлена, старые сохранились.

## 4. Перезапись файла

Бывают ситуации, когда информацию файла надо не сохранить, а полностью перезаписать (с другой стороны, если ее перезаписывать не надо, то надо точно знать, что так делать нельзя).

Давайте попробуем перезаписать файл. Для этого можно использовать все те же конструкции, просто открыть файл не для добавления, а для записи (с уже знакомым режимом `'w'`).

In [28]:
rewrited_file = open("myfile.txt","w") # откроем файл для записи
rewrited_file.write("Мы перезаписали этот файл \n")  # запишем
rewrited_file.close() # закроем

Проверим, что получилось:

In [29]:
rewrited_file_check = open("myfile.txt","r")  # откроем для чтения
print("После перезаписи в файле осталось только: \n") #
print(rewrited_file_check.readlines())  # прочитаем
rewrited_file_check.close() # закроем

После перезаписи в файле осталось только: 

['Мы перезаписали этот файл \n']


# 5. Работа со строками

Когда мы прочитали текст из файла, получили наборы строк в памяти. Их можно обрабатывать, выполнять разные действия со строками.

Строка - это массив символов, со строками можно обращаться как с массивами и делать доступ по индексам. То есть, какое-то слово можно получить, зная его местоположение в строке и количество символов в нем.

In [30]:
s = 'Эта строка' # сделаем строку
s[4:] # получим элементы, начиная с пятого (помним что индексы начинаются с нуля!)

'строка'

In [31]:
s[-1]

'а'

Узнать количество символов в строке, ее длину можно командой `len()`. Она считает все элементы, включая пробелы, непечатаемые символы и др. Вставьте, например, символ `\n` в конец строки, хоть он написан нами двумя символами ' \ ' и ' n ' это управляющий символ и считается за один.

In [32]:
len(s)# длина строки

10

In [33]:
s1 = 'Эта строка\n' # это другая строка хоть и выглядит так же
print(s)
print(len(s))
print(s1)
print(len(s1))


Эта строка
10
Эта строка

11


Наоборот, по нужному слову (строке) найти его местоположение в нашей строке можно при помощи функции `find()`. Она вернет нам индекс элемента, с которого слово начинается, а если такое слово не найдено, то вернет -1.

In [34]:
s = 'Эта строка' # сделаем строку
s.find('строка')# попробуйте поискать другое слово

4

In [36]:
s[s.find('строка'):] # проверим что найден именно нужный индекс, выведем строку начиная с этого найденного индекса.

'строка'

In [35]:
s.find('тырпыр')

-1

А как по местоположению начала слова получить все слово без остального текста?

Зная индекс и длину - просто.

In [38]:
s[s.find('строка'):s.find('строка') + len('строка')] # вот так

'строка'

In [39]:
s.find('строка') # первый find вернул нам индекс 4

4

In [40]:
s.find('строка') + len('строка') # второй тоже вернул индекс 4, длина len() = 6. 4+6=10, значит мы выводим с 4 по 9 индекс (помним, что конец не входит в диапазон)

10

In [42]:
s.find('т')

1

Чтобы разбить строки (тексты) на более простые части (предложения, слова, или что-то более специфичное), можно использовать функцию `split()`. Мы указываем строку-разделитель, по которой будет проходить разбиение, она может быть любой, хоть цифра, хоть буква, хоть знак препинания и даже несколько символов. Сама строка-разделитель пропадет.

In [43]:
s

'Эта строка'

In [44]:
s.split(' ') # символ-разделитель - пробел. Получим две строки.

['Эта', 'строка']

In [45]:
s.split('т')

['Э', 'а с', 'рока']

In [46]:
s = 'Большой и интересный текст это. Привет, мир, - говорит программа. Что-то оптимизировалось.'
l = s.split('.') # символ-разделитель - точка .
s.split('.')

['Большой и интересный текст это',
 ' Привет, мир, - говорит программа',
 ' Что-то оптимизировалось',
 '']

Чтобы обратно склеить разбитые части, можно использовать функцию `join()`. При этом в аргумент мы подаем список строк, которые надо склеить в одну, а сам метод применяем к строке, которую будем использовать как клей (она была строкой-разделителем в предыдущей команде).

In [47]:
' '.join(l) # строка- клей - пробел ' '

'Большой и интересный текст это  Привет, мир, - говорит программа  Что-то оптимизировалось '

Обратите внимание, что получившийся текст отличается от первоначального. Когда мы разбивали на предложения с символом-разделителем '.', то они исчезли, а когда мы склеивали обратно через пробел, точки ниоткуда не взялись. Исправим это и сравним с исходным текстом.

In [48]:
'.'.join(l) # строка- клей - точка '.'

'Большой и интересный текст это. Привет, мир, - говорит программа. Что-то оптимизировалось.'

In [None]:
'.'.join(l) == s # склеенная и исходная строка совпадают?

True

In [49]:
'пырпыр '.join(l)

'Большой и интересный текст этопырпыр  Привет, мир, - говорит программапырпыр  Что-то оптимизировалосьпырпыр '

## Чистка текста

Возможно, вы заметили, что, когда мы разбили текст на предложения, они выглядели неприглядно: начинались с символа пробела, содержали пустую строку в конце списка.

При работе с текстами такая ситуация - не редкость. Более того, в текстах может содержаться гораздо более противный и мешающий мусор. Зачастую тексты надо чистить от персональных данных и другой чувствительной информации.

Иногда бывает, что в тексты закрадываются целые блоки кода или мусора после парсинга веб страниц.
Иногда же надо просто избавиться от определенного списка слов.

Все это понимается под чисткой текста.

В общем случае чистка текста - нетривиальная и творческая задача: иногда достаточно сложно задать правило, благодаря которому будут найдены нужные слова. Иногда для этого даже нужно будет воспользоваться обученными NER моделями. Это все придет с практикой и в будущем.

Но есть один метод, который будет применяться чаще всего и почти всегда, и это метод `replace()`, который позволяет заменить часть строки (подстроку) на другую строку.

Этот метод применяется к строке, которую хотим изменить. В качестве первого аргумента надо записать часть строки, которую хотим заменить, а в качестве второго - на что хотим заменить.

При этом обратите внимание, что сам метод не осуществляет изменения строки, если мы не выполняли операцию присваивания.

In [50]:
s # наш текст

'Большой и интересный текст это. Привет, мир, - говорит программа. Что-то оптимизировалось.'

In [51]:
s.replace('это', '') # заменяем все подстроки 'это'  на пробел.

'Большой и интересный текст . Привет, мир, - говорит программа. Что-то оптимизировалось.'

In [52]:
s # сама строка s не поменялась

'Большой и интересный текст это. Привет, мир, - говорит программа. Что-то оптимизировалось.'

In [53]:
s = s.replace('это', '') # если хотим поменять - надо переприсвоить ей значение.
s # Теперь строка изменилась

'Большой и интересный текст . Привет, мир, - говорит программа. Что-то оптимизировалось.'

## Дополнительное чтение

Дополнительно почитайте самостоятельно про __регулярные выражения__
 https://habr.com/ru/post/349860/

