### Работа с текстовыми файлами

Python обладает удобным интерфейсом, позволяющим считывать данные из текстовых файлов и записывать в них новые. Обычно у таких файлов расширение .txt, но оно на самом деле может быть любым. Такие файлы можно открыть в программе &laquo;Блокнот&raquo; или прямо в редакторе исходного кода.

Чтобы работать с файлом, его нужно открыть. Для этого есть функция `open()`. В неё передаётся два аргумента:
* имя файла (или путь к нему) в виде строки &mdash; полностью, вместе с расширением
* специальная строка, которая показывает, в каком режиме будет открыт файл: `"r"` &mdash; режим чтения, `"w"` &mdash; режим записи, `"a"` &mdash; режим дописывания в конец существующего файла.
* третий (опциональный аргумент) &mdash; `encoding`, в который передадим название кодировки.

Кодировок, которые обязательно нужно знать, две: `"utf-8"` (UTF-8), в которой закодировано большинство файлов в интернете, и `"cp1251"` (Windows-1251), которая используется в русскоязычной версии Windows. Если параметр не передать, будет использована системная кодировка (на компьютерах с русскоязычной Windows &mdash; `"cp1251"`).

Функция возвращает специальный объект, через который можно получать доступ к файлу с помощью специальных методов.

1. Чтение

Файл будет читаться из текущей директории! Если такого файла нет, возникнет ошибка.

In [None]:
!wget https://pkholyavin.github.io/compsci/test.txt

In [None]:
f = open("test.txt", "r", encoding="utf-8")
text = f.read()  # считываем весь текст одной строкой
f.close()
print(text)

Был тихий серый вечер.
Дул ветер, слабый и тёплый.
Небо было покрыто тучами, сквозь которые иногда прорывались лучи заходящего солнца.



In [None]:
f = open("test.txt", "r", encoding="utf-8")
lines = f.readlines()  # считываем весь текст построчно, получаем список строк
f.close()
print(lines)

['Был тихий серый вечер.\n', 'Дул ветер, слабый и тёплый.\n', 'Небо было покрыто тучами, сквозь которые иногда прорывались лучи заходящего солнца.\n']


Принято использовать т.н. context manager, чтобы файл закрывался автоматически:

In [None]:
with open("test.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
print(lines)

2. Запись

Если файла с таким названием не существует, он будет создан. Существующий файл будет перезаписан.

In [None]:
with open("test_out.txt", "w", encoding="utf-8") as f:
    f.write("test")

3. Добавление в существующий файл

Если файла с таким названием не существует, он будет создан.

In [None]:
with open("test_out.txt", "a", encoding="utf-8") as f:
    f.write("test")

Также можно задать путь к файлу, относительный или абсолютный.

Таким образом: чтобы работать с файлом, либо поместите его в ту же директорию, где лежит ваш код, либо пропишите перед именем файла его полный путь (можно посмотреть в Проводнике в меню &laquo;Свойства&raquo;).

Путь можно задать с помощью прямых слешей:

In [None]:
with open("C:/users/user/downloads/test.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
print(lines)

Или, на Windows, с помощью обратных (обратите внимание, что во втором случае используется r-строка!):

In [None]:
with open("C:\\users\\user\\downloads\\test.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
print(lines)

In [None]:
with open(r"C:\users\user\downloads\test.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
print(lines)

### Задания для самостоятельного выполнения

#### Задание 1

Скачайте текстовый файл `grades.txt` и поместите его в свою рабочую директорию.

https://pkholyavin.github.io/compsci/grades.txt

На каждой строчке содержатся: имя, фамилия, список оценок. По очереди для каждого ученика выведите текст:

```
Имя: (имя)
Фамилия: (фамилия)
Средняя оценка: X
Максимальная оценка: X
Минимальная оценка: X
```

Используйте метод `split()`.

In [None]:
!wget https://pkholyavin.github.io/compsci/grades.txt

#### Задание 2

Измените код так, чтобы информация не выводилась на экран, а записывалась в файлы, называющиеся по имени и фамилии, с расширением .txt. Вместо пробела в названии файла сделайте нижнее подчёркивание. Должно, таким образом, образоваться десять файлов.

Подсказка: имя файла можно собрать с помощью сложения строк (`+`) или f-строк (см. соответствующий ноутбук).

#### Задание 3

Откройте файл *test.txt* и прочитайте из него текст. Уберите из него запятые и точки с помощью `.replace()`, приведите к нижнему регистру и создайте список всех слов, которые начинаются на букву "т". Выведите на экран все эти слова через нижнее подчёркивание.

#### Задание 4

Скачайте текстовый файл `chatlog.txt` и поместите его в свою рабочую директорию.

https://pkholyavin.github.io/compsci/chatlog.txt

На каждой строчке содержатся имя пользователя и его сообщение, разделённые знаком табуляции (`\t`).

Создайте алфавитный список всех слов, которые употребили пользователи в диалоге. Для этого из каждой строчки уберите имя пользователя, замените все знаки препинания (точки, запятые, кавычки, тире, восклицательные и вопросительные знаки, двоеточия) на пустые строки с помощью `.replace()`, сделайте все буквы маленькими с помощью `.lower()` и разбейте её на отдельные слова с помощью `.split()`. Добавьте каждое слово из строчки в список, но так, чтобы каждое слово было в нём только один раз. Запишите список в новый текстовый файл (по одному слову на строчке).

In [None]:
!wget https://pkholyavin.github.io/compsci/chatlog.txt

#### Задание 5
Используя данные из предыдущего задания, определите, сколько раз встретилась каждая буква русского алфавита в тексте. Для этого:
1. Приведите текст к одному регистру
2. Пройдитесь циклом по алфавиту
3. Определите, сколько раз буква встретилась в тексте, с помощью метода `.count()`
4. Запишите результат в файл в формате "Буква: количество", например:
```
А: 10
Б: 13
...
```

#### Задание 6

Используя данные из предыдущего задания, найдите пять самых длинных слов в тексте и выведите их на экран.

#### Задание 7

Напишите программу, которая принимает на вход слово на русском языке и заменяет в нём каждую букву на её номер в алфавите. Номера нужно вывести на экран, соединённые дефисом. Например: "мама" -> "14-1-14-1"

Подсказка: создайте строку с алфавитом и используйте метод `.index().`

#### Задание 8

Закодируйте таким образом текст из задания 5. Символы не из русского алфавита заменяйте на 0.

#### Задание 9

Определите количество слогов в каждом сообщении (по количеству русских гласных букв) и запишите информацию в новый текстовый файл.

### Домашнее задание

1. Возьмите какой-нибудь достаточно длинный текст на русском языке в формате .txt.
2. Уберите знаки препинания с помощью `.replace()`, приведите к нижнему регистру с помощью `.lower()`, разбейте на слова с помощью `.split()`.
3. Используя метод `.startswith()`, для каждой буквы русского алфавита составьте список слов, начинающихся на эту букву. 
4. Найдите самое длинное и самое короткое слово, которое начинается на эту букву.
5. Запишите полученную информацию в новый текстовый файл.