# Файлы. Работа с файлами.

Ссылка на материал на Google Colab https://colab.research.google.com/drive/1aEenI1c0ig8HTwmMYtLtNCBh9TNfzq-j?usp=sharing

**Файл** — это всего лишь набор данных, сохраненный в виде последовательности битов на компьютере. Информация хранится в куче данных (структура данных) и имеет название «имя файла» (filename).

В Python существует два типа файлов:

* Текстовые
* Бинарные

#### Текстовые файлы
Это файлы с человекочитаемым содержимым. В них хранятся последовательности символов, которые понимает человек. Блокнот и другие стандартные редакторы умеют читать и редактировать этот тип файлов.

Текст может храниться в двух форматах: (.txt) — простой текст и (.rtf) — «формат обогащенного текста».

Для хранения таблиц в виде текста существует специальный формат - .csv (Comma-Separated Values). В нём каждая строка является строкой таблицы, а на колонки данные разделяются с помощью специальных символов: по умолчанию - запятой(,), но также часто используется точка с запятой(;) или вертикальная черта(|) 

#### Бинарные файлы
В бинарных файлах данные отображаются в закодированной форме (с использованием только нулей (0) и единиц (1) вместо простых символов). В большинстве случаев это просто последовательности битов.

Они хранятся в формате .bin.

Любую операцию с файлом можно разбить на три крупных этапа:

- Открытие файла
- Выполнение операции (запись, чтение)
- Закрытие файла

**Открытие файла**

В Python есть встроенная функция open(). С ее помощью можно открыть любой файл на компьютере. Технически Python создает на его основе объект.

In [13]:
# попробуйте проделать эту операцию
# для этого нужно скачать файл text.txt на свой локальный компьютер в ту же папку, где хранится эта программа
# если Вы используете Google Colab, то нужно скачать файл на локальный компьютер, 
# а затем загрузить в сессионное хранилище
# файл доступен по ссылке: https://disk.yandex.ru/d/fNbCgfVUoAP2XA

f = open('text.txt', 'r', encoding='UTF-8')
f

<_io.TextIOWrapper name='text.txt' mode='r' encoding='UTF-8'>

**Режимы открытия файла:**

* 'r'	открытие на чтение (является значением по умолчанию).
* 'w'	открытие на запись, содержимое файла удаляется, если файла не существует, создается новый.
* 'x'	открытие на запись, если файла не существует, иначе исключение.
* 'a'	открытие на дозапись, информация добавляется в конец файла.
* 'b'	открытие в двоичном режиме.
* 't'	открытие в текстовом режиме (является значением по умолчанию).
* '+'	открытие на чтение и запись

Режимы могут быть объединены, то есть, к примеру, 'rb' - чтение в двоичном режиме. По умолчанию режим равен 'rt'.

И последний аргумент, encoding, нужен только в текстовом режиме чтения файла. Этот аргумент задает кодировку.

Если открыли файл, его нужно, после использования закрыть

In [3]:
f.close()

Еще один подход — использовать инструкцию with, которая упрощает обработку исключений с помощью инкапсуляции начальных операций, а также задач по закрытию и очистке.


В таком случае инструкция close не нужна, потому что with автоматически закроет файл.

In [12]:
with open('text.txt') as f:
  pass

#### Чтение из файла
Первый - метод **read**, читающий весь файл целиком, если был вызван без аргументов, и n символов, если был вызван с аргументом (целым числом n).

In [25]:
with open('text.txt', 'r') as f: # в ячейке выше мы уже закрыли этот файл, нужно открыть его снова
    a = f.read(1)
    b = f.read()

UnicodeDecodeError: 'charmap' codec can't decode byte 0x98 in position 205: character maps to <undefined>

Мы столкнулись с проблемой! Вот теперь и становится понятным, зачем был нужен аргумент encoding='UTF-8': дело в том, что автоматически программа не смогла распознать кодировку текста в файле и нам необходимо указать её явно.
Так случается часто, если нам приходится обработывать русскоязычный текст. С англоязычным текстом подобных проблем практически не возникает.

In [24]:
with open('text.txt', 'r', encoding='UTF-8') as f: 
    a = f.read(1)
    b = f.read()
print(a)
print(b)

В
 феврале далеко до весны,
ибо там, у него на пределе,
бродит поле такой белизны,
что темнеет в глазах у метели.
И дрожат от ударов дома,
и трепещут, как роща нагая,
над которой бушует зима,
белизной седину настигая.


Ещё один способ считать данные из файла - прочитать файл построчно, воспользовавшись циклом for:


In [22]:
with open('text.txt', 'r', encoding='UTF-8') as f:
  for line in f:
    print(line)
  

В феврале далеко до весны,

ибо там, у него на пределе,

бродит поле такой белизны,

что темнеет в глазах у метели.

И дрожат от ударов дома,

и трепещут, как роща нагая,

над которой бушует зима,

белизной седину настигая.


Другой вариант построчного считывания - метод **readline()**

In [20]:
f = open('text.txt', 'r', encoding='UTF-8')
f.readline()

'В феврале далеко до весны,\n'

И чтобы считать сразу все строки из файла в отельный список можно использовать метод **readlines()**

In [21]:
f.readlines()

['ибо там, у него на пределе,\n',
 'бродит поле такой белизны,\n',
 'что темнеет в глазах у метели.\n',
 'И дрожат от ударов дома,\n',
 'и трепещут, как роща нагая,\n',
 'над которой бушует зима,\n',
 'белизной седину настигая.']

### Практическое задание № 1 (Подготовка к НЭ, задание А-08)

Вася готовится к контрольной работе по истории и собирает информацию о победах и поражениях правителей 19-20 века. 
Напишите программу, которая выведет строки, с информацией о победах определенного правителя.

- Дан структурированный текстовый файл **history.csv**, в кодировке **utf-8**, где на каждой строке записана следующая информация о правителе: его имя, страна, сражение, год сражения и строка "победа"  или "поражение", если сражение было выиграно или проиграно соответственно. Например, **"Николай II,Российская империя,Галицийская битва,1914,победа"**
- Разделителями данных в файле служат запятые.
- Гарантируется, что в файле есть как минимум одна строка с данными. 
- С клавиатуры вводится строка, имя правителя.
- Гарантируется, что в файле есть как минимум одно событие, связанное с этим правителем.
- Программа должна выводить строки из оригинального файла, которые соответствуют информации о победах данного правителя (не забудьте удалить символы конца строки!).

**ДОПОЛНИТЕЛЬНО**
Ваше решение будет проверяться на закрытых тестах. Ваш код должен считывать файл history.csv без дополнительных указаний (например, пути к файлу на вашем компьютере).
В открытом тесте используются файл history.csv.  Вы можете скачать его и проверить свое решение локально https://disk.yandex.ru/d/fNbCgfVUoAP2XA


Пример теста:


<table>
    <thead>
        <tr>
            <th>Ввод</th>
            <th>Вывод</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>
                <pre>	
Николай II</pre>
            </td>
            <td VALIGN=top><pre>Николай II,Российская империя,Битва за Пекин,1900,победа
Николай II,Российская империя,Галицийская битва,1914,победа
</pre></td>
        </tr>
</table>

In [None]:
#напишите программу и протестируйте её в этой ячейке
#обязательно придумайте свои тесты




### Практическое задание № 2 (Подготовка к НЭ, задание А-08)

Катя любит отправлять своим друзьям посылки в разные города России. Помогите Кате определить, какие посылки из тех, что она отправляла, шли дольше остальных. 

- Дан структурированный текстовый файл mail.csv, в кодировке utf-8, где на каждой строке записана следующая информация о посылке: <город отправки>,<город назначения>,<вес>,<ценность>,<количество дней>,<стоимость>. Например, "Perm,Kazan,3,1000,3,480". 
- Разделителями данных в файле служат запятые.
- Гарантируется, что в файле есть как минимум одна строка с данными.
- Программа должна выводить строки из оригинального файла с информацией о посылках, количество дней доставки которых превышает 2.

**ДОПОЛНИТЕЛЬНО**
Ваше решение будет проверяться на закрытых тестах. Ваш код должен считывать файл mail.csv без дополнительных указаний (например, пути к файлу на вашем компьютере).
В открытом тесте используется файл mail.csv. Вы можете скачать его и проверить свое решение локально https://disk.yandex.ru/d/fNbCgfVUoAP2XA


Пример теста:


<table>
    <thead>
        <tr>
            <th>Ввод</th>
            <th>Вывод</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>
                <pre>	
</pre>
            </td>
            <td VALIGN=top><pre>	
Vladivostok,Saint-Petersburg,1,0,9,577
Perm,Kazan,3,1000,3,480
Lipetsk,Stavropol,0.824,100,4,430
</pre></td>
        </tr>
</table>

In [None]:
#напишите программу и протестируйте её в этой ячейке
#обязательно придумайте свои тесты




### Практическое задание № 3 (Подготовка к НЭ, задание В-05)

Вася готовится к контрольной работе по политологии и по мере прочтения материала помечает непонятные слова знаком * . "Звездочку" студент ставит в конце каждого непонятого им слова. 

Помогите Васе собрать все непонятные слова и подсчитайте, сколько раз каждое слово, символов в котором больше или равно семи, он пометил "звездочкой". Будем считать, что слова в тексте разделены пробелами.

**ФОРМАТ ВВОДА**

Текстовый файл notes.txt , в котором записан конспект Васи с пометками. Непонятым считается любое слово, заканчивающееся знаком '*'.   Между словом и * точно не стоят пробелы.

**ФОРМАТ ВЫВОДА**

Словарь, где ключи — непонятные Васе слова, количество символов в которых больше или равно семи, (уже без знака * на конце), а значения — целые числа, сколько раз каждое слово отметил Вася. Слова должны быть добавлены в словарь в том же порядке, в каком они встречались в оригинальном файле.

На следующей строке напечатайте первое по алфавиту слово из вашего словаря.

**ДОПОЛНИТЕЛЬНО**

В открытом тесте используются файл notes.txt.  Вы можете скачать его и проверить свое решение локально https://disk.yandex.ru/d/fNbCgfVUoAP2XA


Пример теста:


<table>
    <thead>
        <tr>
            <th>Ввод</th>
            <th>Вывод</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>
                <pre>	
</pre>
            </td>
            <td VALIGN=top><pre>	
{'political': 5, 'regimes': 2, 'monarchy': 1}
monarchy
</pre></td>
        </tr>
</table>

In [None]:
#напишите программу и протестируйте её в этой ячейке
#обязательно придумайте свои тесты




#### Запись в файл
Первый вариант записи в файл - это использование стандартной функции print с дополнительным аргументом

In [None]:
print('123', file=f)

Второй вариант - метод write

In [None]:
f.write('123')

**ВАЖНО:** При записи файл с помощью print в конец строки обязательно автоматически добавляется '\n', а с помощью write - не добавляется и указатель остаётся на конце напечатанной строки.

### Практическое задание № 4 (Подготовка к НЭ, задание C-02)

Маргарита изучает описание маршрута водителя транспортной компании и хочет понять, сколько раз он посетил каждый населенный пункт. Известно, что название каждого населенного пункта начинается с большой буквы.

Помогите Маргарите найти все населенные пункты и узнать количество посещений каждого из них.

**ФОРМАТ ВВОДА**
- Текстовый файл data.txt, в котором записано описание маршрута. Название каждого населенного пункта начинается с большой буквы. 
- Гарантируется, что других слов, начинающихся с большой буквы, в файле нет. 
- Также гарантируется, что до и после названия населенного пункта стоят пробелы.

**ФОРМАТ ВЫВОДА**

Текстовый файл final.txt в кодировке utf-8, где каждое название населенного пункта, упомянутое в файле data.txt, записано в формате "Название: <название>, посещений: <кол-во посещений>". 
Каждый населенный пункт должен быть записан на отдельной строке, их нужно отсортировать в алфавитном порядке.

**ДОПОЛНИТЕЛЬНО**
В открытом тесте используются файлы data.txt и final.txt. Вы можете скачать их и проверить свое решение локально https://disk.yandex.ru/d/fNbCgfVUoAP2XA


Пример теста:


<table>
    <thead>
        <tr>
            <th>Ввод</th>
            <th>Вывод</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>
                <pre>	
</pre>
            </td>
            <td VALIGN=top><pre>	

FILE:
Название: Москва, посещений: 2
Название: Пермь, посещений: 3
Название: Рязань, посещений: 2
</pre></td>
        </tr>
</table>

In [None]:
#напишите программу и протестируйте её в этой ячейке
#обязательно придумайте свои тесты




#### Дополнительная информация: Методы файлов

* file.close()	закрывает открытый файл
* file.fileno()	возвращает целочисленный дескриптор файла
* file.flush()	очищает внутренний буфер
* file.isatty()	возвращает True, если файл привязан к терминалу
* file.next()	возвращает следующую строку файла
* file.read(n)	чтение первых n символов файла
* file.readline()	читает одну строчку строки или файла
* file.readlines()	читает и возвращает список всех строк в файле
* file.seek(offset[,whene])	устанавливает текущую позицию в файле
* file.seekable()	проверяет, поддерживает ли файл случайный доступ. Возвращает True, если да
* file.tell()	возвращает текущую позицию в файле
* file.truncate(n)	уменьшает размер файл. Если n указала, то файл обрезается * до n байт, если нет — до текущей позиции
* file.write(str)	добавляет строку str в файл
* file.writelines(sequence)	добавляет последовательность строк в файл

#### Текущая позиция в файлах Python
В Python возможно узнать текущую позицию в файле с помощью функции tell(). Таким же образом можно изменить текущую позицию командой seek().

In [None]:
f = open('example.txt')  # example.txt, который мы создали ранее
f.read(4)  # давайте сначала перейдем к 4-й позиции
f.tell()  # возвращает текущую позицию
f.seek(0,0)  # вернем положение на 0 снова

# Задания для самостоятельного решения

1. Екатерина хочет найти среднюю цену для каждого вида пирожных, которые продаются в ее районе.

Помогите Екатерине собрать информацию о каждом виде пирожных.

**ФОРМАТ ВВОДА**

- Текстовый файл cakes.csv в кодировке utf-8 , в котором через точку с запятой записана информация о пирожных, их цене, кофейне и индикатор наличия глютена (1 — если пирожное с глютеном и 0 — если без).
- Каждая строка имеет вид <название пирожного>;<цена>;<название кофейни>;<индикатор наличия глютена> . Например, "Павлова;200;Шоколадница;1". 
- Гарантируется, что в названиях пирожных и кофеен нет ";" (точки с запятой). 
- В каждой строке записана информация только об одном пирожном.

**ФОРМАТ ВЫВОДА**

- Текстовый файл mean_price.txt  в кодировке  utf-8, где каждое пирожное, упомянутое в файле cakes.сsv, записано в формате "Название: <название>, средняя цена: <средняя цена>". 
- Каждое пирожное, упомянутое в файле нужно отсортировать по алфавиту, цену за каждое пирожное необходимо округлить до целого с помощью функции round().

**ДОПОЛНИТЕЛЬНО**
В открытом тесте используются файлы cakes.csv и mean_price.txt. Вы можете скачать их и проверить свое решение локально https://disk.yandex.ru/d/fNbCgfVUoAP2XA

Пример теста:


<table>
    <thead>
        <tr>
            <th>Ввод</th>
            <th>Вывод</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>
                <pre></pre>
            </td>
            <td VALIGN=top><pre>	

FILE:
Название: Наполеон, средняя цена: 275
Название: Павлова, средняя цена: 220
Название: Трубочка с кремом, средняя цена: 355</pre></td>
        </tr>


</table>

In [None]:
#напишите программу и протестируйте её в этой ячейке
#обязательно придумайте свои тесты




2. Ефросинья изучает, какие тарифы домашнего интернета приносят больший доход телекоммуникационной компании, в которой она работает.

Помогите Ефросинье собрать информацию о среднем доходе по каждому тарифу.

**ФОРМАТ ВВОДА**

- Структурированный файл data_2.csv, в котором записана информация о клиентах и выбранном тарифе. В каждой строке записан ID клиента, название тарифа и его стоимость через точку с запятой. Например "ID5637;Быстрый;500".
- Гарантируется, что в ID клиентов и в названиях тарифов нет ";" (точки с запятой). 
- В каждой строке хранится информация только об одном клиенте.

**ФОРМАТ ВЫВОДА**

- Текстовый файл final.txt в кодировке utf-8, где каждое название тарифа, упомянутое в файле data.сsv, записано в формате "Название: <название>, средний доход: <сумма>". 
- Каждый тариф должен быть записан на отдельной строке, их нужно отсортировать по среднему доходу (от меньшего к большему).

**ДОПОЛНИТЕЛЬНО**

В открытом тесте используются файл data.csv и final.txt. Вы можете скачать его и проверить свое решение локально https://disk.yandex.ru/d/fNbCgfVUoAP2XA

Пример теста:


<table>
    <thead>
        <tr>
            <th>Ввод</th>
            <th>Вывод</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>
                <pre></pre>
            </td>
            <td VALIGN=top><pre>	
FILE:
Название: Медленный, средний доход: 250.0
Название: Быстрый, средний доход: 533.33
Название: БыстрыйNew, средний доход: 748.57</pre></td>
        </tr>


</table>

In [None]:
#напишите программу и протестируйте её в этой ячейке
#обязательно придумайте свои тесты


