# Работа с файлами


## Типы файлов

В контексте изучения программирования файлы делятся на три типа:
+ Текстовые файлы. У них нет постоянной длины записи. Текстовые данные записываются/читаются порциями - строками, где разделителем служит перевод строки.
+ Типизированные файлы - когда в файле хранятся одинаковые структуры данных, заранее определенные (либо программистом, либо форматом файла). В принципе любой файл можно рассматривать как типизированный со структурой данных равной одному байту.
+ Нетипизированные файлы. Информация в них хранится разными блоками, обычно в начале фалйа есть заголовок, где описаны свойства и размеры блоков.

Скорость работы с текстовыми файлами ниже, потому что ядро (а мы понимаем, что для компьютера все файлы просто набор байтов) языка программирования вынуждено считывать промежуточный буфер, в котором искать конец строки, а если он не найден в этом буфере, то подгружать еще один (или несколько) и склеивать из них результирующую строку. Все эти накладные расходы и влияют на скорость.

В старой литературе пишут, что доступ к нетипизированным файлам быстрее, чем к остальным (видимо из-за того что в типизированных файлах структура может быть небольшой и постоянно приходится перечитывать одно и то же место, чтобы достать очередной блок), но на практике все операции с диском кэшируются и вряд ли вы заметите эту разницу.

## Организация доступа к файлам

Для использования информации, хранимой в файлах, она должна быть считана в память компьютера. Есть несколько способов доступа к файлам.

Ранние ОС давали только один способ доступа – последовательный (перфолента, магнитная лента). Записи считывались в порядке поступления. Текущая позиция считывания могла быть возвращена к началу файла (rewind), но операция эта очень медленная.

Вместе с магнитными барабанами и дисками появились файлы с прямым (random) доступом. Для специфицирования места, с которого надо начинать чтение используются два способа: с начала, или с текущей позиции, которую дает операция seek.

Помимо прямого и последовательного существуют и другие методы доступа. Обычно они включают конструирование индекса файла и базируются на прямом методе доступа. Для поиска записи вначале происходит обращение к индексу, где находится указатель на нужную запись.

## Файловый объект в Python

В Python работа с файлами осуществляется через специальный абстрактный файловый объект. В зависимости от способа создания такого объекта, он может быть привязан как к физическому файлу на диске, так и другому устройству, поддерживающему схожие операции (стандартный ввод/вывод и пр.).

Стандартный способ создания файлового объекта - функция open.

`open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)`

Открывает файл и возвращает файловый объект. Если файл не может быть открыт, возбуждается исключение OSError и его потомки (FileNotFoundError и др.).

* file – путь к файлу (например, строка) или файловый дескриптор;
* mode – режим открытия файла:

Символ | Описание
:-----:|---------
'r'	| Открыть для чтения (по умолчанию)
'w'	| Открыть для записи (если файл существует, то очищается)
'x'	| Открыть для создания с эксклюзивными правами (ошибка, если файл существует)
'a'	| Открыть для добавления (если файл существует)
'+'	| Открыть для чтения и записи
't'	| Текстовый режим (по умолчанию)
'b'	| Двоичный режим

Двоичный/текстовый режимы могут быть скомбинированы с другими: например, режим 'rb' позволит открыть на чтение бинарный файл;

+ encoding – наименование кодировки, используемой при чтении/записи файла (например, 'utf-8'); параметр имеет смысл только для текстового режима.
+ При открытии файла Python по умолчанию использует кодировку, предпочитаемую операционной системой. Для определения кодировки по умолчанию выполните код:

Открытие файлов связано с потреблением/резервированием ресурсов, поэтому после выполнения необходимых операций его следует закрыть.

close()

Закрывает файл. После этого работа с файлом невозможна (чтение, запись и др.).

In [4]:
fh = open("data.txt", encoding="utf-8")
fh.close()

with open("data2.txt", encoding="utf-8") as fh:
    pass

## Основные свойства и методы работа с файлами

Файловый объект предоставляет ряд свойств и методов для работы с файлами. Большинство методов универсально и предполагают работу (чтение/запись) со строками в указанной кодировке (str для текстовых файлов) или с набором байт (bytes для двоичных файлов).

+ name - Имя файла (если имеется)
+ encoding - Кодировка, используемая для строковых преобразований в файле.
+ closed - Возвращает True, если файл закрыт.
+ close() - Закрывает файл. После этого работа с файлом невозможна (чтение, запись и др.).
+ read(count) - Читает до count байт из файлового объекта. Если значение count не определено, то читаются все байты, начиная от текущей позиции и до конца.
+ readline(count) - Читает следующую строку (до count байт, если значение count определено и число прочитанных байтов было достигнуто раньше, чем встретился символ перевода строки '\n'), включая символ перевода строки '\n'.
+ readlines() - Читает все строки до конца файла и возвращает их в виде списка.
+ write(s) - Записывает в файл объект s
+ writelines(seg) - Записывает в файл последовательность объектов
+ flush() - При работе с файлами Python по умолчанию использует буфер определенного размера. Вызов методов записи приводит к записи в буфер, после чего в определенный момент производится очистка буфера и передача сигнала для записи данных на диск.


In [5]:
human = {'name': 'Михаил', 'age': 30}
filename = "human.txt"

fh = open(filename, "w", encoding="utf-8")
fh.write(human["name"] + "\n")
fh.write(str(human["age"]) + "\n")
fh.close()

fh = open(filename, encoding="utf-8")
name = fh.readline().strip()
age = int(fh.readline())
print(name, age)
fh.close()

Михаил 30


## Чтение файла целиком

Чтение файла, приведенное выше не подразумевает, что содержимое файла может меняться.

Учитывать такие изменения можно, прочитав файл целиком:
+ в одну строку;
+ в список строк;
+ построчно, пока не достигнут конец файла.

Различные способы чтения текстового файла целиком:

In [6]:
filename = "test.txt"

# 1. Чтение из файла (в одну строку)
with open(filename, encoding="utf-8") as fh:
    data = fh.read()
    print(data, '\n')

# 2. Чтение из файла (в список)
with open(filename, encoding="utf-8") as fh:
    data = fh.readlines()
    print(data, '\n')

# 3. Чтение из файла (построчно)
with open(filename, encoding="utf-8") as fh:
    for line in fh:
        print(line.strip(), '\n')

Нет, и не под чуждым небосводом,
И не под защитой чуждых крыл, —
Я была тогда с моим народом,
Там, где мой народ, к несчастью, был.
 

['Нет, и не под чуждым небосводом,\n', 'И не под защитой чуждых крыл, —\n', 'Я была тогда с моим народом,\n', 'Там, где мой народ, к несчастью, был.\n'] 

Нет, и не под чуждым небосводом, 

И не под защитой чуждых крыл, — 

Я была тогда с моим народом, 

Там, где мой народ, к несчастью, был. 



## Популярные форматы файлов

Большое количество данных в совокупности с их разнородностью привело к появлению специальных форматов файлов, позволяющих хранить различные объемы связанной информации и не привязанных к конкретному языку программирования.

Среди них одними из наиболее популярных являются:

+ CSV (англ. Comma-Separated Values - значения, разделенные запятыми);
+ JSON (англ. JavaScript Object Notation) - текстовый формат обмена данными, основанный на JavaScript;
+ XML (англ. eXtensible Markup Language - расширяемый язык разметки);
+ YAML (англ. YAML Ain’t Markup Language - «YAML - Не язык разметки»);
+ INI (англ. Initialization file - файл инициализации);

Подавляющее большинство форматов поддерживается Python (стандартными или сторонними модулями и пакетами).

### CSV

CSV (англ. Comma-Separated Values - значения, разделенные запятыми, 2005 г.) - текстовый формат, предназначенный для представления табличных данных. Каждая строка файла - это одна строка таблицы, где значения отдельных колонок разделяются разделительным символом (англ. delimiter) запятой ",". Значения содержащие запятую заключаются в кавычки: "запятая служебный символ, но в кавычках не считается" 

Несмотря на наличие стандарта (RFC 4180), на сегодняшний день под CSV, как правило,понимают набор значений, разделенных произвольными разделителями, в произвольной кодировке с произвольными окончаниями строк. Это значительно затрудняет перенос данных из одних программ в другие, несмотря на всю простоту реализации поддержки CSV (так, например, Microsoft Excel не всегда открывает стандартные разделенные запятыми данные).

В Python работа с CSV-файлами поддерживается стандартным модулем csv, предоставляющем следующие основные объекты и функции:

``csv.reader(csvfile, dialect='excel', **fmtparams)``</br>
Создает и возвращает объект для чтения последовательности из CSV-файла.

Параметры:	
* csvfile – итерируемый объект, возвращающий строку на каждой итерации (например, файловый объект в текстовом режиме доступа);
* dialect – диалект CSV (набор специальных параметров);
* fmtparams – дополнительные настройки (совокупность кавычек, разделителей и т.д.).

In [10]:
import csv
 
csv_path = "data.csv"
with open(csv_path, "r") as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

['x', ' y']
['1', ' 3']
['5', ' 1']
['6', ' 3']
['7', ' 2']


``csv.writer(csvfile, dialect='excel', **fmtparams)``</br>
Создает и возвращает объект для записи последовательности в CSV-файл.

Параметры:	
* csvfile – любой объект, поддерживающий метод записи write();
* dialect – аналогично csv.reader();
* fmtparams – аналогично csv.reader().

In [11]:
import csv

data = ["first_name,last_name,city".split(","),
        "Tyrese,Hirthe,Strackeport".split(","),
        "Jules,Dicki,Lake Nickolasville".split(","),
        "Dedric,Medhurst,Stiedemannberg".split(",")
        ]

path = "output.csv"
with open(path, "w", newline='') as csv_file:
    writer = csv.writer(csv_file, delimiter=',')
    for line in data:
        writer.writerow(line)

## JSON

JSON (англ. JavaScript Object Notation, 1999 г.) - текстовый формат обмена данными,основанный на JavaScript. Одно из преимуществ - JSON легко читается людьми (англ. human-readable)

Пример JSON-файла:
```json
{
	"ФИО": "Иванов Сергей Михайлович",
	"ЕГЭ": {
		"Математика": 90,
		"Физика": 70,
		"Информатика": 80
	},
	"Хобби": ["Рисование", "Плавание"],
	"Возраст": 25.5,
	"ДомЖивотные": null
}
```

JSON-текст представляет собой одну из двух структур:
* набор пар "ключ: значение" (словарь в терминологии Python), где ключ - строка, значение - любой тип;
* упорядоченный набор значений (список в терминологии Python).

Значением может являться:
* строка (в кавычках);
* число;
* логическое значение (true/false);
* null;
* одна из структур.

Одним из преимуществ JSON является близкое соответствие Python по типам данных. Работа с JSON-форматом поддерживается стандартным пакетом json, предоставляющем следующие основные функции:

``json.dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw)``</br>

Сериализует объект obj, возвращая строку в JSON-формате.

Параметры:	
* obj – сериализуемый объект;
* ensure_ascii – если равен False, запись не-ASCII значений происходит в файл «как есть», без преобразования в Unicode;
* indent – величина отступа для вложенных структур.

``json.loads(s, encoding=None, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)``

Десериализует объект (в том числе файловый) s, возвращая структуру в Python.

Работа с JSON-форматом в Python:

In [12]:
import json

filename = "data.json"

info = {
    "ФИО": "Иванов Сергей Михайлович",
    "ЕГЭ": {
        "Математика": 90,
        "Физика": 70,
        "Информатика": 80
    },
    "Хобби": ["Рисование", "Плавание"],
    "Возраст": 25.5,
    "ДомЖивотные": None
}

with open(filename, "w", encoding="utf-8") as fh:
    fh.write(json.dumps(info, ensure_ascii=False) )

In [14]:
info_2 = []
with open(filename, encoding="utf-8") as fh:
    info_2 = json.loads(fh.read())

print(info_2['ЕГЭ'])

{'Математика': 90, 'Физика': 70, 'Информатика': 80}


## Работа с файловой системой

Прежде чем попытаться прочитать какой-то файл, нужно узнать есть ли он на диске. А перед записью убедиться, что пишем в нужный нам каталог.

Стандартный модуль os имеет интерфейс работы с файловой системой.

Текущий каталог - каталог, в котором программа будет открывать файлы, если в названии файла не указан абсолютный путь к нему. Обычно каталог, в котором прграмму запустили.

Функция os.getcwd возвращает текущий каталог:

In [3]:
import os

cwd = os.getcwd()
print(cwd)

c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции


Проверить наличие файла в текущем каталоге:

In [4]:
os.path.exists('my_file')

False

In [8]:
os.path.exists('data.txt')

True

Вывести список файлов и подкаталогов для данного каталога:

In [15]:
path = os.getcwd()
os.listdir(path)

['data.csv',
 'data.json',
 'data.txt',
 'data2.txt',
 'human.txt',
 'lection4.ipynb',
 'output.csv',
 'sample-3s.wav',
 'test.txt']

Следующий пример рекурсивно выводит список всех файлов и подкаталогов для текущего каталога:

In [11]:
import os

def walk(dir):
  for name in os.listdir(dir):
    path = os.path.join(dir, name)
    if os.path.isfile(path):
        print(path)
    else:
        walk(path)

walk(os.getcwd())

c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\data.csv
c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\data.json
c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\data.txt
c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\data2.txt
c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\human.txt
c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\lection3.ipynb
c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\lection4.ipynb
c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\output.csv
c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\test.txt
c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\Лекция №1.pptx
c:\Users\thebandik\OneDrive\Работа\Колледж\Основы АП - 1\Лекции\Лекция №2.pptx


## Чтение двоичного файла

Попробуем на практике прочитать заголовок файла формата .wav.

Итак, рассмотрим самый обычный WAV файл (Windows PCM). Он представляет собой две, четко делящиеся, области. Одна из них – заголовок файла, другая – область данных. 

В заголовке файла хранится информация о:
* Размере файла.
* Количестве каналов.
* Частоте дискретизации.
* Количестве бит в сэмпле (эту величину еще называют глубиной звучания).

Структура заголовка:

Местоположение   | Поле          | Описание
-----------------|---------------|---------
0..3 (4 байта)   | chunkId       | Содержит символы “RIFF” в ASCII кодировке
4..7 (4 байта)   | chunkSize     | Размер файла -8 (т.е. минус два поля, которые уже считаны)
8..11 (4 байта)  | format        | Содержит символы “WAVE”
12..15 (4 байта) | subchunk1Id   | Содержит символы “fmt “ (0x666d7420 в big-endian представлении)
16..19 (4 байта) | subchunk1Size | 16 для формата PCM. Это оставшийся размер подцепочки, начиная с этой позиции.
20..21 (2 байта) | audioFormat   | Аудио формат, для PCM = 1 (то есть, Линейное квантование). Значения, отличающиеся от 1, обозначают некоторый формат сжатия.
22..23 (2 байта) | numChannels   | Количество каналов. Моно = 1, Стерео = 2 и т.д.
24..27 (4 байта) | sampleRate    | Частота дискретизации. 8000 Гц, 44100 Гц и т.д.
28..31 (4 байта) | byteRate      | Количество байт, передаваемых за секунду воспроизведения.
32..33 (2 байта) | blockAlign    | Количество байт для одного сэмпла, включая все каналы.
34..35 (2 байта) | bitsPerSample | Количество бит в сэмпле. Так называемая “глубина” или точность звучания. 8 бит, 16 бит и т.д.
36..39 (4 байта) | subchunk2Id   | Содержит символы “data” (0x64617461 в big-endian представлении)
40..43 (4 байта) | subchunk2Size | Количество байт в области данных.

Дальше идут собственно данные.

Пример программы чтения заголовка файла WAV.


In [3]:
from struct import unpack
import os

name = "sample-3s.wav"

if os.path.isfile(name) and os.path.getsize(name) > 43:
  with open(name, "rb") as wav_file:
    header = wav_file.read(44)
    (
      riff,
      file_size,
      wave,
      fmt,
      chunk_size,
      audio_format,
      channels,
      sample_rate,
      byte_rate,
      block_align,
      bps,
      data,
      data_size
      ) = unpack('4sI4s4sIHHIIHH4sI', header)

    if riff == b'RIFF' and wave == b'WAVE' and fmt == b'fmt ':
      print('Размер файла: ', (file_size+8))
      print('Аудиоформат: ', 'PCM' if audio_format == 1 else 'сжатый')
      print('Количество каналов: ', channels)
      print(f'Частота дискретизации: {sample_rate}Гц')
      print(f'Битрейт: {byte_rate} байт/сек')
      print(f'Размер блока: {block_align} байт')
      print(f'Глубина заучания (BPS): {bps} бит')
      print(f'Размер блока данных: {data_size} байт')
    else:
      print('файл не содержит заголовка WAV')  
else:
  print('файла нет или он недостаточной длины для WAV')

Размер файла:  563756
Аудиоформат:  PCM
Количество каналов:  2
Частота дискретизации: 44100Гц
Битрейт: 176400 байт/сек
Размер блока: 4 байт
Глубина заучания (BPS): 16 бит
Размер блока данных: 563712 байт


In [5]:
from struct import unpack
import os

name = "sample-3s.wav"

with open(name, "rb") as wav_file:
    header = wav_file.read()

print(header)

b'RIFF$\x9a\x08\x00WAVEfmt \x10\x00\x00\x00\x01\x00\x02\x00D\xac\x00\x00\x10\xb1\x02\x00\x04\x00\x10\x00data\x00\x9a\x08\x00r\xf8r\xf8\x04\xfb\x04\xfb\x0f\xff\x0f\xffV\x02V\x02\x1a\x01\x1a\x01\xf2\x00\xf2\x00:\x01:\x01\xd0\x00\xd0\x00\x80\xff\x80\xff6\xfb6\xfb\xbd\xf9\xbd\xf9\x02\xf8\x02\xf8\x11\xf6\x11\xf6,\xf2,\xf2\xd9\xf5\xd9\xf5\x02\xfa\x02\xfa\xf9\xf7\xf9\xf7r\xf9r\xf9+\xf7+\xf7e\xf4e\xf4c\xf9c\xf9\x0e\xfe\x0e\xfe\xf0\xf8\xf0\xf8\xe5\xf5\xe5\xf5\x87\xf4\x87\xf4\x82\xf1\x82\xf1\xb1\xf1\xb1\xf1=\xf1=\xf1\x98\xf1\x98\xf1k\xf2k\xf2\x00\xf5\x00\xf5\xa4\xf8\xa4\xf88\xfa8\xfaF\xf8F\xf8r\xf5r\xf5l\xf0l\xf0\x01\xed\x01\xed\x95\xef\x95\xef9\xf49\xf4\xaa\xfa\xaa\xfaZ\xffZ\xff\xfc\x00\xfc\x00K\xf7K\xf7\x9f\xed\x9f\xed:\xed:\xed\x8d\xeb\x8d\xeb3\xea3\xea\x87\xe8\x87\xe8\xe6\xe9\xe6\xe9\x98\xec\x98\xecD\xeeD\xee\xf7\xec\xf7\xec\xe0\xe6\xe0\xe6Y\xe0Y\xe0\x81\xde\x81\xdex\xe3x\xe3\x03\xe8\x03\xe8x\xebx\xeb\x9d\xed\x9d\xed\x1e\xef\x1e\xefj\xefj\xef\x9b\xf0\x9b\xf0\xe4\xf3\xe4\xf3\xff\xf0\xff\xf0\n