# Работа с файлами

## Работа с ФС

### Пакет os, os.path

Python 3 поставляется с модулем <b>os</b>, что означает «операционная система». Модуль os содержит множество функций для получения информации о локальных каталогах, файлах, процессах и переменных окружения (а в некоторых случаях, и для манипулирования ими). Python предлагает очень хороший унифицированный программный интерфейс для всех поддерживаемых операционных систем, так что ваши программы можно запускать на любом компьютере с минимальным количеством платформо-зависимого кода.

In [1]:
import os

<b>os.path</b> представляет собой модуль, который предоставляет большой набор полезных методов для работы с файлами и каталогами

1) <b>os.path.abspath(path)</b> - возвращает нормализованный абсолютный путь

In [2]:
os.path.abspath('.')

'/home/tylorn/Git/python_data_science/03_FilesStrings'

2) <b>os.path.exists(path)</b> - возвращает True, если существующет указанный путь. Возвращает значение False для сломанных символьных ссылок

In [5]:
os.path.exists('./hw')

True

3) <b>os.path.isfile(path)</b> - возвращает True, если файл существует по указанному пути

In [6]:
os.path.isfile('./hw')

False

4) <b>os.path.isdir(path)</b> - возвращает True, если существует каталог по указанному пути

In [7]:
os.path.isdir('./hw')

True

5) <b>os.path.join(path1 [, path2 [, ...]])</b> - присоединяется один или несколько компонентов пути, при необходимости добавляется символ '/'

In [8]:
os.path.join('.', 'hw')

'./hw'

С полным списоком функций моделя os.path можно ознкомиться по следующей ссылке https://docs.python.org/3.6/library/os.path.html

### Просмотр файлов на ФС

1) <b>os.listdir(path)</b> - вывод содержимого указанного каталога

In [9]:
os.listdir('.')

['.ipynb_checkpoints',
 '01_Prints.ipynb',
 '03_Files.ipynb',
 '04_Combo.ipynb',
 '02_Strings.ipynb',
 'hw']

2) Выберем из содержимого текущего каталога только файлы с расширением ipynb и txt

In [10]:
[file for file in os.listdir('.') if file.endswith(('.ipynb','.txt'))]

['01_Prints.ipynb', '03_Files.ipynb', '04_Combo.ipynb', '02_Strings.ipynb']

3) Тоже самое можно сделать через функцию <b>filter()</b>, которая возвращает объект-генератор

In [11]:
files = filter(lambda x: x.endswith(('.ipynb','.txt')), os.listdir('.'))
print(files)

<filter object at 0x7f34b0549d68>


In [12]:
for file in files:
    print(file)

01_Prints.ipynb
03_Files.ipynb
04_Combo.ipynb
02_Strings.ipynb


4) <b>os.walk()</b> - возвращает объект-генератор. Из полученного объекта можно получить кортежи для каждого каталога в переданной walk файловой иерархии. Каждый кортеж состоит из трех элементов: 

<pre>1. Абсолютный адрес очередного каталога (строка),
2. Имена (без адреса) подкаталогов первого уровня для текущего каталога (список),
3. Имена (без адреса) файлов данного каталога.</pre>

Посмотрим, как это работает. Допустим, у нас есть такое дерево каталогов

In [13]:
tree = os.walk('.') 

На что же ссылается tree? Попробуем просто получить данные, связанные с данной переменной. 

In [14]:
print(tree)

<generator object walk at 0x7f34b0524b48>


Итак, есть объект-генератор. Поскольку полученный объект генерирует кортежи, количество которых равно количеству каталогов в дереве, то можно их получить с помощью цикла for и, например, вывести на экран 

In [15]:
for d in tree: 
    print(d)

('.', ['.ipynb_checkpoints', 'hw'], ['01_Prints.ipynb', '03_Files.ipynb', '04_Combo.ipynb', '02_Strings.ipynb'])
('./.ipynb_checkpoints', [], ['Combo-checkpoint.ipynb', 'Prints-checkpoint.ipynb', '01_Prints-checkpoint.ipynb', '02_Strings-checkpoint.ipynb'])
('./hw', ['.ipynb_checkpoints'], ['FilesHw.ipynb', 'FilesHwSolution.ipynb'])
('./hw/.ipynb_checkpoints', [], ['FilesHwSolution-checkpoint.ipynb', 'FilesHw-checkpoint.ipynb'])


Итак, налицо два кортежа (два каталога). Каждый кортеж включает три элемента. Первый – это адрес каталога, второй – список поддиректорий не глубже первого уровня, третий – список имен файлов. Если вложенных каталогов или файлов нет, то соответствующий им список будет пуст. 

### Создание и удаление файлов и папок

1) <b>os.remove()</b> - удаляет файл

In [16]:
! touch delete.txt # создадим пустой файл delete.txt
print(os.listdir('.'))

['.ipynb_checkpoints', '01_Prints.ipynb', 'delete.txt', '03_Files.ipynb', '04_Combo.ipynb', '02_Strings.ipynb', 'hw']


In [17]:
os.remove('delete.txt') # удалим файл delete.txt
print(os.listdir('.'))

['.ipynb_checkpoints', '01_Prints.ipynb', '03_Files.ipynb', '04_Combo.ipynb', '02_Strings.ipynb', 'hw']


2) <b>os.rmdir()</b> - удаляет пустую директорию

In [18]:
! mkdir delete # создадим пустой каталог delete
print(os.listdir('.'))

['.ipynb_checkpoints', '01_Prints.ipynb', '03_Files.ipynb', 'delete', '04_Combo.ipynb', '02_Strings.ipynb', 'hw']


In [19]:
os.rmdir('delete')
print(os.listdir('.'))

['.ipynb_checkpoints', '01_Prints.ipynb', '03_Files.ipynb', '04_Combo.ipynb', '02_Strings.ipynb', 'hw']


3) <b>shutil.rmtree()</b> - удаляет директорию вместе со вмем содержимым

In [20]:
import shutil
os.mkdir('delete') # создадим пустой каталог delete с файлом delete.txt внутри него
! touch delete/delete.txt
print(os.listdir('.'))

['.ipynb_checkpoints', '01_Prints.ipynb', '03_Files.ipynb', 'delete', '04_Combo.ipynb', '02_Strings.ipynb', 'hw']


In [21]:
shutil.rmtree('delete') # удалим каталог delete со всем содержимым
print(os.listdir('.'))

['.ipynb_checkpoints', '01_Prints.ipynb', '03_Files.ipynb', '04_Combo.ipynb', '02_Strings.ipynb', 'hw']


## Файлы и файловые дескрипторы

### Открытие файла и файловый дескриптор: open

<b>open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)</b>

<b>file</b> - путь к файлу, может быть относительным или абсолютным


<b>mode='r'</b> - режим открытия файлов (см. 2.3)

<b>buffering=-1</b> -  Челое число. Если значение аргумента указано 0 - файл открывается без буферизации, 1 с построчной буферизацией, больше одного процесс буферизации выполняется с указанным размером буфера. Отрицательное число - разер буфера будет равен системному

<b>encoding=None</b> - кодировка, которая была использована для кодирования или декодирования файла. Используется только в текстовом режиме

<b>errors=None</b> - опциональная строка, которая задает метод обработки ошибок в кодировке. Нельзя использовать в бинарном режиме.

<pre><b>'strict'</b> или <b>None</b> - вызывается ошибка ValueError, если присутствуют ошибки кодировки<br>
<b>'ignore'</b> - игнорирование ошибок кодировки (может вести к потере данных)

Полный список методов обработки ошибок в официальной документации
https://docs.python.org/3/library/codecs.html#error-handlers</pre>

<b>newline=None</b> - строка, определяющая режим работы универсальных переводов строк. Следует использовать только для текстовых файлов. <b>Варианты: None, пустая строка, \n, \r, и \r\n.</b>

<b>closefd=True</b> - флаг необходимости закрытия файлового дескриптора. Используется только, если в file указан дескриптор, иначе вызывается ошибка. Если False, то дескриптор будет оставлен открытым даже после закрытия файла

<b>opener=None</b> - пользовательский объект, поддерживающий вызов, который следует использовать для открытия файла. Этот объект получая на входе file и flags, должен возвращать открытый дескриптор файла (возврат os.open и None при этом функционально идентичны)

In [22]:
! touch input.txt

In [23]:
f = open('input.txt')

### Некоторые атрибуты файлового объекта в Python.
Как только файл был открыт и у вас появился файловый объект, вы можете получить следующую информацию о нем:

<b>file.closed</b>	- возвращает True если файл был закрыт<br>
<b>file.mode</b> - возвращает режим доступа, с которым был открыт файл<br>
<b>file.name</b> - возвращает имя файла

In [24]:
print("Имя файла: ", f.name)
print("Файл закрыт: ", f.closed)
print("В каком режиме файл открыт: ", f.mode)

Имя файла:  input.txt
Файл закрыт:  False
В каком режиме файл открыт:  r


### Закрытие файла в Python. Метод close().
Метод файлового объекта <b>close()</b> автоматически закрывает файл, при этом теряется любая несохраненная информация.<br> Работать с файлом (читать, записывать) после этого нельзя.<br>
Python автоматически закрывает файл если файловый объект к которому он привязан присваивается другому файлу. Однако, хорошей практикой будет вручную закрывать файл командой <b>close()</b>.

In [25]:
print("Файл закрыт: ", f.closed)
f.close()
print("А теперь закрыт: ", f.closed)

Файл закрыт:  False
А теперь закрыт:  True


### Простая операция записи в файл write

Метод <b>write()</b> записывает любую строку в открытый файл.

Важно помнить, что строки в Python могут содержать двоичные данные, а не только текст.<br>
Метод <b>write()</b> не добавляет символ переноса строки ('\n') в конец файла.<br>
Когда файл открывается с режимом <b>'w'</b>, он не обязательно должен уже существовать

In [26]:
f = open('input.txt', 'w')
f.write("Мне нравится Python!\nЭто классный язык!")
f.close()

### Простая операции чтения read

Метод <b>read()</b> читает строку из открытого файла.

Необязательный параметр <b>size</b> - это количество символов, которые следует прочитать из открытого файла. Этот метод читает информацию с начала файла и, если параметр count не указан, до конца файла

In [27]:
f = open('input.txt', 'r')
print(f.read(31))
f.close()

Мне нравится Python!
Это классн


### Режимы открытия файлов r, rb, w, wb, a etc

<b>'r'</b> - открытие на чтение (является значением по умолчанию). Указатель стоит в начале файла<br>
<b>'w'</b> - открытие на запись, содержимое файла удаляется, если файла не существует, создается новый. Указатель стоит в начале файла<br>
<b>'x'</b> - открытие на запись, если файла не существует, иначе исключение<br>
<b>'a'</b> - открытие на дозапись, информация добавляется в конец файла. Указатель стоит в конце файла. Создает файл с именем имя_файла, если такового не существует<br>
<b>'b'</b> - открытие в двоичном режиме<br>
<b>'t'</b> - открытие в текстовом режиме (является значением по умолчанию)<br>
<b>'+'</b> - открытие на чтение и запись<br>

<b>Совместное использование</b>

<b>'rb'</b> - открывает файл для чтения в двоичном формате. Указатель стоит в начале файла<br>
<b>'r+'</b> - открывает файл для чтения и записи. Указатель стоит в начале файла<br>
<b>'rb+'</b> - открывает файл для чтения и записи в двоичном формате. Указатель стоит в начале файла

<b>'wb'</b> - открывает файл для записи в двоичном формате. Указатель стоит в начале файла. Создает файл с именем имя_файла, если такового не существует<br>
<b>'w+'</b> - открывает файл для чтения и записи. Указатель стоит в начале файла. Создает файл с именем имя_файла, если такового не существует<br>
<b>'wb+'</b> - открывает файл для чтения и записи в двоичном формате. Указатель стоит в начале файла. Создает файл с именем имя_файла, если такового не существует

<b>ab</b> - открывает файл для добавления в двоичном формате. Указатель стоит в конце файла. Создает файл с именем имя_файла, если такового не существует<br>
<b>a+</b> - открывает файл для добавления и чтения. Указатель стоит в конце файла. Создает файл с именем имя_файла, если такового не существует<br>
<b>ab+</b> - открывает файл для добавления и чтения в двоичном формате. Указатель стоит в конце файла. Создает файл с именем имя_файла, если такового не существует

## Чтение данных из файла

### Чтение данных ‘as is’: read, readlines и чтение части файла

<b>1) f.readline(size=-1, /)</b> - считывает строку, пока не дойдет до конца файла (EOF)

Необязательный параметр <b>size</b> - это количество символов, которые следует прочитать из следующей строки

In [28]:
f = open('input.txt', 'r')
print(f.readline())
f.close()

Мне нравится Python!



In [29]:
f = open('input.txt', 'r')
for i in range(2):
    print(f.readline())
f.close()

Мне нравится Python!

Это классный язык!


<b>2) f.readlines(hint=-1, /)</b> - возвращает список, элементами которого являются строки

<b>hint</b> - опциональный параметр, задает количество строк к записи в список. Следующая строка не будет прочитана, если суммарный объем (байт / количество символов) больше чем параметр b<>hint</b>

In [30]:
f = open('input.txt', 'r')
print(f.readlines())
f.close()

['Мне нравится Python!\n', 'Это классный язык!']


In [31]:
f = open('input.txt', 'r')
print(f.readlines(20)) # 20 символов в первой строке. Вторая поэтому не будет записана в список
f.close()

['Мне нравится Python!\n']


In [32]:
os.remove('input.txt')

### Пакет io

In [33]:
import io

Модуль <b>io</b> позволяет оперировать потоками. Функция open() принадлежит этому модулю.<br>
Рассмотрим классы этого модуля.

1) Самым главным классом иерархии I/O является абстрактный базовый класс <b>IOBase</b>. Он определяет базовый интерфейс с потоком. Несмотря на то, что между чтением потока и записью в него нет никакого разделения, функции могут вызвать ошибку OSError, если они не поддерживают данную операцию

2) Наследуется от класса IOBase класс <b>RawIOBase</b>, который читает из потока и пишет в поток "сырые байты" (raw bytes). Наследуется, чтобы обеспечить интерфейсом с файлами на операционной системе

3) <b>BufferedIOBase</b> - данный класс позволяет работать с последовательностью байтов как с файловым объектом. Нет никакого кодирования и декодирования данных

4) <b>TextIOBase</b>, получает и возвращает объект str. Здесь применяется кодирование и декодирование данных

### 3.3 Бинарные данные 

Откроем тот же самый файл с текстом<br>
<pre>Мне нравится Python!<br>
Это классный язык!</pre>
Но в бинарном режиме

In [34]:
f = open('input.txt', 'rb')
print(f.read())
f.close()

FileNotFoundError: [Errno 2] No such file or directory: 'input.txt'

### Форматированные файлы: csv, tsv

1) <b>CSV</b> (Comma-Separated Values — значения, разделённые запятыми) — текстовый формат, предназначенный для представления табличных данных

<ol> - каждая строка файла — это одна строка таблицы<br>
 - разделителем значений колонок является символ запятой (,)<br>
 - значения, содержащие зарезервированные символы (двойная кавычка, запятая, точка с запятой, новая строка) обрамляются двойными кавычками ("). Если в значении встречаются кавычки — они представляются в файле в виде двух кавычек подряд</ol>

2) <b>TSV</b> (tab separated values — значения, разделённые табуляцией) — текстовый формат для представления таблиц баз данных. Каждая запись в таблице — это строка текстового файла. Каждое поле записи отделяется от других с помощью символа табуляции, точнее горизонтальной табуляции.

## Сериализация объектов

<b>JSON</b> (JavaScript Object Notation) - простой формат обмена данными, основанный на подмножестве синтаксиса JavaScript. Модуль json позволяет кодировать и декодировать данные в удобном формате.

Кодирование основных объектов Python

In [40]:
import json

json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}])

print(json.dumps("\"foo\bar"))
print(json.dumps('\u1234'))
print(json.dumps('\\'))
print(json.dumps({"c": 0, "b": 0, "a": 0}, sort_keys=True))

"\"foo\bar"
"\u1234"
"\\"
{"a": 0, "b": 0, "c": 0}


In [41]:
# Компактное кодирование

json.dumps([1,2,3,{'4': 5, '6': 7}], separators=(',', ':'))

'[1,2,3,{"4":5,"6":7}]'

In [42]:
# Красивый вывод
print(json.dumps({'4': 5, '6': 7}, sort_keys=True, indent=4))

{
    "4": 5,
    "6": 7
}


In [43]:
# Декодирование (парсинг) JSON

json.loads('["foo", {"bar":["baz", null, 1.0, 2]}]')
json.loads('"\\"foo\\bar"')

'"foo\x08ar'

### pickle

Модуль <b>pickle</b> реализует мощный алгоритм сериализации и десериализации объектов Python.

<b>Pickling</b> - процесс преобразования объекта Python в поток байтов<br>
<b>Unpickling</b> - обратная операция, в результате которой поток байтов преобразуется обратно в Python-объект

Так как поток байтов легко можно записать в файл, модуль <b>pickle</b> широко применяется для сохранения и загрузки сложных объектов в Python

С помощью модуля <b>pickle</b>, практически любой тип объекта может быть сохранен на диске в любой момент его жизни, а позже прочитан с диска

In [39]:
import pickle
t1 = [1, 2, 3]
s = pickle.dumps(t1)
t2 = pickle.loads(s)
print(t2)

[1, 2, 3]


Здесь есть небольшой нюанс: t1 и t2 будут двумя разными объектами, хотя и идентичными.

<b>Не загружайте с помощью модуля pickle файлы из ненадёжных источников. Это может привести к необратимым последствиям</b>

Модуль <b>pickle</b> предоставляет следующие функции для удобства сохранения/загрузки объектов:

<b>pickle.dump(obj, file, protocol=None, *, fix_imports=True)</b> - записывает сериализованный объект в файл.

Дополнительный аргумент protocol указывает используемый протокол. По умолчанию равен 3 и именно он рекомендован для использования в Python 3 (несмотря на то, что в Python 3.4 добавили протокол версии 4 с некоторыми оптимизациями). В любом случае, записывать и загружать надо с одним и тем же протоколом.

<b>pickle.dumps(obj, protocol=None, *, fix_imports=True)</b> - возвращает сериализованный объект. Впоследствии вы его можете использовать как угодно.

<b>pickle.load(file, *, fix_imports=True, encoding="ASCII", errors="strict")</b> - загружает объект из файла.

<b>pickle.loads(bytes_object, *, fix_imports=True, encoding="ASCII", errors="strict")</b> - загружает объект из потока байт.

Модуль <b>pickle</b> также определяет несколько исключений:

<b>pickle.PicklingError</b> - случились проблемы с сериализацией объекта.<br>
<b>pickle.UnpicklingError</b> - случились проблемы с десериализацией объекта.<br>

Этих функций вполне достаточно для сохранения и загрузки встроенных типов данных.

In [41]:
data = {
    'a': [1, 2.0, 3, 4+6j],
    'b': ("character string", b"byte string"),
    'c': {None, True, False}
}

with open('data.pickle', 'wb') as f:
    pickle.dump(data, f)

with open('data.pickle', 'rb') as f:
    data_new = pickle.load(f)

print(data_new)

{'a': [1, 2.0, 3, (4+6j)], 'b': ('character string', b'byte string'), 'c': {False, True, None}}
