# 6. Робота з файлами. Серіалізація

## 6.1 Файли

Файл — інформаційний об'єкт, що містить дані або програми і розміщується на поіменованій ділянці носія даних, сутність, елемент (одиниця носія інформації; англ. media unit), що дозволяє отримати доступ до певного ресурсу обчислювальної системи і має такі ознаки:

- фіксована назва (назва файлу — послідовність символів, число чи щось інше, що однозначно характеризує файл);

- певну логічну будову (структуру) і відповідні йому операції читання/запису.


#### Відкриття файлу в Python

Для відкриття файлу використовується функція `open`, що приймає першим  аргументом назву файла (або комбінація шляху та назви файла), другим - *режим* роботи.

За замовчування режим роботи `r`, тобто файл відкривається на режим читання.

Якщо файл потрібно відкрити для запису (чи створення) - використовується режим `w`.

Для запису в кінець використовуємо `a`.

| Режим 	| Значення                                                                          	|
|-------	|-----------------------------------------------------------------------------------	|
| 'r'   	| відкриваємо на читання (за замовчуванням)                                         	|
| 'w'   	| відкриваємо на запис                                                              	|
| 'a'   	| відкриваємо на дозапис в кінець файлу                                             	|
| 'b'   	| бінарний режим                                                                    	|
| 't'   	| текстовий режим (за замовчуванням)                                                	|
| '+'   	| відриваємо на запис та читання                                                    	|
| 'x'   	| ексклюзивне створення. Якщо файл з таким іменем існує - виникає  *FileExistsError* 	|

In [1]:
f = open('file.txt', 'w')
f.write("Hello, world!")
f.close()

Команда `open` має декілька необов'язкових параметрів. Давайте розберемо їх:

- **buffering**: політика буферизації 
    - -1 - еврестична буферизація (за замовчуванням)
    - 0 - відключити буферизацію 
    - 1 - рядкова буферизація 
    - більше 1 - розмір в байтах буферизації.


- **encoding** - для позначення типу кодування файла.


- **errors** - режим, в якому будуть оброблятися помилки кодування/декодування.


- **newline** - режим роботи універсальних переходів рядка.


- **closefd** - позначка необхідності закрити файловий дескриптор.

#### Робота з файлами

Функація `open` повертає вам об'єкт-файл, відповідно у якого є свої методи для читання та запису інформації. Розглянемо їх:

| Операція          	| Інтерпретація                                 	|
|-------------------	|-----------------------------------------------	|
| file.read()       	| читання файла повністю в одну стрічку         	|
| file.read(N)      	| читання N символів чи байтів в стрічку        	|
| file.readline()   	| читання наступного рядка файлу встрічку       	|
| file.readlines()  	| читання файла повністю в список стрічок       	|
| file.write()      	| запис стрічки у файл                          	|
| file.writelines() 	| запис всіх стрічок з спписку в файл           	|
| file.close()      	| закриття файлу                                	|
| file.flush()      	| виштовхування буферу на диск, файл відкритий  	|
| file.seek(N)      	| зміна позиції в файлі для наступної операції  	|

Декілька зауважень до роботи із файлами:

    1. Для читання стрічок найраще використовувати ітератори файлів

In [2]:
f = open('file.txt', 'r')
for row in f:
    print(row)

f.close()

Hello, world!


    2. Виклик методу `close` є необов'язковим 
    
Метод close руйнує зв'язок із зовнішнім файлом. 
Але знаємо, що інтерпретатор також руйнує зв'язок, коли в програмі не буде ссилок на даний об'єкт. Тому в невеличких програмах можна обійтися без цього методу.

А краще користуватися *контекстними менеджерами*.

#### Контекстний менеджер

Управляючий контекстом (він же менеджер) слідкує за ініціалізацію та фіналізацію даного контексту, тобто визначає дії, які існують до та після виконання блоку коду.

Зазвичай використовується з інструкцією `with`. 

Насправді, контекстний менеджер реалізує у собі два методи:
    1. __enter()__
    2. __exit()__

In [3]:
with open('file.txt') as f:   #контекстний менеджер сам закриє файл
    for row in f:
        print(row)        
   

Hello, world!


## 6.2 Серіалізація

Серіалізація — процес перетворення будь-якої структури даних у послідовність бітів. Зворотною до операції серіалізації є операція десеріалізації — відновлення початкового стану структури даних із бітової послідовності.

Серіалізація використовується для передавання об'єктів мережею й для збереження їх у файлах. Наприклад, потрібно створити розподілений застосунок, різні частини якого мають обмінюватися даними зі складною структурою.

#### Pickle

Модуль picle реалізує фундаментальний, але потужний алгоритм серіалізації та десеріалізації структури об’єкта Python. "Pickling" - це процес, за допомогою якого ієрархія об'єктів Python перетворюється в байт-потік, а "unpickling" - обернена операція, завдяки якій потік байтів перетворюється назад в ієрархію об'єктів. Pickling альтернативно відомий як "серіалізація".

Спробуємо деяку структуру даних сереалізувати за допомогою даної бібліотеки:

In [4]:
#вигружаємо структуру в файл
import pickle 

new_dict = {"a" : 20,
            "b" : 30,
            "c" : [10,20]}


with open('db.pickle', 'wb') as f:     #pickle працює в бінарному режимі 
    pickle.dump(new_dict, f)           #dump - записує структуру у файл

In [5]:
#загружаємо структуру з файлу

with open('db.pickle', 'rb') as f:
    second_dict = pickle.load(f)       #load - загружає структуру із файлу
    
second_dict

{'a': 20, 'b': 30, 'c': [10, 20]}

#### JSON

Формат даних що використовується модулем pickle специфічний для Python. Не робиться ніяких спроб зробити його сумісним з іншими мовами. Якщо міжмовна сумісність є однією з ваших вимог, вам потрібно розглянути інші формати серіалізації. Одним з таких форматів є JSON. "JSON" означає "JavaScript Object Notation", тобто "запис об'єктів в мові JavaScript", але не дайте цій назві себе обдурити - JSON спеціально створений для того щоб могти використовуватись в різних мовах програмування.

Python3 містить в своїй стандартній бібліотеці модуль json. Як і модуль pickle, модуль json містить функції для серіалізації структур даних, збереження серіалізованих даних на диску, завантаження серіалізованих даних з диску і десеріалізації даних назад в новий об'єкт мови Python. Але також і є деякі важливі відмінності. 

    1. Формат даних JSON текстовий а не двійковий.

    2. Всі значення в JSON чутливі до регістру.

    3. JSON дозволяє вставляти між значеннями довільну кількість прогалин (пропусків, табуляцій, переходів на новий рядок). 

    4. JSON повинен зберігатись в кодуванні Unicode (UTF-32, UTF-16, чи за замовчуванням, UTF-8)
    
    5. Багато типів не вдастся прямо сереалізувати за допомогою json (наприклад, кортежі, байтові об'єкти чи байтові масиви)

Спробуємо деяку структуру даних сереалізувати за допомогою json:

In [6]:
#вигружаємо структуру в файл
import json 

new_dict = {"a" : 20,
            "b" : 30,
            "c" : [10,20]}


with open('db.json', 'w') as f:     
    json.dump(new_dict, f)           #dump - записує структуру у файл

In [7]:
#загружаємо структуру з файлу

with open('db.json', 'r') as f:
    second_dict = json.load(f)       #load - загружає структуру із файлу
    
second_dict

{'a': 20, 'b': 30, 'c': [10, 20]}

На відміну від JSON, pickle - це протокол, який дозволяє серіалізувати довільно складні об'єкти Python. Таким чином, він специфічний для Python і не може використовуватися для спілкування з додатками, написаними іншими мовами. 

>Це також небезпечно за замовчуванням: десеріалізація pickle даних, що надходять з ненадійного джерела, може виконувати довільний код, якщо дані були створені кваліфікованим зловмисником.