## Тема 3:  Сховища даних у Python

#### Перед початком роботи з кодом видаліть файли в теці data — вони будуть створюватися при виконанні коду під час вивчення матеріалу.

#### Клонуйте код до себе у репозиторій, модифікуйте код та експериментуйте — це дасть краще розуміння.


Для створення фейкових даних у достатній кількості будемо використовувати модуль Faker. [documentation](https://faker.readthedocs.io/en/master/)

Модуль зручний для генерації різних фейкових персональних даних, у тому числі з урахуванням національних особливостей
ВАЖЛИВО! При використанні національних налаштувань ([localixed providers - documentation](https://faker.readthedocs.io/en/master/locales.html)) перевіряйте формат того, що отримуєте (наприклад, порядок дотримання імен та прізвищ, порядок вказівки різних частин адреси у повній адресі тощо).

Приклад отримання необхідних для нашої роботи сьогодні даних — наведено нижче.

![fake data](./media/fake_data.png)

In [None]:
from faker import Faker

fake = Faker("uk_UA")    # можна використовувати кілька локальних налаштувань одночасно, передавши список
for _ in range(5):
    print(
        f"name:      {fake.name():<22}, phone: {fake.phone_number():<20}, e-mail: {fake.ascii_email()}, "
        f"\naddress:   {fake.address()}"
    )


Не будемо глибоко вдаватись в роботу з модулем Faker — достатньо коду, що наведено вище. Ми не будемо використовувати складніші методи та класи протягом цього заняття. Якщо вас зацікавить робота з пакетом Faker — посилання на документацію наведені вище.

## CSV

## Що таке файл csv?

Це текстовий файл, який містить якусь інформацію.

Кожен рядок – це окремий рядок таблиці, а стовпці відокремлені один від одного спеціальними символами – роздільниками (наприклад, комою). Власне CSV — Comma Separated Value — "значення, розділені комами". Але, це можуть бути не тільки коми, а певні символи, які визначені як роздільники (пробіл, крапка з комою, табуляція, інше).

CSV є одним із найпоширеніших форматів імпорту та експорту електронних таблиць та баз даних. CSV використовувався протягом багатьох років до того, як був стандартизований [RFC 4180](https://www.rfc-editor.org/rfc/rfc4180.html). Запізнення чітко визначеного стандарту означає, що в даних, створюваних різними додатками, часто існують незначні відмінності. Ці відмінності можуть викликати роздратування при обробці CSV-файлів з декількох джерел. Тим не менш, хоча роздільники, символи лапок та деякі інші властивості відрізняються, загальний формат є досить універсальним.


Приклад файлу CSV-формату:

![приклад файла CSV](./media/CSV_example.png)

У python існує вбудований модуль — csv, який надає повний спектр можливостей для роботи з файлами цього формату. Він дозволяє як читати такі файли, так й створювати їх різними методами. Докладна документація про модуль знаходиться [тут](https://docs.python.org/3/library/csv.html).

Створимо CSV-файл за допомогою методу csv.DictWriter. Приклад коду наведено нижче:

In [20]:
import csv

with open('data/person.csv', 'w', newline='', encoding="utf-8") as csvfile:
    fieldnames = ['name', 'phone', 'e-mail', 'address']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames, quoting=csv.QUOTE_ALL)
    writer.writeheader()
    for _ in range(100):
        writer.writerow({'name': fake.name(), 'phone': fake.phone_number(), 'e-mail': fake.ascii_email(), 'address': fake.address()})

В першому рядку ми імпортуємо модуль, в рядку 3 — використовуємо оператор контексту та відкриваємо текстовий файл (у теці data, файл person.csv. Файл може не існувати — тоді його буде створено. Якщо файл існує — він буде перезаписаний). Ми будемо використовувати файловий об'єкт з іменем csvfile (ім'я може буде будь-яким), який створено в цьому рядку.

В рядку 4 створюємо список fieldnames, який складається з назв стовпців таблиці, яку будемо зберігати у csv-файлі.

Рядок 5 — створюємо екземпляр csv.DictWriter() з конкретними параметрами (пов'язаний з файлом, з нашими назвами колонок та іншими параметрами).

Рядок 6 — записуємо в файл перший рядок — це назви колонок.

Рядок 7, 8 — створюємо в циклі 100 рядків з фейковими даними і записуємо їх в файл, використовуючи метод writerow створеного у п'ятому рядку екземпляра csv.DictWriter().

Після виконання цього блоку коду — подивіться на створений у директорії data файл.

Створювати csv-файли за допомогою вбудованого модуля csv можна не одним шляхом. Існує метод csv.writer(), який створює об'єкт writer зі своїми методами для запису одного рядка або групи рядків. Ми використали інший шлях — з використанням csv.DictWriter().

Для читання створенного файлу ми будемо використовувати клас csv.DictReader().

class csv.DictReader(f, fieldnames=None, restkey=None, restval=None, dialect='excel', *args, **kwds) — відображає інформацію про стовпці у словник, ключі якого задані у параметрі fieldnames.

fieldnames — це послідовність ключів. Якщо параметр опущено, як ключі використовуються значення з першого рядка файлу. Якщо рядок має більше полів, ніж довжина fieldnames, дані, що залишилися, будуть поміщені в список з ключем зі змінної restkey. Якщо рядок має менше полів, значення, що залишилися, будуть встановлені у значення restval.

Інші аргументи прокидаються далі у екземпляр reader.
У нашому випадку ми не надаємо fieldnames — тому у якості ключів будуть використані значення першого рядка файлу.

Приклад використання:

In [21]:
with open('data/person.csv', 'r', encoding="utf-8") as csvfile:
    persons = csv.DictReader(csvfile)
    persons_list = [person for person in persons]

print(persons_list[30]['name'])
print(persons_list[30]['address'])
#print(persons_list)

Амалія Лазаренко
проспект Наявний 6-й, буд. 96 кв. 76, Чортків, 26662


Так як RFC 4180 з'явився досить пізно існує багато варіантів форматів csv — з різними роздільниками, брати\не брати\брати частково в лапки (подвійні\одинарні). Це обумовило існування, так званих діалектів: конкретно прийнятих форматів.



Щоб полегшити визначення формату вхідних та вихідних записів, окремі параметри форматування згруповані разом у діалекти. Діалект — це підклас класу Dialect, який має набір специфічних методів та один метод .validate(). При створенні об’єктів читання або запису програміст може вказати рядок або підклас класу Dialect в якості параметрів діалекту. На додаток до параметра діалекту або замість нього програміст може також вказати окремі параметри форматування, які мають ті самі назви, що й атрибути, визначені нижче для класу Dialect.

##### Dialect.delimiter¶
Односимвольний рядок, який використовується для розділення полів. За замовчуванням це ",".

##### Dialect.doublequote
Керує тим, як екземпляри quotechar, що з’являються всередині поля, повинні взяти в лапки. Якщо True, символ подвоюється. Якщо False, escapechar використовується як префікс до quotechar. За замовчуванням має значення True.

Під час виведення, якщо Dialect.doublequote має значення False та не встановлено escapechar, виникає повідомлення про помилку, якщо у полі знайдено quotechar.

##### Dialect.escapechar
Односимвольний рядок, який використовується автором для екранування роздільника, якщо лапки встановлено на QUOTE_NONE та quotechar, якщо подвійна лапка має значення False. Під час читання escapechar видаляє будь-яке спеціальне значення наступного символу. За замовчуванням встановлено значення «Немає», що вимикає екранування.

##### Dialect.lineterminator
Рядок, який використовується для завершення рядків, створених автором. За замовчуванням це '\r\n'.

##### Dialect.quotechar
Односимвольний рядок, який використовується для взяття в лапки полів, що містять спеціальні символи, такі як роздільник або quotechar, або які містять символи нового рядка. За замовчуванням це '"'.

##### Dialect.quoting
Контролює, коли цитати мають бути створені автором та розпізнані читачем. Він може приймати будь-які константи QUOTE_* (є визначення в документації) й за замовчуванням QUOTE_MINIMAL.

##### Dialect.skipinitialspace
Якщо значення True, пробіли відразу після роздільника ігноруються. За замовчуванням значення False.

##### Dialect.strict
Коли True, викликати помилку винятку при неправильному введенні CSV. За замовчуванням значення False.

Існує декілька попередньо встановлених діалектів:

* class csv.excel — діалект CSV-файлу, який зазвичай генерується програмою Excel;

* class csv.excel_tab — діалект CSV-файлу, який зазвичай генерується програмою Excel з налаштуванням "розділювач за допомогою TAB";

* class csv.unix_dialect — діалект CSV-файлу, який зазвичай генерується в UNIX-системах ('\n' для нового рядка, залагоджування всіх полів).

## XML

XML (eXtensible Markup Language) — «розширювана мова розмітки». Спеціально створена мова, яка призначена для розмітки даних. Тобто, з'являются якісь спеціальні ознаки — "теги" — за допомогою яких можна розмітити дані, що дає можливість структурувати дані й створити механізми для їх обробки. З одного боку досить складно, але насправді це не так. Подивіться на приклад нижче:

```xml
<?xml version="1.0"?>
<CAT>
  <NAME>Izzy</NAME>
  <BREED>Siamese</BREED>
  <AGE>6</AGE>
  <ALTERED>yes</ALTERED>
  <DECLAWED>no</DECLAWED>
  <LICENSE>Izz138bod</LICENSE>
  <OWNER>Colin Wilcox</OWNER>
</CAT>
```

Перший рядок — `<?xml version="1.0"?>` — це заголовок, що надає інформацію про версію та стандарт протоколу. Далі йде опис кота, дані які розмічені у xml-форматі. І `<NAME>Izzy</NAME>` — це відкриваючий (`<NAME>`) та закриваючий (`</NAME>`) теги й сама інформація — `Izzy`. Дані можуть бути згруповані (ви бачите що деякі теги згруповані між двома іншими тегами - `<CAT> ... </CAT>`). Таким чином, нічого надскладного, якщо розібратися детальніше.

Python має вбудований пакет xml, у якому згруповані інструменти для роботи з XML. На сьогодні у WEB-програмуванні значно частіше використовують формат json, який ми розглянемо нижче. Але ви можете зустріти XML формат у створених раніше застосунках. Тому без ретельного занурення, але ми розглянемо цей формат даних.

На попередньому кроці ми створили набір фейкових даних, який зберегли у csv-форматі. Ці ж дані ми збережемо й у XML-форматі. Приклад коду:

In [22]:
from xml.etree import ElementTree as ET

personal_data = ET.Element('data')  # створили кореневий елемент

for element in persons_list:
    record = ET.SubElement(personal_data, 'record')     # створили новий запис (record) до кореневого елементу
    name = ET.SubElement(record, 'name')                # створили нове поле (name) у записі
    name.text = str(element['name'])                    # додали дані у створене поле
    address = ET.SubElement(record, 'address')          # створили нове поле (address) у записі
    address.text = str(element['address'])              # додали дані у створене поле
    phones = ET.SubElement(record, 'phones')
    phone = ET.SubElement(phones, 'phone')
    phone.text = str(element['phone'])
    emails = ET.SubElement(record, 'emails')
    email = ET.SubElement(emails, 'email')
    email.text = str(element['e-mail'])

tree = ET.ElementTree(personal_data)
tree.write('data/person.xml', encoding='utf-8')

В першому рядку ми імпортували необхідні інструменти. Насправді їх досить багато, докладніше можна ознайомитись [тут](https://docs.python.org/3/library/xml.html).

В третьому рядку ми створюємо "кореневий елемент". Це, умовно кажучи, вершина піраміди наших даних.

Рядок 5 — цикл, у якому ми ітеруємо наш список словників з даними.

Рядки 6-16 — на кожній ітерації ми створюємо вкладену одиницю даних — запис (рядок 6), який буде містити у собі ще вкладені одиниці даних, які ми позначаемо тегами name, address, phones, emails (рядки 7, 9, 11, 14). Передбачаємо, що телефонів та електронних адрес у персони може бути декілька, тому у тегах phones та emails ми створюємо вкладені теги phone та email. В нашому випадку, у нас буде по одному телефону та електронній адресі. Але наша структура даних передбачає, що їх може бути декілька. XML допускає будь-яку глибину вкладеності даних, що дає переваги у структуруванні в порівнянні з CSV-форматом.

У рядках 8, 10, 13, 16 — ми вносимо дані у нашу створену структуру даних.

У рядку 18 — ми створюємо дерево даних, а в рядку 19 — запишемо його до файлу.

Відкрийте створений файл та ознайомтесь з його структурою.

![json picture](./media/json_picture.jpg)

![json_picture](./media/json_sheme.png)

## JSON


__J__ava __S__cript __O__bject __N__otation - (__JSON__) — був створений в рамках мови програмування JavaScript. Але на сьогодні — це вже давно самостійно існуючий [проект з самостійним сайтом, документацією та життям](https://www.json.org/json-en.html).

Фактично він став самостійним стандартом для передачі та зберігання даних у web-застосунках, з шаленою популярністю, яка обумовлена його простотою, гнучкістю та зручністю як для обробки, так й для читання людиною.

Наприклад:
```json
{
    "firstName": "Stepan",
    "lastName": "Bandera",
    "hobbies": ["sport", "music", "politics"],
    "year of birth": 1909,
    "children": [
        {
            "firstName": "Natalia",
            "year of birth": 1941
        },
        {
            "firstName": "Andriy",
            "year of birth": 1946
        },
        {
            "firstName": "Lesya",
            "year of birth": 1947
        }
    ]
}
```

Даний формат дуже схожий на синтаксис python. Але це є повноцінний JSON, який підтримує примітивні типи, такі як рядки та числа, а також вкладені списки та об’єкти.

Python поставляється з вбудованим пакетом json для кодування та декодування даних JSON.


In [23]:
import json

Процес кодування JSON зазвичай називається серіалізацією. Цей термін стосується перетворення даних у ряд байтів (отже, serial), які потрібно зберігати або передавати через мережу. Також можна почути термін "маршалінг". Звичайно, десеріалізація — це взаємо обернений процес декодування даних, збережених або доставлених у стандарті JSON.

#### Серіалізація JSON
Що відбувається після того, як комп’ютер обробить велику кількість інформації? Потрібно створити дамп даних. Відповідно, json бібліотека розкриває метод запису даних .dump() до файлів. Існує також метод .dumps() (вимовляється як «dumps») для запису у рядок Python.

Прості об’єкти Python перекладаються у JSON відповідно до досить інтуїтивного перетворення.

|   Python    |  JSON  |
|:-----------:|:------:|
|    dict     | object |
| list, tuple | array  |
|     str     | string |
| int, float  | number |
|    True     |  true  |
|    False    | false  |
|    None     |  null  |

Простий приклад серіалізації наведено нижче. Ми записуємо до файлу person.json створений раніше список словників із фейковими даними у форматі json:

In [24]:
with open('data/person.json', 'w') as jsonfile:
    json.dump(persons_list, jsonfile)

Зауважте, що метод .dump() приймає два позиційні аргументи: (1) об’єкт даних, який потрібно серіалізувати, та (2) файлоподібний об’єкт, до якого будуть записані байти.

Або, якщо ви були настільки схильні продовжувати використовувати ці серіалізовані дані JSON у своїй програмі, ви можете записати їх у рідний str-об’єкт Python.

In [25]:
json_string = json.dumps(persons_list)

Зверніть увагу, що файлоподібний об’єкт відсутній, оскільки ви насправді не записуєте на диск. Окрім цього, метод .dumps() це так само, як dump().

Пам’ятайте, що JSON призначений для того, щоб його легко читали люди, але читабельного синтаксису недостатньо, якщо все це зіпсовано. Крім того, ви, ймовірно, маєте інший стиль програмування, ніж інші, й вам може бути легше читати код, коли він відформатований на ваш смак.

Перший варіант, який більшість людей хоче змінити, це пробіли. Ви можете використовувати іменований аргумент indent, щоб вказати розмір відступу для вкладених структур.

In [26]:
json_string_indent = json.dumps(persons_list, indent=4)

Іншим варіантом форматування є separators — аргумент ключового слова. Пропоную вам самостійно ознайомитися з його використанням у документації.

#### Десеріалізація JSON

У бібліотеці json ви знайдете методи .load() та .loads() для перетворення даних у кодуванні JSON до об’єктів Python.

Подібно до серіалізації, існує проста таблиця перетворення для десеріалізації. Виглядає вона наступним чином:

|      JSON       | Python |
|:---------------:|:------:|
|     object      |  dict  |
|      array      |  list  |
|     string      |  str   |
|  number(цілий)  |  int   |
| number(дійсний) | float  |
|      true       |  True  |
|      false      | False  |
|      null       |  None  |

Технічно це перетворення не є ідеально зворотнім до таблиці серіалізації. Це означає, що якщо ви закодуєте об’єкт зараз, а потім декодуєте його знову пізніше, ви можете не отримати такий же об’єкт.

Поміркуйте про перетворення tuple (python) -> array (json) -> list (python).

Поекспериментуйте з серіалізацією\десеріалізацією обїектів python set у json та навпаки.


Для серіалізації\десеріалізації складних об'єктів (наприклад, своїх класів даних) необхідно створювати серіалізатор — підклас JSONEncoder, в якому замінюється метод default(). Наприклад, створимо серіалізатор для типу даних complex:


In [27]:
class ComplexEncoder(json.JSONEncoder):
    def default(self, z):
        if isinstance(z, complex):
            return (z.real, z.imag)
        else:
            return super().default(z)

Замість того, щоб піднімати TypeError, можна просто дозволити базовому класу впоратися з цим. Можна використовувати це або безпосередньо у методі dump() через cls параметр або шляхом створення екземпляру кодувальника та виклику його методу encode():

In [28]:
complex_to_json = json.dumps(2 + 5j, cls=ComplexEncoder)
print(complex_to_json)

[2.0, 5.0]


Інший підхід:

In [29]:
encoder = ComplexEncoder()
complex_to_json = encoder.encode(3 + 6j)
print(complex_to_json)

[3.0, 6.0]


#### Декодування користувацьких типів
Хоча дійсна та уявна частини комплексного числа є абсолютно необхідними, насправді їх недостатньо для відтворення об’єкту. Ось що відбувається, коли ви намагаєтесь закодувати комплексне число за допомогою, ComplexEncoder-а потім декодуєте результат:

In [30]:
complex_json = json.dumps(4 + 17j, cls=ComplexEncoder)
decode_complex_json = json.loads(complex_json)
print(decode_complex_json)

[4.0, 17.0]


Усе, що отримаємо назад, — це список, та доведеться передати значення до complex-конструктора, якщо знову потрібен цей складний об’єкт. Бракує метаданих або інформації про тип даних, який ви кодуєте.

Модуль json очікує, що всі типи, що налаштовуватимуться будуть виражені як objects у стандарті JSON. Для різноманітності можна створити файл JSON на цей раз під назвою complex_data.json та додати наступне, що object представляє комплексне число:

```json
{
    "__complex__": true,
    "real": 42,
    "imag": 36
}
```

Бачите розумну частину? Цим "__complex__" ключем є метадані, про які ми щойно говорили. Насправді, не має значення, яке пов’язане значення. Щоб цей маленький хак запрацював, все, що вам потрібно зробити, це переконатися, що ключ існує:

In [31]:
def decode_complex(dct):
    if "__complex__" in dct:
        return complex(dct["real"], dct["imag"])
    return dct

Якщо "__complex__" немає у словнику, можна просто повернути об’єкт та дозволити декодеру за замовчуванням впоратися з ним.

Кожного разу, коли метод load() намагається проаналізувати object, надається можливість втрутитися до того, як декодер за замовчуванням отримає доступ до даних. Можна зробити це, надавши свою функцію декодування до іменованого аргументу object_hook.

In [32]:
with open("data/complex_data.json") as complex_data:
    data = complex_data.read()
    z = json.loads(data, object_hook=decode_complex)

print(z)

[(42+36j), (64+11j)]


Абсолютно інший інструмент, який вміє читати значну частину різних типів даних — модуль pandas, але це — абсолютно інша історія, яка виходить за межі сьогоднішньої теми. Яким чином це працює, дивіться код нижче:

In [33]:
import pandas as pd

persons_read_csv = pd.read_csv('data/person.csv')

persons_read_json = pd.read_json('data/person.json')


persons_read_csv.head()

Unnamed: 0,name,phone,e-mail,address
0,Марія Яремчук,000 667 34 30,ustymandriichuk@chmil.net,"провулок Басейний 2-й, буд. 6, Красилів, 79930"
1,Єлисавета Хомик,+38 000 129 98 16,iustynaievtushenko@andrusenko.net,"шосе Єврейська, буд. 398, Миронівка, 23866"
2,Світлана Приходько,+38 094 117-70-03,dzasenko@ukr.net,"вулиця Світлий, буд. 98, Кам'янське, 94205"
3,Хома Кабалюк,217-95-61,echmil@gmail.com,"сквер Прорізний, буд. 21, Старокостянтинів, 20374"
4,Устим Гайдабура,+38 015 890-46-81,babkoorysia@email.ua,"парк Святослава Ріхтера, буд. 23, Волноваха, 1..."


In [34]:
persons_read_json.head()

Unnamed: 0,name,phone,e-mail,address
0,Марія Яремчук,000 667 34 30,ustymandriichuk@chmil.net,"провулок Басейний 2-й, буд. 6, Красилів, 79930"
1,Єлисавета Хомик,+38 000 129 98 16,iustynaievtushenko@andrusenko.net,"шосе Єврейська, буд. 398, Миронівка, 23866"
2,Світлана Приходько,+38 094 117-70-03,dzasenko@ukr.net,"вулиця Світлий, буд. 98, Кам'янське, 94205"
3,Хома Кабалюк,217-95-61,echmil@gmail.com,"сквер Прорізний, буд. 21, Старокостянтинів, 20374"
4,Устим Гайдабура,+38 015 890-46-81,babkoorysia@email.ua,"парк Святослава Ріхтера, буд. 23, Волноваха, 1..."
