# **Курс "Програмування на мові Python"**

## **Практичне зайняття №14**

### Тема: "Робота зі спеціальними форматами файлів"

***Перед початком роботи завантажте усі необхідні файли!***

### **1. Робота з CSV-файлами**

Формат **CSV** (Comma Separated Values) - найбільш використовуваний формат для імпортування та експортування електронних таблиць та баз даних. CSV не є універсальним стандартом для всіх застосунків, що можуть мати свої специфічні норми та стандарти.

Поля у CSV-файлі розділені комами та символами переносу на новий рядок.

Для прикладу завантажимо файл titanic.csv (для цього скористаємось функцією **get()** модуля **requests**), та запишемо його вміст у список titanic.

In [None]:
import requests

r = requests.get('https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv', allow_redirects=True)
open('titanic.csv', 'wb').write(r.content)

In [None]:
import re

titanic = []
with open('titanic.csv', 'r') as f:
    lines = f.readlines()
    for line in lines:
        new_line = line.replace('\n', '')
        split = re.split(',',new_line)
        titanic.append(split)
        print(split)

Однак є простіший спосіб роботи з CSV-файлами. Модуль csv містить функції, призначені для автоматичного зчитування та запису даних у CSV-файл. Деякі з цих функції наведені нижче.

- **csv.reader (csvfile, dialect='excel',** **fmtparams)** - повертає об'єкт, що ітерується. На кожній ітерації повертає один рядок файлу. dialect - необов'язковий параметр, в якому вказується діалект (різновид структури) CSV-файлу, який буде використаний (усі діалекти подані у таблиці нижче). Аргумент fmtparams (також необов'язковий) може бути використаний для перезапису параметрів форматування поточного діалекту.

- **csv.writer (csvfile, dialect='excel',** **fmtparams)** - повертає об'єкт, що ітерується, призначений для конвертації користувацьких даних у формат CSV.

- **csv.list_dialects()** - повертає назви усіх можливих діалектів.

Перелік усіх наявних у Python діалектів:

Parameter	| excel	| excel-tab	| unix
--- | --- | --- | ---
delimiter	| ,	| \t	| ,
doublequote	| True	| True	| True
escapechar	| None	| None	| None
lineterminator	| \r\n	| \r\n	| \n
quotechar	| "	| "	| "
quoting	| csv.QUOTE_MINIMAL	| csv.QUOTE_MINIMAL	| csv.QUOTE_ALL
skipinitialspace	| False	| False	| False
strict | False	| False	| False

З функції csv.writer() можна отримати ще 3 методи: **writerow()**, **writerows()** та **dialect**.

- **csvwriter.writerow(row)** - записує рядок row, форматований відповідно до поточного діалекту, у файловий об'єкт.

- **csvwriter.writerows(rows)** - записує всі рядки у файловий об'єкт.

- **csvwriter.dialect** - опис діалекту, що використовується.

Рзглянемо приклад. За замовчуванням буде використовуватсь діалект 'excel' (файл можна буде потім відкрити у програмі Microsoft Excel).

In [None]:
import csv

print('Crearting CSV file')
with open('sample.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['She Loves You', 'Sept 1963'])
    writer.writerow(['I Want to Hold Your Hand', 'Dec 1963'])
    writer.writerow(['Cant Buy Me Love', 'Apr 1964'])
    writer.writerow(['A Hard Days Night', 'July 1964'])

Функція **csv.reader()** використовується разом із циклом for для порядкового зчитування даних з файлу. Вона містить такі додаткові методи:

- **csvreader.dialect** - опис діалекту, що використовується.

- **csvreader.line_num** - повертає кількість рядків, отриманих з ітератора.

Приклад використання функції csv.reader():

In [None]:
print('Starting to read csv file')
with open('sample.csv', newline='') as csvfile:
    reader = csv.reader(csvfile)
    for row in reader:
        print(*row, sep=', ')
print('Done Reading')

Дуже часто перший рядок CSV-файлу містить назви полів таблиці. Зберігати цю інформацію дуже корисно, щоб потім у відповідний спосіб формувати дані, зчитані з CSV-файлу або записані у CSV-файл.

Функція **csv.DictWriter()** повертає об'єкт, що може використовуватись для запису значень у CSV-файл з використанням іменованих колонок. Приклад:

In [None]:
import csv
with open('names.csv', 'w', newline='') as csvfile:
    fieldnames = ['first_name', 'last_name', 'result']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerow({'first_name': 'John',
                     'last_name': 'Smith',
                     'result' : 54})
    writer.writerow({'first_name': 'Jane',
                     'last_name': 'Lewis',
                     'result': 63})
    writer.writerow({'first_name': 'Chris',
                     'last_name': 'Davies',
                     'result' : 72})

Зверніть увагу, що список заголовків задається під час виклику функції DictWriter().

Метод **writeheader()** використовується для запису рядка із заголовками у CSV-файл.

Метод **writerow()** приймає на вхід словник, ключі якого мають відповідати назвам колонок. Порядок елемнтів у словнику не має значення. Значення, що відповідають ключам, записуються на відповідні позиції у CSV-файлі.

Якщо файлу names.csv не існує, він створюється автоматично.

Разом з функцією csv.DictWriter(), яка використовується для запису файлу з назвами колонок, існує функція **csv.DictReader()**, яка зчитує ці файли.

**fieldnames** - параметр функції csv.DictReader(), що зберігає список ключів (заголовків) CSV-файлу (перший рядок файлу).

Приклад для текстового файлу names.csv наведено нижче:

In [None]:
import csv
print('Starting to read dict CSV example')
with open('names.csv', newline='') as csvfile:
    reader = csv.DictReader(csvfile)
    for heading in reader.fieldnames:
        print(heading, end=' ')
    print('\n------------------------------')
    for row in reader:
        print(row['first_name'], row['last_name'], row['result'])
print('Done')

### **2. Робота з JSON-файлами**

**JSON-файл** (JavaScript Object Notation File) - це розповсюджений формат даних, що використовується для збереження структурованих даних. Він базується на двох структурах даних: словник та список.

У мові Python JSON-об'єкт зберігається у вигляді рядка. Наприклад:


In [None]:
p = '{"name": "Bob", "languages": ["Python", "Java"]}'

Щоб працювати з JSON-рядками (або файлами, що зберігають JSON-об'єкт), необхідно імпортувати модуль **json**.

Щоб перетворити JSON-рядок у словник, можна застосувати метод **json.loads()**. У наступному прикладі person - це JSON-рядок, person_dict - словник.

In [None]:
import json

person = '{"name": "Bob", "languages": ["English", "Fench"]}'
person_dict = json.loads(person)

print(person_dict)
print(person_dict['languages'])

Для читання файлу, що зберігає JSON-об'єкт, можна скористатись методом **json.load()**. Якщо існує файл person.json, прочитати його можна так:

In [None]:
import json

with open('person.json') as f:
    data = json.load(f)

print(data)

Щоб конвертувати словник у JSON-рядок, можна скористатись методом **json.dumps()**:

In [None]:
import json

person_dict = {'name': 'Bob',
'age': 12,
'children': None
}
person_json = json.dumps(person_dict)

print(person_json)

У таблиці подано об'єкти Python та їхні відповідники у JSON.

Python | JSON Equivalent
--- | ---
dict	| object
list, tuple	| array
str	| string
int, float, int	| number
True	| true
False	| false
None	| null

Щоб записати словник у текстовий файл, можна застосувати метод **json.dump()**:

In [None]:
import json

person_dict = {"name": "Bob",
"languages": ["English", "Fench"],
"married": True,
"age": 32
}

with open('person.json', 'w') as json_file:
    json.dump(person_dict, json_file)

Перевірка записаних даних:

In [None]:
with open('person.json') as f:
    data = json.load(f)

print(data)

Щоб роздрукувати JSON-об'єкт у більш читабельному вигляді, до методів json.dumps() та json.dump() додають додаткові параметри **indent** та **sort_keys**.

Параметр indent зберігає кількість пробілів для відступу (за замовчуванням - None).

Параметр sort_keys може набувати значеннь True або False в залежності від того, чи потрібно сортувати ключі словника в алфавітному порядку.

Приклад:

In [None]:
import json

person_string = '{"name": "Bob", "languages": "English", "numbers": [2, 1.6, null]}'
person_dict = json.loads(person_string)

print(json.dumps(person_dict, indent = 4, sort_keys=True))