# Робота з файлами та обробка виключень


## Робота з файлами

У Python є абстракція над файлами — це вказівник на файл або файловий об'єкт.

Файловий об'єкт — це системний ресурс, доступ до якого надає операційна система. Зазвичай файловий об'єкт можна відкрити (отримати/створити), закрити (повідомити системі, що робота з ним завершена), можна записати у нього щось і прочитати щось.</br>

Безпосередня робота з файлами у Python починається з відкриття файлу або отримання від системи доступу до файлу, отримання того самого файлового об'єкту. Для цього є вбудована функція open. </br>

Синтаксис open():

```
open(file, mode='r', buffering=1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
```

Параметри:
* file - шлях до файлу у вигляді рядка. Це може бути повний шлях або шлях відносно поточного каталогу виконання.
* mode (необов'язковий) - режим, в якому буде відкрито файл. Ось основні режими які ми будемо використовувати:
* 'r' - читання (за замовчуванням). Файл має існувати.
* 'w' - запис. Створює новий файл або перезаписує, що вже існує.
* 'a' - додавання. Дописує в кінець файлу, не перезаписуючи його.
* 'b' - бінарний режим (може бути використаний разом з іншими, наприклад 'rb' або 'wb').
* '+' - оновлення (читання та запис).
* buffering (необов'язковий) - визначає буферизацію: 0 для вимкненої, 1 для включеної буферизації рядків, більше 1 для вказання розміру буфера у байтах.
* encoding (необов'язковий) - ім'я кодування, яке буде використовуватися для кодування або декодування файлу.
* errors (необов'язковий) - вказує, як обробляти помилки кодування.
* newline (необов'язковий) - контролює, як обробляються нові рядки.
* closefd (необов'язковий) - має бути True (за замовчуванням); якщо вказано False, файловий дескриптор не буде закритий.
* opener (необов'язковий) - визначає спеціальну функцію для відкриття файлу.


In [80]:
# Приклад використання open() - далі для прикладів буде вказуватися тільки назва методу

f = open('test.txt', 'w+')
symbols_written = f.write('Hello, world! 123 .,\\') # write виконує запис даних в файл
print(symbols_written)                              # але при виклику повертає тільки кількість записаних символів
f.close()

21


In [81]:
# read() - зчитування даних з файлу

f = open('test.txt', 'w+')
f.write('Hello, world')

# seek() - встановлення "File Handle" (умовного курсора) в певній позиції
f.seek(0)
first_two_symbols_at_seek_0 = f.read(2)
print('first_two_symbols_at_seek_0: \t', first_two_symbols_at_seek_0)

f.seek(1)
first_two_symbols_at_seek_1 = f.read(2)
print('first_two_symbols_at_seek_1: \t', first_two_symbols_at_seek_1)

f.seek(2)
first_two_symbols_at_seek_2 = f.read(2)
print('first_two_symbols_at_seek_2: \t', first_two_symbols_at_seek_2)

# Символів на позиції 20 немає, тому виведе пустий рядок
f.seek(20)
first_two_symbols_at_seek_20 = f.read(2)
print('first_two_symbols_at_seek_20: \t', first_two_symbols_at_seek_20)

# Типи даних
print()
print('type(f): \t\t', type(f))
print('type(f.seek(20)): \t', type(f.seek(20)))
print("type(f.write('0')): \t", type(f.write('0')))
print('type(f.read()): \t', type(f.read()))

f.close()

first_two_symbols_at_seek_0: 	 He
first_two_symbols_at_seek_1: 	 el
first_two_symbols_at_seek_2: 	 ll
first_two_symbols_at_seek_20: 	 

type(f): 		 <class '_io.TextIOWrapper'>
type(f.seek(20)): 	 <class 'int'>
type(f.write('0')): 	 <class 'int'>
type(f.read()): 	 <class 'str'>


In [82]:
# read() #2

f = open('test.txt', 'w')
f.write('Hello, world!')
f.close()

# f.read(0) - інформація не виводиться
# f.read(2) - читаємо текст по два символи
# f.read() - виводиться весь текст в одному рядку
# f.read(100) - виводиться весь текст в одному рядку (фактично символів менше)
f = open('test.txt', 'r')
while True:
    symbol = f.read(2) 
    if len(symbol) == 0:
        break
    print(symbol)
    
f.close()

He
ll
o,
 w
or
ld
!


In [83]:
# readline() - виводимо текст порядково

f = open('test.txt', 'w')
f.write('first line\nsecond line\nthird line')
f.close()

f = open('test.txt', 'r')
while True:
    line = f.readline()
    if not line:
        break
    print(line)
    
f.close()

first line

second line

third line


In [84]:
# readlines() - (не плутати з readline()) читає повністю файл і повертає список рядків,
#               де елемент списку - це один рядок з файлу

f = open('test.txt', 'w')
f.write('first line\nsecond line\nthird line')
f.close()

f = open('test.txt', 'r')
lines = f.readlines()
print(lines)

f.close()

['first line\n', 'second line\n', 'third line']


In [85]:
# readlines() #2, без символів переносу рядка "\n" в кінці елементів списку

f = open('test.txt', 'w')
f.write('first line\nsecond line\nthird line')
f.close()

f = open('test.txt', 'r')
lines = [el.strip() for el in f.readlines()] # strip() == strip('\n')
print(lines)

f.close()

['first line', 'second line', 'third line']


## Менеджер контексту


In [86]:
# Приклад конструкції для закриття файлу навіть якщо в ході роботи з ним 
# виникне помилка

f = open('text.txt', 'w')
try:
    f.write('Some data')
finally:
    f.close()

Менеджер контексту в Python __with__ - це спосіб використання ресурсів, який автоматично забезпечує правильне закриття файлу, незалежно від того, чи виникла помилка чи ні. Це робить код не тільки більш читабельним, але й безпечнішим.

In [87]:
# "with" менеджер контексту

with open('text.txt', 'w') as f:
    f.write('Some data')
    
with open('test.txt', 'r') as f:
    lines = [el.strip() for el in f.readlines()]
    
print(lines)

# Файл закриється автоматично після виходу з блоку with

['first line', 'second line', 'third line']


## Робота з не текстовими файлами у Python


In [90]:
# Приклад запису бінарних даних в файл з використанням 'wb' та "b'string'"

with open('raw_data.bin', 'wb') as f:
    f.write(b'Hello, world!')
    
    # f.write('Hello, world!') # no b'str' - TypeError: a bytes-like object is required, not 'str'

Типи даних байт-рядків:
* bytes - незмінний тип, що використовують для представлення байтів.
* bytearray - змінний тип, що дозволяє модифікувати байти після їх створення.

__Байт-рядки__ або простіше байти — це звичайні рядки, але для запису одного символу використовується суворо один байт. Це відрізняється від звичайних рядків, де символи (особливо в Unicode) можуть займати більше одного байта.</br>

__Біт__ (скорочено від "binary digit" або "двійкова цифра") є основною одиницею інформації в обчислювальній техніці та цифровій комунікації. Біт може мати одне з двох значень: 0 або 1. Ви можете думати про біт, як про відповідь на просте питання: "так/ні" або "вимкнено/увімкнено".</br>

__Байт__ - це послідовність з 8 бітів, яка є стандартною одиницею вимірювання кількості інформації в комп'ютерах. Один байт може представляти 256 різних станів. Від 00000000 до 11111111 у двійковому форматі або від 0 до 255 десятеричному, що дозволяє кодувати широкий спектр інформації, наприклад, символи тексту, частини зображень або звуку.</br>

Для байт-рядків застосовуються ті самі обмеження і правила, що і для звичайних рядків. Наприклад, ви можете використовувати методи upper(), startswith(), index(), find() і так далі.

__ASCII__ (American Standard Code for Information Interchange - Американський стандартний код для обміну інформацією) - це символьна кодова таблиця, яка використовується для представлення тексту в комп'ютерах, комунікаційному обладнанні та інших пристроях, що працюють з текстом. Кожен символ у таблиці ASCII відповідає певному числу.

ASCII визначає 128 символів, що включають латинські літери, цифри, знаки пунктуації, а також символи управління. Кожен символ кодується 7-бітним числом, що дозволяє представити числа від 0 до 127. Існує також розширений ASCII, який використовує 8-бітне кодування для представлення 256 символів (від 0 до 255). Це розширення включає додаткові символи, такі як латинські літери з діакритичними знаками, графічні символи тощо.

In [101]:
# Приклад оголошення байтового рядка

byte_str = b'Hello, world!'
print(byte_str)              # b'Hello, world!'
print(byte_str[1])           # 101 - ASCII-код символу 'e'

b'Hello, world!'
101


In [105]:
# Приклад оголошення байтового рядка #2 - .encode() замість b'str'

byte_str = 'Hello, world!'.encode()
print(byte_str)
print(byte_str[1])

b'Hello, world!'
101


Синтаксис використання encode():

```
str.encode(encoding="utf-8", errors="strict")
```

* __encoding__ - вказує метод кодування. По замовчуванню використовується 'utf-8', який підтримує велику кількість символів з різних мов.
* __errors__ - вказує, як обробляти помилки кодування. Наприклад, 'strict' для викидання виключення у випадку помилки, 'ignore' для ігнорування помилок або 'replace' для заміни неможливих для кодування символів на певний замінник (?).

## Перетворення чисел у байт-рядки



In [120]:
# bytes() - перетворення числа в байт-рядок
# hex() - перетворення цілого числа в рядок - представлення числа в шістнадцятковій формі

nums = [1, 5, 11, 128]
byte_numbers = bytes(nums)
print('bytes(nums): ', type(bytes(nums)))
print('byte_numbers: ', byte_numbers)

print()

for num in nums:
    print(f'{num}: {hex(num)}; class: {type(hex(num))}')

bytes(nums):  <class 'bytes'>
byte_numbers:  b'\x01\x05\x0b\x80'

1: 0x1; class: <class 'str'>
5: 0x5; class: <class 'str'>
11: 0xb; class: <class 'str'>
128: 0x80; class: <class 'str'>


## Кодування рядків (ASCII, UTF-8, CP1251)



Python за замовчуванням використовує UTF-8, в якій один символ може займати від 1 до 4 байт, і всього в алфавіті може бути до 1 112 064 знаків.

In [121]:
# Отримання коду символа

ord('b')

98

In [122]:
# Отримання символа з коду

chr(98)

'b'

In [143]:
# Приклади кодування з .encode() та декодування з .decode()

s = 'Привіт, світ!'

utf8 = s.encode()
print(f'UTF-8: \t{utf8}')

utf16 = s.encode('utf-16')
print(f'UTF-16: {utf16}')

ch1251 = s.encode('cp1251')
print(f'UTF-8: \t{ch1251}')

s_from_utf16 = utf16.decode('utf-16')
print('\ns_from_utf16: \t', s_from_utf16)

s_from_ch1251 = ch1251.decode('cp1251')
print('s_from_ch1251: \t', s_from_ch1251)

UTF-8: 	b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd1\x96\xd1\x82, \xd1\x81\xd0\xb2\xd1\x96\xd1\x82!'
UTF-16: b'\xff\xfe\x1f\x04@\x048\x042\x04V\x04B\x04,\x00 \x00A\x042\x04V\x04B\x04!\x00'
UTF-8: 	b'\xcf\xf0\xe8\xe2\xb3\xf2, \xf1\xe2\xb3\xf2!'

s_from_utf16: 	 Привіт, світ!
s_from_ch1251: 	 Привіт, світ!


In [146]:
# При спробі конвертації в неправильний формат ми або отримуємо помилку,
# або непередбачуваний результат (з помилковими символами)

s_from_ch1251 = ch1251.decode('utf-16')
print('s_from_ch1251: \t', s_from_ch1251)

UnicodeDecodeError: 'utf-16-le' codec can't decode byte 0x21 in position 12: truncated data

In [158]:
# Неіснуюче кодування

s_from_utf1_error = ch1251.decode('utf-1')
print('s_from_utf1_error: \t', s_from_utf1_error)

LookupError: unknown encoding: utf-1

In [145]:
# Відкриття файлу з вказаним вірним кодуванням

with open('test.txt', 'r', encoding='utf-8') as file:
    content = file.read()
    print(content)

first line
second line
third line


In [147]:
# Відкриття файлу з вказаним невірним кодуванням

with open('test.txt', 'r', encoding='utf-16') as file:
    content = file.read()
    print(content)

UnicodeDecodeError: 'utf-16-le' codec can't decode byte 0x65 in position 34: truncated data

## Масив байтів



In [149]:
# Використання контейнера bytearray()

byte_array = bytearray(b'Kill Bill')
byte_array[0] = ord('B')
byte_array[5] = ord('K')
print(byte_array)

bytearray(b'Bill Kill')


Основна відмінність __bytearray__ від байт-рядків — це змінність, щоб змінити масив байтів, не потрібно створювати новий. Друга важлива відмінність — це те, що масив байтів сприймається системою як послідовність чисел від 0 до 255, а не як послідовність символів в ASCII кодуванні. Саме тому не можна написати byte_array[0] = b'B'. Елементи масиву байтів сприймаються саме як цілі числа.

В іншому ж bytearray може використовуватися як заміна байт-рядків і у нього є ті самі методи з тією самою поведінкою.

Окрім зміни існуючих елементів, bytearray дозволяє додавати та видаляти елементи, що робить його набагато більш гнучким у порівнянні з незмінними байт-рядками.

In [156]:
# Перетворення контейнера bytearray() в рядок з використанням decode()

byte_array = bytearray(b'Hello, world!')
string = byte_array.decode('utf-8')
print(string)

Hello, world!


## Порівняння рядків



Кроки процесу порівняння рядків:
1. Перетворення рядків у єдиний регістр з використанням __lower()__, __upper()__ або __casefold()__
2. Сам процес порівняння

* lower() - нижній регістр
* upper() - верхній регістр
* casefold() - працює аналогічно lower(), але він призначений для видалення усіх відмінностей у регістрі, які можуть виникати у різних мовах (наприклад де одна літера може мати різні верхній та нижній регістри як у німецькій)

In [162]:
german_word = 'straße'  # В нижньому регістрі
search_word = 'STRASSE'  # В верхньому регістрі

# Порівняння за допомогою lower()
lower_comparison = german_word.lower() == search_word.lower()

# Порівняння за допомогою casefold()
casefold_comparison = german_word.casefold() == search_word.casefold()

print(f"Порівняння з lower(): \t\t{lower_comparison}")
print(f"Порівняння з casefold(): \t{casefold_comparison}")

Порівняння з lower(): 		False
Порівняння з casefold(): 	True


## Робота з архівами


Архіви по своїй суті — це ті самі файли, але інформація в них розташована з використанням алгоритмів стискання, які дозволяють записати інформацію в меншому об'ємі.