# Обробка та манiпуляцiя даними за допомогою SQL запитiв.

SQLite - це легка, вбудована база даних, ідеально підходить для невеликих проектів. Вона зберігає дані в одному файлі, що спрощує її використання. Python надає бібліотеку sqlite3, яка дозволяє легко взаємодіяти з базами даних SQLite.

In [1]:
import sqlite3
import pandas as pd

SQLite зберігає всю інформацію про базу даних (таблиці, індекси, дані) в одному файлі з розширенням .db. Це одна з його ключових особливостей, яка робить його дуже легким у використанні та портативним.

Переваги такого підходу: 
* Простота: Не потрібно керувати множиною файлів або складними структурами каталогів.
* Портативність: Базу даних можна легко перемістити на інший комп'ютер або пристрій.
* Швидкість: Завдяки однофайловому формату, SQLite часто демонструє високу швидкість роботи.
* Легкість резервного копіювання: Для створення резервної копії достатньо скопіювати один файл.

У .db файлі зберігається:
* Структура таблиць: Визначення полів, типів даних, обмежень.
* Дані: Інформація, що зберігається в таблицях.
* Індекси: Додаткові структури даних для швидкого пошуку.
* Інші метадані: Інформація про конфігурацію бази даних.

Піключення до існуючої бази даних, або створення нової відбувається методом [connect()](https://docs.python.org/3/library/sqlite3.html#sqlite3.connect):

In [2]:
conn = sqlite3.connect('mydatabase.db')

Для роботи з базою даних часто використовуються курсори.

Курсор - це об'єкт, який дозволяє:
* Виконувати SQL-запити: Відправляти запити до бази даних і отримувати результати.
* Переміщуватися по результатах: Послідовно переглядати записи, отримані в результаті запиту.
* Отримувати дані: Доступ до конкретних значень у кожному записі.
* Змінювати дані: Вносити зміни в базу даних (хоча це не рекомендується робити безпосередньо через курсор).

Курсори надають ряд переваг:
* Послідовна обробка результатів: При роботі з великим результат запиту, курсор дозволяє обробляти дані порціями, що може бути ефективніше, особливо для обмеженої пам'яті.
* Складні операції: Курсори дозволяють виконувати складні операції з результатом запиту, такі як оновлення, видалення або обчислення на основі попередніх рядків.
* Контроль над обробкою даних: дозволяє детально контролювати, які дані обробляються і в якому порядку.

Типи курсорів:
* Статичні: відображають знімок даних на момент відкриття курсора. Зміни в основній таблиці не відображаються.
* Динамічні: відображають всі зміни в основній таблиці, навіть ті, що були зроблені під час роботи курсора.
* Ключові набори: Подібні до статичних, але дозволяють додавати нові записи.

Створення курсора у sqlite3:

In [3]:
cursor = conn.cursor()

Курсор є об'єктом типу [Cursor](https://docs.python.org/3/library/sqlite3.html#sqlite3.Cursor).

## Виконання команд з допомогою курсорів.

Для виконання команди з використанням курсора використовується метод [execute()](https://docs.python.org/3/library/sqlite3.html#sqlite3.Cursor.execute).

Важливо! При роботі з командами варто уважно стежити за екрануючими символами.

In [4]:
cursor.execute('''
    CREATE TABLE users (
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        name TEXT NOT NULL,
        age INTEGER NOT NULL
    )
''')

<sqlite3.Cursor at 0x26a00c6cdc0>

У команді зверху було використано команду [CREATE TABLE ім'я_таблиці (
    стовпець_1 тип_даних_1 обмеження1_,
    стовпець_2 тип_даних_2 обмеження2_,
    ...
)](https://www.w3schools.com/sql/sql_create_table.asp) для створення таблиці.

Типи даних визначають, які види даних можуть зберігатися в стовпцях таблиці. SQLite підтримує кілька основних типів даних:

* INTEGER: Цілі числа. Можуть бути додатні, від'ємні або нульові.
* REAL: Числа з плаваючою точкою, тобто числа з десятковим дробом.
* TEXT: Текстові рядки. Можуть містити будь-які символи Unicode.
* BLOB: Бінарні великі об'єкти. Для зберігання довільних даних у бінарному форматі (наприклад, зображення, документи).
* NULL: Позначає відсутність значення.

Обмеження на типи даних використовують для забезпечення цілісності даних та запобігання введення некоректних значень. Найпоширеніші обмеження:
* NOT NULL: Значення в цьому стовпці не може бути пустим.
* UNIQUE: Значення в цьому стовпці повинні бути унікальними.
* PRIMARY KEY: Визначає первинний ключ таблиці. Значення в цьому стовпці є унікальними і не можуть бути нульовими.
* FOREIGN KEY: Створює зв'язок між таблицями, вказуючи, що значення в цьому стовпці повинні існувати як первинний ключ в іншій таблиці.
* CHECK: Накладає додаткові умови на значення в стовпці. Наприклад, можна перевірити, чи значення більше за певну величину або належить до певного діапазону.
* DEFAULT: Встановлює значення за замовчуванням для стовпця, якщо при вставці рядка значення для цього стовпця не вказано.

### Модифікація існуючих таблиць.

Для модифікації існуючих таблиць використовується [ALTER TABLE ім'я_таблиці дія;](https://www.w3schools.com/sql/sql_alter.asp)

Додати стовпець: `ALTER TABLE users ADD column_name data_type;`

Видалити стовпець: `ALTER TABLE users DROP COLUMN column_name;`

Змінити тип даних стовпця: `ALTER TABLE users MODIFY column_name new_data_type;`

Перейменувати таблицю: `ALTER TABLE old_name RENAME TO new_name;`


### Вставка даних у таблиці.

Вставка даних відбувається за допомогою [INSERT INTO](https://www.w3schools.com/sql/sql_insert.asp). Загальний синтаксис цього оператора такий:
`INSERT INTO таблиця (стовпець_1, стовпець_2, ...) VALUES (значення_1, значення2_, ...);`

При роботі з курсором, вставка одиничного запису виглядала б таким чином:

In [5]:
cursor.execute("INSERT INTO users (name, age) VALUES ('Іван Петров', 30)")

<sqlite3.Cursor at 0x26a00c6cdc0>

Для вставки декількох записів, курсор пропонує метод [executemany()](https://docs.python.org/3/library/sqlite3.html#sqlite3.Cursor.executemany):

In [6]:
users = [
    ('Марія Іванова', 25),
    ('Петро Сидоров', 35),
    ('Олена Коваленко', 28)
]

cursor.executemany("INSERT INTO users (name, age) VALUES (?, ?)", users)
conn.commit()

Переваги використання [executemany()](https://docs.python.org/3/library/sqlite3.html#sqlite3.Cursor.executemany):
* Ефективність: Зменшує кількість звернень до бази даних.
* Зручність: Дозволяє вставляти великі обсяги даних за допомогою одного методу.

Важливі моменти:
* Порядок значень: Порядок значень у списку повинен відповідати порядку стовпців у запиті.
* Типи даних: Типи даних у списку мають відповідати типам даних у таблиці.
* NULL-значення: Для вставки NULL значення використовуйте None.

Також, після виконання команд, які змінюють щось у базі даних, необхідно викликати метод `commit()`. Цей метод завершує будь-які транзації, які в стані очікування.

### Вибір даних.

Для вибору даних використовується оператор [SELECT](https://www.w3schools.com/sql/sql_select.asp).

Вибір усіх записів з таблиці: `SELECT * FROM ім'я_таблиці;` Наприклад: `SELECT * FROM users`

Вибір конкретних стовпців: `SELECT стовпець1, стовпець2, ... FROM ім'я_таблиці;` Наприклад: `SELECT name, age FROM users;`

#### Фільтрація даних.
Для фільтрації даних використовується оператор [WHERE](https://www.w3schools.com/sql/sql_where.asp).

Фільтрація даних: `SELECT * FROM ім'я_таблиці WHERE умова;` Наприклад: `SELECT * FROM users WHERE age > 30;`

Можливі умови:
* =: рівне
* !=: не рівне
* \>: більше
* <: менше
* \>=: більше або рівне
* <=: менше або рівне
* BETWEEN: в діапазоні
* IN: в списку значень
* LIKE: збігається за шаблоном

#### Сортування даних.

Дані сортуються оператором [ORDER BY](https://www.w3schools.com/sql/sql_orderby.asp).

Сортування даних: `SELECT * FROM ім'я_таблиці ORDER BY стовпець ASC|DESC;` Наприклад: `SELECT * FROM users ORDER BY age DESC;`

#### Комбінування операторів.

Можна комбінувати оператори SELECT, WHERE та ORDER BY для виконання більш складних запитів: `SELECT name FROM users WHERE age BETWEEN 20 AND 30 ORDER BY age ASC;`

При виконання цих операцій у sqlite3б важливими стають методи [fetchone()](https://docs.python.org/3/library/sqlite3.html#sqlite3.Cursor.fetchone), [fetchmany()](https://docs.python.org/3/library/sqlite3.html#sqlite3.Cursor.fetchmany) та [fetchall()](https://docs.python.org/3/library/sqlite3.html#sqlite3.Cursor.fetchall), які повертають один, багато, або усі результати виконаної команди:

In [7]:
cursor.execute("SELECT * FROM users WHERE age >= 30 ORDER BY name")

results = cursor.fetchall()
results

[(1, 'Іван Петров', 30), (3, 'Петро Сидоров', 35)]

## Оновлення даних.
Оновлення даних відбувається з допомогою оператора [UPDATE](https://www.w3schools.com/sql/sql_update.asp).

Оновлення даних: `UPDATE ім'я_таблиці SET стовпець_1 = нове_значення_1, стовпець_2 = нове_значення_2, ... WHERE умова;`

Наприклад: `UPDATE users SET age = age + 1 WHERE name = 'Іван Петров';`

## Видалення даних.
Для видалення даних використовується оператор [DELETE](https://www.w3schools.com/sql/sql_delete.asp).
Видалення даних: `DELETE FROM ім'я_таблиці WHERE умова;` Наприклад: `DELETE FROM users WHERE age == 31`

Важливе зауваження: Видалення даних є незворотнім процесом. Перед виконанням оператора DELETE варто створити резервну копію бази даних.

Для видалення всіх записів у таблиці, оператор `DELETE` застосовується без умови `WHERE`: `DELETE FROM ім'я_таблиці;`

## З'єднання таблиць.

Оператор `JOIN` дозволяє об'єднати дані з двох або більше таблиць в одну результативну множину на основі спільного поля. Це особливо корисно, коли дані, необхідні для отримання повної інформації, розподілені по різних таблицях.

Типи `Join`:
Існує кілька типів з'єднань:

[INNER JOIN](https://www.w3schools.com/sql/sql_join_inner.asp): Повертає тільки ті записи, які мають відповідні значення в обох таблицях. Тобто, вибираються тільки рядки, де значення в стовпці, за яким здійснюється з'єднання, збігаються в обох таблицях.
[LEFT JOIN](https://www.w3schools.com/sql/sql_join_left.asp): Повертає всі записи з лівої таблиці і тільки ті записи з правої таблиці, які мають відповідні значення. Тобто, всі записи з лівої таблиці будуть включені в результат, навіть якщо в правій таблиці немає відповідних записів.
[RIGHT JOIN](https://www.w3schools.com/sql/sql_join_right.asp): Аналогічно `LEFT JOIN`, але повертає всі записи з правої таблиці і тільки ті записи з лівої таблиці, які мають відповідні значення.

Синтаксис оператора: `SELECT поля FROM таблиця_1 JOIN таблиця_2 ON таблиця_1.поле = таблиця_2.поле;`

Приклади. Нехай окрім бази даних користувачів існує ще база даних замовлень, і в них спіьним є поле `id`. Тоді, з'єднання можуть виглядати так:
* INNER JOIN: `SELECT users.name, users.email, orders.total FROM users INNER JOIN orders ON users.id = orders.user_id;` - поверне список користувачів разом з їхніми замовленнями;
* LEFT JOIN: `SELECT users.name, users.email, orders.total FROM users LEFT JOIN orders ON users.id = orders.user_id;` - поверне список всіх користувачів, навіть якщо вони не мають замовлення;
* RIGHT JOIN: `SELECT users.name, users.email, orders.total FROM users RIGHT JOIN orders ON users.id = orders.user_id;` - поверне список всіх замовлень, навіть якщо інформація про користувача відсутня;

У випадку складніших запитів, оператор `JOIN` можна комбінувати з оператором `WHERE`: `SELECT users.name, orders.total FROM users INNER JOIN orders ON users.id = orders.user_id WHERE order.total > 1000;`

## Групування даних.

Для групування даних використовується оператор [GROUP BY](https://www.w3schools.com/sql/sql_groupby.asp). Він є особливо корисним при використанні агрегатних функцій.

Синтаксис оператора: `SELECT стовпець_1, стовпець_2, агрегатна_функція(стовпець_3) FROM таблиця GROUP BY стовпець_1, стовпець_2;`

Можливі агрегатні функції:
* [COUNT()](https://www.w3schools.com/sql/sql_count.asp): Підраховує кількість рядків в кожній групі.
* [SUM()](https://www.w3schools.com/sql/sql_sum.asp): Обчислює суму числових значень в кожній групі.
* [AVG()](https://www.w3schools.com/sql/sql_avg.asp): Обчислює середнє значення числових значень в кожній групі.
* [MIN()](https://www.w3schools.com/sql/sql_min_max.asp): Знаходить мінімальне значення в кожній групі.
* [MAX()](https://www.w3schools.com/sql/sql_min_max.asp): Знаходить максимальне значення в кожній групі.

Наприклад, щоб дізнатись загальну суму замовлень для кожного користувача можна виконати наступний запит: `SELECT user_id, SUM(total) AS total_sum FROM orders GROUP BY user_id;`

Для фільтрації результатів, отриманих в результаті роботи оператора `GROUP BY` використовується оператор [HAVING](https://www.w3schools.com/sql/sql_having.asp). Він схожий до оператора `WHERE`, але застосовується до груп, а не до окремих рядків: `SELECT стовпець_1, стовпець_2, агрегатна_функція(стовпець_3) FROM таблиця GROUP BY стовпець_1, стовпець_2 HAVING умова;`

Наприклад, щоб з попереднього запиту групування показати тільки тих користувачів, загальна сума замовлень яких більше 1000, запит до бази дани виглядав би так: `SELECT user_id, SUM(total) AS total_sum FROM orders GROUP BY user_id HAVING SUM(total) > 1000;`

Групування можна комбінувати з об'єднанням таблиць: `SELECT users.ім'я, COUNT(orders.id) AS orders_amount FROM users INNER JOIN orders ON users.id = orders.user_id GROUP BY users.name;` Цей запит підрахує кількість замовлень для кожного клієнта.

## Імпорт та експорт даних між Pandas та SQLite.
Pandas підтримує можливість завантаження даних з бази даних у DataFrame. Для цього використовується метод [read_sql_query](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_query.html). 

In [8]:
query = "SELECT * FROM users"
df = pd.read_sql_query(query, conn)
df

Unnamed: 0,id,name,age
0,1,Іван Петров,30
1,2,Марія Іванова,25
2,3,Петро Сидоров,35
3,4,Олена Коваленко,28


Схожим чином, з допомогою методу [to_sql()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html), дані з DataFrame можна завантажити у базу даних.

In [9]:
df.to_sql('my_new_table', conn, if_exists='replace', index=False)

4

У прикладі зверху, дані з DataFrame `df` завантажуються по існуючому з'єднанню до бази даних у таблицю `my_new_table`. Параметр `if_exists='replace'` означає, що у випадку, якщо така таблиця існує, вона буде перезаписана, а параметр `index=False` означає, що індексована колонка з DataFrame не буде завантажена у базу даних.

Використання Pandas для взаємодії з SQLite значно спрощує роботу з даними. Це дозволяє легко завантажувати дані з бази даних в зручний формат DataFrame, виконувати різноманітні операції з даними і знову зберігати їх в базі даних.

Ключові переваги:
* Простота використання: Інтуїтивний інтерфейс Pandas.
* Гнучкість: Можливість виконання складних SQL-запитів.
* Ефективність: Оптимізовані алгоритми для роботи з великими обсягами даних.

## Транзакції.
Транзакція - це логічна одиниця роботи з базою даних, яка складається з однієї або кількох SQL-команд. Всі команди в межах транзакції виконуються як єдине ціле. Тобто, або всі команди виконуються успішно, або жодна з них не виконується. Це дозволяє забезпечити цілісність даних, особливо при виконанні складних операцій, що включають в себе кілька модифікацій.

Оператори для керування транзакціями:
* [BEGIN TRANSACTION](https://learn.microsoft.com/en-us/sql/t-sql/language-elements/begin-transaction-transact-sql?view=sql-server-ver16): Починає нову транзакцію.
* [COMMIT](https://learn.microsoft.com/en-us/sql/t-sql/language-elements/commit-transaction-transact-sql?view=sql-server-ver16): Зберігає всі зміни, внесені в межах транзакції, в базу даних.
* [ROLLBACK](https://learn.microsoft.com/en-us/sql/t-sql/language-elements/rollback-transaction-transact-sql?view=sql-server-ver16): Відкочує всі зміни, внесені в межах транзакції, повертаючи базу даних до стану перед початком транзакції.

In [10]:
try:
    conn.execute("BEGIN TRANSACTION")

    cursor.execute("INSERT INTO users (name, age) VALUES ('Іван', 45)")
    cursor.execute("UPDATE users SET age = 31 WHERE id = 1")

    conn.commit()
except Exception as e:
    conn.rollback()
    print("Помилка:", e)

У прикладі зверху:

1. Спочатку починається нова транзакція.
2. Потім виконуються дві команди: вставка нового користувача та оновлення існуючого.
3. Якщо обидві команди виконаються успішно, викликається commit() для збереження змін.
4. Якщо виникне будь-яка помилка, виконується rollback(), щоб відкотити всі зміни і повернути базу даних до початкового стану.

Транзакції надають наступні переваги:
* Цілісність даних: Забезпечує, що всі зміни в базі даних будуть узгодженими.
* Атомарність: Кожна транзакція є неподільною одиницею роботи.
* Ізоляція: Кожна транзакція виконується незалежно від інших.
* Надійність: Гарантує, що зміни будуть збережені навіть при збоях.

Зазвичай транзакції використовують у наступних сценаріях:
* Перекази коштів: Для забезпечення того, що сума грошей з одного рахунку буде знята, а на інший зарахована одночасно.
* Резервування квитків: Для того, щоб уникнути ситуації, коли квиток буде проданий двом різним людям.
* Складні операції: Для виконання складних операцій, які включають в себе кілька модифікацій бази даних.

Важливі моменти!
* Автокоміт: За замовчуванням SQLite працює в режимі автокоміту, тобто кожна команда виконується як окрема транзакція. Для використання явних транзакцій необхідно використовувати `BEGIN TRANSACTION`.
* Ізоляція транзакцій: SQLite використовує рівень ізоляції `READ UNCOMMITTED`, що означає, що транзакція може бачити незбережені зміни інших транзакцій. Для більш високих рівнів ізоляції можуть використовуватися інші бази даних.
* Виконання: Транзакції виконуються послідовно, тобто в один момент часу може виконуватися тільки одна транзакція.

## Індекси.
Індекс - це додаткова структура даних, яка дозволяє швидше знаходити записи в таблиці за певними критеріями.

Індекси дозволяють:
* Пришвидшити виконання запитів: Індекси значно прискорюють виконання запитів, особливо тих, які використовують оператори `WHERE`, `ORDER BY` та `GROUP BY`.
* Покращити продуктивність: Завдяки індексам база даних може швидше знаходити потрібні дані, що зменшує навантаження на процесор і пам'ять.

Для створення індексу використовується оператор [CREATE INDEX](https://www.w3schools.com/sql/sql_create_index.asp).

Синтаксис: `CREATE INDEX ім'я_індексу ON ім'я_таблиці(стовпець_1, стовпець_2, ...);`

Приклад: `CREATE INDEX idx_users_name ON users(name);`

Індекси автоматично використовуються SQLite для оптимізації запитів, якщо це доцільно.
Для запиту `SELECT * FROM users WHERE name = 'Іван' ORDER BY age DESC;`, якщо у таблиці `users` є індекс за стовпцем `name`, SQLite скористається ним для швидкого пошуку за ім'ям.

Коли створювати індекси?
* Часті операції пошуку: Якщо часто виконуються запити з фільтрацією за певним стовпцем, для цього стовпця варто створити індекс.
* Сортування та групування: Якщо часто використовується ORDER BY або GROUP BY за певним стовпцем, для цього стовпця варто створити індекс.
* З'єднання таблиць: Якщо часто виконуються з'єднання таблиць за певними стовпцями, для цих стовпців варто створити індекс.

Коли уникати створення індексів?
* Малі таблиці: Для невеликих таблиць створення індексів може не дати значного приросту швидкості.
* Часті вставки та оновлення: Часте додавання або зміна даних може сповільнити роботу бази даних через необхідність оновлення індексів.
* Дуже селективні запити: Якщо запит повертає дуже мало рядків, створення індексу може бути недоцільним.

## Перегляд.

Перегляд (view) - це віртуальна таблиця, яка містить результати SQL-запиту.

Перегляди можуть використовуватися для:
* Спрощення складних запитів: Складний запит можна замінити на простіший запит до перегляду.
* Забезпечення безпеки: Обмежуючи доступ користувачів до певних даних.
* Оптимізації продуктивності: Створення переглядів з часто використовуваними обчисленнями може покращити продуктивність.

Приклад: `CREATE VIEW users_with_orders AS SELECT users.name, COUNT(*) AS order_count FROM users INNER JOIN orders ON users.id = orders.user_id GROUP BY users.name;` Цей перегляд підраховує кількість замовлень для кожного користувача. Далі його можна використовувати в інших запитах.

## Звершення роботи.
Після того, як всі необхідні маніпуляції було виконано, необхідно закрити з'єднання з базою даних. Це робиться викликом методу [close()](https://docs.python.org/3/library/sqlite3.html#sqlite3.Connection.close).

In [11]:
conn.close()