# SQL-технології для видобутку та збагачення даних

1. #### Огляд, властивості та призначення БД SQLite
2. #### Встановлення SQLite та робота з CLI
3. #### Огляд високорівневих додатків для SQLite
4. #### Встановлення та настроювання python-бібліотеки *sqlite3*
5. #### Основні *api* для роботи з sqlite3
6. #### Відобуток та збагаченя реляційних даних

## 1. Огляд, властивості та призначення БД SQLite

![image.png](attachment:image.png)

[__SQLite__](https://ru.wikipedia.org/wiki/SQLite) - це [вбудована бібліотека](https://ru.wikipedia.org/wiki/Встраиваемая_СУБД) в якій реалізовано [стандарт SQL 92](https://ru.wikipedia.org/wiki/SQL-92)



- [__Домашня сторінка проекту__](https://www.sqlite.org/)
- [__Документація__](https://www.sqlite.org/docs.html)
- [__GitHub репозиторій__](https://github.com/sqlite/sqlite)

[__Популярність SQLite__](https://trends.google.ru/trends/explore?date=today%205-y&q=%2Fm%2F01kgq9,%2Fm%2F04y3k,MS%20SQL,%2Fm%2F05ynw)

__ПЕРЕВАГИ__:
- Дуже популярна (браузери, мобільні пристрої, IOT ...)
- Відносно надійна
- Консольна утиліта для роботи з базами (CLI)
- Відкриті вихідні коди

__НЕДОЛІКИ__:
- Немає процедур, що зберігаються.
- Немає вбудованої підтримки UNICODE
- Не підходить для програм, які часто звертаються до бази

## 2. Встановлення SQLite та робота з CLI

Завантаження та встановлення __SQLite__ на локальний комп'ютер з [Офіційного сайту](https://www.sqlite.org/index.html)

In [1]:
# перевірка встановлення та поточної версії
!sqlite3 --version

3.40.1 2022-12-28 14:03:47 df5c253c0b3dd24916e4ec7cf77d3db5294cc9fd45ae7b9c5e82ad8197f38a24


__Запуск з командного рядка__: `sqlite3`, за яким слід вказати ім’я файлу, який містить базу даних SQLite. 
- Якщо файл не існує, новий файл бази даних буде створено автоматично. 
- Якщо в командному рядку не вказано файл бази даних, створюється тимчасова база даних, яка автоматично видаляється після завершення роботи програми `sqlite3`.

In [None]:
# запуск sqlite
!sqlite3


# вихід з # вихід з CLI SQLite
!.quit

__вивід dot-команд shell SQLite__

.help

__Основні dot-команди SQLite__
- `.databases` Перелік імен і файлів приєднаних баз даних
- `.dbinfo <dbname>` Показати інформацію про стан бази даних
- `.import FILE TABLE` Імпорт даних з FILE в TABLE
- `.indexes TABLE` Показати назви індексів в таблиці БД
- `.shell <os cli>` Виконати команду CLI OS

- `.read FILE` Читання  даних з FILE
- `.recover` Відновити якомога більше даних із пошкодженої БД
- `.show` Показати поточні значення для різних налаштувань
- `.tables` Список назв таблиць в поточній БД
- `.mode` Встановити режим виведення
- `.exit <code>` Вихід з кодом повернення CODE

__ОПЕРАЦІЇ З ТАБЛИЦЯМИ ЗА ДОПОМОГОЮ `SQL`__

- [Документація SQLite](https://www.sqlite.org/lang.html)
- [Онлайн підручник](https://www.w3schools.com/sql/sql_intro.asp)

## 3. Огляд високорівневих додатків для SQLite

- [__Valentina Studio__](https://www.valentina-db.com/ru/valentina-studio-overview)
- [__SQLiteStudio__](https://sqlitestudio.pl)
- [__SQLite Manager для Google Chrome™__](https://sqlmanager.freebusinessapps.net)
- ...

[__DB Browser for SQLite__](https://sqlitebrowser.org) — це високоякісний візуальний інструмент з [відкритим кодом](https://github.com/sqlitebrowser/sqlitebrowser) для створення, проектування та редагування файлів бази даних, сумісних із SQLite


## 4. Встановлення та настроювання python-бібліотеки *sqlite3*

[SQLite](https://docs.python.org/3/library/sqlite3.html) — це бібліотека C, яка надає легку дискову базу даних, яка не вимагає окремого серверного процесу та дозволяє отримати доступ до бази даних за допомогою мови запитів SQL.

In [5]:
# перевірка наявності бібліотеки sqlite
!conda list | grep sqlite 

sqlite                    3.40.1               h880c91c_0  


Встановити python-драйвер `sqlite` [з репозиторію пакетів __PyPi__](https://pypi.org/project/db-sqlite3/)

In [1]:
# підключення SQLite
import sqlite3 as sqlite

## 5. Основні *api* для роботи з sqlite3

In [2]:
dir(sqlite)

['Binary',
 'Connection',
 'Cursor',
 'DataError',
 'DatabaseError',
 'Date',
 'DateFromTicks',
 'Error',
 'IntegrityError',
 'InterfaceError',
 'InternalError',
 'NotSupportedError',
 'OperationalError',
 'OptimizedUnicode',
 'PARSE_COLNAMES',
 'PARSE_DECLTYPES',
 'PrepareProtocol',
 'ProgrammingError',
 'Row',
 'SQLITE_ALTER_TABLE',
 'SQLITE_ANALYZE',
 'SQLITE_ATTACH',
 'SQLITE_CREATE_INDEX',
 'SQLITE_CREATE_TABLE',
 'SQLITE_CREATE_TEMP_INDEX',
 'SQLITE_CREATE_TEMP_TABLE',
 'SQLITE_CREATE_TEMP_TRIGGER',
 'SQLITE_CREATE_TEMP_VIEW',
 'SQLITE_CREATE_TRIGGER',
 'SQLITE_CREATE_VIEW',
 'SQLITE_CREATE_VTABLE',
 'SQLITE_DELETE',
 'SQLITE_DENY',
 'SQLITE_DETACH',
 'SQLITE_DONE',
 'SQLITE_DROP_INDEX',
 'SQLITE_DROP_TABLE',
 'SQLITE_DROP_TEMP_INDEX',
 'SQLITE_DROP_TEMP_TABLE',
 'SQLITE_DROP_TEMP_TRIGGER',
 'SQLITE_DROP_TEMP_VIEW',
 'SQLITE_DROP_TRIGGER',
 'SQLITE_DROP_VIEW',
 'SQLITE_DROP_VTABLE',
 'SQLITE_FUNCTION',
 'SQLITE_IGNORE',
 'SQLITE_INSERT',
 'SQLITE_OK',
 'SQLITE_PRAGMA',
 'SQLITE_R

__Типи даних SQLite у Python__:
- __NULL__ – значення NULL
- __INTEGER__ - ціле число
- __REAL__ - число з плаваючою точкою
- __TEXT__ - текст
- __BLOB__ - бінарне уявлення великих об'єктів, що зберігається так, як його ввели

### 5.1 Основні об'єкти sqlite3

#### 1. Об'єкт [__connection__](https://docs.python.org/3/library/sqlite3.html?highlight=connection#sqlite3.Connection)

відповідає за створення БД та утворення зв'язку з нею

In [3]:
sqlite.connect?

In [12]:
# якщо файла БД не існує? то він буде створений
conn = sqlite.connect('districts')
conn?

In [5]:
print(dir(conn))



In [6]:
# Резидентна база даних (in-memory) зєднання :memory:
mem_conn = sqlite.connect(":memory:")

#### 2. Об'єкт [__cursor__](https://docs.python.org/3/library/sqlite3.html?highlight=cursor#sqlite3.Cursor)

Дозволяє робити SQL-запити до бази

In [None]:
conn = sqlite

In [7]:
# створення об'єкта cursor
cur = conn.cursor()
?cur

In [None]:
# список методів та властивостей 'cursor'
dir(cur)

#### стандартна схема виконання sql-запитів без повернення результатів
[__cursor.execute(<sql-запит>)__](https://docs.python.org/3/library/sqlite3.html?highlight=execute#sqlite3.Cursor.execute)

__...__

[__connection.commit()__](https://docs.python.org/3/library/sqlite3.html?highlight=execute#sqlite3.Cursor.execute)

In [18]:
!ls

SQLite-Copy1.ipynb     districts              kiev-districts-journal
SQLite.ipynb           kiev-districts         kiev-districts.csv


In [19]:
sql = """DELETE FROM districts WHERE district = 'Святошинський'"""
cur.execute(sql)
conn.commit()

OperationalError: no such table: districts

#### виконання sql-запитів з поверненням результатів
[__cursor.execute(<sql-запит>)__](https://docs.python.org/3/library/sqlite3.html?highlight=execute#sqlite3.Cursor.execute)

[__cursor.fetch...()__](https://docs.python.org/3/library/sqlite3.html?highlight=fetch#sqlite3.Cursor.fetchone)
__...__


In [23]:
# вивести 10 записів 
cur.execute("SELECT * FROM 'kiev_districts'")
res = cur.fetchmany(3)
print(res)

OperationalError: no such table: kiev_districts

## 6. Видобуток та збагаченя реляційних даних

__Збагачення даних__ - це об’єднання даних із зовнішнього  джерела з наявною базою даних з метою покращання даних, та набуття їми більшої інформативності та цінності.

__Методи збагачення даних__:

- *Діагностування* - перевірка даних на предмет виявлення помилок, пустих значень, викидів та ін.
- *Очистка* -  передбачає видалення повторюваних, недійсних та неактивних записів, а також забезпечення точності й актуальності даних у цих записах.
- *Збагачення* - приведення показчиків до виду, що полегшує іх сприйняття та аналіз 
- *Додавання* - додавання до існуючого набіру нових показчиків із заданого контексту


# ПИТАННЯ ? 