# Видобуток та збагачення структурованих даних

### ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Для роботи з структурованими табличними даними, які розміщені в реляційній БД [SQLite](https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiUyMOv1orvAhWDK3cKHac9DyMQFjAAegQIBxAD&url=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2FSQLite&usg=AOvVaw1s-RMK2VC2tXyDZxZXDYDo) в Python передбачена стандартна бібліотека [sqlite3](https://docs.python.org/3/library/sqlite3.html)

In [None]:
# підключення бібліотеки
import sqlite3

#### ПРИКЛАД ВИЛУЧЕННЯ ДАНИХ З БД
Створити БД SQLite з ім'ям `FIT-3m`, та імпорувати в неї таблицю, що містить журнал групи `jornal`

In [None]:
# створюємо з'єднання з БД
conn = sqlite3.connect("FIT-3m.db")

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

In [None]:
# створюємо об'єкт `cursor`, що відповідає за реалізацію операцій з таблицями БД
cur = conn.cursor()

In [None]:
print(type(cur), end='\n\n')
print(dir(cur))

##### виведемо ВСІ записи таблиці `jornal`

In [None]:
# створимо інстанс для операції `SELECT`
students_cur = cur.execute("SELECT * FROM jornal")

# будуємо список записів за допомогою метода `fetchall()`
students_list = students_cur.fetchall()

_ = [print(x) for x in students_list]

#### ПРИКЛАД ЗБАГАЧЕННЯ ДАНИХ З ЗОВНІШНЬОГО ДЖЕРЕЛА

Додати до списка студентів їх оцінки за вступне тестування, які розташовані в csv файлі `test_result.csv`

імпортуємо `test_result.csv` в робочу БД як таблицю `test`

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

##### Cтворимо нову таблицю, яка буде містити вміст таблиці `jornal` та поле оцінок з таблиці `test`



In [None]:
cur.execute("drop table if exists jornal_test;")

In [None]:
# створимо вираз на побудову пустої таблиці `jornal_test` з відповідними полями
sql_stmt = "CREATE TABLE IF NOT EXISTS jornal_test \
              (Surname TEXT,         \
               Name TEXT,            \
               Email TEXT,           \
               Test_result INT);"

# виконаемо запит на створення таблиці
cur.execute(sql_stmt)

# перевіримо стан виконання операції - виведемо список таблиць
tables_list = cur.execute("SELECT name FROM sqlite_master WHERE type = 'table';")
tables_list.fetchall()


In [None]:
# створимо запит на об'єднання таблиць 'jornal' та 'test' по прізвищу студента
sql_stmt = "SELECT jornal.*, test.\"Оцінка/100\" FROM  \
            jornal LEFT JOIN test ON jornal.Surname = test.\"Ім\'я\" "

# для перевірки виконаємо і виведемо результати запиту
cur.execute(sql_stmt).fetchall()

In [None]:
# заповнимо пусту таблицю результатми  запиту на злиття
_ = cur.execute("INSERT INTO jornal_test " + sql_stmt)

In [None]:
# збережемо вміст нової таблиці в список
jornal_test_list = cur.execute("SELECT * FROM jornal_test").fetchall()

_ = [print(x) for x in jornal_test_list]

In [None]:
# завершимо всі транзакції
conn.commit()

# закріємо з'єднання
conn.close()

#### ПРИКЛАД  ДЕСКРИПТИВНОГО АНАЛІЗУ ДАНИХ

Провести [попередній аналіз](https://ru.wikipedia.org/wiki/Описательная_статистика) отриманих даних з ціллю виявленя відхилень, помилок та інших непридатних даних.

Сведемо результати аналізу в таблицю, яка має наступний вигляд:

№| Показчик | Значення
:--:|:-------|-------:
1| кількість спостережень | xx 
2| кількість пустих значень | xx
4| середній бал|  xx.x
5| максимальний бал | xx
6| мінімальний бал  | xx
7| стандартне відхилення | xx.x
8| розмах вариації  | xx


In [None]:
# підключимо бібліотеку 'numpy' і дамо їй аліас 'np'
import numpy as np

ознайомитись з призначенням, можливостями та основним функціями [бібліотеки numpy](https://numpy.org) 

In [None]:
print(dir(np))

In [None]:
# перетворимо список студетів в numpay матрицю
jornal_test_arr = np.array(jornal_test_list)

In [None]:
print(jornal_test_arr)

In [None]:
print(type (jornal_test_arr), jornal_test_arr.shape)

In [None]:
# створимо масив с результатами тестів 
test_result = np.delete(jornal_test_arr, [0,1,2], 1)

In [None]:
# Значення 'None' - не є числом, то заміним його на 0
test_result[test_result == None] = 0

In [None]:
# будуємо словник з вихідними розрахунками
result_dict = {
    "кількість спостережень"   : len(test_result),
    "кількість пустих значень" : np.count_nonzero(test_result == 0),
    "середній бал"             : np.mean(test_result),
    "максимальний бал"         : np.max(test_result),
    "мінімальний бал"          : np.min(test_result[np.nonzero(test_result)]),
    "стандартне відхилення"    : np.std(test_result),
    "розмах вариації"          : result_dict["максимальний бал"] - result_dict["мінімальний бал"] 
    }

In [None]:
result_dict

In [None]:
# вивести шапку
print(
"""
=======================================
№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     
=======================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1

### ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

Користуючись результатами, що отримані в [Лабораторній роботі № 3](https://shkliarskiy.moodlecloud.com/mod/page/view.php?id=1193) виконати процедури видобутку, збагачення та попереднього аналізу даних.

__Постановка__: В 3-й лабораторній роботі отримано показчик, що характеризує окрему властивість квартири (ціна, метраж та ін.). 
Необхідно:
1. Відобразити цей показчик на адресу квартири, яка знаходиться в файлі `street_name.csv`, тобто побудувати новий файл `street_flat_propery.csv` якій містить 2 колонки: __<назва вулиці> <ваш показчик>__
2. На основі цьго файлу зробити відповідну таблицю в _SQLite_ та збагатити цю дані в цій таблиці назвою району де розташована квартира (дані по районах додаються) 
3. Провести попередній аналіз отриманих даних - вивести первинні статистики показчика по районах (_середне_ , _мінімальне_ , _максимальне_ і т.д. - див. приклад вище)

In [1]:
# Злиття файлу з показчиком та файлу з назвами вулиць в новий файл

# YOUR_FILE = підставте ваш файл ...
YOUR_FILE = 'street_living_area.csv'
with open(YOUR_FILE) as f1, \
     open('street_name.csv') as f2, \
     open('street_flat_propery.csv', 'w') as f3:
    
    for x, y in zip(f1, f2):
        line = f'{x[:-1].strip()},{y[:-1].strip()}\n'
#         print(line)
        f3.write(line)

#### імпортувати в БД файл 'street_flat_propery.csv' через CLI
- __sqlite3 districts.db__ - запустити SQLite та відкрити БД
- __.mode csv__ - перевести БД для роботи з csv-файлами
- __.import street_flat_propery.csv street_flat_propery__ - створює таблицю _street_flat_propery_ та завантажує в неї вміст файлу _street_flat_propery.csv_
- __SELECT * FROM street_flat_propery LIMIT 10;__ - вивести 10 записів для перевірки
- __.quit__ - завершити роботу з CLI SQLite



In [None]:
# Підключитись до БД 'districts.db' та створити відповідний курсор
conn = напишить код ...
cur  = напишить код ...

In [None]:
# для перевірки виведіть виведіть 10 записів з таблиці 'street_district'
напишить код ...

In [None]:
# побудувати запит на створення таблиці 'result' з 3-ма полями:
#     district - текстове
#     street - текстове
#     property - числове
stmt = напишить код ...

In [None]:
# виконати запит
cur.execute(stmt)

In [None]:
# перевірити схему таблиці
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('result');").fetchall()

In [None]:
# створити запит на злиття таблиці 'street_flat_propery' та 'street_district' 
# по полю 'street'
stmt_join = напишить код ...

In [None]:
# перевірити запит
cur.execute(stmt_join).fetchall()

In [None]:
# створити запит для наповнення таблиці `result` результатом запиту на об'єднання
stmt_insert = напишить код ..

In [None]:
# виконати запит на заповнення
cur.execute(stmt_insert)

In [None]:
# сберегти вміст створеної таблиці у вигляді списка
result_list = напишить код ...

#### для аналізу скористатися бібліотекою NumPy

In [None]:
import numpy as np

In [None]:
# створити np-масив з списку `result_list`
result_arr = напишить код ...

In [None]:
# побудувати словник для результатів аналізу
result_dict = {
    "кількість спостережень"   : напишить код ... ,
    "середнє значення"         : напишить код ... ,
    "максимальне значення"     : напишить код ... ,
    "мінімальне значення"      : напишить код ... ,
    "стандартне відхилення"    : напишить код ... ,
    "розмах вариації"          : напишить код ...
    }

In [None]:
# вивести шапку
print(
"""
================================================
№  :   РАЙОН        : ПОКАЗЧИК        : ЗНАЧЕННЯ     
================================================
"""      
      )

# вивести результати аналізу датасета
напишить код ...

In [None]:
conn = sqlite3.connect("districts.db")
cur = conn.cursor()

In [None]:
cur.execute("SELECT * FROM street_district LIMIT 10;").fetchall()

In [None]:
stmt = "CREATE TABLE result (district TEXT, street TEXT, price INT);"
cur.execute(stmt)

In [None]:
cur.execute("SELECT name FROM sqlite_master WHERE type = 'table';").fetchall()

In [None]:
stmt_join = \
"SELECT street_flat_propery.street, street_district.district, street_flat_propery.price \
FROM street_flat_propery \
JOIN street_district ON street_flat_propery.street == street_district.street;"

In [None]:
stmt_join

In [None]:
stmt_insert = "INSERT INTO result " + stmt_join

In [None]:
cur.execute(stmt_insert)

In [None]:
cur.execute("SELECT * FROM result LIMIT 10; ").fetchall()

In [None]:
result_list = cur.execute("SELECT * FROM result;").fetchall()
result_list

In [None]:
# створити np-масив з списку `result_list`
result_arr = np.array(result_list)

In [None]:
np.mean(np.array([1,2,3]))

In [None]:
result_dict = {
    "кількість спостережень"   : len(result_arr),
    "кількість пустих значень" : np.count_nonzero(result_arr[:,2] == 0),
    "середній бал"             : np.mean(result_arr[:,2]),
    "максимальний бал"         : np.max(result_arr[:,2]),
    "мінімальний бал"          : np.min(result_arr[:,2]),
    "стандартне відхилення"    : np.std(result_arr[:,2]),
    "розмах вариації"          : result_dict["максимальний бал"] - result_dict["мінімальний бал"] 
    }

In [None]:
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('street_district');").fetchall()

In [None]:
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('street_flat_propery');").fetchall()

In [None]:
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('result');").fetchall()