# Видобуток та збагачення структурованих даних

### ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Для роботи з структурованими табличними даними, які розміщені в реляційній БД [SQLite](https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiUyMOv1orvAhWDK3cKHac9DyMQFjAAegQIBxAD&url=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2FSQLite&usg=AOvVaw1s-RMK2VC2tXyDZxZXDYDo) в Python передбачена стандартна бібліотека [sqlite3](https://docs.python.org/3/library/sqlite3.html)

In [None]:
# підключення бібліотеки
import sqlite3

#### ПРИКЛАД ВИЛУЧЕННЯ ДАНИХ З БД
Створити БД SQLite з ім'ям `FIT-3m`, та імпорувати в неї таблицю, що містить журнал групи `jornal`

In [None]:
# створюємо з'єднання з БД
conn = sqlite3.connect("FIT-3m.db")

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

In [None]:
# створюємо об'єкт `cursor`, що відповідає за реалізацію операцій з таблицями БД
cur = conn.cursor()

In [None]:
print(type(cur), end='\n\n')
print(dir(cur))

##### виведемо ВСІ записи таблиці `jornal`

In [None]:
# створимо інстанс для операції `SELECT`
students_cur = cur.execute("SELECT * FROM jornal")

# будуємо список записів за допомогою метода `fetchall()`
students_list = students_cur.fetchall()

_ = [print(x) for x in students_list]

#### ПРИКЛАД ЗБАГАЧЕННЯ ДАНИХ З ЗОВНІШНЬОГО ДЖЕРЕЛА

Додати до списка студентів їх оцінки за вступне тестування, які розташовані в csv файлі `test_result.csv`

імпортуємо `test_result.csv` в робочу БД як таблицю `test`

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

##### Cтворимо нову таблицю, яка буде містити вміст таблиці `jornal` та поле оцінок з таблиці `test`



In [None]:
# створимо вираз на побудову пустої таблиці `jornal_test` з відповідними полями
sql_stmt = "CREATE TABLE IF NOT EXISTS jornal_test \
              (Surname TEXT,         \
               Name TEXT,            \
               Email TEXT,           \
               Test_result INT);"

# виконаемо запит на створення таблиці
cur.execute(sql_stmt)

# перевіримо стан виконання операції - виведемо список таблиць
tables_list = cur.execute("SELECT name FROM sqlite_master WHERE type = 'table';")
tables_list.fetchall()


In [45]:
# створимо запит на об'єднання таблиць 'jornal' та 'test' по прізвищу студента
sql_stmt = "SELECT jornal.*, test.\"Оцінка/100\" FROM  \
            jornal LEFT JOIN test ON jornal.Surname = test.\"Ім\'я\" "

# для перевірки виконаємо і виведемо результати запиту
cur.execute(sql_stmt).fetchall()

OperationalError: no such table: jornal

In [None]:
# заповнимо пусту таблицю результатми  запиту на злиття
_ = cur.execute("INSERT INTO jornal_test " + sql_stmt)

In [None]:
# збережемо вміст нової таблиці в список
jornal_test_list = cur.execute("SELECT * FROM jornal_test").fetchall()

_ = [print(x) for x in jornal_test_list]

In [None]:
# завершимо всі транзакції
conn.commit()

# закріємо з'єднання
conn.close()

#### ПРИКЛАД  ДЕСКРИПТИВНОГО АНАЛІЗУ ДАНИХ

Провести [попередній аналіз](https://ru.wikipedia.org/wiki/Описательная_статистика) отриманих даних з ціллю виявленя відхилень, помилок та інших непридатних даних.

Сведемо результати аналізу в таблицю, яка має наступний вигляд:

№| Показчик | Значення
:--:|:-------|-------:
1| кількість спостережень | xx 
2| кількість пустих значень | xx
4| середній бал|  xx.x
5| максимальний бал | xx
6| мінімальний бал  | xx
7| стандартне відхилення | xx.x
8| розмах вариації  | xx


In [None]:
# підключимо бібліотеку 'numpy' і дамо їй аліас 'np'
import numpy as np

ознайомитись з призначенням, можливостями та основним функціями [бібліотеки numpy](https://numpy.org) 

In [None]:
# перетворимо список студетів в numpay матрицю
jornal_test_arr = np.array(jornal_test_list)

In [None]:
print(type (jornal_test_arr), jornal_test_arr.shape)

In [None]:
# створимо масив с результатами тестів 
test_result = np.delete(jornal_test_arr, [0,1,2], 1)

In [None]:
# Значення 'None' - не є числом, то заміним його на 0
test_result[test_result == None] = 0

In [None]:
# будуємо словник з вихідними розрахунками
result_dict = {
    "кількість спостережень"   : len(test_result),
    "кількість пустих значень" : len(test_result) - np.count_nonzero(test_result),
    "середній бал"             : round(np.mean(test_result),1),
    "максимальний бал"         : np.max(test_result),
    "мінімальний бал"          : np.min(test_result[np.nonzero(test_result)]),
    "стандартне відхилення"    : round(np.std(test_result),1),
    "розмах вариації"          : np.max(test_result) - np.min(test_result[np.nonzero(test_result)]) 
    }

In [None]:
result_dict

In [None]:
# вивести шапку
print(
"""
=======================================
№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     
=======================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1

### ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

Користуючись результатами, що отримані в [Лабораторній роботі № 3](https://shkliarskiy.moodlecloud.com/mod/page/view.php?id=1193) виконати процедури видобутку, збагачення та попереднього аналізу даних.

__Постановка__: В 3-й лабораторній роботі отримано показчик, що характеризує окрему властивість квартири (ціна, метраж та ін.). 
Необхідно:
1. Відобразити цей показчик на адресу квартири, яка знаходиться в файлі `street_name.csv`, тобто побудувати новий файл `street_flat_propery.csv` якій містить 2 колонки: _<назва вулиці> <ваш показчик>_
2. На основі цьго файлу зробити відповідну таблицю в _SQLite_ та збагатити цю дані в цій таблиці назвою району де розташована квартира (дані по районах додаються) 
3. Провести попередній аналіз отриманих даних - вивести первинні статистики показчика по районах (_середне_ , _мінімальне_ , _максимальне_ і т.д. - див. приклад вище)

In [11]:
# Злиття файлу з показчиком та файлу з назвами вулиць в новий файл

YOUR_FILE = 'aprt_total_area.txt'
with open(YOUR_FILE) as f2, \
     open('street_name.csv') as f1, \
     open('street_flat_propery.csv', 'w') as f3:
    
    for x, y in zip(f1, f2):
        line = f'{x[:-1].strip()},{y[:-1].strip()}\n'
        print(line)
        f3.write(line)

street,area

Омеляновича-Павленка,73.0

,0.0

Ованеса Туманяна,100.0

Петропавлівська,58.0

Дніпровська,79.0

Саксаганського,0.0

Івана Мазепи,0.0

Дніпровська,87.0

Ділова,40.0

Новодарницька,51.0

Ревуцького,48.0

Липківського,85.0

Бендукідзе,76.0

Введенська,56.0

Виноградний,38.0

Кайсарова,70.0

Ахматової,103.0

Радченка,0.0

Дніпровська,69.0

Ділова,0.0

Бориспільська,50.0

Болсуновська,64.0

Українки,96.0

Антонова,46.0

Омеляновича-Павленка,44.0

,100.0

Ованеса Туманяна,240.0

Петропавлівська,0.0

Дніпровська,75.0

Саксаганського,78.0

Івана Мазепи,126.0

Дніпровська,93.0

Ділова,63.0

Новодарницька,44.0

Ревуцького,0.0

Липківського,52.0

Бендукідзе,99.0

Введенська,96.0

Виноградний,65.0

Кайсарова,50.0

Ахматової,76.0

Радченка,0.0

Дніпровська,99.0

Ділова,0.0

Бориспільська,59.0

Болсуновська,73.0

Українки,62.0

Антонова,76.0

Науки,76.0

Метрологічна,210.0

Дружби Народів,33.0

*** not found,0.0

Драгомирова,62.0

Данченка,0.0

Кримська,110.0

Новопольова,51.0

Туполєв

#### імпортувати в БД отриманий файл 'street_flat_propery.csv' через CLI
- __sqlite3 districts.db__ - запустити SQLite та відкрити БД
- __.mode csv__ - перевести БД для роботи з csv-файлами
- __.import street_flat_propery.csv street_flat_propery__ - створює таблицю _street_flat_propery_ та завантажує в неї вміст файлу _street_flat_propery.csv_
- __SELECT * FROM street_flat_propery LIMIT 10;__ - вивести 10 записів для перевірки
- __.quit__ - завершити роботу з CLI SQLite



In [13]:
# Підключитись до БД 'districts.db' в якій є прив'язка вулиць до районів 
conn = sqlite3.connect("districts.db")

# створити відповідний курсор
cur = conn.cursor()

NameError: name 'sqlite3' is not defined

In [None]:
# для перевірки виведіть 10 записів з таблиці 'street_district'
напишить код ...

In [None]:
# побудувати запит на створення таблиці 'result' з 3-ма полями:
#     district - текстове
#     street - текстове
#     property - числове
stmt = напишить код ...

In [None]:
# виконати запит
cur.execute(stmt)

In [None]:
# перевірити схему таблиці
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('result');").fetchall()

In [None]:
# створити запит на злиття таблиці 'street_flat_propery' та 'street_district' 
# по полю 'street'
stmt_join = напишить код ...

In [38]:
# перевірити запит
_ = cur.execute(stmt_join).fetchall()

In [None]:
# створити запит для наповнення таблиці `result` результатом запиту на об'єднання
stmt_insert = напишить код ..

In [None]:
# виконати запит на заповнення
cur.execute(stmt_insert)

In [None]:
# сберегти вміст створеної таблиці у вигляді списка
result_list = напишить код ...

In [65]:
# підключення бібліотеки
import sqlite3

# Підключитись до БД 'districts.db' в якій є прив'язка вулиць до районів 
conn = sqlite3.connect("districts.db")

# створити відповідний курсор
cur = conn.cursor()
print(type(cur), end='\n\n')
print(dir(cur))

# для перевірки виведіть 10 записів з таблиці 'street_district'
apart_cur = cur.execute("SELECT * FROM street_district LIMIT 10")
apart_list = apart_cur.fetchall()
_ = [print(x) for x in apart_list]

# побудувати запит на створення таблиці 'result' з 3-ма полями:
#     district - текстове
#     street - текстове
#     property - числове
stmt = "CREATE TABLE IF NOT EXISTS result \
              (district TEXT,         \
               street TEXT,            \
               property INT);"

# виконати запит
cur.execute(stmt)

# перевірити схему таблиці
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('result');").fetchall()

# створити запит на злиття таблиці 'street_flat_propery' та 'street_district' по полю 'street'
stmt_join = "SELECT street_district.district, street_flat_propery.* FROM \
             street_flat_propery LEFT JOIN street_district ON street_flat_propery.street = street_district.street"

# перевірити запит
cur.execute(stmt_join).fetchall()

# створити запит для наповнення таблиці `result` результатом запиту на об'єднання
stmt_insert = ("INSERT INTO result " + stmt_join)

# виконати запит на заповнення
cur.execute(stmt_insert)

# сберегти вміст створеної таблиці у вигляді списка
result_list = cur.execute("SELECT * FROM result").fetchall()

_ = [print(x) for x in result_list]

# завершимо всі транзакції
conn.commit()

# закріємо з'єднання
conn.close()

<class 'sqlite3.Cursor'>

['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'arraysize', 'close', 'connection', 'description', 'execute', 'executemany', 'executescript', 'fetchall', 'fetchmany', 'fetchone', 'lastrowid', 'row_factory', 'rowcount', 'setinputsizes', 'setoutputsize']
('9-го Травня', 'вулиця', 'Святошинський')
('Абрикосова', 'вулиця', 'Оболонський')
('Абрикосова', 'вулиця', 'Дарницький')
('Абрикосова', 'вулиця', 'Подільський')
('Августина Волошина', 'вулиця', 'Солом’янський')
('Авдєєнка Генерала', 'вулиця', 'Святошинський')
('Автозаводська', 'вулиця', 'Оболонський')
('Автозаводський ', 'провулок', 'Оболонський')
('Автопаркова', 'вулиця', 'Дарницький')
('Авторемонтна', 'вулиця', "Солом'янський")
(None,

#### для аналізу скористатися бібліотекою NumPy

In [None]:
import numpy as np

In [None]:
# створити np-масив з списку `result_list`
result_arr = напишить код ...

In [None]:
# побудувати словник для результатів аналізу
result_dict = {
    "кількість спостережень"   : напишить код ... ,
    "середнє значення"         : напишить код ... ,
    "максимальне значення"     : напишить код ... ,
    "мінімальне значення"      : напишить код ... ,
    "стандартне відхилення"    : напишить код ... ,
    "розмах вариації"          : напишить код ...
    }

In [None]:
# вивести шапку
print(
"""
================================================
№  :   РАЙОН        : ПОКАЗЧИК        : ЗНАЧЕННЯ     
================================================
"""      
      )

# вивести результати аналізу датасета
напишить код ...

In [75]:
import numpy as np

# створити np-масив з списку `result_list`
result_arr = np.array(result_list)

#print(type (result_arr), result_arr.shape)

test_result = np.delete(result_arr, [0,1],1)

#print(test_result)

test_result[test_result == None] = 0

#print(test_result)

# побудувати словник для результатів аналізу
result_dict = {
    "кількість спостережень"   : len(test_result),
    "середнє значення"         : round(np.mean(test_result),1),
    "максимальне значення"     : np.max(test_result),
    "мінімальне значення"      : np.min(test_result[np.nonzero(test_result)]),
    "стандартне відхилення"    : round(np.std(test_result),1),
    "розмах вариації"          : np.max(test_result) - np.min(test_result[np.nonzero(test_result)]) 
    }

# вивести шапку
print(
"""
================================================
№  :   РАЙОН        : ПОКАЗЧИК        : ЗНАЧЕННЯ     
================================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1


<class 'numpy.ndarray'> (1622, 3)

№  :   РАЙОН        : ПОКАЗЧИК        : ЗНАЧЕННЯ     

1   кількість спостережень     1622
2   середнє значення           69.9
3   максимальне значення       555
4   мінімальне значення        22
5   стандартне відхилення      57.5
6   розмах вариації            533
