# Видобуток та збагачення структурованих даних

### ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Для роботи з структурованими табличними даними, які розміщені в реляційній БД [SQLite](https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiUyMOv1orvAhWDK3cKHac9DyMQFjAAegQIBxAD&url=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2FSQLite&usg=AOvVaw1s-RMK2VC2tXyDZxZXDYDo) в Python передбачена стандартна бібліотека [sqlite3](https://docs.python.org/3/library/sqlite3.html)

In [126]:
# підключення бібліотеки
import sqlite3

#### ПРИКЛАД ВИЛУЧЕННЯ ДАНИХ З БД
Створити БД SQLite з ім'ям `FIT-4m`, та імпорувати в неї таблицю, що містить журнал групи `jornal`

In [2]:
# створюємо з'єднання з БД
conn = sqlite3.connect("FIT-4m.db")

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

In [3]:
# створюємо об'єкт `cursor`, що відповідає за реалізацію операцій з таблицями БД
cur = conn.cursor()

In [4]:
print(type(cur), end='\n\n')
print(dir(cur))

<class 'sqlite3.Cursor'>

['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'arraysize', 'close', 'connection', 'description', 'execute', 'executemany', 'executescript', 'fetchall', 'fetchmany', 'fetchone', 'lastrowid', 'row_factory', 'rowcount', 'setinputsizes', 'setoutputsize']


##### виведемо ВСІ записи таблиці `jornal`

In [4]:
# створимо інстанс для операції `SELECT`
students_cur = cur.execute("SELECT * FROM jornal")

# будуємо список записів за допомогою метода `fetchall()`
students_list = students_cur.fetchall()

_ = [print(x) for x in students_list]

('Антонов', 'Іван', 'i.antonov_fit_4m_22_m_d@knute.edu.ua', None)
('Антонюк', 'Данило', 'd.antonyuk_fit_4m_22_m_d@knute.edu.ua', None)
('Багінський', 'Вадим', 'v.bahinskyy_fit_4m_22_m_d@knute.edu.ua', None)
('Бай', 'Андрій', 'a.bay_fit_4m_22_m_d@knute.edu.ua', 'https://github.com/Ullrvetr')
('Безсмертний', 'Володимир', 'v.bezsmertnyy_fit_4m_22_m_d@knute.edu.ua', None)
('Будяну', 'Максим', 'm.budyanu_fit_4m_22_m_d@knute.edu.ua', 'https://github.com/Budeanu')
('Власенко', 'Олександр', 'o.vlasenko_fit_4m_22_m_d@knute.edu.ua', None)
('Гелла', 'Всеволод', 'v.hella_fit_4m_22_m_d@knute.edu.ua', None)
('Гонгало', 'Вадим', 'v.honhalo_fit_4m_22_m_d@knute.edu.ua', 'https://github.com/Vaditos/DM--honhalo-')
('Дринь', 'Ярослав', 'y.dryn_fit_4m_22_m_d@knute.edu.ua', None)
('Дубовий', 'Іван', 'i.dubovyy_fit_4m_22_m_d@knute.edu.ua', None)
('Копотун', 'Світлана', 's.kopotun_fit_4m_22_m_d@knute.edu.ua', 'https://github.com/Kopotuns')
('Коротких', 'Віталій', 'v.korotkykh_fit_4m_22_m_d@knute.edu.ua', None

#### ПРИКЛАД ЗБАГАЧЕННЯ ДАНИХ З ЗОВНІШНЬОГО ДЖЕРЕЛА

Додати до списка студентів їх оцінки за вступне тестування, які розташовані в csv файлі `test_result.csv`

імпортуємо `test_result.csv` в робочу БД як таблицю `test`

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

##### Cтворимо нову таблицю, яка буде містити вміст таблиці `jornal` та поле оцінок з таблиці `test`



In [6]:
# створимо вираз на побудову пустої таблиці `jornal_test` з відповідними полями
sql_stmt = "CREATE TABLE IF NOT EXISTS jornal_test \
              (Surname TEXT,         \
               Name TEXT,            \
               Email TEXT,           \
               GitHub TEXT,          \
               Test_result INT);"

# виконаемо запит на створення таблиці
cur.execute(sql_stmt)

<sqlite3.Cursor at 0x192b9429420>

In [7]:
# перевіримо стан виконання операції - виведемо список таблиць
tables_list = cur.execute("SELECT name FROM sqlite_master WHERE type = 'table';")
tables_list.fetchall()

[('jornal_test',), ('jornal',)]

In [31]:
# створимо запит на об'єднання таблиць 'jornal' та 'test' по прізвищу студента
sql_stmt = "SELECT jornal.*, jornal_test.Test_result FROM  \
            jornal LEFT JOIN jornal_test ON jornal.Surname = jornal_test.Surname "

In [32]:
# для перевірки виконаємо і виведемо результати запиту
cur.execute(sql_stmt).fetchmany(7)

[('Антонов', 'Іван', 'i.antonov_fit_4m_22_m_d@knute.edu.ua', None, None),
 ('Антонюк', 'Данило', 'd.antonyuk_fit_4m_22_m_d@knute.edu.ua', None, None),
 ('Багінський', 'Вадим', 'v.bahinskyy_fit_4m_22_m_d@knute.edu.ua', None, None),
 ('Бай',
  'Андрій',
  'a.bay_fit_4m_22_m_d@knute.edu.ua',
  'https://github.com/Ullrvetr',
  None),
 ('Безсмертний',
  'Володимир',
  'v.bezsmertnyy_fit_4m_22_m_d@knute.edu.ua',
  None,
  None),
 ('Будяну',
  'Максим',
  'm.budyanu_fit_4m_22_m_d@knute.edu.ua',
  'https://github.com/Budeanu',
  None),
 ('Власенко',
  'Олександр',
  'o.vlasenko_fit_4m_22_m_d@knute.edu.ua',
  None,
  None)]

In [33]:
# заповнимо пусту таблицю результатми  запиту на злиття
_ = cur.execute("INSERT INTO jornal_test " + sql_stmt)

In [5]:
# збережемо вміст нової таблиці в список
jornal_test_list = cur.execute("SELECT * FROM jornal_test").fetchall()

_ = [print(x) for x in jornal_test_list]

('Антонов', 'Іван', 'i.antonov_fit_4m_22_m_d@knute.edu.ua', None, None)
('Антонюк', 'Данило', 'd.antonyuk_fit_4m_22_m_d@knute.edu.ua', None, None)
('Багінський', 'Вадим', 'v.bahinskyy_fit_4m_22_m_d@knute.edu.ua', None, None)
('Бай', 'Андрій', 'a.bay_fit_4m_22_m_d@knute.edu.ua', 'https://github.com/Ullrvetr', None)
('Безсмертний', 'Володимир', 'v.bezsmertnyy_fit_4m_22_m_d@knute.edu.ua', None, None)
('Будяну', 'Максим', 'm.budyanu_fit_4m_22_m_d@knute.edu.ua', 'https://github.com/Budeanu', None)
('Власенко', 'Олександр', 'o.vlasenko_fit_4m_22_m_d@knute.edu.ua', None, None)
('Гелла', 'Всеволод', 'v.hella_fit_4m_22_m_d@knute.edu.ua', None, None)
('Гонгало', 'Вадим', 'v.honhalo_fit_4m_22_m_d@knute.edu.ua', 'https://github.com/Vaditos/DM--honhalo-', None)
('Дринь', 'Ярослав', 'y.dryn_fit_4m_22_m_d@knute.edu.ua', None, None)
('Дубовий', 'Іван', 'i.dubovyy_fit_4m_22_m_d@knute.edu.ua', None, None)
('Копотун', 'Світлана', 's.kopotun_fit_4m_22_m_d@knute.edu.ua', 'https://github.com/Kopotuns', None

In [6]:
# завершимо всі транзакції
conn.commit()

# закріємо з'єднання
conn.close()

#### ПРИКЛАД  ДЕСКРИПТИВНОГО АНАЛІЗУ ДАНИХ

Провести [попередній аналіз](https://ru.wikipedia.org/wiki/Описательная_статистика) отриманих даних з ціллю виявленя відхилень, помилок та інших непридатних даних.

Сведемо результати аналізу в таблицю, яка має наступний вигляд:

№| Показчик | Значення
:--:|:-------|-------:
1| кількість спостережень | xx 
2| кількість пустих значень | xx
4| середній бал|  xx.x
5| максимальний бал | xx
6| мінімальний бал  | xx
7| стандартне відхилення | xx.x
8| розмах вариації  | xx


In [7]:
# підключимо бібліотеку 'numpy' і дамо їй аліас 'np'
import numpy as np

ознайомитись з призначенням, можливостями та основним функціями [бібліотеки numpy](https://numpy.org) 

In [8]:
# перетворимо список студетів в numpay матрицю
jornal_test_arr = np.array(jornal_test_list)

In [9]:
print(type (jornal_test_arr), jornal_test_arr.shape)

<class 'numpy.ndarray'> (29, 5)


In [10]:
# створимо масив с результатами тестів 
test_result = np.delete(jornal_test_arr, [1,2,3], axis=1)

In [12]:
# Значення 'None' - не є числом, то заміним його на 0
test_result[test_result == None] = 0

In [13]:
# залишити тільки статистично важливі показчики
test_result = np.delete(test_result, 0, axis=1)

In [196]:
# будуємо словник з вихідними розрахунками
result_dict = {
    "кількість спостережень"   : len(test_result),
    "кількість пустих значень" : len(test_result) - np.count_nonzero(test_result),
    "середній бал"             : round(np.mean(test_result),1),
    "максимальний бал"         : np.max(test_result),
    "мінімальний бал"          : np.min(test_result),
    "стандартне відхилення"    : round(np.std(test_result),1),
    "розмах вариації"          : np.max(test_result) - np.min(test_result) 
    }
#[np.nonzero(test_result)]

In [192]:
result_dict

{'кількість спостережень': 29,
 'кількість пустих значень': 29,
 'середній бал': 0.0,
 'максимальний бал': 0,
 'мінімальний бал': 0,
 'стандартне відхилення': 0.0,
 'розмах вариації': 0}

In [197]:
# вивести шапку
print(
"""
=======================================
№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     
=======================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1


№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     

1   кількість спостережень     29
2   кількість пустих значень   29
3   середній бал               0.0
4   максимальний бал           0
5   мінімальний бал            0
6   стандартне відхилення      0.0
7   розмах вариації            0


### ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

Користуючись результатами, що отримані в [Лабораторній роботі № 3](https://shkliarskiy.moodlecloud.com/mod/page/view.php?id=1193) виконати процедури видобутку, збагачення та попереднього аналізу даних.

__Постановка__: В 3-й лабораторній роботі отримано показчик, що характеризує окрему властивість квартири (ціна, метраж та ін.). 
Необхідно:
1. Відобразити цей показчик на адресу квартири, яка знаходиться в файлі `street_name.csv`, тобто побудувати новий файл `street_flat_propery.csv` якій містить 2 колонки: _<назва вулиці> <ваш показчик>_
2. На основі цьго файлу зробити відповідну таблицю в _SQLite_ та збагатити цю дані в цій таблиці назвою району де розташована квартира (дані по районах додаються) 
3. Провести попередній аналіз отриманих даних - вивести первинні статистики показчика по районах (_середне_ , _мінімальне_ , _максимальне_ і т.д. - див. приклад вище)

In [42]:
# Злиття файлу з показчиком та файлу з назвами вулиць в новий файл

YOUR_FILE = ('aprt_total_area.txt')
with open(YOUR_FILE, encoding='utf-8') as f1, \
     open('street_name.csv', encoding='utf-8') as f2, \
     open('street_flat_propery.csv', 'w', encoding='utf-8') as f3:
    
    for x, y in zip(f1, f2):
        line = f'{x[:-1].strip()},{y[:-1].strip()}\n'
        print(line)
        f3.write(line)

Матеріал: кирпичные та загальна площа: 73 / 37 / 15 м².,street

Матеріал: 0 та загальна площа: 110.27 / 58 / - м².,Омеляновича-Павленка

Матеріал: монолитно-каркасные та загальна площа: 100 / 56 / 18 м².,

Матеріал: кирпичные та загальна площа: 58 / 32 / 8 м².,Ованеса Туманяна

Матеріал: монолитно-каркасные та загальна площа: 79 / 36 / 12 м².,Петропавлівська

Матеріал: монолитно-каркасные та загальна площа: 138.7 / 77.6 / 18 м².,Дніпровська

Матеріал: монолитно-каркасные та загальна площа: 201.4 / 115 / 25 м².,Саксаганського

Матеріал: монолитно-каркасные та загальна площа: 87 / 43 / 21 м².,Івана Мазепи

Матеріал: монолитно-каркасные та загальна площа: 40 / 10 / 19 м².,Дніпровська

Матеріал: кирпичные та загальна площа: 51 / 29 / 8 м².,Ділова

Матеріал: монолитно-каркасные та загальна площа: 48 / 20 / 17 м².,Новодарницька

Матеріал: кирпичные та загальна площа: 85 / 40.1 / 14.8 м².,Ревуцького

Матеріал: монолитно-каркасные та загальна площа: 76 / 33.4 / 15.6 м².,Липківського

Матеріал:

#### імпортувати в БД отриманий файл 'street_flat_propery.csv' через CLI
- __sqlite3 districts.db__ - запустити SQLite та відкрити БД
- __.mode csv__ - перевести БД для роботи з csv-файлами
- __.import street_flat_propery.csv street_flat_propery__ - створює таблицю _street_flat_propery_ та завантажує в неї вміст файлу _street_flat_propery.csv_
- __SELECT * FROM street_flat_propery LIMIT 10;__ - вивести 10 записів для перевірки
- __.quit__ - завершити роботу з CLI SQLite



In [127]:
# Підключитись до БД 'districts.db' в якій є прив'язка вулиць до районів 
conn = sqlite3.connect("districts.db")

# створити відповідний курсор
cur = conn.cursor()

In [92]:
#перевірка
cur.execute ("SELECT * FROM street_flat_propery LIMIT 10;").fetchall()

[('Матеріал: 0 та загальна площа: 110.27 / 58 / - м².',
  'Омеляновича-Павленка'),
 ('Матеріал: монолитно-каркасные та загальна площа: 100 / 56 / 18 м².', None),
 ('Матеріал: кирпичные та загальна площа: 58 / 32 / 8 м².',
  'Ованеса Туманяна'),
 ('Матеріал: монолитно-каркасные та загальна площа: 79 / 36 / 12 м².',
  'Петропавлівська'),
 ('Матеріал: монолитно-каркасные та загальна площа: 138.7 / 77.6 / 18 м².',
  'Дніпровська'),
 ('Матеріал: монолитно-каркасные та загальна площа: 201.4 / 115 / 25 м².',
  'Саксаганського'),
 ('Матеріал: монолитно-каркасные та загальна площа: 87 / 43 / 21 м².',
  'Івана Мазепи'),
 ('Матеріал: монолитно-каркасные та загальна площа: 40 / 10 / 19 м².',
  'Дніпровська'),
 ('Матеріал: кирпичные та загальна площа: 51 / 29 / 8 м².', 'Ділова'),
 ('Матеріал: монолитно-каркасные та загальна площа: 48 / 20 / 17 м².',
  'Новодарницька')]

In [48]:
# побудувати запит на створення таблиці 'result' з 3-ма полями:
#     district - текстове
#     street - текстове
#     property - числове
stmt = "CREATE TABLE IF NOT EXISTS result \
        (districs text, \
         street text, \
         property int)"

In [49]:
# виконати запит
cur.execute(stmt)

<sqlite3.Cursor at 0x1fa03244e30>

In [100]:
# перевірити схему таблиці
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('result');").fetchall()

[('districs',), ('street',), ('property',)]

In [101]:
# створити запит на злиття таблиці 'street_flat_propery' та 'street_district' 
# по полю 'street'
stmt_join = "SELECT street_flat_propery.*, street_district.street FROM  \
            street_flat_propery LEFT JOIN street_district ON street_flat_propery.street = street_district.street "

In [106]:
# перевірити запит
cur.execute(stmt_join).fetchmany(10)

[('Матеріал: 0 та загальна площа: 110.27 / 58 / - м².',
  'Омеляновича-Павленка',
  None),
 ('Матеріал: монолитно-каркасные та загальна площа: 100 / 56 / 18 м².',
  None,
  None),
 ('Матеріал: кирпичные та загальна площа: 58 / 32 / 8 м².',
  'Ованеса Туманяна',
  None),
 ('Матеріал: монолитно-каркасные та загальна площа: 79 / 36 / 12 м².',
  'Петропавлівська',
  'Петропавлівська'),
 ('Матеріал: монолитно-каркасные та загальна площа: 79 / 36 / 12 м².',
  'Петропавлівська',
  'Петропавлівська'),
 ('Матеріал: монолитно-каркасные та загальна площа: 138.7 / 77.6 / 18 м².',
  'Дніпровська',
  'Дніпровська'),
 ('Матеріал: монолитно-каркасные та загальна площа: 201.4 / 115 / 25 м².',
  'Саксаганського',
  'Саксаганського'),
 ('Матеріал: монолитно-каркасные та загальна площа: 87 / 43 / 21 м².',
  'Івана Мазепи',
  None),
 ('Матеріал: монолитно-каркасные та загальна площа: 40 / 10 / 19 м².',
  'Дніпровська',
  'Дніпровська'),
 ('Матеріал: кирпичные та загальна площа: 51 / 29 / 8 м².',
  'Ділова'

In [116]:
# створити запит для наповнення таблиці `result` результатом запиту на об'єднання
stmt_insert = "INSERT INTO result " + stmt_join

In [117]:
# виконати запит на заповнення
cur.execute(stmt_insert)

<sqlite3.Cursor at 0x1fa036ae6c0>

In [129]:
# сберегти вміст створеної таблиці у вигляді списка
result_list = cur.execute("SELECT * FROM result").fetchall()

_ = [print(x) for x in result_list]

('Матеріал: 0 та загальна площа: 110.27 / 58 / - м².', 'Омеляновича-Павленка', None)
('Матеріал: монолитно-каркасные та загальна площа: 100 / 56 / 18 м².', None, None)
('Матеріал: кирпичные та загальна площа: 58 / 32 / 8 м².', 'Ованеса Туманяна', None)
('Матеріал: монолитно-каркасные та загальна площа: 79 / 36 / 12 м².', 'Петропавлівська', 'Петропавлівська')
('Матеріал: монолитно-каркасные та загальна площа: 79 / 36 / 12 м².', 'Петропавлівська', 'Петропавлівська')
('Матеріал: монолитно-каркасные та загальна площа: 138.7 / 77.6 / 18 м².', 'Дніпровська', 'Дніпровська')
('Матеріал: монолитно-каркасные та загальна площа: 201.4 / 115 / 25 м².', 'Саксаганського', 'Саксаганського')
('Матеріал: монолитно-каркасные та загальна площа: 87 / 43 / 21 м².', 'Івана Мазепи', None)
('Матеріал: монолитно-каркасные та загальна площа: 40 / 10 / 19 м².', 'Дніпровська', 'Дніпровська')
('Матеріал: кирпичные та загальна площа: 51 / 29 / 8 м².', 'Ділова', 'Ділова')
('Матеріал: монолитно-каркасные та загальна п

('Матеріал: монолитно-каркасные та загальна площа: 85 м².', '*** not found', None)
('Матеріал: монолитно-каркасные та загальна площа: 48 / 36 / 6 м².', 'Колоса', None)
('Матеріал: монолитно-каркасные та загальна площа: 75 / 39.6 / 15.5 м².', 'Правди', 'Правди')
('Матеріал: кирпичные та загальна площа: 60 / 38 / 20 м².', 'Велика Васильківська', 'Велика Васильківська')
('Матеріал: утепленная панель та загальна площа: 49.7 / 19 / 12.2 м².', 'Голосіївський', 'Голосіївський')
('Матеріал: утепленная панель та загальна площа: 49.7 / 19 / 12.2 м².', 'Голосіївський', 'Голосіївський')
('Матеріал: панельные та загальна площа: 47.18 / 31 / 5.8 м².', '*** not found', None)
('Матеріал: монолитно-каркасные та загальна площа: 50 / 18 / 26 м².', 'Бойчука', None)
('Матеріал: монолитно-каркасные та загальна площа: 71 м².', 'Центральна', 'Центральна')
('Матеріал: монолитно-каркасные та загальна площа: 71 м².', 'Центральна', 'Центральна')
('Матеріал: монолитно-каркасные та загальна площа: 71 м².', 'Централ

('Матеріал: 0 та загальна площа: 70 / 46.2 / 7.2 м².', 'Максимовича', 'Максимовича')
('Матеріал: утепленная панель та загальна площа: 113 / 59 / 40 м².', '*** not found', None)
('Матеріал: монолитно-каркасные та загальна площа: 66.2 / 27.6 / 26 м².', 'Драгомирова', None)
('Матеріал: монолитно-каркасные та загальна площа: 108 / 34 / 31 м².', 'Теремківська', 'Теремківська')
('Матеріал: 0 та загальна площа: 46 / 14 / 16 м².', 'Осокорська', 'Осокорська')
('Матеріал: панельные та загальна площа: 60 / 42 / 6 м².', 'Дмитрівська', 'Дмитрівська')
('Матеріал: панельные та загальна площа: 60 / 42 / 6 м².', 'Дмитрівська', 'Дмитрівська')
('Матеріал: монолитно-каркасные та загальна площа: 125 / 75 / 23 м².', 'Кондратюка', None)
('Матеріал: монолитно-каркасные та загальна площа: 58 / 16.3 / 18 м².', 'Регенераторна', 'Регенераторна')
('Матеріал: 0 та загальна площа: 198.5 м².', None, None)
('Матеріал: монолитно-каркасные та загальна площа: 120 м².', 'Глибочицька', 'Глибочицька')
('Матеріал: 0 та загал

In [124]:
conn.commit()
conn.close()

#### для аналізу скористатися бібліотекою NumPy

In [130]:
import numpy as np

In [132]:
# створити np-масив з списку `result_list`
result_arr = np.array(result_list)

In [180]:
result_arr[result_arr == "*** not found"] = 0

In [222]:
# побудувати словник для результатів аналізу
result_dict = {
    "кількість спостережень"   : len(result_arr),
    #"середнє значення"         : round(np.mean(result_arr),1),
    "максимальне значення"     : np.max(result_arr[np.nonzero(result_arr)]),
    "мінімальне значення"      : np.min(result_arr[np.nonzero(result_arr)]),
    #"стандартне відхилення"    : round(np.std(result_arr),1),
    #"розмах вариації"          : np.max(result_arr) - np.min(result_arr) 
    }
#[np.nonzero(test_result)]

In [223]:
# вивести шапку
print(
"""
=============================================================
№  :   РАЙОН            : ПОКАЗЧИК            : ЗНАЧЕННЯ     
=============================================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<5} {value:<17} {key:<25} {value:<17} ')
    i += 1


№  :   РАЙОН            : ПОКАЗЧИК            : ЗНАЧЕННЯ     

1     7299              кількість спостережень    7299              
2     Ясинуватський     максимальне значення      Ясинуватський     
3     Івана Мазепи      мінімальне значення       Івана Мазепи      
