# Видобуток та збагачення структурованих даних

### ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Для роботи з структурованими табличними даними, які розміщені в реляційній БД [SQLite](https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiUyMOv1orvAhWDK3cKHac9DyMQFjAAegQIBxAD&url=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2FSQLite&usg=AOvVaw1s-RMK2VC2tXyDZxZXDYDo) в Python передбачена стандартна бібліотека [sqlite3](https://docs.python.org/3/library/sqlite3.html)

In [2]:
# підключення бібліотеки
import sqlite3

#### ПРИКЛАД ВИЛУЧЕННЯ ДАНИХ З БД
Створити БД SQLite з ім'ям `FIT-3m`, та імпорувати в неї таблицю, що містить журнал групи `jornal`

In [66]:
# створюємо з'єднання з БД
conn = sqlite3.connect("FIT-3m.db")

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

In [67]:
# створюємо об'єкт `cursor`, що відповідає за реалізацію операцій з таблицями БД
cur = conn.cursor()

In [68]:
print(type(cur), end='\n\n')
print(dir(cur))

<class 'sqlite3.Cursor'>

['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'arraysize', 'close', 'connection', 'description', 'execute', 'executemany', 'executescript', 'fetchall', 'fetchmany', 'fetchone', 'lastrowid', 'row_factory', 'rowcount', 'setinputsizes', 'setoutputsize']


##### виведемо ВСІ записи таблиці `jornal`

In [69]:
# створимо інстанс для операції `SELECT`
students_cur = cur.execute("SELECT * FROM jornal")

# будуємо список записів за допомогою метода `fetchall()`
students_list = students_cur.fetchall()

_ = [print(x) for x in students_list]

('Колесников', 'Микита', 'M.Kolesnykov.FIT.122.20.m@knute.edu.ua')
('Лучук', 'Артем', 'A.Luchuk.FIT.122.20.m@knute.edu.ua')
('Кравченко', 'Ростислав', 'R.Kravchenko.FIT.122.20.m@knute.edu.ua')
('Солодкий', 'Микола', 'M.Solodkyy.FIT.122.20.m@knute.edu.ua')
('Причепа', 'Владислав', 'V.Prychepa.FIT.122.20.m@knute.edu.ua')
('Павлючик', 'Денис', 'D.Pavlyuchyk.FIT.122.20.m@knute.edu.ua')
('Кулініч', 'Анатолій', 'A.Kulinich.FIT.122.20.m@knute.edu.ua')


#### ПРИКЛАД ЗБАГАЧЕННЯ ДАНИХ З ЗОВНІШНЬОГО ДЖЕРЕЛА

Додати до списка студентів їх оцінки за вступне тестування, які розташовані в csv файлі `test_result.csv`

імпортуємо `test_result.csv` в робочу БД як таблицю `test`

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

##### Cтворимо нову таблицю, яка буде містити вміст таблиці `jornal` та поле оцінок з таблиці `test`



In [70]:
cur.execute("drop table if exists jornal_test;")

<sqlite3.Cursor at 0x110a336c0>

In [71]:
# створимо вираз на побудову пустої таблиці `jornal_test` з відповідними полями
sql_stmt = "CREATE TABLE IF NOT EXISTS jornal_test \
              (Surname TEXT,         \
               Name TEXT,            \
               Email TEXT,           \
               Test_result INT);"

# виконаемо запит на створення таблиці
cur.execute(sql_stmt)

# перевіримо стан виконання операції - виведемо список таблиць
tables_list = cur.execute("SELECT name FROM sqlite_master WHERE type = 'table';")
tables_list.fetchall()


[('jornal',), ('test',), ('jornal_test',)]

In [72]:
# створимо запит на об'єднання таблиць 'jornal' та 'test' по прізвищу студента
sql_stmt = "SELECT jornal.*, test.\"Оцінка/100\" FROM  \
            jornal LEFT JOIN test ON jornal.Surname = test.\"Ім\'я\" "

# для перевірки виконаємо і виведемо результати запиту
cur.execute(sql_stmt).fetchall()

[('Колесников', 'Микита', 'M.Kolesnykov.FIT.122.20.m@knute.edu.ua', '86'),
 ('Лучук', 'Артем', 'A.Luchuk.FIT.122.20.m@knute.edu.ua', '32'),
 ('Кравченко', 'Ростислав', 'R.Kravchenko.FIT.122.20.m@knute.edu.ua', '50'),
 ('Солодкий', 'Микола', 'M.Solodkyy.FIT.122.20.m@knute.edu.ua', '78'),
 ('Причепа', 'Владислав', 'V.Prychepa.FIT.122.20.m@knute.edu.ua', '45'),
 ('Павлючик', 'Денис', 'D.Pavlyuchyk.FIT.122.20.m@knute.edu.ua', None),
 ('Кулініч', 'Анатолій', 'A.Kulinich.FIT.122.20.m@knute.edu.ua', '39')]

In [73]:
# заповнимо пусту таблицю результатми  запиту на злиття
_ = cur.execute("INSERT INTO jornal_test " + sql_stmt)

In [74]:
# збережемо вміст нової таблиці в список
jornal_test_list = cur.execute("SELECT * FROM jornal_test").fetchall()

_ = [print(x) for x in jornal_test_list]

('Колесников', 'Микита', 'M.Kolesnykov.FIT.122.20.m@knute.edu.ua', 86)
('Лучук', 'Артем', 'A.Luchuk.FIT.122.20.m@knute.edu.ua', 32)
('Кравченко', 'Ростислав', 'R.Kravchenko.FIT.122.20.m@knute.edu.ua', 50)
('Солодкий', 'Микола', 'M.Solodkyy.FIT.122.20.m@knute.edu.ua', 78)
('Причепа', 'Владислав', 'V.Prychepa.FIT.122.20.m@knute.edu.ua', 45)
('Павлючик', 'Денис', 'D.Pavlyuchyk.FIT.122.20.m@knute.edu.ua', None)
('Кулініч', 'Анатолій', 'A.Kulinich.FIT.122.20.m@knute.edu.ua', 39)


In [75]:
# завершимо всі транзакції
conn.commit()

# закріємо з'єднання
conn.close()

#### ПРИКЛАД  ДЕСКРИПТИВНОГО АНАЛІЗУ ДАНИХ

Провести [попередній аналіз](https://ru.wikipedia.org/wiki/Описательная_статистика) отриманих даних з ціллю виявленя відхилень, помилок та інших непридатних даних.

Сведемо результати аналізу в таблицю, яка має наступний вигляд:

№| Показчик | Значення
:--:|:-------|-------:
1| кількість спостережень | xx 
2| кількість пустих значень | xx
4| середній бал|  xx.x
5| максимальний бал | xx
6| мінімальний бал  | xx
7| стандартне відхилення | xx.x
8| розмах вариації  | xx


In [76]:
# підключимо бібліотеку 'numpy' і дамо їй аліас 'np'
import numpy as np

ознайомитись з призначенням, можливостями та основним функціями [бібліотеки numpy](https://numpy.org) 

In [77]:
print(dir(np))



In [78]:
jornal_test_list

[('Колесников', 'Микита', 'M.Kolesnykov.FIT.122.20.m@knute.edu.ua', 86),
 ('Лучук', 'Артем', 'A.Luchuk.FIT.122.20.m@knute.edu.ua', 32),
 ('Кравченко', 'Ростислав', 'R.Kravchenko.FIT.122.20.m@knute.edu.ua', 50),
 ('Солодкий', 'Микола', 'M.Solodkyy.FIT.122.20.m@knute.edu.ua', 78),
 ('Причепа', 'Владислав', 'V.Prychepa.FIT.122.20.m@knute.edu.ua', 45),
 ('Павлючик', 'Денис', 'D.Pavlyuchyk.FIT.122.20.m@knute.edu.ua', None),
 ('Кулініч', 'Анатолій', 'A.Kulinich.FIT.122.20.m@knute.edu.ua', 39)]

In [89]:
# перетворимо список студетів в numpay матрицю
jornal_test_arr = np.array(jornal_test_list)

In [90]:
print(jornal_test_arr)

[['Колесников' 'Микита' 'M.Kolesnykov.FIT.122.20.m@knute.edu.ua' 86]
 ['Лучук' 'Артем' 'A.Luchuk.FIT.122.20.m@knute.edu.ua' 32]
 ['Кравченко' 'Ростислав' 'R.Kravchenko.FIT.122.20.m@knute.edu.ua' 50]
 ['Солодкий' 'Микола' 'M.Solodkyy.FIT.122.20.m@knute.edu.ua' 78]
 ['Причепа' 'Владислав' 'V.Prychepa.FIT.122.20.m@knute.edu.ua' 45]
 ['Павлючик' 'Денис' 'D.Pavlyuchyk.FIT.122.20.m@knute.edu.ua' None]
 ['Кулініч' 'Анатолій' 'A.Kulinich.FIT.122.20.m@knute.edu.ua' 39]]


In [83]:
print(type (jornal_test_arr), jornal_test_arr.shape)

<class 'numpy.ndarray'> (7, 4)


In [91]:
# Значення 'None' - не є числом, то заміним його на 0
none_filter = jornal_test_arr[:,3] == None
jornal_test_arr[none_filter, 3] = 0

In [99]:
# будуємо словник з вихідними розрахунками
result_dict = {
    "кількість спостережень"   : len(jornal_test_arr[:,3]),
    "кількість пустих значень" : len(jornal_test_arr[:,3]) - np.count_nonzero(jornal_test_arr[:,3]),
    "середній бал"             : round(np.mean(jornal_test_arr[:,3]),2),
    "максимальний бал"         : np.max(jornal_test_arr[:,3]),
    "мінімальний бал"          : np.min(jornal_test_arr[:,3][np.nonzero(jornal_test_arr[:,3])]),
    "стандартне відхилення"    : round(np.std(jornal_test_arr[:,3]),2),
    "розмах вариації"          : np.max(jornal_test_arr[:,3]) - np.min(jornal_test_arr[:,3][np.nonzero(jornal_test_arr[:,3])]) 
    }

In [100]:
result_dict

{'кількість спостережень': 7,
 'кількість пустих значень': 1,
 'середній бал': 47.14,
 'максимальний бал': 86,
 'мінімальний бал': 32,
 'стандартне відхилення': 26.71,
 'розмах вариації': 54}

In [101]:
# вивести шапку
print(
"""
=======================================
№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     
=======================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1


№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     

1   кількість спостережень     7
2   кількість пустих значень   1
3   середній бал               47.14
4   максимальний бал           86
5   мінімальний бал            32
6   стандартне відхилення      26.71
7   розмах вариації            54


### ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

Користуючись результатами, що отримані в [Лабораторній роботі № 3](https://shkliarskiy.moodlecloud.com/mod/page/view.php?id=1193) виконати процедури видобутку, збагачення та попереднього аналізу даних.

__Постановка__: В 3-й лабораторній роботі отримано показчик, що характеризує окрему властивість квартири (ціна, метраж та ін.). 
Необхідно:
1. Відобразити цей показчик на адресу квартири, яка знаходиться в файлі `street_name.csv`, тобто побудувати новий файл `street_flat_propery.csv` якій містить 2 колонки: _<назва вулиці> <ваш показчик>_
2. На основі цьго файлу зробити відповідну таблицю в _SQLite_ та збагатити цю дані в цій таблиці назвою району де розташована квартира (дані по районах додаються) 
3. Провести попередній аналіз отриманих даних - вивести первинні статистики показчика по районах (_середне_ , _мінімальне_ , _максимальне_ і т.д. - див. приклад вище)

In [4]:
# Злиття файлу з показчиком та файлу з назвами вулиць в новий файл

# YOUR_FILE = підставте ваш файл ...
YOUR_FILE = 'street_living_area.csv'
with open(YOUR_FILE) as f1, \
     open('street_name.csv') as f2, \
     open('street_flat_propery.csv', 'w') as f3:
    
    for x, y in zip(f1, f2):
        line = f'{x[:-1].strip()},{y[:-1].strip()}\n'
#         print(line)
        f3.write(line)

#### імпортувати в БД файл 'street_flat_propery.csv' через CLI
- __sqlite3 districts.db__ - запустити SQLite та відкрити БД
- __.mode csv__ - перевести БД для роботи з csv-файлами
- __.import street_flat_propery.csv street_flat_propery__ - створює таблицю _street_flat_propery_ та завантажує в неї вміст файлу _street_flat_propery.csv_
- __SELECT * FROM street_flat_propery LIMIT 10;__ - вивести 10 записів для перевірки
- __.quit__ - завершити роботу з CLI SQLite



In [5]:
# Підключитись до БД ''districts.db'' та створити відповідний курсор
conn = sqlite3.connect('districts.db')
cur  = conn.cursor()

In [6]:
# для перевірки виведіть виведіть 10 записів з таблиці 'street_district'
cur.execute('select * from street_district limit 10;').fetchall()

[('9-го Травня', 'вулиця', 'Святошинський'),
 ('Абрикосова', 'вулиця', 'Оболонський'),
 ('Абрикосова', 'вулиця', 'Дарницький'),
 ('Абрикосова', 'вулиця', 'Подільський'),
 ('Августина Волошина', 'вулиця', 'Солом’янський'),
 ('Авдєєнка Генерала', 'вулиця', 'Святошинський'),
 ('Автозаводська', 'вулиця', 'Оболонський'),
 ('Автозаводський ', 'провулок', 'Оболонський'),
 ('Автопаркова', 'вулиця', 'Дарницький'),
 ('Авторемонтна', 'вулиця', "Солом'янський")]

In [7]:
cur.execute("drop table if exists result;")

<sqlite3.Cursor at 0x108ae0b90>

In [8]:
# побудувати запит на створення таблиці 'result' з 3-ма полями:
#     district - текстове
#     street - текстове
#     living_area - числове
stmt = "create table result (district text, street text, living_area real);"

In [9]:
# виконати запит
cur.execute(stmt)

<sqlite3.Cursor at 0x108ae0b90>

In [10]:
# перевірити схему таблиці
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('result');").fetchall()

[('district',), ('street',), ('living_area',)]

In [11]:
# перевірити вміст таблиці з показчиком 
cur.execute("select * from street_living_area limit 10;").fetchall()

[('73.0', 'street'),
 ('0.0', 'Омеляновича-Павленка'),
 ('100.0', ''),
 ('58.0', 'Ованеса Туманяна'),
 ('79.0', 'Петропавлівська'),
 ('0.0', 'Дніпровська'),
 ('0.0', 'Саксаганського'),
 ('87.0', 'Івана Мазепи'),
 ('40.0', 'Дніпровська'),
 ('51.0', 'Ділова')]

In [12]:
# створити запит на злиття таблиці 'street_living_area' та 'street_district' 
# по полю 'street'
stmt_join = "SELECT street_district.district, street_living_area.street, street_living_area.living_area  \
  from street_living_area JOIN street_district ON \
  street_living_area.street == street_district.street;"

In [13]:
# перевірити запит
cur.execute(stmt_join).fetchmany(10)

[('Оболонський', 'Петропавлівська', '79.0'),
 ('Подільський', 'Петропавлівська', '79.0'),
 ('Оболонський', 'Дніпровська', '0.0'),
 ('Голосіївський, Печерський, Шевченківський', 'Саксаганського', '0.0'),
 ('Оболонський', 'Дніпровська', '40.0'),
 ('Голосіївський, Печерський', 'Ділова', '51.0'),
 ('Дарницький', 'Ревуцького', '85.0'),
 ('Подільський', 'Введенська', '38.0'),
 ('Печерський', 'Виноградний', '70.0'),
 ("Голосіївський,Солом'янський", 'Кайсарова', '103.0')]

In [14]:
# створити запит для наповнення таблиці `result` результатом запиту на об'єднання
stmt_insert = "insert into result " + stmt_join

In [15]:
# виконати запит на заповнення
cur.execute(stmt_insert)

<sqlite3.Cursor at 0x108ae0b90>

In [19]:
# сберегти вміст створеної таблиці у вигляді списка
result_list = cur.execute("select * from result;").fetchall()

In [20]:
result_list[:10]

[('Оболонський', 'Петропавлівська', 79.0),
 ('Подільський', 'Петропавлівська', 79.0),
 ('Оболонський', 'Дніпровська', 0.0),
 ('Голосіївський, Печерський, Шевченківський', 'Саксаганського', 0.0),
 ('Оболонський', 'Дніпровська', 40.0),
 ('Голосіївський, Печерський', 'Ділова', 51.0),
 ('Дарницький', 'Ревуцького', 85.0),
 ('Подільський', 'Введенська', 38.0),
 ('Печерський', 'Виноградний', 70.0),
 ("Голосіївський,Солом'янський", 'Кайсарова', 103.0)]

#### для аналізу скористатися бібліотекою NumPy

In [21]:
import numpy as np

In [22]:
result_list[:3]

[('Оболонський', 'Петропавлівська', 79.0),
 ('Подільський', 'Петропавлівська', 79.0),
 ('Оболонський', 'Дніпровська', 0.0)]

In [24]:
# створити np-масив з списку `result_list`
result_arr = np.asarray(result_list, dtype=object)

In [25]:
result_arr.shape

(488, 3)

In [26]:
result_arr[:10]

array([['Оболонський', 'Петропавлівська', 79.0],
       ['Подільський', 'Петропавлівська', 79.0],
       ['Оболонський', 'Дніпровська', 0.0],
       ['Голосіївський, Печерський, Шевченківський', 'Саксаганського',
        0.0],
       ['Оболонський', 'Дніпровська', 40.0],
       ['Голосіївський, Печерський', 'Ділова', 51.0],
       ['Дарницький', 'Ревуцького', 85.0],
       ['Подільський', 'Введенська', 38.0],
       ['Печерський', 'Виноградний', 70.0],
       ["Голосіївський,Солом'янський", 'Кайсарова', 103.0]], dtype=object)

In [27]:
# взяти тільки перші назви з списку районів
result_arr_trunc = \
  np.asarray(list(map(lambda x: [x[0].split(',')[0], x[1], x[2]], result_arr)), dtype=object)

##### видалити дублюючі записи
1. сконвертувати в словник з составним ключем 'вулиця'+'показчик - видиляться дублюючі ключі
2. побудувати з цього словника список порізавши ключ обратно та відновити формати
3. побудувати ndarray як був але без дублів

In [28]:
# 1
result_dict_no_dup = \
  { ''.join([x[1] + "," + str(x[2])]): x[0] for x in result_arr_trunc}

In [29]:
# 2
result_list_no_dup = \
  [ [value, key.split(',')[0], float(key.split(',')[1])] \
                                     for key, value in result_dict_no_dup.items()]

In [30]:
# 3
result_arr_no_dup = np.asarray(result_list_no_dup, dtype=object)

In [31]:
result_arr_no_dup[:10]

array([['Подільський', 'Петропавлівська', 79.0],
       ['Оболонський', 'Дніпровська', 0.0],
       ['Голосіївський', 'Саксаганського', 0.0],
       ['Оболонський', 'Дніпровська', 40.0],
       ['Голосіївський', 'Ділова', 51.0],
       ['Дарницький', 'Ревуцького', 85.0],
       ['Подільський', 'Введенська', 38.0],
       ['Печерський', 'Виноградний', 70.0],
       ['Голосіївський', 'Кайсарова', 103.0],
       ['Голосіївський', 'Ділова', 50.0]], dtype=object)

In [32]:
# отримаємо список районів
districts_list = list(np.unique(result_arr_no_dup[:,0]))

In [33]:
districts_list

['Голосіївський',
 'Дарницький',
 'Деснянський',
 'Дніпровський',
 'Оболонський',
 'Печерський',
 'Подільський',
 'Святошинський',
 "Солом'янський",
 'Шевченківський']

In [35]:
def get_district_result(district):
    """функція повертає словник значень показчика по району
    що передається в якості аргумента
    """
    # фільтр для відбіру района    
    filt = result_arr[:,0] == district
    # фільтр для відбіру ненульових значень по району    
    filt_list = [x[0] == district and x[2] > 0 for x in result_arr]
    
    return {
        "кількість спостережень"   : len(result_arr[filt, 2]) ,
        "середнє значення"         : round(np.mean(result_arr[filt, 2]), 2) ,
        "максимальне значення"     : np.max(result_arr[filt, 2]) ,
        "мінімальне значення"      : np.min(result_arr[filt_list, 2]) ,
        "стандартне відхилення"    : round(np.std(result_arr[filt, 2]), 2) ,
        "розмах вариації"          : np.max(result_arr[filt, 2]) - np.min(result_arr[filt_list, 2])
        }

In [36]:
# сформувати список для виводу
result = [(district, get_district_result(district)) for district in districts_list]

In [37]:
# вивести шапку
print(
"""
=====================================================
№  :   РАЙОН        : ПОКАЗЧИК             : ЗНАЧЕННЯ     
=====================================================
"""      
      )

# вивести результати аналізу датасета
for item in result:
    print (f'   {item[0]}')
    for name, value in item[1].items():
        print(f' {" " * 20} {name:25} {value}')


№  :   РАЙОН        : ПОКАЗЧИК             : ЗНАЧЕННЯ     

   Голосіївський
                      кількість спостережень    42
                      середнє значення          87.21
                      максимальне значення      250.0
                      мінімальне значення       33.0
                      стандартне відхилення     63.76
                      розмах вариації           217.0
   Дарницький
                      кількість спостережень    64
                      середнє значення          65.67
                      максимальне значення      275.0
                      мінімальне значення       28.0
                      стандартне відхилення     41.5
                      розмах вариації           247.0
   Деснянський
                      кількість спостережень    16
                      середнє значення          76.88
                      максимальне значення      160.0
                      мінімальне значення       41.0
                      стандартне відхиленн