# Видобуток та збагачення структурованих даних

### ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Для роботи з структурованими табличними даними, які розміщені в реляційній БД [SQLite](https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiUyMOv1orvAhWDK3cKHac9DyMQFjAAegQIBxAD&url=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2FSQLite&usg=AOvVaw1s-RMK2VC2tXyDZxZXDYDo) в Python передбачена стандартна бібліотека [sqlite3](https://docs.python.org/3/library/sqlite3.html)

In [4]:
# підключення бібліотеки
import sqlite3

#### ПРИКЛАД ВИЛУЧЕННЯ ДАНИХ З БД
Створити БД SQLite з ім'ям `FIT-3m`, та імпорувати в неї таблицю, що містить журнал групи `jornal`

In [3]:
# створюємо з'єднання з БД
conn = sqlite3.connect("FIT-3m.db")

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

In [4]:
# створюємо об'єкт `cursor`, що відповідає за реалізацію операцій з таблицями БД
cur = conn.cursor()

In [5]:
print(type(cur), end='\n\n')
print(dir(cur))

<class 'sqlite3.Cursor'>

['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'arraysize', 'close', 'connection', 'description', 'execute', 'executemany', 'executescript', 'fetchall', 'fetchmany', 'fetchone', 'lastrowid', 'row_factory', 'rowcount', 'setinputsizes', 'setoutputsize']


##### виведемо ВСІ записи таблиці `jornal`

In [5]:
# створимо інстанс для операції `SELECT`
students_cur = cur.execute("SELECT * FROM Jornal")

# будуємо список записів за допомогою метода `fetchall()`
students_list = students_cur.fetchall()

_ = [print(x) for x in students_list]

('Адаменко', 'Назар', 'N.Adamenko')
('Акішев', 'Володимир', 'v.akishev')
('Акунішніков', 'Єгор', 'Y.Akunishnikov')
('Артюх', 'Федір', 'f.artyukh')
('Барабаш', 'Нікіта', None)
('Бойчас', 'Валентин', 'v.boychas')
('Будюка', 'Тимур', 'T.Budyuka')
('Горб', 'Богдан', 'B.Horb')
('Дьяков', 'Денис', 'D.Dyakov')
('Іванченко', 'Сергій', None)
('Колесник', 'Дмитро', 'D.Kolesnyk')
('Мозговенко', 'Денис', 'd.mozhovenko')
('Муха', 'Кирило', None)
('Назаренко', 'Катерина', None)
('Очеретний', 'Олексій', 'O.Ocheretnyy')
('Поліщук', 'Аліна', None)
('Поліщук', 'Владислав', None)
('Полюхович', 'Аліна', 'A.Polyukhovych')
('Старовойтов', 'Олександр', 'O.Starovoytov')
('Тарнавський', 'Ростислав', None)
('Тимошенко', 'Євгеній', 'Y.Tymoshenko')
('Харчевка', 'Іван', 'I.Kharchevka')


#### ПРИКЛАД ЗБАГАЧЕННЯ ДАНИХ З ЗОВНІШНЬОГО ДЖЕРЕЛА

Додати до списка студентів їх оцінки за вступне тестування, які розташовані в csv файлі `test_result.csv`

імпортуємо `test_result.csv` в робочу БД як таблицю `test`

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

##### Cтворимо нову таблицю, яка буде містити вміст таблиці `jornal` та поле оцінок з таблиці `test`



In [6]:
# створимо вираз на побудову пустої таблиці `jornal_test` з відповідними полями
sql_stmt = "CREATE TABLE IF NOT EXISTS jornal_test \
              (Surname TEXT,         \
               Name TEXT,            \
               Email TEXT,           \
               Test_result INT);"

# виконаемо запит на створення таблиці
cur.execute(sql_stmt)

# перевіримо стан виконання операції - виведемо список таблиць
tables_list = cur.execute("SELECT name FROM sqlite_master WHERE type = 'table';")
tables_list.fetchall()


[('Jornal',), ('jornal_test',)]

In [12]:
# створимо запит на об'єднання таблиць 'jornal' та 'test' по прізвищу студента
sql_stmt = "SELECT Jornal.*, jornal_test.Test_result FROM  \
            Jornal LEFT JOIN jornal_test ON Jornal.Surname = jornal_test.Surname"

# для перевірки виконаємо і виведемо результати запиту
cur.execute(sql_stmt).fetchall()

[('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Акішев', 'Володимир', 'v.akishev', None),
 ('Акунішніков', 'Єгор', 'Y.Akunishnikov', None),
 ('Артюх', 'Федір', 'f.artyukh', None),
 ('Барабаш', 'Нікіта', None, None),
 ('Бойчас', 'Валентин', 'v.boychas', None),
 ('Будюка', 'Тимур', 'T.Budyuka', None),
 ('Горб', 'Богдан', 'B.Horb', None),
 ('Дьяков', 'Денис', 'D.Dyakov', None),
 ('Іванченко', 'Сергій', None, None),
 ('Колесник', 'Дмитро', 'D.Kolesnyk', None),
 ('Мозговенко', 'Денис', 'd.mozhovenko', None),
 ('Муха', 'Кирило', None, None),
 ('Назаренко', 'Катерина', None, None),
 ('Очеретний', 'Олексій', 'O.Ocheretnyy', None),
 ('Поліщук', 'Аліна', None, None),
 ('Поліщук', 'Владислав', None, None),
 ('Полюхович', 'Аліна', 'A.Polyukhovych', None),
 ('Старовойтов', 'Олександр', 'O.Starovoytov', None),
 ('Тарнавський', 'Ростислав', None, None),
 ('Тимошенко', 'Євгеній', 'Y.Tymoshenko', None),
 ('Харчевка', 'Іван', 'I.Kharchevka', None)]

In [13]:
# заповнимо пусту таблицю результатми  запиту на злиття
_ = cur.execute("INSERT INTO jornal_test " + sql_stmt)

In [14]:
# збережемо вміст нової таблиці в список
jornal_test_list = cur.execute("SELECT * FROM jornal_test").fetchall()

_ = [print(x) for x in jornal_test_list]

('Адаменко', 'Назар', 'N.Adamenko', None)
('Акішев', 'Володимир', 'v.akishev', None)
('Акунішніков', 'Єгор', 'Y.Akunishnikov', None)
('Артюх', 'Федір', 'f.artyukh', None)
('Барабаш', 'Нікіта', None, None)
('Бойчас', 'Валентин', 'v.boychas', None)
('Будюка', 'Тимур', 'T.Budyuka', None)
('Горб', 'Богдан', 'B.Horb', None)
('Дьяков', 'Денис', 'D.Dyakov', None)
('Іванченко', 'Сергій', None, None)
('Колесник', 'Дмитро', 'D.Kolesnyk', None)
('Мозговенко', 'Денис', 'd.mozhovenko', None)
('Муха', 'Кирило', None, None)
('Назаренко', 'Катерина', None, None)
('Очеретний', 'Олексій', 'O.Ocheretnyy', None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Владислав', None, None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Старовойтов', 'Олександр', 'O.Starovoytov', None)
('Тарнавський', 'Ростислав', None, None)
('Тимошенко', 'Євгеній', 'Y.Tymoshenko', None)
('Харчевка', 'Іван', 'I.Kharchevka', None)


In [15]:
# завершимо всі транзакції
conn.commit()

# закріємо з'єднання
conn.close()

#### ПРИКЛАД  ДЕСКРИПТИВНОГО АНАЛІЗУ ДАНИХ

Провести [попередній аналіз](https://ru.wikipedia.org/wiki/Описательная_статистика) отриманих даних з ціллю виявленя відхилень, помилок та інших непридатних даних.

Сведемо результати аналізу в таблицю, яка має наступний вигляд:

№| Показчик | Значення
:--:|:-------|-------:
1| кількість спостережень | xx 
2| кількість пустих значень | xx
4| середній бал|  xx.x
5| максимальний бал | xx
6| мінімальний бал  | xx
7| стандартне відхилення | xx.x
8| розмах вариації  | xx


In [16]:
# підключимо бібліотеку 'numpy' і дамо їй аліас 'np'
import numpy as np

ознайомитись з призначенням, можливостями та основним функціями [бібліотеки numpy](https://numpy.org) 

In [17]:
# перетворимо список студетів в numpay матрицю
jornal_test_arr = np.array(jornal_test_list)

In [18]:
print(type (jornal_test_arr), jornal_test_arr.shape)

<class 'numpy.ndarray'> (22, 4)


In [19]:
# створимо масив с результатами тестів 
test_result = np.delete(jornal_test_arr, [0,1,2], 1)

In [20]:
# Значення 'None' - не є числом, то заміним його на 0
test_result[test_result == None] = 0

In [25]:
# будуємо словник з вихідними розрахунками
result_dict = {
    "кількість спостережень"   : len(test_result),
    "кількість пустих значень" : len(test_result) - np.count_nonzero(test_result),
    "середній бал"             : round(np.mean(test_result),1),
    "максимальний бал"         : np.max(test_result),
    "мінімальний бал"          : np.min(test_result),#[np.nonzero(test_result)]),
    "стандартне відхилення"    : round(np.std(test_result),1),
    "розмах вариації"          : np.max(test_result) - np.min(test_result)#[np.nonzero(test_result)]) 
    }

In [26]:
result_dict

{'кількість спостережень': 22,
 'кількість пустих значень': 22,
 'середній бал': 0.0,
 'максимальний бал': 0,
 'мінімальний бал': 0,
 'стандартне відхилення': 0.0,
 'розмах вариації': 0}

In [27]:
# вивести шапку
print(
"""
=======================================
№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     
=======================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1


№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     

1   кількість спостережень     22
2   кількість пустих значень   22
3   середній бал               0.0
4   максимальний бал           0
5   мінімальний бал            0
6   стандартне відхилення      0.0
7   розмах вариації            0


### ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

Користуючись результатами, що отримані в [Лабораторній роботі № 3](https://shkliarskiy.moodlecloud.com/mod/page/view.php?id=1193) виконати процедури видобутку, збагачення та попереднього аналізу даних.

__Постановка__: В 3-й лабораторній роботі отримано показчик, що характеризує окрему властивість квартири (ціна, метраж та ін.). 
Необхідно:
1. Відобразити цей показчик на адресу квартири, яка знаходиться в файлі `street_name.csv`, тобто побудувати новий файл `street_flat_propery.csv` якій містить 2 колонки: _<назва вулиці> <ваш показчик>_
2. На основі цьго файлу зробити відповідну таблицю в _SQLite_ та збагатити цю дані в цій таблиці назвою району де розташована квартира (дані по районах додаються) 
3. Провести попередній аналіз отриманих даних - вивести первинні статистики показчика по районах (_середне_ , _мінімальне_ , _максимальне_ і т.д. - див. приклад вище)

In [28]:
# Злиття файлу з показчиком та файлу з назвами вулиць в новий файл

YOUR_FILE = r"./aprt_year.txt"
with open(YOUR_FILE) as f1, \
     open('kiev-districts.csv', encoding="utf8") as f2, \
     open(r'./street_flat_propery.csv', 'w+', encoding="utf8") as f3:
    
    for x, y in zip(f1, f2):
        line = f'{x[:-1].strip()},{y[:-1].strip()}\n'
        print(line)
        f3.write(line)

year,street, type, district

2015,9-го Травня,вулиця,Святошинський

0,Абрикосова,вулиця,Оболонський

2011,Абрикосова,вулиця,Дарницький

1902,Абрикосова,вулиця,Подільський

2014,Августина Волошина,вулиця,Солом’янський

2009,Авдєєнка Генерала,вулиця,Святошинський

2018,Автозаводська,вулиця,Оболонський

2012,Автозаводський ,провулок,Оболонський

2017,Автопаркова,вулиця,Дарницький

1980,Авторемонтна,вулиця,Солом'янський

2012,Автотранспортна,вулиця,Дарницький

0,Агітаторська,вулиця,Солом'янський

2018,Агрегатна,вулиця,Оболонський

1985,Аеродромна,вулиця,Солом'янський

2017,Азербайджанська,вулиця,Дніпровський

1981,Азовська,вулиця,Солом'янський

2016,Айвазовського,провулок,Шевченківський

0,Академіка Єфремова,вулиця,Святошинський

1987,Академіка Оппокова,вулиця,Оболонський

0,Академіка Ромоданова,вулиця,Шевченківський

2016,Академіка Тронька,вулиця,Голосіївський

1976,Акацієвий,провулок,Дарницький

1960,Алексухіна Василя,вулиця,Святошинський

1966,Алли Горської,провулок,Шевченківський

1964

0,Гостомельське,шосе,Оболонський

2003,Грабовського Павла,вулиця,Голосіївський

2009,Грабовського Павла,провулок,Голосіївський

1964,Градинська,вулиця,Деснянський

1986,Гранична,вулиця,Святошинський

0,Гребінки,вулиця,Голосіївський

2011,Грекова Академіка,вулиця,Шевченківський

0,Гречаний,провулок,Дарницький

0,Григоренка Петра,проспект,Дарницький

2018,Григорія Голоскевича,вулиця,Голосіївський

0,Григорія Косинки,вулиця,Деснянський

0,Григоровича-Барського,вулиця,Святошинський

2010,Гришка Миколи,вулиця,Деснянський

2017,Гришка Михайла,вулиця,Дарницький

2017,Грінченка Бориса,вулиця,Шевченківський

0,Грінченка Миколи,вулиця,"Голосіївський, Солом’янський"

1955,Гродненська,вулиця,Дніпровський

0,Гродненський,провулок,Дніпровський

2018,Грозненська,вулиця,Шевченківський

2014,Громадська,вулиця,Солом’янський

0,Громової Уляни,вулиця,Солом’янський

0,Грузинська,вулиця,Дарницький

2015,Грузинський,провулок,Дарницький

2002,Грушева,вулиця,Солом'янський

2016,Грушевського Михайла,вулиця,Пече

#### імпортувати в БД отриманий файл 'street_flat_propery.csv' через CLI
- __sqlite3 districts.db__ - запустити SQLite та відкрити БД
- __.mode csv__ - перевести БД для роботи з csv-файлами
- __.import street_flat_propery.csv street_flat_propery__ - створює таблицю _street_flat_propery_ та завантажує в неї вміст файлу _street_flat_propery.csv_
- __SELECT * FROM street_flat_propery LIMIT 10;__ - вивести 10 записів для перевірки
- __.quit__ - завершити роботу з CLI SQLite



In [5]:
# Підключитись до БД 'districts.db' в якій є прив'язка вулиць до районів 
conn = sqlite3.connect("districts.db")

# створити відповідний курсор
cur  = conn.cursor()

In [30]:
# для перевірки виведіть 10 записів з таблиці 'street_district'
t_cur = cur.execute("SELECT * FROM street_district LIMIT 10")

t_list = t_cur.fetchall()

_ = [print(x) for x in t_list]

('9-го Травня', 'вулиця', 'Святошинський')
('Абрикосова', 'вулиця', 'Оболонський')
('Абрикосова', 'вулиця', 'Дарницький')
('Абрикосова', 'вулиця', 'Подільський')
('Августина Волошина', 'вулиця', 'Солом’янський')
('Авдєєнка Генерала', 'вулиця', 'Святошинський')
('Автозаводська', 'вулиця', 'Оболонський')
('Автозаводський ', 'провулок', 'Оболонський')
('Автопаркова', 'вулиця', 'Дарницький')
('Авторемонтна', 'вулиця', "Солом'янський")


In [7]:
# побудувати запит на створення таблиці 'result' з 3-ма полями:
#     district - текстове
#     street - текстове
#     property - числове
stmt = "CREATE TABLE IF NOT EXISTS result \
              (district TEXT,         \
               street TEXT,            \
               property INT);"

In [8]:
# виконати запит
cur.execute(stmt)

<sqlite3.Cursor at 0x1d8b7c26c70>

In [36]:
# перевірити схему таблиці
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('result');").fetchall()

[('district',), ('street',), ('property',)]

In [10]:
# створити запит на злиття таблиці 'street_flat_propery' та 'street_district' 
# по полю 'street'
stmt_join = "SELECT street_district.*, street_flat_propery.year FROM  \
            street_district LEFT JOIN street_flat_propery ON street_district.street = street_flat_propery.street"

In [11]:
# перевірити запит
cur.execute(stmt_join).fetchall()

[('9-го Травня', 'вулиця', 'Святошинський', 2015),
 ('Абрикосова', 'вулиця', 'Оболонський', 0),
 ('Абрикосова', 'вулиця', 'Оболонський', 1902),
 ('Абрикосова', 'вулиця', 'Оболонський', 2011),
 ('Абрикосова', 'вулиця', 'Дарницький', 0),
 ('Абрикосова', 'вулиця', 'Дарницький', 1902),
 ('Абрикосова', 'вулиця', 'Дарницький', 2011),
 ('Абрикосова', 'вулиця', 'Подільський', 0),
 ('Абрикосова', 'вулиця', 'Подільський', 1902),
 ('Абрикосова', 'вулиця', 'Подільський', 2011),
 ('Августина Волошина', 'вулиця', 'Солом’янський', 2014),
 ('Авдєєнка Генерала', 'вулиця', 'Святошинський', 2009),
 ('Автозаводська', 'вулиця', 'Оболонський', 2018),
 ('Автозаводський ', 'провулок', 'Оболонський', None),
 ('Автопаркова', 'вулиця', 'Дарницький', 2017),
 ('Авторемонтна', 'вулиця', "Солом'янський", 1980),
 ('Автотранспортна', 'вулиця', 'Дарницький', 2012),
 ('Агітаторська', 'вулиця', "Солом'янський", 0),
 ('Агрегатна', 'вулиця', 'Оболонський', 2018),
 ('Аеродромна', 'вулиця', "Солом'янський", 1985),
 ('Азербай

In [12]:
# створити запит для наповнення таблиці `result` результатом запиту на об'єднання
stmt_insert = cur.execute("INSERT INTO result " + stmt_join)

In [13]:
# виконати запит на заповнення
cur.execute("INSERT INTO result " + stmt_join)

<sqlite3.Cursor at 0x1d8b7c26c70>

In [14]:
# сберегти вміст створеної таблиці у вигляді списка
result_list = cur.execute("SELECT * FROM result").fetchall()

_ = [print(x) for x in result_list]

('9-го Травня', 'вулиця', 'Святошинський', '2015')
('Абрикосова', 'вулиця', 'Оболонський', '0')
('Абрикосова', 'вулиця', 'Оболонський', '1902')
('Абрикосова', 'вулиця', 'Оболонський', '2011')
('Абрикосова', 'вулиця', 'Дарницький', '0')
('Абрикосова', 'вулиця', 'Дарницький', '1902')
('Абрикосова', 'вулиця', 'Дарницький', '2011')
('Абрикосова', 'вулиця', 'Подільський', '0')
('Абрикосова', 'вулиця', 'Подільський', '1902')
('Абрикосова', 'вулиця', 'Подільський', '2011')
('Августина Волошина', 'вулиця', 'Солом’янський', '2014')
('Авдєєнка Генерала', 'вулиця', 'Святошинський', '2009')
('Автозаводська', 'вулиця', 'Оболонський', '2018')
('Автозаводський ', 'провулок', 'Оболонський', None)
('Автопаркова', 'вулиця', 'Дарницький', '2017')
('Авторемонтна', 'вулиця', "Солом'янський", '1980')
('Автотранспортна', 'вулиця', 'Дарницький', '2012')
('Агітаторська', 'вулиця', "Солом'янський", '0')
('Агрегатна', 'вулиця', 'Оболонський', '2018')
('Аеродромна', 'вулиця', "Солом'янський", '1985')
('Азербайджа

#### для аналізу скористатися бібліотекою NumPy

In [16]:
import numpy as np

In [17]:
# створити np-масив з списку `result_list`
result_arr = np.array(result_list)
print(type (result_arr), result_arr.shape)
year_result = np.delete(result_arr, [0,1,2], 1)
year_result[year_result == None] = 0
year_result = list(map(int, year_result))
print(year_result)

<class 'numpy.ndarray'> (5968, 4)
[2015, 0, 1902, 2011, 0, 1902, 2011, 0, 1902, 2011, 2014, 2009, 2018, 0, 2017, 1980, 2012, 0, 2018, 1985, 2017, 1981, 2016, 0, 1987, 0, 2016, 1976, 1960, 1966, 1964, 2008, 0, 0, 2007, 0, 1916, 0, 1916, 0, 2013, 2019, 0, 2009, 2017, 0, 0, 2016, 1986, 2019, 1977, 0, 2018, 1983, 0, 1963, 2014, 1906, 1962, 0, 2017, 2009, 0, 0, 0, 2010, 1969, 0, 1983, 1892, 0, 2006, 2017, 0, 0, 0, 2008, 2010, 1990, 2018, 2014, 1906, 1962, 0, 2017, 2009, 2002, 1990, 1971, 2010, 1969, 0, 1983, 1892, 0, 2006, 2017, 0, 0, 0, 2008, 2010, 1990, 2018, 1994, 2016, 2014, 0, 0, 1962, 2017, 2013, 0, 1969, 0, 2020, 0, 2004, 2008, 2004, 2008, 2018, 2013, 0, 2017, 2020, 2011, 0, 2018, 2019, 2019, 1957, 2001, 1957, 2001, 2017, 2018, 2013, 2007, 0, 2020, 0, 0, 2015, 0, 1963, 2019, 2013, 0, 2018, 1981, 0, 2015, 2005, 2003, 0, 2019, 1971, 0, 1980, 1959, 2014, 0, 0, 1980, 2019, 1993, 2003, 2017, 1996, 0, 0, 1914, 2005, 0, 0, 0, 0, 1999, 2007, 2009, 2014, 2005, 2017, 2007, 0, 0, 0, 0, 1977, 20

In [18]:
# побудувати словник для результатів аналізу
result_dict = {
    "кількість спостережень"   : len(year_result) ,
    "середнє значення"         : round(np.mean(year_result),1) ,
    "максимальне значення"     : np.max(year_result) ,
    "мінімальне значення"      : np.min(year_result) ,
    "стандартне відхилення"    : round(np.std(year_result),1),
    "розмах вариації"          : np.max(year_result) - np.min(year_result)
    }

In [19]:
# вивести шапку
print(
"""
================================================
№  :   РАЙОН        : ПОКАЗЧИК        : ЗНАЧЕННЯ     
================================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1


№  :   РАЙОН        : ПОКАЗЧИК        : ЗНАЧЕННЯ     

1   кількість спостережень     5968
2   середнє значення           430.3
3   максимальне значення       2022
4   мінімальне значення        0
5   стандартне відхилення      821.1
6   розмах вариації            2022
