# Видобуток та збагачення структурованих даних

### ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Для роботи з структурованими табличними даними, які розміщені в реляційній БД [SQLite](https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiUyMOv1orvAhWDK3cKHac9DyMQFjAAegQIBxAD&url=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2FSQLite&usg=AOvVaw1s-RMK2VC2tXyDZxZXDYDo) в Python передбачена стандартна бібліотека [sqlite3](https://docs.python.org/3/library/sqlite3.html)

In [1]:
# підключення бібліотеки
import sqlite3

#### ПРИКЛАД ВИЛУЧЕННЯ ДАНИХ З БД
Створити БД SQLite з ім'ям `FIT-3m`, та імпорувати в неї таблицю, що містить журнал групи `jornal`

In [2]:
# створюємо з'єднання з БД
conn = sqlite3.connect("FIT-3m.db")

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

In [3]:
# створюємо об'єкт `cursor`, що відповідає за реалізацію операцій з таблицями БД
cur = conn.cursor()

In [4]:
print(type(cur), end='\n\n')
print(dir(cur))

<class 'sqlite3.Cursor'>

['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'arraysize', 'close', 'connection', 'description', 'execute', 'executemany', 'executescript', 'fetchall', 'fetchmany', 'fetchone', 'lastrowid', 'row_factory', 'rowcount', 'setinputsizes', 'setoutputsize']


##### виведемо ВСІ записи таблиці `jornal`

In [5]:
# створимо інстанс для операції `SELECT`
students_cur = cur.execute("SELECT * FROM Jornal")

# будуємо список записів за допомогою метода `fetchall()`
students_list = students_cur.fetchall()

_ = [print(x) for x in students_list]

('Адаменко', 'Назар', 'N.Adamenko')
('Акішев', 'Володимир', 'v.akishev')
('Акунішніков', 'Єгор', 'Y.Akunishnikov')
('Артюх', 'Федір', 'f.artyukh')
('Барабаш', 'Нікіта', None)
('Бойчас', 'Валентин', 'v.boychas')
('Будюка', 'Тимур', 'T.Budyuka')
('Горб', 'Богдан', 'B.Horb')
('Дьяков', 'Денис', 'D.Dyakov')
('Іванченко', 'Сергій', None)
('Колесник', 'Дмитро', 'D.Kolesnyk')
('Мозговенко', 'Денис', 'd.mozhovenko')
('Муха', 'Кирило', None)
('Назаренко', 'Катерина', None)
('Очеретний', 'Олексій', 'O.Ocheretnyy')
('Поліщук', 'Аліна', None)
('Поліщук', 'Владислав', None)
('Полюхович', 'Аліна', 'A.Polyukhovych')
('Старовойтов', 'Олександр', 'O.Starovoytov')
('Тарнавський', 'Ростислав', None)
('Тимошенко', 'Євгеній', 'Y.Tymoshenko')
('Харчевка', 'Іван', 'I.Kharchevka')


#### ПРИКЛАД ЗБАГАЧЕННЯ ДАНИХ З ЗОВНІШНЬОГО ДЖЕРЕЛА

Додати до списка студентів їх оцінки за вступне тестування, які розташовані в csv файлі `test_result.csv`

імпортуємо `test_result.csv` в робочу БД як таблицю `test`

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

##### Cтворимо нову таблицю, яка буде містити вміст таблиці `jornal` та поле оцінок з таблиці `test`



In [6]:
# створимо вираз на побудову пустої таблиці `jornal_test` з відповідними полями
sql_stmt = "CREATE TABLE IF NOT EXISTS jornal_test \
              (Surname TEXT,         \
               Name TEXT,            \
               Email TEXT,           \
               Test_result INT);"

# виконаемо запит на створення таблиці
cur.execute(sql_stmt)

# перевіримо стан виконання операції - виведемо список таблиць
tables_list = cur.execute("SELECT name FROM sqlite_master WHERE type = 'table';")
tables_list.fetchall()


[('jornal_test',), ('result',), ('Jornal',)]

In [7]:
# створимо запит на об'єднання таблиць 'jornal' та 'test' по прізвищу студента
sql_stmt = "SELECT Jornal.*, jornal_test.Test_result FROM  \
            Jornal LEFT JOIN jornal_test ON Jornal.Surname = jornal_test.Surname"

# для перевірки виконаємо і виведемо результати запиту
cur.execute(sql_stmt).fetchall()

[('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Адаменко', 'Назар', 'N.Adamen

In [8]:
# заповнимо пусту таблицю результатми  запиту на злиття
_ = cur.execute("INSERT INTO jornal_test " + sql_stmt)

In [9]:
# збережемо вміст нової таблиці в список
jornal_test_list = cur.execute("SELECT * FROM jornal_test").fetchall()

_ = [print(x) for x in jornal_test_list]

('Адаменко', 'Назар', 'N.Adamenko', None)
('Акішев', 'Володимир', 'v.akishev', None)
('Акунішніков', 'Єгор', 'Y.Akunishnikov', None)
('Артюх', 'Федір', 'f.artyukh', None)
('Барабаш', 'Нікіта', None, None)
('Бойчас', 'Валентин', 'v.boychas', None)
('Будюка', 'Тимур', 'T.Budyuka', None)
('Горб', 'Богдан', 'B.Horb', None)
('Дьяков', 'Денис', 'D.Dyakov', None)
('Іванченко', 'Сергій', None, None)
('Колесник', 'Дмитро', 'D.Kolesnyk', None)
('Мозговенко', 'Денис', 'd.mozhovenko', None)
('Муха', 'Кирило', None, None)
('Назаренко', 'Катерина', None, None)
('Очеретний', 'Олексій', 'O.Ocheretnyy', None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Владислав', None, None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Старовойтов', 'Олександр', 'O.Starovoytov', None)
('Тарнавський', 'Ростислав', None, None)
('Тимошенко', 'Євгеній', 'Y.Tymoshenko', None)
('Харчевка', 'Іван', 'I.Kharchevka', None)
('Адаменко', 'Назар', 'N.Adamenko', None)
('Акішев', 'Володимир', 'v.akishev', None)
('Акунішніков',

('Дьяков', 'Денис', 'D.Dyakov', None)
('Дьяков', 'Денис', 'D.Dyakov', None)
('Дьяков', 'Денис', 'D.Dyakov', None)
('Дьяков', 'Денис', 'D.Dyakov', None)
('Дьяков', 'Денис', 'D.Dyakov', None)
('Дьяков', 'Денис', 'D.Dyakov', None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'Сергій', None, None)
('Іванченко', 'С

('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Полюхович',

('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Аліна', None, None)
('Поліщук'

('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
(

('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
('Поліщук', 'Владислав', None, None)
(

In [10]:
# завершимо всі транзакції
conn.commit()

# закріємо з'єднання
conn.close()

#### ПРИКЛАД  ДЕСКРИПТИВНОГО АНАЛІЗУ ДАНИХ

Провести [попередній аналіз](https://ru.wikipedia.org/wiki/Описательная_статистика) отриманих даних з ціллю виявленя відхилень, помилок та інших непридатних даних.

Сведемо результати аналізу в таблицю, яка має наступний вигляд:

№| Показчик | Значення
:--:|:-------|-------:
1| кількість спостережень | xx 
2| кількість пустих значень | xx
4| середній бал|  xx.x
5| максимальний бал | xx
6| мінімальний бал  | xx
7| стандартне відхилення | xx.x
8| розмах вариації  | xx


In [11]:
# підключимо бібліотеку 'numpy' і дамо їй аліас 'np'
import numpy as np

ознайомитись з призначенням, можливостями та основним функціями [бібліотеки numpy](https://numpy.org) 

In [12]:
# перетворимо список студетів в numpay матрицю
jornal_test_arr = np.array(jornal_test_list)

In [13]:
print(type (jornal_test_arr), jornal_test_arr.shape)

<class 'numpy.ndarray'> (6934, 4)


In [14]:
# створимо масив с результатами тестів 
test_result = np.delete(jornal_test_arr, [0,1,2], 1)

In [15]:
# Значення 'None' - не є числом, то заміним його на 0
test_result[test_result == None] = 0

In [16]:
# будуємо словник з вихідними розрахунками
result_dict = {
    "кількість спостережень"   : len(test_result),
    "кількість пустих значень" : len(test_result) - np.count_nonzero(test_result),
    "середній бал"             : round(np.mean(test_result),1),
    "максимальний бал"         : np.max(test_result),
    "мінімальний бал"          : np.min(test_result),
    "стандартне відхилення"    : round(np.std(test_result),1),
    "розмах вариації"          : np.max(test_result) - np.min(test_result) 
    }

In [17]:
result_dict

{'кількість спостережень': 6934,
 'кількість пустих значень': 6934,
 'середній бал': 0.0,
 'максимальний бал': 0,
 'мінімальний бал': 0,
 'стандартне відхилення': 0.0,
 'розмах вариації': 0}

In [18]:
# вивести шапку
print(
"""
=======================================
№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     
=======================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1


№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     

1   кількість спостережень     6934
2   кількість пустих значень   6934
3   середній бал               0.0
4   максимальний бал           0
5   мінімальний бал            0
6   стандартне відхилення      0.0
7   розмах вариації            0


### ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

Користуючись результатами, що отримані в [Лабораторній роботі № 3](https://shkliarskiy.moodlecloud.com/mod/page/view.php?id=1193) виконати процедури видобутку, збагачення та попереднього аналізу даних.

__Постановка__: В 3-й лабораторній роботі отримано показчик, що характеризує окрему властивість квартири (ціна, метраж та ін.). 
Необхідно:
1. Відобразити цей показчик на адресу квартири, яка знаходиться в файлі `street_name.csv`, тобто побудувати новий файл `street_flat_propery.csv` якій містить 2 колонки: _<назва вулиці> <ваш показчик>_
2. На основі цьго файлу зробити відповідну таблицю в _SQLite_ та збагатити цю дані в цій таблиці назвою району де розташована квартира (дані по районах додаються) 
3. Провести попередній аналіз отриманих даних - вивести первинні статистики показчика по районах (_середне_ , _мінімальне_ , _максимальне_ і т.д. - див. приклад вище)

In [86]:
# Злиття файлу з показчиком та файлу з назвами вулиць в новий файл

YOUR_FILE = r"C:\Users\Vlad Vlad\DM-460589\ЛАБОРАТОРНА_РОБОТА_№4\aprt_rooms.txt"
with open(YOUR_FILE) as f1, \
     open('kiev-districts.csv') as f2, \
     open(r'C:\Users\Vlad Vlad\DM-460589\ЛАБОРАТОРНА_РОБОТА_№4\\street_flat_propery.csv', 'w+', encoding="utf8") as f3:
    
    for x, y in zip(f1, f2):
        line = f'{x[:-1].strip()},{y[:-1].strip()}\n'
        print(line)
        f3.write(line)

rooms,street, type, district

2,9-РіРѕ РўСЂР°РІРЅСЏ,РІСѓР»РёС†СЏ,РЎРІСЏС‚РѕС€РёРЅСЃСЊРєРёР№

3,РђР±СЂРёРєРѕСЃРѕРІР°,РІСѓР»РёС†СЏ,РћР±РѕР»РѕРЅСЃСЊРєРёР№

3,РђР±СЂРёРєРѕСЃРѕРІР°,РІСѓР»РёС†СЏ,Р”Р°СЂРЅРёС†СЊРєРёР№

2,РђР±СЂРёРєРѕСЃРѕРІР°,РІСѓР»РёС†СЏ,РџРѕРґС–Р»СЊСЃСЊРєРёР№

2,РђРІРіСѓСЃС‚РёРЅР° Р’РѕР»РѕС€РёРЅР°,РІСѓР»РёС†СЏ,РЎРѕР»РѕРјвЂ™СЏРЅСЃСЊРєРёР№

3,РђРІРґС”С”РЅРєР° Р“РµРЅРµСЂР°Р»Р°,РІСѓР»РёС†СЏ,РЎРІСЏС‚РѕС€РёРЅСЃСЊРєРёР№

5,РђРІС‚РѕР·Р°РІРѕРґСЃСЊРєР°,РІСѓР»РёС†СЏ,РћР±РѕР»РѕРЅСЃСЊРєРёР№

2,РђРІС‚РѕР·Р°РІРѕРґСЃСЊРєРёР№ ,РїСЂРѕРІСѓР»РѕРє,РћР±РѕР»РѕРЅСЃСЊРєРёР№

1,РђРІС‚РѕРїР°СЂРєРѕРІР°,РІСѓР»РёС†СЏ,Р”Р°СЂРЅРёС†СЊРєРёР№

2,РђРІС‚РѕСЂРµРјРѕРЅС‚РЅР°,РІСѓР»РёС†СЏ,РЎРѕР»РѕРј'СЏРЅСЃСЊРєРёР№

1,РђРІС‚РѕС‚СЂР°РЅСЃРїРѕСЂС‚РЅР°,РІСѓР»РёС†СЏ,Р”Р°СЂРЅРёС†СЊРєРёР№

2,РђРіС–С‚Р°С‚РѕСЂСЃСЊРєР°,РІСѓР»РёС†СЏ,РЎРѕР»РѕРј'СЏРЅСЃСЊРєРёР№

2,РђРіСЂРµРіР°С‚РЅР°,РІСѓР»РёС†СЏ,РћР±РѕР»РѕРЅСЃСЊРєРёР№

2,РђРµСЂРѕРґСЂРѕРјРЅР°,РІСѓР»РёС†СЏ,РЎРѕР»РѕРј'СЏРЅСЃСЊРєРёР№

1,РђР·РµСЂР±Р°Р№РґР¶Р°РЅСЃСЊРєР°,РІСѓР»РёС†СЏ,Р”РЅ

#### імпортувати в БД отриманий файл 'street_flat_propery.csv' через CLI
- __sqlite3 districts.db__ - запустити SQLite та відкрити БД
- __.mode csv__ - перевести БД для роботи з csv-файлами
- __.import street_flat_propery.csv street_flat_propery__ - створює таблицю _street_flat_propery_ та завантажує в неї вміст файлу _street_flat_propery.csv_
- __SELECT * FROM street_flat_propery LIMIT 10;__ - вивести 10 записів для перевірки
- __.quit__ - завершити роботу з CLI SQLite



In [87]:
# Підключитись до БД 'districts.db' в якій є прив'язка вулиць до районів 
conn = sqlite3.connect("districts.db")

# створити відповідний курсор
cur  = conn.cursor()

In [88]:
# для перевірки виведіть 10 записів з таблиці 'street_district'
t_cur = cur.execute("SELECT * FROM street_district LIMIT 10")

t_list = t_cur.fetchall()

_ = [print(x) for x in t_list]

('9-го Травня', 'вулиця', 'Святошинський')
('Абрикосова', 'вулиця', 'Оболонський')
('Абрикосова', 'вулиця', 'Дарницький')
('Абрикосова', 'вулиця', 'Подільський')
('Августина Волошина', 'вулиця', 'Солом’янський')
('Авдєєнка Генерала', 'вулиця', 'Святошинський')
('Автозаводська', 'вулиця', 'Оболонський')
('Автозаводський ', 'провулок', 'Оболонський')
('Автопаркова', 'вулиця', 'Дарницький')
('Авторемонтна', 'вулиця', "Солом'янський")


In [89]:
# побудувати запит на створення таблиці 'result' з 3-ма полями:
#     district - текстове
#     street - текстове
#     property - числове
stmt = "CREATE TABLE IF NOT EXISTS result \
              (district TEXT,         \
               street TEXT,            \
               property INT);"

In [90]:
# виконати запит
cur.execute(stmt)

<sqlite3.Cursor at 0x220a3fbf730>

In [91]:
# перевірити схему таблиці
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('result');").fetchall()

[('district',), ('street',), ('property',)]

In [101]:
# створити запит на злиття таблиці 'street_flat_propery' та 'street_district' 
# по полю 'street'
stmt_join = "SELECT street_district.*, street_flat_propery.rooms FROM  \
            street_district LEFT JOIN street_flat_propery ON street_district.street WHERE street_flat_propery.street IS NULL"

In [102]:
# перевірити запит
cur.execute(stmt_join).fetchall()

[('Абрикосова', 'вулиця', 'Оболонський', None),
 ('Абрикосова', 'вулиця', 'Дарницький', None),
 ('Абрикосова', 'вулиця', 'Подільський', None),
 ('Августина Волошина', 'вулиця', 'Солом’янський', None),
 ('Авдєєнка Генерала', 'вулиця', 'Святошинський', None),
 ('Автозаводська', 'вулиця', 'Оболонський', None),
 ('Автозаводський ', 'провулок', 'Оболонський', None),
 ('Автопаркова', 'вулиця', 'Дарницький', None),
 ('Авторемонтна', 'вулиця', "Солом'янський", None),
 ('Автотранспортна', 'вулиця', 'Дарницький', None),
 ('Агітаторська', 'вулиця', "Солом'янський", None),
 ('Агрегатна', 'вулиця', 'Оболонський', None),
 ('Аеродромна', 'вулиця', "Солом'янський", None),
 ('Азербайджанська', 'вулиця', 'Дніпровський', None),
 ('Азовська', 'вулиця', "Солом'янський", None),
 ('Айвазовського', 'провулок', 'Шевченківський', None),
 ('Академіка Єфремова', 'вулиця', 'Святошинський', None),
 ('Академіка Оппокова', 'вулиця', 'Оболонський', None),
 ('Академіка Ромоданова', 'вулиця', 'Шевченківський', None),
 (

In [103]:
# створити запит для наповнення таблиці `result` результатом запиту на об'єднання
stmt_insert = cur.execute("INSERT INTO result " + stmt_join)

OperationalError: table result has 3 columns but 4 values were supplied

In [104]:
# виконати запит на заповнення
cur.execute(stmt_insert)

NameError: name 'stmt_insert' is not defined

In [105]:
# сберегти вміст створеної таблиці у вигляді списка
result_list = cur.execute("SELECT * FROM result").fetchall()

_ = [print(x) for x in result_list]

#### для аналізу скористатися бібліотекою NumPy

In [57]:
import numpy as np

In [58]:
# створити np-масив з списку `result_list`
result_arr = np.array(result_list)
print(type (result_arr), result_arr.shape)
rooms_result = np.delete(result_arr, [0,1,2], 1)
rooms_result[rooms_result == None] = 0
rooms_result = list(map(int, year_result))
print(rooms_result)

<class 'numpy.ndarray'> (0,)


AxisError: axis 1 is out of bounds for array of dimension 1

In [59]:
# побудувати словник для результатів аналізу
result_dict = {
    "кількість спостережень"   : len(rooms_result) ,
    "середнє значення"         : round(np.mean(rooms_result),1) ,
    "максимальне значення"     : np.max(rooms_result) ,
    "мінімальне значення"      : np.min(rooms_result) ,
    "стандартне відхилення"    : round(np.std(rooms_result),1) ,
    "розмах вариації"          : np.max(rooms_result) - np.min(rooms_result)
    }

NameError: name 'rooms_result' is not defined

In [60]:
# вивести шапку
print(
"""
================================================
№  :   РАЙОН        : ПОКАЗЧИК        : ЗНАЧЕННЯ     
================================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1


№  :   РАЙОН        : ПОКАЗЧИК        : ЗНАЧЕННЯ     

1   кількість спостережень     6934
2   кількість пустих значень   6934
3   середній бал               0.0
4   максимальний бал           0
5   мінімальний бал            0
6   стандартне відхилення      0.0
7   розмах вариації            0
