# Видобуток та збагачення структурованих даних

### ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Для роботи з структурованими табличними даними, які розміщені в реляційній БД [SQLite](https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiUyMOv1orvAhWDK3cKHac9DyMQFjAAegQIBxAD&url=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2FSQLite&usg=AOvVaw1s-RMK2VC2tXyDZxZXDYDo) в Python передбачена стандартна бібліотека [sqlite3](https://docs.python.org/3/library/sqlite3.html)

In [100]:
# підключення бібліотеки
import sqlite3

#### ПРИКЛАД ВИЛУЧЕННЯ ДАНИХ З БД
Створити БД SQLite з ім'ям `FIT-3m`, та імпорувати в неї таблицю, що містить журнал групи `jornal`

In [101]:
# створюємо з'єднання з БД
conn = sqlite3.connect("FIT-3m.db")

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

In [102]:
# створюємо об'єкт `cursor`, що відповідає за реалізацію операцій з таблицями БД
cur = conn.cursor()

In [103]:
print(type(cur), end='\n\n')
print(dir(cur))

<class 'sqlite3.Cursor'>

['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'arraysize', 'close', 'connection', 'description', 'execute', 'executemany', 'executescript', 'fetchall', 'fetchmany', 'fetchone', 'lastrowid', 'row_factory', 'rowcount', 'setinputsizes', 'setoutputsize']


##### виведемо ВСІ записи таблиці `jornal`

In [104]:
# створимо інстанс для операції `SELECT`
students_cur = cur.execute("SELECT * FROM Jornal")

# будуємо список записів за допомогою метода `fetchall()`
students_list = students_cur.fetchall()

_ = [print(x) for x in students_list]

('Адаменко', 'Назар', 'N.Adamenko')
('Акішев', 'Володимир', 'v.akishev')
('Акунішніков', 'Єгор', 'Y.Akunishnikov')
('Артюх', 'Федір', 'f.artyukh')
('Барабаш', 'Нікіта', None)
('Бойчас', 'Валентин', 'v.boychas')
('Будюка', 'Тимур', 'T.Budyuka')
('Горб', 'Богдан', 'B.Horb')
('Дьяков', 'Денис', 'D.Dyakov')
('Іванченко', 'Сергій', None)
('Колесник', 'Дмитро', 'D.Kolesnyk')
('Мозговенко', 'Денис', 'd.mozhovenko')
('Муха', 'Кирило', None)
('Назаренко', 'Катерина', None)
('Очеретний', 'Олексій', 'O.Ocheretnyy')
('Поліщук', 'Аліна', None)
('Поліщук', 'Владислав', None)
('Полюхович', 'Аліна', 'A.Polyukhovych')
('Старовойтов', 'Олександр', 'O.Starovoytov')
('Тарнавський', 'Ростислав', None)
('Тимошенко', 'Євгеній', 'Y.Tymoshenko')
('Харчевка', 'Іван', 'I.Kharchevka')


#### ПРИКЛАД ЗБАГАЧЕННЯ ДАНИХ З ЗОВНІШНЬОГО ДЖЕРЕЛА

Додати до списка студентів їх оцінки за вступне тестування, які розташовані в csv файлі `test_result.csv`

імпортуємо `test_result.csv` в робочу БД як таблицю `test`

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

##### Cтворимо нову таблицю, яка буде містити вміст таблиці `jornal` та поле оцінок з таблиці `test`



In [105]:
# створимо вираз на побудову пустої таблиці `jornal_test` з відповідними полями
sql_stmt = "CREATE TABLE IF NOT EXISTS jornal_test \
              (Surname TEXT,         \
               Name TEXT,            \
               Email TEXT,           \
               Test_result INT);"

# виконаемо запит на створення таблиці
cur.execute(sql_stmt)

# перевіримо стан виконання операції - виведемо список таблиць
tables_list = cur.execute("SELECT name FROM sqlite_master WHERE type = 'table';")
tables_list.fetchall()


[('jornal_test',), ('Jornal',)]

In [106]:
# створимо запит на об'єднання таблиць 'jornal' та 'test' по прізвищу студента
sql_stmt = "SELECT Jornal.*, jornal_test.Test_result FROM  \
            Jornal LEFT JOIN jornal_test ON Jornal.Surname = jornal_test.Surname"

# для перевірки виконаємо і виведемо результати запиту
cur.execute(sql_stmt).fetchall()

[('Адаменко', 'Назар', 'N.Adamenko', None),
 ('Акішев', 'Володимир', 'v.akishev', None),
 ('Акунішніков', 'Єгор', 'Y.Akunishnikov', None),
 ('Артюх', 'Федір', 'f.artyukh', None),
 ('Барабаш', 'Нікіта', None, None),
 ('Бойчас', 'Валентин', 'v.boychas', None),
 ('Будюка', 'Тимур', 'T.Budyuka', None),
 ('Горб', 'Богдан', 'B.Horb', None),
 ('Дьяков', 'Денис', 'D.Dyakov', None),
 ('Іванченко', 'Сергій', None, None),
 ('Колесник', 'Дмитро', 'D.Kolesnyk', None),
 ('Мозговенко', 'Денис', 'd.mozhovenko', None),
 ('Муха', 'Кирило', None, None),
 ('Назаренко', 'Катерина', None, None),
 ('Очеретний', 'Олексій', 'O.Ocheretnyy', None),
 ('Поліщук', 'Аліна', None, None),
 ('Поліщук', 'Владислав', None, None),
 ('Полюхович', 'Аліна', 'A.Polyukhovych', None),
 ('Старовойтов', 'Олександр', 'O.Starovoytov', None),
 ('Тарнавський', 'Ростислав', None, None),
 ('Тимошенко', 'Євгеній', 'Y.Tymoshenko', None),
 ('Харчевка', 'Іван', 'I.Kharchevka', None)]

In [107]:
# заповнимо пусту таблицю результатми  запиту на злиття
_ = cur.execute("INSERT INTO jornal_test " + sql_stmt)

In [108]:
# збережемо вміст нової таблиці в список
jornal_test_list = cur.execute("SELECT * FROM jornal_test").fetchall()

_ = [print(x) for x in jornal_test_list]

('Адаменко', 'Назар', 'N.Adamenko', None)
('Акішев', 'Володимир', 'v.akishev', None)
('Акунішніков', 'Єгор', 'Y.Akunishnikov', None)
('Артюх', 'Федір', 'f.artyukh', None)
('Барабаш', 'Нікіта', None, None)
('Бойчас', 'Валентин', 'v.boychas', None)
('Будюка', 'Тимур', 'T.Budyuka', None)
('Горб', 'Богдан', 'B.Horb', None)
('Дьяков', 'Денис', 'D.Dyakov', None)
('Іванченко', 'Сергій', None, None)
('Колесник', 'Дмитро', 'D.Kolesnyk', None)
('Мозговенко', 'Денис', 'd.mozhovenko', None)
('Муха', 'Кирило', None, None)
('Назаренко', 'Катерина', None, None)
('Очеретний', 'Олексій', 'O.Ocheretnyy', None)
('Поліщук', 'Аліна', None, None)
('Поліщук', 'Владислав', None, None)
('Полюхович', 'Аліна', 'A.Polyukhovych', None)
('Старовойтов', 'Олександр', 'O.Starovoytov', None)
('Тарнавський', 'Ростислав', None, None)
('Тимошенко', 'Євгеній', 'Y.Tymoshenko', None)
('Харчевка', 'Іван', 'I.Kharchevka', None)


In [109]:
# завершимо всі транзакції
conn.commit()

# закріємо з'єднання
conn.close()

#### ПРИКЛАД  ДЕСКРИПТИВНОГО АНАЛІЗУ ДАНИХ

Провести [попередній аналіз](https://ru.wikipedia.org/wiki/Описательная_статистика) отриманих даних з ціллю виявленя відхилень, помилок та інших непридатних даних.

Сведемо результати аналізу в таблицю, яка має наступний вигляд:

№| Показчик | Значення
:--:|:-------|-------:
1| кількість спостережень | xx 
2| кількість пустих значень | xx
4| середній бал|  xx.x
5| максимальний бал | xx
6| мінімальний бал  | xx
7| стандартне відхилення | xx.x
8| розмах вариації  | xx


In [110]:
# підключимо бібліотеку 'numpy' і дамо їй аліас 'np'
import numpy as np

ознайомитись з призначенням, можливостями та основним функціями [бібліотеки numpy](https://numpy.org) 

In [111]:
# перетворимо список студетів в numpay матрицю
jornal_test_arr = np.array(jornal_test_list)


In [112]:
print(type (jornal_test_arr), jornal_test_arr.shape)

<class 'numpy.ndarray'> (22, 4)


In [113]:
# створимо масив с результатами тестів 
test_result = np.delete(jornal_test_arr, [0,1,2], 1)

In [114]:
# Значення 'None' - не є числом, то заміним його на 0
test_result[test_result == None] = 0

In [116]:
# будуємо словник з вихідними розрахунками
result_dict = {
    "кількість спостережень"   : len(test_result),
    "кількість пустих значень" : len(test_result) - np.count_nonzero(test_result),
    "середній бал"             : round(np.mean(test_result),1),
    "максимальний бал"         : np.max(test_result),
    "мінімальний бал"          : np.min(test_result),
    "стандартне відхилення"    : round(np.std(test_result),1),
    "розмах вариації"          : np.max(test_result) - np.min(test_result) 
    }

In [117]:
result_dict

{'кількість спостережень': 22,
 'кількість пустих значень': 22,
 'середній бал': 0.0,
 'максимальний бал': 0,
 'мінімальний бал': 0,
 'стандартне відхилення': 0.0,
 'розмах вариації': 0}

In [118]:
# вивести шапку
print(
"""
=======================================
№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     
=======================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1


№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     

1   кількість спостережень     22
2   кількість пустих значень   22
3   середній бал               0.0
4   максимальний бал           0
5   мінімальний бал            0
6   стандартне відхилення      0.0
7   розмах вариації            0


### ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

Користуючись результатами, що отримані в [Лабораторній роботі № 3](https://shkliarskiy.moodlecloud.com/mod/page/view.php?id=1193) виконати процедури видобутку, збагачення та попереднього аналізу даних.

__Постановка__: В 3-й лабораторній роботі отримано показчик, що характеризує окрему властивість квартири (ціна, метраж та ін.). 
Необхідно:
1. Відобразити цей показчик на адресу квартири, яка знаходиться в файлі `street_name.csv`, тобто побудувати новий файл `street_flat_propery.csv` якій містить 2 колонки: _<назва вулиці> <ваш показчик>_
2. На основі цьго файлу зробити відповідну таблицю в _SQLite_ та збагатити цю дані в цій таблиці назвою району де розташована квартира (дані по районах додаються) 
3. Провести попередній аналіз отриманих даних - вивести первинні статистики показчика по районах (_середне_ , _мінімальне_ , _максимальне_ і т.д. - див. приклад вище)

In [26]:
# Злиття файлу з показчиком та файлу з назвами вулиць в новий файл

YOUR_FILE = 'C:/Users/Александр/Repositories/DM-474222/Lab-3/aprt_total_levels.txt'
with open(YOUR_FILE) as f1, \
     open(r'C:\Users\Александр\Repositories\DM-474222\Lab-4\kiev-districts.csv', 'r') as f2, \
     open('street_flat_propery.csv', 'w') as f3:
    
    for x, y in zip(f1, f2):
        line = f'{x[:-1].strip()},{y[:-1].strip()}\n'
        print(line)
        f3.write(line)
        


C:/Users/Александр/Repositories/DM-474222/Lab-3/aprt_total_levels.txt
floor,street, type, district

25,9-РіРѕ РўСЂР°РІРЅСЏ,РІСѓР»РёС†СЏ,РЎРІСЏС‚РѕС€РёРЅСЃСЊРєРёР№

25,РђР±СЂРёРєРѕСЃРѕРІР°,РІСѓР»РёС†СЏ,РћР±РѕР»РѕРЅСЃСЊРєРёР№

18,РђР±СЂРёРєРѕСЃРѕРІР°,РІСѓР»РёС†СЏ,Р”Р°СЂРЅРёС†СЊРєРёР№

5,РђР±СЂРёРєРѕСЃРѕРІР°,РІСѓР»РёС†СЏ,РџРѕРґС–Р»СЊСЃСЊРєРёР№

10,РђРІРіСѓСЃС‚РёРЅР° Р’РѕР»РѕС€РёРЅР°,РІСѓР»РёС†СЏ,РЎРѕР»РѕРјвЂ™СЏРЅСЃСЊРєРёР№

22,РђРІРґС”С”РЅРєР° Р“РµРЅРµСЂР°Р»Р°,РІСѓР»РёС†СЏ,РЎРІСЏС‚РѕС€РёРЅСЃСЊРєРёР№

23,РђРІС‚РѕР·Р°РІРѕРґСЃСЊРєР°,РІСѓР»РёС†СЏ,РћР±РѕР»РѕРЅСЃСЊРєРёР№

23,РђРІС‚РѕР·Р°РІРѕРґСЃСЊРєРёР№ ,РїСЂРѕРІСѓР»РѕРє,РћР±РѕР»РѕРЅСЃСЊРєРёР№

20,РђРІС‚РѕРїР°СЂРєРѕРІР°,РІСѓР»РёС†СЏ,Р”Р°СЂРЅРёС†СЊРєРёР№

9,РђРІС‚РѕСЂРµРјРѕРЅС‚РЅР°,РІСѓР»РёС†СЏ,РЎРѕР»РѕРј'СЏРЅСЃСЊРєРёР№

19,РђРІС‚РѕС‚СЂР°РЅСЃРїРѕСЂС‚РЅР°,РІСѓР»РёС†СЏ,Р”Р°СЂРЅРёС†СЊРєРёР№

17,РђРіС–С‚Р°С‚РѕСЂСЃСЊРєР°,РІСѓР»РёС†СЏ,РЎРѕР»РѕРј'СЏРЅСЃСЊРєРёР№

25,РђРіСЂРµРіР°С‚РЅР°,РІСѓР»РёС†СЏ,РћР±РѕР»РѕРЅСЃСЊРєРёР№

12,РђРµСЂРѕРґСЂРѕРјРЅР°,РІСѓР»Рё

#### імпортувати в БД отриманий файл 'street_flat_propery.csv' через CLI
- __sqlite3 districts.db__ - запустити SQLite та відкрити БД
- __.mode csv__ - перевести БД для роботи з csv-файлами
- __.import street_flat_propery.csv street_flat_propery__ - створює таблицю _street_flat_propery_ та завантажує в неї вміст файлу _street_flat_propery.csv_
- __SELECT * FROM street_flat_propery LIMIT 10;__ - вивести 10 записів для перевірки
- __.quit__ - завершити роботу з CLI SQLite



In [28]:
# Підключитись до БД 'districts.db' в якій є прив'язка вулиць до районів 
import sqlite3
conn = sqlite3.connect("districts.db")

# створити відповідний курсор
cur  = conn.cursor()

In [31]:
# для перевірки виведіть 10 записів з таблиці 'street_district'
query = 'SELECT * FROM street_district LIMIT 10;'
result = cur.execute(query).fetchall()

_ = [print(x) for x in result]

('9-го Травня', 'вулиця', 'Святошинський')
('Абрикосова', 'вулиця', 'Оболонський')
('Абрикосова', 'вулиця', 'Дарницький')
('Абрикосова', 'вулиця', 'Подільський')
('Августина Волошина', 'вулиця', 'Солом’янський')
('Авдєєнка Генерала', 'вулиця', 'Святошинський')
('Автозаводська', 'вулиця', 'Оболонський')
('Автозаводський ', 'провулок', 'Оболонський')
('Автопаркова', 'вулиця', 'Дарницький')
('Авторемонтна', 'вулиця', "Солом'янський")


In [32]:
# побудувати запит на створення таблиці 'result' з 3-ма полями:
#     district - текстове
#     street - текстове
#     property - числове
stmt = "CREATE TABLE IF NOT EXISTS result \
              (district TEXT,         \
               street TEXT,            \
               property INT);"

# виконаемо запит на створення таблиці
cur.execute(stmt)

# перевіримо стан виконання операції - виведемо список таблиць
tables_list = cur.execute("SELECT name FROM sqlite_master WHERE type = 'table';")
tables_list.fetchall()


[('street_district',), ('result',)]

In [33]:
# виконати запит
cur.execute(stmt)

<sqlite3.Cursor at 0x16e73c5c500>

In [34]:
# перевірити схему таблиці
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('result');").fetchall()

[('district',), ('street',), ('property',)]

In [43]:
# створити запит на злиття таблиці 'street_flat_propery' та 'street_district' 
# по полю 'street'
stmt_join = "SELECT street_district.*, street_flat_property.floor FROM  \
            street_district LEFT JOIN street_flat_property ON street_district.street = street_flat_property.street "

cur.execute(stmt_join).fetchall()

[('9-го Травня', 'вулиця', 'Святошинський', 25),
 ('Абрикосова', 'вулиця', 'Оболонський', 5),
 ('Абрикосова', 'вулиця', 'Оболонський', 18),
 ('Абрикосова', 'вулиця', 'Оболонський', 25),
 ('Абрикосова', 'вулиця', 'Дарницький', 5),
 ('Абрикосова', 'вулиця', 'Дарницький', 18),
 ('Абрикосова', 'вулиця', 'Дарницький', 25),
 ('Абрикосова', 'вулиця', 'Подільський', 5),
 ('Абрикосова', 'вулиця', 'Подільський', 18),
 ('Абрикосова', 'вулиця', 'Подільський', 25),
 ('Августина Волошина', 'вулиця', 'Солом’янський', 10),
 ('Авдєєнка Генерала', 'вулиця', 'Святошинський', 22),
 ('Автозаводська', 'вулиця', 'Оболонський', 23),
 ('Автозаводський ', 'провулок', 'Оболонський', None),
 ('Автопаркова', 'вулиця', 'Дарницький', 20),
 ('Авторемонтна', 'вулиця', "Солом'янський", 9),
 ('Автотранспортна', 'вулиця', 'Дарницький', 19),
 ('Агітаторська', 'вулиця', "Солом'янський", 17),
 ('Агрегатна', 'вулиця', 'Оболонський', 25),
 ('Аеродромна', 'вулиця', "Солом'янський", 12),
 ('Азербайджанська', 'вулиця', 'Дніпровс

In [44]:
# перевірити запит
cur.execute(stmt_join).fetchall()

[('9-го Травня', 'вулиця', 'Святошинський', 25),
 ('Абрикосова', 'вулиця', 'Оболонський', 5),
 ('Абрикосова', 'вулиця', 'Оболонський', 18),
 ('Абрикосова', 'вулиця', 'Оболонський', 25),
 ('Абрикосова', 'вулиця', 'Дарницький', 5),
 ('Абрикосова', 'вулиця', 'Дарницький', 18),
 ('Абрикосова', 'вулиця', 'Дарницький', 25),
 ('Абрикосова', 'вулиця', 'Подільський', 5),
 ('Абрикосова', 'вулиця', 'Подільський', 18),
 ('Абрикосова', 'вулиця', 'Подільський', 25),
 ('Августина Волошина', 'вулиця', 'Солом’янський', 10),
 ('Авдєєнка Генерала', 'вулиця', 'Святошинський', 22),
 ('Автозаводська', 'вулиця', 'Оболонський', 23),
 ('Автозаводський ', 'провулок', 'Оболонський', None),
 ('Автопаркова', 'вулиця', 'Дарницький', 20),
 ('Авторемонтна', 'вулиця', "Солом'янський", 9),
 ('Автотранспортна', 'вулиця', 'Дарницький', 19),
 ('Агітаторська', 'вулиця', "Солом'янський", 17),
 ('Агрегатна', 'вулиця', 'Оболонський', 25),
 ('Аеродромна', 'вулиця', "Солом'янський", 12),
 ('Азербайджанська', 'вулиця', 'Дніпровс

In [45]:
# створити запит для наповнення таблиці `result` результатом запиту на об'єднання
stmt_insert = "INSERT INTO result " + stmt_join

In [47]:
# виконати запит на заповнення
cur.execute(stmt_insert)

<sqlite3.Cursor at 0x16e73c5c500>

In [48]:
# сберегти вміст створеної таблиці у вигляді списка
result_list = cur.execute("SELECT * FROM result").fetchall()

_ = [print(x) for x in result_list]

('9-го Травня', 'вулиця', 'Святошинський', '25')
('Абрикосова', 'вулиця', 'Оболонський', '5')
('Абрикосова', 'вулиця', 'Оболонський', '18')
('Абрикосова', 'вулиця', 'Оболонський', '25')
('Абрикосова', 'вулиця', 'Дарницький', '5')
('Абрикосова', 'вулиця', 'Дарницький', '18')
('Абрикосова', 'вулиця', 'Дарницький', '25')
('Абрикосова', 'вулиця', 'Подільський', '5')
('Абрикосова', 'вулиця', 'Подільський', '18')
('Абрикосова', 'вулиця', 'Подільський', '25')
('Августина Волошина', 'вулиця', 'Солом’янський', '10')
('Авдєєнка Генерала', 'вулиця', 'Святошинський', '22')
('Автозаводська', 'вулиця', 'Оболонський', '23')
('Автозаводський ', 'провулок', 'Оболонський', None)
('Автопаркова', 'вулиця', 'Дарницький', '20')
('Авторемонтна', 'вулиця', "Солом'янський", '9')
('Автотранспортна', 'вулиця', 'Дарницький', '19')
('Агітаторська', 'вулиця', "Солом'янський", '17')
('Агрегатна', 'вулиця', 'Оболонський', '25')
('Аеродромна', 'вулиця', "Солом'янський", '12')
('Азербайджанська', 'вулиця', 'Дніпровськи

('Головка Андрія', 'вулиця', 'Солом’янський', '22')
('Голосіївська', 'площа', 'Голосіївський', '10')
('Голосіївська', 'площа', 'Голосіївський', '26')
('Голосіївська', 'вулиця', 'Голосіївський', '10')
('Голосіївська', 'вулиця', 'Голосіївський', '26')
('Голосіївський', 'проспект', 'Голосіївський', '16')
('Голосіївський', 'проспект', 'Голосіївський', '19')
('Голосіївський', 'провулок', 'Голосіївський', '16')
('Голосіївський', 'провулок', 'Голосіївський', '19')
('Гомельська', 'вулиця', 'Подільський', '9')
('Гомельський', 'провулок', 'Подільський', '16')
('Гонгадзе Георгія', 'проспект', 'Подільський', '16')
('Гонти Івана', 'вулиця', 'Шевченківський', '4')
('Гончара Олеся', 'вулиця', 'Шевченківський', '26')
('Гончарна', 'вулиця', 'Подільський', '8')
('Гончарова', 'вулиця', 'Шевченківський', '25')
('Горбунова Академіка', 'вулиця', 'Дарницький', '24')
('Горенська', 'вулиця', 'Святошинський', '9')
('Гориста', 'вулиця', 'Голосіївський', '9')
('Гористий', 'провулок', 'Голосіївський', '12')
('Горі

#### для аналізу скористатися бібліотекою NumPy

In [54]:
import numpy as np

In [60]:
# створити np-масив з списку `result_list`
result_arr = np.array(result_list)
result_arr

print(type (result_arr), result_arr.shape)
prop_result = np.delete(result_arr, [0,1,2], 1)
prop_result[prop_result == None] = 0
prop_result = list(map(int, prop_result))
print("-------------------------------------------------------------------------")
prop_result

<class 'numpy.ndarray'> (5968, 4)
-------------------------------------------------------------------------


[25,
 5,
 18,
 25,
 5,
 18,
 25,
 5,
 18,
 25,
 10,
 22,
 23,
 0,
 20,
 9,
 19,
 17,
 25,
 12,
 25,
 9,
 18,
 6,
 10,
 24,
 23,
 9,
 5,
 5,
 5,
 12,
 15,
 0,
 25,
 5,
 16,
 5,
 16,
 18,
 16,
 4,
 26,
 17,
 25,
 0,
 0,
 25,
 9,
 25,
 9,
 17,
 25,
 9,
 25,
 5,
 23,
 0,
 5,
 26,
 24,
 25,
 0,
 0,
 0,
 24,
 9,
 11,
 9,
 5,
 5,
 24,
 9,
 0,
 33,
 8,
 24,
 25,
 8,
 25,
 23,
 0,
 5,
 26,
 24,
 25,
 16,
 10,
 9,
 24,
 9,
 11,
 9,
 5,
 5,
 24,
 9,
 0,
 33,
 8,
 24,
 25,
 8,
 25,
 6,
 22,
 10,
 0,
 0,
 5,
 13,
 23,
 15,
 25,
 16,
 5,
 22,
 22,
 27,
 22,
 27,
 25,
 25,
 18,
 24,
 24,
 25,
 28,
 9,
 25,
 10,
 6,
 12,
 6,
 12,
 16,
 25,
 26,
 22,
 19,
 5,
 25,
 0,
 20,
 25,
 9,
 25,
 3,
 24,
 15,
 9,
 4,
 14,
 11,
 10,
 32,
 25,
 9,
 25,
 13,
 5,
 25,
 11,
 24,
 9,
 8,
 16,
 18,
 25,
 22,
 20,
 34,
 6,
 16,
 16,
 4,
 5,
 26,
 11,
 5,
 24,
 23,
 11,
 16,
 14,
 16,
 25,
 0,
 25,
 9,
 26,
 9,
 26,
 9,
 24,
 9,
 24,
 8,
 0,
 24,
 0,
 6,
 22,
 6,
 22,
 5,
 25,
 25,
 5,
 25,
 5,
 23,
 26,
 26,
 5,
 24,
 

In [64]:
# побудувати словник для результатів аналізу
result_dict = {
    "кількість спостережень"   : len(result_arr),
    "середнє значення"         : round(np.mean(prop_result), 1),
    "максимальне значення"     : np.max(prop_result),
    "мінімальне значення"      : np.min(prop_result),
    "стандартне відхилення"    : round(np.std(prop_result), 1),
    "розмах вариації"          : np.max(prop_result) - np.min(prop_result)
    }


In [66]:
# вивести шапку
print(
"""
=======================================
№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     
=======================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1


№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     

1   кількість спостережень     5968
2   середнє значення           5.1
3   максимальне значення       36
4   мінімальне значення        0
5   стандартне відхилення      9.1
6   розмах вариації            36
