# Видобуток та збагачення структурованих даних

### ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Для роботи з структурованими табличними даними, які розміщені в реляційній БД [SQLite](https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiUyMOv1orvAhWDK3cKHac9DyMQFjAAegQIBxAD&url=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2FSQLite&usg=AOvVaw1s-RMK2VC2tXyDZxZXDYDo) в Python передбачена стандартна бібліотека [sqlite3](https://docs.python.org/3/library/sqlite3.html)

In [1]:
# підключення бібліотеки
import sqlite3

#### ПРИКЛАД ВИЛУЧЕННЯ ДАНИХ З БД
Створити БД SQLite з ім'ям `FIT-3m`, та імпорувати в неї таблицю, що містить журнал групи `jornal`

In [2]:
# створюємо з'єднання з БД
conn = sqlite3.connect("FIT-3m.db")

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

In [3]:
# створюємо об'єкт `cursor`, що відповідає за реалізацію операцій з таблицями БД
cur = conn.cursor()

In [4]:
print(type(cur), end='\n\n')
print(dir(cur))

<class 'sqlite3.Cursor'>

['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'arraysize', 'close', 'connection', 'description', 'execute', 'executemany', 'executescript', 'fetchall', 'fetchmany', 'fetchone', 'lastrowid', 'row_factory', 'rowcount', 'setinputsizes', 'setoutputsize']


##### виведемо ВСІ записи таблиці `jornal`

In [5]:
# створимо інстанс для операції `SELECT`
students_cur = cur.execute("SELECT * FROM jornal")

# будуємо список записів за допомогою метода `fetchall()`
students_list = students_cur.fetchall()

_ = [print(x) for x in students_list]

('Адаменко', 'Назар', 'N.Adamenko')
('Акішев', 'Володимир', 'v.akishev')
('Акунішніков', 'Єгор', 'Y.Akunishnikov')
('Артюх', 'Федір', 'f.artyukh')
('Барабаш', 'Нікіта', None)
('Бойчас', 'Валентин', 'v.boychas')
('Будюка', 'Тимур', 'T.Budyuka')
('Горб', 'Богдан', 'B.Horb')
('Дьяков', 'Денис', 'D.Dyakov')
('Іванченко', 'Сергій', None)
('Колесник', 'Дмитро', 'D.Kolesnyk')
('Мозговенко', 'Денис', 'd.mozhovenko')
('Муха', 'Кирило', None)
('Назаренко', 'Катерина', None)
('Очеретний', 'Олексій', 'O.Ocheretnyy')
('Поліщук', 'Аліна', None)
('Поліщук', 'Владислав', None)
('Полюхович', 'Аліна', 'A.Polyukhovych')
('Старовойтов', 'Олександр', 'O.Starovoytov')
('Тарнавський', 'Ростислав', None)
('Тимошенко', 'Євгеній', 'Y.Tymoshenko')
('Харчевка', 'Іван', 'I.Kharchevka')


#### ПРИКЛАД ЗБАГАЧЕННЯ ДАНИХ З ЗОВНІШНЬОГО ДЖЕРЕЛА

Додати до списка студентів їх оцінки за вступне тестування, які розташовані в csv файлі `test_result.csv`

імпортуємо `test_result.csv` в робочу БД як таблицю `test`

[імпорт csv файла в sqlite через CLI](https://www.sqlitetutorial.net/sqlite-import-csv/) 

##### Cтворимо нову таблицю, яка буде містити вміст таблиці `jornal` та поле оцінок з таблиці `test`



In [6]:
# створимо вираз на побудову пустої таблиці `jornal_test` з відповідними полями
sql_stmt = "CREATE TABLE IF NOT EXISTS jornal_test \
              (Surname TEXT,         \
               Name TEXT,            \
               Email TEXT,           \
               Test_result INT);"

# виконаемо запит на створення таблиці
cur.execute(sql_stmt)

# перевіримо стан виконання операції - виведемо список таблиць
tables_list = cur.execute("SELECT name FROM sqlite_master WHERE type = 'table';")
tables_list.fetchall()


[('jornal',), ('test',), ('jornal_test',)]

In [7]:
# створимо запит на об'єднання таблиць 'jornal' та 'test' по прізвищу студента
sql_stmt = "SELECT jornal.*, test.Test_result FROM  \
            jornal LEFT JOIN test ON jornal.Surname = test.Surname "
# test.\"Оцінка/100\" | test.\"Ім\'я\"

# для перевірки виконаємо і виведемо результати запиту
cur.execute(sql_stmt).fetchall()

[('Адаменко', 'Назар', 'N.Adamenko', '82'),
 ('Акішев', 'Володимир', 'v.akishev', '76'),
 ('Акунішніков', 'Єгор', 'Y.Akunishnikov', '79'),
 ('Артюх', 'Федір', 'f.artyukh', '89'),
 ('Барабаш', 'Нікіта', None, '81'),
 ('Бойчас', 'Валентин', 'v.boychas', '75'),
 ('Будюка', 'Тимур', 'T.Budyuka', '67'),
 ('Горб', 'Богдан', 'B.Horb', '83'),
 ('Дьяков', 'Денис', 'D.Dyakov', '91'),
 ('Іванченко', 'Сергій', None, '73'),
 ('Колесник', 'Дмитро', 'D.Kolesnyk', '68'),
 ('Мозговенко', 'Денис', 'd.mozhovenko', '74'),
 ('Муха', 'Кирило', None, '78'),
 ('Назаренко', 'Катерина', None, '87'),
 ('Очеретний', 'Олексій', 'O.Ocheretnyy', '94'),
 ('Поліщук', 'Аліна', None, '65'),
 ('Поліщук', 'Аліна', None, '71'),
 ('Поліщук', 'Владислав', None, '65'),
 ('Поліщук', 'Владислав', None, '71'),
 ('Полюхович', 'Аліна', 'A.Polyukhovych', '88'),
 ('Старовойтов', 'Олександр', 'O.Starovoytov', '92'),
 ('Тарнавський', 'Ростислав', None, '77'),
 ('Тимошенко', 'Євгеній', 'Y.Tymoshenko', '84'),
 ('Харчевка', 'Іван', 'I.Kh

In [8]:
# заповнимо пусту таблицю результатми  запиту на злиття
_ = cur.execute("INSERT INTO jornal_test " + sql_stmt)

In [9]:
# збережемо вміст нової таблиці в список
jornal_test_list = cur.execute("SELECT * FROM jornal_test").fetchall()

_ = [print(x) for x in jornal_test_list]

('Адаменко', 'Назар', 'N.Adamenko', 82)
('Акішев', 'Володимир', 'v.akishev', 76)
('Акунішніков', 'Єгор', 'Y.Akunishnikov', 79)
('Артюх', 'Федір', 'f.artyukh', 89)
('Барабаш', 'Нікіта', None, 81)
('Бойчас', 'Валентин', 'v.boychas', 75)
('Будюка', 'Тимур', 'T.Budyuka', 67)
('Горб', 'Богдан', 'B.Horb', 83)
('Дьяков', 'Денис', 'D.Dyakov', 91)
('Іванченко', 'Сергій', None, 73)
('Колесник', 'Дмитро', 'D.Kolesnyk', 68)
('Мозговенко', 'Денис', 'd.mozhovenko', 74)
('Муха', 'Кирило', None, 78)
('Назаренко', 'Катерина', None, 87)
('Очеретний', 'Олексій', 'O.Ocheretnyy', 94)
('Поліщук', 'Аліна', None, 65)
('Поліщук', 'Аліна', None, 71)
('Поліщук', 'Владислав', None, 65)
('Поліщук', 'Владислав', None, 71)
('Полюхович', 'Аліна', 'A.Polyukhovych', 88)
('Старовойтов', 'Олександр', 'O.Starovoytov', 92)
('Тарнавський', 'Ростислав', None, 77)
('Тимошенко', 'Євгеній', 'Y.Tymoshenko', 84)
('Харчевка', 'Іван', 'I.Kharchevka', 90)


In [10]:
# завершимо всі транзакції
conn.commit()

# закріємо з'єднання
conn.close()

#### ПРИКЛАД  ДЕСКРИПТИВНОГО АНАЛІЗУ ДАНИХ

Провести [попередній аналіз](https://ru.wikipedia.org/wiki/Описательная_статистика) отриманих даних з ціллю виявленя відхилень, помилок та інших непридатних даних.

Сведемо результати аналізу в таблицю, яка має наступний вигляд:

№| Показчик | Значення
:--:|:-------|-------:
1| кількість спостережень | xx 
2| кількість пустих значень | xx
4| середній бал|  xx.x
5| максимальний бал | xx
6| мінімальний бал  | xx
7| стандартне відхилення | xx.x
8| розмах вариації  | xx


In [11]:
# підключимо бібліотеку 'numpy' і дамо їй аліас 'np'
import numpy as np

ознайомитись з призначенням, можливостями та основним функціями [бібліотеки numpy](https://numpy.org) 

In [12]:
# перетворимо список студетів в numpay матрицю
jornal_test_arr = np.array(jornal_test_list)

In [13]:
print(type (jornal_test_arr), jornal_test_arr.shape)

<class 'numpy.ndarray'> (24, 4)


In [14]:
# створимо масив с результатами тестів 
test_result = np.delete(jornal_test_arr, [0,1,2], 1)

In [15]:
# Значення 'None' - не є числом, то заміним його на 0
test_result[test_result == None] = 0

In [16]:
# будуємо словник з вихідними розрахунками
result_dict = {
    "кількість спостережень"   : len(test_result),
    "кількість пустих значень" : len(test_result) - np.count_nonzero(test_result),
    "середній бал"             : round(np.mean(test_result),1),
    "максимальний бал"         : np.max(test_result),
    "мінімальний бал"          : np.min(test_result[np.nonzero(test_result)]),
    "стандартне відхилення"    : round(np.std(test_result),1),
    "розмах вариації"          : np.max(test_result) - np.min(test_result[np.nonzero(test_result)]) 
    }

In [17]:
result_dict

{'кількість спостережень': 24,
 'кількість пустих значень': 0,
 'середній бал': 79.2,
 'максимальний бал': 94,
 'мінімальний бал': 65,
 'стандартне відхилення': 8.7,
 'розмах вариації': 29}

In [18]:
# вивести шапку
print(
"""
=======================================
№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     
=======================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3} {key:<25}  {value}')
    i += 1


№  : ПОКАЗЧИК               : ЗНАЧЕННЯ     

1   кількість спостережень     24
2   кількість пустих значень   0
3   середній бал               79.2
4   максимальний бал           94
5   мінімальний бал            65
6   стандартне відхилення      8.7
7   розмах вариації            29


### ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

Користуючись результатами, що отримані в [Лабораторній роботі № 3](https://shkliarskiy.moodlecloud.com/mod/page/view.php?id=1193) виконати процедури видобутку, збагачення та попереднього аналізу даних.

__Постановка__: В 3-й лабораторній роботі отримано показчик, що характеризує окрему властивість квартири (ціна, метраж та ін.). 
Необхідно:
1. Відобразити цей показчик на адресу квартири, яка знаходиться в файлі `street_name.csv`, тобто побудувати новий файл `street_flat_propery.csv` якій містить 2 колонки: _<назва вулиці> <ваш показчик>_
2. На основі цьго файлу зробити відповідну таблицю в _SQLite_ та збагатити цю дані в цій таблиці назвою району де розташована квартира (дані по районах додаються) 
3. Провести попередній аналіз отриманих даних - вивести первинні статистики показчика по районах (_середне_ , _мінімальне_ , _максимальне_ і т.д. - див. приклад вище)

In [19]:

lst = [] # пустий список для зберігання значень 7-го показника (до внесення змін)
pls = [] # пустий список для зберігання оброблених значень (після внесення змін)

# відкриття вихідного CSV-файлу (для читання) для отримання даних
with open("./aprts_data_raw.csv", 'r', encoding='utf-8') as f1:
        
    # циклічний запис значень 7-го показника (адреса будинку)
    lst = [ln.split(',')[7].strip() for ln in list(f1)]
    
    # циклічна обробка рядка лишаючи лише один пробіл між словами
    for ls in lst:

        while True:
    
            ls = ls.replace('   ', ' ').strip() if ls.find('   ') > -1 else ls.replace('  ', ' ').strip()
            
            if ls.find('  ') > -1:
                continue
            else:
                break
        
        pls += [ls]
    
    print(f"(1): {pls[:10]}\n| len: {len(pls)}", end='\n\n') # len: 796
        
    lst = []
    
    # циклічна обробка показника адреси лишаючи лише назву
    for pl in pls:
            
        if pl.find("ул. ") > -1 or pl.find(" ул.") > -1:

            lst += [pl.replace('ул.', '').strip()]

        elif pl.find("просп. ") > -1 or pl.find(" просп.") > -1:

            lst += [pl.replace('просп.', '').strip()]

        elif pl.find("бульв. ") > -1 or pl.find(" бульв.") > -1:

            lst += [pl.replace('бульв.', '').strip()]

        elif pl.find("наб. ") > -1 or pl.find(" наб.") > -1:

            lst += [pl.replace('наб.', '').strip()]

        elif pl.find("пер. ") > -1 or pl.find(" пер.") > -1:

            lst += [pl.replace('пер.', '').strip()]            

        elif pl.find("туп. ") > -1 or pl.find(" туп.") > -1:

            lst += [pl.replace('туп.', '').strip()]            

        elif pl.find("ш. ") > -1 or pl.find(" ш.") > -1:

            lst += [pl.replace('ш.', '').strip()]

        elif pl.find("спуск ") > -1 or pl.find(" спуск") > -1:

            lst += [pl.replace('спуск', '').strip()]

        elif pl.find("пл. ") > -1 or pl.find(" пл.") > -1:

            lst += [pl.replace('пл.', '').strip()]            

        else:
            
            lst += [pl.strip()]

    print(f"(2): {lst[:10]}\n| len: {len(lst)}", end='\n\n')
        
    for q, ls in enumerate(lst[:10]):
        print(f"[{str(q+1).rjust(3)}]: {ls}")
    
# створення/відкриття нового TXT-файлу (для запису) для запису отриманих даних після приведення формату
with open("./street_name_(2).csv", 'w+', encoding='utf-8') as f2:
        
    # циклічний запис у текстовий файл значень 7-го показника (після обробки)
    for l in lst:
        f2.write(str(l) + "\n") # кожен запис з нового рядка

(1): ['ул. Малиновского', 'ул. Семьи Сосниных', 'просп. Лобановского (Краснозвездный)', 'ул. Руставели', 'ул. Ломоносова', 'ул. Институтская', 'ул. Антоновича (Горького)', 'Днепровская наб.', 'ул. Предславинская', 'ул. Коперника']
| len: 796

(2): ['Малиновского', 'Семьи Сосниных', 'Лобановского (Краснозвездный)', 'Руставели', 'Ломоносова', 'Институтская', 'Антоновича (Горького)', 'Днепровская', 'Предславинская', 'Коперника']
| len: 796

[  1]: Малиновского
[  2]: Семьи Сосниных
[  3]: Лобановского (Краснозвездный)
[  4]: Руставели
[  5]: Ломоносова
[  6]: Институтская
[  7]: Антоновича (Горького)
[  8]: Днепровская
[  9]: Предславинская
[ 10]: Коперника


In [20]:
# Злиття файлу з показчиком та файлу з назвами вулиць в новий файл

YOUR_FILE = 'aprt_total_area.txt' # підставте ваш файл з Лаб №3...
with open(YOUR_FILE, encoding='utf-8') as f1, \
     open('street_name_ukr_(2).csv', encoding='utf-8') as f2, \
     open('street_flat_propery.csv', 'w', encoding='utf-8') as f3:
    
    f3.write(f'total_area,street\n')
    
    for x, y in zip(f1, f2):
        line = f'{x[:-1].strip()},{y[:-1].strip()}\n'
        print(line)
        f3.write(line)

73.0,Малиновського

110.27,Сім'ї Сосніних

100.0,Лобановського (Червонозоряний)

58.0,Руставелі

79.0,Ломоносова

138.7,Інститутська

201.4,Антоновича (Горького)

87.0,Дніпровська

40.0,Предславинська

51.0,Коперника

48.0,Драгомирова

85.0,Драгомирова

76.0,Ревуцького

56.0,Пожарського

38.0,Гмирі

70.0,Приозерна

103.0,Коперника

56.44,Стеценка

69.0,Каштанова

47.39,Правди

50.0,Трускавецька

64.0,Наумова

96.0,Лобановського (Червонозоряний)

46.0,Салютна

44.0,Василенка

100.0,Палладіна

240.0,Міт. А. Шептицького (Анатолія Луначарського)

72.1,Балтійський

75.0,Дніпровська

78.0,Станіславського

126.0,Драгомирова

93.0,Правди

63.0,Максимовича (Онуфрія Трутенко)

44.0,ЖК PARKLAND

67.92,Причальна

52.0,Перемоги (Брест-Литовський)

99.0,Богданівська

96.0,Тверський

65.0,Набережно-Хрещатицька

50.0,Липківського (Урицького)

76.0,Правди

45.3,Дніпровська

99.0,Тютюнника (Анрі Барбюса)

74.7,3-кімнатна квартира 74

59.0,Правди

73.0,Закревського

62.0,Тверський

76.0,Туполєва

76.0,Гл

#### імпортувати в БД отриманий файл 'street_flat_propery.csv' через CLI
- __sqlite3 districts.db__ - запустити SQLite та відкрити БД
- __.mode csv__ - перевести БД для роботи з csv-файлами
- __.import street_flat_propery.csv street_flat_propery__ - створює таблицю _street_flat_propery_ та завантажує в неї вміст файлу _street_flat_propery.csv_
- __SELECT * FROM street_flat_propery LIMIT 10;__ - вивести 10 записів для перевірки
- __.quit__ - завершити роботу з CLI SQLite



In [21]:
# Підключитись до БД 'districts.db' в якій є прив'язка вулиць до районів 
conn = sqlite3.connect("districts.db")

# створити відповідний курсор
cur  = conn.cursor()

In [22]:
# для перевірки виведіть 10 записів з таблиці 'street_district'
street_dis = cur.execute("SELECT * FROM street_district LIMIT 10")

# будуємо список записів за допомогою метода `fetchall()`
streets_list = street_dis.fetchall()

print(streets_list[7])

streets_list = [(sl[i].strip() for i in range(len(sl))) for sl in streets_list]


_ = [print(x) for x in streets_list]

('Автозаводський ', 'провулок', 'Оболонський')
<generator object <listcomp>.<genexpr> at 0x0000023AF8E40F68>
<generator object <listcomp>.<genexpr> at 0x0000023AF8E40D58>
<generator object <listcomp>.<genexpr> at 0x0000023AF8EAC0F8>
<generator object <listcomp>.<genexpr> at 0x0000023AF8EAC048>
<generator object <listcomp>.<genexpr> at 0x0000023AF8EAC150>
<generator object <listcomp>.<genexpr> at 0x0000023AF8EC7DB0>
<generator object <listcomp>.<genexpr> at 0x0000023AF8EC7EB8>
<generator object <listcomp>.<genexpr> at 0x0000023AF8EC7E60>
<generator object <listcomp>.<genexpr> at 0x0000023AF8EC7F10>
<generator object <listcomp>.<genexpr> at 0x0000023AF8EC7F68>


In [23]:
# побудувати запит на створення таблиці 'result' з 3-ма полями:
#     district - текстове
#     street - текстове
#     property - числове
stmt = "CREATE TABLE IF NOT EXISTS result \
              (district TEXT,         \
               street TEXT,            \
               property REAL);"

In [24]:
# виконати запит
cur.execute(stmt)

<sqlite3.Cursor at 0x23af8e742d0>

In [25]:
# перевірити схему таблиці
cur.execute ("SELECT name FROM PRAGMA_TABLE_INFO('result');").fetchall()

[('district',), ('street',), ('property',)]

In [26]:
# створити запит на злиття таблиці 'street_flat_propery' та 'street_district' 
# по полю 'street'
stmt_join = "SELECT street_district.district, street_flat_propery.street, street_flat_propery.total_area FROM  \
             street_flat_propery LEFT JOIN street_district ON street_flat_propery.street = street_district.street "

In [27]:
# перевірити запит
cur.execute(stmt_join).fetchall()

[(None, 'Малиновського', '73.0'),
 (None, "Сім'ї Сосніних", '110.27'),
 (None, 'Лобановського (Червонозоряний)', '100.0'),
 (None, 'Руставелі', '58.0'),
 ('Голосіївський', 'Ломоносова', '79.0'),
 ('Печерський', 'Інститутська', '138.7'),
 (None, 'Антоновича (Горького)', '201.4'),
 ('Оболонський', 'Дніпровська', '87.0'),
 ('Печерський', 'Предславинська', '40.0'),
 (None, 'Коперника', '51.0'),
 (None, 'Драгомирова', '48.0'),
 (None, 'Драгомирова', '85.0'),
 ('Дарницький', 'Ревуцького', '76.0'),
 ('Деснянський', 'Пожарського', '56.0'),
 ('Дніпровський', 'Пожарського', '56.0'),
 (None, 'Гмирі', '38.0'),
 ('Дарницький', 'Приозерна', '70.0'),
 ('Оболонський', 'Приозерна', '70.0'),
 (None, 'Коперника', '103.0'),
 ('Подільський, Шевченківський', 'Стеценка', '56.44'),
 ('Деснянський', 'Каштанова', '69.0'),
 ('Подільський', 'Правди', '47.39'),
 ('Дарницький', 'Трускавецька', '50.0'),
 (None, 'Наумова', '64.0'),
 (None, 'Лобановського (Червонозоряний)', '96.0'),
 ('Шевченківський', 'Салютна', '46.

In [28]:
# створити запит для наповнення таблиці `result` результатом запиту на об'єднання
stmt_insert = "INSERT INTO result " + stmt_join
print(f"stmt_insert:\n{stmt_insert}")

stmt_insert:
INSERT INTO result SELECT street_district.district, street_flat_propery.street, street_flat_propery.total_area FROM               street_flat_propery LEFT JOIN street_district ON street_flat_propery.street = street_district.street 


In [29]:
# виконати запит на заповнення
cur.execute(stmt_insert)

<sqlite3.Cursor at 0x23af8e742d0>

In [30]:
# сберегти вміст створеної таблиці у вигляді списка
result_list = cur.execute("SELECT * FROM result").fetchall()

_ = [print(x) for x in result_list]

# завершимо всі транзакції
conn.commit()

# закріємо з'єднання
conn.close()

(None, 'Малиновського', 73.0)
(None, "Сім'ї Сосніних", 110.27)
(None, 'Лобановського (Червонозоряний)', 100.0)
(None, 'Руставелі', 58.0)
('Голосіївський', 'Ломоносова', 79.0)
('Печерський', 'Інститутська', 138.7)
(None, 'Антоновича (Горького)', 201.4)
('Оболонський', 'Дніпровська', 87.0)
('Печерський', 'Предславинська', 40.0)
(None, 'Коперника', 51.0)
(None, 'Драгомирова', 48.0)
(None, 'Драгомирова', 85.0)
('Дарницький', 'Ревуцького', 76.0)
('Деснянський', 'Пожарського', 56.0)
('Дніпровський', 'Пожарського', 56.0)
(None, 'Гмирі', 38.0)
('Дарницький', 'Приозерна', 70.0)
('Оболонський', 'Приозерна', 70.0)
(None, 'Коперника', 103.0)
('Подільський, Шевченківський', 'Стеценка', 56.44)
('Деснянський', 'Каштанова', 69.0)
('Подільський', 'Правди', 47.39)
('Дарницький', 'Трускавецька', 50.0)
(None, 'Наумова', 64.0)
(None, 'Лобановського (Червонозоряний)', 96.0)
('Шевченківський', 'Салютна', 46.0)
(None, 'Василенка', 44.0)
(None, 'Палладіна', 100.0)
(None, 'Міт. А. Шептицького (Анатолія Луначарс

#### для аналізу скористатися бібліотекою NumPy

In [31]:
import numpy as np

In [32]:
# створити np-масив з списку `result_list`
result_arr = np.array(result_list)

print(type(result_arr), result_arr.shape)

# створимо масив с результатами тестів 
test_result = np.delete(result_arr, [0,1], 1)

# Значення 'None' - не є числом, то заміним його на 0
test_result[test_result == None] = ''

print(test_result)

<class 'numpy.ndarray'> (837, 3)
[[73.0]
 [110.27]
 [100.0]
 [58.0]
 [79.0]
 [138.7]
 [201.4]
 [87.0]
 [40.0]
 [51.0]
 [48.0]
 [85.0]
 [76.0]
 [56.0]
 [56.0]
 [38.0]
 [70.0]
 [70.0]
 [103.0]
 [56.44]
 [69.0]
 [47.39]
 [50.0]
 [64.0]
 [96.0]
 [46.0]
 [44.0]
 [100.0]
 [240.0]
 [72.1]
 [75.0]
 [78.0]
 [126.0]
 [93.0]
 [63.0]
 [44.0]
 [67.92]
 [52.0]
 [99.0]
 [96.0]
 [65.0]
 [50.0]
 [76.0]
 [45.3]
 [99.0]
 [74.7]
 [59.0]
 [73.0]
 [62.0]
 [76.0]
 [76.0]
 [210.0]
 [33.0]
 [66.8]
 [62.0]
 [102.1]
 [110.0]
 [51.0]
 [44.0]
 [91.0]
 [28.0]
 [56.0]
 [67.3]
 [100.0]
 [82.0]
 [122.0]
 [45.0]
 [75.0]
 [34.0]
 [46.0]
 [100.0]
 [99.0]
 [75.0]
 [62.0]
 [76.0]
 [210.0]
 [33.0]
 [66.8]
 [62.0]
 [102.1]
 [110.0]
 [51.0]
 [44.0]
 [91.0]
 [28.0]
 [56.0]
 [67.3]
 [100.0]
 [82.0]
 [122.0]
 [45.0]
 [75.0]
 [34.0]
 [46.0]
 [100.0]
 [99.0]
 [75.0]
 [62.0]
 [72.0]
 [72.0]
 [72.0]
 [116.3]
 [159.0]
 [76.0]
 [47.32]
 [44.0]
 [95.0]
 [240.0]
 [36.0]
 [50.0]
 [71.0]
 [60.51]
 [80.66]
 [123.0]
 [74.0]
 [81.0]
 [43.0]


In [33]:
# побудувати словник для результатів аналізу
result_dict = {
    "кількість спостережень"   : len(test_result),
    "середнє значення"         : round(np.mean(test_result),1),
    "максимальне значення"     : np.max(test_result),
    "мінімальне значення"      : np.min(test_result[np.nonzero(test_result)]),
    "стандартне відхилення"    : round(np.std(test_result),1),
    "розмах вариації"          : np.max(test_result) - np.min(test_result[np.nonzero(test_result)])
    }

In [34]:
result_dict

{'кількість спостережень': 837,
 'середнє значення': 80.7,
 'максимальне значення': 555.0,
 'мінімальне значення': 21.31,
 'стандартне відхилення': 50.1,
 'розмах вариації': 533.69}

In [35]:
# вивести шапку
print(
"""
================================================
№  :   РАЙОН        : ПОКАЗЧИК        : ЗНАЧЕННЯ     
================================================
"""      
      )

# вивести результати аналізу датасета
i = 1
for key, value in result_dict.items():
    print (f'{i:<3}   {key:<25}  {value}')
    i += 1


№  :   РАЙОН        : ПОКАЗЧИК        : ЗНАЧЕННЯ     

1     кількість спостережень     837
2     середнє значення           80.7
3     максимальне значення       555.0
4     мінімальне значення        21.31
5     стандартне відхилення      50.1
6     розмах вариації            533.69
