# Data Mining в середовищі Pandas

### ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Для роботи з структурованими табличними даними на мові Python розроблено [бібліотеку __Pandas__](https://ru.wikipedia.org/wiki/Pandas)
- [Офіційний сайт](https://pandas.pydata.org)
- [Сайт на GitHub](https://github.com/pandas-dev/pandas)

In [1]:
# підключення бібліотеки з аліасом/псевдонімом 'pd'
import pandas as pd

In [None]:
print(dir(pd))

#### ПРИКЛАД ЗАВАНТАЖЕННЯ ДАНИХ В Pandas з ЗОВНІШНІХ ДЖЕРЕЛ
Створити в Pandas датасет з ім'ям `jornal`, та завантажити в нього csv-файл, що містить журнал групи `Jornal.csv`

In [None]:
# створюємо датасет та завантажуємо в нього csv-файл 
jornal = pd.read_csv('Jornal.csv')

In [None]:
type(jornal)

##### виведемо ВСІ записи датасету `jornal`

In [None]:
jornal

#### ПРИКЛАД ЗБАГАЧЕННЯ ДАНИХ 

Додати до журналу оцінки за вступне тестування, які розташовані в csv файлі `test_result.csv`

In [None]:
# створимо датасет з результатами тестів
test_result = pd.read_csv('test_result.csv')

In [None]:
test_result.head(5)

In [None]:
# переіменуємо робочі поля для зручності
test_result.rename(columns={"Ім'я": "Name", "Оцінка/100": "Rate"}, inplace=True)

##### Cтворимо новий датасет `jornal_test`, який буде містити вміст датасету `jornal` та колонку оцінок з  `test_result`



In [None]:
# виконаємо поєднання через метод 'merge':
#   лівий дадатсет - беремо всі колонки з 'jornal'
#   правий датасет - беремо дві колонки з 'test_result'

jornal_test = jornal.merge(test_result[["Name", "Rate"]], 
                           left_on="Surname", right_on="Name", how='left')

In [None]:
jornal_test

In [None]:
# приведемо датасет до виду для подальшого аналізу:
#   - змінемо ім'я колонки 'Name_x' на 'Name'
#   - видалимо зайву колонку 'Name_y'
#   - відсортеруємо по колонці 'Surname'

jornal_test = jornal_test.rename(columns={"Name_x": "Name"}) \
                         .drop(columns="Name_y")             \
                         .sort_values("Surname", axis=0)

In [None]:
jornal_test

#### ПРИКЛАД  ДЕСКРИПТИВНОГО АНАЛІЗУ ДАНИХ

Провести [попередній аналіз](https://ru.wikipedia.org/wiki/Описательная_статистика) отриманих даних з ціллю виявленя відхилень, помилок та інших непридатних даних.

Сведемо результати аналізу в таблицю, яка має наступний вигляд:

№| Показчик | Значення
:--:|:-------|-------:
1| кількість спостережень | xx 
2| кількість пустих значень | xx
4| середній бал|  xx.x
5| максимальний бал | xx
6| мінімальний бал  | xx
7| стандартне відхилення | xx.x
8| розмах вариації  | xx


In [None]:
jornal_test.describe()

In [None]:
# сведемо розрахункові показчики у 2-мірну матрицю
values = [
    ["Кількість спостережень",   jornal_test.count()["Surname"]],
    ["Кількість пустих значень", jornal_test.count()["Rate"]],
    ["Середній бал",             jornal_test.mean()["Rate"]],
    ["Максимальний бал",         jornal_test.max()["Rate"]],
    ["Мінімальний бал",          jornal_test.max()["Rate"]],
    ["Стандартне відхилення",    jornal_test.std()["Rate"]],
    ["Розмах вариації",          jornal_test.max()["Rate"] - jornal_test.min()["Rate"]]
]

In [None]:
values

In [None]:
# будуємо результатний датасет
result = pd.DataFrame( data=values, columns=["Показчик", "Значення"], dtype='object')

In [None]:
result

### ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

Користуючись результатами, що отримані в [Лабораторній роботі № 3](https://shkliarskiy.moodlecloud.com/mod/page/view.php?id=1193) виконати процедури видобутку, збагачення та попереднього аналізу даних за допомогою ббліотеки __Pandas__.

__Постановка__: В 3-й лабораторній роботі отримано показчик, що характеризує окрему властивість квартири (ціна, метраж та ін.). 
Необхідно:
1. Створити pandas-датасет з файлу `aprt_properties.csv`, який містить всі показчики квартир 
2. Прив'язати цей датасет до датасету з розбивкою вулиць по районам
3. Отримати сводний датасет у вигляді (*приклад*):
<img src='result_img.png' width=600px>

In [None]:
# імпортувати бібліотеку Pandas
import pandas as pd
import numpy as np

In [None]:
# створирти датасет 'aprt_properties' з файлу 'aprt_properties.csv'
aprt_properties = pd.read_csv('aprt_properties.csv')

In [None]:
# вивести перші десять рядків датасету
aprt_properties.head(10)

In [None]:
# створити датасет 'reestr' з прив'язкою вуліць до районів з excel-файлу
# `Реєстр вулиць міста Києва-станом на 25-10-2020.xlsx`

reestr = pd.read_excel('Реєстр вулиць міста Києва-станом на 25-10-2020.xlsx',
                       names= [
                                 '№',
                                 'код',
                                 'Вулиця',
                                 'тип',
                                 'Район',
                                 'Документ',
                                 'Дата документу',
                                 'Номер документу',
                                 'Заголовок документу',
                                 'розташування',
                                 'Найменування',
                                 'Категорія'
                       ],
                       header=None, skiprows=range(4), index_col=0)

In [None]:
type(None)

In [None]:
type(np.nan)

In [None]:
# вивести 5 останніх рядків датасету `reestr`  
reestr.tail(5)

In [None]:
aprt_properties.merge?

In [None]:
# приєднати райони з датасету 'reestr' до датасету 'aprt_properties'
# по загальному полю

street_district = aprt_properties.merge(reestr[['Вулиця', 'Район']], 
                                        left_on='street', right_on='Вулиця',
                                        how='left')

In [None]:
# вивести перші 10 рядків датасету 'street_district'
street_district.head(10)

In [None]:
# поліпшити якість датасету:

# - замінити `NaN`  району на ''
street_district["Район"] = street_district["Район"].fillna('') 

# - замінити список районів на перший
street_district["Район"] = street_district["Район"].str.split(',')
district_list = street_district["Район"].to_list()
district_list = [x[0] for x in district_list]
street_district["Район"] = pd.Series(district_list)

# - видалити дублюючі записи
street_district = street_district.drop_duplicates(subset=
                                ['Price', 'rooms', 'price_per_m2', 'level', 'levels'])

street_district.head(10)

In [None]:
# - замінити `NaN`  району на ''
street_district["Район"] = street_district["Район"].fillna('') 


In [None]:
street_district["Район"] = street_district["Район"].str.split(',')

In [None]:
district_list = street_district["Район"].to_list()
district_list = [x[0] for x in district_list]
street_district["Район"] = pd.Series(district_list)



In [None]:
street_district = street_district.drop_duplicates(subset=
                                ['Price', 'rooms', 'price_per_m2', 'level', 'levels'])



In [None]:
street_district.tail(3)

In [None]:
street_district[street_district['area_kitchen'] == 'None']

In [None]:
street_district[street_district['area_kitchen'] == 'None'] = np.nan

In [None]:
# отримати сводний датасет по вашому показчику 
# ім'я показчика брати в лапки!

import numpy as np
result = street_district[[ 'Район', 'Price']]  \
      .groupby(['Район']) \
      .agg(Всього=('Price', 'count'),
           Макс=('Price', 'max'),
           Мін=('Price', 'min'),
           Ст_відх=('Price', 'std'),
           Середнє=('Price', 'mean'),
           Розмах=('Price', np.ptp)).round(2)

In [None]:
# вивести результат
result