# Data Mining в середовищі Pandas

### ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

Для роботи з структурованими табличними даними на мові Python розроблено [бібліотеку __Pandas__](https://ru.wikipedia.org/wiki/Pandas)
- [Офіційний сайт](https://pandas.pydata.org)
- [Сайт на GitHub](https://github.com/pandas-dev/pandas)

In [1]:
# підключення бібліотеки з аліасом/псевдонімом 'pd'
import pandas as pd

In [56]:
print(dir(pd))

['BooleanDtype', 'Categorical', 'CategoricalDtype', 'CategoricalIndex', 'DataFrame', 'DateOffset', 'DatetimeIndex', 'DatetimeTZDtype', 'ExcelFile', 'ExcelWriter', 'Float64Index', 'Grouper', 'HDFStore', 'Index', 'IndexSlice', 'Int16Dtype', 'Int32Dtype', 'Int64Dtype', 'Int64Index', 'Int8Dtype', 'Interval', 'IntervalDtype', 'IntervalIndex', 'MultiIndex', 'NA', 'NaT', 'NamedAgg', 'Period', 'PeriodDtype', 'PeriodIndex', 'RangeIndex', 'Series', 'SparseDtype', 'StringDtype', 'Timedelta', 'TimedeltaIndex', 'Timestamp', 'UInt16Dtype', 'UInt32Dtype', 'UInt64Dtype', 'UInt64Index', 'UInt8Dtype', '__builtins__', '__cached__', '__doc__', '__docformat__', '__file__', '__getattr__', '__git_version__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '__version__', '_config', '_hashtable', '_is_numpy_dev', '_lib', '_libs', '_np_version_under1p16', '_np_version_under1p17', '_np_version_under1p18', '_testing', '_tslib', '_typing', '_version', 'api', 'array', 'arrays', 'bdate_range', 'comp

#### ПРИКЛАД ЗАВАНТАЖЕННЯ ДАНИХ В Pandas з ЗОВНІШНІХ ДЖЕРЕЛ
Створити в Pandas датасет з ім'ям `jornal`, та завантажити в нього csv-файл, що містить журнал групи `Jornal.csv`

In [57]:
# створюємо датасет та завантажуємо в нього csv-файл 
jornal = pd.read_csv('Jornal.csv')

In [58]:
type(jornal)

pandas.core.frame.DataFrame

##### виведемо ВСІ записи датасету `jornal`

In [59]:
jornal

Unnamed: 0,Surname,Name,Login_KNTEU
0,Колесников,Микита,M.Kolesnykov.FIT.122.20.m@knute.edu.ua
1,Лучук,Артем,A.Luchuk.FIT.122.20.m@knute.edu.ua
2,Кравченко,Ростислав,R.Kravchenko.FIT.122.20.m@knute.edu.ua
3,Солодкий,Микола,M.Solodkyy.FIT.122.20.m@knute.edu.ua
4,Причепа,Владислав,V.Prychepa.FIT.122.20.m@knute.edu.ua
5,Павлючик,Денис,D.Pavlyuchyk.FIT.122.20.m@knute.edu.ua
6,Кулініч,Анатолій,A.Kulinich.FIT.122.20.m@knute.edu.ua


#### ПРИКЛАД ЗБАГАЧЕННЯ ДАНИХ 

Додати до журналу оцінки за вступне тестування, які розташовані в csv файлі `test_result.csv`

In [60]:
# створимо датасет з результатами тестів
test_result = pd.read_csv('test_result.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'test_result.csv'

In [61]:
test_result.head(5)

NameError: name 'test_result' is not defined

In [62]:
# переіменуємо робочі поля для зручності
test_result.rename(columns={"Ім'я": "Name", "Оцінка/100": "Rate"}, inplace=True)

NameError: name 'test_result' is not defined

##### Cтворимо новий датасет `jornal_test`, який буде містити вміст датасету `jornal` та колонку оцінок з  `test_result`



In [None]:
# виконаємо поєднання через метод 'merge':
#   лівий дадатсет - беремо всі колонки з 'jornal'
#   правий датасет - беремо дві колонки з 'test_result'

jornal_test = jornal.merge(test_result[["Name", "Rate"]], 
                           left_on="Surname", right_on="Name", how='left')

In [None]:
jornal_test

In [None]:
# приведемо датасет до виду для подальшого аналізу:
#   - змінемо ім'я колонки 'Name_x' на 'Name'
#   - видалимо зайву колонку 'Name_y'
#   - відсортеруємо по колонці 'Surname'

jornal_test = jornal_test.rename(columns={"Name_x": "Name"}) \
                         .drop(columns="Name_y")             \
                         .sort_values("Surname", axis=0)

In [None]:
jornal_test

#### ПРИКЛАД  ДЕСКРИПТИВНОГО АНАЛІЗУ ДАНИХ

Провести [попередній аналіз](https://ru.wikipedia.org/wiki/Описательная_статистика) отриманих даних з ціллю виявленя відхилень, помилок та інших непридатних даних.

Сведемо результати аналізу в таблицю, яка має наступний вигляд:

№| Показчик | Значення
:--:|:-------|-------:
1| кількість спостережень | xx 
2| кількість пустих значень | xx
4| середній бал|  xx.x
5| максимальний бал | xx
6| мінімальний бал  | xx
7| стандартне відхилення | xx.x
8| розмах вариації  | xx


In [54]:
jornal_test.describe()

NameError: name 'jornal_test' is not defined

In [None]:
# сведемо розрахункові показчики у 2-мірну матрицю
values = [
    ["Кількість спостережень",   jornal_test.count()["Surname"]],
    ["Кількість пустих значень", jornal_test.count()["Rate"]],
    ["Середній бал",             jornal_test.mean()["Rate"]],
    ["Максимальний бал",         jornal_test.max()["Rate"]],
    ["Мінімальний бал",          jornal_test.max()["Rate"]],
    ["Стандартне відхилення",    jornal_test.std()["Rate"]],
    ["Розмах вариації",          jornal_test.max()["Rate"] - jornal_test.min()["Rate"]]
]

In [None]:
values

In [None]:
# будуємо результатний датасет
result = pd.DataFrame( data=values, columns=["Показчик", "Значення"], dtype='object')

In [None]:
result

### ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

Користуючись результатами, що отримані в [Лабораторній роботі № 3](https://shkliarskiy.moodlecloud.com/mod/page/view.php?id=1193) виконати процедури видобутку, збагачення та попереднього аналізу даних за допомогою ббліотеки __Pandas__.

__Постановка__: В 3-й лабораторній роботі отримано показчик, що характеризує окрему властивість квартири (ціна, метраж та ін.). 
Необхідно:
1. Створити pandas-датасет з файлу `aprt_properties.csv`, який містить всі показчики квартир 
2. Прив'язати цей датасет до датасету з розбивкою вулиць по районам
3. Отримати сводний датасет у вигляді (*приклад*):
<img src='result_img.png' width=600px>

In [2]:
# імпортувати бібліотеку Pandas
import pandas as pd
print(dir(pd))

['BooleanDtype', 'Categorical', 'CategoricalDtype', 'CategoricalIndex', 'DataFrame', 'DateOffset', 'DatetimeIndex', 'DatetimeTZDtype', 'ExcelFile', 'ExcelWriter', 'Float64Index', 'Grouper', 'HDFStore', 'Index', 'IndexSlice', 'Int16Dtype', 'Int32Dtype', 'Int64Dtype', 'Int64Index', 'Int8Dtype', 'Interval', 'IntervalDtype', 'IntervalIndex', 'MultiIndex', 'NA', 'NaT', 'NamedAgg', 'Period', 'PeriodDtype', 'PeriodIndex', 'RangeIndex', 'Series', 'SparseDtype', 'StringDtype', 'Timedelta', 'TimedeltaIndex', 'Timestamp', 'UInt16Dtype', 'UInt32Dtype', 'UInt64Dtype', 'UInt64Index', 'UInt8Dtype', '__builtins__', '__cached__', '__doc__', '__docformat__', '__file__', '__getattr__', '__git_version__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '__version__', '_config', '_hashtable', '_is_numpy_dev', '_lib', '_libs', '_np_version_under1p16', '_np_version_under1p17', '_np_version_under1p18', '_testing', '_tslib', '_typing', '_version', 'api', 'array', 'arrays', 'bdate_range', 'comp

In [3]:
# створирти датасет 'aprt_properties' з файлу 'aprt_properties.csv'
aprt_properties = pd.read_csv('aprt_properties.csv')

In [4]:
# вивести перші десять рядків датасету
aprt_properties.head(10)

Unnamed: 0,Price,rooms,price_per_m2,level,levels,year,area_total,area_living,area_kitchen,street,publish_date
0,140000.0,2,2258.0,7,9,1969.0,62.0,47.0,9.0,Омеляновича-Павленка,3 вересня 2020 р.
1,105000.0,4,847.0,25,26,2018.0,124.0,71.0,16.0,,7 жовтня 2020 р.
2,175000.0,3,1786.0,25,26,2010.0,98.0,,,Ованеса Туманяна,1 жовтня 2020 р.
3,30970.0,1,1106.0,12,13,2013.0,28.0,13.0,5.0,Петропавлівська,1 лютого
4,82000.0,2,1281.0,18,26,,64.0,,,Дніпровська,*** not found
5,168535.7,3,1872.6,4,9,1966.0,90.0,45.0,10.0,Саксаганського,28 жовтня 2020 р.
6,4500000.0,4,14610.0,18,21,2011.0,308.0,,,Івана Мазепи,19 жовтня 2020 р.
7,135000.0,2,2077.0,16,23,2012.0,65.0,25.0,18.0,Дніпровська,1 вересня 2020 р.
8,120000.0,1,2500.0,8,25,2012.0,48.0,18.0,16.0,Ділова,12 жовтня 2020 р.
9,57500.0,3,625.0,9,9,1970.0,92.0,,,Новодарницька,5 жовтня 2020 р.


In [7]:
# створити датасет 'reestr' з прив'язкою вуліць до районів з excel-файлу
# `Реєстр вулиць міста Києва-станом на 25-10-2020.xlsx`

reestr = pd.read_excel('Реєстр вулиць міста Києва-станом на 25-10-2020.xlsx',
                       names= [
                                 '№',
                                 'код',
                                 'Вулиця',
                                 'тип',
                                 'Район',
                                 'Документ',
                                 'Дата документу',
                                 'Номер документу',
                                 'Заголовок документу',
                                 'розташування',
                                 'Найменування',
                                 'Категорія'
                       ],
                       header=None, skiprows=range(4), index_col=0)

In [8]:
# переіменуємо робочі поля для зручності
reestr.rename(columns={"Вулиця": "street"}, inplace=True)
# вивести 5 останніх рядків датасету `reestr`  
reestr.tail(5)

Unnamed: 0_level_0,код,street,тип,Район,Документ,Дата документу,Номер документу,Заголовок документу,розташування,Найменування,Категорія
№,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2839,11963,Яслинська,вулиця,Солом'янський,-,-,-,-,Сучасна назва з 1912. Пролягає від Клінічної в...,,
2840,11964,Ясна,вулиця,Солом'янський,Постанова виконавчого комітету Київської міськ...,1944-12-06 00:00:00,286/2,"Про впорядкування найменувань площ, вулиць та ...","Пролягає від Кайсарова, вул. до Каменярів, вул.",,
2841,11965,Ясний,провулок,Солом'янський,-,-,-,-,Сучасна назва з 1958. Пролягає від Ясної вул. ...,,
2842,11966,Ясногірська,вулиця,Шевченківський,Рішення виконавчого комітету Київської міської...,1953-12-29 00:00:00,2610,«Про найменування міських вулиць»,"Пролягає від Сальського Володимира, вул. до кі...",,
2843,11967,Яснополянська,вулиця,Святошинський,Рішення виконавчого комітету Київської міської...,1955-07-05 00:00:00,857,«Про перейменування вулиць м. Києва»,Пролягає від Сільської вул. до кінця забудови.,,


In [9]:
# приєднати райони з датасету 'reestr' до датасету 'aprt_properties' по загальному полю

street_district = aprt_properties.merge(reestr[["street", "Район"]], on="street", how='left')

In [10]:
# вивести перші 10 рядків датасету 'street_district'
street_district.head(10)

Unnamed: 0,Price,rooms,price_per_m2,level,levels,year,area_total,area_living,area_kitchen,street,publish_date,Район
0,140000.0,2,2258.0,7,9,1969.0,62.0,47.0,9.0,Омеляновича-Павленка,3 вересня 2020 р.,
1,105000.0,4,847.0,25,26,2018.0,124.0,71.0,16.0,,7 жовтня 2020 р.,
2,175000.0,3,1786.0,25,26,2010.0,98.0,,,Ованеса Туманяна,1 жовтня 2020 р.,
3,30970.0,1,1106.0,12,13,2013.0,28.0,13.0,5.0,Петропавлівська,1 лютого,Оболонський
4,30970.0,1,1106.0,12,13,2013.0,28.0,13.0,5.0,Петропавлівська,1 лютого,Подільський
5,82000.0,2,1281.0,18,26,,64.0,,,Дніпровська,*** not found,Оболонський
6,168535.7,3,1872.6,4,9,1966.0,90.0,45.0,10.0,Саксаганського,28 жовтня 2020 р.,"Голосіївський, Печерський, Шевченківський"
7,4500000.0,4,14610.0,18,21,2011.0,308.0,,,Івана Мазепи,19 жовтня 2020 р.,
8,135000.0,2,2077.0,16,23,2012.0,65.0,25.0,18.0,Дніпровська,1 вересня 2020 р.,Оболонський
9,120000.0,1,2500.0,8,25,2012.0,48.0,18.0,16.0,Ділова,12 жовтня 2020 р.,"Голосіївський, Печерський"


In [11]:
# поліпшити якість датасету:

# - замінити `NaN`  району на ''
street_district["Район"] = street_district["Район"].fillna('') 

# - замінити `NaN`  area_total на ''
#street_district[street_district['area_total'] = 'None'] = np.NaN

# - замінити список районів на перший
street_district["Район"] = street_district["Район"].str.split(',')
district_list = street_district["Район"].to_list()
district_list = [x[0] for x in district_list]
street_district["Район"] = pd.Series(district_list)

# - видалити дублюючі записи
street_district = street_district.drop_duplicates(subset=
                                ['Price', 'rooms', 'price_per_m2', 'level', 'levels'])

street_district.head(10)


Unnamed: 0,Price,rooms,price_per_m2,level,levels,year,area_total,area_living,area_kitchen,street,publish_date,Район
0,140000.0,2,2258.0,7,9,1969.0,62.0,47.0,9.0,Омеляновича-Павленка,3 вересня 2020 р.,
1,105000.0,4,847.0,25,26,2018.0,124.0,71.0,16.0,,7 жовтня 2020 р.,
2,175000.0,3,1786.0,25,26,2010.0,98.0,,,Ованеса Туманяна,1 жовтня 2020 р.,
3,30970.0,1,1106.0,12,13,2013.0,28.0,13.0,5.0,Петропавлівська,1 лютого,Оболонський
5,82000.0,2,1281.0,18,26,,64.0,,,Дніпровська,*** not found,Оболонський
6,168535.7,3,1872.6,4,9,1966.0,90.0,45.0,10.0,Саксаганського,28 жовтня 2020 р.,Голосіївський
7,4500000.0,4,14610.0,18,21,2011.0,308.0,,,Івана Мазепи,19 жовтня 2020 р.,
8,135000.0,2,2077.0,16,23,2012.0,65.0,25.0,18.0,Дніпровська,1 вересня 2020 р.,Оболонський
9,120000.0,1,2500.0,8,25,2012.0,48.0,18.0,16.0,Ділова,12 жовтня 2020 р.,Голосіївський
10,57500.0,3,625.0,9,9,1970.0,92.0,,,Новодарницька,5 жовтня 2020 р.,


In [12]:
street_district.dtypes

Price           float64
rooms            object
price_per_m2     object
level            object
levels           object
year             object
area_total       object
area_living      object
area_kitchen     object
street           object
publish_date     object
Район            object
dtype: object

In [14]:
# отримати сводний датасет по вашому показчику 
# ім'я показчика брати в лапки!

import numpy as np
result = street_district[['Район', 'Price']]\
      .groupby(['Район'])\
      .agg(Всього=('Price', 'count'),
           Макс=('Price', 'max'),
           Мін=('Price', 'min'),
           Ст_відх=('Price', 'std'),
           Середнє=('Price', 'mean'),
           Розмах=('Price', np.ptp)).round(2)

In [15]:
# вивести результат
result

Unnamed: 0_level_0,Всього,Макс,Мін,Ст_відх,Середнє,Розмах
Район,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
,299,4500000.0,10092.1,375770.16,181497.15,4489907.9
Голосіївський,55,15700000.0,35000.0,2098229.76,469736.47,15665000.0
Дарницький,53,980000.0,35600.0,134082.66,128637.98,944400.0
Деснянський,13,480000.0,31000.0,121463.77,91345.92,449000.0
Дніпровський,30,160000.0,33900.0,35707.59,86641.97,126100.0
Оболонський,47,1010000.0,30970.0,184334.4,146114.1,979030.0
Печерський,48,3210000.0,58000.0,645000.38,420903.83,3152000.0
Подільський,31,284999.0,43000.0,56477.87,87463.01,241999.0
Святошинський,23,138000.0,36000.0,32923.13,83231.57,102000.0
Солом'янський,23,185000.0,36000.0,45099.68,92534.78,149000.0
