# Технології ETL з бібліотекою `scikit-learn`

## УВЕДЕННЯ В SCIKIT-LEARN

### Загальна інформація

Розроблено для побудови та аналізу класичних моделей машинного навчання [(Докладніше)](https://en.wikipedia.org/wiki/Scikit-learn)
- [Офіційний сайт](https://scikit-learn.org/stable/)
- [Сайт на GitHub](https://github.com/scikit-learn/scikit-learn)

Альтернативи:
- [Tensorflow](https://www.tensorflow.org)
- [Pytorch](https://pytorch.org)
- [Keras](https://keras.io) ...

Доступна через [API](https://scikit-learn.org/stable/modules/classes.html#) з мови Python (або С/С++)

### Інструментарій для роботи з данними

Має потужні інструменти для [Data Transformation](https://scikit-learn.org/stable/data_transforms.html#data-transforms)

Автоматизують наступні функції
- [очищення](https://scikit-learn.org/stable/modules/unsupervised_reduction.html)
- [вилучення](https://scikit-learn.org/stable/modules/feature_extraction.html)
- [збагачення](https://scikit-learn.org/stable/modules/impute.html)
- [предобробка](https://scikit-learn.org/stable/modules/preprocessing.html)

Для інтеграції цих (та інших) процесів передбачена [`конвереїзація`](https://scikit-learn.org/stable/modules/compose.html)


## ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

### для проведення експеріментів та перевірки гіпотез в `scilearn` є модуль моделювання датасетів [sklearn.datasets](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets)

In [1]:
from sklearn import datasets
import pandas as pd
import numpy as np

In [2]:
wine_bunch = datasets.load_wine(as_frame=True)

In [3]:
df = wine_bunch['frame']

In [4]:
df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


In [5]:
df.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258,0.938202
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474,0.775035
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0,0.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5,0.0
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5,1.0
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0,2.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0,2.0


In [6]:
df.loc[df['target'] == 0,'target'] = 'west'
df.loc[df['target'] == 1,'target'] = 'east'
df.loc[df['target'] == 2,'target'] = 'nord'

In [7]:
df['target'].unique()

array(['west', 'east', 'nord'], dtype=object)

In [8]:
df.rename(columns={'target': 'region'}, inplace=True)
df.columns

Index(['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium',
       'total_phenols', 'flavanoids', 'nonflavanoid_phenols',
       'proanthocyanins', 'color_intensity', 'hue',
       'od280/od315_of_diluted_wines', 'proline', 'region'],
      dtype='object')

In [9]:
X, y = df.drop(columns=['alcohol']), df['alcohol']

In [10]:
X.head(3)

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,region
0,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,west
1,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,west
2,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,west


### додамо синтетичний `шум' 

In [11]:
from add_noise import add_feauture_err

In [12]:
# деякі значення можуть бути пропущені
X = add_feauture_err(df=X, column_name='region', err_level=.05, err_filler=np.nan)
X = add_feauture_err(df=X, column_name='color_intensity', err_level=.10, err_filler=np.nan)

# або вочевидь невірні
X = add_feauture_err(df=X, column_name='magnesium', err_level=.05, err_filler=100000.0)

In [13]:
X.describe()

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,161.0,178.0,178.0,178.0
mean,2.336348,2.366517,19.494944,5150.825843,2.295112,2.02927,0.361854,1.590899,5.033789,0.957449,2.611685,746.893258
std,1.117146,0.274344,3.339564,21950.019518,0.625851,0.998859,0.124453,0.572359,2.337514,0.228572,0.70999,314.907474
min,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,1.6025,2.21,17.2,88.25,1.7425,1.205,0.27,1.25,3.21,0.7825,1.9375,500.5
50%,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.6,0.965,2.78,673.5
75%,3.0825,2.5575,21.5,110.0,2.8,2.875,0.4375,1.95,6.1,1.12,3.17,985.0
max,5.8,3.23,30.0,100000.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


In [14]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   malic_acid                    178 non-null    float64
 1   ash                           178 non-null    float64
 2   alcalinity_of_ash             178 non-null    float64
 3   magnesium                     178 non-null    float64
 4   total_phenols                 178 non-null    float64
 5   flavanoids                    178 non-null    float64
 6   nonflavanoid_phenols          178 non-null    float64
 7   proanthocyanins               178 non-null    float64
 8   color_intensity               161 non-null    float64
 9   hue                           178 non-null    float64
 10  od280/od315_of_diluted_wines  178 non-null    float64
 11  proline                       178 non-null    float64
 12  region                        169 non-null    object 
dtypes: fl

### ПОШУК ТА ОБРОБКА ВИКИДІВ (Outliers/Anomaly Detection)

В продашені та на великих об'ємах використовується алгоритм __LOF__ ([_Local Outlier Factor_](https://scikit-learn.org/stable/auto_examples/neighbors/plot_lof_outlier_detection.html))

In [15]:
mean_std = X.describe().loc[['mean', 'std']].T

In [16]:
mean_std

Unnamed: 0,mean,std
malic_acid,2.336348,1.117146
ash,2.366517,0.274344
alcalinity_of_ash,19.494944,3.339564
magnesium,5150.825843,21950.019518
total_phenols,2.295112,0.625851
flavanoids,2.02927,0.998859
nonflavanoid_phenols,0.361854,0.124453
proanthocyanins,1.590899,0.572359
color_intensity,5.033789,2.337514
hue,0.957449,0.228572


In [17]:
mean_std['std_minus_mean'] = mean_std['std'] - mean_std['mean']
mean_std

Unnamed: 0,mean,std,std_minus_mean
malic_acid,2.336348,1.117146,-1.219202
ash,2.366517,0.274344,-2.092173
alcalinity_of_ash,19.494944,3.339564,-16.15538
magnesium,5150.825843,21950.019518,16799.193675
total_phenols,2.295112,0.625851,-1.669261
flavanoids,2.02927,0.998859,-1.030411
nonflavanoid_phenols,0.361854,0.124453,-0.237401
proanthocyanins,1.590899,0.572359,-1.01854
color_intensity,5.033789,2.337514,-2.696275
hue,0.957449,0.228572,-0.728878


In [18]:
# використаємо правило 2-х сігм для показчика `magnesium`
two_sigma = 2 * mean_std.loc['magnesium']['std']
two_sigma

43900.03903621062

In [19]:
# замінити всі значення `magnesium` на медіану 
X.loc[df['magnesium'] > two_sigma] = np.median(X['magnesium'])

### заміщення пропусків

[Детальніше](https://scikit-learn.org/stable/modules/impute.html)

In [20]:
X.describe().loc['count']

malic_acid                      178.0
ash                             178.0
alcalinity_of_ash               178.0
magnesium                       178.0
total_phenols                   178.0
flavanoids                      178.0
nonflavanoid_phenols            178.0
proanthocyanins                 178.0
color_intensity                 161.0
hue                             178.0
od280/od315_of_diluted_wines    178.0
proline                         178.0
Name: count, dtype: float64

In [21]:
X['color_intensity'].isna()

0      False
1      False
2      False
3      False
4      False
       ...  
173    False
174    False
175    False
176    False
177    False
Name: color_intensity, Length: 178, dtype: bool

In [22]:
# замінимо NaN на медіану
X['color_intensity'].fillna(value=X['color_intensity'].median(), inplace=True)

In [23]:
# для строкового показчика - замінимо найближчим
X['region'].fillna(method='bfill', inplace=True)

In [24]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   malic_acid                    178 non-null    float64
 1   ash                           178 non-null    float64
 2   alcalinity_of_ash             178 non-null    float64
 3   magnesium                     178 non-null    float64
 4   total_phenols                 178 non-null    float64
 5   flavanoids                    178 non-null    float64
 6   nonflavanoid_phenols          178 non-null    float64
 7   proanthocyanins               178 non-null    float64
 8   color_intensity               178 non-null    float64
 9   hue                           178 non-null    float64
 10  od280/od315_of_diluted_wines  178 non-null    float64
 11  proline                       178 non-null    float64
 12  region                        177 non-null    object 
dtypes: fl

### Стандартизація та масштабування числових показчиків

[Докладніше](https://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling)

In [25]:
# відбір показчиків за їх типом
from sklearn.compose import make_column_selector
numeric_columns_selector = make_column_selector(dtype_include='float64')
X_numeric_columns = numeric_columns_selector(X)
X_numeric_columns

['malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [26]:
X_numeric = X[X_numeric_columns]
X_numeric.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 12 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   malic_acid                    178 non-null    float64
 1   ash                           178 non-null    float64
 2   alcalinity_of_ash             178 non-null    float64
 3   magnesium                     178 non-null    float64
 4   total_phenols                 178 non-null    float64
 5   flavanoids                    178 non-null    float64
 6   nonflavanoid_phenols          178 non-null    float64
 7   proanthocyanins               178 non-null    float64
 8   color_intensity               178 non-null    float64
 9   hue                           178 non-null    float64
 10  od280/od315_of_diluted_wines  178 non-null    float64
 11  proline                       178 non-null    float64
dtypes: float64(12)
memory usage: 16.8 KB


In [27]:
# підключимо стандартизатор
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
_ = scaler.fit(X_numeric)

In [28]:
(scaler.mean_, scaler.scale_, scaler.var_)

(array([2.33634831e+00, 2.36651685e+00, 1.94949438e+01, 5.15082584e+03,
        2.29511236e+00, 2.02926966e+00, 3.61853933e-01, 1.59089888e+00,
        4.99235954e+00, 9.57449438e-01, 2.61168539e+00, 7.46893258e+02]),
 array([1.11400363e+00, 2.73572294e-01, 3.33016976e+00, 2.18882753e+04,
        6.24090564e-01, 9.96048950e-01, 1.24103260e-01, 5.70748849e-01,
        2.21983980e+00, 2.27928607e-01, 7.07993265e-01, 3.14021657e+02]),
 array([1.24100408e+00, 7.48418003e-02, 1.10900306e+01, 4.79096596e+08,
        3.89489032e-01, 9.92113512e-01, 1.54016191e-02, 3.25754248e-01,
        4.92768876e+00, 5.19514497e-02, 5.01254463e-01, 9.86096010e+04]))

In [29]:
X_numeric_scaled = pd.DataFrame(scaler.transform(X_numeric), columns=X_numeric_columns)

In [30]:
X_numeric_scaled.describe()

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,-8.357859e-17,-8.657245e-16,-1.160121e-16,-3.14979e-17,-2.97203e-16,-4.016762e-16,4.079134e-16,-1.699639e-16,-7.359905e-17,3.717376e-16,2.919013e-16,-7.48465e-18
std,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821
min,-1.432983,-3.679162,-2.671018,-0.2321255,-2.107246,-1.695971,-1.868234,-2.069034,-1.672355,-2.094732,-1.895054,-1.493188
25%,-0.6587486,-0.5721225,-0.6891372,-0.2312917,-0.8854682,-0.8275393,-0.7401412,-0.5972835,-0.7567481,-0.7675624,-0.9522483,-0.7846378
50%,-0.423112,-0.02382132,0.001518295,-0.2308462,0.09595986,0.1061497,-0.1760948,-0.06289785,-0.1767513,0.03312687,0.2377348,-0.2337204
75%,0.6697929,0.6981085,0.6020883,-0.230298,0.8089974,0.8490851,0.6095413,0.6291754,0.3750903,0.7131644,0.7885875,0.7582494
max,3.109192,3.156325,3.154511,4.333332,2.539515,3.062832,2.402403,3.485073,3.607306,3.301694,1.960915,2.971473


### Перетворення категоріальних даних

[Докладніше про стратегії кодування](https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features)

In [31]:
categorical_selector = make_column_selector(dtype_include='O')
X_categorical_columns = categorical_selector(X)
X_categorical_columns

['region']

In [32]:
X['region'].unique()

array(['west', 'east', 'nord', nan], dtype=object)

In [33]:
X_categorical = X[X_categorical_columns]
X_categorical.describe()

Unnamed: 0,region
count,177
unique,3
top,east
freq,71


In [34]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)

In [35]:
_ = encoder.fit(X_categorical)

In [36]:
X_categorical_encoded = encoder.transform(X_categorical)
X_categorical_encoded = pd.DataFrame(X_categorical_encoded, columns=encoder.categories_)

### Об'єднати числовий та категоріальний датасети

In [37]:
(X_numeric_scaled.shape, X_categorical_encoded.shape)

((178, 12), (178, 4))

In [38]:
X = pd.concat([X_numeric_scaled, X_categorical_encoded], axis=1)

In [39]:
X.head()

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,"(east,)","(nord,)","(west,)","(nan,)"
0,-0.56225,0.232053,-1.169593,4.333332,0.808997,1.034819,-0.659563,1.224884,0.291751,0.362177,1.84792,1.013009,0.0,0.0,1.0,0.0
1,-0.499413,-0.827996,-2.490847,-0.230755,0.568648,0.733629,-0.820719,-0.544721,-0.275858,0.406051,1.113449,0.965242,0.0,0.0,1.0,0.0
2,0.021231,1.109334,-0.268738,-0.230709,0.808997,1.215533,-0.498407,2.135968,0.30977,0.318304,0.788587,1.395148,0.0,0.0,1.0,0.0
3,-0.346811,0.487926,-0.809251,-0.230161,2.491446,1.466525,-0.981875,1.032155,1.264794,-0.427544,1.184071,2.334574,0.0,0.0,1.0,0.0
4,0.227694,1.840403,0.451946,-0.229932,0.808997,0.663351,0.226796,0.401404,-0.302887,0.362177,0.449601,-0.037874,0.0,0.0,1.0,0.0


## ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

In [40]:
import warnings
warnings.filterwarnings('ignore')

<div style='background-color:lightgreen'>
<H3 style='color:red'>Виконати процедури очищення, збагачення та нормалізації даних рієлторської компанії в файлі `aprt_properties.csv`</H3>
<p>Н<b>а місці `...` написати свій код<b></p>
</div>


In [41]:
# імпортувати бібліотеку Pandas, NumPy 
import numpy as np
import pandas as pd

### I. Вилучення сирих даних

__Примітка__: використати функцію `read_csv` з параметром `na_values=['None']` щоб згенерувати правильні типи даних

In [42]:
df = pd.read_csv('aprt_properties.csv', na_values=['None'])

### II. Очищення (_опціонально_)

__Примітка__: на цьому етапі слід
1. Визначитись які показчики є категоріальними або числовими
2. При необхідності зробити перетворення типів (функція `astype`)
3. Визначити чи є в датасеті викиди.
4. При наявності викидів зробити їх корегування (`mean` або `median`)

In [None]:
...

### III. Заповнення пропусків для чисельних показчиків

__Примітка__: на цьому етапі слід

1. Виділити датасет з чисельними показчиками використовуючи `make_column_selector`
2. Заповнити пусті (`NaN`) значення медіанними значеннями відповідної колонки (`fillna`)

In [43]:
from sklearn.compose import make_column_selector
...
df_num_col = numeric_columns_selector(df)
df_num_col
df_num = df[df_num_col]

In [44]:
df["year"] = df["year"].fillna('')
df


Unnamed: 0,Price,rooms,price_per_m2,level,levels,year,area_total,area_living,area_kitchen,street,publish_date
0,140000.0,2.0,2258.0,7.0,9.0,1969.0,62.0,47.0,9.0,Омеляновича-Павленка,3 вересня 2020 р.
1,105000.0,4.0,847.0,25.0,26.0,2018.0,124.0,71.0,16.0,,7 жовтня 2020 р.
2,175000.0,3.0,1786.0,25.0,26.0,2010.0,98.0,,,Ованеса Туманяна,1 жовтня 2020 р.
3,30970.0,1.0,1106.0,12.0,13.0,2013.0,28.0,13.0,5.0,Петропавлівська,1 лютого
4,82000.0,2.0,1281.0,18.0,26.0,,64.0,,,Дніпровська,*** not found
...,...,...,...,...,...,...,...,...,...,...,...
723,49990.0,3.0,757.0,8.0,9.0,1976.0,66.0,45.0,8.0,Наумова,14 квітня 2020 р.
724,89000.0,1.0,2342.0,7.0,15.0,,38.0,20.0,7.0,Перемоги,*** not found
725,170000.0,2.0,2656.0,5.0,7.0,1948.0,64.0,,9.0,Велика Васильківська,6 березня 2019 р.
726,29256.6,1.0,978.5,1.0,5.0,,,,,Червоноткацька,*** not found


### IV. Масштабування чисельних показчиків

__Примітка__: на цьому етапі слід побудувати змаштабований датасет `df_num_scaled` з чисельних показчиків використавші модуль __`StandardScaler`__ та його функцію `fit_transform`

In [45]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit_transform(df_num)
(scaler.mean_, scaler.scale_, scaler.var_)

df_num_scaled = pd.DataFrame(scaler.fit_transform(df_num), columns=df_num_col)

In [46]:
df_num_scaled.describe()


Unnamed: 0,Price,rooms,price_per_m2,level,levels,year,area_total,area_living,area_kitchen
count,728.0,724.0,723.0,703.0,703.0,540.0,640.0,497.0,524.0
mean,3.141565e-17,-1.680286e-16,-5.1595430000000006e-17,-7.896323e-18,6.064376000000001e-17,3.598767e-15,1.353084e-16,-1.304568e-16,3.0933690000000005e-17
std,1.000688,1.000691,1.000692,1.000712,1.000712,1.000927,1.000782,1.001008,1.000956
min,-0.281788,-1.194879,-0.2734112,-1.246201,-1.857006,-5.042791,-1.270527,-1.057653,-1.283855
25%,-0.2003742,-1.194879,-0.1599604,-0.8130704,-1.028809,-0.725553,-0.5856397,-0.5665106,-0.5861986
50%,-0.1426218,-0.2206758,-0.08958359,-0.2355624,0.1543297,0.4921296,-0.2236279,-0.1735964,-0.1875379
75%,-0.04468724,0.7535272,0.01657517,0.6306994,0.8642129,0.7135265,0.241117,0.2520606,0.2111228
max,22.98216,4.650339,26.27001,3.373862,3.467118,0.8980238,8.611417,9.092629,6.191033


### V. Заповнення пропусків для категоріальних показчиків

__Примітка__: на цьому етапі слід
1. Виділити датасет з категоріальними показчиками використовуючи `make_column_selector` з параметром `dtype_include='O'`
2. Видилити колонку `publish_date` бо вона в цьому датасеті чисто інформативна
3. Заповнити пусті (NaN) значення найближчими (`method='ffill'` в функції `fillna`)

In [47]:
numeric_columns_selector = make_column_selector(dtype_include='O')
df_cat = df.drop(columns="publish_date")

In [48]:
df_cat["area_living"] = df_cat["area_living"].fillna(method='ffill') 
df_cat["area_kitchen"] = df_cat["area_kitchen"].fillna(method='ffill')

In [49]:
df_cat

Unnamed: 0,Price,rooms,price_per_m2,level,levels,year,area_total,area_living,area_kitchen,street
0,140000.0,2.0,2258.0,7.0,9.0,1969.0,62.0,47.0,9.0,Омеляновича-Павленка
1,105000.0,4.0,847.0,25.0,26.0,2018.0,124.0,71.0,16.0,
2,175000.0,3.0,1786.0,25.0,26.0,2010.0,98.0,71.0,16.0,Ованеса Туманяна
3,30970.0,1.0,1106.0,12.0,13.0,2013.0,28.0,13.0,5.0,Петропавлівська
4,82000.0,2.0,1281.0,18.0,26.0,,64.0,13.0,5.0,Дніпровська
...,...,...,...,...,...,...,...,...,...,...
723,49990.0,3.0,757.0,8.0,9.0,1976.0,66.0,45.0,8.0,Наумова
724,89000.0,1.0,2342.0,7.0,15.0,,38.0,20.0,7.0,Перемоги
725,170000.0,2.0,2656.0,5.0,7.0,1948.0,64.0,20.0,9.0,Велика Васильківська
726,29256.6,1.0,978.5,1.0,5.0,,,20.0,9.0,Червоноткацька


### VI. Кодування категориальних показчиків

__Примітка__: на цьому етапі слід побудувати датасет `df_cat_encoded` використавши функцію  `fit_transform` модуля __`OneHotEncoder`__


In [51]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)

In [54]:
categorical = pd.read_csv('aprt_properties.csv')

In [56]:
encoder.fit_transform(categorical)
df_cat_encoded = encoder.fit_transform(categorical)
df_cat_encoded = encoder.transform(categorical)
df_cat_encoded = pd.DataFrame(scaler.transform(df_num), columns=df_num_col)
df_cat_encoded


Unnamed: 0,Price,rooms,price_per_m2,level,levels,year,area_total,area_living,area_kitchen
0,-0.089169,-0.220676,0.028446,-0.379939,-1.028809,-1.020749,-0.350821,0.153832,-0.685864
1,-0.141065,1.727730,-0.210835,2.218846,0.982527,0.787325,0.862407,0.939660,0.011792
2,-0.037274,0.753527,-0.051597,2.218846,0.982527,0.492130,0.353634,,
3,-0.250832,-1.194879,-0.166913,0.341945,-0.555553,0.602828,-1.016140,-0.959425,-1.084525
4,-0.175168,-0.220676,-0.137236,1.208207,0.982527,,-0.311685,,
...,...,...,...,...,...,...,...,...,...
723,-0.222630,0.753527,-0.226098,-0.235562,-1.028809,-0.762452,-0.272548,0.088346,-0.785529
724,-0.164789,-1.194879,0.042691,-0.379939,-0.318926,,-0.820458,-0.730225,-0.885194
725,-0.044687,-0.220676,0.095940,-0.668693,-1.265437,-1.795638,-0.311685,,-0.685864
726,-0.253372,-1.194879,-0.188535,-1.246201,-1.502064,,,,


### VII. Формування результатного датасету

__Примітка__: на цьому етапі слід об'єднати змаштабований чисельний (`df_num_scaled`) та кодований категоріальний (`df_cat_encoded`) датасети в один результатний `df_result` використавши функцію `concat`

In [57]:
df_result = pd.concat([df_num_scaled, df_cat_encoded])
df_result

Unnamed: 0,Price,rooms,price_per_m2,level,levels,year,area_total,area_living,area_kitchen
0,-0.089169,-0.220676,0.028446,-0.379939,-1.028809,-1.020749,-0.350821,0.153832,-0.685864
1,-0.141065,1.727730,-0.210835,2.218846,0.982527,0.787325,0.862407,0.939660,0.011792
2,-0.037274,0.753527,-0.051597,2.218846,0.982527,0.492130,0.353634,,
3,-0.250832,-1.194879,-0.166913,0.341945,-0.555553,0.602828,-1.016140,-0.959425,-1.084525
4,-0.175168,-0.220676,-0.137236,1.208207,0.982527,,-0.311685,,
...,...,...,...,...,...,...,...,...,...
723,-0.222630,0.753527,-0.226098,-0.235562,-1.028809,-0.762452,-0.272548,0.088346,-0.785529
724,-0.164789,-1.194879,0.042691,-0.379939,-0.318926,,-0.820458,-0.730225,-0.885194
725,-0.044687,-0.220676,0.095940,-0.668693,-1.265437,-1.795638,-0.311685,,-0.685864
726,-0.253372,-1.194879,-0.188535,-1.246201,-1.502064,,,,
