# Технології ETL з бібліотекою `scikit-learn`

## УВЕДЕННЯ В SCIKIT-LEARN

### Загальна інформація

Розроблено для побудови та аналізу класичних моделей машинного навчання [(Докладніше)](https://en.wikipedia.org/wiki/Scikit-learn)
- [Офіційний сайт](https://scikit-learn.org/stable/)
- [Сайт на GitHub](https://github.com/scikit-learn/scikit-learn)

Альтернативи:
- [Tensorflow](https://www.tensorflow.org)
- [Pytorch](https://pytorch.org)
- [Keras](https://keras.io) ...

Доступна через [API](https://scikit-learn.org/stable/modules/classes.html#) з мови Python (або С/С++)

### Інструментарій для роботи з данними

Має потужні інструменти для [Data Transformation](https://scikit-learn.org/stable/data_transforms.html#data-transforms)

Автоматизують наступні функції
- [очищення](https://scikit-learn.org/stable/modules/unsupervised_reduction.html)
- [вилучення](https://scikit-learn.org/stable/modules/feature_extraction.html)
- [збагачення](https://scikit-learn.org/stable/modules/impute.html)
- [предобробка](https://scikit-learn.org/stable/modules/preprocessing.html)

Для інтеграції цих (та інших) процесів передбачена [`конвереїзація`](https://scikit-learn.org/stable/modules/compose.html)


## ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

### для проведення експеріментів та перевірки гіпотез в `scilearn` є модуль моделювання датасетів [sklearn.datasets](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets)

In [139]:
from sklearn import datasets
import pandas as pd
import numpy as np
import os

In [140]:
wine_bunch = datasets.load_wine(as_frame=True)

In [141]:
df = wine_bunch['frame']

In [142]:
df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


In [143]:
df.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258,0.938202
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474,0.775035
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0,0.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5,0.0
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5,1.0
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0,2.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0,2.0


In [144]:
df.loc[df['target'] == 0,'target'] = 'west'
df.loc[df['target'] == 1,'target'] = 'east'
df.loc[df['target'] == 2,'target'] = 'nord'

In [145]:
df['target'].unique()

array(['west', 'east', 'nord'], dtype=object)

In [146]:
df.rename(columns={'target': 'region'}, inplace=True)
df.columns

Index(['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium',
       'total_phenols', 'flavanoids', 'nonflavanoid_phenols',
       'proanthocyanins', 'color_intensity', 'hue',
       'od280/od315_of_diluted_wines', 'proline', 'region'],
      dtype='object')

In [147]:
X, y = df.drop(columns=['alcohol']), df['alcohol']

In [148]:
X.head(3)

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,region
0,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,west
1,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,west
2,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,west


### додамо синтетичний `шум' 

In [149]:
from add_noise import add_feauture_err


In [150]:
# деякі значення можуть бути пропущені
X = add_feauture_err(df=X, column_name='region', err_level=.05, err_filler=np.nan)
X = add_feauture_err(df=X, column_name='color_intensity', err_level=.10, err_filler=np.nan)

# або вочевидь невірні
X = add_feauture_err(df=X, column_name='magnesium', err_level=.05, err_filler=100000.0)

In [151]:
X.describe()

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,162.0,178.0,178.0,178.0
mean,2.336348,2.366517,19.494944,5151.106742,2.295112,2.02927,0.361854,1.590899,4.949198,0.957449,2.611685,746.893258
std,1.117146,0.274344,3.339564,21949.954638,0.625851,0.998859,0.124453,0.572359,2.243849,0.228572,0.70999,314.907474
min,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,1.6025,2.21,17.2,89.0,1.7425,1.205,0.27,1.25,3.1125,0.7825,1.9375,500.5
50%,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.6,0.965,2.78,673.5
75%,3.0825,2.5575,21.5,110.75,2.8,2.875,0.4375,1.95,6.075,1.12,3.17,985.0
max,5.8,3.23,30.0,100000.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


In [152]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   malic_acid                    178 non-null    float64
 1   ash                           178 non-null    float64
 2   alcalinity_of_ash             178 non-null    float64
 3   magnesium                     178 non-null    float64
 4   total_phenols                 178 non-null    float64
 5   flavanoids                    178 non-null    float64
 6   nonflavanoid_phenols          178 non-null    float64
 7   proanthocyanins               178 non-null    float64
 8   color_intensity               162 non-null    float64
 9   hue                           178 non-null    float64
 10  od280/od315_of_diluted_wines  178 non-null    float64
 11  proline                       178 non-null    float64
 12  region                        169 non-null    object 
dtypes: fl

### ПОШУК ТА ОБРОБКА ВИКИДІВ (Outliers/Anomaly Detection)

В продашені та на великих об'ємах використовується алгоритм __LOF__ ([_Local Outlier Factor_](https://scikit-learn.org/stable/auto_examples/neighbors/plot_lof_outlier_detection.html))

In [153]:
mean_std = X.describe().loc[['mean', 'std']].T

In [154]:
mean_std

Unnamed: 0,mean,std
malic_acid,2.336348,1.117146
ash,2.366517,0.274344
alcalinity_of_ash,19.494944,3.339564
magnesium,5151.106742,21949.954638
total_phenols,2.295112,0.625851
flavanoids,2.02927,0.998859
nonflavanoid_phenols,0.361854,0.124453
proanthocyanins,1.590899,0.572359
color_intensity,4.949198,2.243849
hue,0.957449,0.228572


In [155]:
mean_std['std_minus_mean'] = mean_std['std'] - mean_std['mean']
mean_std

Unnamed: 0,mean,std,std_minus_mean
malic_acid,2.336348,1.117146,-1.219202
ash,2.366517,0.274344,-2.092173
alcalinity_of_ash,19.494944,3.339564,-16.15538
magnesium,5151.106742,21949.954638,16798.847897
total_phenols,2.295112,0.625851,-1.669261
flavanoids,2.02927,0.998859,-1.030411
nonflavanoid_phenols,0.361854,0.124453,-0.237401
proanthocyanins,1.590899,0.572359,-1.01854
color_intensity,4.949198,2.243849,-2.705349
hue,0.957449,0.228572,-0.728878


In [156]:
# використаємо правило 2-х сігм для показчика `magnesium`
two_sigma = 2 * mean_std.loc['magnesium']['std']
two_sigma

43899.90927676092

In [157]:
# замінити всі значення `magnesium` на медіану 
X.loc[df['magnesium'] > two_sigma] = np.median(X['magnesium'])

### заміщення пропусків

[Детальніше](https://scikit-learn.org/stable/modules/impute.html)

In [158]:
X.describe().loc['count']

malic_acid                      178.0
ash                             178.0
alcalinity_of_ash               178.0
magnesium                       178.0
total_phenols                   178.0
flavanoids                      178.0
nonflavanoid_phenols            178.0
proanthocyanins                 178.0
color_intensity                 162.0
hue                             178.0
od280/od315_of_diluted_wines    178.0
proline                         178.0
Name: count, dtype: float64

In [159]:
X['color_intensity'].isna()

0      False
1      False
2      False
3      False
4      False
       ...  
173    False
174    False
175     True
176     True
177     True
Name: color_intensity, Length: 178, dtype: bool

In [160]:
# замінимо NaN на медіану
X['color_intensity'].fillna(value=X['color_intensity'].median(), inplace=True)

In [161]:
# для строкового показчика - замінимо найближчим
X['region'].fillna(method='bfill', inplace=True)

In [162]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   malic_acid                    178 non-null    float64
 1   ash                           178 non-null    float64
 2   alcalinity_of_ash             178 non-null    float64
 3   magnesium                     178 non-null    float64
 4   total_phenols                 178 non-null    float64
 5   flavanoids                    178 non-null    float64
 6   nonflavanoid_phenols          178 non-null    float64
 7   proanthocyanins               178 non-null    float64
 8   color_intensity               178 non-null    float64
 9   hue                           178 non-null    float64
 10  od280/od315_of_diluted_wines  178 non-null    float64
 11  proline                       178 non-null    float64
 12  region                        178 non-null    object 
dtypes: fl

### Стандартизація та масштабування числових показчиків

[Докладніше](https://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling)

In [163]:
# відбір показчиків за їх типом
from sklearn.compose import make_column_selector
numeric_columns_selector = make_column_selector(dtype_include='float64')
X_numeric_columns = numeric_columns_selector(X)
X_numeric_columns

['malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [164]:
X_numeric = X[X_numeric_columns]
X_numeric.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 12 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   malic_acid                    178 non-null    float64
 1   ash                           178 non-null    float64
 2   alcalinity_of_ash             178 non-null    float64
 3   magnesium                     178 non-null    float64
 4   total_phenols                 178 non-null    float64
 5   flavanoids                    178 non-null    float64
 6   nonflavanoid_phenols          178 non-null    float64
 7   proanthocyanins               178 non-null    float64
 8   color_intensity               178 non-null    float64
 9   hue                           178 non-null    float64
 10  od280/od315_of_diluted_wines  178 non-null    float64
 11  proline                       178 non-null    float64
dtypes: float64(12)
memory usage: 16.8 KB


In [165]:
# підключимо стандартизатор
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
_ = scaler.fit(X_numeric)

In [166]:
(scaler.mean_, scaler.scale_, scaler.var_)

(array([2.33634831e+00, 2.36651685e+00, 1.94949438e+01, 5.15110674e+03,
        2.29511236e+00, 2.02926966e+00, 3.61853933e-01, 1.59089888e+00,
        4.91780898e+00, 9.57449438e-01, 2.61168539e+00, 7.46893258e+02]),
 array([1.11400363e+00, 2.73572294e-01, 3.33016976e+00, 2.18882106e+04,
        6.24090564e-01, 9.96048950e-01, 1.24103260e-01, 5.70748849e-01,
        2.13634656e+00, 2.27928607e-01, 7.07993265e-01, 3.14021657e+02]),
 array([1.24100408e+00, 7.48418003e-02, 1.10900306e+01, 4.79093764e+08,
        3.89489032e-01, 9.92113512e-01, 1.54016191e-02, 3.25754248e-01,
        4.56397660e+00, 5.19514497e-02, 5.01254463e-01, 9.86096010e+04]))

In [167]:
X_numeric_scaled = pd.DataFrame(scaler.transform(X_numeric), columns=X_numeric_columns)

In [168]:
X_numeric_scaled.describe()

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,-1.197544e-16,-8.370333e-16,-3.991813e-17,-1.4969300000000002e-17,0.0,-3.991813e-16,3.592632e-16,-1.197544e-16,-5.189357e-16,1.995907e-16,3.19345e-16,-1.596725e-16
std,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821
min,-1.432983,-3.679162,-2.671018,-0.232139,-2.107246,-1.695971,-1.868234,-2.069034,-1.702818,-2.094732,-1.895054,-1.493188
25%,-0.6587486,-0.5721225,-0.6891372,-0.2312709,-0.885468,-0.8275393,-0.7401412,-0.5972835,-0.7678103,-0.7675624,-0.9522483,-0.7846378
50%,-0.423112,-0.02382132,0.001518295,-0.2308597,0.09596,0.1061497,-0.1760948,-0.06289785,-0.1487628,0.03312687,0.2377348,-0.2337204
75%,0.6697929,0.6981085,0.6020883,-0.2302772,0.808997,0.8490851,0.6095413,0.6291754,0.3895393,0.7131644,0.7885875,0.7582494
max,3.109192,3.156325,3.154511,4.333332,2.539515,3.062832,2.402403,3.485073,3.783183,3.301694,1.960915,2.971473


### Перетворення категоріальних даних

[Докладніше про стратегії кодування](https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features)

In [169]:
categorical_selector = make_column_selector(dtype_include='O')
X_categorical_columns = categorical_selector(X)
X_categorical_columns

['region']

In [170]:
X['region'].unique()

array(['west', 'east', 'nord'], dtype=object)

In [171]:
X_categorical = X[X_categorical_columns]
X_categorical.describe()

Unnamed: 0,region
count,178
unique,3
top,east
freq,71


In [172]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)

In [173]:
_ = encoder.fit(X_categorical)

In [174]:
X_categorical_encoded = encoder.transform(X_categorical)
X_categorical_encoded = pd.DataFrame(X_categorical_encoded, columns=encoder.categories_)

### Об'єднати числовий та категоріальний датасети

In [175]:
(X_numeric_scaled.shape, X_categorical_encoded.shape)

((178, 12), (178, 3))

In [176]:
X = pd.concat([X_numeric_scaled, X_categorical_encoded], axis=1)

In [177]:
X.head()

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,"(east,)","(nord,)","(west,)"
0,-0.56225,0.232053,-1.169593,-0.229535,0.808997,1.034819,-0.659563,1.224884,0.33805,0.362177,1.84792,1.013009,0.0,0.0,1.0
1,-0.499413,-0.827996,-2.490847,-0.230768,0.568648,0.733629,-0.820719,-0.544721,-0.251742,0.406051,1.113449,0.965242,0.0,0.0,1.0
2,0.021231,1.109334,-0.268738,-0.230723,0.808997,1.215533,-0.498407,2.135968,0.356773,0.318304,0.788587,1.395148,0.0,0.0,1.0
3,-0.346811,0.487926,-0.809251,-0.230174,2.491446,1.466525,-0.981875,1.032155,1.349121,-0.427544,1.184071,2.334574,0.0,0.0,1.0
4,0.227694,1.840403,0.451946,-0.229946,0.808997,0.663351,0.226796,0.401404,-0.279828,0.362177,0.449601,-0.037874,0.0,0.0,1.0


## ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

In [178]:
import warnings
warnings.filterwarnings('ignore')

<div style='background-color:black'>
<H3 style='color:red'>Виконати процедури очищення, збагачення та нормалізації даних рієлторської компанії в файлі `aprt_properties.csv`</H3>
<p>Н<b>а місці `...` написати свій код<b></p>
</div>


In [179]:
# імпортувати бібліотеку Pandas, NumPy 
import pandas as pd
import numpy as np
...

Ellipsis

### I. Вилучення сирих даних

__Примітка__: використати функцію `read_csv` з параметром `na_values=['None']` щоб згенерувати правильні типи даних

In [180]:
df = pd.read_csv('aprt_properties.csv', na_values=['None'])

### II. Очищення (_опціонально_)

__Примітка__: на цьому етапі слід
1. Визначитись які показчики є категоріальними або числовими
2. При необхідності зробити перетворення типів (функція `astype`)
3. Визначити чи є в датасеті викиди.
4. При наявності викидів зробити їх корегування (`mean` або `median`)

In [181]:
mean_df = df.describe().loc[['mean', 'std']].T


In [182]:
mean_df['std_minus_mean'] = mean_df['std'] - mean_df['mean']

mean_df

Unnamed: 0,mean,std,std_minus_mean
Price,200138.422665,674893.92174,474755.499075
rooms,2.226519,1.02719,-1.19933
price_per_m2,2090.259059,5900.910584,3810.651524
level,9.631579,6.931243,-2.700336
levels,17.69559,8.458113,-9.237477
year,1996.662963,27.125786,-1969.537177
area_total,79.928125,51.143278,-28.784847
area_living,42.301811,30.571793,-11.730018
area_kitchen,15.881679,10.043182,-5.838497


### III. Заповнення пропусків для чисельних показчиків

__Примітка__: на цьому етапі слід

1. Виділити датасет з чисельними показчиками використовуючи `make_column_selector`
2. Заповнити пусті (`NaN`) значення медіанними значеннями відповідної колонки (`fillna`)

In [183]:
from sklearn.compose import make_column_selector
from add_noise import add_feauture_err
numeric_columns_selector = make_column_selector(dtype_include='float64')

X_numeric_columns = numeric_columns_selector(df)
X_numeric_columns
X = add_feauture_err(df=df, column_name='Price', err_level=.05, err_filler=np.nan)
X.describe()
X.isna()
X.fillna(value=X.median, inplace=True)
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 728 entries, 0 to 727
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Price         728 non-null    object
 1   rooms         728 non-null    object
 2   price_per_m2  728 non-null    object
 3   level         728 non-null    object
 4   levels        728 non-null    object
 5   year          728 non-null    object
 6   area_total    728 non-null    object
 7   area_living   728 non-null    object
 8   area_kitchen  728 non-null    object
 9   street        728 non-null    object
 10  publish_date  728 non-null    object
dtypes: object(11)
memory usage: 62.7+ KB


### IV. Масштабування чисельних показчиків

__Примітка__: на цьому етапі слід побудувати змаштабований датасет `df_num_scaled` з чисельних показчиків використавші модуль __`StandardScaler`__ та його функцію `fit_transform`

In [184]:
from sklearn.preprocessing import StandardScaler
# df = pd.read_csv('aprt_properties.csv', na_values=None)
X_numeric_columns = numeric_columns_selector(X)
X_numeric_columns
X_numeric = X[X_numeric_columns]
X_numeric.info()
scaler = StandardScaler()
_ = scaler.fit(X_numeric)
(scaler.mean_, scaler.scale_, scaler.var_)
df_num_scaled = pd.DataFrame(scaler.fit_transform(X_numeric), columns=X_numeric_columns)
df_num_scaled

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 728 entries, 0 to 727
Empty DataFrame


ValueError: at least one array or dtype is required

### V. Заповнення пропусків для категоріальних показчиків

__Примітка__: на цьому етапі слід
1. Виділити датасет з категоріальними показчиками використовуючи `make_column_selector` з параметром `dtype_include='O'`
2. Видилити колонку `publish_date` бо вона в цьому датасеті чисто інформативна
3. Заповнити пусті (NaN) значення найближчими (`method='ffill'` в функції `fillna`)

In [None]:
categorical_selector = make_column_selector(dtype_include='O')
X_categorical_columns = categorical_selector(X)
X_categorical_columns
X = add_feauture_err(df=df, column_name='publish_date', err_level=.05, err_filler=np.nan)
X.describe()
X.isna()
X.fillna(method='ffill', inplace=True)
X.info()

Unnamed: 0,Price,rooms,price_per_m2,level,levels,year,area_total,area_living,area_kitchen,street
0,140000.0,2.0,2258.0,7.0,9.0,1969.0,62.0,47.0,9.0,Омеляновича-Павленка
1,105000.0,4.0,847.0,25.0,26.0,2018.0,124.0,71.0,16.0,
2,175000.0,3.0,1786.0,25.0,26.0,2010.0,98.0,,,Ованеса Туманяна
3,30970.0,1.0,1106.0,12.0,13.0,2013.0,28.0,13.0,5.0,Петропавлівська
4,82000.0,2.0,1281.0,18.0,26.0,,64.0,,,Дніпровська
...,...,...,...,...,...,...,...,...,...,...
723,49990.0,3.0,757.0,8.0,9.0,1976.0,66.0,45.0,8.0,Наумова
724,89000.0,1.0,2342.0,7.0,15.0,,38.0,20.0,7.0,Перемоги
725,170000.0,2.0,2656.0,5.0,7.0,1948.0,64.0,,9.0,Велика Васильківська
726,29256.6,1.0,978.5,1.0,5.0,,,,,Червоноткацька


In [None]:
df_cat["area_living"] = df_cat["area_living"].fillna(method='ffill') 
df_cat["area_kitchen"] = df_cat["area_kitchen"].fillna(method='ffill')
df_cat

Unnamed: 0,Price,rooms,price_per_m2,level,levels,year,area_total,area_living,area_kitchen,street
0,140000.0,2.0,2258.0,7.0,9.0,1969.0,62.0,47.0,9.0,Омеляновича-Павленка
1,105000.0,4.0,847.0,25.0,26.0,2018.0,124.0,71.0,16.0,
2,175000.0,3.0,1786.0,25.0,26.0,2010.0,98.0,71.0,16.0,Ованеса Туманяна
3,30970.0,1.0,1106.0,12.0,13.0,2013.0,28.0,13.0,5.0,Петропавлівська
4,82000.0,2.0,1281.0,18.0,26.0,,64.0,13.0,5.0,Дніпровська
...,...,...,...,...,...,...,...,...,...,...
723,49990.0,3.0,757.0,8.0,9.0,1976.0,66.0,45.0,8.0,Наумова
724,89000.0,1.0,2342.0,7.0,15.0,,38.0,20.0,7.0,Перемоги
725,170000.0,2.0,2656.0,5.0,7.0,1948.0,64.0,20.0,9.0,Велика Васильківська
726,29256.6,1.0,978.5,1.0,5.0,,,20.0,9.0,Червоноткацька


### VI. Кодування категориальних показчиків

__Примітка__: на цьому етапі слід побудувати датасет `df_cat_encoded` використавши функцію  `fit_transform` модуля __`OneHotEncoder`__


In [None]:

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)

ValueError: Expected 2D array, got scalar array instead:
array=StandardScaler().
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

In [None]:
categorical_selector = make_column_selector(dtype_include='O')
X_categorical_columns = categorical_selector(X)
X_categorical_columns
X_categorical = X[X_categorical_columns]
# X_categorical.info()
_ = encoder.fit(X_categorical)
df_cat_encoded = encoder.fit_transform(X_categorical)

df_cat_encoded = pd.DataFrame(df_cat_encoded) # Якщо застосувати columns=encoder.cartegories_ - видає помилку, так як при використанні fir_transfrom генерує понад 1500 стовбців, хоча все виконано по аналогії з теоретичними прикладами
df_cat_encoded

### VII. Формування результатного датасету

__Примітка__: на цьому етапі слід об'єднати змаштабований чисельний (`df_num_scaled`) та кодований категоріальний (`df_cat_encoded`) датасети в один результатний `df_result` використавши функцію `concat`

In [None]:
X = pd.concat([df_num_scaled, df_cat_encoded], axis=1)
X.head()

NameError: name 'df_cat_encoded' is not defined