# Технології ETL з бібліотекою `scikit-learn`

## УВЕДЕННЯ В SCIKIT-LEARN

### Загальна інформація

Розроблено для побудови та аналізу класичних моделей машинного навчання [(Докладніше)](https://en.wikipedia.org/wiki/Scikit-learn)
- [Офіційний сайт](https://scikit-learn.org/stable/)
- [Сайт на GitHub](https://github.com/scikit-learn/scikit-learn)

Альтернативи:
- [Tensorflow](https://www.tensorflow.org)
- [Pytorch](https://pytorch.org)
- [Keras](https://keras.io) ...

Доступна через [API](https://scikit-learn.org/stable/modules/classes.html#) з мови Python (або С/С++)

### Інструментарій для роботи з данними

Має потужні інструменти для [Data Transformation](https://scikit-learn.org/stable/data_transforms.html#data-transforms)

Автоматизують наступні функції
- [очищення](https://scikit-learn.org/stable/modules/unsupervised_reduction.html)
- [вилучення](https://scikit-learn.org/stable/modules/feature_extraction.html)
- [збагачення](https://scikit-learn.org/stable/modules/impute.html)
- [предобробка](https://scikit-learn.org/stable/modules/preprocessing.html)

Для інтеграції цих (та інших) процесів передбачена [`конвереїзація`](https://scikit-learn.org/stable/modules/compose.html)


## ТЕОРЕТИЧНА ЧАСТИНА ТА ПРИКЛАДИ

### для проведення експеріментів та перевірки гіпотез в `scilearn` є модуль моделювання датасетів [sklearn.datasets](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets)

In [7]:
from sklearn import datasets
import pandas as pd
import numpy as np

In [8]:
wine_bunch = datasets.load_wine(as_frame=True)

In [9]:
df = wine_bunch['frame']

In [10]:
df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


In [11]:
df.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258,0.938202
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474,0.775035
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0,0.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5,0.0
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5,1.0
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0,2.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0,2.0


In [12]:
df.loc[df['target'] == 0,'target'] = 'west'
df.loc[df['target'] == 1,'target'] = 'east'
df.loc[df['target'] == 2,'target'] = 'nord'

In [13]:
df['target'].unique()

array(['west', 'east', 'nord'], dtype=object)

In [14]:
df.rename(columns={'target': 'region'}, inplace=True)
df.columns

Index(['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium',
       'total_phenols', 'flavanoids', 'nonflavanoid_phenols',
       'proanthocyanins', 'color_intensity', 'hue',
       'od280/od315_of_diluted_wines', 'proline', 'region'],
      dtype='object')

In [15]:
X, y = df.drop(columns=['alcohol']), df['alcohol']

In [16]:
X.head(3)

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,region
0,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,west
1,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,west
2,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,west


### додамо синтетичний `шум' 

In [17]:
from add_noise import add_feauture_err

In [18]:
# деякі значення можуть бути пропущені
X = add_feauture_err(df=X, column_name='region', err_level=.05, err_filler=np.nan)
X = add_feauture_err(df=X, column_name='color_intensity', err_level=.10, err_filler=np.nan)

# або вочевидь невірні
X = add_feauture_err(df=X, column_name='magnesium', err_level=.05, err_filler=100000.0)

In [19]:
X.describe()

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,160.0,178.0,178.0,178.0
mean,2.336348,2.366517,19.494944,5151.168539,2.295112,2.02927,0.361854,1.590899,5.108875,0.957449,2.611685,746.893258
std,1.117146,0.274344,3.339564,21949.940269,0.625851,0.998859,0.124453,0.572359,2.377516,0.228572,0.70999,314.907474
min,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,1.6025,2.21,17.2,89.0,1.7425,1.205,0.27,1.25,3.24,0.7825,1.9375,500.5
50%,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.75,0.965,2.78,673.5
75%,3.0825,2.5575,21.5,110.75,2.8,2.875,0.4375,1.95,6.32,1.12,3.17,985.0
max,5.8,3.23,30.0,100000.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


In [20]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   malic_acid                    178 non-null    float64
 1   ash                           178 non-null    float64
 2   alcalinity_of_ash             178 non-null    float64
 3   magnesium                     178 non-null    float64
 4   total_phenols                 178 non-null    float64
 5   flavanoids                    178 non-null    float64
 6   nonflavanoid_phenols          178 non-null    float64
 7   proanthocyanins               178 non-null    float64
 8   color_intensity               160 non-null    float64
 9   hue                           178 non-null    float64
 10  od280/od315_of_diluted_wines  178 non-null    float64
 11  proline                       178 non-null    float64
 12  region                        169 non-null    object 
dtypes: fl

### ПОШУК ТА ОБРОБКА ВИКИДІВ (Outliers/Anomaly Detection)

В продашені та на великих об'ємах використовується алгоритм __LOF__ ([_Local Outlier Factor_](https://scikit-learn.org/stable/auto_examples/neighbors/plot_lof_outlier_detection.html))

In [21]:
mean_std = X.describe().loc[['mean', 'std']].T

In [22]:
mean_std

Unnamed: 0,mean,std
malic_acid,2.336348,1.117146
ash,2.366517,0.274344
alcalinity_of_ash,19.494944,3.339564
magnesium,5151.168539,21949.940269
total_phenols,2.295112,0.625851
flavanoids,2.02927,0.998859
nonflavanoid_phenols,0.361854,0.124453
proanthocyanins,1.590899,0.572359
color_intensity,5.108875,2.377516
hue,0.957449,0.228572


In [23]:
mean_std['std_minus_mean'] = mean_std['std'] - mean_std['mean']
mean_std

Unnamed: 0,mean,std,std_minus_mean
malic_acid,2.336348,1.117146,-1.219202
ash,2.366517,0.274344,-2.092173
alcalinity_of_ash,19.494944,3.339564,-16.15538
magnesium,5151.168539,21949.940269,16798.77173
total_phenols,2.295112,0.625851,-1.669261
flavanoids,2.02927,0.998859,-1.030411
nonflavanoid_phenols,0.361854,0.124453,-0.237401
proanthocyanins,1.590899,0.572359,-1.01854
color_intensity,5.108875,2.377516,-2.731359
hue,0.957449,0.228572,-0.728878


In [24]:
# використаємо правило 2-х сігм для показчика `magnesium`
two_sigma = 2 * mean_std.loc['magnesium']['std']
two_sigma

43899.88053802617

In [25]:
# замінити всі значення `magnesium` на медіану 
X.loc[df['magnesium'] > two_sigma] = np.median(X['magnesium'])

### заміщення пропусків

[Детальніше](https://scikit-learn.org/stable/modules/impute.html)

In [26]:
X.describe().loc['count']

malic_acid                      178.0
ash                             178.0
alcalinity_of_ash               178.0
magnesium                       178.0
total_phenols                   178.0
flavanoids                      178.0
nonflavanoid_phenols            178.0
proanthocyanins                 178.0
color_intensity                 160.0
hue                             178.0
od280/od315_of_diluted_wines    178.0
proline                         178.0
Name: count, dtype: float64

In [27]:
X['color_intensity'].isna()

0      False
1      False
2      False
3      False
4      False
       ...  
173    False
174    False
175    False
176    False
177    False
Name: color_intensity, Length: 178, dtype: bool

In [None]:
# замінимо NaN на медіану
X['color_intensity'].fillna(value=X['color_intensity'].median(), inplace=True)

In [None]:
# для строкового показчика - замінимо найближчим
X['region'].fillna(method='bfill', inplace=True)

In [75]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   malic_acid                    178 non-null    float64
 1   ash                           178 non-null    float64
 2   alcalinity_of_ash             178 non-null    float64
 3   magnesium                     178 non-null    float64
 4   total_phenols                 178 non-null    float64
 5   flavanoids                    178 non-null    float64
 6   nonflavanoid_phenols          178 non-null    float64
 7   proanthocyanins               178 non-null    float64
 8   color_intensity               160 non-null    float64
 9   hue                           178 non-null    float64
 10  od280/od315_of_diluted_wines  178 non-null    float64
 11  proline                       178 non-null    float64
 12  region                        169 non-null    object 
dtypes: fl

### Стандартизація та масштабування числових показчиків

[Докладніше](https://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-removal-and-variance-scaling)

In [130]:
# відбір показчиків за їх типом
from sklearn.compose import make_column_selector
numeric_columns_selector = make_column_selector(dtype_include='float64')
X_numeric_columns = numeric_columns_selector(X)
X_numeric_columns

['malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [131]:
X_numeric = X[X_numeric_columns]
X_numeric.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 12 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   malic_acid                    178 non-null    float64
 1   ash                           178 non-null    float64
 2   alcalinity_of_ash             178 non-null    float64
 3   magnesium                     178 non-null    float64
 4   total_phenols                 178 non-null    float64
 5   flavanoids                    178 non-null    float64
 6   nonflavanoid_phenols          178 non-null    float64
 7   proanthocyanins               178 non-null    float64
 8   color_intensity               160 non-null    float64
 9   hue                           178 non-null    float64
 10  od280/od315_of_diluted_wines  178 non-null    float64
 11  proline                       178 non-null    float64
dtypes: float64(12)
memory usage: 16.8 KB


In [132]:
# підключимо стандартизатор
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
_ = scaler.fit(X_numeric)

In [133]:
(scaler.mean_, scaler.scale_, scaler.var_)

(array([2.33634831e+00, 2.36651685e+00, 1.94949438e+01, 5.15123034e+03,
        2.29511236e+00, 2.02926966e+00, 3.61853933e-01, 1.59089888e+00,
        5.11068749e+00, 9.57449438e-01, 2.61168539e+00, 7.46893258e+02]),
 array([1.11400363e+00, 2.73572294e-01, 3.33016976e+00, 2.18881820e+04,
        6.24090564e-01, 9.96048950e-01, 1.24103260e-01, 5.70748849e-01,
        2.36277302e+00, 2.27928607e-01, 7.07993265e-01, 3.14021657e+02]),
 array([1.24100408e+00, 7.48418003e-02, 1.10900306e+01, 4.79092510e+08,
        3.89489032e-01, 9.92113512e-01, 1.54016191e-02, 3.25754248e-01,
        5.58269634e+00, 5.19514497e-02, 5.01254463e-01, 9.86096010e+04]))

In [134]:
X_numeric_scaled = pd.DataFrame(scaler.transform(X_numeric), columns=X_numeric_columns)

In [135]:
X_numeric_scaled.describe()

Unnamed: 0,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,160.0,178.0,178.0,178.0
mean,-8.357859e-17,-8.657245e-16,-1.160121e-16,-1.2786280000000002e-17,-2.97203e-16,-4.016762e-16,4.079134e-16,-1.699639e-16,2.289835e-16,3.717376e-16,2.919013e-16,-7.48465e-18
std,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.002821,1.00314,1.002821,1.002821,1.002821
min,-1.432983,-3.679162,-2.671018,-0.2321449,-2.107246,-1.695971,-1.868234,-2.069034,-1.621268,-2.094732,-1.895054,-1.493188
25%,-0.6587486,-0.5721225,-0.6891372,-0.2312769,-0.8854682,-0.8275393,-0.7401412,-0.5972835,-0.8308828,-0.7675624,-0.9522483,-0.7846378
50%,-0.423112,-0.02382132,0.001518295,-0.2308657,0.09595986,0.1061497,-0.1760948,-0.06289785,-0.1314927,0.03312687,0.2377348,-0.2337204
75%,0.6697929,0.6981085,0.6020883,-0.2303175,0.8089974,0.8490851,0.6095413,0.6291754,0.4874833,0.7131644,0.7885875,0.7582494
max,3.109192,3.156325,3.154511,4.333332,2.539515,3.062832,2.402403,3.485073,3.339006,3.301694,1.960915,2.971473


### Перетворення категоріальних даних

[Докладніше про стратегії кодування](https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features)

In [138]:
categorical_selector = make_column_selector(dtype_include='O')
X_categorical_columns = categorical_selector(X)
X_categorical_columns

['region']

In [139]:
X['region'].unique()

array(['west', nan, 'east', 'nord'], dtype=object)

In [None]:
X_categorical = X[X_categorical_columns]
X_categorical.describe()

In [None]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)

In [None]:
_ = encoder.fit(X_categorical)

In [None]:
X_categorical_encoded = encoder.transform(X_categorical)
X_categorical_encoded = pd.DataFrame(X_categorical_encoded, columns=encoder.categories_)

### Об'єднати числовий та категоріальний датасети

In [None]:
(X_numeric_scaled.shape, X_categorical_encoded.shape)

In [None]:
X = pd.concat([X_numeric_scaled, X_categorical_encoded], axis=1)

In [None]:
X.head()

## ІНДИВІДУАЛЬНЕ ЗАВДАННЯ

In [None]:
import warnings
warnings.filterwarnings('ignore')

<div style='background-color:lightgreen'>
<H3 style='color:red'>Виконати процедури очищення, збагачення та нормалізації даних рієлторської компанії в файлі `aprt_properties.csv`</H3>
<p>Н<b>а місці `...` написати свій код<b></p>
</div>


In [50]:
# імпортувати бібліотеку Pandas, NumPy 
import pandas as pd
import numpy as np

### I. Вилучення сирих даних

__Примітка__: використати функцію `read_csv` з параметром `na_values=['None']` щоб згенерувати правильні типи даних

In [58]:
df = pd.read_csv("aprt_properties.csv", na_values=['None'])

### II. Очищення (_опціонально_)

__Примітка__: на цьому етапі слід
1. Визначитись які показчики є категоріальними або числовими
2. При необхідності зробити перетворення типів (функція `astype`)
3. Визначити чи є в датасеті викиди.
4. При наявності викидів зробити їх корегування (`mean` або `median`)

In [59]:
print(df.describe().loc['count'])

mean_std = df.describe().loc[['mean', 'std']].T
mean_std['std_minus_mean'] = mean_std['std'] - mean_std['mean']

print(mean_std)
print(df)

for column in df[1:]:
    if(df[column].dtypes == 'float64'):
        df[column].fillna(value=df[column].median(), inplace=True)
    else:
        df[column].fillna(method='bfill', inplace=True)
        
df = df.astype({"rooms":'int32',"levels":'int32',"level":'int32',"year":'int32'})


two_sigma_price = 2 * mean_std.loc['Price']['std']
two_sigma_price_per_m2 = 2 * mean_std.loc['price_per_m2']['std']
two_sigma_area_living = 2 * mean_std.loc['area_living']['std']

print(two_sigma_price)
print(two_sigma_price_per_m2)
print(two_sigma_area_living)

Price           728.0
rooms           724.0
price_per_m2    723.0
level           703.0
levels          703.0
year            540.0
area_total      640.0
area_living     497.0
area_kitchen    524.0
Name: count, dtype: float64
                       mean            std  std_minus_mean
Price         200138.422665  674893.921740   474755.499075
rooms              2.226519       1.027190       -1.199330
price_per_m2    2090.259059    5900.910584     3810.651524
level              9.631579       6.931243       -2.700336
levels            17.695590       8.458113       -9.237477
year            1996.662963      27.125786    -1969.537177
area_total        79.928125      51.143278      -28.784847
area_living       42.301811      30.571793      -11.730018
area_kitchen      15.881679      10.043182       -5.838497
        Price  rooms  price_per_m2  level  levels    year  area_total  \
0    140000.0    2.0        2258.0    7.0     9.0  1969.0        62.0   
1    105000.0    4.0         847.0   2

### III. Заповнення пропусків для чисельних показчиків

__Примітка__: на цьому етапі слід

1. Виділити датасет з чисельними показчиками використовуючи `make_column_selector`
2. Заповнити пусті (`NaN`) значення медіанними значеннями відповідної колонки (`fillna`)

In [81]:
from sklearn.compose import make_column_selector

fractional_columns_selector = make_column_selector(dtype_include='float64')
target_columns_selector = make_column_selector(dtype_include='int32')

df_fractional_columns = fractional_columns_selector(df)
df_target_columns = target_columns_selector(df)

ds_fractional = df[df_numeric_columns].copy(deep=False)
ds_target = df[df_target_columns].copy(deep=False)

print(ds_fractional)
print(ds_target)

for fractional_column in ds_fractional:
    ds_fractional[fractional_column].fillna(value=ds_fractional[fractional_column].median(), inplace=True)

print(ds_fractional)
    
for target_column in ds_target:
    ds_target[target_column].fillna(value=ds_target[target_column].median(), inplace=True)


print(ds_target)

        Price  price_per_m2  area_total  area_living  area_kitchen
0    140000.0        2258.0        62.0         47.0           9.0
1    105000.0         847.0       124.0         71.0          16.0
2    175000.0        1786.0        98.0         37.0          14.0
3     30970.0        1106.0        28.0         13.0           5.0
4     82000.0        1281.0        64.0         37.0          14.0
..        ...           ...         ...          ...           ...
723   49990.0         757.0        66.0         45.0           8.0
724   89000.0        2342.0        38.0         20.0           7.0
725  170000.0        2656.0        64.0         37.0           9.0
726   29256.6         978.5        68.5         37.0          14.0
727   46500.0        1011.0        46.0         31.0           7.0

[728 rows x 5 columns]
     rooms  level  levels  year
0        2      7       9  1969
1        4     25      26  2018
2        3     25      26  2010
3        1     12      13  2013
4        2  

### IV. Масштабування чисельних показчиків

__Примітка__: на цьому етапі слід побудувати змаштабований датасет `df_num_scaled` з чисельних показчиків використавші модуль __`StandardScaler`__ та його функцію `fit_transform`

In [164]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

df_fractional_scaled = scaler.fit_transform(ds_fractional)
df_target_scaled = scaler.fit_transform(ds_target)

print(f"{df_num_scaled}\n")
print(f"{df_target_scaled}\n")

[[-8.91692267e-02  2.91607432e-02 -3.44294001e-01  2.51646978e-01 -7.42827770e-01]
 [-1.41064883e-01 -2.10939778e-01  9.45765273e-01  1.19820801e+00  7.54710445e-02]
 [-3.72735701e-02 -5.11563694e-02  4.04772674e-01 -1.42753452e-01 -1.58328617e-01]
 [-2.50831611e-01 -1.66867464e-01 -1.05174586e+00 -1.08931448e+00 -1.21042709e+00]
 [-1.75167744e-01 -1.37088873e-01 -3.02679185e-01 -1.42753452e-01 -1.58328617e-01]
 [-4.68584013e-02 -3.64202212e-02  2.38313413e-01  1.72766892e-01 -6.25927939e-01]
 [ 6.37554686e+00  2.13101874e+00  4.77432828e+00 -1.42753452e-01 -1.58328617e-01]
 [-9.65828920e-02 -1.63882756e-03 -2.81871778e-01 -6.16033968e-01  3.09270706e-01]
 [-1.18823888e-01  7.03402797e-02 -6.35597707e-01 -8.92114269e-01  7.54710445e-02]
 [-2.11494703e-01 -2.48716047e-01  2.79928229e-01 -1.42753452e-01 -1.58328617e-01]
 [-1.51444015e-01 -7.71913657e-02 -3.85908816e-01  1.50067196e-02  1.36136918e+00]
 [-4.46872353e-02 -5.98347015e-02  4.04772674e-01  2.91087020e-01  2.29656783e+00]
 [ 1

### V. Заповнення пропусків для категоріальних показчиків

__Примітка__: на цьому етапі слід
1. Виділити датасет з категоріальними показчиками використовуючи `make_column_selector` з параметром `dtype_include='O'`
2. Видилити колонку `publish_date` бо вона в цьому датасеті чисто інформативна
3. Заповнити пусті (NaN) значення найближчими (`method='ffill'` в функції `fillna`)

In [145]:
from sklearn.compose import make_column_selector

df_columns_selector = make_column_selector(dtype_include='O')
df_columns = df_columns_selector(df)

ds = df[df_columns].copy(deep=False)
print(ds)

ds = ds.drop(columns=['publish_date'])
print(ds)

ds['street'].fillna(method='bfill', inplace = True)
print(ds)

                   street       publish_date
0    Омеляновича-Павленка  3 вересня 2020 р.
1        Ованеса Туманяна   7 жовтня 2020 р.
2        Ованеса Туманяна   1 жовтня 2020 р.
3         Петропавлівська           1 лютого
4             Дніпровська      *** not found
..                    ...                ...
723               Наумова  14 квітня 2020 р.
724              Перемоги      *** not found
725  Велика Васильківська  6 березня 2019 р.
726        Червоноткацька      *** not found
727          Вишгородська          24 лютого

[728 rows x 2 columns]
                   street
0    Омеляновича-Павленка
1        Ованеса Туманяна
2        Ованеса Туманяна
3         Петропавлівська
4             Дніпровська
..                    ...
723               Наумова
724              Перемоги
725  Велика Васильківська
726        Червоноткацька
727          Вишгородська

[728 rows x 1 columns]
                   street
0    Омеляновича-Павленка
1        Ованеса Туманяна
2        Ованеса Туман

### VI. Кодування категориальних показчиків

__Примітка__: на цьому етапі слід побудувати датасет `df_cat_encoded` використавши функцію  `fit_transform` модуля __`OneHotEncoder`__


In [115]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)

In [142]:
import numpy as np

df_cat_encoded = encoder.fit_transform(ds)

print(df_cat_encoded)

[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 

### VII. Формування результатного датасету

__Примітка__: на цьому етапі слід об'єднати змаштабований чисельний (`df_num_scaled`) та кодований категоріальний (`df_cat_encoded`) датасети в один результатний `df_result` використавши функцію `concat`

In [166]:
ds_fractional_scaled = pd.DataFrame(df_fractional_scaled)
ds_target_scaled = pd.DataFrame(df_target_scaled)
ds_cat_encoded = pd.DataFrame(df_cat_encoded)

print(ds_fractional_scaled)
print(ds_target_scaled)
print(ds_cat_encoded)

df_result_frac = pd.concat([ds_fractional_scaled, ds_cat_encoded], axis=1)
df_result_tar = pd.concat([ds_target_scaled, ds_cat_encoded], axis=1)

print(df_result_frac)
print(df_result_tar)

            0         1         2         3         4
0   -0.089169  0.029161 -0.344294  0.251647 -0.742828
1   -0.141065 -0.210940  0.945765  1.198208  0.075471
2   -0.037274 -0.051156  0.404773 -0.142753 -0.158329
3   -0.250832 -0.166867 -1.051746 -1.089314 -1.210427
4   -0.175168 -0.137089 -0.302679 -0.142753 -0.158329
..        ...       ...       ...       ...       ...
723 -0.222630 -0.226254 -0.261064  0.172767 -0.859728
724 -0.164789  0.043454 -0.843672 -0.813234 -0.976627
725 -0.044687  0.096886 -0.302679 -0.142753 -0.742828
726 -0.253372 -0.188563 -0.209046 -0.142753 -0.158329
727 -0.227805 -0.183033 -0.677213 -0.379394 -0.976627

[728 rows x 5 columns]
            0         1         2         3
0   -0.220039 -0.378044 -1.051905 -1.292932
1    1.733480  2.264031  0.994045  0.743696
2    0.756721  2.264031  0.994045  0.411185
3   -1.196799  0.355866 -0.570505  0.535876
4   -0.220039  1.236557  0.994045  0.411185
..        ...       ...       ...       ...
723  0.756721 -0.231