##  Классы в Python

Классы удобно использовать, например, в случаях, когда к объектам требуется последовательно применять несколько функций. Вместо того, чтобы передавать переменные - промежуточные результаты из одной функции в другую, эти переменные хранят внутри класса.

Создадим класс, который реализует поиск экстремума (максимума или минимума) из последовательности чисел, передаваемых посредством функции add:

In [396]:
class Optim:
    def __init__(self, find_max=True):
        if find_max:
            self.opt = 10**(-10)
        else:
            self.opt = 10**(10)
        self.find_max = find_max
        print("Объект инициализирован")    
  
    def add(self, x):
        if self.find_max:
            if x > self.opt:
                self.opt = x
        else:
            if x < self.opt:
                self.opt = x
                
    def compute(self):
        print("Экстремум равен ", self.opt)

Чтобы воспользоваться классом, нужно сначала создать переменную этого класса (объект, экземпляр класса):

In [397]:
optim = Optim()

Объект инициализирован


Внутри класса хранится переменная opt:

In [398]:
optim.opt

1e-10

Теперь можно вызывать функции класса, которые будут обновлять внутренние переменные:

In [399]:
optim.add(x=5)

In [400]:
optim.add(2)

In [401]:
optim.compute()

Экстремум равен  5


Можно создать другой экземпляр класса - он не будет никак связан с первым. В частности, у него будет другое значение переменной opt:

In [402]:
optim2 = Optim(find_max=False)

Объект инициализирован


In [403]:
optim2.opt

10000000000

При создании экземпляра класса нужно задавать значения параметров. Параметры могут немного изменять логику работы класса.

Так, в примере выше параметр **find_max** определяет тип экстремума: требуется найти минимум или максимум. Использование этого параметра позволяет не создавать два отдельных класса для нахождения минимума и максимума.

**Синтаксис создания класса**
* Определение класса начинается строкой  **class <Имя класса>:**
* Далее следует описание функций (методов) класса. У каждой функции первый аргумент всегда **self** - это ссылка на самого себя, чтобы можно было обращаться к внутренним переменным (в примере выше - **self.opt**). После **self** следуют любые необходимые аргументы (в примере - аргумент **x** функции **add**). При вызове функции Python сам подставит ссылку на экземпляр класса в **self**, так что пользователю нужно передавать только "свои" аргументы (в примерах выше - **optim.add(2)**, а **self** перед 2 не указывается)
* Определяется одна служебная функция, именуемая **\__init\__**. Она вызывается при создании экземпляра класса (в примере выше -  Optim()). В этот момент прозводится инициализация внутренних переменных класса, определение значений параметров и любые другие операции, если они описаны в функции. В примере необходимо было инициализировать переменную **self.opt**, а также задать значение параметру **find_max** (определить, какой тип экстремума нужно находить). Для наглядности добавлен **print**, чтобы было понятно, в какой момент вызывается функция **\__init\__**


## Интерфейс Scikit-Learn

**Scikit-Learn** (или **sklearn**) - библиотека, в которой реализованы практически все используемые сегодня алгоритмы машинного обучения. 

Для реализации алгоритмов машинного обучения в **sklearn** всегда используется один интерфейс: соответствующий класс с функциями **fit(X, Y)** - для обучения модели на обучающей выборке **(X, Y)** и **predict(X)** - для возвращения предсказаний на  **X**. 

При создании класса обычно используется ряд параметров, влияющих на работу алгоритма машинного обучения.

Например, такова логика работы класса линейной регрессии (будет более подробно рассмотрена на следующих занятиях):
* При создании экземпляра класса нужно инициализировать переменную - коэффициент регуляризации;
* Задача функции **fit** - по выборке **X** и **Y** найти веса **w** и сохранить их внутри класса в переменной **self.w**;
* Задача функции **predict** - используя веса **self.w**, вернуть предсказания $Y$ на объектах **X**.



In [404]:
class LinearRegressor:
    def __init__(self, reg_coef=None):
        self.lambda_ = reg_coef
    
    def fit(self, X_train, y_train):
        self.w = 0 
        # Вместо 0 должен быть реализован алгоритм вычисления весов по X_train, y_train и self.lambda_
    
    def predict(self, X_test):
        y_pred = 0  
        # Вместо 0 - функция от X и self.w
        return y_pred

Без использования класса пришлось бы передавать веса **w** в функцию **predict** каждый раз, когда требуется рассчитать прогнозные значения. Это неудобно (особенно при большом количестве параметров модели). Если же веса хранятся внутри класса, то пользователь, работающий с экземпляром класса при решении конкретной задачи, может даже не догадываться об их существовании (если класс написан не им самим).



Помимо различных алгоритмов машинного обучения в **sklearn** реализовано много вспомогательного функционала для предобработки данных, визуализации данных, вычисления метрик качества моделей и др.



### Предобработка данных

Функционал предобработки данных в **sklearn** реалиован в модуле [preprocessing](http://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing). 

Обработка пропущенных значений (начиная с версии 0.22) реализована в отдельном модуле [impute](http://scikit-learn.org/stable/modules/impute.html#impute). 

Далее для демонстрации используется набор данных [Automobile Data Set](https://archive.ics.uci.edu/ml/datasets/Automobile) (описание автомобилей различных марок с точки зрения различных характеристик, включая страховые риски). Подробное описание набора данных - см. по ссылке.

В наборе данных присутствуют категориальные, целочисленные и вещественнозначные признаки.

In [405]:
import pandas as pd
pd.options.display.max_colwidth = 2000
pd.options.display.expand_frame_repr = False


X_raw = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data", header=None, na_values=["?"])

In [406]:
X_raw.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0


In [407]:
# Отделение целевого признака (цены)
y = X_raw[25] 
X_raw = X_raw.drop(25, axis=1)

In [408]:
from sklearn import preprocessing, impute

### Заполнение пропусков
Для заполнения пропусков константами можно использовать метод датафрейма **fillna** (библиотека **pandas**), а для замены средним, медианой или модой (а также константой) - класс **impute.SimpleImputer**. Стратегия заполнения определяется заданием значения соответствующему параметру.

In [409]:
# Для удобства работы с датасетом создадим маску, указывающую на столбцы с категориальными признаками
cat_features_mask = (X_raw.dtypes == "object").values    # категориальные признаки имеют тип "object"

In [410]:
# Для количественных признаков заполним пропуски средними
X_real = X_raw[X_raw.columns[~cat_features_mask]]
mis_replacer = impute.SimpleImputer(strategy="mean")
X_no_mis_real = pd.DataFrame(data=mis_replacer.fit_transform(X_real), columns=X_real.columns)
# для категориальных - строкой "нет данных"
X_cat = X_raw[X_raw.columns[cat_features_mask]].fillna("нет данных")
X_no_mis = pd.concat([X_no_mis_real, X_cat], axis=1)

In [411]:
X_no_mis.head()

Unnamed: 0,0,1,9,10,11,12,13,16,18,19,...,2,3,4,5,6,7,8,14,15,17
0,3.0,122.0,88.6,168.8,64.1,48.8,2548.0,130.0,3.47,2.68,...,alfa-romero,gas,std,two,convertible,rwd,front,dohc,four,mpfi
1,3.0,122.0,88.6,168.8,64.1,48.8,2548.0,130.0,3.47,2.68,...,alfa-romero,gas,std,two,convertible,rwd,front,dohc,four,mpfi
2,1.0,122.0,94.5,171.2,65.5,52.4,2823.0,152.0,2.68,3.47,...,alfa-romero,gas,std,two,hatchback,rwd,front,ohcv,six,mpfi
3,2.0,164.0,99.8,176.6,66.2,54.3,2337.0,109.0,3.19,3.4,...,audi,gas,std,four,sedan,fwd,front,ohc,four,mpfi
4,2.0,164.0,99.4,176.6,66.4,54.3,2824.0,136.0,3.19,3.4,...,audi,gas,std,four,sedan,4wd,front,ohc,five,mpfi


### Преобразование нечисловых признаков
Практически все методы машинного обучения требуют, чтобы на вход функции обучения подавалась вещественная матрица. В процессе обучения используются свойства вещественных чисел, в частности, возможность сравнения и применения арифметических операций. Поэтому, даже если формально в матрице объекты-признаки записаны числовые значения, нужно всегда анализировать, можно ли относиться к ним как к числам. 

__Пример:__ некоторые признаки могут задаваться целочисленными хешами или id (например, id пользователя соц. сети), однако нельзя сложить двух пользователей и получить третьего, исходя из их id (как это может сделать линейная модель).

К категориальным признакам обычно применяют бинарное кодирование - [one-hot encoding](http://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features) (вместо одного признака создается $K$ бинарных признаков - по одному на каждое возможное значение исходного признака). В **sklearn** это можно сделать с помощью классов **LabelEncoder** + **OneHotEncoding**, но проще использовать функцию **pd.get_dummies**.

Следует заметить, что в новой матрице будет очень много нулевых значений. Чтобы не хранить их в памяти, можно задать параметр **OneHotEncoder(sparse = True)** или **.get_dummies(sparse=True)**, и метод вернет [разреженную матрицу](http://docs.scipy.org/doc/scipy/reference/sparse.html), в которой хранятся только ненулевые значения. Выполнение некоторых операций с такой матрицей может быть неэффективным, однако большинство методов **sklearn** умеют работать с разреженными матрицами.

In [412]:
X_no_mis.shape

(205, 25)

In [413]:
# Сохранение индексов категориальных столбцов в датафрейме, полученном после заполнения пропусков
lst_cat = X_no_mis.columns[X_no_mis.dtypes == "object"]
lst_cat

Int64Index([2, 3, 4, 5, 6, 7, 8, 14, 15, 17], dtype='int64')

In [414]:
# Вывод уникальных значений в категориальных столбцах (для последующего сопоставления с бинарными признаками, сформированными методом pd.get_dummies)
for el in lst_cat:
    print('Значения в столбце', el, ':')
    print(X_no_mis[el].unique(), '\n')

Значения в столбце 2 :
['alfa-romero' 'audi' 'bmw' 'chevrolet' 'dodge' 'honda' 'isuzu' 'jaguar'
 'mazda' 'mercedes-benz' 'mercury' 'mitsubishi' 'nissan' 'peugot'
 'plymouth' 'porsche' 'renault' 'saab' 'subaru' 'toyota' 'volkswagen'
 'volvo'] 

Значения в столбце 3 :
['gas' 'diesel'] 

Значения в столбце 4 :
['std' 'turbo'] 

Значения в столбце 5 :
['two' 'four' 'нет данных'] 

Значения в столбце 6 :
['convertible' 'hatchback' 'sedan' 'wagon' 'hardtop'] 

Значения в столбце 7 :
['rwd' 'fwd' '4wd'] 

Значения в столбце 8 :
['front' 'rear'] 

Значения в столбце 14 :
['dohc' 'ohcv' 'ohc' 'l' 'rotor' 'ohcf' 'dohcv'] 

Значения в столбце 15 :
['four' 'six' 'five' 'three' 'twelve' 'two' 'eight'] 

Значения в столбце 17 :
['mpfi' '2bbl' 'mfi' '1bbl' 'spfi' '4bbl' 'idi' 'spdi'] 



In [415]:
# Бинарое кодирование категориальных признаков
X_dum = pd.get_dummies(X_no_mis, drop_first=False, columns=lst_cat)
print(X_dum.shape)
X_dum.head()

(205, 76)


Unnamed: 0,0,1,9,10,11,12,13,16,18,19,...,15_twelve,15_two,17_1bbl,17_2bbl,17_4bbl,17_idi,17_mfi,17_mpfi,17_spdi,17_spfi
0,3.0,122.0,88.6,168.8,64.1,48.8,2548.0,130.0,3.47,2.68,...,0,0,0,0,0,0,0,1,0,0
1,3.0,122.0,88.6,168.8,64.1,48.8,2548.0,130.0,3.47,2.68,...,0,0,0,0,0,0,0,1,0,0
2,1.0,122.0,94.5,171.2,65.5,52.4,2823.0,152.0,2.68,3.47,...,0,0,0,0,0,0,0,1,0,0
3,2.0,164.0,99.8,176.6,66.2,54.3,2337.0,109.0,3.19,3.4,...,0,0,0,0,0,0,0,1,0,0
4,2.0,164.0,99.4,176.6,66.4,54.3,2824.0,136.0,3.19,3.4,...,0,0,0,0,0,0,0,1,0,0


In [416]:
# Вывод столбцов набора со сформированными бинарными признаками
X_dum.columns

Index([                0,                 1,                 9,
                      10,                11,                12,
                      13,                16,                18,
                      19,                20,                21,
                      22,                23,                24,
         '2_alfa-romero',          '2_audi',           '2_bmw',
           '2_chevrolet',         '2_dodge',         '2_honda',
               '2_isuzu',        '2_jaguar',         '2_mazda',
       '2_mercedes-benz',       '2_mercury',    '2_mitsubishi',
              '2_nissan',        '2_peugot',      '2_plymouth',
             '2_porsche',       '2_renault',          '2_saab',
              '2_subaru',        '2_toyota',    '2_volkswagen',
               '2_volvo',        '3_diesel',           '3_gas',
                 '4_std',         '4_turbo',          '5_four',
                 '5_two',    '5_нет данных',   '6_convertible',
             '6_hardtop',     '6_hatchba

Помимо категориальных, преобразования требуют, например, строковые признаки. 

Их можно превращать в матрицу частот слов [CountVectorizer](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer), матрицу частот буквосочетаний фиксированной длины, можно извлекать другие признаки (например, длину строки).

### Масштабирование признаков
Количественные признаки рекомендуется приводить к одному масштабу. Это важно для численной устойчивости при работе с матрицей объекты-признаки. 

Кроме того, у каждого метода машинного обучения есть свои особенности, требующие масштабирования признаков. Например, для линейных моделей - это ускорение обучения и повышение интерпретируемости модели.

Для реализации масштабирования в **sklearn** имеются классы **StandardScaler**, **MinMaxScaler**, **RobustScaler** и **Normalizer** (рассматривались подробно в прошлом семестре).

Предобработка данных в **sklearn** реализована по тому же шаблону, что и обучение моделей: функция **fit(X)** вычисляет и сохраняет внутренние переменные (параметры масштабирования), а функция **transform(X)** выполняет преобразование выборки с использованием этих переменных. Функция **fit_transform(X)** выполняет оба действия (вычислет параметры масштабирования и преобразует набор данных с использованием этих параметров).

In [417]:
norm = preprocessing.MinMaxScaler()
X_real_norm_np = norm.fit_transform(X_dum)
X = pd.DataFrame(data=X_real_norm_np)



In [418]:
X.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,66,67,68,69,70,71,72,73,74,75
0,1.0,0.298429,0.058309,0.413433,0.316667,0.083333,0.411171,0.260377,0.664286,0.290476,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
1,1.0,0.298429,0.058309,0.413433,0.316667,0.083333,0.411171,0.260377,0.664286,0.290476,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
2,0.6,0.298429,0.230321,0.449254,0.433333,0.383333,0.517843,0.343396,0.1,0.666667,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
3,0.8,0.518325,0.38484,0.529851,0.491667,0.541667,0.329325,0.181132,0.464286,0.633333,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
4,0.8,0.518325,0.373178,0.529851,0.508333,0.541667,0.518231,0.283019,0.464286,0.633333,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


## Задание

Реализовать класс **Norm** для масштабирования количественных данных.

- **Вариант 1** - нормализация вектора признаков;
- **вариант 2** - стандартизация;
- **вариант 3** - масштабирование на отрезок от 0 до 1.

Параметров у класса нет, поэтому функцию **\__init\__** можно не использовать. Функция **fit** по обучающей выборке вычисляет необходимые статистики, а функция **tranform** выполняет преобразование набора.

### Задание дополнительное.

Реализовать класс для масштабирования количественных данных с возможностью задания метода масштабирования (с помощью параметра).

In [419]:
# Код - создание класса Norm

Создать случайные данные X и y для тестирования класса:

In [420]:
import numpy as np

num_obj_train = 20
num_obj_test = 10
num_feat = 4
X_tr = np.random.randint(-5, 5, size=(num_obj_train, num_feat))
X_tr.shape

(20, 4)

In [421]:
X_te = np.random.randint(-5, 5, size=(num_obj_test, num_feat))
X_te.shape

(10, 4)

In [422]:
X_tr

array([[ 3,  1,  2,  2],
       [-4, -3, -5, -5],
       [ 4,  1, -5,  2],
       [-3,  4,  3,  4],
       [ 0,  3, -1, -3],
       [-5, -1,  3, -5],
       [-2,  4,  1, -5],
       [-3, -5,  0, -4],
       [-2,  3,  2,  3],
       [ 1,  2, -2, -2],
       [-2,  0, -4, -1],
       [ 2, -4, -2,  4],
       [-2, -2,  2, -1],
       [ 0,  1, -1, -3],
       [-2, -5,  1,  2],
       [ 0, -3,  1, -2],
       [ 3, -1,  3,  1],
       [ 3,  3, -3, -1],
       [-2,  3, -2,  4],
       [-3, -4, -1, -5]])

In [423]:
from abc import ABC, abstractmethod
from numpy.linalg import norm

class Scaler(ABC):

    @abstractmethod
    def fit(self, x: np.array):
        pass

    @abstractmethod
    def transform(self, x: np.array):
        pass

class Normalizer(Scaler):
    # евклидова норма
    __l2_norm = 0

    def fit(self, x: np.array):
        # np.sqrt(np.power(x, 2).sum(axis=0))
        self.__l2_norm = norm(x)

    def transform(self, x: np.array):
        return x/self.__l2_norm

class StandardScaler(Scaler):
    __mean = 0
    __std = 1

    def fit(self, x: np.array):
        self.__mean = x.mean()
        self.__std = x.mean()

    def transform(self, x: np.array):
        return (x - self.__mean) / self.__std

class MinMaxScaler(Scaler):
    __min = 0
    __max = 0

    def fit(self, x: np.array):
        self.__min = np.min(x)
        self.__max = np.max(x)

    def transform(self, x: np.array):
        return (x - self.__min) / (self.__max - self.__min)

class Norm(Scaler):
    class ScalerType:
        normalizer = "normalizer"
        standard = "standard"
        min_max = "min_max"

    __scaler: Scaler

    def __init__(self, type: ScalerType = ScalerType.standard):
        if type == Norm.ScalerType.normalizer:
            self.__scaler = Normalizer()
        elif type == Norm.ScalerType.min_max:
            self.__scaler = MinMaxScaler()
        else:
            self.__scaler = StandardScaler()

    def fit(self, x: np.array):
        return self.__scaler.fit(x=x)

    def transform(self, x: np.array):
        return self.__scaler.transform(x=x)

In [424]:
normalizer = Norm(type=Norm.ScalerType.min_max)
normalizer.fit(X_tr)
X_tr_transformed = normalizer.transform(X_tr)
X_te_transformed = normalizer.transform(X_te)
# print(np.array(X_te_transformed).mean())
# print(np.array(X_te_transformed).std())

**fit** нужно вызывать именно на обучающих данных, чтобы ничего не подсмотреть в контрольной выборке. А **transform** можно вызывать много раз для любых выборок (с уже вычисленными статистиками, которые хранятся внутри класса).

In [425]:
X_tr_transformed

array([[0.88888889, 0.66666667, 0.77777778, 0.77777778],
       [0.11111111, 0.22222222, 0.        , 0.        ],
       [1.        , 0.66666667, 0.        , 0.77777778],
       [0.22222222, 1.        , 0.88888889, 1.        ],
       [0.55555556, 0.88888889, 0.44444444, 0.22222222],
       [0.        , 0.44444444, 0.88888889, 0.        ],
       [0.33333333, 1.        , 0.66666667, 0.        ],
       [0.22222222, 0.        , 0.55555556, 0.11111111],
       [0.33333333, 0.88888889, 0.77777778, 0.88888889],
       [0.66666667, 0.77777778, 0.33333333, 0.33333333],
       [0.33333333, 0.55555556, 0.11111111, 0.44444444],
       [0.77777778, 0.11111111, 0.33333333, 1.        ],
       [0.33333333, 0.33333333, 0.77777778, 0.44444444],
       [0.55555556, 0.66666667, 0.44444444, 0.22222222],
       [0.33333333, 0.        , 0.66666667, 0.77777778],
       [0.55555556, 0.22222222, 0.66666667, 0.33333333],
       [0.88888889, 0.44444444, 0.88888889, 0.66666667],
       [0.88888889, 0.88888889,