# Основы разработки под sklearn
---
С.Ю. Папулин (papulin.study@yandex.ru)

### Содержание

- [Общие сведения](#Общие-сведения)
- [Реализация модели предсказания](#Реализация-модели-предсказания)
- [Реализация транформации](#Реализация-транформации)
- [Применение `Pipeline`](#Применение-Pipeline)
- [Источники](#Источники)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## Общие сведения

Объекты `sklearn`:
- **Estimator**: `fit` и `partial_fit` (дообучение)
- **Predictor**: `predict` + для классификации дополнительно `decision_function` и/или `predict_proba`
- **Transformer**: `transform` и `fit_transform`
- **Model**: `score`

Аргументы методов:
- `fit(X, y, **kwargs) -> self`
- `partial_fit(X, y, **kwargs) -> self`
- `score(X, y, **kwargs) -> float`
- `set_params(*args, **kwargs)` и `get_params(deep=True) -> dict`
- `transform(X, **kwargs) -> X_t`
- `fit_transform(X, y, **kwargs) -> X_t`

`X` - массив размера (n_samples, n_features), `y` - массив размера (n_samples,)

Результат оценки (обучения):
- `coef_`, `idf_` и пр.

Перезаписываются каждый раз после вызова `fit`

## Реализация модели предсказания

In [None]:
from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.utils.validation import check_X_y, check_array, check_is_fitted

In [None]:
help(BaseEstimator)

In [None]:
help(RegressorMixin)

In [None]:
class CustomLinearRegression(RegressorMixin, BaseEstimator):
    
    def __init__(self, method='ols'):
        self.method = method
    
    def fit(self, X, y):
        X, y = check_X_y(X, y)
        # TODO: change X a bit
        X_ = X
        try:
            self.coef_ = np.linalg.inv(X_.T @ X_) @ X_.T @ y
        except:
            raise ValueError
        return self
    
    def predict(self, X):
        check_is_fitted(self, 'coef_')
        X = check_array(X)
        # TODO: change X a bit
        X_ = X
        return X_ @ self.coef_

Доступ к параметрам

In [None]:
model = CustomLinearRegression()
model.get_params(deep=True)

In [None]:
model.set_params(method='gd')

Проверка на совместимость с `sklearn`

In [None]:
from sklearn.utils.estimator_checks import check_estimator
from sklearn.base import is_regressor 

In [None]:
check_estimator(CustomLinearRegression())

In [None]:
# Note: Based on _estimator_type
is_regressor(CustomLinearRegression())

Совместимые с `sklearn` объекты можно использовать в `GridSearchCV` для выбора моделей и в `Pipeline` для организации последовательности обработки данных.

### Пример

In [None]:
def generate_data(n=100, start_x=4, length_x=8, mu=0, sigma=0.5):
    from scipy import stats
    f = lambda x: 2 + 0.3*x
    x = stats.uniform.rvs(size=n, loc=start_x, scale=length_x)
    e = stats.norm.rvs(size=n, loc=mu, scale=sigma)
    return x.reshape(-1,1), f(x) + e

In [None]:
X, y = generate_data()

In [None]:
plt.figure(1, figsize=[4, 4])

plt.subplot(1,1,1)
plt.scatter(X[:,0], y, color="green", label="Sample", zorder=2)
plt.legend()
plt.xlabel("$x$")
plt.ylabel("$f(x)$")
plt.grid(True)

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10)
X_train[:5], y_train[:5]

In [None]:
model = CustomLinearRegression()

In [None]:
model.fit(X_train, y_train)

In [None]:
"""
TODO: 
 - fit on train, 
 - score on test, 
 - show coef_
 - plot regression line
"""

## Реализация транформации

In [None]:
class CustomStandardTransformer():
    
    def __init__(self):
        pass
    
    def fit():
        pass
    
    def fit_transform():
        pass
    
    def transform():
        pass

## Применение Pipeline

In [None]:
from sklearn.pipeline import Pipeline

In [None]:
pipeline = Pipeline([
    ("standartizer", CustomStandardTransformer()),
    ("regressor", CustomLinearRegression(method='gd'))
])

"""
TODO: 
 - fit on train, 
 - score on test, 
 - show coef_
 - plot regression line
"""

## Источники

- [Developing scikit-learn estimators](https://scikit-learn.org/stable/developers/develop.html)
- [Utilities for Developers](https://scikit-learn.org/stable/developers/utilities.html#developers-utils)
- [Glossary of Common Terms and API Elements](https://scikit-learn.org/stable/glossary.html#glossary)
- [A template for scikit-learn contributions](https://github.com/scikit-learn-contrib/project-template)