In [2]:
import sklearn

sklearn.__version__

'0.20.3'

In [3]:
import numpy as np

В библиотеке `sklearn` реализованы почти все базовые методы машинного обучения. Для них предусмотрены специальные унифированные интерфейсы (и их копируют другие библиотеки). Большинство алгоритмов написаны достаточно эффективно. Кроме того, в `sklearn` содержит дополнительные утилиты, в частности, для предобработки данных и выбора модели.

## Предобработка данных

Модуль `sklearn.preprocessing`

https://scikit-learn.org/stable/modules/preprocessing.html

Далее всюду полагаем, что:
1. `X.ndim == 2`;
2. `X.shape = (n_objects, n_features)`.

In [3]:
class SklearnTransformerInterface:
    def __init__(self, **params):
        pass
    
    def fit(self, X, **params):
        # do some stuff: tune parameters on train
        return self
    
    def transform(self, X, **params):
        # do some stuff: apply transform on test
        return X_transformed
    
    def fit_transform(self, X, **params):
        self.fit(X)
        return self.transform(X)

### Преобразования масштаба

`MinMaxScaler` приводит значения в столбцах к отрезку `[0,1]` (признаки):

```python
assert X.ndim == 2

X_min = X.min(axis=0)[np.newaxis,:]
X_max = X.max(axis=0)[np.newaxis,:]

X_transformed = (X - X_min) / (X_max - X_min)
```

In [4]:
from sklearn.preprocessing import MinMaxScaler

In [1]:
np.random.seed(9872)

X = np.random.randint(0, 10, size=(5, 10))
X

NameError: name 'np' is not defined

In [6]:
scaler = MinMaxScaler(feature_range=(0, 1))

scaler.fit(X)
X_transformed = scaler.transform(X)

# same as: X_transformed = scaler.fit_transform(X)

In [7]:
X_transformed[:, [5, -1]]

array([[0.25 , 0.2  ],
       [0.   , 0.6  ],
       [1.   , 0.   ],
       [0.625, 1.   ],
       [0.   , 0.   ]])

In [8]:
X_copy = X.copy()
X_copy[-2, -1] = 10
X_copy

array([[ 9,  7,  9,  0,  1,  2,  2,  7,  4,  1],
       [ 0,  0,  0,  0,  5,  0,  3,  2,  1,  3],
       [ 8,  8,  9,  2,  7,  8,  9,  0,  3,  0],
       [ 4,  5,  6,  8,  3,  5,  7,  6,  0, 10],
       [ 7,  6,  3,  2,  5,  0,  3,  6,  6,  0]])

In [9]:
X_transformed = scaler.transform(X_copy)
X_transformed[:, [5, -1]]

array([[0.25 , 0.2  ],
       [0.   , 0.6  ],
       [1.   , 0.   ],
       [0.625, 2.   ],
       [0.   , 0.   ]])

`StandardScaler` стандартизирует значения в столбцах (признаки):

```python
assert X.ndim == 2

X_mean = X.mean(axis=0)[np.newaxis,:]
X_std  = X.std(axis=0)[np.newaxis,:]

X_transformed = (X - X_mean) / X_std
```

In [10]:
from sklearn.preprocessing import StandardScaler

In [11]:
scaler = StandardScaler(with_mean=True, with_std=True)
X_transformed = scaler.fit_transform(X)

In [12]:
X_transformed[:, [5, -1]]

array([[-0.32274861, -0.4125685 ],
       [-0.96824584,  0.61885275],
       [ 1.61374306, -0.92827912],
       [ 0.64549722,  1.65027399],
       [-0.96824584, -0.92827912]])

<span style="color:blue;font-weight:bold">Вопрос:</span> а зачем вообще нужны такие `scaler`-ы?

### Нормирование

`Normalizer` нормирует строки (объекты) по заданной норме:

```python
assert X.ndim == 2

# l2-norm
X_norm = X / np.power(X, 2).sum(axis=1)

# l1-norm
X_norm = X / np.abs(X).sum(axis=1)

# max-norm
X_norm = X / X.max(axis=1)
```

In [13]:
from sklearn.preprocessing import Normalizer

In [14]:
norm = Normalizer(norm='l2')
X_norm = norm.fit_transform(X)

In [15]:
np.power(X_norm, 2).sum(axis=1)

array([1., 1., 1., 1., 1.])

In [16]:
X_copy = X.copy()
X_copy[1, 2] = 100

X_norm = norm.transform(X_copy)

In [17]:
np.power(X_norm, 2).sum(axis=1)

array([1., 1., 1., 1., 1.])

<span style="color:blue;font-weight:bold">Вопрос:</span> почему `Normalizer` не нужен этап `fit`, в отличие от `Scaler`?

### Категориальные признаки

<img src="files/encoding.png" width="800px">

In [18]:
np.random.seed(9826)

data = np.random.choice(["Asia", "USA", "Europe"], size=10)
data = data.reshape(-1, 1)
data

array([['Europe'],
       ['Europe'],
       ['USA'],
       ['Asia'],
       ['Europe'],
       ['Asia'],
       ['Europe'],
       ['Europe'],
       ['Asia'],
       ['Europe']], dtype='<U6')

```LabelEncoder``` кодирует категориальные признаки порядковым набором чисел.

In [19]:
from sklearn.preprocessing import LabelEncoder

In [20]:
encoder = LabelEncoder()

encoder.fit_transform(data.ravel())

array([1, 1, 2, 0, 1, 0, 1, 1, 0, 1])

In [21]:
encoder.classes_

array(['Asia', 'Europe', 'USA'], dtype='<U6')

`OneHotEncoder` для каждого категориального значения создает отдельный столбец.

In [22]:
from sklearn.preprocessing import OneHotEncoder

In [23]:
encoder = OneHotEncoder(sparse=False)

encoder.fit_transform(data)

array([[0., 1., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.]])

<span style="color:blue;font-weight:bold">Вопрос:</span> чем onehot-кодирование лучше label-кодирования? В каких случаях label-кодирование может дать лучший результат?

### Понижение размерности

In [24]:
np.random.seed(9756)

X = np.random.random(size=(200, 5))
X[:, 3] = np.log(1 + np.abs(X[:, 2])) + np.log(1 + np.abs(X[:, 1]))
X[:, 4] = 5 * X[:, 2] - 2 * X[:, 3] + X[:, 1] ** 2

X.shape

(200, 5)

`PCA` – метод главных компонент (principal component analysis). Метод понижения размерности, основанный на `SVD`-разложении.

In [25]:
from sklearn.decomposition import PCA

In [26]:
pca = PCA(n_components=3)
X_transformed = pca.fit_transform(X)
X_transformed.shape

(200, 3)

In [27]:
pca.explained_variance_ratio_

array([0.83406879, 0.09305942, 0.07141035])

In [28]:
pca.explained_variance_ratio_.sum()

0.9985385564104098

`TruncatedSVD` – усечённое сингулярное разложение матрицы.

In [29]:
from sklearn.decomposition import TruncatedSVD

## Модели

Модули для задачи обучения с учителем:
* `sklearn.linear_model` – обощенная линенейная модель: `LinearRegression` и `LogisticRegression`;
* `sklearn.svm` – машина опорных векторов;
* `sklearn.tree` – деревья решений;
* `sklearn.neighbors` – метрические алгоритмы классификации и регрессии: `KNN`;
* `sklearn.naive_bayes` – наивный Байес;
* `sklearn.ensemble` – ансамбли моделей (в основном деревья);

и др.

Модули для обучения задач без учителя:
* `sklearn.mixture` –  EM-алгоритм для случая нормального распределения;
* `sklearn.manifold` – понижение размерности для задач визуализация: `TSNE`;
* `sklearn.cluster` –  кластеризация: `K-Means`, агломеративная кластеризация, `DBSCAN` и др.
* `sklearn.decomposition` – понижение размерности: `PCA`, `TruncatedSVD`;

и др.

Для задач обучения с учителем имеется общий интерфейс, который используют и другие библиотеки.

In [30]:
from sklearn.base import BaseEstimator, ClassifierMixin

class RandomClassifier(BaseEstimator, ClassifierMixin):
    def __init__(self, n_classes=2, seed=8888):
        self.n_classes = n_classes
        self.seed = seed
        
    def fit(self, X, y):
        """
        Does absolutely nothing 🤪
        """
        pass
        
    def predict_proba(self, X):
        """
        Method returns np.ndarray y:
            y.shape == (X.shape[0], n_classes)
        
        y satisfies:
            sum y[i, j] where j in {0..n_classes} = 1 
        """
        
        np.random.seed(self.seed)
        
        X = np.asarray(X)
        y = np.random.rand(X.shape[0], self.n_classes)
        y /= np.expand_dims(y.sum(axis=1), axis=1)
            
        return y
    
    def predict(self, X):
        """
        Method returns np.ndarray y:
            y.shape == (X.shape[0], )
        """
        return self.predict_proba(X).argmax(axis=1)

## Средства оценки и выбора модели

Модуль `sklearn.metrics` – метрики (оценка модели).

Модуль `sklearn.model_selection` – выбор модели.

### Метрики

In [31]:
def metric(y_true, y_pred, **params):
    score = 0
    # do some stuff
    return score

In [32]:
def any_in(a, any_):
    return any(v in a for v in any_)

list(filter(lambda s: any_in(s, {'score', 'error', 'loss'}), dir(sklearn.metrics)))

['accuracy_score',
 'adjusted_mutual_info_score',
 'adjusted_rand_score',
 'average_precision_score',
 'balanced_accuracy_score',
 'brier_score_loss',
 'calinski_harabasz_score',
 'calinski_harabaz_score',
 'cohen_kappa_score',
 'completeness_score',
 'consensus_score',
 'coverage_error',
 'davies_bouldin_score',
 'explained_variance_score',
 'f1_score',
 'fbeta_score',
 'fowlkes_mallows_score',
 'get_scorer',
 'hamming_loss',
 'hinge_loss',
 'homogeneity_score',
 'jaccard_score',
 'jaccard_similarity_score',
 'label_ranking_average_precision_score',
 'label_ranking_loss',
 'log_loss',
 'make_scorer',
 'max_error',
 'mean_absolute_error',
 'mean_squared_error',
 'mean_squared_log_error',
 'median_absolute_error',
 'mutual_info_score',
 'normalized_mutual_info_score',
 'precision_recall_fscore_support',
 'precision_score',
 'r2_score',
 'recall_score',
 'roc_auc_score',
 'scorer',
 'silhouette_score',
 'v_measure_score',
 'zero_one_loss']

In [33]:
from sklearn.metrics import roc_auc_score

### Разбиение выборки на обучающую и проверочную

In [34]:
np.random.seed(9845)

X = np.random.random(size=(200, 10))
y = np.random.randint(0, 2, size=X.shape[0])

X.shape, y.shape

((200, 10), (200,))

До этого мы делали так...

In [35]:
np.random.seed(9852)

thrsh = 0.7
index = np.random.permutation(X.shape[0])
thrsh = int(thrsh * index.shape[0])

index_train, index_test = index[:thrsh], index[thrsh:]

X_train, X_test = X[index_train], X[index_test]
X_train.shape, X_test.shape

((140, 10), (60, 10))

... а теперь можно делать так:

In [36]:
from sklearn.model_selection import train_test_split

X_train, X_test = train_test_split(X, train_size=0.7, random_state=9852)
X_train.shape, X_test.shape

((140, 10), (60, 10))

### Перекрестная проверка (кросс-валидация)

<img src="files/cross_val.png" width="400px">

In [37]:
from sklearn.model_selection import KFold

In [38]:
kf = KFold(n_splits=4, shuffle=True, random_state=9657)

scores = []

for index_train, index_valid in kf.split(X):
    X_train, y_train = X[index_train], y[index_train]
    X_valid, y_valid = X[index_valid], y[index_valid]
    
    cls = RandomClassifier(seed=5426)
    cls.fit(X_train, y_train)
    y_pred = cls.predict(X_valid)
    
    score = roc_auc_score(y_valid, y_pred)
    scores.append(score)
    
scores

[0.5801282051282051,
 0.4363327674023769,
 0.5833333333333333,
 0.43842364532019706]

То же самое можно делать в один вызов.

In [39]:
from sklearn.model_selection import cross_val_score

cross_val_score(RandomClassifier(seed=5426), X, y, scoring='roc_auc', cv=4)

array([0.5787037 , 0.46141975, 0.40635452, 0.51170569])