Практика

In [1]:
import pandas as pd
import numpy as np

In [2]:
test_data = pd.DataFrame([[1, 2, np.nan], [3, np.nan, 4], 
                          [0, 1, 2]], columns=['one', 'two', 'three'])

In [3]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,
1,3,,4.0
2,0,1.0,2.0


## Нормализация: теория

Некоторые алгоритмы обращают внимание на масштаб переменных - это помогает алгоритму (например, градиентному спуску) лучше сходиться. Для этого нужно делать нормализацию данных - приведение переменных к одному масштабу.  
Кроме этого, если есть несколько наборов данных одной природы, но разного размера, их нужно нормализовать, чтобы иметь возможность сравнить влияние каких-то других признаков.  
Несмотря на то, что некоторые алгоритмы работают независимо от масштаба признаков, хуже от нормализации обычно не становится.  
Когда мы говорим о нормализации, мы говорим о числах.   
Мы посмотрим на работу методов нормализации из библиотеки `sklearn`. На вход будем подавать `pandas.DataFrame`, на выходе будем получать `np.ndarray`. Информация о структуре `pandas`-таблицы теряется.

## minmax нормализация

Одним из стандартных способов нормализации является `minmax` нормализация.  
Данный вид нормализации приводит независимо каждый признак к значению между 0 и 1.  
Как это работает? Для каждого признака алгоритм находит минимальное ($x_{min}$) и максимальное ($x_{max}$) значение, после этого признак `x` трансформируется в $$x := \frac{x - x_{min}}{x_{max} - x_{min}}$$

In [6]:
test_data = test_data.fillna(0)

In [7]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,0.0
1,3,0.0,4.0
2,0,1.0,2.0


In [8]:
from sklearn.preprocessing import MinMaxScaler

In [9]:
scaler = MinMaxScaler()
scaler.fit_transform(test_data)

array([[0.33333333, 1.        , 0.        ],
       [1.        , 0.        , 1.        ],
       [0.        , 0.5       , 0.5       ]])

## std нормализация (стандартная нормализация)

`std` нормализация (иначе называется `стандартная нормализация` или `zero mean, unit variance`) - еще один вид нормализации признаков.  
Как он работает? Для каждого признака алгоритм независимо находит среднее значение ($x_{mean}$) и стандартное отклонение ($x_{std}$), после этого признак `x` трансформируется в $$x := \frac{x - x_{mean}}{x_{std}}$$

In [15]:
from sklearn.preprocessing import StandardScaler

In [16]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,0.0
1,3,0.0,4.0
2,0,1.0,2.0


In [19]:
scaler = StandardScaler()
scaler.fit_transform(test_data)

array([[-0.26726124,  1.22474487, -1.22474487],
       [ 1.33630621, -1.22474487,  1.22474487],
       [-1.06904497,  0.        ,  0.        ]])

`MinMaxScaler` и `StandardScaler` сохраняют параметры, с которыми проводит нормализацию. Это значит, что после нормализации признаков в тренировочной выборке нужно будет применить ту же нормализацию с валидационными и тестовыми данными. Про валидацию мы поговорим позже.

## Удаление ненужных строк и столбцов

Иногда в данных находятся признаки (столбцы), которые не несут никакой полезной информации или были считаны по ошибке.  
Их можно можно удалить с помощью метода `.drop(column_names, axis=1)`. В `columns` необходимо передать или название признака (столбца), или список названий признаков (столбцов):

In [20]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,0.0
1,3,0.0,4.0
2,0,1.0,2.0


In [21]:
test_data.drop('one', axis=1)

Unnamed: 0,two,three
0,2.0,0.0
1,0.0,4.0
2,1.0,2.0


In [22]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,0.0
1,3,0.0,4.0
2,0,1.0,2.0


In [25]:
test_data.drop(['one', 'two' ], axis=1)

Unnamed: 0,three
0,0.0
1,4.0
2,2.0


In [26]:
test_data.drop(0, axis=0)

Unnamed: 0,one,two,three
1,3,0.0,4.0
2,0,1.0,2.0


In [28]:
test_data.drop([0, 2], axis=0)

Unnamed: 0,one,two,three
1,3,0.0,4.0
