# Нормализация данных и удаление данных

In [1]:
import pandas as pd
import numpy as np

In [2]:
test_data = pd.DataFrame([[1, 2, np.nan], [3, np.nan, 417], 
                          [0, 10, -212]], columns=['one', 'two', 'three'])

In [3]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,
1,3,,417.0
2,0,10.0,-212.0


## Нормализация: теория

Некоторые алгоритмы обращают внимание на масштаб переменных - это помогает алгоритму (например, градиентному спуску) лучше сходиться. Для этого нужно делать нормализацию данных - приведение переменных к одному масштабу.  
Кроме этого, если есть несколько наборов данных одной природы, но разного размера, их нужно нормализовать, чтобы иметь возможность сравнить влияние каких-то других признаков.  
Несмотря на то, что некоторые алгоритмы работают независимо от масштаба признаков, хуже от нормализации обычно не становится.  
Когда мы говорим о нормализации, мы говорим о числах.   
Мы посмотрим на работу методов нормализации из библиотеки `sklearn`. На вход будем подавать `pandas.DataFrame`, на выходе будем получать `np.ndarray`. Информация о структуре `pandas`-таблицы теряется.

## minmax нормализация

Одним из стандартных способов нормализации является `minmax` нормализация.  
Данный вид нормализации приводит независимо каждый признак к значению между 0 и 1.  
Как это работает? Для каждого признака алгоритм находит минимальное ($x_{min}$) и максимальное ($x_{max}$) значение, после этого признак `x` трансформируется в $$x := \frac{x - x_{min}}{x_{max} - x_{min}}$$

In [4]:
test_data = test_data.fillna(0)

In [5]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,0.0
1,3,0.0,417.0
2,0,10.0,-212.0


In [6]:
from sklearn.preprocessing import MinMaxScaler

In [7]:
scaler = MinMaxScaler()
scaler.fit_transform(test_data)

array([[0.33333333, 0.2       , 0.33704293],
       [1.        , 0.        , 1.        ],
       [0.        , 1.        , 0.        ]])

## std нормализация (стандартная нормализация)

`std` нормализация (иначе называется `стандартная нормализация` или `zero mean, unit variance`) - еще один вид нормализации признаков.  
Как он работает? Для каждого признака алгоритм независимо находит среднее значение ($x_{mean}$) и стандартное отклонение ($x_{std}$), после этого признак `x` трансформируется в $$x := \frac{x - x_{mean}}{x_{std}}$$

In [8]:
from sklearn.preprocessing import StandardScaler

In [9]:
scaler = StandardScaler()
scaler.fit_transform(test_data)

array([[-0.26726124, -0.46291005, -0.26151831],
       [ 1.33630621, -0.9258201 ,  1.33438124],
       [-1.06904497,  1.38873015, -1.07286293]])

`MinMaxScaler` и `StandardScaler` сохраняют параметры, с которыми проводит нормализацию. Это значит, что после нормализации признаков в тренировочной выборке нужно будет применить ту же нормализацию с валидационными и тестовыми данными. Про валидацию мы поговорим позже.

## Удаление ненужных строк и столбцов

Иногда в данных находятся признаки (столбцы), которые не несут никакой полезной информации или были считаны по ошибке.  
Их можно можно удалить с помощью метода `.drop(column_names, axis=1)`. В `columns` необходимо передать или название признака (столбца), или список названий признаков (столбцов):

In [10]:
test_data

Unnamed: 0,one,two,three
0,1,2.0,0.0
1,3,0.0,417.0
2,0,10.0,-212.0


In [11]:
test_data.drop('one', axis=1)

Unnamed: 0,two,three
0,2.0,0.0
1,0.0,417.0
2,10.0,-212.0


In [13]:
test_data.drop(['one', 'three'], axis=1)

Unnamed: 0,two
0,2.0
1,0.0
2,10.0


Если в предыдущем методе в параметр `axis` передавать `0`, метод будет удалять строки с номерами, которые вы передадите (или один номер, или список номеров):

In [14]:
test_data.drop(0, axis=0)

Unnamed: 0,one,two,three
1,3,0.0,417.0
2,0,10.0,-212.0


In [15]:
test_data.drop([0, 2], axis=0)

Unnamed: 0,one,two,three
1,3,0.0,417.0
