# <div style="padding: 30px;color:white;margin:10;font-size:60%;text-align:left;display:fill;border-radius:10px;background-color:#FFFFFF;overflow:hidden;background-color:#15C3BA"><b><span style='color:#FFFFFF'>(7/14) |</span></b> <b>Начальная обработка</b></div>    
    
- Некоторые алгоритмы **чувствительны к масштабу признаков**: если масштаб разный — алгоритмы хуже сходятся к оптимальным значениям. 
- Один из способов обработки данных — нормализация — процесс приведения данных к одному масштабу, обеспечивает лучшие условия выборки, изменения, удаления данных.

- Необходимость нормализации данных объясняется сутью используемых алгоритмов и математических моделей. Из-за того, что данные могут описывать совершенно разные явления и показатели, их значения могут различаться в несколько порядков. Например, представим, что в датасете о физических данных человека есть одновременно его вес в граммах и концентрация глюкозы в крови (которая выражается в тысячных). Или, к примеру, мы изучаем состояние экологии города и получаем данные сразу о концентрации вредного вещества (в тысячных процента) и о давлении (в сто тысяч паскалей). Тогда наши значения признаков будут отличаться в миллионы (или даже десятки миллионов раз!). К сожалению, работа математических моделей на таких данных даст нерелевантные результаты, и окажется просто бесполезной. Это происходит по той причине, что большинство методов чувствительны к диапазону входных данных и крайне желательно, чтобы он был как можно меньше. То есть, чтобы все признаки были приведены к некоторой единой системе.
    
Базовые методы нормализации:

- MinMax нормализация — приведение данных к масштабу между 0 и 1.
- Стандартная нормализация — данные имеют среднее 0 и стандартное отклонение 1.
- Иногда данные лучше удалить, если они не несут пользы. Например, столбец считался по ошибке и содержит мусор, или признак не и

<br>    
    
## Задание
    
### <b>Задание <span style='color:#F1A424'>2.7.1</span></b> 

Что такое нормализация данных?    
    
- Процесс приведения данных к одному масштабу

### <b>Задание <span style='color:#F1A424'>2.7.2</span></b>     
    
Выберите методы нормализации:
    
- MinMax
- Стандартная
    
### <b>Задание <span style='color:#F1A424'>2.7.3</span></b>
    
В каком случае лучше просто удалить данные, чем как-либо их обрабатывать?
 
- Признак не несёт полезной информации

# <div style="padding: 30px;color:white;margin:10;font-size:60%;text-align:left;display:fill;border-radius:10px;background-color:#FFFFFF;overflow:hidden;background-color:#15C3BA"><b><span style='color:#FFFFFF'>(8/14) |</span></b> <b>Практика</b></div>    

        
Один из стандартных способов нормализации — minmax нормализация, **которая приводит независимо каждый признак** к значению между 0 и 1. Для каждого признака мы находим минимальное и максимальное значение, из всех значений вычитаем минимальное значение и делим это на разницу между максимальным и минимальным значениями.

In [None]:
# from sklearn.preprocessing import MinMaxScaler
# scaler = MinMaxScaler()
# scaler.fit_transform(test_data)

Ещё один вид нормализации — std нормализация. Мы находим **среднее значение для признака**, затем **стандартное отклонение**, из каждого значения в текущем признаке вычитаем среднее значение для всего признака и делим на стандартное отклонение.

In [1]:
# from sklearn.preprocessing import StandardScaler
# scaler = StandardScaler()
# scaler.fit_transform(test_data)

NameError: name 'test_data' is not defined

- **MinMaxScaler** и **StandardScaler** сохраняют параметры, с которыми проводят нормализацию. 
- Поэтому после нормализации признаков в тренировочной выборке нужно будет применить ту же нормализацию с валидационными и тестовыми данными.

Если признаки не несут важной информации или попали в набор данных по ошибке, для их удаления можно применять метод .drop ().

In [1]:
# test_data.drop('one', axis=1)

- Функция **RobustScaler()** подобна известным вам методам нормализации, однако **использует медианы и квантили для вычисления**, поэтому не **чувствительна к выбросам** и может приводить к лучшим результатам. 
- Данная функция нам понадобится при выполнении задания 3.5.1 (Юнит модуля "3A.5 Линейная регрессия. Предобработка").

<br>    

### <b>Задание <span style='color:#15C3BA'>2.8.1</span></b> 

К какому типу данных приводит нормализация признаков с помощью StandartScaler из sklearn?

np.ndarray

### <b>Задание <span style='color:#15C3BA'>2.8.2</span> </b > 

Какая нормализация возвращает массив преобразованных значений от 0 до 1?

MinMax

### <b>Задание <span style='color:#15C3BA'>2.8.3</span></b> 

Загрузите данные train.csv, найдите признак, обозначающий баланс. Нормализуйте признак с помощью std-нормализации. В качестве ответа укажите минимальное значение в получившемся нормализованном признаке.


In [2]:
import pandas as pd

vis_data = pd.read_csv("train.csv", 
                        encoding = 'ISO-8859-1',
                        low_memory = False)
print(vis_data.columns)

Index(['ticket_id', 'agency_name', 'inspector_name', 'violator_name',
       'violation_street_number', 'violation_street_name',
       'violation_zip_code', 'mailing_address_str_number',
       'mailing_address_str_name', 'city', 'state', 'zip_code',
       'non_us_str_code', 'country', 'ticket_issued_date', 'hearing_date',
       'violation_code', 'violation_description', 'disposition', 'fine_amount',
       'admin_fee', 'state_fee', 'late_fee', 'discount_amount',
       'clean_up_cost', 'judgment_amount', 'payment_amount', 'balance_due',
       'payment_date', 'payment_status', 'collection_status',
       'grafitti_status', 'compliance_detail', 'compliance'],
      dtype='object')


In [3]:
feature = vis_data['balance_due']
feature

0         305.0
1          75.0
2           0.0
3           0.0
4           0.0
          ...  
250301      0.0
250302      0.0
250303      0.0
250304      0.0
250305      0.0
Name: balance_due, Length: 250306, dtype: float64

In [6]:

from sklearn.preprocessing import StandardScaler

model = StandardScaler()
feature_scaled = model.fit_transform(feature[:,None])
print(feature_scaled.min())
# print(feature_scaled.describe())


-13.147334652567258
