# Методы предобработки данных
---

**Предобработка** — это общий термин для всех манипуляций, производимых с данными перед передачей их модели.

Для корректной и эффективной работы нейросети, необходимо подготовить данные которые будут отправлены в неё.



## Фильтрация данных
---
В некоторых случаях не все данные в наборе данных важны для анализа. Один из подходов для удаления ненужных данных — фильтрация. Если имеются данные в которых нет необходимости при обучении нейросети, то они могут быть удалены на этапе предобработки для облегчения обучения модели. 

При недостаточном наборе данных для качественного глубокого обучения модели можно добавить в набор данных измененные образцы уже существующих данных.  
**Пример**: вариант трансформации изображения при нехватке данных (если данные представлены изображениями).  
![](https://hsto.org/r/w1560/webt/l-/qv/i5/l-qvi5bbsdqfjdcfheqqzjhrpzu.jpeg)

## Использование нормализаторов
---
**Нормализация** — это метод предварительной обработки данных, используемый для масштабирования функций в одном диапазоне (обычно от 0 до 1), чтобы их можно было более точно обрабатывать с помощью алгоритма машинного обучения.  
**Например**, диапазоны возраста и дохода, могут существенно различаться: возраст, как правило, задается в диапазоне от 0 до 100, а доход, как правило, в диапазоне от нуля до нескольких тысяч. 

Все данные, которые поступят в модель, не должны зависеть от едениц измерения величин. Поэтому необходимо привести данные к единому масштабу. В глубоких нейронных сетях может потребоваться ограничить входные данные диапазоном от 0 до 1 из-за возможного переполнения, вопросов оптимизации, стабильности и т. п.

### L1 Нормализация
---
Данный метод нормализации изменяет значения набора данных таким образом, чтобы в каждой строке сумма абсолютных значений всегда была до 1. Это также называется наименьшими абсолютными отклонениями.

In [None]:
import numpy as np
from sklearn import preprocessing

x = np.array([[2,3,5],
              [4,5,2],
              [8,7,6]])
norm = preprocessing.Normalizer(norm='l1').fit(x)
norm.transform(x)

array([[0.2       , 0.3       , 0.5       ],
       [0.36363636, 0.45454545, 0.18181818],
       [0.38095238, 0.33333333, 0.28571429]])

### L2 нормализация
---
Данный метод нормализации изменяет значения набора данных таким образом, чтобы в каждой строке сумма квадратов всегда была до 1. Это также называется методом наименьших квадратов.

In [None]:
import numpy as np
from sklearn import preprocessing

x = np.array([[2,3,5],
              [4,5,4],
              [8,7,6]])
norm = preprocessing.Normalizer(norm='l2').fit(x)
norm.transform(x)

array([[0.32444284, 0.48666426, 0.81110711],
       [0.52981294, 0.66226618, 0.52981294],
       [0.65538554, 0.57346234, 0.49153915]])

## Бинаризация 
---
Данный метод позволяет сделать наши данные двоичными. Значения выше определенного порогового значения будут преобразованы в 1, а ниже этого порогового значения будут преобразованы в 0.

Например, если мы выберем пороговое значение = 0,5, то значение набора данных выше этого станет 1, а ниже этого станет 0. Поэтому мы можем назвать его бинаризацией данных или пороговым значением данных. Этот метод полезен, когда у нас есть вероятности в нашем наборе данных и мы хотим преобразовать их в четкие значения. Также данный метод может использоваться при анализе изображений для уменьшения вариации цветов до "черный-белый".

In [None]:
import numpy as np
from sklearn import preprocessing

# Пример для порогового значения 0.5
x = np.array([[0.2,0.3,0.5],
              [0.4,0.5,0.4],
              [0.8,0.7,0.6]])
norm = preprocessing.Binarizer(threshold=0.5).fit(x)
norm.transform(x)

array([[0., 0., 0.],
       [0., 0., 0.],
       [1., 1., 1.]])

## Стандартизация
---
Цель данного метода — преобразовать исходный набор в новый со средним значением равным 0 и стандартным отклонением равным 1. Этот метод полезен в алгоритмах ML, таких как линейная регрессия, логистическая регрессия.

In [None]:
import numpy as np
from sklearn import preprocessing

x = np.array([[0.2,0.3,0.5],
              [4,5,0.4],
              [8,7,6]])
norm = preprocessing.StandardScaler().fit(x)
norm.transform(x)

array([[-1.21414393, -1.35312168, -0.68791204],
       [-0.02093352,  0.32047619, -0.72612938],
       [ 1.23507745,  1.0326455 ,  1.41404142]])

## Группирование
---
**Группирование** преобразует непрерывные значения в дискретное представление входных данных.  
**Например** предположим, что один из признаков — возраст. Вместо использования фактического возраста создаются диапазоны для этого значения путем группирования данных. Диапазон 0–18 может быть первой ячейкой, другой может быть 19–35 и т.д.

## Работа с категорийными данными
---
Один из наиболее распространенных типов данных — это категорийные данные. У категорийных данных есть конечное количество категорий.  
**Например**, список городов, или список видов животных, найденных в наборе изображений. Независимо от того, являются ли категорийные данные функциями или метками, их следует сопоставить с числовым значением, чтобы использовать для создания модели машинного обучения.

In [None]:
import numpy as np

# Пример замены пола на числовое значение
sex = np.array(['male','female'])
np.where(sex=='male',1,0)

array([1, 0])

## Работа с текстовыми данными
---
Также, как и категорийные, текстовые данные необходимо преобразовывать в числовые функции, прежде чем использовать их для формирования модели машинного обучения.

## Работа с пропущенными данными
---
Один из подходов к отсутствующим значениям состоит в том, чтобы заменить их значением по умолчанию для заданного типа или любым другим осмысленным значением, например средним значением среди данных. Также пропущенные значения могут быть удалены из набора рассматриваемых данных.

**Пример:**
```
#Удаление всех строк, в которых пропущено значение в столбце ‘tag’
df.dropna(subset = ['tag'], inplace=True )
#Замена пропущенных значений в столбце 'age' на средее значение по всему столбцу
df['age'].fillna(df['age'].mean(), inplace=True )
```



## Методы предобработки данных на примере задачи **"Titanic"**
---

Можно рассмотреть некотроые из методов предобработки на примере задачи **"Titanic"**

In [188]:
!pip install catboost



In [189]:
import pandas as pd
from catboost.datasets import titanic

In [190]:
train, test = titanic()
train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Можно увидеть, что часть данных являются пустыми (NaN). 
Всего у нас 891 строка, из которых пустые значения в 177 строках в столбце 'Age', в 687 строках в столбце 'Cabin' и в 2 строках в столбце 'Embarked'.

In [191]:
train.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Для возраста можно заменить все пустые значения на средее арифметическое всех известных возрастов.

In [192]:
train['Age'].fillna(train['Age'].mean(), inplace=True )

Далее мы видим что также имеется графа 'Cabin' и графа 'Embarked'  с пустыми значениями. В графе 'Cabin' около 80% данных являются пустыми. Так что их мы точно не будем рассматривать или как-то замещать. Данные из текущих столбцов не несут полезной информации о вероятности выживания, поэтому их можно не включать в анализ. 

In [193]:
del train['Cabin']
del train['Embarked']

train.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
dtype: int64

Теперь строк с пустыми данными не осталось. Можно также не рассматривать параметры 'Ticket', 'Name'. 

In [194]:
del train['Ticket']
del train['Name']

Также часть данных представлена в текстовом виде, что не подходит для их дальнейшей обработки, поэтому перенесем их в числовой формат. Графа 'Sex' может иметь влияние на вероятность выживаания, поэтому произведем замену значений в ней на числовые.

In [195]:
train['Sex'].replace({'male':1, 'female':0}, inplace=True)

In [196]:
train

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare
0,1,0,3,1,22.000000,1,0,7.2500
1,2,1,1,0,38.000000,1,0,71.2833
2,3,1,3,0,26.000000,0,0,7.9250
3,4,1,1,0,35.000000,1,0,53.1000
4,5,0,3,1,35.000000,0,0,8.0500
...,...,...,...,...,...,...,...,...
886,887,0,2,1,27.000000,0,0,13.0000
887,888,1,1,0,19.000000,0,0,30.0000
888,889,0,3,0,29.699118,1,2,23.4500
889,890,1,1,1,26.000000,0,0,30.0000


Оставшиеся данные могут иметь влияние на вероятность выживания, так что их можно оставить. На этом этапе предобработка тренировочных данных завершается.

In [197]:
y = train['Survived']
x = train[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']]
x

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Fare
0,3,1,22.000000,1,0,7.2500
1,1,0,38.000000,1,0,71.2833
2,3,0,26.000000,0,0,7.9250
3,1,0,35.000000,1,0,53.1000
4,3,1,35.000000,0,0,8.0500
...,...,...,...,...,...,...
886,2,1,27.000000,0,0,13.0000
887,1,0,19.000000,0,0,30.0000
888,3,0,29.699118,1,2,23.4500
889,1,1,26.000000,0,0,30.0000


In [198]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2)
model = RandomForestClassifier()
model.fit(X_train, y_train)
model.predict(X_test)

array([0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1,
       0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0,
       1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0,
       1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1,
       0, 0, 0])

In [199]:
model.score(X_test, y_test)

0.8435754189944135

In [200]:
test.describe()

Unnamed: 0,PassengerId,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.841838,14.181209,0.89676,0.981429,55.907576
min,892.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,3.0,39.0,1.0,0.0,31.5
max,1309.0,3.0,76.0,8.0,9.0,512.3292


In [201]:
test.isna().sum()

PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

In [202]:
test

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


Произведем аналогичную обработку тестовых данных.

In [204]:
test = test[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']]
test['Age'].fillna(test['Age'].mean(), inplace=True)
test['Sex'].replace({'male':1, 'female':0}, inplace=True)
test['Fare'].fillna(test['Fare'].mean(), inplace=True)
pred = model.predict(test)
pred

array([0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0,
       0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1,
       1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0,
       0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1,
       0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,

In [None]:
_, pas_id = titanic()

In [None]:
pas_id = pas_id[['PassengerId']]

In [None]:
pas_id['Survived'] = pred

In [None]:
pas_id.to_csv('titanic_1.csv', index=False)