# <center>  Признаковое описание: виды признаков, предобработка значений признаков

#### Признаковое описание
Признаки в машинном обучении — это числовые характеристики объектов.

Модель машинного обучения делает предсказания об объектах на основе информации о них — различных признаках. Исходная информация об объектах в датасетах может быть самого разного рода: текст, геоданные, дата, время и пр. Однако компьютер работает только с числами, поэтому значения признаков необходимо предварительно преобразовать. 

Признаки обозначают в виде вектора длиной d, где d — это количество признаков. Разберем, какие есть виды признаков и как с ними работают. Мы называем признаками информацию об объекте, она бывает разного типа — это могут быть и числовые характеристики, и даты, и текстовое описание, и принадлежность к категории и т.д. Поэтому мы различаем разные **типы** признаков.  У каждого типа признаков есть свои особенности и проблемы, которые встречаются при работе с ними.


**Бинарные признаки** – это те, которые принимают всего два значения. Этими значениями могут быть 0 или 1, -1 или 1, «Да» или «Нет». Допустим, в задаче кредитного скоринга у объекта есть признак «Есть ли у клиента дети?» Ответом на вопрос могут быть два варианта: «Да» или «Нет». Если ответ «Да», то в этой колонке мы запишем единицу, а если «Нет», то 0. Другой пример, мы учим модель МО определять котиков на фотографии, бинарным признаком будет ответ на вопрос «Есть ли усы на мордочке?».


**Вещественные (числовые)** — это признаки, которые являются вещественными числами. Например, в задаче кредитного скоринга таким признаком выступает размер заработной платы клиента. В задаче предсказания популярности публикации в социальной сети вещественным признаком выступит количество лайков на постах с идентичным хештегом.


**Категориальные признаки** – это неупорядоченное множество.
Мы не можем сравнить значения признака между собой на «больше» или «меньше», но можем проверить их на совпадение. Например, класс, в котором учится ученик, это категориальный признак. Или погода – тоже категориальный признак. 
Частным случаем категориальных признаков являются **порядковые признаки**: их можно сравнивать между собой, но нельзя сравнить «расстояние» между ними. Например, размер одежды будет являться порядковым признаком.


С каждыми типом признаков надо уметь работать, для каждого типа уже придумано множество методов. В практических заданиях мы познакомимся с самыми популярными.

#### Подключаем библиотеки и загружаем данные

Импортируем библиотеку Pandas под псевдонимом pd и загружаем знакомые файлы **train** и **test** с данными о пассажирах «Титаника» методом read_csv(). Записываем их в датафреймы df и dt соответвенно.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("data/train.csv", index_col = 'PassengerId')
dt = pd.read_csv("data/test.csv", index_col = 'PassengerId')

#### Структура данных

Исследуем структуру датасета df методом head().

In [3]:
df.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


В нашем датасете присутствуют разные типы данных: int, число,  float, число с плавающей точкой, и даже строки. 
Познакомимся с данными подробнее, начнем с размера обучающего датасета. Выведем результат с помощью метода .shape.
Видим, что у нас 11 колонок и 891 строка. То же самое делаем для датасета dt. 

In [4]:
print(df.shape)

(891, 11)


In [5]:
print(dt.shape)

(418, 10)


In [6]:
print(df.columns)

Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket',
       'Fare', 'Cabin', 'Embarked'],
      dtype='object')


In [7]:
print(dt.columns)

Index(['Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare',
       'Cabin', 'Embarked'],
      dtype='object')


In [8]:
print(df.dtypes)

Survived      int64
Pclass        int64
Name         object
Sex          object
Age         float64
SibSp         int64
Parch         int64
Ticket       object
Fare        float64
Cabin        object
Embarked     object
dtype: object


Методом .info() посмотрим на каждый признак датасетов. 
Не все колонки заполнены полностью, есть пропуски в данных. Это необходимо будет исправить.

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       714 non-null    float64
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


In [10]:
dt.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 418 entries, 892 to 1309
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pclass    418 non-null    int64  
 1   Name      418 non-null    object 
 2   Sex       418 non-null    object 
 3   Age       332 non-null    float64
 4   SibSp     418 non-null    int64  
 5   Parch     418 non-null    int64  
 6   Ticket    418 non-null    object 
 7   Fare      417 non-null    float64
 8   Cabin     91 non-null     object 
 9   Embarked  418 non-null    object 
dtypes: float64(2), int64(3), object(5)
memory usage: 35.9+ KB


#### Регулировка числа строк и колонок в выводе

Некоторые опции в библиотеке мы можем менять. Одна из таких опций — сколько колонок мы видим в выводе. 
Чаще всего в датасетах содержиться более ста колонок. В нашем датасете признаков меньше, но все они не отображаются в выводе. Давайте установим желаемое число колонок и строк. 

Вызовем метод .set_option() библиотеки Pandas. В скобках необходимо передать два аргумента: 
- аргумент display.max_columns меняет число колонок для вывода;
- аргумент display.max_rows меняет количество строк.

In [11]:
pd.set_option('display.max_columns', 6)

In [12]:
pd.set_option('display.max_rows', 4)

После установки параметров видим, что показаны 6 колонок (колонка с индексом в число отображаемых не входит) и 4 строки.

In [13]:
df.head()

Unnamed: 0_level_0,Survived,Pclass,Name,...,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,0,3,"Braund, Mr. Owen Harris",...,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",...,71.2833,C85,C
...,...,...,...,...,...,...,...
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",...,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",...,8.0500,,S


In [14]:
print(df['Name'])

PassengerId
1                                Braund, Mr. Owen Harris
2      Cumings, Mrs. John Bradley (Florence Briggs Th...
                             ...                        
890                                Behr, Mr. Karl Howell
891                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object


#### Вернем число выводимых столбцов и строк к значениям по умолчанию

In [15]:
pd.set_option('display.max_columns', 0)

In [16]:
pd.set_option('display.max_rows', 0)

В результате получаем отображение данных в первоначальном виде

In [17]:
df.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [18]:
print(df['Name'])

PassengerId
1                                Braund, Mr. Owen Harris
2      Cumings, Mrs. John Bradley (Florence Briggs Th...
3                                 Heikkinen, Miss. Laina
4           Futrelle, Mrs. Jacques Heath (Lily May Peel)
5                               Allen, Mr. William Henry
6                                       Moran, Mr. James
7                                McCarthy, Mr. Timothy J
8                         Palsson, Master. Gosta Leonard
9      Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
10                   Nasser, Mrs. Nicholas (Adele Achem)
11                       Sandstrom, Miss. Marguerite Rut
12                              Bonnell, Miss. Elizabeth
13                        Saundercock, Mr. William Henry
14                           Andersson, Mr. Anders Johan
15                  Vestrom, Miss. Hulda Amanda Adolfina
                             ...                        
877                        Gustafsson, Mr. Alfred Ossian
878                

### <center>  Обработка строк с пропусками (NaN)

В прошлый раз мы удаляли строки, в которых есть пропуски. Это не самый удачный вариант, ведь данные очень важны — чем больше данных, тем больше шансов, что модель успешно обучится и будет способна верно предсказывать ответы для новых данные. Как можно заполнить пропуски?

Поработаем с признаком **Cabin** — номер каюты. Теоретически информации о каюте пассажира может не быть, посмотрим, насколько наши данные полные:

In [19]:
df.Survived[df.Cabin.notnull()].count()

204

Колонка Cabin содержит строковые данные, заполнено всего 204 записи из 890.
Пробуем заполнить отсутствующие значения словом, например, «Unknown». Для этого используем метод .fillna(). Метод записывает вместо NaN значение, которое вы передаете в скобках. 

In [20]:
df['Cabin'] = df['Cabin'].fillna('Unknown')

In [21]:
df.Survived[df.Cabin.notnull()].count()

891

Следующий признак — цена билета **Fare**. В тестовой выборке заполнено 417 строк. Предположим, что его тоже можно заполнить словом, например, «Unknown». Тогда в одной колонке будут разные типы данных: int и string. Дальше не получиться построить модель, такой вариант не подходит. Нужно заменить на какое-то число, чтобы компьютер мог обрабатывать значения. Чаще всего заменяют на 0. Вновь используем метод .fillna(). На этот раз в скобках будет стоять не «Unknown», а 0.

In [22]:
dt.Name[dt.Fare.notnull()].count()

417

In [23]:
dt['Fare'] = dt['Fare'].fillna(0)

In [24]:
dt.Name[dt.Fare.notnull()].count()

418

Переходим к признаку **Age** — возраст. Посмотрим, сколько строк заполнено, а сколько пустует.

Всего в нашем датафрейме 891 строка:

In [25]:
print(df.shape)

(891, 11)


Определяем количество непустых значений признака Age:

In [26]:
df.Name[df.Age.notnull()].count()

714

In [27]:
pd.set_option('display.max_rows', 6)
df[df.Age.isnull()]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,Unknown,Q
18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0000,Unknown,S
20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.2250,Unknown,C
...,...,...,...,...,...,...,...,...,...,...,...
869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,Unknown,S
879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,Unknown,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,Unknown,S


В колонке **Age** присутствуют NaN значения, причем их довольно много. Заменять такое количество значений нулями не рационально: при обучении модели алгоритм будет смотреть на эти данные и может значительно ошибаться. Значит, заменить пропущенные значения нужно чем-то другим. Можно импользовать медиану или среднее по признаку. Сначала находим медиану или среднее значение методами .median() или .mean().

In [28]:
#Для более точного расчета медианы возраста пассажиров Титаника, объединим тренировочные и тестовые выборки
dall = pd.concat([df, dt], sort=False)

Задаем пропущенным значениям поля Age значение равное медиане по возрасту всей выборки

In [29]:
df.Age = df.Age.fillna(dall.Age.median())

# Возможный вариант заполнения 
# df.Age = df['Age'].fillna(dall['Age'].median())

Проверяем количество ненулевых значений признака Age после замены

In [30]:
df.Name[df.Age.notnull()].count()

891

Убедимся, что поле Age заполнено верным форматом данных:

In [31]:
print(df.loc[[18, 20, 869, 879],['Survived','Name','Age']])

             Survived                          Name   Age
PassengerId                                              
18                  1  Williams, Mr. Charles Eugene  28.0
20                  1       Masselmani, Mrs. Fatima  28.0
869                 0   van Melkebeke, Mr. Philemon  28.0
879                 0            Laleff, Mr. Kristo  28.0


In [32]:
df.iloc[16:21, 0:5]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
17,0,3,"Rice, Master. Eugene",male,2.0
18,1,2,"Williams, Mr. Charles Eugene",male,28.0
19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0
20,1,3,"Masselmani, Mrs. Fatima",female,28.0
21,0,2,"Fynney, Mr. Joseph J",male,35.0


In [33]:
df[df.Age.isnull()]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1


Перейдем к признаку **Embarked** —  порт посадки на корабль. Проверим, есть ли пассажиры, у которых порт не указан.

In [34]:
df[df.Embarked.isnull()]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,
830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


Таких пассажиров оказалось двое, им можно присвоить порт, в котором село большинство людей

In [35]:
print(df.iloc[[61, 829], [0, 2, 10]])

             Survived                                       Name Embarked
PassengerId                                                              
62                  1                        Icard, Miss. Amelie      NaN
830                 1  Stone, Mrs. George Nelson (Martha Evelyn)      NaN


In [36]:
df.iloc[60:63, 8:11]

Unnamed: 0_level_0,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
61,7.2292,Unknown,C
62,80.0,B28,
63,83.475,C83,S


In [37]:
df.iloc[828:831, 8:11]

Unnamed: 0_level_0,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
829,7.75,Unknown,Q
830,80.0,B28,
831,14.4542,Unknown,C


Определим количество пассажиров, севших в каждом из портов

In [38]:
MaxPassEmbarked = df.groupby('Embarked').count()['Name']

In [39]:
print(MaxPassEmbarked)

Embarked
C    168
Q     77
S    644
Name: Name, dtype: int64


Определяем порт, где село большинство пассажиров

In [40]:
MaxP=MaxPassEmbarked[MaxPassEmbarked == MaxPassEmbarked.max()].index[0]
# Пошаговый разбор строки: 
# print(MaxPassEmbarked == MaxPassEmbarked.max())
# type((MaxPassEmbarked[MaxPassEmbarked == MaxPassEmbarked.max()].index[0]))

In [41]:
print(MaxP)

S


Заполняем пропущенные значения Embarked

In [42]:
df.iloc[:].Embarked[df.Embarked.isnull()] = MaxP
# альтернативный вариант
# df['Embarked'] = df['Embarked'].fillna(MaxP)

Проверяем, что пустые ячейки были заполнены верно

In [43]:
print(df.iloc[[61, 829], [0, 2, 10]])

             Survived                                       Name Embarked
PassengerId                                                              
62                  1                        Icard, Miss. Amelie        S
830                 1  Stone, Mrs. George Nelson (Martha Evelyn)        S


In [44]:
df.iloc[60:63, 8:11]

Unnamed: 0_level_0,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
61,7.2292,Unknown,C
62,80.0,B28,S
63,83.475,C83,S


In [45]:
df.iloc[828:831, 8:11]

Unnamed: 0_level_0,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
829,7.75,Unknown,Q
830,80.0,B28,S
831,14.4542,Unknown,C


In [46]:
df[df.Embarked.isnull()]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1


Мы заполнили все пропущенные значения для разных типов данных, теперь переходим к обработке признаков

### <center> Работа с категориальными признаками

Категориальные признаки — это те признаки, количество вариантов значений которых ограничено.

Посмотрим на признак **Sex** – пол пассажира. С помощью метода .value_counts() узнаем, какие значения есть у колонки и сколько их.

In [47]:
df.iloc[0:5, 0:4]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0,3,"Braund, Mr. Owen Harris",male
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
3,1,3,"Heikkinen, Miss. Laina",female
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
5,0,3,"Allen, Mr. William Henry",male


In [48]:
df['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

У признака Sex в нашем случае два значения – это бинарный признак. 

Для перевода значений признака Sex в числовой тип данных, используем словарь.Мужчине будет соответствовать ноль, а женщине будет соответствовать единица. Затем применяем метод .map() к нашему признаку – значения изменятся со строковых на числовые.

In [49]:
S = {'male':0, 'female':1}
df['Sex'] = df['Sex'].map(S)

Убедимся, что признак Sex заполнен числовыми значениями

In [50]:
df.iloc[0:5, 0:4]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0,3,"Braund, Mr. Owen Harris",0
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1
3,1,3,"Heikkinen, Miss. Laina",1
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1
5,0,3,"Allen, Mr. William Henry",0


Пробуем вернуть значения признака Sex к первоначальным значениям

In [51]:
S1 = {0:'male', 1:'female'}
df['Sex'] = df['Sex'].map(S1)

In [52]:
df.iloc[0:5, 0:4]

Unnamed: 0_level_0,Survived,Pclass,Name,Sex
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0,3,"Braund, Mr. Owen Harris",male
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
3,1,3,"Heikkinen, Miss. Laina",female
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female
5,0,3,"Allen, Mr. William Henry",male


Вернемся к признаку **Embarked**. Воспользуемся методом .value_counts(), чтобы посмотреть на значения признака.

In [53]:
df['Embarked'].value_counts()

S    646
C    168
Q     77
Name: Embarked, dtype: int64

На этот раз их не два, а три. Но признак Embarked все еще считается категориальным. 

Сейчас у нас только три значения категориального признака, а могло быть гораздо больше. В прошлый раз мы преобразовали значения через словарь, но нам хочется автоматизировать этот процесс. Помним, что компьютер воспринимает только числа, но не понимает, что означает каждый признак. Для него категория 4 будет в два раза важнее категории 2. Так не должно быть, ведь все варианты в категориальном признаке равны. Как этого избежать? Использовать метод **one hot кодирования**.

Принцип one hot кодирования следующий. Допустим, есть колонка признака «Цвет». В ней храниться три возможных значения: красный, зеленый и синий. При ohe hot кодировании мы создаем три отдельных колонки: цвет_красный, цвет_зеленый, цвет_синий. Если у объекта цвет красный, то в колонке «цвет_красный» стоит единица, а во всех остальных нули. Так для каждой строки в датасете. 

Реализовать этот метод в Python можно двумя способами: 
1. метод **.get_dummies()** в библиотеке Pandas
2. кодировщики **LabelEncoder** и **OneHotEncoder** в библиотеке scikit-learn

Для первого способа используем метод .get_dummies(). В параметр data передаем датафрейм df, в нём будет определяться категориальный признак и после записываться результат работы. 
- параметр **columns** — колонки, которые обрабатываем. Заметим, что нужно передавать именно список. Так как у нас одна колонка, мы передаем список, в котором всего один элемент.  
- параметр **prefix** — это начало названия колонки, например, Цвет. После этого слова идёт значение категории.

In [54]:
df = pd.get_dummies(data = df, columns = ['Embarked'], prefix = 'Embark')

In [55]:
df.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embark_C,Embark_Q,Embark_S
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,Unknown,0,0,1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,1,0,0
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,Unknown,0,0,1
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,0,0,1
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,Unknown,0,0,1


Для второго способа используем **LabelEncoder** и **OneHotEncoder** из библиотеки scikit-Learn. Оба кодировщика используются для преобразования категориальных или текстовых данных в числа.

В датафрейме df столбец Sex полностью текстовый. Для преобразования таких категорий в понятные для модели машинного обучения числовые данные используем класс **LabelEncoder**. 

Чтобы получить числовой признак для столбца Sex:
1. импортируем класс из библиотеки sklearn;
2. обрабатываем колонку функцией .fit_transform();
3. заменяем существующие текстовые данные новыми закодированными.

In [56]:
from sklearn.preprocessing import LabelEncoder
labelenc = LabelEncoder()
df['Sex'] = labelenc.fit_transform(df['Sex'])

In [57]:
df.iloc[0:5, [0, 2, 3]]

Unnamed: 0_level_0,Survived,Name,Sex
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,"Braund, Mr. Owen Harris",1
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0
3,1,"Heikkinen, Miss. Laina",0
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0
5,0,"Allen, Mr. William Henry",1


В результате значениям поля Sex вместо текстовых значений присвоены числовые: 1 — если это мужчина, и 0 — если это женщина. Обратите внимание, метод map() присваивал обратные значения тому же признаку: 0 —  если это мужчина, и 1 — если это женщина.

После преобразования признака мы сталкиваемся с проблемой: модель в обучении будет считать, что числа у перекодированного признака находятся в каком-то особом порядке — 0 < 1. Хотя этого может и не быть.

В зависимости от наших данных мы можем столкнуться с ситуацией, когда после кодирования признаков наша модель запутается, ложно предположив, что данные связаны порядком или иерархией, которого на самом деле нет. Чтобы этого избежать, воспользуемся **OneHotEncoder**. Будем работать с признаком Pclass  —  класс проезда пассажира. 

Класс OneHotEncoder находиться в sklearn.preprocessing. Чтобы импортировать только его, а не всю библиотеку, мы пишем слово from, указываем, где именно находится нужный нам класс, пишем слово import и название класса.

In [58]:
from sklearn.preprocessing import OneHotEncoder

In [59]:
df['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

Мы импортировали структуру класса. Теперь создадим объект класса и назовем его **enc**. Результат обработки OneHotEncoder — это sparse matrix или разреженная матрица. Это такая матрица, в которой большая часть значений являются нулями.

In [60]:
enc = OneHotEncoder(handle_unknown='ignore')

Методом pd.DataFrame() создаем новый датафрейм **p_class**. Вызываем метод .fit_transform() и передаем в него данные признака Pclass. Значения в колонке обрабатываются и трансформируются. Кодировщик берёт признак с категориальными данными и создаёт для него несколько новых столбцов. Числа меняются на единицы и нули, в зависимости от того, какое значение присуще каждому столбцу. 

Результат представляет собой разреженную матрицу, мы превращаем ее в массив методом .toarray(). То, что получилось, мы передаем в датафрейм. Укажем такие же индексы, как в исходном датафрейме (index = df.index). 

Названия колонок мы хотим видеть такие же, как в объекте enc. Для этого используем метод .get_fetures_name().

In [61]:
p_class = pd.DataFrame(enc.fit_transform(df[['Pclass']]).toarray(),
                       index = df.index, columns = enc.get_feature_names())

Мы получили датафрейм с тремя колонками после применения **OneHotEncoder** к исходному признаку **Pclass**. 

Теперь соединим эти колонки с исходным датафреймом df методом .concat(). Первым аргументом передаем исходный датафрейм, но с удаленной колонкой, затем получившийся датафрейм от OneHotEncoder. Указываем axis=1, чтобы объединение было по столбцам, то есть по-вертикали.

In [62]:
df = pd.concat([df.drop('Pclass', axis=1), p_class], axis=1)

In [63]:
pd.set_option('display.max_columns', 6)
df.head()

Unnamed: 0_level_0,Survived,Name,Sex,...,x0_1,x0_2,x0_3
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,0,"Braund, Mr. Owen Harris",1,...,0.0,0.0,1.0
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,...,1.0,0.0,0.0
3,1,"Heikkinen, Miss. Laina",0,...,0.0,0.0,1.0
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,...,1.0,0.0,0.0
5,0,"Allen, Mr. William Henry",1,...,0.0,0.0,1.0


In [64]:
pd.set_option('display.max_columns', 0)
df.iloc[0:4, [0, 1, 12, 13, 14]]

Unnamed: 0_level_0,Survived,Name,x0_1,x0_2,x0_3
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0,"Braund, Mr. Owen Harris",0.0,0.0,1.0
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1.0,0.0,0.0
3,1,"Heikkinen, Miss. Laina",0.0,0.0,1.0
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1.0,0.0,0.0


Нам предстоит перекодировать информацию о количестве родственников на борту 1-го порядка (мать, отец, дети) — признак **Parch**. Этот признак можно считать категориальным несмотря на то, что значения у него выражены числами. Используем one hot кодирование методом .get_dummies().

In [65]:
df['Parch'].value_counts()

0    678
1    118
2     80
    ... 
3      5
4      4
6      1
Name: Parch, Length: 7, dtype: int64

In [66]:
df = pd.get_dummies(data = df, columns = ['Parch'], prefix = 'Parch')

In [67]:
pd.set_option('display.max_columns', 8)
df.head()

Unnamed: 0_level_0,Survived,Name,Sex,Age,...,Parch_3,Parch_4,Parch_5,Parch_6
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,0,"Braund, Mr. Owen Harris",1,22.0,...,0,0,0,0
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,...,0,0,0,0
3,1,"Heikkinen, Miss. Laina",0,26.0,...,0,0,0,0
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,...,0,0,0,0
5,0,"Allen, Mr. William Henry",1,35.0,...,0,0,0,0


In [68]:
df.iloc[7:12, 14:21]

Unnamed: 0_level_0,Parch_0,Parch_1,Parch_2,Parch_3,Parch_4,Parch_5,Parch_6
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
8,0,1,0,0,0,0,0
9,0,0,1,0,0,0,0
10,1,0,0,0,0,0,0
11,0,1,0,0,0,0,0
12,1,0,0,0,0,0,0


Работа с категориальными признаками на этом закончена, переходим к числовым.

### <center> Работа с числовыми признаками

Даже если признак изначально числовой, с ним все равно приходиться поработать, чтобы исопльзовать в машинном обучении.

Например, нужно предсказать стоимость квартиры. Есть два признака: количество комнат и расстояние от дома до центра в километрах. Количество комнат — это обычно маленькое число, а количество километров — довольно большое. Наша модель не сможет учесть два признака, так как основное внимание уделит большому числу, несмотря на то, что количество комнат в квартире — это важный фактор. 

Поэтому **числовые признаки масштабируют**, чтобы уравновесить их важность для модели. Один из способов из способов — **Standard Scaler** из библиотеки **sklearn.preprocessing**. 

Этот метод считает среднее значение и стандартное отклонение по выборке – колонке с признаком. Потом от каждого числа отнимается среднее значение и получившаяся разность делится на стандартное отклонение. Итоговое значение записывается вместо исходного. 

$$ 
z = \frac {x - \mu}{\sigma}
$$

Импортируем метод:

In [69]:
from sklearn.preprocessing import StandardScaler

Попробуем преобразовать значения признака **Age** методом Standard Scaler. 

Создаем объект класса StandardScaler и называем **stsc**. 
Результатом работы Standard Scaler будет массив чисел. Так как нам нужен датафрейм, мы создадим его на основе получившегося массива. Индексы возьмем такие же, как в исходном датафрейме, колонку также назовем Age. 
Не забываем бъединить исходный датафрейм без колонки Age с получившимся датафреймом.

In [70]:
stsc = StandardScaler()

In [71]:
age = pd.DataFrame(stsc.fit_transform(df[['Age']]), 
                    index = df.index,
                    columns = ['Age'])

In [72]:
df = pd.concat([df.drop('Age', axis=1), age], axis=1)

In [73]:
pd.set_option('display.max_columns', 4)
df.head()

Unnamed: 0_level_0,Survived,Name,...,Parch_6,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0,"Braund, Mr. Owen Harris",...,0,-0.565736
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",...,0,0.663861
3,1,"Heikkinen, Miss. Laina",...,0,-0.258337
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",...,0,0.433312
5,0,"Allen, Mr. William Henry",...,0,0.433312


Другой способ масштабирования данных —  **MinMaxScaler** из библиотеки **sklearn.preprocessing**. Принцип работы отличается от StandardScaler. **MinMaxScaler** находит максимальное и минимальное значения впризнака. После этого от каждого значения отнимает минимальное значение и делит на разность максимального и минимального. Получившиеся значения лежат в промежутке от нуля до единицы:

$$
X_{norm} = \frac {X - X_{min}} {X_{max} - X_{min}}
$$

Давайте импортируем метод и создадим объект класса **mmsc**. 

In [74]:
from sklearn.preprocessing import MinMaxScaler

Применим метод MinMaxScaler() к колонке SibSp (поле содержит информацию о количестве родственников 2-го порядка: братья, сестры, муж, жена). Также создадим датафрейм из получившегося массива. После этого еще соединим два датафрейма.

In [75]:
import numpy as np 

In [76]:
mmsc = MinMaxScaler()

scaler_model.fit(np_matrix.astype(float))
scaler_model.transform(np_matrix)

X = df['SibSp']
a=X.reshape(-1, 1)

b=mmsс.fit_transform(a.astype(np.float)

In [77]:
df['SibSp'] = df['SibSp'].astype(float)

In [78]:
sib_sp = pd.DataFrame(mmsc.fit_transform(df[['SibSp']]), 
                    index = df.index,
                    columns = ['SibSp'])

In [79]:
df = pd.concat([df.drop('SibSp', axis=1), sib_sp], axis=1)

In [80]:
df.head()

Unnamed: 0_level_0,Survived,Name,...,Age,SibSp
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0,"Braund, Mr. Owen Harris",...,-0.565736,0.125
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",...,0.663861,0.125
3,1,"Heikkinen, Miss. Laina",...,-0.258337,0.0
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",...,0.433312,0.125
5,0,"Allen, Mr. William Henry",...,0.433312,0.0


In [81]:
df.iloc[0:5, [0, 1, 19, 20]]

Unnamed: 0_level_0,Survived,Name,Age,SibSp
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0,"Braund, Mr. Owen Harris",-0.565736,0.125
2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0.663861,0.125
3,1,"Heikkinen, Miss. Laina",-0.258337,0.0
4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0.433312,0.125
5,0,"Allen, Mr. William Henry",0.433312,0.0


Подводя итог, в машинном обучении данные всегда требуют предварительной подготовки. Мы должны заполнить пропуски, обработать категориальные и числовые переменные – преобразовать все признаки в удобный для обучения вид.