# Feature Engineering - конструирование признаков
Во многих задачах, данные не готовы к машинному обучению - сначала их нужно очистить, а также подготовить более полезные признаки.

Конструирование признаков - это процесс применения знаний о предметной области, чтобы из сырых данных извлечь полезные признаки, используя техники обработки данных.

Три основных подхода:
* Извлечение информации(extract)
* Комбинирование информации(combine)
* Преобразование информации(transform)

## Извлечение информации(extract): 
Есть данные о расходах на поездку, для каждой строки есть timestamp: 19990-12-01 09:26:03. В таком формате эти данные будет сложно подать на вход алгоритма машинного обучения. Многие алгоритмы принимают числовые данные - float или int.

Вместо даты можно взять отдельную информацию:
* Год 1990
* Месяц 12
* Рабочий день или выходной(0/1)
* День недели: пн (1), вт (2), ср (3) и т.д.

Более сложный пример -> текстовые документы:
* Длина текста
* Как часто встречается то или иное ключевое слово

## Комбинирование информации(combine):
Пример такого подхода уже видели для полиномиальной регрессии. Добавление слагаемых с умножением отдельных бюджетов.

Также можно комбинировать извлечённые данные -> новый признак:
* Вечер рабочего дня(0/1)

## Преобразование информации(transform):
Очень часто применяется для текстовых данных, т.к. многие алгоритмы не могут работать с текстовыми данными.

Очень часто в виде текстовой информации приходят категориальные переменные. Например страна пользователся может быть указана как строковое значение(USA, UK, MEX, ...). 

Для работы с такими категориальными значениями применяются два подхода:
* **Кодировка числами** - назначаем категориям номера - 0, 1, 2, 3 и т.д.

![image.png](attachment:57edd70a-98fe-4251-9cdb-ed3137b8b007.png)

Возможная проблема в таком случае - неявно упорядочиваем значения. Хотя иногда упорядоченные номера имеют смысл.    
    
    Плюсы такой кодировки:  
          1. Легко сделать и понять  
          2. Не увеличивает количество признаков  
    Минусы:  
          1. Добавляет упорядоченность между категориями
  
* **Кодировка одного значения (dummy-переменные)** - для каждой категории создаём отдельный признак(dummy-переменную) со значением 0 или 1.

![image.png](attachment:05cfa3bb-d268-4f16-a2ea-92d6c6e4c0ef.png)

Получается большое количество дополнительных признаков. Имеет смысл брать крупные категории, например регионы вместо отдельных стран. Также важно помнить про "ловушку dummy-переменных", математически известную как мульти-коллинеарность. Конвертация в dummy-переменные может приводить к дублированию признаков.

Рассмотрим бинарную переменную(только два значения):

![image.png](attachment:21ef0b41-aa47-49a7-afcd-ad70eef7f295.png)

Здесь две новые колонки дублируют друг друга(с инверсией). Если мы знаем значения только одной колонки, то этого уже достаточно(если up = 1, это автоматически означает, что down=0). Мы можем удалить одну из этих колонок.

Это же соображение применимо для случая, когда категорий больше, чем две:

![image.png](attachment:41fd87f3-4e78-44d6-b541-0e1d29d1c7cc.png)

        Плюсы для метода one hot encoding:
            1. Не добавляется упорядоченность категорий
        Минусы:
            1. Добавляется много дополнительных признаков и коэффициентов
            2. "Ловушка dummy-переменных"
            3. Сложнее добавлять новые категории