# Создание новых признаков

**Оглавление**<a id='toc0_'></a>    
- [Создание признака кластера стран](#toc1_)    
- [Создание коэффициентов благополучия стран](#toc2_)    
- [Среднее значение по факторам иммунизации](#toc3_)    
- [Экспоненциальное сглаживание временных рядов ожидаемой продолжительности жизни по странам](#toc4_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=2
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

In [2]:
import sys
# Добавим папку проекта в список системных директорий, чтобы Python видел путь к папке utils
sys.path.append('..')

In [3]:
from utils.constants import (
    F, 
)
from utils.display_content import (
    dislay_some_fields_description,
)

Попробуем создать несколько новых признаков и посмотрим на их корреляцию с целевой переменной.

## <a id='toc1_'></a>[Создание признака кластера стран](#toc0_)

Создадим новый признак кластера без учета данных о детской смертности (так как их нет за 2018-2020гг.) \
Создание признака вынесено в файл [02_cluster.ipynb](./02_cluster.ipynb) \
Новый признак имеет корреляцию с целевым близкую к 0.8.

## <a id='toc2_'></a>[Создание коэффициентов благополучия стран](#toc0_)

Процесс создания признаков вынесен в файл [03_coef.ipynb](./03_coef.ipynb).\
В итоге реализован алгоритм для добавления двух коэффициентов.

In [4]:
dislay_some_fields_description(
    [F.PositiveCoef.value, F.NegativeCoef.value],
    title='Коэффициенты'
)

**Коэффициенты:**

- `PositiveCoef` - Коэффициент благополучия страны

- `NegativeCoef` - Коэффициент неблагополучия страны

`PositiveCoef` имеет положительную корреляцию с целевой переменной, близкую к 0.8. \
А  `NegativeCoef` - отрицательную корреляцию, близкую к 0.5.

## <a id='toc3_'></a>[Среднее значение по факторам иммунизации](#toc0_)

Из трех признаков иммунизации, которые имеют между собой сильную корреляцию, возьмем среднее.\
И удалим исходные признаки.

Создание нового признака вынесено в файл [04_immunization_mean.ipynb](./04_immunization_mean.ipynb).

Новый признак `ImmunizationMean` имеет бОльшую корреляцию с целевым, чем первоначальные три.\
Она близка к 0.6.

## <a id='toc4_'></a>[Экспоненциальное сглаживание временных рядов ожидаемой продолжительности жизни по странам](#toc0_)

Поскольку для каждой страны значения ожидаемой продолжительности жизни по годам является временным рядом,
то можно посчитать сглаженные значение за известное время и спрогнозитьвать сглаженные значения на будущее.\
Поэтому можно создать признак со сглаженными значениями целевой переменной.\
Создание и исследование данного признака вынесено в файл [05_exp_smoothing.ipynb](./05_exp_smoothing.ipynb)

Признак не внесен в общую таблицу, а будет создаваться с помощью функции для тренировочной и тестовой таблиц.\
В тренировочную таблицу попадут сглаженные значения имеющихся значений целевой переменной,\
а в тестовую - сглаженные значения прогноза.

Новый признак `SmoothingLifeExpectancy` имеет корреляцию с целевой переменной, близкую к 1.