# Преобразование данных

**Оглавление**<a id='toc0_'></a>    
- [Загрузка и описание данных](#toc1_)    
- [Приведение признаков к единому масштабу](#toc2_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=2
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

## <a id='toc1_'></a>[Загрузка и описание данных](#toc0_)

In [None]:
import sys
# Добавим папку проекта в список системных директорий, чтобы Python видел путь к папке utils
sys.path.append('..')

In [3]:
import pandas as pd

from utils.constants import (
    F,
)
from utils.display_content import (
    display_base_fields_description,
    dislay_some_fields_description,
    display_field_description,
)

from warnings import simplefilter
simplefilter('ignore')

In [4]:
# Загрузим таблицу
data = pd.read_csv('../data/cumulative_life_expectancy.csv')

data.head()

Unnamed: 0,ParentLocationCode,ParentLocation,SpatialDimValueCode,Location,Period,AdultMortality,Homicides,MaternalMortality,AdultNcdMortality,AdultNcdMortality117,...,BmiTeenagerOverweight2,Sanitation,DrinkingWater,HealthCareCosts,HealthCareCostsGdp,HealthCareCostsPerCapita,GdpPerCapita,Population,Schooling,LifeExpectancy
0,AFR,Africa,AGO,Angola,2000,345.6,13.31,859.92091,30.5,4555.0,...,0.99,27.56,41.14,2.74,1.11,7.66,563.733796,16194869.0,5.027188,49.37
1,AFR,Africa,AGO,Angola,2001,338.6,13.1,799.64079,29.7,4606.0,...,1.07,28.99,42.25,5.97,2.05,13.35,533.586202,16747208.0,5.09225,50.06
2,AFR,Africa,AGO,Angola,2002,325.1,12.88,758.27183,29.4,4687.0,...,1.14,30.42,43.38,4.19,1.31,11.54,882.147847,17327699.0,5.157312,51.06
3,AFR,Africa,AGO,Angola,2003,321.6,12.65,676.49647,29.3,4838.0,...,1.22,31.86,44.36,4.26,1.47,14.55,992.698979,17943712.0,5.222375,51.74
4,AFR,Africa,AGO,Angola,2004,322.4,12.29,594.19216,29.0,4892.0,...,1.31,33.29,45.35,5.66,1.69,21.36,1266.210864,18600423.0,5.287437,52.36


Пропуски в данных заполнены на этапе формирования таблицы.

In [5]:
# Убедимся, что нет пропусков
data.isna().sum().sum()

0

In [None]:
# Выведем описание полей таблицы
display_base_fields_description(True)

### Описание полей таблицы

## <a id='toc2_'></a>[Приведение признаков к единому масштабу](#toc0_)

В данных показатели, связанные с количеством человек, представлены в разных изменениях:
- количество случаев на 1000 человек населения;
- количество случаев на 100 000 человек населения;
- количество случаев как таковое (на все население);
- процент количества случаев.

Переведем все показатели в проценты.

**В измерении на 1000 человек населения у нас представлен только один признак:**

In [7]:
display_field_description(F.AdultMortality.value, True)

`AdultMortality` - Коэффициент смертности среди взрослого населения (вероятность смерти в возрасте от 15 до 60 лет на 1000 человек населения).

Переведем его в проценты от численности населения.

In [8]:
data[F.AdultMortality.value] = data[F.AdultMortality.value] / 10

**В измерении на 100 000 населения у нас представлены следующие признаки:**

In [9]:
fields = [
    F.Homicides.value, F.MaternalMortality.value,
    F.PoisoningMortality.value, F.SuicideMortality.value,
]
dislay_some_fields_description(fields, True)

**Описание полей:**

- `Homicides` - Оценка уровня убийств (на 100 000 населения)

- `MaternalMortality` - Коэффициент материнской смертности (на 100 000 живорождений)

- `PoisoningMortality` - Уровень смертности от непреднамеренного отравления (на 100 000 населения)

- `SuicideMortality` - Стандартизированные по возрасту показатели самоубийств (на 100 000 населения)

Переведем их в проценты от численности населения.

In [10]:
for field in fields:
    data[field] = data[field] / 1000

**В непосредственном количестве человек у нас представлены следующие признаки:**

In [11]:
fields = [
    F.AdultNcdMortality061.value,
    F.AdultNcdMortality080.value,
    F.AdultNcdMortality110.value,
    F.AdultNcdMortality117.value,
    F.AdultNcdMortalitySum.value,
]

dislay_some_fields_description(fields, True)

**Описание полей:**

- `AdultNcdMortality061` - Причина смертности взрослых от неинфекционных заболеваний. Злокачественные новообразования

- `AdultNcdMortality080` - Причина смертности взрослых от неинфекционных заболеваний. Сахарный диабет

- `AdultNcdMortality110` - Причина смертности взрослых от неинфекционных заболеваний. Сердечно-сосудистые заболевания

- `AdultNcdMortality117` - Причина смертности взрослых от неинфекционных заболеваний. Респираторные заболевания

- `AdultNcdMortalitySum` - Сумма причин смертности взрослых от неинфекционных заболеваний.

Переведем их в проценты от численности населения.

In [12]:
def get_percent(count, population):
    return 100 * count / population

for field in fields:
    data[field] = data.apply(
        lambda row: get_percent(row[field], row[F.Population.value]), 
        axis=1
    )

In [13]:
# Сохраним полученную таблицу для дальнейшего использования
data.to_csv('../data/cumulative_life_expectancy_prepared.csv', index=False)