## Создание новых переменных

По заданию проекта необходимо на основании имеющихся признаков в датасете создать новые. Наши данные не подходят для получения новых переменных, так как это будет нелогично, ведь все представленные признаки уже выражены относительно (на единицу населения). То есть просто создание колонок, которые представляли разницу/логарифм текущих переменных это нерационально, тк мы можем просто применить определённый метод сразу к колонке, то делать мы этого на данном этапе не будем. 

Однако игнорировать этот шаг мы не будем, тк все еще возможно получить некоторые полезные переменные, которые помогут нам построить модель. Поэтому добавим в датасет столбец, в котором будет указано, к какому федеральному округу принадлежит регион. В ходе рассуждений мы поняли, что у нас достаточно много информации о социально демографическом и экологическом состоянии в субъекте, однако мы почти не учитываем его экономико-географические особенности. В РФ существует разделение регионов на 8 Федеральных округов: Центральный, Северо-Западный, Южный, Приволжский, Уральский, Сибирский, Дальневосточный, Северо-Кавказский. Субъекты в рамках одного ФО имеют схожее географическое расположение, то есть схожие климатические условия, а также часто много взаимодействуют друг с другом в плане торговли и прочей экономической и хозяйственной деятельности. 

Для начала создадим списки с регионами по Федеральным округам, затем создадим столбец ФО в нашем датасете, куда напишем название округа, в котором находится регион. То есть по факту мы используем название региона, чтобы получитть название округа

In [8]:
federal_districts = {
    'central' : ['Белгородская область', 'Брянская область', 'Владимирская область', 'Воронежская область', 'Ивановская область', 'Калужская область', 'Костромская область', 'Курская область', 'Липецкая область', 'Московская область', 'Орловская область', 'Рязанская область', 'Смоленская область', 'Тамбовская область', 'Тверская область', 'Тульская область', 'Ярославская область', 'г. Москва'],
    'southern' : ['Республика Адыгея', 'Республика Калмыкия', 'Республика Крым', 'Краснодарский край', 'Астраханская область', 'Волгоградская область', 'Ростовская область', 'г. Севастополь'] ,
    'north_western' : ['Республика Карелия', 'Республика Коми', 'Архангельская область', 'Архангельская область без автономного округа', 'Вологодская область', 'Калининградская область', 'Ленинградская область', 'Мурманская область', 'Новгородская область', 'Псковская область', 'Ненецкий автономный округ', 'г. Санкт-Петербург'],
    'far_eastern' : ['Республика Саха (Якутия)', 'Камчатский край', 'Приморский край', 'Хабаровский край', 'Амурская область', 'Магаданская область', 'Сахалинская область', 'Еврейская автономная область', 'Чукотский автономный округ'],
    'siberian' : ['Республика Алтай', 'Республика Бурятия', 'Республика Тыва', 'Республика Хакасия', 'Алтайский край', 'Забайкальский край', 'Красноярский край', 'Иркутская область', 'Кемеровская область', 'Новосибирская область', 'Омская область', 'Томская область'],
    'ural' : ['Курганская область', 'Свердловская область', 'Тюменская область', 'Челябинская область', 'Ханты-Мансийский автономный округ – Югра', 'Ямало-Ненецкий автономный округ'],
    'volga' : ['Республика Башкортостан', 'Республика Марий Эл', 'Республика Мордовия', 'Республика Татарстан', 'Удмуртская Республика', 'Чувашская Республика', 'Кировская область', 'Нижегородская область', 'Оренбургская область', 'Пензенская область', 'Ульяновская область', 'Самарская область', 'Саратовская область', 'Пермский край'],
    'north_caucasian' : ['Республика Дагестан', 'Республика Ингушетия', 'Кабардино-Балкарская Республика', 'Карачаево-Черкесская Республика', 'Республика Северная Осетия – Алания', 'Чеченская Республика', 'Ставропольский край']
}


In [2]:
import pandas as pd
import numpy as np

In [3]:
final_dataset = pd.read_csv('final_dataset.csv')

Unnamed: 0,Регион,Год,Число больничных коек,Мощность амбулаторно-поликлинических организаций,Численность врачей всех специальностей,Численность среднего медицинского персонала,Заболеваемость на 1000 человек населения,Среднедушевые денежные доходы населения,Смертность населения в трудоспособном возрасте,Число предприятий и организаций,Выбросы загрязняющих веществ в атмосферный воздух,Улавливание загрязняющих атмосферу веществ,Сброс загрязненных сточных вод в поверхностные водные объекты,Средняя продолжительность жизни
0,Алтайский край,2005,117.7,281.1,46.7,109.9,987.2,4640.0,853.7,21857.0,233.0,787.0,34.0,64.62
1,Алтайский край,2010,112.1,347.8,48.7,109.2,1035.7,11029.0,668.0,21857.0,207.0,776.0,15.0,68.36
2,Алтайский край,2011,108.1,285.5,50.4,111.9,1052.4,12500.0,646.4,56770.0,204.0,712.0,12.0,68.97
3,Алтайский край,2012,105.0,292.6,46.0,109.7,1087.5,13617.0,637.2,53684.0,216.0,822.0,8.0,69.11
4,Алтайский край,2013,103.6,294.3,45.7,109.4,1090.3,15896.0,623.1,55454.0,201.0,558.0,8.0,69.77
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1089,г. Санкт-Петербург,2021,84.7,374.2,91.6,110.3,1200.6,57745.0,494.8,21857.0,72.0,33.0,998.0,72.51
1090,г. Севастополь,2014,70.5,208.3,41.1,82.4,561.8,22884.0,498.9,5690.0,1.0,0.5,19.0,72.28
1091,г. Севастополь,2016,60.2,191.6,40.2,78.3,515.8,26239.0,551.6,10549.0,4.0,2.0,22.0,71.64
1092,г. Севастополь,2017,82.6,198.8,46.8,93.4,531.9,28130.0,436.2,11214.0,5.0,2.0,23.0,73.37


In [10]:
final_dataset['ФО'] = ''

# Проходимся по каждой записи в DataFrame
for index, row in final_dataset.iterrows():
    region = row['Регион']
    # Ищем соответствующий федеральный округ для данного региона
    for fd, regions in federal_districts.items():
        if region in regions:
            final_dataset.at[index, 'ФО'] = fd
            break
final_dataset

Unnamed: 0,Регион,Год,Число больничных коек,Мощность амбулаторно-поликлинических организаций,Численность врачей всех специальностей,Численность среднего медицинского персонала,Заболеваемость на 1000 человек населения,Среднедушевые денежные доходы населения,Смертность населения в трудоспособном возрасте,Число предприятий и организаций,Выбросы загрязняющих веществ в атмосферный воздух,Улавливание загрязняющих атмосферу веществ,Сброс загрязненных сточных вод в поверхностные водные объекты,Средняя продолжительность жизни,ФО
0,Алтайский край,2005,117.7,281.1,46.7,109.9,987.2,4640.0,853.7,21857.0,233.0,787.0,34.0,64.62,siberian
1,Алтайский край,2010,112.1,347.8,48.7,109.2,1035.7,11029.0,668.0,21857.0,207.0,776.0,15.0,68.36,siberian
2,Алтайский край,2011,108.1,285.5,50.4,111.9,1052.4,12500.0,646.4,56770.0,204.0,712.0,12.0,68.97,siberian
3,Алтайский край,2012,105.0,292.6,46.0,109.7,1087.5,13617.0,637.2,53684.0,216.0,822.0,8.0,69.11,siberian
4,Алтайский край,2013,103.6,294.3,45.7,109.4,1090.3,15896.0,623.1,55454.0,201.0,558.0,8.0,69.77,siberian
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1089,г. Санкт-Петербург,2021,84.7,374.2,91.6,110.3,1200.6,57745.0,494.8,21857.0,72.0,33.0,998.0,72.51,north_western
1090,г. Севастополь,2014,70.5,208.3,41.1,82.4,561.8,22884.0,498.9,5690.0,1.0,0.5,19.0,72.28,southern
1091,г. Севастополь,2016,60.2,191.6,40.2,78.3,515.8,26239.0,551.6,10549.0,4.0,2.0,22.0,71.64,southern
1092,г. Севастополь,2017,82.6,198.8,46.8,93.4,531.9,28130.0,436.2,11214.0,5.0,2.0,23.0,73.37,southern


## Структура данных

Наш датасет содержит следующие колонки:
- Регион 
- Год наблюдений
- Число больничных коек на 10000 человек населения
- Мощность амбулаторно-поликлинических организаций на 10000 человек населения
- Численность врачей всех специальностей на 10000 человек населения
- Численность среднего медицинского персонала на 10000 человек населения
- Заболеваемость на 1000 человек населения
- Среднедушевые денежные доходы населения (в месяц, рублей)
- Смертность населения в трудоспособном возрасте (число умерших на 100 000 человек соответствующего возраста)
- Число предприятий и организаций (на конец года)
- Выбросы загрязняющих веществ в атмосферный воздух (тысяч тонн)
- Улавливание загрязняющих атмосферу веществ (тысяч тонн)
- Сброс загрязненных сточных вод в поверхностные водные объекты (миллионов кубических метров)
- Средняя продолжительность жизни    
- Федеральный округ

In [12]:
final_dataset.to_csv('final_dataset_2.csv', index = False)

In [14]:
federal_districts.keys()

dict_keys(['central', 'southern', 'north_western', 'far_eastern', 'siberian', 'ural', 'volga', 'north_caucasian'])