# Исследование развития производственных и добывающих предприятий в России

### Цель исследования:
 - определить количественные показатели развития предприятий с течением времени
### Ход исследования:
 1. Изучить данные, определить, какие значения можно использовать для расчётов
 2. Провести преобработку данных
 3. Сформулировать гипотезы
 4. Провести обзорный анализ
 5. Обработать данные, провести вычисления
 6. Сформулировать выводы

In [196]:
#library import
import pandas as pd
import numpy as np

## 1. Изучение данных

In [197]:
#reading file, exploring
df = pd.read_csv("cities_data.csv", sep=";")
df.head(10)

Unnamed: 0,region,municipality,settlement,oktmo,latitude_dd,longitude_dd,year,assets,assets_depreciation,assets_exhausted,...,retail_growth,rni,schools,servises,volume_electr,volume_manufact,volume_mining,volume_water,wage,workers
0,Алтайский край,Барнаул,Барнаул,1701000001,53.348056,83.78,1985,,,,...,,6.6,91.0,0.147,,,,,0.213,353.8
1,Алтайский край,Барнаул,Барнаул,1701000001,53.348056,83.78,1990,,,,...,,2.9,99.0,0.208,,,,,0.296,336.7
2,Алтайский край,Барнаул,Барнаул,1701000001,53.348056,83.78,1995,,,,...,,-6.1,107.0,432.6,,,,,440.0,269.5
3,Алтайский край,Барнаул,Барнаул,1701000001,53.348056,83.78,1996,,,,...,,-6.2,107.0,694.6,,,,,756.5,262.8
4,Алтайский край,Барнаул,Барнаул,1701000001,53.348056,83.78,1997,,,,...,,-4.9,108.0,1035.4,,,,,889.9,257.6
5,Алтайский край,Барнаул,Барнаул,1701000001,53.348056,83.78,1998,,,,...,,-3.1,110.0,1214.8,,,,,947.4,240.4
6,Алтайский край,Барнаул,Барнаул,1701000001,53.348056,83.78,1999,,,,...,,-3.9,110.0,1899.9,,,,,1300.0,246.4
7,Алтайский край,Барнаул,Барнаул,1701000001,53.348056,83.78,2000,,,,...,,-3.7,112.0,2602.7,,,,,1873.2,242.0
8,Алтайский край,Барнаул,Барнаул,1701000001,53.348056,83.78,2001,,,,...,,-3.9,110.0,3791.1,,,,,2473.0,232.6
9,Алтайский край,Барнаул,Барнаул,1701000001,53.348056,83.78,2002,,,,...,,-3.7,120.0,5101.4,,,,,3672.0,221.1


In [198]:
#explore columns
df.columns

Index(['region', 'municipality', 'settlement', 'oktmo', 'latitude_dd',
       'longitude_dd', 'year', 'assets', 'assets_depreciation',
       'assets_exhausted', 'assets_new', 'birth', 'build_flat', 'catering',
       'catering_growth', 'collective_foreign', 'collective_people',
       'collective_russian', 'comp_electr', 'comp_manufact', 'comp_mining',
       'construction', 'crimes', 'criminals', 'death', 'doctors',
       'doctors_per10', 'domesticserv', 'hospital_beds', 'hospital_beds_per10',
       'hospitals', 'industry', 'invest_budg', 'invest_fed', 'invest_reg',
       'investment', 'job_regist', 'job_regist_unempl', 'job_seeker',
       'job_seeker_unempl', 'living_space', 'migration', 'n_companies',
       'new_hospital_beds', 'new_housing', 'new_polycl_visits',
       'new_preschool_places', 'new_school_places', 'nurses', 'nurses_per10',
       'pens', 'pension', 'polycl_visits', 'polycl_visits_per10', 'polyclinic',
       'pop_1_6', 'pop_old', 'pop_work', 'pop_young', 'popu

## 2. Предобработка данных

In [199]:
#drop data, we don't need
df = df.drop(columns=['region', 'municipality', "oktmo","latitude_dd", "longitude_dd", 'assets', 'assets_depreciation',
       'assets_exhausted', 'assets_new', 'birth', 'build_flat', 'catering',
       'catering_growth', 'collective_foreign', 'collective_people',
       'collective_russian',  'crimes', 'criminals', 'death', 'doctors',
       'doctors_per10', 'domesticserv', 'hospital_beds', 'hospital_beds_per10',
       'hospitals', 'industry', 'invest_budg', 'invest_fed', 'invest_reg',
       'investment', 'job_regist', 'job_regist_unempl', 'job_seeker',
       'job_seeker_unempl', 'living_space', 'migration', 'n_companies',
       'new_hospital_beds', 'new_housing', 'new_polycl_visits',
       'new_preschool_places', 'new_school_places', 'nurses', 'nurses_per10',
       'pens', 'pension', 'polycl_visits', 'polycl_visits_per10', 'polyclinic',
       'pop_1_6', 'pop_old', 'pop_work', 'pop_young', 'population',
       'preschool', 'preschool_child', 'preschool_coverage',
       'preschool_places', 'preschool_waiting', 'pupils', 'retail',
       'retail_growth', 'rni', 'schools', 'servises', 'volume_electr',
       'volume_manufact', 'volume_mining',  'volume_water', 'wage', 'workers', 'construction'])

In [200]:
#drop NA values
df = df.dropna().reset_index(drop=True)
df.head(10)

Unnamed: 0,settlement,year,comp_electr,comp_manufact,comp_mining
0,Барнаул,2005,88.0,405.0,1.0
1,Барнаул,2006,93.0,454.0,2.0
2,Барнаул,2007,106.0,473.0,2.0
3,Барнаул,2008,95.0,430.0,3.0
4,Барнаул,2009,90.0,406.0,3.0
5,Барнаул,2010,91.0,385.0,2.0
6,Барнаул,2011,81.0,360.0,4.0
7,Барнаул,2012,71.0,380.0,4.0
8,Барнаул,2013,74.0,384.0,2.0
9,Барнаул,2014,67.0,383.0,2.0


In [201]:
#show duplicates
df.duplicated

<bound method DataFrame.duplicated of       settlement  year  comp_electr  comp_manufact  comp_mining
0        Барнаул  2005         88.0          405.0          1.0
1        Барнаул  2006         93.0          454.0          2.0
2        Барнаул  2007        106.0          473.0          2.0
3        Барнаул  2008         95.0          430.0          3.0
4        Барнаул  2009         90.0          406.0          3.0
...          ...   ...          ...            ...          ...
1503  Биробиджан  2011         20.0           46.0          1.0
1504  Биробиджан  2012         16.0           44.0          2.0
1505  Биробиджан  2013         14.0           41.0          2.0
1506  Биробиджан  2014         16.0           39.0          5.0
1507  Биробиджан  2015         17.0           31.0          5.0

[1508 rows x 5 columns]>

In [202]:
#drop duplicates
df = df.drop_duplicates().reset_index(drop=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1508 entries, 0 to 1507
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   settlement     1508 non-null   object 
 1   year           1508 non-null   int64  
 2   comp_electr    1508 non-null   float64
 3   comp_manufact  1508 non-null   float64
 4   comp_mining    1508 non-null   float64
dtypes: float64(3), int64(1), object(1)
memory usage: 59.0+ KB


## 3. Формулирование гипотез

#### **гипотеза №1** - количество предприятий в РФ увеличилось с годами
#### **гипотеза №2** - в каждом городе число предприятий увеличилось
#### **гипотеза №3** - наиболее устойчивая область экономики - добыча полезных ресурсов

## 4. Обзорный анализ

In [204]:
#select unique settlement names
settlements = df["settlement"].unique()
settlements

array(['Барнаул', 'Бийск', 'Краснодар', 'Армавир', 'Новороссийск', 'Сочи',
       'Дудинка', 'Красноярск', 'Ачинск', 'Канск', 'Норильск',
       'Владивосток', 'Артем', 'Находка', 'Уссурийск', 'Ставрополь',
       'Невинномысск', 'Пятигорск', 'Хабаровск', 'Комсомольск-на-Амуре',
       'Благовещенск', 'Архангельск', 'Нарьян-Мар', 'Астрахань',
       'Белгород', 'Старый Оскол', 'Брянск', 'Владимир', 'Муром',
       'Волгоград', 'Волжский', 'Камышин', 'Вологда', 'Череповец',
       'Воронеж', 'Нижний Новгород', 'Арзамас', 'Дзержинск', 'Иваново',
       'Иркутск', 'Ангарск', 'Братск', 'Назрань', 'Калининград', 'Тверь',
       'Калуга', 'Обнинск', 'Петропавловск-Камчатский', 'Кемерово',
       'Белово', 'Киселевск', 'Ленинск-Кузнецкий', 'Междуреченск',
       'Новокузнецк', 'Прокопьевск', 'Киров', 'Кострома', 'Симферополь',
       'Евпатория', 'Самара', 'Новокуйбышевск', 'Сызрань', 'Тольятти',
       'Курган', 'Курск', 'Липецк', 'Елец', 'Магадан', 'Сергиев Посад',
       'Домодедово', 'Жел

In [205]:
#check unique values of "year" column
sorted(df["year"].unique().tolist())

[2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015]

## 5. Обработка данных и вычисления 

In [206]:
# functions to take first and the last row for specified settlement
def take_first(settlement_name):
    filtered = df.loc[df.loc[:, "settlement"] == settlement_name]
    #first_row = filtered.loc[filtered.loc[:,"year"] == filtered.loc[:,"year"].min()].reset_index(drop=True)
    first_row = filtered.loc[filtered.loc[:,"year"] == filtered.loc[:,"year"].min()].reset_index(drop=True)
    #print (first_row)
    return first_row

def take_last(settlement_name):
    filtered = df.loc[df.loc[:, "settlement"] == settlement_name]
    last_row = filtered.loc[filtered.loc[:,"year"] == filtered.loc[:,"year"].max()].reset_index(drop=True)
    #print(last_row)
    return last_row

In [207]:
#check most common "year" value
start = round(df.groupby("settlement")["year"].min().mean())
end = round(df.groupby("settlement")["year"].max().mean())
print(start)
print(end)

2006
2014


In [208]:
#let's check cities which rows all are in the period from 2006 to 2014 years
years = np.arange(start, end)
cities = []

for settlement in settlements:
    years_counter = 0
    set_df = df.loc[df.loc[:,"settlement"] == settlement]
    for year in years:
        if any(set_df.loc[:,"year"] == year):
            years_counter += 1
    if years_counter == len(years):
        cities.append(settlement)

print(cities)

['Барнаул', 'Бийск', 'Краснодар', 'Армавир', 'Сочи', 'Красноярск', 'Ачинск', 'Норильск', 'Владивосток', 'Артем', 'Находка', 'Уссурийск', 'Ставрополь', 'Невинномысск', 'Хабаровск', 'Комсомольск-на-Амуре', 'Благовещенск', 'Архангельск', 'Нарьян-Мар', 'Астрахань', 'Белгород', 'Старый Оскол', 'Брянск', 'Владимир', 'Волгоград', 'Волжский', 'Камышин', 'Череповец', 'Нижний Новгород', 'Иркутск', 'Ангарск', 'Братск', 'Калининград', 'Тверь', 'Калуга', 'Петропавловск-Камчатский', 'Кемерово', 'Белово', 'Ленинск-Кузнецкий', 'Междуреченск', 'Новокузнецк', 'Прокопьевск', 'Киров', 'Кострома', 'Самара', 'Новокуйбышевск', 'Сызрань', 'Курган', 'Липецк', 'Елец', 'Магадан', 'Коломна', 'Мурманск', 'Великий Новгород', 'Новосибирск', 'Омск', 'Оренбург', 'Орск', 'Орёл', 'Пенза', 'Пермь', 'Березники', 'Псков', 'Балаково', 'Энгельс', 'Саратов', 'Южно-Сахалинск', 'Екатеринбург', 'Нижний Тагил', 'Первоуральск', 'Томск', 'Тула', 'Новомосковск', 'Тюмень', 'Ханты-Мансийск', 'Нефтеюганск', 'Нижневартовск', 'Сургут', '

In [209]:
#select only "correct" settlements
df = df.loc[df.loc[:, "settlement"].isin(cities)]

In [210]:
#check hypothesis 1 and 3
settlements = df["settlement"].unique()
features = {"1. Предприятий электроэнергетики:" : "comp_electr",
            "2. Производственных предприятий:" : "comp_manufact",
            "3. Добывающих предприятий:": "comp_mining"}

print("Доля городов с возросшим числом предприятий:")
for description, feature in features.items():
    grown_settlements = 0
    total_settlements = len(settlements)
    print(description)
    for settlement in settlements:
            if take_first(settlement).loc[0, feature] < take_last(settlement).loc[0, feature]:
                grown_settlements += 1
    grown_part = grown_settlements/total_settlements
    print(format(grown_part, ".2f"))

print("\nДоля городов с сократившимся числом предприятий:")
for description, feature in features.items():
    reduced_settlements = 0
    total_settlements = len(settlements)
    print(description)
    for settlement in settlements:
            if take_first(settlement).loc[0, feature] > take_last(settlement).loc[0, feature]:
                reduced_settlements += 1
    reduced_part = reduced_settlements/total_settlements
    print(format(reduced_part, ".2f"))


Доля городов с возросшим числом предприятий:
1. Предприятий электроэнергетики:
0.49
2. Производственных предприятий:
0.40
3. Добывающих предприятий:
0.53

Доля городов с сократившимся числом предприятий:
1. Предприятий электроэнергетики:
0.50
2. Производственных предприятий:
0.59
3. Добывающих предприятий:
0.31


In [211]:
#chech hypothesis 2
for description, feature in features.items():
    past_companies_count = 0
    today_companies_count = 0
    print(description)
    for settlement in settlements:
            past_companies_count += take_first(settlement).loc[0, feature]
            today_companies_count += take_last(settlement).loc[0, feature]
    print(f"Всего компаний в прошлом {past_companies_count}")
    print(f"Всего компаний сейчас {today_companies_count}")

1. Предприятий электроэнергетики:
Всего компаний в прошлом 5057.0
Всего компаний сейчас 4970.0
2. Производственных предприятий:
Всего компаний в прошлом 21482.0
Всего компаний сейчас 19169.0
3. Добывающих предприятий:
Всего компаний в прошлом 668.0
Всего компаний сейчас 1114.0


## 6. Выводы

##### **гипотеза №1**
    Предприятия открывались в одних регионах, и закрывались в других, суммарное число предприятий изменилось не более чем на 7%. Гипотеза об увеличении числа предприятий опровергнута.
##### **гипотезы №2**
    Доля городов, в которых число предприятий увеличилось:
    1. Электроэнергетика - 0.49
    2. Производство - 0.40
    3. Добывающая отрасль - 0.53
    Сразу в двух отраслях нельзя говорить о росте количества предприятий.
##### **гипотеза №3**
    Единственная отрасль, в которой число компаний значительно увеличилось - добывающая, показан рост числа предприятий более чем на 66% по всей стране также в этой области самый низкий процент сокращения предприятий по городам: только в 31% городов число добывающих предприятий сократилось в то время, как по другим областям сокращения произошли в 50% и 59% городов