In [3]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

from plotly.subplots import make_subplots

In [4]:
import warnings
warnings.filterwarnings('ignore')

### Define functions

In [292]:
def get_program_dict():
  program = pd.read_csv('program_data.csv')
  oktmo_str = program['oktmo'].unique()
  new_col = []
  for oktmo in program['oktmo']:
    try:
      oktmo_in = int(oktmo.replace(' ', ''))
      new_col.append(oktmo_in)
    except:
      new_col.append(-1)
  program['oktmo'] = new_col
  oktmo_in = list(set(new_col))
  oktmo_in.remove(-1)
  oktmo_region = {}
  for oktmo in oktmo_in:
    select_oktmo = program[program['oktmo'] == oktmo]
    oktmo_region[oktmo] = (select_oktmo['Регион'].iloc[0]).replace(' ', '')
  return oktmo_region

In [433]:
def plot_description(df):
    for reg in df['region_name'].unique():
        fig = make_subplots(rows=2, cols=2, subplot_titles=['участники 2014', 
                                                        'не участники 2014', 'участники 2018', 
                                                        'не участники 2018'], shared_xaxes=True)
        fig.add_trace(go.Box(x=segm['value'], name = '', marker=dict(color='royalblue')), row=1, col=col)
        reg_df = df[df['region_name'] == reg]
        y1 = reg_df[(reg_df['in_program'] == True) & (reg_df['year'] == 2014)]['value']
        y3 = reg_df[(reg_df['in_program'] == True) & (reg_df['year'] == 2018)]['value']
        y2 = reg_df[(reg_df['in_program'] == False) & (reg_df['year'] == 2014)]['value']
        y4 = reg_df[(reg_df['in_program'] == False) & (reg_df['year'] == 2018)]['value']
        fig.add_trace(
        go.Box(x =y1, marker=dict(color='royalblue'), name=''),
        row=1, col=1
    )

        fig.add_trace(
            go.Box(x = y2, marker=dict(color='royalblue'),name=''),
            row=1, col=2
        )
        fig.add_trace(
            go.Box(x = y3,marker=dict(color='royalblue'), name=''),
            row=2, col=1
        )
        fig.add_trace(
            go.Box(x = y4, marker=dict(color='royalblue'),name=''),
            row=2, col=2
        )
    
    
        fig.update_layout(title=reg, showlegend=False)
        fig.update_layout({'plot_bgcolor': 'rgba(0, 0, 0, 0)',
                            'paper_bgcolor': 'rgba(0, 0, 0, 0)',
                            })

        fig.update_xaxes(showline=True, linewidth=2, linecolor='black')
        fig.update_yaxes(showline=True, linewidth=2, linecolor='black', gridcolor='grey')
        fig.show()

In [389]:
def plot_diff_born(region, df):
    reg_df = df[df['region_name'] == region]
    value_2014_in = reg_df[(reg_df['in_program'] == True)]['value_2014'].median()
    value_2018_in = reg_df[(reg_df['in_program'] == True)]['value_2018'].median()
    value_2014_out = reg_df[(reg_df['in_program'] == False)]['value_2014'].median()
    value_2018_out = reg_df[(reg_df['in_program'] == False)]['value_2018'].median()

    fig = go.Figure()
    fig.add_trace(go.Scatter(x=['2014', '2018'], y=[value_2014_out, value_2018_out], name='не участники',
                             line=dict(color='purple', width=4)))
    fig.add_trace(go.Scatter(x=['2014', '2018'], y=[value_2014_in, value_2018_in], name='участники',
                             line=dict(color='royalblue', width=4)))
    fig.add_trace(go.Scatter(x=['2014', '2018'] , y=[value_2014_in, value_2014_in + (value_2018_out - value_2014_out)],
                             name='предположение',
                             line=dict(color='royalblue', width=4,
                                       dash='dash')))#dash options include 'dash', 'dot', and 'dashdot'
    fig.update_layout({
        'plot_bgcolor': 'rgba(0, 0, 0, 0)',
        'paper_bgcolor': 'rgba(0, 0, 0, 0)',
    })

    fig.update_layout(
        title=region,
        xaxis_title="год",
        yaxis_title="Прирост рождаемости, человек",
    )

    fig.update_xaxes(showline=True, linewidth=2, linecolor='black', gridcolor='grey', zerolinecolor='grey')
    fig.update_yaxes(showline=True, linewidth=2, linecolor='black', gridcolor='grey', zerolinecolor='grey')
    fig.show()

In [406]:
def plot_description_born(region_name):
    df = df[born['region_name'] == region_name]
    fig = make_subplots(rows=2, cols=2, subplot_titles=['участники 2014', 
                                                        'не участники 2014', 'участники 2018', 
                                                        'не участники 2018'], shared_xaxes=True)
    y1= df[df['in_program']==True]['value_2014']
    y2 = df[df['in_program']==False]['value_2014']
    y3= df[df['in_program']==True]['value_2018']
    y4= df[df['in_program']==False]['value_2018']

    fig.add_trace(
        go.Box(x =y1, marker=dict(color='royalblue'), name=''),
        row=1, col=1
    )

    fig.add_trace(
        go.Box(x = y2, marker=dict(color='royalblue'),name=''),
        row=1, col=2
    )
    fig.add_trace(
        go.Box(x = y3,marker=dict(color='royalblue'), name=''),
        row=2, col=1
    )
    fig.add_trace(
        go.Box(x = y4, marker=dict(color='royalblue'),name=''),
        row=2, col=2
    )

    fig.update_layout(title_text=region_name, showlegend=False)
    fig.update_layout({'plot_bgcolor': 'rgba(0, 0, 0, 0)',
                       'paper_bgcolor': 'rgba(0, 0, 0, 0)',
                       })

    fig.update_xaxes(showline=True, linewidth=2, linecolor='black')
    fig.update_yaxes(showline=True, linewidth=2, linecolor='black', gridcolor='grey')
    fig.show()

In [341]:
def plot_diff(region, df):
    reg_df = df[df['region_name'] == region]
    value_2014_in = reg_df[(reg_df['in_program'] == True) & (reg_df['year'] == 2014)]['value'].median()
    value_2018_in = reg_df[(reg_df['in_program'] == True) & (reg_df['year'] == 2018)]['value'].median()
    value_2014_out = reg_df[(reg_df['in_program'] == False) & (reg_df['year'] == 2014)]['value'].median()
    value_2018_out = reg_df[(reg_df['in_program'] == False) & (reg_df['year'] == 2018)]['value'].median()

    fig = go.Figure()
    fig.add_trace(go.Scatter(x=['2014', '2018'], y=[value_2014_out, value_2018_out], name='не участники',
                             line=dict(color='purple', width=4)))
    fig.add_trace(go.Scatter(x=['2014', '2018'], y=[value_2014_in, value_2018_in], name='участники',
                             line=dict(color='royalblue', width=4)))        
    fig.add_trace(go.Scatter(x=['2014', '2018'] , y=[value_2014_in, value_2014_in + (value_2018_out - value_2014_out)],
                             name='предположение',
                             line=dict(color='royalblue', width=4,
                                  dash='dash')))#dash options include 'dash', 'dot', and 'dashdot'
    fig.update_layout({
    'plot_bgcolor': 'rgba(0, 0, 0, 0)',
    'paper_bgcolor': 'rgba(0, 0, 0, 0)',
    })

    fig.update_layout(
        title=region,
        xaxis_title="год",
        yaxis_title="Население, человек"
    )

    fig.update_xaxes(showline=True, linewidth=2, linecolor='black', gridcolor='grey', zerolinecolor='grey')
    fig.update_yaxes(showline=True, linewidth=2, linecolor='black', gridcolor='grey', zerolinecolor='grey')

    fig.show()

### Read & Format

In [277]:
population = pd.read_excel('fd_8112027.xlsx')
pop14 = pd.read_csv('population_final.csv')
popl17 = pd.read_csv('pop18cleaner.csv')

In [278]:
pop14 = pop14[:3092]
popl17 = popl17[:2283]
pop14 = pop14.fillna(False)
in_program_col = list()
for oktmo in pop14['октмо']:
    in_program = False
    if oktmo != False:
        in_program=True
    in_program_col.append(in_program)
pop14['in_program'] = in_program_col
#pop13 = pop13[['регион', '2013', '2014', 'in_program']]
pop14 = pop14.drop(columns=['название ', '2013   ', 'октмо'])
pop14 = pop14.rename({'регион': 'region_name', '2014   ': 'value'},
                     axis=1)
pop14 = pop14[pop14['region_name'] != 'Воронежская область']

In [279]:
popl17 = popl17.fillna(False)
in_program_col = list()
for oktmo in popl17['октмо']:
    in_program = False
    if oktmo != False:
        in_program=True
    in_program_col.append(in_program)
popl17['in_program'] = in_program_col
#pop13 = pop13[['регион', '2013', '2014', 'in_program']]
popl17 = popl17.drop(columns=['МО', '2017', 'октмо'])
popl17 = popl17.rename({'регион': 'region_name', '2018': 'value',}, axis=1)

In [280]:
pop14['year'] = [2014]*len(pop14)
popl17['year'] = [2018]*len(popl17)
population = pd.concat([pop14, popl17])
population

Unnamed: 0,region_name,value,in_program,year
0,Архангельская область,1186.0,False,2014
1,Архангельская область,1642.0,False,2014
2,Архангельская область,667.0,False,2014
3,Архангельская область,659.0,False,2014
4,Архангельская область,681.0,False,2014
...,...,...,...,...
2278,Красноярский край,266.0,False,2018
2279,Красноярский край,87.0,False,2018
2280,Красноярский край,3292.0,False,2018
2281,Красноярский край,2914.0,False,2018


In [335]:
population.to_csv('population.csv')

In [5]:
population= pd.read_csv('population.csv')

In [15]:
population[(population['region_name'] == 'Астраханская область')& (population['value'] > 10000)]

Unnamed: 0.1,Unnamed: 0,region_name,value,in_program,year
424,870,Астраханская область,10111.0,False,2014
463,909,Астраханская область,10279.0,False,2014
499,945,Астраханская область,13002.0,True,2014
4334,1688,Астраханская область,10073.0,False,2018
4372,1726,Астраханская область,12071.0,False,2018
4418,1772,Астраханская область,10144.0,True,2018
4423,1777,Астраханская область,11659.0,False,2018


In [12]:
population

Unnamed: 0.1,Unnamed: 0,region_name,value,in_program,year
0,0,Архангельская область,1186.0,False,2014
1,1,Архангельская область,1642.0,False,2014
2,2,Архангельская область,667.0,False,2014
3,3,Архангельская область,659.0,False,2014
4,4,Архангельская область,681.0,False,2014
...,...,...,...,...,...
4924,2278,Красноярский край,266.0,False,2018
4925,2279,Красноярский край,87.0,False,2018
4926,2280,Красноярский край,3292.0,False,2018
4927,2281,Красноярский край,2914.0,False,2018


### Descriptive Statisctics

#### Variance

In [414]:
for region in population['region_name'].unique():
    df = population[population['region_name']==region]
    y1= df[(df['in_program']==True) & (df['year'] == 2014)]['value']
    y2 = df[(df['in_program']==False) & (df['year'] == 2014)]['value']
    y3= df[(df['in_program']==True)& (df['year'] == 2018)]['value']
    y4= df[(df['in_program']==False) & (df['year'] == 2018)]['value']
    print(region)
    print(round(np.var(y1)), 'в проге 1024')
    print(round(np.var(y2)), 'не в проге 2014')
    print(round(np.var(y3)), 'в проге 2018')
    print(round(np.var(y4)), 'не в проге 2018')

Архангельская область
2186722 в проге 1024
1402380 не в проге 2014
1960619 в проге 2018
1652289 не в проге 2018
Вологодская область
4742944 в проге 1024
1652904 не в проге 2014
4910965 в проге 2018
2863374 не в проге 2018
Астраханская область
9280118 в проге 1024
3448110 не в проге 2014
6001093 в проге 2018
4548222 не в проге 2018
Красноярский край
2634900 в проге 1024
2101117 не в проге 2014
2306693 в проге 2018
2649299 не в проге 2018
Забайкальский край
1250794 в проге 1024
1148585 не в проге 2014
1123981 в проге 2018
2410705 не в проге 2018
Алтайский край
888070 в проге 1024
3461790 не в проге 2014
1990865 в проге 2018
2064212 не в проге 2018
Волгоградская область
988374 в проге 1024
1570733 не в проге 2014
1521333 в проге 2018
1047735 не в проге 2018


In [419]:

df = born[born['region_name']=='Астраханскаяобласть']
y1= df[df['in_program']==True]['value_2014']
y2 = df[df['in_program']==False]['value_2014']
y3= df[df['in_program']==True]['value_2018']
y4= df[df['in_program']==False]['value_2018']
print('Астраханскаяобласть')
print(round(np.var(y1)), 'в проге 2014')
print(round(np.var(y2)), 'не в проге 2014')
print(round(np.var(y3)), 'в проге 2018')
print(round(np.var(y4)), 'не в проге 2018')

Астраханскаяобласть
661 в проге 2014
19568 не в проге 2014
558 в проге 2018
11378 не в проге 2018


#### Plots

In [434]:
plot_description(population)

In [340]:
plot_description(pop14, '2014')

### Difference in Differences Plots

In [344]:
population['region_name'].unique()

array(['Архангельская область', 'Вологодская область',
       'Астраханская область', 'Красноярский край', 'Забайкальский край',
       'Алтайский край', 'Волгоградская область'], dtype=object)

In [345]:
regions = ['Архангельскаяобласть', 'Вологодскаяобласть',
       'Астраханскаяобласть', 'Красноярскийкрай', 'Забайкальскийкрай',
       'Алтайскийкрай', 'Волгоградскаяобласть']
born=pd.read_csv('born_growth.csv')
born = born[born['region_name'].isin(regions)]

In [347]:
born

Unnamed: 0.1,Unnamed: 0,oktmo,region_name,value_2014,value_2015,value_2016,value_2017,value_2018,in_program
0,0,1601402,Алтайскийкрай,21.0,25.0,19.0,18.0,12.0,True
1,1,1601408,Алтайскийкрай,9.0,10.0,9.0,10.0,10.0,False
2,2,1601413,Алтайскийкрай,8.0,6.0,4.0,6.0,2.0,False
3,3,1601417,Алтайскийкрай,21.0,4.0,3.0,7.0,12.0,False
4,4,1601420,Алтайскийкрай,12.0,18.0,14.0,12.0,17.0,False
...,...,...,...,...,...,...,...,...,...
5503,5503,76654445,Забайкальскийкрай,44.0,23.0,23.0,27.0,24.0,False
5504,5504,76654450,Забайкальскийкрай,22.0,16.0,16.0,13.0,18.0,False
5505,5505,76654455,Забайкальскийкрай,6.0,7.0,7.0,13.0,15.0,False
5506,5506,76654460,Забайкальскийкрай,18.0,14.0,14.0,12.0,21.0,False


In [390]:
for region in regions:
    plot_diff_born(region, born)

In [299]:
def read_astr(name):
    df = pd.read_csv(name)
    df = df[(df['region_name'] == 'Астраханская область') & (df['god'].isin([2014, 2018]))]
    df = df[['region_name', 'oktmo']]
    df['oktmo'] = pd.to_numeric(df['oktmo']).astype(int)
    df['in_program'] = [(oktmo in program_data.keys()) for oktmo in df_inp['oktmo']]
    return df

In [300]:
program_data = get_program_dict()

In [302]:
sport = read_astr('fd_8003001.xlsx')
roads = read_astr('fd_8006005')
hosp = read_astr('fd_8018100')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8f in position 22: invalid start byte