In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import gc

In [3]:
%matplotlib notebook

In [4]:
pd.options.display.max_rows = 6
pd.options.display.max_columns = 12

# matplotlib のフォントを設定
plt.rcParams['font.family'] = 'Times New Roman'
plt.rcParams['mathtext.fontset'] = 'stix'

In [5]:
def ym_to_t(ym):
    y = int(ym[:4])
    m = (int(ym[5:]) - 0.5) / 12
    return y + m

In [6]:
print(ym_to_t('2016/06'))

2016.4583333333333


In [15]:
# 時刻 t を　yyyy/mm 形式の文字列に変換する
# 時刻 t が yyyy年 mm月の1日〜月末にあれば、　yyyy/mm を返す

def t_to_ym(t):
    y = int(t)
    m = int((t - y) * 12) + 1
    m = max(min(m, 12), 1)
    #月部分を２桁表示になるようにパディングする
    return str(y) + '/' + str(m).zfill(2)

In [16]:
print(t_to_ym(2019.49))

2019/06


In [17]:
df_birth = pd.read_csv('ipss_birth.csv')
df_birth

Unnamed: 0,year,sex,ratio,cum_ratio
0,1947,F,0.012150,0.012150
1,1948,F,0.012162,0.024311
2,1949,F,0.012288,0.036600
...,...,...,...,...
137,2014,M,0.004812,0.990505
138,2015,M,0.004811,0.995316
139,2016,M,0.004684,1.000000


In [18]:
# 分析開始時点
start_study_t = 2010

#分析終了時点
end_study_t = 2019.999


#指数分布のパラメタ
#観測開始期間、観察終了期間を決定する
mu = 10

#N 人の加入者を生成する
N = 5000

#全体の内、被扶養者の占める割合
family_ratio = 0.3

In [22]:
# 変数初期化
i = 0

#random seed
rs= 0
np.random.seed(rs)


df_info = pd.DataFrame()


while len(df_info) < N:
    # 一様乱数
    r = np.random.rand()
    #乱数シード更新
    rs = rs + 1
    np.random.seed(rs)
    # ss : pd.Series
    ss = df_birth[df_birth['cum_ratio'] >= r].iloc[0]
    sex = ss.sex
    by = ss.year
    # 誕生月を一様に分布させる
    # Birth Time -> Birth Year Time
    bt = by + np.random.rand()
    rs = rs + 1
    np.random.seed(rs)
    bym = t_to_ym(bt)
    
    #擬似データにおいては観察開始期間、観察終了期間は指数分布で決定する
    start_t = start_study_t - mu  + np.random.exponential(mu)
    rs = rs + 1
    np.random.seed(rs)
    end_t = start_t + np.random.exponential(mu)
    rs = rs + 1
    np.random.seed(rs)
    # | は論理和（or）
    if (end_t < start_study_t) | (end_study_t < start_t):
        # 分析期間に在籍しない場合 -> 何もしない
        pass
    else:
        # iid 個人ID
        cols = ['iid', 'sex', 'family', 'birth_ym',
               'start_obs_ym', 'end_obs_ym']
        df_expouse = pd.DataFrame(np.zeros(len(cols)).reshape(1, len(cols)), 
                                  columns = cols)
        #本人:1, 家族：２
        family = 2 - (np.random.rand() > family_ratio)
        rs = rs + 1
        np.random.seed(rs)
        df_expouse[cols] = ['i' + str(i).zfill(6), sex, family, bym,
                           t_to_ym(start_t), t_to_ym(end_t)]
        
        #df_info　の下に
        # 新しく作成した１列データフレーム　df_exposureを追加する
        df_info = pd.concat([df_info, df_expouse], axis = 0)
    i = i+1
    
# index の振り直し
df_info = df_info.reset_index()
#reset_index()により作成されてしまった index という列を消す
del df_info['index']

In [23]:
df_info.shape

(5000, 6)

In [25]:
df_info.head()

Unnamed: 0,iid,sex,family,birth_ym,start_obs_ym,end_obs_ym
0,i000000,M,1.0,1952/06,2005/09,2013/09
1,i000001,F,2.0,1972/11,2000/10,2021/06
2,i000002,M,1.0,1978/03,2001/09,2016/09
3,i000003,M,2.0,1989/03,2003/06,2013/12
4,i000006,M,1.0,1973/11,2010/04,2013/09


In [26]:
# 真の比率 vs 擬似生成された誕生年の比率（男性のみ）を図で表現

# 真の出生比率
df_birth_M = df_birth.loc[df_brith.sex == 'M', ['year', 'ratio']]
df_birth_M['ratio'] = df_birth_M.ratio / df_birth_M.ratio.sum()

#擬似生成された加入者の出生比率
df_info_M = df_info.loc[df_info.sex == 'M', ['birth_ym', 'family']]
df_info_M['birth_ym'] = df_info.M.birth_ym.apply(ym_to_t) // 1
df_info_M = df_info_M.groupby(['birth_ym']).count()
df_info_M = df_info_M / df_info_M.sum()
df_info_M

NameError: name 'df_brith' is not defined