# 政府統計(e-Stat)から運動習慣のデータを調査
- [運動習慣の状況別，歩行数の分布（20歳以上，性・年齢階級別）from 国民健康・栄養調査 ](https://www.e-stat.go.jp/dbview?sid=0003225420)


In [1]:
## インポート
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns
import requests
import jpy_datareader.data as web

# e-StatのAPI_KEY
'''
「pythonで環境ファイルを読み込む」を参照
https://zenn.dev/nakashi94/articles/9c93b6a58acdb4
'''
api = os.environ.get("API_KEY")

In [4]:
jpy_df = web.DataReader("0003225420", "estat", api_key=api,retry_count=3)
jpy_df

Unnamed: 0,年齢階級,運動習慣の有無,性別,歩行数,時間軸(年次),人数,割合
0,(再掲)20歳以上,有,女性,"10,000歩以上",2009年,178.0,23.9
1,(再掲)20歳以上,有,女性,"2,000歩-3,999歩",2009年,100.0,13.4
2,(再掲)20歳以上,有,女性,"2,000歩未満",2009年,48.0,6.4
3,(再掲)20歳以上,有,女性,"4,000歩-5,999歩",2009年,155.0,20.8
4,(再掲)20歳以上,有,女性,"6,000歩-7,999歩",2009年,137.0,18.4
...,...,...,...,...,...,...,...
1819,総数,総数,総数,"8,000歩-9,999歩",2010年,592.0,13.8
1820,総数,総数,総数,総数,2009年,4568.0,100.0
1821,総数,総数,総数,総数,2010年,4294.0,100.0
1822,総数,総数,総数,"（再掲）9,200歩(男)/8,300歩(女)以上",2009年,1218.0,26.7


In [5]:
## データな中身を確認
colum_list = ['時間軸(年次)', '性別','運動習慣の有無','年齢階級', '歩行数']

for colum in colum_list:
    print(f'▼▼▼▼▼▼ {colum} ▼▼▼▼▼▼')
    print(jpy_df[colum].value_counts())
    print('')

▼▼▼▼▼▼ 時間軸(年次) ▼▼▼▼▼▼
時間軸(年次)
2009年    960
2010年    864
Name: count, dtype: int64

▼▼▼▼▼▼ 性別 ▼▼▼▼▼▼
性別
女性    608
男性    608
総数    608
Name: count, dtype: int64

▼▼▼▼▼▼ 運動習慣の有無 ▼▼▼▼▼▼
運動習慣の有無
有           456
無_その他       456
無_健康上の理由    456
総数          456
Name: count, dtype: int64

▼▼▼▼▼▼ 年齢階級 ▼▼▼▼▼▼
年齢階級
(再掲)65歳-74歳    192
(再掲)75歳以上      192
20歳-29歳        192
30歳-39歳        192
40歳-49歳        192
50歳-59歳        192
60歳-69歳        192
70歳以上          192
総数             192
(再掲)20歳以上       96
Name: count, dtype: int64

▼▼▼▼▼▼ 歩行数 ▼▼▼▼▼▼
歩行数
10,000歩以上                    228
2,000歩-3,999歩                228
2,000歩未満                     228
4,000歩-5,999歩                228
6,000歩-7,999歩                228
8,000歩-9,999歩                228
総数                           228
（再掲）9,200歩(男)/8,300歩(女)以上    228
Name: count, dtype: int64



In [14]:
## データを絞る
'''
時間軸(年次) : 2010年
性別： 総数
年齢階級 : '20歳-29歳','30歳-39歳','総数 '
歩行数 : '（再掲）9,200歩(男)/8,300歩(女)以上'は除く
'''
age_list =  ['20歳-29歳']
df2 = jpy_df[(jpy_df['時間軸(年次)'] == '2010年') & (jpy_df['性別'] == '総数') & (jpy_df['年齢階級'].isin(age_list)) & ~(jpy_df['歩行数'] == '（再掲）9,200歩(男)/8,300歩(女)以上')]
df2

Unnamed: 0,年齢階級,運動習慣の有無,性別,歩行数,時間軸(年次),人数,割合
513,20歳-29歳,有,総数,"10,000歩以上",2010年,12.0,27.3
515,20歳-29歳,有,総数,"2,000歩-3,999歩",2010年,6.0,13.6
517,20歳-29歳,有,総数,"2,000歩未満",2010年,2.0,4.5
519,20歳-29歳,有,総数,"4,000歩-5,999歩",2010年,5.0,11.4
521,20歳-29歳,有,総数,"6,000歩-7,999歩",2010年,14.0,31.8
523,20歳-29歳,有,総数,"8,000歩-9,999歩",2010年,5.0,11.4
525,20歳-29歳,有,総数,総数,2010年,44.0,100.0
561,20歳-29歳,無_その他,総数,"10,000歩以上",2010年,40.0,19.9
563,20歳-29歳,無_その他,総数,"2,000歩-3,999歩",2010年,33.0,16.4
565,20歳-29歳,無_その他,総数,"2,000歩未満",2010年,14.0,7.0


In [44]:
df2 = jpy_df[(jpy_df['時間軸(年次)'] == '2010年') & (jpy_df['性別'] == '総数') & (jpy_df['年齢階級'].isin(age_list)) & ~(jpy_df['歩行数'] == '（再掲）9,200歩(男)/8,300歩(女)以上')]
# 運動習慣の列の値を「無_その他」を「無」に変更
df2.loc[df2['運動習慣の有無'].str.contains('無_その他'), '運動習慣の有無'] = '無'
# 運動習慣の「無」に「無_健康上の理由」の値を合算
step_list = ['2,000歩-3,999歩','2,000歩未満','4,000歩-5,999歩','6,000歩-7,999歩','8,000歩-9,999歩','総数']
for step in step_list:
    total_count = df2.loc[(df2['運動習慣の有無'] == '無') & (df2['歩行数'] == step) , '人数'].sum() + df2.loc[(df2['運動習慣の有無'] == '無_健康上の理由') & (df2['歩行数'] == step) , '人数'].sum()
    df2.loc[(df2['運動習慣の有無'] == '無') & (df2['歩行数'] == step), '人数'] = total_count
# 「無_健康上の理由」を削除
df2 = df2.drop(df2[df2['運動習慣の有無'] == '無_健康上の理由'].index)
df2

Unnamed: 0,年齢階級,運動習慣の有無,性別,歩行数,時間軸(年次),人数,割合
513,20歳-29歳,有,総数,"10,000歩以上",2010年,12.0,27.3
515,20歳-29歳,有,総数,"2,000歩-3,999歩",2010年,6.0,13.6
517,20歳-29歳,有,総数,"2,000歩未満",2010年,2.0,4.5
519,20歳-29歳,有,総数,"4,000歩-5,999歩",2010年,5.0,11.4
521,20歳-29歳,有,総数,"6,000歩-7,999歩",2010年,14.0,31.8
523,20歳-29歳,有,総数,"8,000歩-9,999歩",2010年,5.0,11.4
525,20歳-29歳,有,総数,総数,2010年,44.0,100.0
561,20歳-29歳,無,総数,"10,000歩以上",2010年,40.0,19.9
563,20歳-29歳,無,総数,"2,000歩-3,999歩",2010年,33.0,16.4
565,20歳-29歳,無,総数,"2,000歩未満",2010年,15.0,7.0


In [42]:
df2.loc[(df2['歩行数'] == '総数') , '人数']

525     44.0
573    204.0
669    248.0
Name: 人数, dtype: float64

In [43]:
df2.loc[(df2['歩行数'] == '総数') , '人数'].sum()

496.0

In [67]:
df2.loc[(df2['運動習慣の有無'] == '無') & (df2['歩行数'] == '10,000歩以上') | (df2['歩行数'] == '総数') , '人数']

525     44.0
561     40.0
573    204.0
669    248.0
Name: 人数, dtype: float64

In [46]:
age_list =  ['20歳-29歳','30歳-39歳','40歳-49歳','50歳-59歳','60歳-69歳','70歳以上']
df3 = jpy_df[(jpy_df['時間軸(年次)'] == '2010年') & (jpy_df['性別'] == '総数') & (jpy_df['年齢階級'].isin(age_list)) & ~(jpy_df['歩行数'] == '（再掲）9,200歩(男)/8,300歩(女)以上')]
df3

Unnamed: 0,年齢階級,運動習慣の有無,性別,歩行数,時間軸(年次),人数,割合
513,20歳-29歳,有,総数,"10,000歩以上",2010年,12.0,27.3
515,20歳-29歳,有,総数,"2,000歩-3,999歩",2010年,6.0,13.6
517,20歳-29歳,有,総数,"2,000歩未満",2010年,2.0,4.5
519,20歳-29歳,有,総数,"4,000歩-5,999歩",2010年,5.0,11.4
521,20歳-29歳,有,総数,"6,000歩-7,999歩",2010年,14.0,31.8
...,...,...,...,...,...,...,...
1621,70歳以上,総数,総数,"2,000歩未満",2010年,303.0,27.9
1623,70歳以上,総数,総数,"4,000歩-5,999歩",2010年,191.0,17.6
1625,70歳以上,総数,総数,"6,000歩-7,999歩",2010年,140.0,12.9
1627,70歳以上,総数,総数,"8,000歩-9,999歩",2010年,91.0,8.4


In [80]:
age_list =  ['20歳-29歳','30歳-39歳','40歳-49歳','50歳-59歳','60歳-69歳','70歳以上']
step_list = ['2,000歩-3,999歩','2,000歩未満','4,000歩-5,999歩','6,000歩-7,999歩','8,000歩-9,999歩','総数']
df3 = jpy_df[(jpy_df['時間軸(年次)'] == '2010年') & (jpy_df['性別'] == '総数') & (jpy_df['年齢階級'].isin(age_list)) & ~(jpy_df['歩行数'] == '（再掲）9,200歩(男)/8,300歩(女)以上')]
# 運動習慣の列の値を「無_その他」を「無」に変更
df3.loc[df3['運動習慣の有無'].str.contains('無_その他'), '運動習慣の有無'] = '無'
# 運動習慣の「無」に「無_健康上の理由」の値を合算
for age in age_list:
    for step in step_list:
        total_count = df3.loc[(df3['運動習慣の有無'].isin(['無','無_健康上の理由']) ) & (df3['年齢階級'] == age) & (df3['歩行数'] == step) , '人数'].sum()
        df3.loc[(df3['運動習慣の有無'] == '無') & (df3['年齢階級'] == age) & (df3['歩行数'] == step), '人数'] = total_count
# 「無_健康上の理由」を削除
df3 = df3.drop(df3[df3['運動習慣の有無'] == '無_健康上の理由'].index)
# indexの振り直し
df3 = df3.reset_index()
df3 = df3.drop(['index','割合'],axis=1)
df3.head(21)

Unnamed: 0,年齢階級,運動習慣の有無,性別,歩行数,時間軸(年次),人数
0,20歳-29歳,有,総数,"10,000歩以上",2010年,12.0
1,20歳-29歳,有,総数,"2,000歩-3,999歩",2010年,6.0
2,20歳-29歳,有,総数,"2,000歩未満",2010年,2.0
3,20歳-29歳,有,総数,"4,000歩-5,999歩",2010年,5.0
4,20歳-29歳,有,総数,"6,000歩-7,999歩",2010年,14.0
5,20歳-29歳,有,総数,"8,000歩-9,999歩",2010年,5.0
6,20歳-29歳,有,総数,総数,2010年,44.0
7,20歳-29歳,無,総数,"10,000歩以上",2010年,40.0
8,20歳-29歳,無,総数,"2,000歩-3,999歩",2010年,33.0
9,20歳-29歳,無,総数,"2,000歩未満",2010年,15.0


In [81]:
df3.to_csv('../data/step_exsize.csv',index=True)

In [12]:
## applyとlambda
age_list =  ['20歳-29歳','30歳-39歳','40歳-49歳','50歳-59歳','60歳-69歳','70歳以上']
step_list = ['2,000歩-3,999歩','2,000歩未満','4,000歩-5,999歩','6,000歩-7,999歩','8,000歩-9,999歩','総数']
df = jpy_df[(jpy_df['時間軸(年次)'] == '2010年') & (jpy_df['性別'] == '総数') & (jpy_df['年齢階級'].isin(age_list)) & ~(jpy_df['歩行数'] == '（再掲）9,200歩(男)/8,300歩(女)以上')]

# 運動習慣の列の値を「無_その他」を「無」に変更
df.loc[df['運動習慣の有無'].str.contains('無_その他'), '運動習慣の有無'] = '無'

# 運動習慣の「無」に「無_健康上の理由」の値を合算する関数
def total_count(row):
    age = row['年齢階級']
    step = row['歩行数']
    total_count = df.loc[(df['運動習慣の有無'].isin(['無','無_健康上の理由'])) & (df['年齢階級'] == age) & (df['歩行数'] == step), '人数'].sum()
    if row['運動習慣の有無'] == '無':
        return total_count
    else:
        return row['人数']

# applyとlambdaを使って各行にtotal_count関数を適用する
df['人数'] = df.apply(lambda row: total_count(row), axis=1)

# 「無_健康上の理由」を削除
df = df.drop(df[df['運動習慣の有無'] == '無_健康上の理由'].index)

# indexの振り直し
df = df.reset_index(drop=True)
df = df.drop(['割合'], axis=1)

# 最初の21行を表示
df.head(21)

Unnamed: 0,年齢階級,運動習慣の有無,性別,歩行数,時間軸(年次),人数
0,20歳-29歳,有,総数,"10,000歩以上",2010年,12.0
1,20歳-29歳,有,総数,"2,000歩-3,999歩",2010年,6.0
2,20歳-29歳,有,総数,"2,000歩未満",2010年,2.0
3,20歳-29歳,有,総数,"4,000歩-5,999歩",2010年,5.0
4,20歳-29歳,有,総数,"6,000歩-7,999歩",2010年,14.0
5,20歳-29歳,有,総数,"8,000歩-9,999歩",2010年,5.0
6,20歳-29歳,有,総数,総数,2010年,44.0
7,20歳-29歳,無,総数,"10,000歩以上",2010年,40.0
8,20歳-29歳,無,総数,"2,000歩-3,999歩",2010年,33.0
9,20歳-29歳,無,総数,"2,000歩未満",2010年,15.0


In [13]:
print(df.loc[(df['運動習慣の有無'] == '無') & (df['年齢階級'] == '20歳-29歳') & ~(df['歩行数'] == '総数') , '人数'].sum())
df.loc[(df['運動習慣の有無'] == '無') & (df['年齢階級'] == '20歳-29歳') & ~(df['歩行数'] == '総数') , '人数']

204.0


7     40.0
8     33.0
9     15.0
10    46.0
11    39.0
12    31.0
Name: 人数, dtype: float64

In [14]:
# query関数を使った場合
sql_str = "`運動習慣の有無` == '無' and `年齢階級` == '20歳-29歳' and `歩行数` != '総数'"
df.query(sql_str)['人数']

7     40.0
8     33.0
9     15.0
10    46.0
11    39.0
12    31.0
Name: 人数, dtype: float64