In [1]:
import pandas
import numpy

In [2]:
health_data = pandas.read_csv("201704health.csv",encoding="utf-8")
health_data

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930
5,2017-04-06,7593,1800
6,2017-04-07,9320,1940
7,2017-04-08,4873,2300
8,2017-04-09,12045,1950
9,2017-04-10,7493,1850


### 条件で抽出

In [3]:
health_data.loc[:,"歩数"] >= 10000

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8      True
9     False
10    False
11    False
12     True
13    False
14    False
15    False
16    False
17    False
18    False
19     True
20     True
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
Name: 歩数, dtype: bool

In [4]:
average_cal = numpy.mean(health_data.loc[:,'摂取カロリー'])
print(f"平均摂取カロリー : {average_cal}\n")

calorie = numpy.array([health_data.loc[:,"摂取カロリー"],
                       health_data.loc[:,"摂取カロリー"] > average_cal])

calorie_DF = pandas.DataFrame(calorie.T,
                              columns=["摂取カロリー","平均以上か"])
calorie_DF

平均摂取カロリー : 2026.6666666666667



Unnamed: 0,摂取カロリー,平均以上か
0,2500,1
1,2300,1
2,1950,0
3,1850,0
4,1930,0
5,1800,0
6,1940,0
7,2300,1
8,1950,0
9,1850,0


In [5]:
calorie_DF[calorie_DF.loc[:,"平均以上か"] == 1]

Unnamed: 0,摂取カロリー,平均以上か
0,2500,1
1,2300,1
7,2300,1
11,2300,1
14,2300,1
15,2300,1
17,2300,1
21,2300,1
28,2300,1


In [6]:
# queryメソッドを使ってより細かい抽出もできる
calorie_DF.query("平均以上か == 0")

Unnamed: 0,摂取カロリー,平均以上か
2,1950,0
3,1850,0
4,1930,0
5,1800,0
6,1940,0
8,1950,0
9,1850,0
10,1930,0
12,1800,0
13,1940,0


In [7]:
calorie_DF.query(f"摂取カロリー >= {average_cal*0.9}")

Unnamed: 0,摂取カロリー,平均以上か
0,2500,1
1,2300,1
2,1950,0
3,1850,0
4,1930,0
6,1940,0
7,2300,1
8,1950,0
9,1850,0
10,1930,0


In [8]:
calorie_DF.query(f"平均以上か == 0 and 摂取カロリー >= {average_cal*0.9}")

Unnamed: 0,摂取カロリー,平均以上か
2,1950,0
3,1850,0
4,1930,0
6,1940,0
8,1950,0
9,1850,0
10,1930,0
13,1940,0
16,1940,0
18,1950,0


### データ型変換

In [9]:
health_data.dtypes

日付        object
歩数         int64
摂取カロリー     int64
dtype: object

元々、CSVで定義されていたデータを読み込むと、日付の部分がobject型になっていることが分かった  
このままだと日付演算等が出来なくなるため、date型に変換する

In [10]:
# applyを用いる事で、列のデータを順次、処理にかける
# 今回はpandasのto_datetimeで各データに処理を掛けて、その結果をdate列に追加する
health_data.loc[:,"date"] = health_data.loc[:,"日付"].apply(pandas.to_datetime)
health_data

Unnamed: 0,日付,歩数,摂取カロリー,date
0,2017-04-01,5439,2500,2017-04-01
1,2017-04-02,2510,2300,2017-04-02
2,2017-04-03,10238,1950,2017-04-03
3,2017-04-04,8209,1850,2017-04-04
4,2017-04-05,9434,1930,2017-04-05
5,2017-04-06,7593,1800,2017-04-06
6,2017-04-07,9320,1940,2017-04-07
7,2017-04-08,4873,2300,2017-04-08
8,2017-04-09,12045,1950,2017-04-09
9,2017-04-10,7493,1850,2017-04-10


In [11]:
health_data.dtypes

日付                object
歩数                 int64
摂取カロリー             int64
date      datetime64[ns]
dtype: object

In [12]:
# データ型の変換を行う
health_data.loc[:,"摂取カロリー"] = health_data.loc[:,"摂取カロリー"].astype(numpy.float32)
health_data

Unnamed: 0,日付,歩数,摂取カロリー,date
0,2017-04-01,5439,2500.0,2017-04-01
1,2017-04-02,2510,2300.0,2017-04-02
2,2017-04-03,10238,1950.0,2017-04-03
3,2017-04-04,8209,1850.0,2017-04-04
4,2017-04-05,9434,1930.0,2017-04-05
5,2017-04-06,7593,1800.0,2017-04-06
6,2017-04-07,9320,1940.0,2017-04-07
7,2017-04-08,4873,2300.0,2017-04-08
8,2017-04-09,12045,1950.0,2017-04-09
9,2017-04-10,7493,1850.0,2017-04-10


In [13]:
health_data.dtypes

日付                object
歩数                 int64
摂取カロリー           float32
date      datetime64[ns]
dtype: object

In [14]:
# ある列をインデックスに指定することも出来る
health_data = health_data.set_index("date")
health_data

Unnamed: 0_level_0,日付,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-01,2017-04-01,5439,2500.0
2017-04-02,2017-04-02,2510,2300.0
2017-04-03,2017-04-03,10238,1950.0
2017-04-04,2017-04-04,8209,1850.0
2017-04-05,2017-04-05,9434,1930.0
2017-04-06,2017-04-06,7593,1800.0
2017-04-07,2017-04-07,9320,1940.0
2017-04-08,2017-04-08,4873,2300.0
2017-04-09,2017-04-09,12045,1950.0
2017-04-10,2017-04-10,7493,1850.0


### 並べ替え

In [15]:
health_data

Unnamed: 0_level_0,日付,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-01,2017-04-01,5439,2500.0
2017-04-02,2017-04-02,2510,2300.0
2017-04-03,2017-04-03,10238,1950.0
2017-04-04,2017-04-04,8209,1850.0
2017-04-05,2017-04-05,9434,1930.0
2017-04-06,2017-04-06,7593,1800.0
2017-04-07,2017-04-07,9320,1940.0
2017-04-08,2017-04-08,4873,2300.0
2017-04-09,2017-04-09,12045,1950.0
2017-04-10,2017-04-10,7493,1850.0


In [16]:
# 歩数を基準に昇順に並べ替える
health_data.sort_values(by="歩数")

Unnamed: 0_level_0,日付,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-02,2017-04-02,2510,2300.0
2017-04-23,2017-04-23,3890,1950.0
2017-04-22,2017-04-22,4029,2300.0
2017-04-30,2017-04-30,4093,1950.0
2017-04-08,2017-04-08,4873,2300.0
2017-04-01,2017-04-01,5439,2500.0
2017-04-29,2017-04-29,6033,2300.0
2017-04-12,2017-04-12,6481,2300.0
2017-04-27,2017-04-27,7203,1930.0
2017-04-11,2017-04-11,7289,1930.0


In [17]:
# 歩数を基準に降順に並べ替える
health_data.sort_values(by="歩数",ascending=False)

Unnamed: 0_level_0,日付,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-20,2017-04-20,15328,1800.0
2017-04-21,2017-04-21,12849,1940.0
2017-04-09,2017-04-09,12045,1950.0
2017-04-13,2017-04-13,10287,1800.0
2017-04-03,2017-04-03,10238,1950.0
2017-04-05,2017-04-05,9434,1930.0
2017-04-07,2017-04-07,9320,1940.0
2017-04-18,2017-04-18,8475,2300.0
2017-04-04,2017-04-04,8209,1850.0
2017-04-19,2017-04-19,8132,1950.0


### 不要なカラムの削除

In [18]:
health_data.head()

Unnamed: 0_level_0,日付,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-01,2017-04-01,5439,2500.0
2017-04-02,2017-04-02,2510,2300.0
2017-04-03,2017-04-03,10238,1950.0
2017-04-04,2017-04-04,8209,1850.0
2017-04-05,2017-04-05,9434,1930.0


In [19]:
# 日付列はもういらないので消す
health_data = health_data.drop("日付",axis=1)
health_data.head()

Unnamed: 0_level_0,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2017-04-01,5439,2500.0
2017-04-02,2510,2300.0
2017-04-03,10238,1950.0
2017-04-04,8209,1850.0
2017-04-05,9434,1930.0


### 組み合わせデータの挿入
カラム同士の計算結果を新たなカラムとして挿入してみる

In [21]:
health_data.loc[:,"歩数/カロリー"] = health_data.loc[:,"歩数"]/health_data.loc[:,"摂取カロリー"]
health_data

Unnamed: 0_level_0,歩数,摂取カロリー,歩数/カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-01,5439,2500.0,2.1756
2017-04-02,2510,2300.0,1.091304
2017-04-03,10238,1950.0,5.250256
2017-04-04,8209,1850.0,4.437297
2017-04-05,9434,1930.0,4.888083
2017-04-06,7593,1800.0,4.218333
2017-04-07,9320,1940.0,4.804124
2017-04-08,4873,2300.0,2.118696
2017-04-09,12045,1950.0,6.176923
2017-04-10,7493,1850.0,4.05027


カロリーに対する歩数の比を運動指数とする  
1カロリー摂取するにあたり、何歩費やしたかという意味になる  
  
1カロリー摂取するのに、100歩歩く人と、
1カロリー摂取するのに、10歩歩く人の場合、
前者の方がより、運動を行っていると言える  
  
つまり、歩数/カロリーの値が大きいほど、運動している = 運動指数が高いとする  
  
ここでは、得られた値から、High,Middle,Lowの3状態のどれに分類されるかを返す関数を作成し、  
applyメソッドで、運動指数カラムを作成する

In [22]:
def judge_exercise_index(step_per_cal):
    if step_per_cal <= 3.0:
        return "Low"
    elif step_per_cal <= 6.0:
        return "Middle"
    else:
        return "High"

In [23]:
health_data.head()

Unnamed: 0_level_0,歩数,摂取カロリー,歩数/カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-01,5439,2500.0,2.1756
2017-04-02,2510,2300.0,1.091304
2017-04-03,10238,1950.0,5.250256
2017-04-04,8209,1850.0,4.437297
2017-04-05,9434,1930.0,4.888083


In [25]:
health_data.loc[:,"運動指数"] = health_data.loc[:,"歩数/カロリー"].apply(judge_exercise_index)
health_data

Unnamed: 0_level_0,歩数,摂取カロリー,歩数/カロリー,運動指数
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-04-01,5439,2500.0,2.1756,Low
2017-04-02,2510,2300.0,1.091304,Low
2017-04-03,10238,1950.0,5.250256,Middle
2017-04-04,8209,1850.0,4.437297,Middle
2017-04-05,9434,1930.0,4.888083,Middle
2017-04-06,7593,1800.0,4.218333,Middle
2017-04-07,9320,1940.0,4.804124,Middle
2017-04-08,4873,2300.0,2.118696,Low
2017-04-09,12045,1950.0,6.176923,High
2017-04-10,7493,1850.0,4.05027,Middle


In [26]:
# 上記で作成したDataFrameをpickleで保存しておく
health_data.to_pickle("health_data_20210327.pickle")

運動指数はLow,Middle,Highの3分類(文字列)となっている  
このままだと、データとして扱いにくいため、**ダミー化**を行う  
今回の場合、Low,Middle,Highの3カラムを新たに作成し、何処に該当するのかbitを立てる事でdummy化する

In [29]:
# Low,Middle,Highを運動_Xという名目でダミー化する
exercise = pandas.get_dummies(health_data.loc[:,"運動指数"],prefix="運動")
exercise

Unnamed: 0_level_0,運動_High,運動_Low,運動_Middle
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-01,0,1,0
2017-04-02,0,1,0
2017-04-03,0,0,1
2017-04-04,0,0,1
2017-04-05,0,0,1
2017-04-06,0,0,1
2017-04-07,0,0,1
2017-04-08,0,1,0
2017-04-09,1,0,0
2017-04-10,0,0,1


上記のように、N状態のうちどれか一つが1になるようなDummy化技術の事を**One-hotエンコーディング**という  
これは、後々扱う

In [30]:
exercise.to_pickle("one-hot_exercise.pickle")