# pandasでデータの整形

データの整形、条件抽出、並べ替えを行います。

## 内容

- データ抽出
- データ型変換
- 並べ替え
- 不要なカラム削除
- 組合せデータの挿入

## データ抽出

In [25]:
import pandas as pd
import numpy as np

In [26]:
df = pd.read_excel("data/201704health.xlsx")

In [27]:
df

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930
5,2017-04-06,7593,1800
6,2017-04-07,9320,1940
7,2017-04-08,4873,2300
8,2017-04-09,12045,1950
9,2017-04-10,7493,1850


- 歩数が10000歩以上の日のみを抽出

In [28]:
df.loc[:, "歩数"] >= 10000

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8      True
9     False
10    False
11    False
12     True
13    False
14    False
15    False
16    False
17    False
18    False
19     True
20     True
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
Name: 歩数, dtype: bool

In [29]:
df_fill = df[df.loc[:, "歩数"] >= 10000]

In [30]:
df_fill

Unnamed: 0,日付,歩数,摂取カロリー
2,2017-04-03,10238,1950
8,2017-04-09,12045,1950
12,2017-04-13,10287,1800
19,2017-04-20,15328,1800
20,2017-04-21,12849,1940


In [31]:
df_fill.shape

(5, 3)

## データ型変換

In [32]:
df.loc[:, "日付"]

0     2017-04-01
1     2017-04-02
2     2017-04-03
3     2017-04-04
4     2017-04-05
5     2017-04-06
6     2017-04-07
7     2017-04-08
8     2017-04-09
9     2017-04-10
10    2017-04-11
11    2017-04-12
12    2017-04-13
13    2017-04-14
14    2017-04-15
15    2017-04-16
16    2017-04-17
17    2017-04-18
18    2017-04-19
19    2017-04-20
20    2017-04-21
21    2017-04-22
22    2017-04-23
23    2017-04-24
24    2017-04-25
25    2017-04-26
26    2017-04-27
27    2017-04-28
28    2017-04-29
29    2017-04-30
Name: 日付, dtype: object

In [33]:
df.loc[:, "date"] = df.loc[:, "日付"].apply(lambda x: pd.to_datetime(x))

カラム 日付 に対して、applyメソッドを使うことで、データ変換し "date"カラムに挿入
apply は、データ一つづつに順次関数を適用するものです。
lambda は Pythonの無名関数です。ここでは、引数を x とし、先程実行した日付型を返すpandasの関数 to_datetime を実行しています。

In [34]:
df.loc[:, "date"]

0    2017-04-01
1    2017-04-02
2    2017-04-03
3    2017-04-04
4    2017-04-05
5    2017-04-06
6    2017-04-07
7    2017-04-08
8    2017-04-09
9    2017-04-10
10   2017-04-11
11   2017-04-12
12   2017-04-13
13   2017-04-14
14   2017-04-15
15   2017-04-16
16   2017-04-17
17   2017-04-18
18   2017-04-19
19   2017-04-20
20   2017-04-21
21   2017-04-22
22   2017-04-23
23   2017-04-24
24   2017-04-25
25   2017-04-26
26   2017-04-27
27   2017-04-28
28   2017-04-29
29   2017-04-30
Name: date, dtype: datetime64[ns]

In [35]:
df

Unnamed: 0,日付,歩数,摂取カロリー,date
0,2017-04-01,5439,2500,2017-04-01
1,2017-04-02,2510,2300,2017-04-02
2,2017-04-03,10238,1950,2017-04-03
3,2017-04-04,8209,1850,2017-04-04
4,2017-04-05,9434,1930,2017-04-05
5,2017-04-06,7593,1800,2017-04-06
6,2017-04-07,9320,1940,2017-04-07
7,2017-04-08,4873,2300,2017-04-08
8,2017-04-09,12045,1950,2017-04-09
9,2017-04-10,7493,1850,2017-04-10


In [36]:
df.loc[:, "摂取カロリー"] = df.loc[:, "摂取カロリー"].astype(np.float32)

In [37]:
df = df.set_index("date")

In [38]:
df.head()

Unnamed: 0_level_0,日付,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-01,2017-04-01,5439,2500.0
2017-04-02,2017-04-02,2510,2300.0
2017-04-03,2017-04-03,10238,1950.0
2017-04-04,2017-04-04,8209,1850.0
2017-04-05,2017-04-05,9434,1930.0


インデックをdateで置き換えました。

## 並べ替え

In [39]:
df.sort_values(by="歩数")

Unnamed: 0_level_0,日付,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-02,2017-04-02,2510,2300.0
2017-04-23,2017-04-23,3890,1950.0
2017-04-22,2017-04-22,4029,2300.0
2017-04-30,2017-04-30,4093,1950.0
2017-04-08,2017-04-08,4873,2300.0
2017-04-01,2017-04-01,5439,2500.0
2017-04-29,2017-04-29,6033,2300.0
2017-04-12,2017-04-12,6481,2300.0
2017-04-27,2017-04-27,7203,1930.0
2017-04-11,2017-04-11,7289,1930.0


In [40]:
df.sort_values(by="歩数", ascending=False).head()

Unnamed: 0_level_0,日付,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-20,2017-04-20,15328,1800.0
2017-04-21,2017-04-21,12849,1940.0
2017-04-09,2017-04-09,12045,1950.0
2017-04-13,2017-04-13,10287,1800.0
2017-04-03,2017-04-03,10238,1950.0


## 不要なカラム削除

In [41]:
df = df.drop("日付", axis=1)

In [42]:
df.tail()

Unnamed: 0_level_0,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2017-04-26,7492,1850.0
2017-04-27,7203,1930.0
2017-04-28,7302,1850.0
2017-04-29,6033,2300.0
2017-04-30,4093,1950.0


## 組合せデータの挿入

歩数 / 摂取カロリー という新たなカラムを追加します。

In [43]:
df.loc[:, "歩数/カロリー"] = df.loc[:, "歩数"] / df.loc[:, "摂取カロリー"]

In [44]:
df

Unnamed: 0_level_0,歩数,摂取カロリー,歩数/カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-01,5439,2500.0,2.1756
2017-04-02,2510,2300.0,1.091304
2017-04-03,10238,1950.0,5.250256
2017-04-04,8209,1850.0,4.437297
2017-04-05,9434,1930.0,4.888083
2017-04-06,7593,1800.0,4.218333
2017-04-07,9320,1940.0,4.804124
2017-04-08,4873,2300.0,2.118696
2017-04-09,12045,1950.0,6.176923
2017-04-10,7493,1850.0,4.05027


ここで計算した、歩数/カロリーを元に、
新たに、運動指数カラムを作ります。
3以下をLow, 3を超え6以下をMid、6を超えるのをHighとします。

In [45]:
def exercise_judge(ex):
    if ex <= 3.0:
        return "Low"
    elif 3 < ex <= 6.0:
        return "Mid"
    else:
        return "High"

In [46]:
df.loc[:, "運動指数"] = df.loc[:, "歩数/カロリー"].apply(exercise_judge)

In [47]:
df

Unnamed: 0_level_0,歩数,摂取カロリー,歩数/カロリー,運動指数
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-04-01,5439,2500.0,2.1756,Low
2017-04-02,2510,2300.0,1.091304,Low
2017-04-03,10238,1950.0,5.250256,Mid
2017-04-04,8209,1850.0,4.437297,Mid
2017-04-05,9434,1930.0,4.888083,Mid
2017-04-06,7593,1800.0,4.218333,Mid
2017-04-07,9320,1940.0,4.804124,Mid
2017-04-08,4873,2300.0,2.118696,Low
2017-04-09,12045,1950.0,6.176923,High
2017-04-10,7493,1850.0,4.05027,Mid


### 別の章で使うのでデータをPickle形式で保存しておきます

In [49]:
df.to_pickle("data/df_201704health.pickle")

One-hot Encording
(データフレームの結合は次の次の章で)

In [50]:
df_moved = pd.get_dummies(df.loc[:, "運動指数"], prefix="運動")

In [51]:
df_moved

Unnamed: 0_level_0,運動_High,運動_Low,運動_Mid
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-01,0,1,0
2017-04-02,0,1,0
2017-04-03,0,0,1
2017-04-04,0,0,1
2017-04-05,0,0,1
2017-04-06,0,0,1
2017-04-07,0,0,1
2017-04-08,0,1,0
2017-04-09,1,0,0
2017-04-10,0,0,1


### このデータもPickle形式で保存しておきます

In [52]:
df_moved.to_pickle("data/df_201704moved.pickle")