## 4.2.3 データの整形

In [1]:
# データ取得
import numpy as np
import pandas as pd
df=pd.read_excel("data/201704health.xlsx")
df.head()

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930


### `各種命令`

| No| 命令 | 説明 | 書き方 | 例 | 備考 |
|:---:|:---:|:---|:---|:---|:---|
| 01 | DataFrame()|  行列データを作成 |  pd.DataFrame(行列) | `pd.DataFrame(np.arange(100).reshape(25,4) )` | - |
| 02 | head()|  前頭から何行取得 |  df.head(取得行数) | `df.head(2)` | - |
| 03 | tail()|  末尾から何行取得 |  df.tail(取得行数) | `df.tail(2)` | - |


In [2]:
# 10000歩以上の日のみ抽出
df["歩数"] >=10000
df.loc[:,"歩数"] >=10000

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8      True
9     False
10    False
11    False
12     True
13    False
14    False
15    False
16    False
17    False
18    False
19     True
20     True
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
Name: 歩数, dtype: bool

In [3]:
# 10000歩以上の日のみ抽出
# Dataframeの形式で出力 
df_selected = df[df["歩数"] >=10000]
df_selected

Unnamed: 0,日付,歩数,摂取カロリー
2,2017-04-03,10238,1950
8,2017-04-09,12045,1950
12,2017-04-13,10287,1800
19,2017-04-20,15328,1800
20,2017-04-21,12849,1940


In [4]:
# 行数と列数の確認
df_selected.shape

(5, 3)

In [5]:
df.query('歩数 >=10000 and '' 摂取カロリー<=1800')


Unnamed: 0,日付,歩数,摂取カロリー
12,2017-04-13,10287,1800
19,2017-04-20,15328,1800


In [5]:
#変換前のデータ型確認
df.dtypes

日付        object
歩数         int64
摂取カロリー     int64
dtype: object

In [7]:
#datetime形式のdateカラムを追加
df.loc[:,'date'] = df.loc[:,'日付'].apply(pd.to_datetime)
df

Unnamed: 0,日付,歩数,摂取カロリー,date
0,2017-04-01,5439,2500,2017-04-01
1,2017-04-02,2510,2300,2017-04-02
2,2017-04-03,10238,1950,2017-04-03
3,2017-04-04,8209,1850,2017-04-04
4,2017-04-05,9434,1930,2017-04-05
5,2017-04-06,7593,1800,2017-04-06
6,2017-04-07,9320,1940,2017-04-07
7,2017-04-08,4873,2300,2017-04-08
8,2017-04-09,12045,1950,2017-04-09
9,2017-04-10,7493,1850,2017-04-10


In [6]:
# 摂取カロリーをfloat型へ変換
df.loc[:,"摂取カロリー"] = df.loc[:,"摂取カロリー"].astype(np.float32)

In [7]:
# dateをインデックスに入れる
df = df.set_index("date")
# 前頭５行表示
df.head()

KeyError: 'date'

### 並び替え

In [8]:
# 昇順
df.sort_values(by="歩数").head()

Unnamed: 0,日付,歩数,摂取カロリー
1,2017-04-02,2510,2300.0
22,2017-04-23,3890,1950.0
21,2017-04-22,4029,2300.0
29,2017-04-30,4093,1950.0
7,2017-04-08,4873,2300.0


In [12]:
#降順
df.sort_values(by="歩数",ascending=False).head()

Unnamed: 0_level_0,日付,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-20,2017-04-20,15328,1800.0
2017-04-21,2017-04-21,12849,1940.0
2017-04-09,2017-04-09,12045,1950.0
2017-04-13,2017-04-13,10287,1800.0
2017-04-03,2017-04-03,10238,1950.0


### 不要なカラムの削除

In [9]:
#「日付」カラムの削除
df.drop("日付",axis=1).tail()

Unnamed: 0,歩数,摂取カロリー
25,7492,1850.0
26,7203,1930.0
27,7302,1850.0
28,6033,2300.0
29,4093,1950.0


### 組み合わせデータの挿入

In [10]:
# 「歩数/摂取カロリー」を新規カラムとして作成
df.loc[:,"歩数/カロリー"] =df.loc[:,"歩数"] / df.loc[:,"摂取カロリー"]
df

Unnamed: 0,日付,歩数,摂取カロリー,歩数/カロリー
0,2017-04-01,5439,2500.0,2.1756
1,2017-04-02,2510,2300.0,1.091304
2,2017-04-03,10238,1950.0,5.250256
3,2017-04-04,8209,1850.0,4.437297
4,2017-04-05,9434,1930.0,4.888083
5,2017-04-06,7593,1800.0,4.218333
6,2017-04-07,9320,1940.0,4.804124
7,2017-04-08,4873,2300.0,2.118696
8,2017-04-09,12045,1950.0,6.176923
9,2017-04-10,7493,1850.0,4.05027


In [11]:
# 「歩数/カロリー」のデータを元に運動指数を計算するメソッド
def exercise_judge(ex):
    if ex  <= 3.0:
        return "Low"
    elif 3.0 < ex <=6.0:
        return "Mid"
    else:
        return "High"

In [19]:
# 関数呼び出す、引数代入
df.loc[:,"運動指数"] = df.loc[:,"歩数/カロリー"].apply(exercise_judge)
df

Unnamed: 0_level_0,日付,歩数,摂取カロリー,歩数/カロリー,運動指数
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017-04-01,2017-04-01,5439,2500.0,2.1756,Low
2017-04-02,2017-04-02,2510,2300.0,1.091304,Low
2017-04-03,2017-04-03,10238,1950.0,5.250256,Mid
2017-04-04,2017-04-04,8209,1850.0,4.437297,Mid
2017-04-05,2017-04-05,9434,1930.0,4.888083,Mid
2017-04-06,2017-04-06,7593,1800.0,4.218333,Mid
2017-04-07,2017-04-07,9320,1940.0,4.804124,Mid
2017-04-08,2017-04-08,4873,2300.0,2.118696,Low
2017-04-09,2017-04-09,12045,1950.0,6.176923,High
2017-04-10,2017-04-10,7493,1850.0,4.05027,Mid


In [14]:
# データのバックアップ
df.to_pickle("data/df_201704headlth.pickle")

In [15]:
df_moved = pd.get_dummies(df.loc[:,"運動指数"],prefix="運動")
df_moved

KeyError: 'the label [運動指数] is not in the [columns]'

In [16]:
# データのバックアップ
df_moved.to_pickle("data/df_201704moved.pickle")

NameError: name 'df_moved' is not defined