# １章 ウェブの注文数を分析する１０本ノック

ここでは、ある企業のECサイトでの商品の注文数の推移を分析していきます。  
データの属性を理解し、分析をするためにデータを加工した後、  
データの可視化を行うことで問題を発見していくプロセスを学びます。

### ノック１：データを読み込んでみよう

In [1]:
import pandas as pd
customer_master = pd.read_csv('customer_master.csv')

In [2]:
customer_master.head()

Unnamed: 0,customer_id,customer_name,registration_date,customer_name_kana,email,gender,age,birth,pref
0,IK152942,平田 裕次郎,2019-01-01 00:25:33,ひらた ゆうじろう,hirata_yuujirou@example.com,M,29,1990/6/10,石川県
1,TS808488,田村 詩織,2019-01-01 01:13:45,たむら しおり,tamura_shiori@example.com,F,33,1986/5/20,東京都
2,AS834628,久野 由樹,2019-01-01 02:00:14,ひさの ゆき,hisano_yuki@example.com,F,63,1956/1/2,茨城県
3,AS345469,鶴岡 薫,2019-01-01 04:48:22,つるおか かおる,tsuruoka_kaoru@example.com,M,74,1945/3/25,東京都
4,GD892565,大内 高史,2019-01-01 04:54:51,おおうち たかし,oouchi_takashi@example.com,M,54,1965/8/5,千葉県


In [3]:
!ls

/home/mike/.bash_profile: eval: 行 6: 予期しないトークン `--on-event' 周辺に構文エラーがあります
/home/mike/.bash_profile: eval: 行 6: `function __direnv_export_eval --on-event fish_postexec;'
1章_ウェブからの注文数を分析する１０本ノック.py
1章_ウェブからの注文数を分析する１０本ノック_answer.ipynb
1章_ウェブからの注文数を分析する１０本ノック_answer.py
customer_master.csv
item_master.csv
transaction_1.csv
transaction_2.csv
transaction_detail_1.csv
transaction_detail_2.csv


In [4]:
item_master = pd.read_csv('item_master.csv')
item_master

Unnamed: 0,item_id,item_name,item_price
0,S001,PC-A,50000
1,S002,PC-B,85000
2,S003,PC-C,120000
3,S004,PC-D,180000
4,S005,PC-E,210000


In [5]:
transaction_1 = pd.read_csv('transaction_1.csv')
transaction_1

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502
1,T0000000114,50000,2019-02-01 01:37:23,HD678019
2,T0000000115,120000,2019-02-01 02:34:19,HD298120
3,T0000000116,210000,2019-02-01 02:47:23,IK452215
4,T0000000117,170000,2019-02-01 04:33:46,PL542865
...,...,...,...,...
4995,T0000005108,210000,2019-06-15 02:42:41,HD315748
4996,T0000005109,150000,2019-06-15 03:36:16,HI215420
4997,T0000005110,50000,2019-06-15 03:44:06,IK880102
4998,T0000005111,210000,2019-06-15 04:14:06,IK074758


In [6]:
transaction_detail_1 = pd.read_csv('transaction_detail_1.csv')
transaction_detail_1

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1
1,1,T0000000114,S001,1
2,2,T0000000115,S003,1
3,3,T0000000116,S005,1
4,4,T0000000117,S002,2
...,...,...,...,...
4995,4995,T0000004865,S003,1
4996,4996,T0000004866,S001,3
4997,4997,T0000004867,S001,3
4998,4998,T0000004868,S005,1


### ノック２：データを結合(ユニオン)してみよう

データ分析する時はなるべく粒度が低いデータに合わせて、加工データを作成することから始める。
今回、一番粒度が低いのは、transaction関連データなので、これに合わせる。

In [7]:
transaction_2 = pd.read_csv('transaction_2.csv')
transaction = pd.concat([transaction_1, transaction_2], ignore_index=True)
transaction

Unnamed: 0,transaction_id,price,payment_date,customer_id
0,T0000000113,210000,2019-02-01 01:36:57,PL563502
1,T0000000114,50000,2019-02-01 01:37:23,HD678019
2,T0000000115,120000,2019-02-01 02:34:19,HD298120
3,T0000000116,210000,2019-02-01 02:47:23,IK452215
4,T0000000117,170000,2019-02-01 04:33:46,PL542865
...,...,...,...,...
6781,T0000006894,180000,2019-07-31 21:20:44,HI400734
6782,T0000006895,85000,2019-07-31 21:52:48,AS339451
6783,T0000006896,100000,2019-07-31 23:35:25,OA027325
6784,T0000006897,85000,2019-07-31 23:39:35,TS624738


In [8]:
transaction_detail_2 = pd.read_csv('transaction_detail_2.csv')
transaction_detail = pd.concat([transaction_detail_1, transaction_detail_2], ignore_index=True)
transaction_detail

Unnamed: 0,detail_id,transaction_id,item_id,quantity
0,0,T0000000113,S005,1
1,1,T0000000114,S001,1
2,2,T0000000115,S003,1
3,3,T0000000116,S005,1
4,4,T0000000117,S002,2
...,...,...,...,...
7139,7139,T0000006894,S004,1
7140,7140,T0000006895,S002,1
7141,7141,T0000006896,S001,2
7142,7142,T0000006897,S002,1


In [9]:
## transactrion_detailがどういうデータかを見てみる
transaction_detail[transaction_detail['transaction_id'].duplicated()] # 購入されたアイテムの評価かな

Unnamed: 0,detail_id,transaction_id,item_id,quantity
82,82,T0000000194,S005,1
97,97,T0000000208,S001,1
109,109,T0000000219,S002,1
122,122,T0000000231,S004,1
123,123,T0000000231,S003,1
...,...,...,...,...
7059,7059,T0000006818,S002,1
7069,7069,T0000006827,S003,1
7072,7072,T0000006829,S003,1
7108,7108,T0000006864,S001,1


### ノック３：売上データ同士を結合(ジョイン)してみよう

商品のレビューごとのレビュー情報に、商品ごとの販売情報を付与してみる。
また、販売情報のpriseは複数商品の価格を合計したものになっているので、正しく加工しないうちにくっつけないことを注意する

In [10]:
## SQLでのjoinと大体一緒
transaction_detail_with_paydata = pd.merge(transaction_detail, transaction[["transaction_id", "payment_date", "customer_id"]], on="transaction_id")
transaction_detail_with_paydata

Unnamed: 0,detail_id,transaction_id,item_id,quantity,payment_date,customer_id
0,0,T0000000113,S005,1,2019-02-01 01:36:57,PL563502
1,1,T0000000114,S001,1,2019-02-01 01:37:23,HD678019
2,2,T0000000115,S003,1,2019-02-01 02:34:19,HD298120
3,3,T0000000116,S005,1,2019-02-01 02:47:23,IK452215
4,4,T0000000117,S002,2,2019-02-01 04:33:46,PL542865
...,...,...,...,...,...,...
7139,7139,T0000006894,S004,1,2019-07-31 21:20:44,HI400734
7140,7140,T0000006895,S002,1,2019-07-31 21:52:48,AS339451
7141,7141,T0000006896,S001,2,2019-07-31 23:35:25,OA027325
7142,7142,T0000006897,S002,1,2019-07-31 23:39:35,TS624738


### ノック４：マスタデータを結合(ジョイン)してみよう

先程作成したデータに対して、顧客の詳細情報を付与する

顧客詳細 : customer_master

In [11]:
transaction_detail_with_paydata_with_customer_info = pd.merge(transaction_detail_with_paydata, customer_master, on="customer_id")
transaction_detail_with_paydata_with_customer_info

Unnamed: 0,detail_id,transaction_id,item_id,quantity,payment_date,customer_id,customer_name,registration_date,customer_name_kana,email,gender,age,birth,pref
0,0,T0000000113,S005,1,2019-02-01 01:36:57,PL563502,井本 芳正,2019-01-07 14:34:35,いもと よしまさ,imoto_yoshimasa@example.com,M,30,1989/7/15,熊本県
1,49,T0000000162,S001,1,2019-02-02 18:23:27,PL563502,井本 芳正,2019-01-07 14:34:35,いもと よしまさ,imoto_yoshimasa@example.com,M,30,1989/7/15,熊本県
2,127,T0000000235,S001,1,2019-02-04 19:53:45,PL563502,井本 芳正,2019-01-07 14:34:35,いもと よしまさ,imoto_yoshimasa@example.com,M,30,1989/7/15,熊本県
3,6291,T0000006088,S001,1,2019-07-10 10:48:25,PL563502,井本 芳正,2019-01-07 14:34:35,いもと よしまさ,imoto_yoshimasa@example.com,M,30,1989/7/15,熊本県
4,1,T0000000114,S001,1,2019-02-01 01:37:23,HD678019,三船 六郎,2019-01-27 18:00:11,みふね ろくろう,mifune_rokurou@example.com,M,73,1945/11/29,京都府
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7139,7125,T0000006881,S002,1,2019-07-31 14:19:05,AS976422,前田 たまき,2019-07-07 00:16:30,まえだ たまき,maeda_tamaki@example.com,F,68,1951/7/12,福岡県
7140,7126,T0000006882,S001,4,2019-07-31 14:46:46,HD030302,楠本 隆之介,2019-07-17 22:19:04,くすもと りゅうのすけ,kusumoto_ryuunosuke@example.com,M,48,1971/2/27,埼玉県
7141,7132,T0000006887,S005,1,2019-07-31 19:43:42,AS961301,安永 貴美子,2019-07-29 23:10:54,やすなが きみこ,yasunaga_kimiko@example.com,F,58,1960/8/20,茨城県
7142,7135,T0000006890,S003,1,2019-07-31 20:25:02,AS554975,大川 仁,2019-07-20 09:09:19,おおかわ じん,ookawa_jin@example.com,M,25,1993/12/8,福島県


In [12]:
transaction_detail_with_paydata_with_customer_info_with_item_info = pd.merge(transaction_detail_with_paydata_with_customer_info, item_master, on="item_id")
transaction_detail_with_paydata_with_customer_info_with_item_info

Unnamed: 0,detail_id,transaction_id,item_id,quantity,payment_date,customer_id,customer_name,registration_date,customer_name_kana,email,gender,age,birth,pref,item_name,item_price
0,0,T0000000113,S005,1,2019-02-01 01:36:57,PL563502,井本 芳正,2019-01-07 14:34:35,いもと よしまさ,imoto_yoshimasa@example.com,M,30,1989/7/15,熊本県,PC-E,210000
1,3494,T0000003439,S005,1,2019-04-30 02:39:00,HD298120,山根 小雁,2019-01-11 08:16:02,やまね こがん,yamane_kogan@example.com,M,42,1977/5/17,茨城県,PC-E,210000
2,3495,T0000003439,S005,1,2019-04-30 02:39:00,HD298120,山根 小雁,2019-01-11 08:16:02,やまね こがん,yamane_kogan@example.com,M,42,1977/5/17,茨城県,PC-E,210000
3,3,T0000000116,S005,1,2019-02-01 02:47:23,IK452215,池田 菜摘,2019-01-10 05:07:38,いけだ なつみ,ikeda_natsumi@example.com,F,47,1972/3/17,兵庫県,PC-E,210000
4,753,T0000000832,S005,1,2019-02-19 19:48:24,IK452215,池田 菜摘,2019-01-10 05:07:38,いけだ なつみ,ikeda_natsumi@example.com,F,47,1972/3/17,兵庫県,PC-E,210000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7139,7055,T0000006815,S003,1,2019-07-30 01:01:27,HI009305,諏訪 圭,2019-07-20 13:11:37,すわ けい,suwa_kei@example.com,M,27,1992/7/7,東京都,PC-C,120000
7140,7066,T0000006825,S003,1,2019-07-30 05:07:00,TS344882,成瀬 莉緒,2019-03-13 10:42:41,なるせ りお,naruse_rio@example.com,F,66,1952/11/9,兵庫県,PC-C,120000
7141,7078,T0000006835,S003,2,2019-07-30 11:08:09,HI555356,藤木 徹平,2019-06-26 17:54:51,ふじき てっぺい,fujiki_teppei@example.com,M,73,1946/3/6,埼玉県,PC-C,120000
7142,7083,T0000006840,S003,1,2019-07-30 12:50:49,PL361201,早川 仁,2019-06-14 13:51:41,はやかわ じん,hayakawa_jin@example.com,M,42,1977/3/12,福岡県,PC-C,120000


In [13]:
## 加工しやすいように一時保存しておく
transaction_master = transaction_detail_with_paydata_with_customer_info_with_item_info.copy()

### ノック5：必要なデータ列を作ろう
作成したデータに、transactionごとの売上金額が書かれていないので、データを加工して作成する。
quantityとpriseがあるので、そこから作成する。

In [14]:
transaction_master["sell_price"] = transaction_master["item_price"] * transaction_master["quantity"]
transaction_master[["quantity", "item_price", "sell_price"]]

Unnamed: 0,quantity,item_price,sell_price
0,1,210000,210000
1,1,210000,210000
2,1,210000,210000
3,1,210000,210000
4,1,210000,210000
...,...,...,...
7139,1,120000,120000
7140,1,120000,120000
7141,2,120000,240000
7142,1,120000,120000


### ノック6：データ検算をしよう
データ加工は間違えやすいので、なるべく加工が間違っていないことを確かめる必要がある。

MLOps的に言うと、データのチェックみたいな。今回は、売上の元データがあるので、それと比較する。

In [15]:
print(transaction["price"].sum())
print(transaction_master["sell_price"].sum())

971135000
971135000


In [16]:
transaction["price"].sum() == transaction_master["sell_price"].sum()

True

### ノック7：各種統計量を把握しよう

In [17]:
transaction_master.isnull().sum()

detail_id             0
transaction_id        0
item_id               0
quantity              0
payment_date          0
customer_id           0
customer_name         0
registration_date     0
customer_name_kana    0
email                 0
gender                0
age                   0
birth                 0
pref                  0
item_name             0
item_price            0
sell_price            0
dtype: int64

In [18]:
transaction_master.describe()

Unnamed: 0,detail_id,quantity,age,item_price,sell_price
count,7144.0,7144.0,7144.0,7144.0,7144.0
mean,3571.5,1.199888,50.265677,121698.628219,135937.150056
std,2062.439494,0.513647,17.190314,64571.31183,68511.453297
min,0.0,1.0,20.0,50000.0,50000.0
25%,1785.75,1.0,36.0,50000.0,85000.0
50%,3571.5,1.0,50.0,102500.0,120000.0
75%,5357.25,1.0,65.0,187500.0,210000.0
max,7143.0,4.0,80.0,210000.0,420000.0


### ノック8：月別でデータを集計してみよう
データがどのように変化しているのかを見ていく。

In [19]:
transaction_master["payment_date"] = pd.to_datetime(transaction_master["payment_date"])
# dtを使えば、時間データを変換できる
transaction_master["payment_month"] = transaction_master["payment_date"].dt.strftime("%Y%m")
transaction_master

Unnamed: 0,detail_id,transaction_id,item_id,quantity,payment_date,customer_id,customer_name,registration_date,customer_name_kana,email,gender,age,birth,pref,item_name,item_price,sell_price,payment_month
0,0,T0000000113,S005,1,2019-02-01 01:36:57,PL563502,井本 芳正,2019-01-07 14:34:35,いもと よしまさ,imoto_yoshimasa@example.com,M,30,1989/7/15,熊本県,PC-E,210000,210000,201902
1,3494,T0000003439,S005,1,2019-04-30 02:39:00,HD298120,山根 小雁,2019-01-11 08:16:02,やまね こがん,yamane_kogan@example.com,M,42,1977/5/17,茨城県,PC-E,210000,210000,201904
2,3495,T0000003439,S005,1,2019-04-30 02:39:00,HD298120,山根 小雁,2019-01-11 08:16:02,やまね こがん,yamane_kogan@example.com,M,42,1977/5/17,茨城県,PC-E,210000,210000,201904
3,3,T0000000116,S005,1,2019-02-01 02:47:23,IK452215,池田 菜摘,2019-01-10 05:07:38,いけだ なつみ,ikeda_natsumi@example.com,F,47,1972/3/17,兵庫県,PC-E,210000,210000,201902
4,753,T0000000832,S005,1,2019-02-19 19:48:24,IK452215,池田 菜摘,2019-01-10 05:07:38,いけだ なつみ,ikeda_natsumi@example.com,F,47,1972/3/17,兵庫県,PC-E,210000,210000,201902
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7139,7055,T0000006815,S003,1,2019-07-30 01:01:27,HI009305,諏訪 圭,2019-07-20 13:11:37,すわ けい,suwa_kei@example.com,M,27,1992/7/7,東京都,PC-C,120000,120000,201907
7140,7066,T0000006825,S003,1,2019-07-30 05:07:00,TS344882,成瀬 莉緒,2019-03-13 10:42:41,なるせ りお,naruse_rio@example.com,F,66,1952/11/9,兵庫県,PC-C,120000,120000,201907
7141,7078,T0000006835,S003,2,2019-07-30 11:08:09,HI555356,藤木 徹平,2019-06-26 17:54:51,ふじき てっぺい,fujiki_teppei@example.com,M,73,1946/3/6,埼玉県,PC-C,120000,240000,201907
7142,7083,T0000006840,S003,1,2019-07-30 12:50:49,PL361201,早川 仁,2019-06-14 13:51:41,はやかわ じん,hayakawa_jin@example.com,M,42,1977/3/12,福岡県,PC-C,120000,120000,201907


In [None]:
# groupbyを使って、月ごとに集計して和を計算する

In [20]:
transaction_master.groupby("payment_month").sum()

Unnamed: 0_level_0,detail_id,quantity,age,item_price,sell_price
payment_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
201902,676866,1403,59279,142805000,160185000
201903,2071474,1427,58996,142980000,160370000
201904,3476816,1421,59246,143670000,160510000
201905,4812795,1390,58195,139655000,155420000
201906,6369999,1446,61070,147090000,164030000
201907,8106846,1485,62312,153215000,170620000


### ノック9：月別、商品別でデータを集計してみよう

### ノック10：商品別の売上推移を可視化してみよう