# 前処理大全 SQL版 (Chapter2)

## はじめに
- データベースはPostgreSQL13です
- 初めに以下のセルを実行してください
- セルに %%sql と記載することでSQLを発行することができます
- jupyterからはdescribeコマンドによるテーブル構造の確認ができないため、テーブル構造を確認する場合はlimitを指定したSELECTなどで代用してください
- 使い慣れたSQLクライアントを使っても問題ありません（接続情報は以下の通り）
  - IPアドレス：Docker Desktopの場合はlocalhost、Docker toolboxの場合は192.168.99.100
  - Port:5432
  - database名: dsdojo_db
  - ユーザ名：padawan
  - パスワード:padawan12345
- 大量出力を行うとJupyterが固まることがあるため、出力件数は制限することを推奨します（設問にも出力件数を記載）
    - 結果確認のために表示させる量を適切にコントロールし、作業を軽快にすすめる技術もデータ加工には求められます
- 大量結果が出力された場合は、ファイルが重くなり以降開けなくなることもあります
    - その場合、作業結果は消えますがファイルをGitHubから取り直してください
    - vimエディタなどで大量出力範囲を削除することもできます
- 名前、住所等はダミーデータであり、実在するものではありません

In [1]:
%load_ext sql
import os

pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}
dsl = 'postgresql://{user}:{password}@{host}:{port}/{database}'.format(**pgconfig)

# MagicコマンドでSQLを書くための設定
%sql $dsl

'Connected: padawan@dsdojo_db'

# 演習問題

---
> 002_selection/01

In [12]:
%%sql
SELECT reserve_id AS rsv_time,
    hotel_id, customer_id, reserve_datetime, checkin_date, checkin_time, checkout_date FROM reserve_tb LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


rsv_time,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29
r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21
r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22
r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30
r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23
r6,h_241,c_1,2017-11-27 18:47:05,2017-12-04,12:00:00,2017-12-06
r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28
r8,h_241,c_1,2018-05-26 08:42:51,2018-06-08,10:00:00,2018-06-09
r9,h_217,c_2,2016-03-05 13:31:06,2016-03-25,09:30:00,2016-03-27
r10,h_240,c_2,2016-06-25 09:12:22,2016-07-14,11:00:00,2016-07-17


---
> 002_selection/02: 条件指定

- 等しいは`=`一つでOK
- 等しくないは`<>`または`!=`

In [16]:
%%sql
SELECT * FROM reserve_tb
where checkin_date >= '2016-10-12'
AND checkin_date <= '2016-10-13'

 * postgresql://padawan:***@db:5432/dsdojo_db
8 rows affected.


reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
r1933,h_113,c_477,2016-09-24 09:04:26,2016-10-12,11:30:00,2016-10-13,4,77200
r2291,h_230,c_574,2016-10-09 04:34:14,2016-10-12,12:00:00,2016-10-13,1,17400
r2524,h_203,c_631,2016-09-14 10:45:15,2016-10-12,10:30:00,2016-10-14,3,167400
r3147,h_163,c_794,2016-10-02 07:35:16,2016-10-13,09:00:00,2016-10-16,1,64200
r3328,h_23,c_833,2016-09-28 08:22:57,2016-10-13,09:00:00,2016-10-14,4,260400
r3381,h_110,c_844,2016-09-17 17:44:02,2016-10-13,12:30:00,2016-10-15,1,52800
r3444,h_14,c_859,2016-10-03 17:26:00,2016-10-13,12:30:00,2016-10-15,3,46200


- betweenの方がawesome

In [19]:
%%sql
SELECT * FROM reserve_tb where checkin_date between '2016-10-12' and '2016-10-13'

 * postgresql://padawan:***@db:5432/dsdojo_db
8 rows affected.


reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
r1933,h_113,c_477,2016-09-24 09:04:26,2016-10-12,11:30:00,2016-10-13,4,77200
r2291,h_230,c_574,2016-10-09 04:34:14,2016-10-12,12:00:00,2016-10-13,1,17400
r2524,h_203,c_631,2016-09-14 10:45:15,2016-10-12,10:30:00,2016-10-14,3,167400
r3147,h_163,c_794,2016-10-02 07:35:16,2016-10-13,09:00:00,2016-10-16,1,64200
r3328,h_23,c_833,2016-09-28 08:22:57,2016-10-13,09:00:00,2016-10-14,4,260400
r3381,h_110,c_844,2016-09-17 17:44:02,2016-10-13,12:30:00,2016-10-15,1,52800
r3444,h_14,c_859,2016-10-03 17:26:00,2016-10-13,12:30:00,2016-10-15,3,46200


---
> 002_selection/02: 条件指定(indexの有効活用)
- indexのある列と関連がある場合は、あらかじめindexで件数を絞ることが有効。
- この場合、checkin_dateにindexがあり、泊数が1～3を取ることがわかっているため、この情報を使う。

In [21]:
%%sql
SELECT * FROM reserve_tb where checkin_date between '2016-10-10' and '2016-10-13' and checkout_date between '2016-10-13' and '2016-10-14'

 * postgresql://padawan:***@db:5432/dsdojo_db
20 rows affected.


reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
r514,h_74,c_120,2016-10-06 03:12:04,2016-10-11,12:30:00,2016-10-14,2,28800
r1066,h_205,c_261,2016-09-14 02:57:59,2016-10-11,10:00:00,2016-10-14,4,85200
r1481,h_116,c_364,2016-09-17 17:45:39,2016-10-11,11:30:00,2016-10-13,4,107200
r1547,h_149,c_377,2016-09-27 08:19:24,2016-10-10,11:00:00,2016-10-13,2,153600
r1710,h_59,c_422,2016-09-19 04:17:25,2016-10-10,12:00:00,2016-10-13,2,148800
r1933,h_113,c_477,2016-09-24 09:04:26,2016-10-12,11:30:00,2016-10-13,4,77200
r2059,h_9,c_517,2016-09-19 15:32:35,2016-10-11,12:30:00,2016-10-13,3,188400
r2116,h_77,c_527,2016-10-05 00:44:09,2016-10-11,09:00:00,2016-10-13,4,353600
r2171,h_177,c_540,2016-09-28 01:21:26,2016-10-11,10:00:00,2016-10-13,4,560800


---
> 002_selection/03: ランダムサンプリング

- not awesomeな例
- 並び替えはかなり高コスト

In [25]:
%%sql
SELECT * FROM reserve_tb ORDER BY RANDOM() LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
r3006,h_131,c_760,2016-06-27 05:20:48,2016-07-14,09:30:00,2016-07-17,4,166800
r1788,h_3,c_443,2016-06-19 00:07:42,2016-07-14,11:00:00,2016-07-15,3,123900
r3517,h_142,c_874,2016-06-01 02:45:57,2016-06-12,11:30:00,2016-06-14,2,37200
r1451,h_35,c_354,2017-01-20 16:13:45,2017-02-15,09:30:00,2017-02-16,4,14000
r2496,h_2,c_624,2016-03-17 14:01:12,2016-04-03,11:00:00,2016-04-04,1,26400
r3428,h_11,c_855,2016-04-22 05:12:06,2016-04-24,12:00:00,2016-04-27,4,448800
r1256,h_144,c_305,2016-12-15 13:40:58,2017-01-07,12:30:00,2017-01-10,2,60000
r459,h_36,c_106,2016-07-07 10:10:48,2016-07-17,10:30:00,2016-07-18,3,90900
r2168,h_126,c_539,2017-02-23 12:15:58,2017-03-03,10:00:00,2017-03-05,2,76400
r2392,h_116,c_601,2016-10-13 04:45:54,2016-10-14,09:30:00,2016-10-15,1,13400


- awesome
- レコードごとに乱数を生成しなおしている。
- キリの良い数字にはできないが、本質的には問題がないとのこと。

In [36]:
%%sql
SELECT * FROM reserve_tb WHERE RANDOM() <= 0.01

 * postgresql://padawan:***@db:5432/dsdojo_db
57 rows affected.


reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
r11,h_183,c_2,2016-11-19 12:49:10,2016-12-08,11:00:00,2016-12-11,1,29700
r111,h_146,c_22,2016-12-31 06:14:03,2017-01-16,10:00:00,2017-01-18,3,255600
r210,h_1,c_49,2016-07-09 23:28:18,2016-08-05,12:00:00,2016-08-08,2,156600
r212,h_218,c_49,2017-04-01 17:57:30,2017-04-20,11:30:00,2017-04-21,1,21000
r421,h_149,c_97,2016-12-03 15:23:36,2016-12-04,11:00:00,2016-12-07,3,230400
r425,h_90,c_98,2017-03-07 22:27:14,2017-03-25,11:00:00,2017-03-26,2,16000
r452,h_178,c_103,2018-02-06 09:17:29,2018-02-21,12:00:00,2018-02-24,3,189000
r462,h_55,c_106,2017-06-16 04:08:24,2017-06-21,10:30:00,2017-06-24,1,42600
r484,h_163,c_112,2016-04-11 04:31:56,2016-05-05,09:00:00,2016-05-07,4,171200
r491,h_208,c_114,2017-01-22 21:15:13,2017-01-24,11:30:00,2017-01-27,3,80100


- どうしてもキリを良くしたい場合は、ORDER BY と LIMITを付け加える
- LIMITだけでは、先頭が抽出されやすくなる。

In [38]:
%%sql
SELECT * FROM reserve_tb WHERE RANDOM() <= 0.1 ORDER BY RANDOM() LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
r3997,h_143,c_992,2017-02-23 09:24:00,2017-03-03,09:00:00,2017-03-05,1,39600
r326,h_16,c_76,2016-06-24 20:21:57,2016-07-01,10:00:00,2016-07-03,3,136200
r1577,h_216,c_384,2017-10-22 20:27:18,2017-10-24,10:00:00,2017-10-26,2,77200
r1819,h_236,c_450,2016-01-02 18:03:54,2016-01-31,10:30:00,2016-02-03,2,93000
r3196,h_169,c_803,2017-11-01 03:42:59,2017-11-30,12:00:00,2017-12-03,4,100800
r1728,h_220,c_426,2016-10-14 04:46:44,2016-11-12,10:30:00,2016-11-13,1,12400
r3387,h_60,c_845,2016-05-05 04:39:27,2016-05-07,09:00:00,2016-05-09,2,46800
r1121,h_296,c_273,2016-02-20 17:40:49,2016-03-02,12:30:00,2016-03-05,4,206400
r2175,h_49,c_540,2017-08-19 09:10:59,2017-09-03,09:00:00,2017-09-05,1,30600
r3001,h_35,c_758,2017-02-15 01:08:03,2017-02-17,12:00:00,2017-02-19,2,14000


---
> 002_selection/04: 集約IDに基づくサンプリング

- サンプリングの際は、その後の分析対象の単位と矛盾しないようにする。
- 何かの集計値が分析対象の場合、その集約するIDをベースにサンプリングが必要。
  - 例. 顧客ごとの予約件数を知りたい場合、予約をサンプルするのはNG。顧客IDをサンプルしないと元のデータと結果が乖離する。
- 分析対象の単位と、サンプリングする単位をそろえることが重要。

In [44]:
%%sql
WITH reserve_tb_random AS (
    SELECT 
        *, 
    
        -- customer_idに対して一意の値となる乱数生成
    
        FIRST_VALUE(RANDOM()) OVER (PARTITION BY customer_id) AS random_num
    FROM reserve_tb
)

SELECT * FROM reserve_tb_random WHERE random_num <= 0.01

 * postgresql://padawan:***@db:5432/dsdojo_db
46 rows affected.


reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,random_num
r61,h_62,c_10,2017-03-12 00:45:50,2017-04-08,10:00:00,2017-04-10,2,187200,0.0006583835223672
r481,h_272,c_111,2016-02-24 18:16:29,2016-03-18,10:30:00,2016-03-21,2,170400,0.0050674098502945
r519,h_285,c_121,2016-04-13 03:45:02,2016-04-24,10:30:00,2016-04-27,1,35700,0.0038461359339017
r678,h_163,c_165,2016-11-05 12:02:45,2016-11-11,12:00:00,2016-11-12,4,85600,0.0069942059222718
r733,h_230,c_177,2017-04-03 19:02:34,2017-05-03,09:30:00,2017-05-04,1,17400,0.008542338302206
r16,h_135,c_2,2018-07-06 04:18:28,2018-07-08,10:00:00,2018-07-09,4,46400,0.0036821978951486
r932,h_91,c_228,2016-12-07 15:52:59,2016-12-24,10:30:00,2016-12-25,4,184000,0.0046124487954486
r1001,h_6,c_244,2018-05-04 01:46:32,2018-05-11,10:30:00,2018-05-14,2,297000,0.0033704079476493
r1158,h_131,c_282,2016-03-20 19:42:01,2016-04-11,11:00:00,2016-04-14,4,166800,0.0022057326669084
r1179,h_237,c_288,2016-02-28 11:18:00,2016-03-06,09:00:00,2016-03-08,4,82400,0.0026202858798249
