# データサイエンス100本ノック（構造化データ加工編） - SQL

## はじめに
- データベースはPostgreSQL12です
- 初めに以下のセルを実行してください
- セルに %%sql と記載することでSQLを発行することができます
- jupyterからはdescribeコマンドによるテーブル構造の確認ができないため、テーブル構造を確認する場合はlimitを指定したSELECTなどで代用してください
- 使い慣れたSQLクライアントを使っても問題ありません（接続情報は以下の通り）
  - IPアドレス：Docker Desktopの場合はlocalhost、Docker toolboxの場合は192.168.99.100
  - Port:5432
  - database名: dsdojo_db
  - ユーザ名：padawan
  - パスワード:padawan12345
- 大量出力を行うとJupyterが固まることがあるため、出力件数は制限することを推奨します（設問にも出力件数を記載）
    - 結果確認のために表示させる量を適切にコントロールし、作業を軽快にすすめる技術もデータ加工には求められます
- 大量結果が出力された場合は、ファイルが重くなり以降開けなくなることもあります
    - その場合、作業結果は消えますがファイルをGitHubから取り直してください
    - vimエディタなどで大量出力範囲を削除することもできます
- 名前、住所等はダミーデータであり、実在するものではありません

In [1]:
%load_ext sql
import os

pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}
dsl = 'postgresql://{user}:{password}@{host}:{port}/{database}'.format(**pgconfig)

# MagicコマンドでSQLを書くための設定
%sql $dsl

'Connected: padawan@dsdojo_db'

# 使い方
- セルの先頭に%%sqlと記載し、２行目以降にSQLを記述することでJupyterからPostgreSQLに対しSQLを実行できます。

In [2]:
%%sql
select 'このように実行できます' as sample

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sample
このように実行できます


# データ加工100本ノック

# 基礎

---
> S-001: レシート明細テーブル（receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。


In [None]:
%%sql
select * from receipt limit 10

---
> S-002: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。

In [None]:
%%sql


---
> S-003: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。ただし、sales_ymdはsales_dateに項目名を変更しながら抽出すること。

In [None]:
%%sql


---
> S-004: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [None]:
%%sql


---
> S-005: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [None]:
%%sql


---
> S-006: レシート明細テーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [None]:
%%sql


---
> S-007: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [None]:
%%sql


---
> S-008: レシート明細テーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [None]:
%%sql


---
> S-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。

`select * from store where not (prefecture_cd = '13' or floor_area > 900)`

In [None]:
%%sql


---
> S-010: 店舗テーブル（store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件だけ表示せよ。

In [None]:
%%sql


---
> S-011: 顧客テーブル（customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件だけ表示せよ。


In [None]:
%%sql


---
> S-012: 店舗テーブル（store）から横浜市の店舗だけ全項目表示せよ。

In [None]:
%%sql


---
> S-013: 顧客テーブル（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件だけ表示せよ。

In [None]:
%%sql


---
> S-014: 顧客テーブル（customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [None]:
%%sql


---
> S-015: 顧客テーブル（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [None]:
%%sql


---
> S-016: 店舗テーブル（store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [None]:
%%sql


---
> S-017: 顧客テーブル（customer）を生年月日（birth_day）で高齢順にソートし、先頭10件を全項目表示せよ。

In [None]:
%%sql


---
> S-018: 顧客テーブル（customer）を生年月日（birth_day）で若い順にソートし、先頭10件を全項目表示せよ。

In [None]:
%%sql


# RANK, ROW_NUMBER

---
> S-019: レシート明細テーブル（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [16]:
%%sql

SELECT customer_id,amount,RANK() OVER(ORDER BY amount DESC) AS ranking 
FROM receipt 
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,ranking
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,4
ZZ000000000000,5480,4
ZZ000000000000,5440,7
CS021515000089,5440,7
ZZ000000000000,5280,9
CS008513000063,5280,9


---
> S-020: レシート明細テーブル（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [17]:
%%sql
SELECT customer_id,amount,ROW_NUMBER() OVER(ORDER BY amount DESC)
FROM receipt
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,row_number
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,5
ZZ000000000000,5480,6
ZZ000000000000,5440,7
CS021515000089,5440,8
ZZ000000000000,5280,9
ZZ000000000000,5280,10


---
> S-021: レシート明細テーブル（receipt）に対し、件数をカウントせよ。

# COUNT, SUM, MAX, MIN, AVG

In [None]:
%%sql
SELECT COUNT(*) FROM receipt

---
> S-022: レシート明細テーブル（receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [28]:
%%sql
SELECT COUNT(DISTINCT customer_id) FROM receipt

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
8307


---
> S-023: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [30]:
%%sql
SELECT store_cd,SUM(amount) AS amount,SUM(quantity) AS quantity
FROM receipt
GROUP BY store_cd
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,amount,quantity
S12007,638761,2099
S13017,748221,2376
S13043,587895,1881
S13052,100314,250
S13016,793773,2432
S14027,714550,2303
S13009,808870,2486
S14022,651328,2047
S13019,827833,2541
S13039,611888,1981


---
> S-024: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）を求め、10件表示せよ。

In [37]:
%%sql
SELECT customer_id,MAX(sales_ymd) AS newest_ymd
FROM receipt 
GROUP BY customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,newest_ymd
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20180621
CS007515000119,20190511
CS034515000123,20190708
CS004315000058,20170517
CS026414000014,20190720
CS001615000099,20170729


---
> S-025: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も古い売上日（sales_ymd）を求め、10件表示せよ。

In [36]:
%%sql
SELECT customer_id,MIN(sales_ymd) AS oldest_ymd
FROM receipt
GROUP BY customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,oldest_ymd
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20170318
CS007515000119,20170201
CS034515000123,20170527
CS004315000058,20170517
CS026414000014,20170718
CS001615000099,20170729


---
> S-026: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）と古い売上日を求め、両者が異なるデータを10件表示せよ。

In [40]:
%%sql
SELECT customer_id, MIN(sales_ymd) AS oldest_ymd, MAX(sales_ymd) AS newest_ymd
FROM receipt
GROUP BY customer_id
HAVING MIN(sales_ymd)!=MAX(sales_ymd)
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,oldest_ymd,newest_ymd
CS029212000033,20170318,20180621
CS007515000119,20170201,20190511
CS034515000123,20170527,20190708
CS026414000014,20170718,20190720
CS010515000082,20180518,20181204
CS019315000045,20170423,20170920
CS008513000099,20170722,20190308
CS007615000070,20170929,20191025
CS025415000155,20170314,20191026
CS016414000063,20170109,20190617


---
> S-027: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [44]:
%%sql
SELECT store_cd,AVG(amount) AS avg_amount
FROM receipt
GROUP BY store_cd
ORDER BY AVG(amount) DESC
LIMIT 5

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,avg_amount
S13052,402.86746987951807
S13015,351.11196043165467
S13003,350.9155188246097
S14010,348.79126213592235
S13001,348.4703862660944


---
> S-028: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

# PERCENTILE_CONT

In [46]:
%%sql
SELECT 
    store_cd,
    PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY amount) AS middle_value
FROM receipt
GROUP BY store_cd
ORDER BY middle_value DESC
LIMIT 5

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,middle_value
S13052,190.0
S14010,188.0
S14050,185.0
S13003,180.0
S13018,180.0


---
> S-029: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求めよ。

# WITH句

In [52]:
%%sql
WITH modes AS (    
    SELECT
        store_cd,product_cd,
        COUNT(1) AS mode_val,
        RANK() OVER(PARTITION BY store_cd ORDER BY COUNT(1) DESC) AS rank
    FROM receipt
    GROUP BY store_cd,product_cd
)
SELECT store_cd,product_cd,mode_val
FROM modes
WHERE rank=1
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,product_cd,mode_val
S12007,P060303001,72
S12013,P060303001,107
S12014,P060303001,65
S12029,P060303001,92
S12030,P060303001,115
S13001,P060303001,67
S13002,P060303001,78
S13003,P071401001,65
S13004,P060303001,88
S13005,P040503001,36


---
> S-030: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本分散を計算し、降順でTOP5を表示せよ。

# VAR_POP, STDDEV_POP, PERCENTILE_CONT

In [55]:
%%sql
SELECT 
    store_cd,
    VAR_POP(amount) AS var_amount
FROM receipt
GROUP BY store_cd
ORDER BY var_amount DESC
LIMIT 5

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,var_amount
S13052,440088.7013112692
S14011,306314.55816388887
S14034,296920.08101128385
S13001,295431.9933290353
S13015,295294.3611159409


---
> S-031: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本標準偏差を計算し、降順でTOP5を表示せよ。

In [56]:
%%sql
SELECT 
    store_cd,
    STDDEV_POP(amount) AS std_amount
FROM receipt
GROUP BY store_cd
ORDER BY std_amount DESC
LIMIT 5

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,std_amount
S13052,663.391815830787
S14011,553.456916267101
S14034,544.903735545357
S13001,543.536561170484
S13015,543.409938366921


---
> S-032: レシート明細テーブル（receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [57]:
%%sql
SELECT 
    PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY amount) AS amount_25per,
    PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY amount) AS amount_50per,
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY amount) AS amount_75per,
    PERCENTILE_CONT(1) WITHIN GROUP (ORDER BY amount) AS amount_100per
FROM receipt

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


amount_25per,amount_50per,amount_75per,amount_100per
102.0,170.0,288.0,10925.0


---
> S-033: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [59]:
%%sql
SELECT store_cd,AVG(amount) AS avg_amount
FROM receipt
GROUP BY store_cd
HAVING AVG(amount)>=330

 * postgresql://padawan:***@db:5432/dsdojo_db
13 rows affected.


store_cd,avg_amount
S13052,402.86746987951807
S13019,330.2086158755485
S13003,350.9155188246097
S14045,330.0820734341253
S13004,330.943949044586
S13001,348.4703862660944
S14026,332.34058847239015
S14010,348.79126213592235
S13015,351.11196043165467
S12013,330.19412997903567


---
> S-034: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [62]:
%%sql
WITH sum_per_customer AS (
    SELECT customer_id,SUM(amount) AS sum_amount
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
)
SELECT AVG(sum_amount) AS avg_customer_amount
FROM sum_per_customer

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


avg_customer_amount
2547.742234529256


---
> S-035: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、データは10件だけ表示させれば良い。

In [68]:
%%sql
WITH sum_per_customer AS (
    SELECT customer_id,SUM(amount) AS sum_amount
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
)
SELECT customer_id,sum_amount
FROM sum_per_customer
WHERE sum_amount>=(SELECT AVG(sum_amount) FROM sum_per_customer)
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount
CS029212000033,3604
CS007515000119,7157
CS034515000123,3699
CS026414000014,6671
CS007615000070,2975
CS016414000063,6207
CS012514000018,2562
CS029515000142,3420
CS015215000021,3090
CS039814000011,8031


# JOIN

---
> S-036: レシート明細テーブル（receipt）と店舗テーブル（store）を内部結合し、レシート明細テーブルの全項目と店舗テーブルの店舗名（store_name）を10件表示させよ。

In [78]:
%%sql
SELECT receipt.*,store.store_name
FROM receipt
JOIN store
ON receipt.store_cd=store.store_cd
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158,葛が谷店
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81,成城店
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170,二ツ橋店
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25,新山下店
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90,大和店
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138,狛江店
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30,三田店
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128,長津田店
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770,十条仲原店
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680,南藤沢店


---
> S-037: 商品テーブル（product）とカテゴリテーブル（category）を内部結合し、商品テーブルの全項目とカテゴリテーブルの小区分名（category_small_name）を10件表示させよ。

In [82]:
%%sql
SELECT product.*,category.category_small_name
FROM product
JOIN category
ON product.category_small_cd=category.category_small_cd
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_small_name
P040101001,4,401,40101,198,149,弁当類
P040101002,4,401,40101,218,164,弁当類
P040101003,4,401,40101,230,173,弁当類
P040101004,4,401,40101,248,186,弁当類
P040101005,4,401,40101,268,201,弁当類
P040101006,4,401,40101,298,224,弁当類
P040101007,4,401,40101,338,254,弁当類
P040101008,4,401,40101,420,315,弁当類
P040101009,4,401,40101,498,374,弁当類
P040101010,4,401,40101,580,435,弁当類


---
> S-038: 顧客テーブル（customer）とレシート明細テーブル（receipt）から、各顧客ごとの売上金額合計を求めよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが"Z"から始まるもの）は除外すること。なお、結果は10件だけ表示させれば良い。

In [110]:
%%sql
WITH c_sum AS (
    SELECT customer_id,SUM(amount) AS sum_amount
    FROM receipt
    GROUP BY customer_id
)
SELECT customer.customer_id,COALESCE(c_sum.sum_amount,0)
FROM customer
LEFT JOIN c_sum
ON customer.customer_id=c_sum.customer_id
WHERE customer.gender_cd='1' AND customer.customer_id NOT LIKE 'Z%'
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,coalesce
CS021313000114,0
CS031415000172,5088
CS028811000001,0
CS001215000145,875
CS015414000103,3122
CS033513000180,868
CS035614000014,0
CS011215000048,3444
CS009413000079,0
CS040412000191,210


---
> S-039: レシート明細テーブル（receipt）から売上日数の多い顧客の上位20件と、売上金額合計の多い顧客の上位20件を抽出し、完全外部結合せよ。ただし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [115]:
%%sql
WITH 
by_days AS (
    SELECT customer_id,COUNT(DISTINCT sales_ymd) AS sales_days
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
    
    ORDER BY sales_days DESC
    LIMIT 20
),
by_amounts AS (
    SELECT customer_id,SUM(amount) AS sum_amount
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
    
    ORDER BY sum_amount DESC
    LIMIT 20
)
SELECT by_days.*,by_amounts.sum_amount
FROM by_days
FULL OUTER JOIN by_amounts
ON by_days.customer_id=by_amounts.customer_id

 * postgresql://padawan:***@db:5432/dsdojo_db
34 rows affected.


customer_id,sales_days,sum_amount
CS040214000008,23.0,
CS015415000185,22.0,20153.0
CS010214000010,22.0,18585.0
CS028415000007,21.0,19127.0
CS010214000002,21.0,
CS017415000097,20.0,23086.0
CS016415000141,20.0,18372.0
CS021514000045,19.0,
CS022515000226,19.0,
CS031414000051,19.0,19202.0


---
> S-040: 全ての店舗と全ての商品を組み合わせると何件のデータとなるか調査したい。店舗（store）と商品（product）を直積した件数を計算せよ。

In [116]:
%%sql
SELECT COUNT(1)
FROM store
CROSS JOIN product

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
531590


# LAG, TRUNC, UNIONALL

---
> S-041: レシート明細テーブル（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前日からの売上金額増減を計算せよ。なお、計算結果は10件表示すればよい。

In [123]:
%%sql
WITH sum_amount_by_ymd AS(
    SELECT sales_ymd,SUM(amount) AS sum_amount
    FROM receipt
    GROUP BY sales_ymd
    ORDER BY sales_ymd
)
SELECT
    sales_ymd,
    LAG(sales_ymd,1) OVER (ORDER BY sales_ymd) AS lag_ymd,
    sum_amount,
    LAG(sum_amount,1) OVER (ORDER BY sales_ymd) AS lag_amount,
    sum_amount-LAG(sum_amount,1) OVER (ORDER BY sales_ymd)  AS diff_amount
FROM sum_amount_by_ymd
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,lag_ymd,sum_amount,lag_amount,diff_amount
20170101,,33723,,
20170102,20170101.0,24165,33723.0,-9558.0
20170103,20170102.0,27503,24165.0,3338.0
20170104,20170103.0,36165,27503.0,8662.0
20170105,20170104.0,37830,36165.0,1665.0
20170106,20170105.0,32387,37830.0,-5443.0
20170107,20170106.0,23415,32387.0,-8972.0
20170108,20170107.0,24737,23415.0,1322.0
20170109,20170108.0,26718,24737.0,1981.0
20170110,20170109.0,20143,26718.0,-6575.0


---
> S-042: レシート明細テーブル（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、１日前、２日前、３日前のデータを結合せよ。結果は10件表示すればよい。

In [129]:
%%sql
WITH 
    sum_amount_by_ymd AS (
        SELECT sales_ymd,SUM(amount) AS sum_amount
        FROM receipt
        GROUP BY sales_ymd
    ),
    lag_sum AS(
        SELECT 
            sales_ymd,
            sum_amount,
            LAG(sales_ymd,1) OVER (ORDER BY sales_ymd) AS lag_ymd_1,
            LAG(sum_amount,1) OVER (ORDER BY sales_ymd) AS lag_sum_1,
            LAG(sales_ymd,2) OVER (ORDER BY sales_ymd) AS lag_ymd_2,
            LAG(sum_amount,2) OVER (ORDER BY sales_ymd) AS lag_sum_2,
            LAG(sales_ymd,3) OVER (ORDER BY sales_ymd) AS lag_ymd_3,
            LAG(sum_amount,3) OVER (ORDER BY sales_ymd) AS lag_sum_3
        FROM sum_amount_by_ymd
    )
SELECT *
FROM lag_sum
WHERE lag_ymd_3 IS NOT NULL
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sum_amount,lag_ymd_1,lag_sum_1,lag_ymd_2,lag_sum_2,lag_ymd_3,lag_sum_3
20170104,36165,20170103,27503,20170102,24165,20170101,33723
20170105,37830,20170104,36165,20170103,27503,20170102,24165
20170106,32387,20170105,37830,20170104,36165,20170103,27503
20170107,23415,20170106,32387,20170105,37830,20170104,36165
20170108,24737,20170107,23415,20170106,32387,20170105,37830
20170109,26718,20170108,24737,20170107,23415,20170106,32387
20170110,20143,20170109,26718,20170108,24737,20170107,23415
20170111,24287,20170110,20143,20170109,26718,20170108,24737
20170112,23526,20170111,24287,20170110,20143,20170109,26718
20170113,28004,20170112,23526,20170111,24287,20170110,20143


---
> S-043: レシート明細テーブル（receipt）と顧客テーブル（customer）を結合し、性別（gender）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリテーブル（sales_summary）を作成せよ。性別は0が男性、1が女性、9が不明を表すものとする。
>
>ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [174]:
%%sql
WITH 
    group_by_gender_age AS (
        SELECT 
            c.gender_cd,
            TRUNC(c.age/10)*10 AS era,
            SUM(amount) AS sum_amount
        FROM receipt AS r
        JOIN customer AS c
        ON r.customer_id=c.customer_id
        GROUP BY c.gender_cd,era
    ),
    gender_era AS (
        SELECT 
            era,
            MAX(CASE gender_cd WHEN '0' THEN sum_amount ELSE 0 END) AS male,
            MAX(CASE gender_cd WHEN '1' THEN sum_amount ELSE 0 END) AS female,
            MAX(CASE gender_cd WHEN '9' THEN sum_amount ELSE 0 END) AS unknown
        FROM group_by_gender_age
        GROUP BY era 
    )
SELECT *
FROM gender_era

 * postgresql://padawan:***@db:5432/dsdojo_db
9 rows affected.


era,male,female,unknown
10.0,1591,149836,4317
20.0,72940,1363724,44328
30.0,177322,693047,50441
40.0,19355,9320791,483512
50.0,54320,6685192,342923
60.0,272469,987741,71418
70.0,13435,29764,2427
80.0,46360,262923,5111
90.0,0,6260,0


---
> S-044: 前設問で作成した売上サマリテーブル（sales_summary）は性別の売上を横持ちさせたものであった。このテーブルから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を"00"、女性を"01"、不明を"99"とする。

In [181]:
%%sql
WITH 
    group_by_gender_age AS (
        SELECT 
            c.gender_cd,
            TRUNC(c.age/10)*10 AS era,
            SUM(amount) AS sum_amount
        FROM receipt AS r
        JOIN customer AS c
        ON r.customer_id=c.customer_id
        GROUP BY c.gender_cd,era
    ),
    gender_era AS (
        SELECT 
            era,
            MAX(CASE gender_cd WHEN '0' THEN sum_amount ELSE 0 END) AS male,
            MAX(CASE gender_cd WHEN '1' THEN sum_amount ELSE 0 END) AS female,
            MAX(CASE gender_cd WHEN '9' THEN sum_amount ELSE 0 END) AS unknown
        FROM group_by_gender_age
        GROUP BY era 
    )
SELECT era,'00' AS gender,male AS amount FROM gender_era
UNION ALL
SELECT era,'01' AS gender,female AS amount FROM gender_era
UNION ALL
SELECT era,'99' AS gender,unknown AS amount FROM gender_era

 * postgresql://padawan:***@db:5432/dsdojo_db
27 rows affected.


era,gender,amount
10.0,0,1591
20.0,0,72940
30.0,0,177322
40.0,0,19355
50.0,0,54320
60.0,0,272469
70.0,0,13435
80.0,0,46360
90.0,0,0
10.0,1,149836


# 日付

---
> S-045: 顧客テーブル（customer）の生年月日（birth_day）は日付型でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [184]:
%%sql
SELECT customer_id,TO_CHAR(birth_day,'YYYYMMDD')
FROM customer
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,to_char
CS021313000114,19810429
CS037613000071,19520401
CS031415000172,19761004
CS028811000001,19330327
CS001215000145,19950329
CS020401000016,19740915
CS015414000103,19770809
CS029403000008,19730817
CS015804000004,19310502
CS033513000180,19620711


---
> S-046: 顧客テーブル（customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [197]:
%%sql
SELECT customer_id,TO_DATE(application_date,'YYYYMMDD')
FROM customer
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,to_date
CS021313000114,2015-09-05
CS037613000071,2015-04-14
CS031415000172,2015-05-29
CS028811000001,2016-01-15
CS001215000145,2017-06-05
CS020401000016,2015-02-25
CS015414000103,2015-07-22
CS029403000008,2015-05-15
CS015804000004,2015-06-07
CS033513000180,2015-07-28


---
> S-047: レシート明細テーブル（receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [203]:
%%sql
SELECT TO_DATE(CAST(sales_ymd AS VARCHAR),'YYYYMMDD'),receipt_no,receipt_sub_no
FROM receipt 
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


to_date,receipt_no,receipt_sub_no
2018-11-03,112,1
2018-11-18,1132,2
2017-07-12,1102,1
2019-02-05,1132,1
2018-08-21,1102,2
2019-06-05,1112,1
2018-12-05,1102,2
2019-09-22,1102,1
2017-05-04,1112,2
2019-10-10,1102,1


---
> S-048: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [204]:
%%sql
SELECT TO_TIMESTAMP(sales_epoch),receipt_no,receipt_sub_no
FROM receipt
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


to_timestamp,receipt_no,receipt_sub_no
2018-11-03 00:00:00+00:00,112,1
2018-11-18 00:00:00+00:00,1132,2
2017-07-12 00:00:00+00:00,1102,1
2019-02-05 00:00:00+00:00,1132,1
2018-08-21 00:00:00+00:00,1102,2
2019-06-05 00:00:00+00:00,1112,1
2018-12-05 00:00:00+00:00,1102,2
2019-09-22 00:00:00+00:00,1102,1
2017-05-04 00:00:00+00:00,1112,2
2019-10-10 00:00:00+00:00,1102,1


---
> S-049: レシート明細テーブル（receipt）の販売エポック秒（sales_epoch）を日付型に変換し、「年」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [223]:
%%sql
SELECT 
    TO_CHAR(EXTRACT(YEAR FROM TO_TIMESTAMP(sales_epoch)),'FM9999'),
    receipt_no,receipt_sub_no
FROM receipt
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


to_char,receipt_no,receipt_sub_no
2018,112,1
2018,1132,2
2017,1102,1
2019,1132,1
2018,1102,2
2019,1112,1
2018,1102,2
2019,1102,1
2017,1112,2
2019,1102,1


---
> S-050: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「月」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、「月」は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [226]:
%%sql
SELECT 
    TO_CHAR(EXTRACT(MONTH FROM TO_TIMESTAMP(sales_epoch)),'FM00'),
    receipt_no,receipt_sub_no
FROM receipt
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


to_char,receipt_no,receipt_sub_no
11,112,1
11,1132,2
7,1102,1
2,1132,1
8,1102,2
6,1112,1
12,1102,2
9,1102,1
5,1112,2
10,1102,1


---
> S-051: レシート明細テーブル（receipt）の売上エポック秒を日付型に変換し、「日」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、「日」は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [231]:
%%sql
SELECT 
    TO_CHAR(EXTRACT(DAY FROM TO_TIMESTAMP(sales_epoch)),'FM00') AS sales_day,
    receipt_no,receipt_sub_no
FROM receipt
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_day,receipt_no,receipt_sub_no
3,112,1
18,1132,2
12,1102,1
5,1132,1
21,1102,2
5,1112,1
5,1102,2
22,1102,1
4,1112,2
10,1102,1


# CASE, SUBSTR, LEAST

---
> S-052: レシート明細テーブル（re1ceipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2,000円以下を0、2,000円より大きい金額を1に2値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [238]:
%%sql
SELECT 
    customer_id,SUM(amount) AS sum_amount, 
    CASE 
        WHEN SUM(amount)<=2000 THEN 0
        ELSE 1
    END AS FLG
FROM receipt
WHERE customer_id NOT LIKE'Z%'
GROUP BY customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,flg
CS001311000059,2302,1
CS004614000122,248,0
CS003512000043,298,0
CS011615000061,246,0
CS029212000033,3604,1
CS007515000119,7157,1
CS034515000123,3699,1
CS004315000058,490,0
CS026414000014,6671,1
CS001615000099,768,0


---
> S-053: 顧客テーブル（customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に２値化せよ。さらにレシート明細テーブル（receipt）と結合し、全期間において売上実績がある顧客数を、作成した2値ごとにカウントせよ。

In [252]:
%%sql
WITH 
post AS (
    SELECT 
        customer_id,postal_cd,
        CASE
            WHEN CAST(SUBSTR(postal_cd,1,3) AS INTEGER)>=100 AND CAST(SUBSTR(postal_cd,1,3) AS INTEGER)<=209 THEN 1
            ELSE 0
        END AS flg
    FROM customer
),
cust AS (
    SELECT customer_id
    FROM receipt
    GROUP BY customer_id
)
SELECT flg,COUNT(post.customer_id)
FROM post
JOIN cust
ON post.customer_id=cust.customer_id
GROUP BY flg

 * postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


flg,count
0,3906
1,4400


---
> S-054: 顧客テーブル（customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに抽出せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。結果は10件表示させれば良い。

In [255]:
%%sql
SELECT
    customer_id,address,
    CASE SUBSTR(address,1,3)
        WHEN '埼玉県' THEN 11
        WHEN '千葉県' THEN 12
        WHEN '東京都' THEN 13
        WHEN '神奈川' THEN 14
    END AS add_cd
FROM customer
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,address,add_cd
CS021313000114,神奈川県伊勢原市粟窪**********,14
CS037613000071,東京都江東区南砂**********,13
CS031415000172,東京都渋谷区代々木**********,13
CS028811000001,神奈川県横浜市泉区和泉町**********,14
CS001215000145,東京都大田区仲六郷**********,13
CS020401000016,東京都板橋区若木**********,13
CS015414000103,東京都江東区北砂**********,13
CS029403000008,千葉県浦安市海楽**********,12
CS015804000004,東京都江東区北砂**********,13
CS033513000180,神奈川県横浜市旭区善部町**********,14


---
> S-055: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに表示せよ。カテゴリ値は上から順に1〜4とする。結果は10件表示させれば良い。
>
> - 最小値以上第一四分位未満
> - 第一四分位以上第二四分位未満
> - 第二四分位以上第三四分位未満
> - 第三四分位以上

In [269]:
%%sql
WITH 
    s AS (
        SELECT 
            customer_id,SUM(amount) AS sum_amount
        FROM receipt
        GROUP BY customer_id
    ),
    per AS (
        SELECT
            PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY sum_amount) AS per25,
            PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY sum_amount) AS per50,
            PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY sum_amount) AS per75
        FROM s
    )
SELECT 
    s.customer_id,s.sum_amount,
    CASE 
        WHEN s.sum_amount<per.per25 THEN 1
        WHEN s.sum_amount>=per.per25 AND s.sum_amount<per.per50 THEN 2
        WHEN s.sum_amount>=per.per50 AND s.sum_amount<per.per75 THEN 3
        WHEN s.sum_amount>=per.per75 THEN 4
    END AS flg
FROM s
CROSS JOIN per
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,flg
CS001311000059,2302,3
CS004614000122,248,1
CS003512000043,298,1
CS011615000061,246,1
CS029212000033,3604,3
CS007515000119,7157,4
CS034515000123,3699,4
CS004315000058,490,1
CS026414000014,6671,4
CS001615000099,768,2


---
> S-056: 顧客テーブル（customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに抽出せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。先頭10件を表示させればよい。

In [281]:
%%sql
SELECT 
    customer_id,birth_day,
    LEAST(CAST(TRUNC(age/10)*10 AS INTEGER),60) AS era
FROM customer
GROUP BY customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,era
CS001105000001,2000-01-14,10
CS001112000009,2006-08-24,10
CS001112000019,2001-01-31,10
CS001112000021,2001-12-15,10
CS001112000023,2004-01-26,10
CS001112000024,2001-01-16,10
CS001112000029,2005-01-24,10
CS001112000030,2003-03-02,10
CS001113000004,2003-02-22,10
CS001113000010,2005-05-09,10


---
> S-057: 前問題の抽出結果と性別（gender）を組み合わせ、新たに性別×年代の組み合わせを表すカテゴリデータを作成せよ。組み合わせを表すカテゴリの値は任意とする。先頭10件を表示させればよい。

In [284]:
%%sql
SELECT 
    customer_id,birth_day,
    gender || LEAST(CAST(TRUNC(age/10)*10 AS INTEGER),60) AS era
FROM customer
GROUP BY customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,era
CS001105000001,2000-01-14,男性10
CS001112000009,2006-08-24,女性10
CS001112000019,2001-01-31,女性10
CS001112000021,2001-12-15,女性10
CS001112000023,2004-01-26,女性10
CS001112000024,2001-01-16,女性10
CS001112000029,2005-01-24,女性10
CS001112000030,2003-03-02,女性10
CS001113000004,2003-02-22,女性10
CS001113000010,2005-05-09,女性10


---
> S-058: 顧客テーブル（customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに抽出せよ。結果は10件表示させれば良い。

In [294]:
%%sql
SELECT 
    customer_id,
    CASE gender_cd WHEN '0' THEN 1 ELSE 0 END AS male,
    CASE gender_cd WHEN '1' THEN 1 ELSE 0 END AS female,
    CASE gender_cd WHEN '9' THEN 1 ELSE 0 END AS unknown
FROM customer
GROUP BY customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,male,female,unknown
CS001105000001,1,0,0
CS001112000009,0,1,0
CS001112000019,0,1,0
CS001112000021,0,1,0
CS001112000023,0,1,0
CS001112000024,0,1,0
CS001112000029,0,1,0
CS001112000030,0,1,0
CS001113000004,0,1,0
CS001113000010,0,1,0


# 正規化

---
> S-059: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに表示せよ。標準化に使用する標準偏差は、不偏標準偏差と標本標準偏差のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [307]:
%%sql
WITH 
cust_sum AS (
    SELECT customer_id,SUM(amount) AS sum_amount
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
),
avg_std AS (
    SELECT AVG(sum_amount) AS avg_amount,STDDEV_POP(sum_amount) AS std_amount
    FROM cust_sum
)
SELECT customer_id,sum_amount,(sum_amount-avg_amount)/std_amount AS REG
FROM cust_sum
CROSS JOIN avg_std
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,reg
CS001311000059,2302,-0.0903294644839052
CS004614000122,248,-0.8453348887869585
CS003512000043,298,-0.8269559836189193
CS011615000061,246,-0.8460700449936801
CS029212000033,3604,0.3882572260918374
CS007515000119,7157,1.6942622273327081
CS034515000123,3699,0.423177145911112
CS004315000058,490,-0.7563809877736484
CS026414000014,6671,1.5156192690993664
CS001615000099,768,-0.6541942750393501


---
> S-060: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [309]:
%%sql
WITH 
cust_sum AS (
    SELECT customer_id,SUM(amount) AS sum_amount
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
),
avg_std AS (
    SELECT MAX(sum_amount) AS max_amount,MIN(sum_amount) AS min_amount
    FROM cust_sum
)
SELECT customer_id,sum_amount,(sum_amount-min_amount)*1.0/(max_amount-min_amount) AS REG
FROM cust_sum
CROSS JOIN avg_std
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,reg
CS001311000059,2302,0.0969760166840458
CS004614000122,248,0.0077337504344803
CS003512000043,298,0.0099061522419186
CS011615000061,246,0.0076468543621828
CS029212000033,3604,0.1535453597497393
CS007515000119,7157,0.3079162321863051
CS034515000123,3699,0.157672923183872
CS004315000058,490,0.0182481751824817
CS026414000014,6671,0.2868004866180048
CS001615000099,768,0.0303267292318387


# 対数化

---
> S-061: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を常用対数化（底=10）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [316]:
%%sql
SELECT customer_id,SUM(amount),LOG(SUM(amount))
FROM receipt
WHERE customer_id NOT LIKE 'Z%'
GROUP BY customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum,log
CS001311000059,2302,3.362105319293773
CS004614000122,248,2.3944516808262164
CS003512000043,298,2.4742162640762557
CS011615000061,246,2.3909351071033798
CS029212000033,3604,3.5567847823070253
CS007515000119,7157,3.8547310172139424
CS034515000123,3699,3.568084331315394
CS004315000058,490,2.690196080028514
CS026414000014,6671,3.824190940652583
CS001615000099,768,2.885361220031512


---
> S-062: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を自然対数化(底=e）して顧客ID、売上金額合計とともに表示せよ（ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること）。結果は10件表示させれば良い。

In [317]:
%%sql
SELECT customer_id,SUM(amount),LN(SUM(amount))
FROM receipt
WHERE customer_id NOT LIKE 'Z%'
GROUP BY customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum,ln
CS001311000059,2302,7.741533589281828
CS004614000122,248,5.513428746164983
CS003512000043,298,5.697093486505405
CS011615000061,246,5.5053315359323625
CS029212000033,3604,8.189799618728228
CS007515000119,7157,8.875846177738598
CS034515000123,3699,8.215817791832453
CS004315000058,490,6.194405391104672
CS026414000014,6671,8.805525052709516
CS001615000099,768,6.643789733147672


---
> S-063: 商品テーブル（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益額を算出せよ。結果は10件表示させれば良い。

In [319]:
%%sql
SELECT product_cd,unit_price,unit_cost,unit_price-unit_cost
FROM product
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,?column?
P040101001,198,149,49
P040101002,218,164,54
P040101003,230,173,57
P040101004,248,186,62
P040101005,268,201,67
P040101006,298,224,74
P040101007,338,254,84
P040101008,420,315,105
P040101009,498,374,124
P040101010,580,435,145


---
> S-064: 商品テーブル（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。 ただし、単価と原価にはNULLが存在することに注意せよ。

In [323]:
%%sql
SELECT AVG((unit_price*1.0-unit_cost)/unit_price)
FROM product
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


avg
0.24911389885177


---
> S-065: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [330]:
%%sql
WITH new_table AS (
SELECT product_cd,TRUNC(unit_cost/0.7) AS new_unit_price,unit_cost
FROM product
LIMIT 10
)

SELECT product_cd,new_unit_price,unit_cost,(new_unit_price*1.0-unit_cost)/new_unit_price AS rate
FROM new_table

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,new_unit_price,unit_cost,rate
P040101001,212,149,0.2971698113207547
P040101002,234,164,0.2991452991452991
P040101003,247,173,0.2995951417004048
P040101004,265,186,0.2981132075471698
P040101005,287,201,0.2996515679442508
P040101006,320,224,0.3
P040101007,362,254,0.298342541436464
P040101008,450,315,0.3
P040101009,534,374,0.299625468164794
P040101010,621,435,0.2995169082125603


---
> S-066: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を丸めること（四捨五入または偶数への丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [333]:
%%sql
WITH new_table AS (
    SELECT ROUND(unit_cost/0.7) AS new_unit_price, unit_cost
    FROM product
)
SELECT new_unit_price,unit_cost,(new_unit_price-unit_cost)/new_unit_price AS rate
FROM new_table
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


new_unit_price,unit_cost,rate
213,149,0.3004694835680751
234,164,0.2991452991452991
247,173,0.2995951417004048
266,186,0.3007518796992481
287,201,0.2996515679442508
320,224,0.3
363,254,0.3002754820936639
450,315,0.3
534,374,0.299625468164794
621,435,0.2995169082125603


---
> S-067: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [334]:
%%sql
WITH new_table AS (
    SELECT CEIL(unit_cost/0.7) AS new_unit_price, unit_cost
    FROM product
)
SELECT new_unit_price,unit_cost,(new_unit_price-unit_cost)/new_unit_price AS rate
FROM new_table
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


new_unit_price,unit_cost,rate
213,149,0.3004694835680751
235,164,0.302127659574468
248,173,0.3024193548387096
266,186,0.3007518796992481
288,201,0.3020833333333333
320,224,0.3
363,254,0.3002754820936639
450,315,0.3
535,374,0.3009345794392523
622,435,0.3006430868167202


---
> S-068: 商品テーブル（product）の各商品について、消費税率10%の税込み金額を求めよ。 1円未満の端数は切り捨てとし、結果は10件表示すれば良い。ただし、単価（unit_price）にはNULLが存在することに注意せよ。

In [337]:
%%sql
SELECT product_cd,TRUNC(unit_price*1.1)
FROM product
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,trunc
P040101001,217
P040101002,239
P040101003,253
P040101004,272
P040101005,294
P040101006,327
P040101007,371
P040101008,462
P040101009,547
P040101010,638


---
> S-069: レシート明細テーブル（receipt）と商品テーブル（product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分"07"（瓶詰缶詰）の売上実績がある顧客のみとし、結果は10件表示させればよい。

In [346]:
%%sql
WITH
amount_all AS ( 
    SELECT customer_id,SUM(amount) AS amo_all
    FROM receipt
    GROUP BY customer_id
),
amount_07 AS ( 
    SELECT customer_id,SUM(amount) AS amo_07
    FROM receipt AS r
    JOIN product AS p
    ON r.product_cd=p.product_cd AND p.category_major_cd='07'
    GROUP BY customer_id
)

SELECT amount_all.customer_id,amount_all.amo_all,amount_07.amo_07,amount_07.amo_07*1.0/amount_all.amo_all AS rate
FROM amount_all
JOIN amount_07 
ON amount_all.customer_id=amount_07.customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amo_all,amo_07,rate
CS001311000059,2302,102,0.0443092962641181
CS011615000061,246,98,0.3983739837398373
CS029212000033,3604,3604,1.0
CS007515000119,7157,2832,0.3956965208886404
CS034515000123,3699,1202,0.3249526899161935
CS026414000014,6671,3142,0.4709938539949033
CS001615000099,768,318,0.4140625
CS010515000082,1482,553,0.3731443994601889
CS019315000045,813,380,0.4674046740467404
CS008513000099,1322,210,0.1588502269288956


---
> S-070: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [350]:
%%sql
SELECT 
    r.customer_id,r.sales_ymd,c.application_date,
    EXTRACT (DAY FROM TO_TIMESTAMP(CAST(r.sales_ymd AS VARCHAR),'YYYYMMDD')-TO_TIMESTAMP(c.application_date,'YYYYMMDD'))
FROM receipt AS r
JOIN customer AS c
ON r.customer_id= c.customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,extract
CS006214000001,20181103,20150201,1371
CS008415000097,20181118,20150322,1337
CS028414000014,20170712,20150711,732
CS025415000050,20180821,20160131,933
CS003515000195,20190605,20150306,1552
CS024514000042,20181205,20151010,1152
CS040415000178,20190922,20150627,1548
CS027514000015,20191010,20151101,1439
CS025415000134,20190918,20150720,1521
CS021515000126,20171010,20150508,886


---
> S-071: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [363]:
%%sql
WITH inter AS (
    SELECT r.customer_id,r.sales_ymd,c.application_date,AGE(TO_TIMESTAMP(CAST(r.sales_ymd AS VARCHAR),'YYYYMMDD'),TO_TIMESTAMP(c.application_date,'YYYYMMDD')) AS interval
    FROM receipt AS r
    JOIN customer AS c
    ON r.customer_id=c.customer_id
)
SELECT customer_id,sales_ymd,application_date,EXTRACT (YEAR FROM interval) * 12 + EXTRACT (MONTH FROM interval) AS month
FROM inter
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,month
CS006214000001,20181103,20150201,45
CS008415000097,20181118,20150322,43
CS028414000014,20170712,20150711,24
CS025415000050,20180821,20160131,30
CS003515000195,20190605,20150306,50
CS024514000042,20181205,20151010,37
CS040415000178,20190922,20150627,50
CS027514000015,20191010,20151101,47
CS025415000134,20190918,20150720,49
CS021515000126,20171010,20150508,29


---
> S-072: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [364]:
%%sql
WITH inter AS (
    SELECT r.customer_id,r.sales_ymd,c.application_date,AGE(TO_TIMESTAMP(CAST(r.sales_ymd AS VARCHAR),'YYYYMMDD'),TO_TIMESTAMP(c.application_date,'YYYYMMDD')) AS interval
    FROM receipt AS r
    JOIN customer AS c
    ON r.customer_id=c.customer_id
)
SELECT customer_id,sales_ymd,application_date,EXTRACT (YEAR FROM interval) AS year
FROM inter
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,year
CS006214000001,20181103,20150201,3
CS008415000097,20181118,20150322,3
CS028414000014,20170712,20150711,2
CS025415000050,20180821,20160131,2
CS003515000195,20190605,20150306,4
CS024514000042,20181205,20151010,3
CS040415000178,20190922,20150627,4
CS027514000015,20191010,20151101,3
CS025415000134,20190918,20150720,4
CS021515000126,20171010,20150508,2


---
> S-073: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [366]:
%%sql

SELECT r.customer_id,r.sales_ymd,c.application_date,EXTRACT (epoch FROM TO_TIMESTAMP(CAST(r.sales_ymd AS VARCHAR),'YYYYMMDD')-TO_TIMESTAMP(c.application_date,'YYYYMMDD')) AS epoch
FROM receipt AS r
JOIN customer AS c
ON r.customer_id=c.customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,epoch
CS006214000001,20181103,20150201,118454400.0
CS008415000097,20181118,20150322,115516800.0
CS028414000014,20170712,20150711,63244800.0
CS025415000050,20180821,20160131,80611200.0
CS003515000195,20190605,20150306,134092800.0
CS024514000042,20181205,20151010,99532800.0
CS040415000178,20190922,20150627,133747200.0
CS027514000015,20191010,20151101,124329600.0
CS025415000134,20190918,20150720,131414400.0
CS021515000126,20171010,20150508,76550400.0


---
> S-074: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、当該週の月曜日付とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値でデータを保持している点に注意）。

In [387]:
%%sql
WITH 
timestamp AS (
    SELECT r.customer_id,r.sales_ymd,c.application_date,TO_DATE(CAST(r.sales_ymd AS VARCHAR),'YYYYMMDD') AS dt
    FROM receipt AS r
    JOIN customer AS c
    ON r.customer_id=c.customer_id
),
days_of_week AS (
SELECT customer_id,sales_ymd,application_date,dt,CAST (EXTRACT (dow FROM dt-1) AS INTEGER) AS dow
FROM timestamp
)
SELECT customer_id,sales_ymd,application_date,dt,dow,dt-dow
FROM days_of_week
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,dt,dow,?column?
CS006214000001,20181103,20150201,2018-11-03,5,2018-10-29
CS008415000097,20181118,20150322,2018-11-18,6,2018-11-12
CS028414000014,20170712,20150711,2017-07-12,2,2017-07-10
CS025415000050,20180821,20160131,2018-08-21,1,2018-08-20
CS003515000195,20190605,20150306,2019-06-05,2,2019-06-03
CS024514000042,20181205,20151010,2018-12-05,2,2018-12-03
CS040415000178,20190922,20150627,2019-09-22,6,2019-09-16
CS027514000015,20191010,20151101,2019-10-10,3,2019-10-07
CS025415000134,20190918,20150720,2019-09-18,2,2019-09-16
CS021515000126,20171010,20150508,2017-10-10,1,2017-10-09


---
> S-075: 顧客テーブル（customer）からランダムに1%のデータを抽出し、先頭から10件データを抽出せよ。 

In [390]:
%%sql
SELECT *
FROM customer
WHERE RANDOM()<=0.01
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS007314000053,宮脇 咲,1,女性,1981-04-04,37,285-0855,千葉県佐倉市井野**********,S12007,20141219,0-00000000-0
CS002511000074,小平 路子,1,女性,1964-12-15,54,187-0001,東京都小平市大沼町**********,S13002,20160322,0-00000000-0
CS001411000027,長瀬 礼子,1,女性,1969-05-15,49,210-0024,神奈川県川崎市川崎区日進町**********,S13001,20150301,A-20091001-1
CS004314000055,松井 莉沙,1,女性,1979-07-04,39,167-0022,東京都杉並区下井草**********,S13004,20150618,9-20100423-8
CS020413000290,杉本 季衣,1,女性,1975-01-20,44,173-0003,東京都板橋区加賀**********,S13020,20160525,0-00000000-0
CS021413000094,宇佐美 メイサ,1,女性,1970-05-18,48,259-1131,神奈川県伊勢原市伊勢原**********,S14021,20150422,0-00000000-0
CS003311000062,高柳 由宇,1,女性,1982-09-15,36,206-0812,東京都稲城市矢野口**********,S13003,20151201,4-20100921-2
CS002514000312,長浜 ひかり,1,女性,1966-02-24,53,184-0015,東京都小金井市貫井北町**********,S13002,20171203,0-00000000-0
CS029411000064,北沢 はるみ,1,女性,1977-04-12,41,132-0014,東京都江戸川区東瑞江**********,S12029,20160615,0-00000000-0
CS034715000016,久野 しぼり,1,女性,1947-12-08,71,216-0001,神奈川県川崎市宮前区野川**********,S14034,20150703,0-00000000-0


---
> S-076:  顧客テーブル（customer）から性別（gender_cd）の割合に基づきランダムに10%のデータを層化抽出し、性別ごとに件数を集計せよ。

In [None]:
%%sql


---
> S-077: レシート明細テーブル（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を平均から3σ以上離れたものとする。結果は10件表示させれば良い。

In [None]:
%%sql


---
> S-078: レシート明細テーブル（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第一四分位と第三四分位の差であるIQRを用いて、「第一四分位数-1.5×IQR」よりも下回るもの、または「第三四分位数+1.5×IQR」を超えるものとする。結果は10件表示させれば良い。

In [None]:
%%sql


---
> S-079: 商品テーブル（product）の各項目に対し、欠損数を確認せよ。

In [None]:
%%sql


---
> S-080: 商品テーブル（product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たなproduct_1を作成せよ。なお、削除前後の件数を表示させ、前設問で確認した件数だけ減少していることも確認すること。

In [None]:
%%sql


---
> S-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たなproduct_2を作成せよ。なお、平均値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [None]:
%%sql


---
> S-082:  単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たなproduct_3を作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [None]:
%%sql


---
> S-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品の小区分（category_small_cd）ごとに算出した中央値で補完した新たなproduct_4を作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [None]:
%%sql


---
> S-084: 顧客テーブル（customer）の全顧客に対し、全期間の売上金額に占める2019年売上金額の割合を計算せよ。ただし、売上実績がない場合は0として扱うこと。そして計算した割合が0超のものを抽出せよ。 結果は10件表示させれば良い。

In [None]:
%%sql


---
> S-085: 顧客テーブル（customer）の全顧客に対し、郵便番号（postal_cd）を用いて経度緯度変換用テーブル（geocode）を紐付け、新たなcustomer_1を作成せよ。ただし、複数紐づく場合は経度（longitude）、緯度（latitude）それぞれ平均を算出すること。

In [None]:
%%sql


---
> S-086: 前設問で作成した緯度経度つき顧客テーブル（customer_1）に対し、申込み店舗コード（application_store_cd）をキーに店舗テーブル（store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客の緯度・経度を用いて距離（km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示すれば良い。

$$
緯度（ラジアン）：\phi \\
経度（ラジアン）：\lambda \\
距離L = 6371 * arccos(sin \phi_1 * sin \phi_2
+ cos \phi_1 * cos \phi_2 * cos(\lambda_1 − \lambda_2))
$$

In [None]:
%%sql


---
> S-087: 顧客テーブル（customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなし、1顧客1レコードとなるように名寄せした名寄顧客テーブル（customer_u）を作成せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残すものとし、売上金額合計が同一もしくは売上実績がない顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [None]:
%%sql


---
> S-088: 前設問で作成したデータを元に、顧客テーブルに統合名寄IDを付与したテーブル（customer_n）を作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
>- 重複していない顧客：顧客ID（customer_id）を設定
>- 重複している顧客：前設問で抽出したレコードの顧客IDを設定

In [None]:
%%sql


---
> S-089: 売上実績がある顧客に対し、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

In [None]:
%%sql


---
> S-090: レシート明細テーブル（receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月のモデル構築用データを3セット作成せよ。データの持ち方は自由とする。

In [None]:
%%sql


---
> S-091: 顧客テーブル（customer）の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [None]:
%%sql


---
> S-092: 顧客テーブル（customer）では、性別に関する情報が非正規化の状態で保持されている。これを第三正規化せよ。

In [None]:
%%sql


---
> S-093: 商品テーブル（product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリテーブル（category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品テーブルを作成せよ。

In [None]:
%%sql


---
> S-094: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-095: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはSJIS

In [None]:
%%sql


---
> S-096: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-097: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しく取り込まれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-098: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しく取り込まれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-099: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-100: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しく取り込まれていることを確認せよ。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


# これで１００本終わりです。おつかれさまでした！