# データサイエンス100本ノック（構造化データ加工編） - SQL

## はじめに
- データベースはPostgreSQL12です
- 初めに以下のセルを実行してください
- セルに %%sql と記載することでSQLを発行することができます
- jupyterからはdescribeコマンドによるテーブル構造の確認ができないため、テーブル構造を確認する場合はlimitを指定したSELECTなどで代用してください
- 使い慣れたSQLクライアントを使っても問題ありません（接続情報は以下の通り）
  - IPアドレス：Docker Desktopの場合はlocalhost、Docker toolboxの場合は192.168.99.100
  - Port:5432
  - database名: dsdojo_db
  - ユーザ名：padawan
  - パスワード:padawan12345
- 大量出力を行うとJupyterが固まることがあるため、出力件数は制限することを推奨します（設問にも出力件数を記載）
    - 結果確認のために表示させる量を適切にコントロールし、作業を軽快にすすめる技術もデータ加工には求められます
- 大量結果が出力された場合は、ファイルが重くなり以降開けなくなることもあります
    - その場合、作業結果は消えますがファイルをGitHubから取り直してください
    - vimエディタなどで大量出力範囲を削除することもできます
- 名前、住所等はダミーデータであり、実在するものではありません

In [1]:
%load_ext sql
import os
import pandas as pd
import psycopg2
from sqlalchemy import create_engine

pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}
dsl = 'postgresql://{user}:{password}@{host}:{port}/{database}'.format(**pgconfig)

# pd.read_sql用のコネクタ
conn = psycopg2.connect(**pgconfig)
# pd.to_sql用のcreate engine
engine = create_engine(dsl)
# MagicコマンドでSQLを書くための設定
%sql $dsl

'Connected: padawan@dsdojo_db'

# 使い方
- セルの先頭に%%sqlと記載し、２行目以降にSQLを記述することでJupyterからPostgreSQLに対しSQLを実行できます。

In [4]:
%%sql
select 'このように実行できます' as sample

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sample
このように実行できます


# データ加工100本ノック

---
> S-001: レシート明細テーブル（receipt）から全項目を10件抽出し、どのようなデータを保有しているか目視で確認せよ。


In [5]:
%%sql
select
    *
from
    receipt
limit
    10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1258502400,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1215820800,S14028,1102,1,CS028414000014,P060101005,1,170
20190205,1265328000,S14042,1132,1,ZZ000000000000,P050301001,1,25
20180821,1250812800,S14025,1102,2,CS025415000050,P060102007,1,90
20190605,1275696000,S13003,1112,1,CS003515000195,P050102002,1,138
20181205,1259971200,S14024,1102,2,CS024514000042,P080101005,1,30
20190922,1285113600,S14040,1102,1,CS040415000178,P070501004,1,128
20170504,1209859200,S13020,1112,2,ZZ000000000000,P071302010,1,770
20191010,1286668800,S14027,1102,1,CS027514000015,P071101003,1,680


---
> S-002: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。

In [6]:
%%sql
select
    sales_ymd,
    customer_id,
    product_cd,
    amount
from
    receipt
limit
    10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-003: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。ただし、sales_ymdはsales_dateに項目名を変更しながら抽出すること。

In [7]:
%%sql
select
    sales_ymd as sales_date,
    customer_id,
    product_cd,
    amount
from
    receipt
limit
    10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_date,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-004: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ
> - 顧客ID（customer_id）が"CS018205000001"

In [11]:
%%sql
select
    sales_ymd,
    customer_id,
    product_cd,
    amount
from
    receipt
where 
    customer_id = 'CS018205000001'

 * postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-005: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [12]:
%%sql
select
    sales_ymd,
    customer_id,
    product_cd,
    amount
from
    receipt
where 
    customer_id = 'CS018205000001'
    and amount >= 1000

 * postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-006: レシート明細テーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [14]:
%%sql
select
    sales_ymd,
    customer_id,
    product_cd,
    quantity,
    amount
from
    receipt
where 
    customer_id = 'CS018205000001'
    and (amount >= 1000 or quantity >= 5)

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


sales_ymd,customer_id,product_cd,quantity,amount
20180911,CS018205000001,P071401012,1,2200
20180414,CS018205000001,P060104007,6,600
20170614,CS018205000001,P050206001,5,990
20190226,CS018205000001,P071401020,1,2200
20180911,CS018205000001,P071401005,1,1100


---
> S-007: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [16]:
%%sql
select
    sales_ymd,
    customer_id,
    product_cd,
    amount
from
    receipt
where 
    customer_id = 'CS018205000001'
    and amount between 1000 and 2000

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401005,1100


---
> S-008: レシート明細テーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [17]:
%%sql
select
    sales_ymd,
    customer_id,
    product_cd,
    amount
from
    receipt
where 
    customer_id = 'CS018205000001'
    and not product_cd = 'P071401019'

 * postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。

`select * from store where not (prefecture_cd = '13' or floor_area > 900)`

In [2]:
%%sql
select * from store where (prefecture_cd != '13' and floor_area <= 900)

 * postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> S-010: 店舗テーブル（store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件だけ表示せよ。

In [8]:
%%sql
select
    *
from
    store
where
    store_cd like 'S14%'
limit
    10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,139.5789,35.29642,1838.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0


---
> S-011: 顧客テーブル（customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件だけ表示せよ。


In [7]:
%%sql
select
    *
from
    customer
where
    customer_id like '%1'
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS028314000011,小菅 あおい,1,女性,1983-11-26,35,246-0038,神奈川県横浜市瀬谷区宮沢**********,S14028,20151123,1-20080426-5
CS039212000051,藤島 恵梨香,1,女性,1997-02-03,22,166-0001,東京都杉並区阿佐谷北**********,S13039,20171121,1-20100215-4
CS015412000111,松居 奈月,1,女性,1972-10-04,46,136-0071,東京都江東区亀戸**********,S13015,20150629,0-00000000-0
CS004702000041,野島 洋,0,男性,1943-08-24,75,176-0022,東京都練馬区向山**********,S13004,20170218,0-00000000-0
CS041515000001,栗田 千夏,1,女性,1967-01-02,52,206-0001,東京都多摩市和田**********,S13041,20160422,E-20100803-F
CS029313000221,北条 ひかり,1,女性,1987-06-19,31,279-0011,千葉県浦安市美浜**********,S12029,20180810,0-00000000-0
CS034312000071,望月 奈央,1,女性,1980-09-20,38,213-0026,神奈川県川崎市高津区久末**********,S14034,20160106,0-00000000-0


---
> S-012: 店舗テーブル（store）から横浜市の店舗だけ全項目表示せよ。

In [9]:
%%sql
select *
from store
where address like '%横浜市%'

 * postgresql://padawan:***@db:5432/dsdojo_db
11 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,139.5758,35.54912,1657.0
S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,139.6593,35.43894,1044.0


---
> S-013: 顧客テーブル（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件だけ表示せよ。

In [15]:
%%sql
select *
from customer
where status_cd ~ '^[A-F]'
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS029415000023,梅田 里穂,1,女性,1976-01-17,43,279-0043,千葉県浦安市富士見**********,S12029,20150610,D-20100918-E
CS035415000029,寺沢 真希,9,不明,1977-09-27,41,158-0096,東京都世田谷区玉川台**********,S13035,20141220,F-20101029-F
CS031415000106,宇野 由美子,1,女性,1970-02-26,49,151-0053,東京都渋谷区代々木**********,S13031,20150201,F-20100511-E
CS029215000025,石倉 美帆,1,女性,1993-09-28,25,279-0022,千葉県浦安市今川**********,S12029,20150708,B-20100820-C
CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F


---
> S-014: 顧客テーブル（customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [16]:
%%sql
select *
from customer
where status_cd ~ '[1-9]$'
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS009315000023,皆川 文世,1,女性,1980-04-15,38,154-0012,東京都世田谷区駒沢**********,S13009,20150319,5-20080322-1
CS015315000033,福士 璃奈子,1,女性,1983-03-17,36,135-0043,東京都江東区塩浜**********,S13015,20141024,4-20080219-3
CS023513000066,神戸 そら,1,女性,1961-12-17,57,210-0005,神奈川県川崎市川崎区東田町**********,S14023,20150915,5-20100524-9
CS035513000134,市川 美帆,1,女性,1960-03-27,59,156-0053,東京都世田谷区桜**********,S13035,20150227,8-20100711-9
CS001515000263,高松 夏空,1,女性,1962-11-09,56,144-0051,東京都大田区西蒲田**********,S13001,20160812,1-20100804-1
CS040314000027,鶴田 きみまろ,9,不明,1986-03-26,33,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150122,2-20080426-4


---
> S-015: 顧客テーブル（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [17]:
%%sql
select *
from customer
where status_cd ~ '^[A-F].*[1-9]$'
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS022513000105,島村 貴美子,1,女性,1962-03-12,57,249-0002,神奈川県逗子市山の根**********,S14022,20150320,A-20091115-7
CS001515000096,水野 陽子,9,不明,1960-11-29,58,144-0053,東京都大田区蒲田本町**********,S13001,20150614,A-20100724-7
CS013615000053,西脇 季衣,1,女性,1953-10-18,65,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150128,B-20100329-6
CS020412000161,小宮 薫,1,女性,1974-05-21,44,174-0042,東京都板橋区東坂下**********,S13020,20150822,B-20081021-3
CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
CS035212000007,内村 恵梨香,1,女性,1990-12-04,28,152-0023,東京都目黒区八雲**********,S13035,20151013,B-20101018-6
CS002515000386,野田 コウ,1,女性,1963-05-30,55,185-0013,東京都国分寺市西恋ケ窪**********,S13002,20160410,C-20100127-8
CS001615000372,稲垣 寿々花,1,女性,1956-10-29,62,144-0035,東京都大田区南蒲田**********,S13001,20170403,A-20100104-1
CS032512000121,松井 知世,1,女性,1962-09-04,56,210-0011,神奈川県川崎市川崎区富士見**********,S13032,20150727,A-20100103-5


---
> S-016: 店舗テーブル（store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [18]:
%%sql
select *
from store
where tel_no ~ '[0-9]{3}-[0-9]{3}-[0-9]{4}'

 * postgresql://padawan:***@db:5432/dsdojo_db
34 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S13052,森野店,13,東京都,東京都町田市森野三丁目,トウキョウトマチダシモリノサンチョウメ,042-123-4030,139.4383,35.55293,1087.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0


---
> S-017: 顧客テーブル（customer）を生年月日（birth_day）で高齢順にソートし、先頭10件を全項目表示せよ。

In [19]:
%%sql
select *
from customer
order by birth_day asc
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0
CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0


---
> S-018: 顧客テーブル（customer）を生年月日（birth_day）で若い順にソートし、先頭10件を全項目表示せよ。

In [20]:
%%sql
select *
from customer
order by birth_day desc
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS035114000004,大村 美里,1,女性,2007-11-25,11,156-0053,東京都世田谷区桜**********,S13035,20150619,6-20091205-6
CS022103000002,福山 はじめ,9,不明,2007-10-02,11,249-0006,神奈川県逗子市逗子**********,S14022,20160909,0-00000000-0
CS002113000009,柴田 真悠子,1,女性,2007-09-17,11,184-0014,東京都小金井市貫井南町**********,S13002,20160304,0-00000000-0
CS004115000014,松井 京子,1,女性,2007-08-09,11,165-0031,東京都中野区上鷺宮**********,S13004,20161120,1-20081231-1
CS002114000010,山内 遥,1,女性,2007-06-03,11,184-0015,東京都小金井市貫井北町**********,S13002,20160920,6-20100510-1
CS025115000002,小柳 夏希,1,女性,2007-04-18,11,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20160116,D-20100913-D
CS002113000025,広末 まなみ,1,女性,2007-03-30,12,184-0015,東京都小金井市貫井北町**********,S13002,20171030,0-00000000-0
CS033112000003,長野 美紀,1,女性,2007-03-22,12,245-0051,神奈川県横浜市戸塚区名瀬町**********,S14033,20150606,0-00000000-0
CS007115000006,福岡 瞬,1,女性,2007-03-10,12,285-0845,千葉県佐倉市西志津**********,S12007,20151118,F-20101016-F
CS014113000008,矢口 莉緒,1,女性,2007-03-05,12,260-0041,千葉県千葉市中央区東千葉**********,S12014,20150622,3-20091108-6


---
> S-019: レシート明細テーブル（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [24]:
%%sql
select
    customer_id,
    amount,
    rank() over (order by amount desc) as rank
from receipt
order by rank asc
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,rank
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,4
ZZ000000000000,5480,4
ZZ000000000000,5440,7
CS021515000089,5440,7
CS009415000038,5280,9
ZZ000000000000,5280,9


---
>  S-020: レシート明細テーブル（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [25]:
%%sql
select
    customer_id,
    amount,
    row_number() over (order by amount desc) as rank
from receipt
order by rank asc
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,rank
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,5
ZZ000000000000,5480,6
ZZ000000000000,5440,7
CS021515000089,5440,8
ZZ000000000000,5280,9
CS009415000038,5280,10


---
> S-021: レシート明細テーブル（receipt）に対し、件数をカウントせよ。

In [26]:
%%sql
select count(customer_id)
from receipt

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
104681


---
> S-022: レシート明細テーブル（receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [27]:
%%sql
select count(distinct customer_id)
from receipt

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
8307


---
> S-023: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [29]:
%%sql
select
    store_cd,
    sum(amount) as amount,
    sum(quantity) as quantity
from receipt
group by store_cd

 * postgresql://padawan:***@db:5432/dsdojo_db
52 rows affected.


store_cd,amount,quantity
S12007,638761,2099
S13017,748221,2376
S13043,587895,1881
S13052,100314,250
S13016,793773,2432
S14027,714550,2303
S13009,808870,2486
S14022,651328,2047
S13019,827833,2541
S13039,611888,1981


---
> S-024: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）を求め、10件表示せよ。

In [32]:
%%sql
select distinct
    customer_id,
    first_value(sales_ymd) over (partition by customer_id order by sales_ymd desc)
from
    receipt
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,first_value
CS002805000005,20190829
CS020415000109,20190922
CS008413000003,20180524
CS019515000097,20190630
CS012414000004,20191001
CS006212000047,20190425
CS014415000077,20190903
CS025215000006,20190910
CS034514000008,20181012
CS019411000012,20190314


---
> S-025: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も古い売上日（sales_ymd）を求め、10件表示せよ。

In [33]:
%%sql
select distinct
    customer_id,
    first_value(sales_ymd) over (partition by customer_id order by sales_ymd asc)
from
    receipt
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,first_value
CS021512000083,20170310
CS008413000003,20180524
CS005412000190,20170623
CS008515000005,20170714
CS033515000083,20170526
CS026414000097,20170809
CS006212000047,20190425
CS040414000069,20170404
CS029415000253,20171001
CS009415000136,20170117


---
> S-026: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）と古い売上日を求め、両者が異なるデータを10件表示せよ。

In [39]:
%%sql
select
    customer_id,
    max(sales_ymd),
    min(sales_ymd)
from
    receipt
group by
    customer_id
having
    max(sales_ymd)!=min(sales_ymd)
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,max,min
CS029212000033,20180621,20170318
CS007515000119,20190511,20170201
CS034515000123,20190708,20170527
CS026414000014,20190720,20170718
CS010515000082,20181204,20180518
CS019315000045,20170920,20170423
CS008513000099,20190308,20170722
CS007615000070,20191025,20170929
CS025415000155,20191026,20170314
CS016414000063,20190617,20170109


---
> S-027: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [40]:
%%sql
select
    store_cd,
    avg(amount)
from
    receipt
group by
    store_cd
order by avg(amount) desc
limit 5

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,avg
S13052,402.86746987951807
S13015,351.11196043165467
S13003,350.9155188246097
S14010,348.79126213592235
S13001,348.4703862660944


---
> S-028: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [43]:
%%sql
select
    store_cd,
    PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY amount)
from
    receipt
group by
    store_cd
order by PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY amount) desc
limit 5

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,percentile_cont
S13052,190.0
S14010,188.0
S14050,185.0
S13003,180.0
S13018,180.0


---
> S-029: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに商品コードの最頻値を求めよ。

In [49]:
%%sql
select
    store_cd,
    mode() WITHIN GROUP (ORDER BY product_cd) as mode_product
from
    receipt
group by
    store_cd

 * postgresql://padawan:***@db:5432/dsdojo_db
52 rows affected.


store_cd,mode_product
S12007,P060303001
S12013,P060303001
S12014,P060303001
S12029,P060303001
S12030,P060303001
S13001,P060303001
S13002,P060303001
S13003,P071401001
S13004,P060303001
S13005,P040503001


---
> S-030: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本分散を計算し、降順にTOP5を表示せよ。

In [50]:
%%sql
select store_cd, var_samp(amount) as var_amount
from receipt
group by store_cd
order by var_amount desc
limit 5

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,var_amount
S13052,441863.252526234
S14011,306442.24243156874
S14034,297068.39274006075
S13001,295558.8426177125
S13015,295427.1970858536


---
> S-031: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本標準偏差を計算し、降順にTOP5を表示せよ。

In [52]:
%%sql
select store_cd, stddev_samp(amount) as std_amount
from receipt
group by store_cd
order by std_amount desc
limit 5

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,std_amount
S13052,664.727953772244
S14011,553.57225583619
S14034,545.039808399406
S13001,543.65323747561
S13015,543.532149082144


---
> S-032: レシート明細テーブル（receipt）に対し、売上金額（amount）について25％刻みでパーセンタイル値を求めよ。

In [55]:
%%sql
select
    min(amount) as "0per",
    PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY amount) as "25per",
    PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY amount) as "50per",
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY amount) as "75per",
    max(amount) as "100per"
from
    receipt
limit 5

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


0per,25per,50per,75per,100per
10,102.0,170.0,288.0,10925


---
> S-033: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [56]:
%%sql
select store_cd, avg(amount) as avg
from receipt
group by store_cd
having avg(amount) >= 330

 * postgresql://padawan:***@db:5432/dsdojo_db
13 rows affected.


store_cd,avg
S13052,402.86746987951807
S13019,330.2086158755485
S13003,350.9155188246097
S14045,330.0820734341253
S13004,330.943949044586
S13001,348.4703862660944
S14026,332.34058847239015
S14010,348.79126213592235
S13015,351.11196043165467
S12013,330.19412997903567


---
> S-034: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [71]:
%%sql
select cast(sum(amount) as float)/count(distinct customer_id)
from receipt
where not customer_id like 'Z%'

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


?column?
2547.742234529256


---
> S-035: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに販売金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、データは10件だけ表示させれば良い。

In [73]:
%%sql
select customer_id, sum(amount) as sum
from receipt
where not customer_id like 'Z%'
group by customer_id
having sum(amount) >= 
(select cast(sum(amount) as float)/count(distinct customer_id)
from receipt
where not customer_id like 'Z%')
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum
CS029212000033,3604
CS007515000119,7157
CS034515000123,3699
CS026414000014,6671
CS007615000070,2975
CS016414000063,6207
CS012514000018,2562
CS029515000142,3420
CS015215000021,3090
CS039814000011,8031


---
> S-036: レシート明細テーブル（receipt）と店舗テーブル（store）を内部結合し、レシート明細テーブルの全項目と店舗テーブルの店舗名（store_name）を10件表示させよ。

In [74]:
%%sql
select r.*, s.store_name
from receipt as r
inner join store as s on r.store_cd=s.store_cd
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158,葛が谷店
20181118,1258502400,S13008,1132,2,CS008415000097,P070701017,1,81,成城店
20170712,1215820800,S14028,1102,1,CS028414000014,P060101005,1,170,二ツ橋店
20190205,1265328000,S14042,1132,1,ZZ000000000000,P050301001,1,25,新山下店
20180821,1250812800,S14025,1102,2,CS025415000050,P060102007,1,90,大和店
20190605,1275696000,S13003,1112,1,CS003515000195,P050102002,1,138,狛江店
20181205,1259971200,S14024,1102,2,CS024514000042,P080101005,1,30,三田店
20190922,1285113600,S14040,1102,1,CS040415000178,P070501004,1,128,長津田店
20170504,1209859200,S13020,1112,2,ZZ000000000000,P071302010,1,770,十条仲原店
20191010,1286668800,S14027,1102,1,CS027514000015,P071101003,1,680,南藤沢店


---
> S-037: 商品テーブル（product）とカテゴリテーブル（category）を内部結合し、商品テーブルの全項目とカテゴリテーブルの小区分名（category_small_name）を10件表示させよ。

In [75]:
%%sql
select p.*, c.category_small_name
from product as p
join category as c on p.category_small_cd=c.category_small_cd
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_small_name
P040101001,4,401,40101,198,149,弁当類
P040101002,4,401,40101,218,164,弁当類
P040101003,4,401,40101,230,173,弁当類
P040101004,4,401,40101,248,186,弁当類
P040101005,4,401,40101,268,201,弁当類
P040101006,4,401,40101,298,224,弁当類
P040101007,4,401,40101,338,254,弁当類
P040101008,4,401,40101,420,315,弁当類
P040101009,4,401,40101,498,374,弁当類
P040101010,4,401,40101,580,435,弁当類


---
> S-038: 顧客テーブル（customer）とレシート明細テーブル（receipt）から、各顧客ごとの売上金額合計を求めよ。ただし、買い物の実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが'Z'から始まるもの）は除外すること。なお、結果は10件だけ表示させれば良い。

In [97]:
%%sql
select c.customer_id, sum(coalesce(r.amount, 0)) as total_amount
from customer c
left outer join receipt r on c.customer_id=r.customer_id
where c.gender_cd = '1' and not c.customer_id like 'Z%'
group by c.customer_id
order by c.customer_id
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount
CS001112000009,0
CS001112000019,0
CS001112000021,0
CS001112000023,0
CS001112000024,0
CS001112000029,0
CS001112000030,0
CS001113000004,1298
CS001113000010,0
CS001114000005,626


---
> S-039: レシート明細テーブル（receipt）から売上日数の多い顧客の上位20件と、売上金額合計の多い顧客の上位20件を抽出し、完全外部結合せよ。ただし、非会員（顧客IDが'Z'から始まるもの）は除外すること。

In [108]:
%%sql
with rec as (
    select customer_id, sum(amount) as amount, count(distinct sales_ymd) as count
    from receipt
    where not customer_id like 'Z%' 
    group by customer_id
),
ramount as (
    select customer_id, amount
    from rec
    order by amount desc
    limit 20
),
rcount as (
    select customer_id, count
    from rec
    order by count desc
    limit 20
)
select coalesce(a.customer_id, c.customer_id), amount, count
from ramount a
full outer join rcount c on a.customer_id=c.customer_id 

 * postgresql://padawan:***@db:5432/dsdojo_db
34 rows affected.


coalesce,amount,count
CS017415000097,23086.0,20.0
CS015415000185,20153.0,22.0
CS031414000051,19202.0,19.0
CS028415000007,19127.0,21.0
CS001605000009,18925.0,
CS010214000010,18585.0,22.0
CS006515000023,18372.0,
CS016415000141,18372.0,20.0
CS011414000106,18338.0,
CS038415000104,17847.0,


---
> S-040: 全ての店舗と全ての商品を組み合わせると何件のデータとなるか調査したい。店舗（store）と商品（product）を直積した件数を計算せよ。

In [110]:
%%sql
with st as (
    select store_cd, 0 as key
    from store
),
pr as (
    select product_cd, 0 as key
    from product
)
select count(*)
from st
join pr on st.key=pr.key

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
531590


---
> S-041: レシート明細テーブル（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前日からの売上金額増減を計算せよ。なお、計算結果は10件表示すればよい。

In [114]:
%%sql
select
    sales_ymd,
    sum(amount),
    sum(amount) - lag(sum(amount), 1) over (order by sales_ymd asc) as diff
from
    receipt
group by
    sales_ymd
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sum,diff
20170101,33723,
20170102,24165,-9558.0
20170103,27503,3338.0
20170104,36165,8662.0
20170105,37830,1665.0
20170106,32387,-5443.0
20170107,23415,-8972.0
20170108,24737,1322.0
20170109,26718,1981.0
20170110,20143,-6575.0


---
> S-042: レシート明細テーブル（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、１日前、２日前、３日前のデータを結合せよ。結果は10件表示すればよい。

In [116]:
%%sql
select
    sales_ymd,
    sum(amount),
    lag(sum(amount), 1) over (order by sales_ymd asc) as diff1day,
    lag(sum(amount), 2) over (order by sales_ymd asc) as diff2day,
    lag(sum(amount), 3) over (order by sales_ymd asc) as diff3day
from
    receipt
group by
    sales_ymd
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sum,diff1day,diff2day,diff3day
20170101,33723,,,
20170102,24165,33723.0,,
20170103,27503,24165.0,33723.0,
20170104,36165,27503.0,24165.0,33723.0
20170105,37830,36165.0,27503.0,24165.0
20170106,32387,37830.0,36165.0,27503.0
20170107,23415,32387.0,37830.0,36165.0
20170108,24737,23415.0,32387.0,37830.0
20170109,26718,24737.0,23415.0,32387.0
20170110,20143,26718.0,24737.0,23415.0


---
> S-043: レシート明細テーブル（receipt）と顧客テーブル（customer）を結合し、性別（gender）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリテーブル（sales_summary）を作成せよ。性別は0が男性、1が女性、9が不明を表すものとする。
>
>ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [135]:
%%sql
create table sales_summary as(
with classed_customer as (
    select
        customer_id,
        gender_cd,
        trunc((age-1)/10)*10 as age_class
    from
        customer
)
select
    c.age_class,
    sum(case
            when c.gender_cd = '0' then r.amount else 0 end) as male,
    sum(case
            when c.gender_cd = '1' then r.amount else 0 end) as female,
    sum(case
            when c.gender_cd = '9' then r.amount else 0 end) as others
from receipt r
join classed_customer c on r.customer_id=c.customer_id
group by c.age_class
order by c.age_class asc
)

 * postgresql://padawan:***@db:5432/dsdojo_db
8 rows affected.


[]

In [137]:
%%sql
select * from sales_summary

 * postgresql://padawan:***@db:5432/dsdojo_db
8 rows affected.


age_class,male,female,others
10.0,1591,154504,4317
20.0,76990,1386076,51786
30.0,178587,684901,44656
40.0,14786,9616998,492748
50.0,53574,6512239,336936
60.0,276237,867377,68725
70.0,9667,8000,198
80.0,46360,269183,5111


---
> S-044: 前設問で作成した売上サマリテーブル（sales_summary）は性別の売上を横持ちさせたものであった。このテーブルから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を'00'、女性を'01'、不明を'99'とする。

In [139]:
%%sql
select age_class, '00' as gender_cd, male as amount from sales_summary
union all
select age_class, '01' as gender_cd, female as amount from sales_summary
union all
select age_class, '99' as gender_cd, others as amount from sales_summary
order by age_class asc, gender_cd asc

 * postgresql://padawan:***@db:5432/dsdojo_db
24 rows affected.


age_class,gender_cd,amount
10.0,0,1591
10.0,1,154504
10.0,99,4317
20.0,0,76990
20.0,1,1386076
20.0,99,51786
30.0,0,178587
30.0,1,684901
30.0,99,44656
40.0,0,14786


---
> S-045: 顧客テーブル（customer）の生年月日（birth_day）は日付型（Date）でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [141]:
%%sql
select customer_id, birth_day, to_char(birth_day, 'YYYYMMDD')
from customer
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,to_char
CS021313000114,1981-04-29,19810429
CS037613000071,1952-04-01,19520401
CS031415000172,1976-10-04,19761004
CS028811000001,1933-03-27,19330327
CS001215000145,1995-03-29,19950329
CS020401000016,1974-09-15,19740915
CS015414000103,1977-08-09,19770809
CS029403000008,1973-08-17,19730817
CS015804000004,1931-05-02,19310502
CS033513000180,1962-07-11,19620711


---
> S-046: 顧客テーブル（customer）の申し込み日（application_date）はYYYYMMD形式の文字列型でデータを保有している。これを日付型（dateやdatetime）に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [142]:
%%sql
select customer_id, to_date(application_date, 'YYYYMMDD')
from customer
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,to_date
CS021313000114,2015-09-05
CS037613000071,2015-04-14
CS031415000172,2015-05-29
CS028811000001,2016-01-15
CS001215000145,2017-06-05
CS020401000016,2015-02-25
CS015414000103,2015-07-22
CS029403000008,2015-05-15
CS015804000004,2015-06-07
CS033513000180,2015-07-28


---
> S-047: レシート明細テーブル（receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型（dateやdatetime）に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [152]:
%%sql
select receipt_no, receipt_sub_no, to_date(cast(sales_ymd as varchar), 'YYYYMMDD')
--select receipt_no, receipt_sub_no, to_date(cast(sales_ymd as char(8)), 'YYYYMMDD')
--select receipt_no, receipt_sub_no, to_date(to_char(sales_ymd, '00000000'), 'YYYYMMDD')
from receipt
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_date
112,1,2018-11-03
1132,2,2018-11-18
1102,1,2017-07-12
1132,1,2019-02-05
1102,2,2018-08-21
1112,1,2019-06-05
1102,2,2018-12-05
1102,1,2019-09-22
1112,2,2017-05-04
1102,1,2019-10-10


---
> S-048: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型（timestamp型）に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [153]:
%%sql
select receipt_no, receipt_sub_no, to_timestamp(sales_epoch)
from receipt
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_timestamp
112,1,2009-11-03 00:00:00+00:00
1132,2,2009-11-18 00:00:00+00:00
1102,1,2008-07-12 00:00:00+00:00
1132,1,2010-02-05 00:00:00+00:00
1102,2,2009-08-21 00:00:00+00:00
1112,1,2010-06-05 00:00:00+00:00
1102,2,2009-12-05 00:00:00+00:00
1102,1,2010-09-22 00:00:00+00:00
1112,2,2008-05-04 00:00:00+00:00
1102,1,2010-10-10 00:00:00+00:00


---
> S-049: レシート明細テーブル（receipt）の販売エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"年"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [154]:
%%sql
select receipt_no, receipt_sub_no, to_char(to_timestamp(sales_epoch), 'YYYY')
from receipt
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_char
112,1,2009
1132,2,2009
1102,1,2008
1132,1,2010
1102,2,2009
1112,1,2010
1102,2,2009
1102,1,2010
1112,2,2008
1102,1,2010


---
> S-050: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"月"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、"月"は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [155]:
%%sql
select receipt_no, receipt_sub_no, to_char(to_timestamp(sales_epoch), 'MM')
from receipt
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_char
112,1,11
1132,2,11
1102,1,7
1132,1,2
1102,2,8
1112,1,6
1102,2,12
1102,1,9
1112,2,5
1102,1,10


---
> S-051: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"日"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、"日"は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [156]:
%%sql
select receipt_no, receipt_sub_no, to_char(to_timestamp(sales_epoch), 'DD')
from receipt
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_char
112,1,3
1132,2,18
1102,1,12
1132,1,5
1102,2,21
1112,1,5
1102,2,5
1102,1,22
1112,2,4
1102,1,10


---
> S-052: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2000円以下を0、2000円超を1に2値化し、顧客ID、合計金額とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [159]:
%%sql
select
    customer_id,
    sum(amount) as amount,
    case
        when sum(amount)<=2000 then 0
        else 1
    end as class
from receipt
where not customer_id like 'Z%'
group by customer_id
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,class
CS001311000059,2302,1
CS004614000122,248,0
CS003512000043,298,0
CS011615000061,246,0
CS029212000033,3604,1
CS007515000119,7157,1
CS034515000123,3699,1
CS004315000058,490,0
CS026414000014,6671,1
CS001615000099,768,0


---
> S-053: 顧客テーブル（customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に２値化せよ。さらにレシート明細テーブル（receipt）と結合し、全期間において買い物実績のある顧客数を、作成した2値ごとにカウントせよ。

In [160]:
%%sql
with postal_classed as (
    select
        customer_id,
        case
            when cast(substr(postal_cd, 1, 3) as integer) between 100 and 209 then 1
            else 0
        end as tokyo_or_not
    from
        customer
)
select
    p.tokyo_or_not,
    count(distinct r.customer_id)
from
    postal_classed p
inner join
    receipt r on p.customer_id=r.customer_id
group by
    p.tokyo_or_not

 * postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


tokyo_or_not,count
0,3906
1,4400


---
> S-054: 顧客テーブル（customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに抽出せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。結果は10件表示させれば良い。

In [162]:
%%sql
select
    customer_id,
    address,
    case
        when address like '埼玉県%' then 11
        when address like '千葉県%' then 12
        when address like '東京都%' then 13
        when address like '神奈川県%' then 14
    end as pref_cd
from customer
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,address,pref_cd
CS021313000114,神奈川県伊勢原市粟窪**********,14
CS037613000071,東京都江東区南砂**********,13
CS031415000172,東京都渋谷区代々木**********,13
CS028811000001,神奈川県横浜市泉区和泉町**********,14
CS001215000145,東京都大田区仲六郷**********,13
CS020401000016,東京都板橋区若木**********,13
CS015414000103,東京都江東区北砂**********,13
CS029403000008,千葉県浦安市海楽**********,12
CS015804000004,東京都江東区北砂**********,13
CS033513000180,神奈川県横浜市旭区善部町**********,14


---
> S-055: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに表示せよ。カテゴリ値は上から順に1〜4とする。結果は10件表示させれば良い。
>
> - 最小値以上第一四分位未満
> - 第一四分位以上第二四分位未満
> - 第二四分位以上第三四分位未満
> - 第三四分位以上

In [172]:
%%sql
with tmp as (
select
    customer_id,
    sum(amount) as amount
from
    receipt
group by
    customer_id
),
quantiles as (
    select 
        PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY amount) as per_75,
        PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY amount) as per_50,
        PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY amount) as per_25
    from tmp
)
select
    t.*,
    case
        when t.amount >= q.per_75 then 4
        when t.amount >= q.per_50 then 3
        when t.amount >= q.per_25 then 2
        else 1
    end as amount_class
from tmp t
cross join quantiles q
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,amount_class
CS001311000059,2302,3
CS004614000122,248,1
CS003512000043,298,1
CS011615000061,246,1
CS029212000033,3604,3
CS007515000119,7157,4
CS034515000123,3699,4
CS004315000058,490,1
CS026414000014,6671,4
CS001615000099,768,2


---
> S-056: 顧客テーブル（customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに抽出せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。先頭10件を表示させればよい。

In [173]:
%%sql
select
    customer_id,
    birth_day,
    age,
    case
        when age >= 60 then 60
        else (age/10)*10
    end as era
from
    customer
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,age,era
CS021313000114,1981-04-29,37,30
CS037613000071,1952-04-01,66,60
CS031415000172,1976-10-04,42,40
CS028811000001,1933-03-27,86,60
CS001215000145,1995-03-29,24,20
CS020401000016,1974-09-15,44,40
CS015414000103,1977-08-09,41,40
CS029403000008,1973-08-17,45,40
CS015804000004,1931-05-02,87,60
CS033513000180,1962-07-11,56,50


---
> S-057: 前問題の抽出結果と性別（gender）を組み合わせ、新たに性別×年代の組み合わせを表すカテゴリデータを作成せよ。組み合わせを表すカテゴリの値は任意とする。先頭10件を表示させればよい。

In [177]:
%%sql
select
    customer_id,
    birth_day,
    age,
    gender_cd,
    cast((case
        when age >= 60 then 60
        else (age/10)*10
    end) as char(2)) || '_' || gender_cd as era_gender
from
    customer
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,age,gender_cd,era_gender
CS021313000114,1981-04-29,37,1,30_1
CS037613000071,1952-04-01,66,9,60_9
CS031415000172,1976-10-04,42,1,40_1
CS028811000001,1933-03-27,86,1,60_1
CS001215000145,1995-03-29,24,1,20_1
CS020401000016,1974-09-15,44,0,40_0
CS015414000103,1977-08-09,41,1,40_1
CS029403000008,1973-08-17,45,0,40_0
CS015804000004,1931-05-02,87,0,60_0
CS033513000180,1962-07-11,56,1,50_1


---
> S-058: 顧客テーブル（customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに抽出せよ。結果は10件表示させれば良い。

In [179]:
%%sql
select
    customer_id,
    case when gender_cd='0' then 1 else 0 end as male,
    case when gender_cd='1' then 1 else 0 end as female,
    case when gender_cd='9' then 1 else 0 end as unknown
from customer
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,male,female,unknown
CS021313000114,0,1,0
CS037613000071,0,0,1
CS031415000172,0,1,0
CS028811000001,0,1,0
CS001215000145,0,1,0
CS020401000016,1,0,0
CS015414000103,0,1,0
CS029403000008,1,0,0
CS015804000004,1,0,0
CS033513000180,0,1,0


---
> S-059: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに表示せよ。標準化に使用する標準偏差は、不偏標準偏差と標本標準偏差のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [188]:
%%sql
with tot as (
    select customer_id, sum(amount) as total_amount
    from receipt
    where not customer_id like 'Z%'
    group by customer_id
),
stats as (
    select avg(total_amount) as avg, stddev(total_amount) as dev
    from tot
)
select
    customer_id,
    round((total_amount-avg)/dev, 4) as std_amount
from tot
cross join stats
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,std_amount
CS001311000059,-0.0903
CS004614000122,-0.8453
CS003512000043,-0.8269
CS011615000061,-0.846
CS029212000033,0.3882
CS007515000119,1.6942
CS034515000123,0.4232
CS004315000058,-0.7563
CS026414000014,1.5155
CS001615000099,-0.6542


---
> S-060: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [195]:
%%sql
with tot as (
    select customer_id, sum(amount) as total_amount
    from receipt
    where not customer_id like 'Z%'
    group by customer_id
),
stats as (
    select max(total_amount) as am_max, min(total_amount) as am_min
    from tot
)
select
    customer_id,
    round((total_amount-am_min)/cast(am_max-am_min as numeric), 4) as norm_amount
from tot
cross join stats
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,norm_amount
CS001311000059,0.097
CS004614000122,0.0077
CS003512000043,0.0099
CS011615000061,0.0076
CS029212000033,0.1535
CS007515000119,0.3079
CS034515000123,0.1577
CS004315000058,0.0182
CS026414000014,0.2868
CS001615000099,0.0303


---
> S-061: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を常用対数化（底=10）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [197]:
%%sql
with tot as (
    select customer_id, sum(amount) as total_amount
    from receipt
    where not customer_id like 'Z%'
    group by customer_id
)
select
    customer_id,
    total_amount,
    log(total_amount+1) as log_amount
from tot
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount,log_amount
CS001311000059,2302,3.362293937964231
CS004614000122,248,2.3961993470957363
CS003512000043,298,2.4756711883244296
CS011615000061,246,2.392696953259666
CS029212000033,3604,3.556905269055448
CS007515000119,7157,3.8547916940539855
CS034515000123,3699,3.568201724066995
CS004315000058,490,2.6910814921229687
CS026414000014,6671,3.824256037629682
CS001615000099,768,2.885926339801431


---
> S-062: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を自然対数化(底=e）して顧客ID、売上金額合計とともに表示せよ（ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること）。結果は10件表示させれば良い。

In [198]:
%%sql
select
    customer_id,
    sum(amount) as total,
    ln(sum(amount)+1) as ln_total
from receipt
where not customer_id like 'Z%'
group by customer_id
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total,ln_total
CS001311000059,2302,7.741967899820685
CS004614000122,248,5.517452896464707
CS003512000043,298,5.700443573390687
CS011615000061,246,5.5093883366279774
CS029212000033,3604,8.190077049719049
CS007515000119,7157,8.875985891325971
CS034515000123,3699,8.216088098632316
CS004315000058,490,6.19644412779452
CS026414000014,6671,8.805674944038582
CS001615000099,768,6.645090969505644


---
> S-063: 商品テーブル（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益額を算出せよ。結果は10件表示させれば良い。

In [199]:
%%sql
select
    product_cd,
    unit_price,
    unit_cost,
    unit_price - unit_cost as margin
from product
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,margin
P040101001,198,149,49
P040101002,218,164,54
P040101003,230,173,57
P040101004,248,186,62
P040101005,268,201,67
P040101006,298,224,74
P040101007,338,254,84
P040101008,420,315,105
P040101009,498,374,124
P040101010,580,435,145


---
> S-064: 商品テーブル（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。 ただし、単価と原価にはNULLが存在することに注意せよ。

In [201]:
%%sql
select
    avg(1 - unit_cost*1.0 / (unit_price*1.0)) as margin
from product


 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


margin
0.24911389885177


---
> S-065: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [203]:
%%sql
select
    product_cd,
    unit_price,
    unit_cost,
    floor(unit_cost / 0.7) as new_price
from product
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,new_price
P040101001,198,149,212
P040101002,218,164,234
P040101003,230,173,247
P040101004,248,186,265
P040101005,268,201,287
P040101006,298,224,320
P040101007,338,254,362
P040101008,420,315,450
P040101009,498,374,534
P040101010,580,435,621


---
> S-066: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を四捨五入すること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [205]:
%%sql
select
    product_cd,
    unit_price,
    unit_cost,
    round(unit_cost / 0.7) as new_price
from product
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,new_price
P040101001,198,149,213
P040101002,218,164,234
P040101003,230,173,247
P040101004,248,186,266
P040101005,268,201,287
P040101006,298,224,320
P040101007,338,254,363
P040101008,420,315,450
P040101009,498,374,534
P040101010,580,435,621


---
> S-067: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [204]:
%%sql
select
    product_cd,
    unit_price,
    unit_cost,
    ceil(unit_cost / 0.7) as new_price
from product
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,new_price
P040101001,198,149,213
P040101002,218,164,235
P040101003,230,173,248
P040101004,248,186,266
P040101005,268,201,288
P040101006,298,224,320
P040101007,338,254,363
P040101008,420,315,450
P040101009,498,374,535
P040101010,580,435,622


---
> S-068: 商品テーブル（product）の各商品について、消費税率10%の税込み金額を求めよ。 1円未満の端数は切り捨てとし、結果は10件表示すれば良い。ただし、単価（unit_price）にはNULLが存在することに注意せよ。

In [207]:
%%sql
select
    product_cd,
    unit_price,
    unit_cost,
    floor(unit_price * 1.1) as tax_price
from product
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,tax_price
P040101001,198,149,217
P040101002,218,164,239
P040101003,230,173,253
P040101004,248,186,272
P040101005,268,201,294
P040101006,298,224,327
P040101007,338,254,371
P040101008,420,315,462
P040101009,498,374,547
P040101010,580,435,638


---
> S-069: レシート明細テーブル（receipt）と商品テーブル（product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分"07"（瓶詰缶詰）の購入実績がある顧客のみとし、結果は10件表示させればよい。

In [214]:
%%sql
select
    customer_id,
    sum(amount) as total_amount,
    sum(case when p.category_major_cd = '07' then amount end) as total_amount_07,
    sum(case when p.category_major_cd = '07' then amount end)*1.0 / sum(amount) as ratio_07
from
    receipt r
join 
    product p on r.product_cd=p.product_cd
group by
    r.customer_id
having
    sum(case when p.category_major_cd = '07' then amount end) is not null
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount,total_amount_07,ratio_07
CS001113000004,1298,1298,1.0
CS001114000005,626,486,0.7763578274760383
CS001115000010,3044,2694,0.8850197109067017
CS001205000004,1988,346,0.1740442655935613
CS001205000006,3337,2004,0.600539406652682
CS001212000027,448,200,0.4464285714285714
CS001212000031,296,296,1.0
CS001212000046,228,108,0.4736842105263157
CS001212000070,456,308,0.675438596491228
CS001213000018,243,145,0.5967078189300411


---
> S-070: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [224]:
%%sql
select 
    r.customer_id,
    to_date(cast(r.sales_ymd as char(8)), 'YYYYMMDD') as sales_ymd,
    to_date(c.application_date, 'YYYYMMDD') as application_date,
    extract(day from (to_timestamp(cast(r.sales_ymd as char(8)), 'YYYYMMDD') - to_timestamp(c.application_date, 'YYYYMMDD'))) as elapsed_days
from receipt r
join customer c on r.customer_id=c.customer_id
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,elapsed_days
CS006214000001,2018-11-03,2015-02-01,1371.0
CS008415000097,2018-11-18,2015-03-22,1337.0
CS028414000014,2017-07-12,2015-07-11,732.0
CS025415000050,2018-08-21,2016-01-31,933.0
CS003515000195,2019-06-05,2015-03-06,1552.0
CS024514000042,2018-12-05,2015-10-10,1152.0
CS040415000178,2019-09-22,2015-06-27,1548.0
CS027514000015,2019-10-10,2015-11-01,1439.0
CS025415000134,2019-09-18,2015-07-20,1521.0
CS021515000126,2017-10-10,2015-05-08,886.0


---
> S-071: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [233]:
%%sql
with tmp as (
    select distinct
        r.customer_id,
        to_date(cast(r.sales_ymd as char(8)), 'YYYYMMDD') as sales_ymd,
        to_date(c.application_date, 'YYYYMMDD') as application_date,
        age(to_timestamp(cast(r.sales_ymd as char(8)), 'YYYYMMDD'),
           to_timestamp(c.application_date, 'YYYYMMDD')) as age
    from
        receipt r
    join
        customer c on r.customer_id=c.customer_id
)
select
    customer_id,
    sales_ymd,
    application_date,
    extract(year from age) * 12 + extract(month from age) as elapsed_month
from tmp
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,elapsed_month
CS001113000004,2019-03-08,2015-11-05,40.0
CS001114000005,2018-05-03,2016-04-12,24.0
CS001114000005,2019-07-31,2016-04-12,39.0
CS001115000010,2017-12-28,2015-04-17,32.0
CS001115000010,2018-07-01,2015-04-17,38.0
CS001115000010,2019-04-05,2015-04-17,47.0
CS001205000004,2017-09-14,2016-06-15,14.0
CS001205000004,2018-08-21,2016-06-15,26.0
CS001205000004,2018-09-04,2016-06-15,26.0
CS001205000004,2019-03-12,2016-06-15,32.0


---
> S-072: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [235]:
%%sql
with tmp as (
    select distinct
        r.customer_id,
        to_date(cast(r.sales_ymd as char(8)), 'YYYYMMDD') as sales_ymd,
        to_date(c.application_date, 'YYYYMMDD') as application_date,
        age(to_timestamp(cast(r.sales_ymd as char(8)), 'YYYYMMDD'),
           to_timestamp(c.application_date, 'YYYYMMDD')) as age
    from
        receipt r
    join
        customer c on r.customer_id=c.customer_id
)
select
    customer_id,
    sales_ymd,
    application_date,
    extract(year from age) as elapsed_year
from tmp
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,elapsed_year
CS001113000004,2019-03-08,2015-11-05,3.0
CS001114000005,2018-05-03,2016-04-12,2.0
CS001114000005,2019-07-31,2016-04-12,3.0
CS001115000010,2017-12-28,2015-04-17,2.0
CS001115000010,2018-07-01,2015-04-17,3.0
CS001115000010,2019-04-05,2015-04-17,3.0
CS001205000004,2017-09-14,2016-06-15,1.0
CS001205000004,2018-08-21,2016-06-15,2.0
CS001205000004,2018-09-04,2016-06-15,2.0
CS001205000004,2019-03-12,2016-06-15,2.0


---
> S-073: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [246]:
%%sql
with tmp as (
    select distinct
        customer_id,
        sales_ymd
    from receipt
)
select
    t.customer_id,
    to_date(cast(t.sales_ymd as varchar), 'YYYYMMDD') as sales_ymd,
    to_date(c.application_date, 'YYYYMMDD') as application_date,
    extract(epoch from (to_timestamp(cast(t.sales_ymd as varchar), 'YYYYMMDD') - to_timestamp(c.application_date, 'YYYYMMDD'))) as epoch
from
    tmp t
join
    customer c on t.customer_id=c.customer_id
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,epoch
CS017515000010,2017-11-17,2015-08-03,72316800.0
CS008413000003,2018-05-24,2015-12-28,75859200.0
CS019515000097,2019-06-30,2014-11-24,145065600.0
CS008515000005,2017-07-14,2015-02-16,75945600.0
CS026414000097,2017-08-09,2015-04-30,71884800.0
CS034514000008,2018-10-12,2015-08-07,100396800.0
CS029415000089,2018-04-09,2015-07-23,85622400.0
CS019411000012,2019-03-14,2014-12-13,134092800.0
CS015614000006,2019-08-02,2015-02-11,141091200.0
CS007515000053,2017-07-12,2015-03-25,72576000.0


---
> S-074: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、当該週の月曜日付とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値でデータを保持している点に注意）。

In [243]:
%%sql
with tmp as (
    select distinct
        customer_id,
        sales_ymd
    from receipt
)
select
    customer_id,
    to_date(cast(sales_ymd as varchar), 'YYYYMMDD') as sales_ymd,
    extract(isodow from to_date(cast(sales_ymd as varchar), 'YYYYMMDD'))-1 as days_from_Monday,
    to_date(cast(sales_ymd as varchar), 'YYYYMMDD') - cast(extract(isodow from to_date(cast(sales_ymd as varchar), 'YYYYMMDD'))-1 as integer) as Monday_in_the_week
from
    tmp
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,days_from_monday,monday_in_the_week
CS017515000010,2017-11-17,4.0,2017-11-13
CS008413000003,2018-05-24,3.0,2018-05-21
CS019515000097,2019-06-30,6.0,2019-06-24
CS008515000005,2017-07-14,4.0,2017-07-10
CS026414000097,2017-08-09,2.0,2017-08-07
CS034514000008,2018-10-12,4.0,2018-10-08
CS029415000089,2018-04-09,0.0,2018-04-09
CS019411000012,2019-03-14,3.0,2019-03-11
CS015614000006,2019-08-02,4.0,2019-07-29
CS007515000053,2017-07-12,2.0,2017-07-10


---
> S-075: 顧客テーブル（customer）からランダムに1%のデータを抽出し、先頭から10件データを抽出せよ。 

In [247]:
%%sql
select * from customer where random() <= 0.01
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS007403000016,依田 満,0,男性,1975-08-18,43,276-0022,千葉県八千代市上高野**********,S12007,20150914,0-00000000-0
CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F
CS004503000022,釈 三郎,0,男性,1965-06-17,53,165-0032,東京都中野区鷺宮**********,S13004,20150314,0-00000000-0
CS044412000021,紺野 愛,1,女性,1977-06-13,41,210-0014,神奈川県川崎市川崎区貝塚**********,S13044,20171130,4-20100321-6
CS018413000124,宇野 優,1,女性,1970-06-20,48,203-0041,東京都東久留米市野火止**********,S13018,20150619,0-00000000-0
CS002515000517,鶴田 彩華,1,女性,1966-10-30,52,187-0021,東京都小平市上水南町**********,S13002,20171213,0-00000000-0
CS008315000072,福岡 まひる,1,女性,1979-02-09,40,157-0067,東京都世田谷区喜多見**********,S13008,20150621,0-00000000-0
CS001312000069,大山 ジローラモ,9,不明,1981-04-18,37,210-0001,神奈川県川崎市川崎区本町**********,S13001,20151005,0-00000000-0
CS004413000443,竹村 怜奈,1,女性,1969-07-16,49,165-0032,東京都中野区鷺宮**********,S13004,20151029,0-00000000-0


---
> SQL-076:  顧客テーブル（customer）から性別（gender_cd）の割合に基づきランダムに10%のデータを層化抽出データし、性別ごとに件数を集計せよ。

In [None]:
%%sql
--skip

---
> SQL-077: レシート明細テーブル（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を平均から3σ以上離れたものとする。結果は10件表示させれば良い。

In [249]:
%%sql
with total_amount as (
    select
        customer_id,
        sum(amount) as amount
    from
        receipt
    where
        not customer_id like 'Z%'
    group by
        customer_id
),
stats as (
    select
        avg(amount) as avg,
        stddev(amount) as std
    from total_amount
)
select
    customer_id,
    amount
from
    total_amount
cross join
    stats
where
    amount < avg-3*std or avg+3*std < amount
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount
CS021514000008,12839
CS022515000065,12903
CS007514000094,15735
CS015515000034,15300
CS026414000039,12944
CS018414000065,12313
CS011415000006,16094
CS011414000012,11432
CS021515000172,13974
CS031414000028,11743


---
> SQL-078: レシート明細テーブル（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第一四分位と第三四分位の差であるIQRを用いて、「第一四分位数-1.5×IQR」よりも下回るもの、または「第三四分位数+1.5×IQR」を超えるものとする。結果は10件表示させれば良い。

In [250]:
%%sql
with total_amount as (
    select
        customer_id,
        sum(amount) as amount
    from
        receipt
    where
        not customer_id like 'Z%'
    group by
        customer_id
),
stats as (
    select
        percentile_cont(0.25) WITHIN GROUP (ORDER BY amount) as q1,
        percentile_cont(0.75) WITHIN GROUP (ORDER BY amount) as q3
    from total_amount
)
select
    customer_id,
    amount
from
    total_amount
cross join
    stats
where
    amount < q1 - (q3 - q1)*1.5 or q3 + (q3 - q1)*1.5 < amount
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount
CS013415000226,8362
CS011415000041,9454
CS014514000004,8872
CS021514000008,12839
CS014515000007,9763
CS040415000220,10158
CS028415000161,8465
CS034515000173,10074
CS022515000065,12903
CS007514000094,15735


---
> SQL-079: 商品テーブル（product）の各項目に対し、欠損数を確認せよ。

In [253]:
%%sql
select
    sum(case when product_cd is null then 1 else 0 end) as product_cd,
    sum(case when category_major_cd is null then 1 else 0 end) as category_major_cd,
    sum(case when category_medium_cd is null then 1 else 0 end) as category_medium_cd,
    sum(case when category_small_cd is null then 1 else 0 end) as category_small_cd,
    sum(case when unit_price is null then 1 else 0 end) as unit_price,
    sum(case when unit_cost is null then 1 else 0 end) as unit_cost
from
    product

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
0,0,0,0,7,7


---
> SQL-080: 商品テーブル（product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たなproduct_1を作成せよ。なお、削除前後の件数を表示させ、前設問で確認した件数だけ減少していることも確認すること。

In [263]:
%%sql

drop table if exists product_1;

create table product_1 as (
    select
        *
    from
        product
    where
        unit_price is not null
        and unit_cost is not null
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
10023 rows affected.


[]

In [261]:
%%sql
select count(product_cd) from product

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
10030


In [260]:
%%sql
select count(product_cd) from product_1

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
10023


---
> SQL-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たなproduct_2を作成せよ。なお、平均値について1円未満は四捨五入とする。補完実施後、各項目について欠損が生じていないことも確認すること。

In [271]:
%%sql
drop table if exists product_2;

create table product_2 as (
    with stats as (
        select
            avg(unit_price) as aup,
            avg(unit_cost) as auc
        from
            product
    )
    select
        product_cd,
        category_major_cd,
        category_medium_cd,
        category_small_cd,
        coalesce(unit_price, round(aup)) as unit_price,
        coalesce(unit_cost, round(auc)) as unit_cost
    from
        product
    cross join
        stats
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.


[]

In [270]:
%%sql
select
    sum(case when product_cd is null then 1 else 0 end) as product_cd,
    sum(case when category_major_cd is null then 1 else 0 end) as category_major_cd,
    sum(case when category_medium_cd is null then 1 else 0 end) as category_medium_cd,
    sum(case when category_small_cd is null then 1 else 0 end) as category_small_cd,
    sum(case when unit_price is null then 1 else 0 end) as unit_price,
    sum(case when unit_cost is null then 1 else 0 end) as unit_cost
from
    product_2

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
0,0,0,0,0,0


---
> SQL-082:  単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たなproduct_3を作成せよ。なお、中央値について1円未満は四捨五入とする。補完実施後、各項目について欠損が生じていないことも確認すること。

In [272]:
%%sql
drop table if exists product_3;

create table product_3 as (
    with stats as (
        select
            percentile_cont(0.5) WITHIN GROUP (ORDER BY unit_price) as mup,
            percentile_cont(0.5) WITHIN GROUP (ORDER BY unit_cost) as muc
        from
            product
    )
    select
        product_cd,
        category_major_cd,
        category_medium_cd,
        category_small_cd,
        coalesce(unit_price, round(mup)) as unit_price,
        coalesce(unit_cost, round(muc)) as unit_cost
    from
        product
    cross join
        stats
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.


[]

In [273]:
%%sql
select
    sum(case when product_cd is null then 1 else 0 end) as product_cd,
    sum(case when category_major_cd is null then 1 else 0 end) as category_major_cd,
    sum(case when category_medium_cd is null then 1 else 0 end) as category_medium_cd,
    sum(case when category_small_cd is null then 1 else 0 end) as category_small_cd,
    sum(case when unit_price is null then 1 else 0 end) as unit_price,
    sum(case when unit_cost is null then 1 else 0 end) as unit_cost
from
    product_2

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
0,0,0,0,0,0


---
> SQL-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品の小区分（category_small_cd）ごとに算出した中央値で補完した新たなproduct_4を作成せよ。なお、中央値について1円未満は四捨五入とする。補完実施後、各項目について欠損が生じていないことも確認すること。

In [275]:
%%sql
drop table if exists product_4;

create table product_4 as (
    with stats as (
        select
            category_small_cd,
            percentile_cont(0.5) WITHIN GROUP (ORDER BY unit_price) as mup,
            percentile_cont(0.5) WITHIN GROUP (ORDER BY unit_cost) as muc
        from
            product
        group by category_small_cd
    )
    select
        product_cd,
        category_major_cd,
        category_medium_cd,
        p.category_small_cd,
        coalesce(unit_price, round(mup)) as unit_price,
        coalesce(unit_cost, round(muc)) as unit_cost
    from
        product p
    join
        stats s on p.category_small_cd=s.category_small_cd
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.


[]

---
> SQL-084: 顧客テーブル（customer）の全顧客に対し、全期間の売上金額に占める2019年売上金額の割合を計算せよ。ただし、販売実績のない場合は0として扱うこと。そして計算した割合が0超のものを抽出せよ。 結果は10件表示させれば良い。

In [279]:
%%sql
with total as (
    select
        customer_id,
        sum(amount) as total
    from
        receipt
    group by
        customer_id
),
total_2019 as (
    select
        customer_id,
        sum(amount) as total_2019
    from
        receipt
    where
        sales_ymd between 20190000 and 20200000
    group by
        customer_id
)
select
    t0.customer_id,
    t0.total,
    t1.total_2019,
    t1.total_2019*1.0 / t0.total as ratio_2019
from
    total t0
join
    total_2019 t1 on t0.customer_id=t1.customer_id
order by t0.customer_id
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total,total_2019,ratio_2019
CS001113000004,1298,1298,1.0
CS001114000005,626,188,0.3003194888178913
CS001115000010,3044,578,0.1898817345597897
CS001205000004,1988,702,0.3531187122736418
CS001205000006,3337,486,0.1456397962241534
CS001211000025,456,456,1.0
CS001212000070,456,456,1.0
CS001214000009,4685,664,0.1417289220917822
CS001214000017,4132,2962,0.7168441432720232
CS001214000048,2374,1889,0.7957034540859309


---
> SQL-085: 顧客テーブル（customer）の全顧客に対し、郵便番号（postal_cd）を用いて経度緯度変換用テーブル（geocode）を紐付け、新たなcustomer_1を作成せよ。ただし、複数紐づく場合は経度（longitude）、緯度（latitude）それぞれ平均を算出すること。

In [285]:
%%sql
drop table if exists customer_1;
create table customer_1 as (
    select
        c.*,
        avg(g.longitude) as longitude,
        avg(g.latitude) as latitude
    from
        customer c
    left join
        geocode g on c.postal_cd=g.postal_cd
    group by
        customer_id
);
select * from customer_1 limit 3

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
21971 rows affected.
3 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,longitude,latitude
CS001105000001,中島 利夫,0,男性,2000-01-14,19,144-0056,東京都大田区西六郷**********,S13001,20170310,0-00000000-0,139.70238,35.54137
CS001112000009,秦 美里,1,女性,2006-08-24,12,143-0026,東京都大田区西馬込**********,S13001,20150703,0-00000000-0,139.70386,35.5867
CS001112000019,門脇 莉沙,1,女性,2001-01-31,18,143-0004,東京都大田区昭和島**********,S13001,20170207,0-00000000-0,139.74687,35.57153


---
> SQL-086: 前設問で作成した緯度経度つき顧客テーブル（customer_1）に対し、申込み店舗コード（application_store_cd）をキーに店舗テーブル（store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客の緯度・経度を用いて距離（km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示すれば良い。

$$
緯度（ラジアン）：\phi \\
経度（ラジアン）：\lambda \\
距離L = 6371 * arccos(sin \phi_1 * sin \phi_2
+ cos \phi_1 * cos \phi_2 * cos(\lambda_1 − \lambda_2))
$$

In [294]:
%%sql
select
    c.customer_id,
    c.address as customer_address,
    s.address as store_address,
    6371 * acos(sin(radians(c.latitude))*sin(radians(s.latitude))+
                cos(radians(c.latitude))*cos(radians(s.latitude))*
                cos(radians(c.longitude-s.longitude))) as dist
from
    customer_1 c
join
    store s on c.application_store_cd=s.store_cd
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_address,store_address,dist
CS001105000001,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,1.4797890439587336
CS001112000009,東京都大田区西馬込**********,東京都大田区仲六郷二丁目,4.020494649504355
CS001112000019,東京都大田区昭和島**********,東京都大田区仲六郷二丁目,3.783014514861316
CS001112000021,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,1.4797890439587336
CS001112000023,東京都大田区昭和島**********,東京都大田区仲六郷二丁目,3.783014514861316
CS001112000024,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,1.4797890439587336
CS001112000029,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,1.4797890439587336
CS001112000030,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,1.4797890439587336
CS001113000004,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,1.4797890439587336
CS001113000010,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,1.4797890439587336


---
> SQL-087: 顧客テーブル（customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなし、1顧客1レコードとなるように名寄せした名寄顧客テーブル（customer_u）を作成せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残すものとし、売上金額合計が同一もしくは売上実績の無い顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [304]:
%%sql
drop table if exists customer_u;

create table customer_u as (
    with total as (
        select
            c.customer_id,
            c.customer_name,
            c.postal_cd,
            sum(r.amount) as total_amount
        from
            customer c
        left join
            receipt r on c.customer_id=r.customer_id
        group by
            c.customer_id,
            c.customer_name,
            c.postal_cd
    ),
    ranks as (
        select
            *,
            ROW_NUMBER() OVER(partition by customer_name, postal_cd order by total_amount desc, customer_id) as rank
        from
            total
    )
    select
        c.*
    from
        customer c
    join
        ranks r on c.customer_id=r.customer_id
    where
        rank=1
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
21941 rows affected.
1 rows affected.


count
21971


---
> SQL-088: 前設問で作成したデータを元に、顧客テーブルに統合名寄IDを付与したテーブル（customer_n）を作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
>- 重複していない顧客：顧客ID（customer_id）を設定
>- 重複している顧客：前設問で抽出したレコードの顧客IDを設定

In [308]:
%%sql
drop table if exists customer_n;
create table customer_n as (
    select
        c1.customer_id as customer_sync_id,
        c0.*
    from
        customer c0
    left join
        customer_u c1 on c0.customer_name=c1.customer_name and c0.postal_cd=c1.postal_cd
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
21971 rows affected.


[]

---
> SQL-089: 売上実績のある顧客に対し、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムに分割し、テーブルを作成せよ。

In [314]:
%%sql
drop table if exists customer_test;
create table customer_test as (
    with customer_with_sales as (
        select distinct
            customer_id
        from
            receipt)
    select
        c.*
    from
        customer c
    join
        customer_with_sales s on c.customer_id=s.customer_id
    where
        random() <= 0.2
);

drop table if exists customer_train;
create table customer_train as (
    select
        *
    from
        customer
    except (
        select
            *
        from
            customer_test
    )
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
1661 rows affected.
Done.
20310 rows affected.


[]

---
> S-090: レシート明細テーブル（receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月のモデル構築用データを3テーブルとしてセット作成せよ。データの持ち方は自由とする。

In [None]:
%%sql
--skip

---
> SQL-091: 顧客テーブル（customer）の各顧客に対し、売上実績のある顧客数と売上実績のない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [None]:
%%sql
--skip

---
> SQL-092: 顧客テーブル（customer）では、性別に関する情報が非正規化の状態で保持されている。これを第三正規化せよ。

In [316]:
%%sql
select gender_cd, gender, count(1) as cnt
from customer
group by gender_cd, gender
order by cnt desc

 * postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


gender_cd,gender,cnt
1,女性,17918
0,男性,2981
9,不明,1072


In [318]:
%%sql
drop table if exists gender;
create table gender as (
    with cnt_gender as (
        select gender_cd, gender, count(1) as cnt
        from customer
        group by gender_cd, gender
        order by cnt desc
    )
    select
        gender_cd,
        first_value(gender) over(partition by gender_cd) as gender
    from
        cnt_gender
);
select * from gender

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
3 rows affected.
3 rows affected.


gender_cd,gender
0,男性
1,女性
9,不明


---
> SQL-093: 商品テーブル（product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリテーブル（category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品テーブルを作成せよ。

In [319]:
%%sql
drop table if exists prod_unstd;
create table prod_unstd as (
    select
        p.product_cd,
        p.category_major_cd,
        c.category_major_name,
        p.category_medium_cd,
        c.category_medium_name,
        p.category_small_cd,
        c.category_small_name,
        p.unit_price,
        p.unit_cost
    from
        product p
    join
        category c on p.category_small_cd=c.category_small_cd
);
select * from prod_unstd limit 5

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.
5 rows affected.


product_cd,category_major_cd,category_major_name,category_medium_cd,category_medium_name,category_small_cd,category_small_name,unit_price,unit_cost
P040101001,4,惣菜,401,御飯類,40101,弁当類,198,149
P040101002,4,惣菜,401,御飯類,40101,弁当類,218,164
P040101003,4,惣菜,401,御飯類,40101,弁当類,230,173
P040101004,4,惣菜,401,御飯類,40101,弁当類,248,186
P040101005,4,惣菜,401,御飯類,40101,弁当類,268,201


---
> SQL-094: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは'/tmp/data'を指定することでJupyterの/'work/data'と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [328]:
%%sql
copy
    prod_unstd
to
    '/tmp/data/prod_sql1.csv'
with
    csv delimiter ','
    encoding 'utf_8'
    header

 * postgresql://padawan:***@db:5432/dsdojo_db
10030 rows affected.


[]

---
> SQL-095: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは'/tmp/data'を指定することでJupyterの/'work/data'と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはSJIS

In [329]:
%%sql
copy
    prod_unstd
to
    '/tmp/data/prod_sql2.csv'
with
    csv delimiter ','
    encoding 'sjis'
    header

 * postgresql://padawan:***@db:5432/dsdojo_db
10030 rows affected.


[]

---
> SQL-096: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは'/tmp/data'を指定することでJupyterの/'work/data'と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [330]:
%%sql
copy
    prod_unstd
to
    '/tmp/data/prod_sql3.csv'
with
    csv delimiter ','
    encoding 'utf_8'

 * postgresql://padawan:***@db:5432/dsdojo_db
10030 rows affected.


[]

---
> SQL-097: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [333]:
%%sql
create table ans1;
copy
    ans1
from
    './data/prod_sql1.csv'
with
    csv;
    
select * from ans1 limit 2

 * postgresql://padawan:***@db:5432/dsdojo_db
(psycopg2.errors.SyntaxError) syntax error at or near ";"
LINE 1: create table ans1;
                         ^

[SQL: create table ans1;]
(Background on this error at: http://sqlalche.me/e/f405)


---
> SQL-098: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [None]:
%%sql


---
> SQL-099: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは'/tmp/data'を指定することでJupyterの/'work/data'と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


---
> SQL-100: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


# これで１００本終わりです。おつかれさまでした！