# データサイエンス100本ノック（構造化データ加工編） - SQL

## はじめに
- データベースはPostgreSQL12です
- 初めに以下のセルを実行してください
- セルに %%sql と記載することでSQLを発行することができます
- jupyterからはdescribeコマンドによるテーブル構造の確認ができないため、テーブル構造を確認する場合はlimitを指定したSELECTなどで代用してください
- 使い慣れたSQLクライアントを使っても問題ありません（接続情報は以下の通り）
  - IPアドレス：Docker Desktopの場合はlocalhost、Docker toolboxの場合は192.168.99.100
  - Port:5432
  - database名: dsdojo_db
  - ユーザ名：padawan
  - パスワード:padawan12345
- 大量出力を行うとJupyterが固まることがあるため、出力件数は制限することを推奨します（設問にも出力件数を記載）
    - 結果確認のために表示させる量を適切にコントロールし、作業を軽快にすすめる技術もデータ加工には求められます
- 大量結果が出力された場合は、ファイルが重くなり以降開けなくなることもあります
    - その場合、作業結果は消えますがファイルをGitHubから取り直してください
    - vimエディタなどで大量出力範囲を削除することもできます
- 名前、住所等はダミーデータであり、実在するものではありません

In [285]:
%load_ext sql
import os

pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}
dsl = 'postgresql://{user}:{password}@{host}:{port}/{database}'.format(**pgconfig)

# MagicコマンドでSQLを書くための設定
%sql $dsl

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


'Connected: padawan@dsdojo_db'

# 使い方
- セルの先頭に%%sqlと記載し、２行目以降にSQLを記述することでJupyterからPostgreSQLに対しSQLを実行できます。

In [None]:
%%sql
select 'このように実行できます' as sample

# データ加工100本ノック

---
> S-001: レシート明細テーブル（receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。


In [2]:
%%sql
select * from receipt limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680


---
> S-002: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。

In [3]:
%%sql
select sales_ymd , customer_id , product_cd , amount 
from receipt limit 10;


 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-003: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。ただし、sales_ymdはsales_dateに項目名を変更しながら抽出すること。

In [4]:
%%sql
select sales_ymd as sales_date , customer_id , product_cd , amount 
from receipt limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_date,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-004: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [6]:
%%sql
select sales_ymd , customer_id , product_cd , amount 
from receipt 
where customer_id = 'CS018205000001'
;

 * postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-005: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [7]:
%%sql
select sales_ymd , customer_id , product_cd , amount 
from receipt 
where customer_id = 'CS018205000001'
and amount >= 1000

;

 * postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-006: レシート明細テーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [12]:
%%sql
select sales_ymd , customer_id , product_cd,quantity , amount 
from receipt 
where customer_id = 'CS018205000001'
and  (amount >= 1000 or quantity >= 5)

;

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


sales_ymd,customer_id,product_cd,quantity,amount
20180911,CS018205000001,P071401012,1,2200
20180414,CS018205000001,P060104007,6,600
20170614,CS018205000001,P050206001,5,990
20190226,CS018205000001,P071401020,1,2200
20180911,CS018205000001,P071401005,1,1100


---
> S-007: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [14]:
%%sql
select *
from receipt
where customer_id = 'CS018205000001' 
and ( amount between 1000 and 2000);

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20180911,1536624000,S13018,1122,1,CS018205000001,P071401005,1,1100


---
> S-008: レシート明細テーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [18]:
%%sql
select sales_ymd, customer_id , product_cd , amount 
from receipt
where customer_id = 'CS018205000001' and not product_cd = 'P071401019';

 * postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。

`select * from store where not (prefecture_cd = '13' or floor_area > 900)`

In [22]:
%%sql
select * from store where prefecture_cd != '13' and floor_area <= 900;

 * postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> S-010: 店舗テーブル（store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件だけ表示せよ。

In [24]:
%%sql
select *
from store 
where store_cd like 'S14%' limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,139.5789,35.29642,1838.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0


---
> S-011: 顧客テーブル（customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件だけ表示せよ。


In [25]:
%%sql
select *
from store 
where store_cd like '%1' limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
6 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S13051,板橋大原店,13,東京都,東京都板橋区大原町,トウキョウトイタバシクオオハラチョウ,03-0123-4029,139.698,35.76788,1045.0
S13031,初台店,13,東京都,東京都渋谷区初台二丁目,トウキョウトシブヤクハツダイニチョウメ,03-0123-4020,139.6862,35.67616,986.0
S13001,仲六郷店,13,東京都,東京都大田区仲六郷二丁目,トウキョウトオオタクナカロクゴウニチョウメ,03-1234-4007,139.7132,35.55135,1796.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S13041,八王子店,13,東京都,東京都八王子市大塚,トウキョウトハチオウジシオオツカ,042-123-4026,139.4235,35.63787,810.0
S14021,伊勢原店,14,神奈川県,神奈川県伊勢原市伊勢原四丁目,カナガワケンイセハラシイセハラヨンチョウメ,046-123-4035,139.3129,35.40169,962.0


---
> S-012: 店舗テーブル（store）から横浜市の店舗だけ全項目表示せよ。

In [26]:
%%sql
select *
from store 
where address like '%横浜市%' limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,139.5758,35.54912,1657.0
S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,139.6593,35.43894,1044.0


---
> S-013: 顧客テーブル（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件だけ表示せよ。

In [38]:
%%sql
select *
from customer 
where status_cd ~ '^[A-F]' limit 10
;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS029415000023,梅田 里穂,1,女性,1976-01-17,43,279-0043,千葉県浦安市富士見**********,S12029,20150610,D-20100918-E
CS035415000029,寺沢 真希,9,不明,1977-09-27,41,158-0096,東京都世田谷区玉川台**********,S13035,20141220,F-20101029-F
CS031415000106,宇野 由美子,1,女性,1970-02-26,49,151-0053,東京都渋谷区代々木**********,S13031,20150201,F-20100511-E
CS029215000025,石倉 美帆,1,女性,1993-09-28,25,279-0022,千葉県浦安市今川**********,S12029,20150708,B-20100820-C
CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F


---
> S-014: 顧客テーブル（customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [41]:
%%sql
select *
from customer 
where status_cd ~ '[1-9]$' limit 10
;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS009315000023,皆川 文世,1,女性,1980-04-15,38,154-0012,東京都世田谷区駒沢**********,S13009,20150319,5-20080322-1
CS015315000033,福士 璃奈子,1,女性,1983-03-17,36,135-0043,東京都江東区塩浜**********,S13015,20141024,4-20080219-3
CS023513000066,神戸 そら,1,女性,1961-12-17,57,210-0005,神奈川県川崎市川崎区東田町**********,S14023,20150915,5-20100524-9
CS035513000134,市川 美帆,1,女性,1960-03-27,59,156-0053,東京都世田谷区桜**********,S13035,20150227,8-20100711-9
CS001515000263,高松 夏空,1,女性,1962-11-09,56,144-0051,東京都大田区西蒲田**********,S13001,20160812,1-20100804-1
CS040314000027,鶴田 きみまろ,9,不明,1986-03-26,33,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150122,2-20080426-4


---
> S-015: 顧客テーブル（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [43]:
%%sql
select *
from customer 
where status_cd ~ '^[A-F].*[1-9]$' limit 10
;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS022513000105,島村 貴美子,1,女性,1962-03-12,57,249-0002,神奈川県逗子市山の根**********,S14022,20150320,A-20091115-7
CS001515000096,水野 陽子,9,不明,1960-11-29,58,144-0053,東京都大田区蒲田本町**********,S13001,20150614,A-20100724-7
CS013615000053,西脇 季衣,1,女性,1953-10-18,65,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150128,B-20100329-6
CS020412000161,小宮 薫,1,女性,1974-05-21,44,174-0042,東京都板橋区東坂下**********,S13020,20150822,B-20081021-3
CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
CS035212000007,内村 恵梨香,1,女性,1990-12-04,28,152-0023,東京都目黒区八雲**********,S13035,20151013,B-20101018-6
CS002515000386,野田 コウ,1,女性,1963-05-30,55,185-0013,東京都国分寺市西恋ケ窪**********,S13002,20160410,C-20100127-8
CS001615000372,稲垣 寿々花,1,女性,1956-10-29,62,144-0035,東京都大田区南蒲田**********,S13001,20170403,A-20100104-1
CS032512000121,松井 知世,1,女性,1962-09-04,56,210-0011,神奈川県川崎市川崎区富士見**********,S13032,20150727,A-20100103-5


---
> S-016: 店舗テーブル（store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [45]:
%%sql
select *
from store
where tel_no ~ '^[0-9]{3}-[0-9]{3}-[0-9]{4}$' limit 10
;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S13052,森野店,13,東京都,東京都町田市森野三丁目,トウキョウトマチダシモリノサンチョウメ,042-123-4030,139.4383,35.55293,1087.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0


---
> S-017: 顧客テーブル（customer）を生年月日（birth_day）で高齢順にソートし、先頭10件を全項目表示せよ。

In [50]:
%%sql
select *
from customer 
order by birth_day asc limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0
CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0


---
> S-018: 顧客テーブル（customer）を生年月日（birth_day）で若い順にソートし、先頭10件を全項目表示せよ。

In [51]:
%%sql
select *
from customer 
order by birth_day desc limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS035114000004,大村 美里,1,女性,2007-11-25,11,156-0053,東京都世田谷区桜**********,S13035,20150619,6-20091205-6
CS022103000002,福山 はじめ,9,不明,2007-10-02,11,249-0006,神奈川県逗子市逗子**********,S14022,20160909,0-00000000-0
CS002113000009,柴田 真悠子,1,女性,2007-09-17,11,184-0014,東京都小金井市貫井南町**********,S13002,20160304,0-00000000-0
CS004115000014,松井 京子,1,女性,2007-08-09,11,165-0031,東京都中野区上鷺宮**********,S13004,20161120,1-20081231-1
CS002114000010,山内 遥,1,女性,2007-06-03,11,184-0015,東京都小金井市貫井北町**********,S13002,20160920,6-20100510-1
CS025115000002,小柳 夏希,1,女性,2007-04-18,11,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20160116,D-20100913-D
CS002113000025,広末 まなみ,1,女性,2007-03-30,12,184-0015,東京都小金井市貫井北町**********,S13002,20171030,0-00000000-0
CS033112000003,長野 美紀,1,女性,2007-03-22,12,245-0051,神奈川県横浜市戸塚区名瀬町**********,S14033,20150606,0-00000000-0
CS007115000006,福岡 瞬,1,女性,2007-03-10,12,285-0845,千葉県佐倉市西志津**********,S12007,20151118,F-20101016-F
CS014113000008,矢口 莉緒,1,女性,2007-03-05,12,260-0041,千葉県千葉市中央区東千葉**********,S12014,20150622,3-20091108-6


---
> S-019: レシート明細テーブル（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [56]:
%%sql
select customer_id , amount, RAnk() OVER(ORDER BY amount DESC) AS ranking
from receipt  
order by amount desc
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,ranking
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,4
ZZ000000000000,5480,4
ZZ000000000000,5440,7
CS021515000089,5440,7
CS020414000081,5280,9
ZZ000000000000,5280,9


---
> S-020: レシート明細テーブル（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [57]:
%%sql
select customer_id , amount, row_number() OVER(ORDER BY amount DESC) AS ranking
from receipt  
order by amount desc
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,ranking
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
CS015515000034,5480,4
ZZ000000000000,5480,5
ZZ000000000000,5480,6
ZZ000000000000,5440,7
CS021515000089,5440,8
CS001412000160,5280,9
ZZ000000000000,5280,10


---
> S-021: レシート明細テーブル（receipt）に対し、件数をカウントせよ。

In [60]:
%%sql
select count(*)
from receipt;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
104681


---
> S-022: レシート明細テーブル（receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [61]:
%%sql
select count(distinct customer_id)
from receipt;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
8307


---
> S-023: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [63]:
%%sql
select store_cd , sum(amount) , sum(quantity)
from receipt 
group by store_cd

 * postgresql://padawan:***@db:5432/dsdojo_db
52 rows affected.


store_cd,sum,sum_1
S12007,638761,2099
S13017,748221,2376
S13043,587895,1881
S13052,100314,250
S13016,793773,2432
S14027,714550,2303
S13009,808870,2486
S14022,651328,2047
S13019,827833,2541
S13039,611888,1981


---
> S-024: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）を求め、10件表示せよ。

In [72]:
%%sql

select *

from receipt as rec_1
inner join (select customer_id , max(sales_ymd) from receipt group by customer_id) as rec_2
on rec_1.customer_id = rec_2.customer_id and rec_1.customer_id = rec_2.customer_id limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,customer_id_1,max
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158,CS006214000001,20190908
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81,CS008415000097,20190417
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170,CS028414000014,20191023
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25,ZZ000000000000,20191031
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90,CS025415000050,20191008
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138,CS003515000195,20190605
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30,CS024514000042,20181205
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128,CS040415000178,20191001
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770,ZZ000000000000,20191031
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680,CS027514000015,20191010


---
> S-025: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も古い売上日（sales_ymd）を求め、10件表示せよ。

In [74]:
%%sql
select customer_id , min(sales_ymd) as min_sales
from receipt 
group by customer_id limit 10
;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,min_sales
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20170318
CS007515000119,20170201
CS034515000123,20170527
CS004315000058,20170517
CS026414000014,20170718
CS001615000099,20170729


---
> S-026: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）と古い売上日を求め、両者が異なるデータを10件表示せよ。

In [76]:
%%sql
select customer_id , min(sales_ymd) as min_sales , max(sales_ymd) as max_sales
from receipt 
group by customer_id 
having  min(sales_ymd) != max(sales_ymd)
limit 10
;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,min_sales,max_sales
CS029212000033,20170318,20180621
CS007515000119,20170201,20190511
CS034515000123,20170527,20190708
CS026414000014,20170718,20190720
CS010515000082,20180518,20181204
CS019315000045,20170423,20170920
CS008513000099,20170722,20190308
CS007615000070,20170929,20191025
CS025415000155,20170314,20191026
CS016414000063,20170109,20190617


---
> S-027: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [80]:
%%sql
select store_cd , avg(amount) as amount_avg 
from receipt 
group by store_cd
order by amount_avg desc
limit 5;

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,amount_avg
S13052,402.86746987951807
S13015,351.11196043165467
S13003,350.9155188246097
S14010,348.79126213592235
S13001,348.4703862660944


---
> S-028: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [82]:
%%sql
SELECT store_cd, PERCENTILE_CONT(0.5) WITHIN GROUP(ORDER BY amount) AS amount_50per
FROM receipt
GROUP BY store_Cd
ORDER BY amount_50per DESC
LIMIT 5;

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,amount_50per
S13052,190.0
S14010,188.0
S14050,185.0
S13003,180.0
S13018,180.0


---
> S-029: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求めよ。

In [85]:
%%sql
select store_cd , mode() WITHIN GROUP (ORDER BY product_cd) AS mode_product
from receipt 
group by store_cd



 * postgresql://padawan:***@db:5432/dsdojo_db
52 rows affected.


store_cd,mode_product
S12007,P060303001
S12013,P060303001
S12014,P060303001
S12029,P060303001
S12030,P060303001
S13001,P060303001
S13002,P060303001
S13003,P071401001
S13004,P060303001
S13005,P040503001


---
> S-030: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本分散を計算し、降順でTOP5を表示せよ。

In [88]:
%%sql
select store_cd , var_samp(amount) as var
from receipt 
group by store_cd order by var desc limit 5;

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,var
S13052,441863.252526234
S14011,306442.24243156874
S14034,297068.39274006075
S13001,295558.8426177125
S13015,295427.1970858536


---
> S-031: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本標準偏差を計算し、降順でTOP5を表示せよ。

In [90]:
%%sql
select store_cd , stddev_samp(amount) as var
from receipt 
group by store_cd order by var desc limit 5;

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,var
S13052,664.727953772244
S14011,553.57225583619
S14034,545.039808399406
S13001,543.65323747561
S13015,543.532149082144


---
> S-032: レシート明細テーブル（receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [91]:
%%sql
SELECT
    PERCENTILE_CONT(0.25) WITHIN GROUP(ORDER BY amount) AS amount_25per,
    PERCENTILE_CONT(0.50) WITHIN GROUP(ORDER BY amount) AS amount_50per,
    PERCENTILE_CONT(0.75) WITHIN GROUP(ORDER BY amount) AS amount_75per,
    PERCENTILE_CONT(1.0) WITHIN GROUP(ORDER BY amount) AS amount_100per
FROM receipt

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


amount_25per,amount_50per,amount_75per,amount_100per
102.0,170.0,288.0,10925.0


---
> S-033: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [92]:
%%sql
select store_cd , avg(amount) as avg_amount
from receipt 
group by store_cd 
having avg(amount) >= 330

 * postgresql://padawan:***@db:5432/dsdojo_db
13 rows affected.


store_cd,avg_amount
S13052,402.86746987951807
S13019,330.2086158755485
S13003,350.9155188246097
S14045,330.0820734341253
S13004,330.943949044586
S13001,348.4703862660944
S14026,332.34058847239015
S14010,348.79126213592235
S13015,351.11196043165467
S12013,330.19412997903567


---
> S-034: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [101]:
%%sql
with customer_amount as(
    select customer_id , sum(amount) as sum_amount
    from receipt 
    where customer_id not like 'Z%'
    group by customer_id )

select avg(sum_amount)
from customer_amount;
    

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


avg
2547.742234529256


---
> S-035: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、データは10件だけ表示させれば良い。

In [103]:
%%sql
with customer_amount as(
    select customer_id , sum(amount) as sum_amount
    from receipt 
    where customer_id not like 'Z%'
    group by customer_id )

select customer_id , sum_amount
from customer_amount
where sum_amount >= (select avg(sum_amount) from customer_amount) limit 10
;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount
CS029212000033,3604
CS007515000119,7157
CS034515000123,3699
CS026414000014,6671
CS007615000070,2975
CS016414000063,6207
CS012514000018,2562
CS029515000142,3420
CS015215000021,3090
CS039814000011,8031


---
> S-036: レシート明細テーブル（receipt）と店舗テーブル（store）を内部結合し、レシート明細テーブルの全項目と店舗テーブルの店舗名（store_name）を10件表示させよ。

In [104]:
%%sql
select store_name
from receipt as rec 
inner join store 
on rec.store_cd = store.store_cd
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_name
葛が谷店
成城店
二ツ橋店
新山下店
大和店
狛江店
三田店
長津田店
十条仲原店
南藤沢店


---
> S-037: 商品テーブル（product）とカテゴリテーブル（category）を内部結合し、商品テーブルの全項目とカテゴリテーブルの小区分名（category_small_name）を10件表示させよ。

In [105]:
%%sql
select pro.* , category_small_name
from product as pro 
inner join category as cate
on pro.category_small_cd = cate.category_small_cd
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_small_name
P040101001,4,401,40101,198,149,弁当類
P040101002,4,401,40101,218,164,弁当類
P040101003,4,401,40101,230,173,弁当類
P040101004,4,401,40101,248,186,弁当類
P040101005,4,401,40101,268,201,弁当類
P040101006,4,401,40101,298,224,弁当類
P040101007,4,401,40101,338,254,弁当類
P040101008,4,401,40101,420,315,弁当類
P040101009,4,401,40101,498,374,弁当類
P040101010,4,401,40101,580,435,弁当類


---
> S-038: 顧客テーブル（customer）とレシート明細テーブル（receipt）から、各顧客ごとの売上金額合計を求めよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが"Z"から始まるもの）は除外すること。なお、結果は10件だけ表示させれば良い。

In [116]:
%%sql
select cus.customer_id, SUM(COALESCE(amount, 0)) as amount
from customer as cus
left join receipt as rec
on cus.customer_id = rec.customer_id
where cus.gender_cd = '1' and cus.customer_id not like 'Z%'
group by cus.customer_id  limit 10


 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount
CS004412000425,0
CS007512000199,0
CS002712000064,0
CS039515000243,0
CS001615000099,768
CS010515000082,1482
CS019315000045,813
CS008513000099,1322
CS007615000070,2975
CS029511000005,0


---
> S-039: レシート明細テーブル（receipt）から売上日数の多い顧客の上位20件と、売上金額合計の多い顧客の上位20件を抽出し、完全外部結合せよ。ただし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [117]:
%%sql
WITH customer_days AS (
    select customer_id, COUNT(DISTINCT sales_ymd) come_days
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
    ORDER BY come_days DESC LIMIT 20
),
customer_amount AS (
    SELECT customer_id, SUM(amount) buy_amount
    FROM receipt 
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
    ORDER BY buy_amount DESC LIMIT 20
)
SELECT COALESCE(d.customer_id, a.customer_id), d.come_days, a.buy_amount
FROM customer_days d
FULL JOIN customer_amount a
ON d.customer_id = a.customer_id;

 * postgresql://padawan:***@db:5432/dsdojo_db
34 rows affected.


coalesce,come_days,buy_amount
CS040214000008,23.0,
CS015415000185,22.0,20153.0
CS010214000010,22.0,18585.0
CS028415000007,21.0,19127.0
CS010214000002,21.0,
CS017415000097,20.0,23086.0
CS016415000141,20.0,18372.0
CS021514000045,19.0,
CS022515000226,19.0,
CS031414000051,19.0,19202.0


---
> S-040: 全ての店舗と全ての商品を組み合わせると何件のデータとなるか調査したい。店舗（store）と商品（product）を直積した件数を計算せよ。

In [119]:
%%sql
with all_store as (
    select distinct store_name
    from store),
all_product as (
    select distinct product_cd
    from product)
select count(*)
FROM all_store 
CROSS JOIN all_product

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
521560


---
> S-041: レシート明細テーブル（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前日からの売上金額増減を計算せよ。なお、計算結果は10件表示すればよい。

In [125]:
%%sql
with date_amount as (
    select sales_ymd , sum(COALESCE(amount, 0)) as sum_amount
    from receipt
    group by sales_ymd
    order by sales_ymd
)
select sales_ymd , sum_amount , lag(sum_amount,1) over(order by sales_ymd) as lag_amount , sum_amount - lag(sum_amount,1) over(order by sales_ymd) as diff_amount
from date_amount limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sum_amount,lag_amount,diff_amount
20170101,33723,,
20170102,24165,33723.0,-9558.0
20170103,27503,24165.0,3338.0
20170104,36165,27503.0,8662.0
20170105,37830,36165.0,1665.0
20170106,32387,37830.0,-5443.0
20170107,23415,32387.0,-8972.0
20170108,24737,23415.0,1322.0
20170109,26718,24737.0,1981.0
20170110,20143,26718.0,-6575.0


---
> S-042: レシート明細テーブル（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、１日前、２日前、３日前のデータを結合せよ。結果は10件表示すればよい。

In [127]:
%%sql
with date_amount as (
    select sales_ymd , sum(COALESCE(amount, 0)) as sum_amount
    from receipt
    group by sales_ymd
    order by sales_ymd
)
select sales_ymd , sum_amount , lag(sum_amount,1) over(order by sales_ymd) as lag1_amount ,
lag(sum_amount,2) over(order by sales_ymd) as lag2_amount ,
lag(sum_amount,3) over(order by sales_ymd) as lag3_amount 
from date_amount limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sum_amount,lag1_amount,lag2_amount,lag3_amount
20170101,33723,,,
20170102,24165,33723.0,,
20170103,27503,24165.0,33723.0,
20170104,36165,27503.0,24165.0,33723.0
20170105,37830,36165.0,27503.0,24165.0
20170106,32387,37830.0,36165.0,27503.0
20170107,23415,32387.0,37830.0,36165.0
20170108,24737,23415.0,32387.0,37830.0
20170109,26718,24737.0,23415.0,32387.0
20170110,20143,26718.0,24737.0,23415.0


---
> S-043: レシート明細テーブル（receipt）と顧客テーブル（customer）を結合し、性別（gender）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリテーブル（sales_summary）を作成せよ。性別は0が男性、1が女性、9が不明を表すものとする。
>
>ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [133]:
%%sql
with age_amount as (
select  gender_cd, ( age/10 ) * 10 as age , amount
from customer as rec
left join receipt as cus 
on rec.customer_id = cus.customer_id)

select age ,
sum(case gender_cd when '1' then amount else 0 end) as "女性の売り上げ金額",
sum(case gender_cd when '0' then amount else 0 end) as "男性の売り上げ金額"
from age_amount
group by age 
order by age

 * postgresql://padawan:***@db:5432/dsdojo_db
9 rows affected.


age,女性の売り上げ金額,男性の売り上げ金額
10,149836,1591
20,1363724,72940
30,693047,177322
40,9320791,19355
50,6685192,54320
60,987741,272469
70,29764,13435
80,262923,46360
90,6260,0


---
> S-044: 前設問で作成した売上サマリテーブル（sales_summary）は性別の売上を横持ちさせたものであった。このテーブルから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を"00"、女性を"01"、不明を"99"とする。

In [139]:
%%sql
SELECT era, '00' as gender_cd , male AS amount FROM sales_summary
UNION ALL
SELECT era, '01' as gender_cd, female AS amount FROM sales_summary
UNION ALL
SELECT era, '99' as gender_cd, unknown AS amount FROM sales_summary


 * postgresql://padawan:***@db:5432/dsdojo_db
27 rows affected.


era,gender_cd,amount
10.0,0,1591
20.0,0,72940
30.0,0,177322
40.0,0,19355
50.0,0,54320
60.0,0,272469
70.0,0,13435
80.0,0,46360
90.0,0,0
10.0,1,149836


---
> S-045: 顧客テーブル（customer）の生年月日（birth_day）は日付型でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [147]:
%%sql
select customer_id , to_char(birth_day, 'YYYY-MM-DD')
from customer 
limit 10;


 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,to_char
CS021313000114,1981-04-29
CS037613000071,1952-04-01
CS031415000172,1976-10-04
CS028811000001,1933-03-27
CS001215000145,1995-03-29
CS020401000016,1974-09-15
CS015414000103,1977-08-09
CS029403000008,1973-08-17
CS015804000004,1931-05-02
CS033513000180,1962-07-11


---
> S-046: 顧客テーブル（customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [148]:
%%sql
select customer_id , to_date(application_date, 'YYYYMMDD')
from customer 
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,to_date
CS021313000114,2015-09-05
CS037613000071,2015-04-14
CS031415000172,2015-05-29
CS028811000001,2016-01-15
CS001215000145,2017-06-05
CS020401000016,2015-02-25
CS015414000103,2015-07-22
CS029403000008,2015-05-15
CS015804000004,2015-06-07
CS033513000180,2015-07-28


---
> S-047: レシート明細テーブル（receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [155]:
%%sql
select receipt_no , receipt_sub_no , to_date(cast(sales_ymd as varchar) , 'YYYYMMDD')
from receipt
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_date
112,1,2018-11-03
1132,2,2018-11-18
1102,1,2017-07-12
1132,1,2019-02-05
1102,2,2018-08-21
1112,1,2019-06-05
1102,2,2018-12-05
1102,1,2019-09-22
1112,2,2017-05-04
1102,1,2019-10-10


---
> S-048: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [159]:
%%sql
select sales_ymd , to_timestamp(sales_epoch)
from receipt limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,to_timestamp
20181103,2018-11-03 00:00:00+00:00
20181118,2018-11-18 00:00:00+00:00
20170712,2017-07-12 00:00:00+00:00
20190205,2019-02-05 00:00:00+00:00
20180821,2018-08-21 00:00:00+00:00
20190605,2019-06-05 00:00:00+00:00
20181205,2018-12-05 00:00:00+00:00
20190922,2019-09-22 00:00:00+00:00
20170504,2017-05-04 00:00:00+00:00
20191010,2019-10-10 00:00:00+00:00


---
> S-049: レシート明細テーブル（receipt）の販売エポック秒（sales_epoch）を日付型に変換し、「年」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [160]:
%%sql
select sales_ymd , to_char(to_timestamp(sales_epoch), 'YYYY')
from receipt limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,to_char
20181103,2018
20181118,2018
20170712,2017
20190205,2019
20180821,2018
20190605,2019
20181205,2018
20190922,2019
20170504,2017
20191010,2019


---
> S-050: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「月」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、「月」は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [161]:
%%sql
select sales_ymd , to_char(to_timestamp(sales_epoch), 'MM')
from receipt limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,to_char
20181103,11
20181118,11
20170712,7
20190205,2
20180821,8
20190605,6
20181205,12
20190922,9
20170504,5
20191010,10


---
> S-051: レシート明細テーブル（receipt）の売上エポック秒を日付型に変換し、「日」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、「日」は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [162]:
%%sql
select sales_ymd , to_char(to_timestamp(sales_epoch), 'DD')
from receipt limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,to_char
20181103,3
20181118,18
20170712,12
20190205,5
20180821,21
20190605,5
20181205,5
20190922,22
20170504,4
20191010,10


---
> S-052: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2,000円以下を0、2,000円より大きい金額を1に2値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [188]:
%%sql

with  sales_data as (
    select cus.customer_id as customer_id , sum(COALESCE(amount,0)) as sum_amount
    from customer as cus
    left join receipt as rec 
    on cus.customer_id = rec.customer_id 
    where cus.customer_id not Like 'Z%'
    group by cus.customer_id
)
select customer_id , sum_amount ,
CASE when sum_amount > 2000 THEN 1
    ELSE 0
END
from sales_data
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,case
CS012502000051,0,0
CS004215000095,0,0
CS019612000010,0,0
CS004115000022,0,0
CS011615000061,246,0
CS029212000033,3604,1
CS004412000425,0,0
CS040702000005,0,0
CS007512000199,0,0
CS002712000064,0,0


---
> S-053: 顧客テーブル（customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に２値化せよ。さらにレシート明細テーブル（receipt）と結合し、全期間において売上実績がある顧客数を、作成した2値ごとにカウントせよ。

In [201]:
%%sql
with tokyo_data as(
select cus.customer_id ,  cus.postal_cd , 
case
when 
cast(substr(postal_cd,1,3) as integer) between 100 and 209 then 1 else 0
end as tokyo_flag
from customer as cus
) , 
receipt_data as (
    select customer_id , sum(amount)
    from receipt
    group by customer_id
    
)
select td.tokyo_flag , count(1)
from receipt_data as rec
left join tokyo_data as td
on rec.customer_id = td.customer_id
group by tokyo_flag


 * postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


tokyo_flag,count
,1
0.0,3906
1.0,4400


---
> S-054: 顧客テーブル（customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに抽出せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。結果は10件表示させれば良い。

In [208]:
%%sql
select customer_id , address , 
case 
when left(address,3)='埼玉県' then 11
when left(address,3)='千葉県' then 12
when left(address,3)='東京都' then 13
when left(address,4)='神奈川県' then 14
else 0
end 
from customer limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,address,case
CS021313000114,神奈川県伊勢原市粟窪**********,14
CS037613000071,東京都江東区南砂**********,13
CS031415000172,東京都渋谷区代々木**********,13
CS028811000001,神奈川県横浜市泉区和泉町**********,14
CS001215000145,東京都大田区仲六郷**********,13
CS020401000016,東京都板橋区若木**********,13
CS015414000103,東京都江東区北砂**********,13
CS029403000008,千葉県浦安市海楽**********,12
CS015804000004,東京都江東区北砂**********,13
CS033513000180,神奈川県横浜市旭区善部町**********,14


---
> S-055: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに表示せよ。カテゴリ値は上から順に1〜4とする。結果は10件表示させれば良い。
>
> - 最小値以上第一四分位未満
> - 第一四分位以上第二四分位未満
> - 第二四分位以上第三四分位未満
> - 第三四分位以上

In [223]:
%%sql
with customer_amount as(
    select cus.customer_id as customer_id, sum(coalesce(amount , 0)) as amount
    from customer as cus
    left join receipt as rec 
    on cus.customer_id = rec.customer_id
    group by cus.customer_id
),
percentile_table as (
select  PERCENTILE_CONT(0.25) WITHIN GROUP(ORDER BY amount) as pct25 ,
        PERCENTILE_CONT(0.50) WITHIN GROUP(ORDER BY amount) as pct50,
        PERCENTILE_CONT(0.75) WITHIN GROUP(ORDER BY amount) as pct75
from customer_amount
    
)

select  customer_id , amount , 
CASE
        WHEN amount < pct25 THEN 1
        WHEN pct25 <= amount and amount < pct50 THEN 2
        WHEN pct50 <= amount and amount < pct75 THEN 3
        WHEN pct75 <= amount THEN 4
    END
from customer_amount as ca 
cross join percentile_table as pt 
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,case
CS012502000051,0,3
CS004215000095,0,3
CS019612000010,0,3
CS004115000022,0,3
CS011615000061,246,3
CS029212000033,3604,4
CS004412000425,0,3
CS040702000005,0,3
CS007512000199,0,3
CS002712000064,0,3


---
> S-056: 顧客テーブル（customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに抽出せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。先頭10件を表示させればよい。

In [229]:
%%sql
select customer_id , birth_day , 
case when (age/10) * 10 >= 60 then 60 else (age/10) * 10 end ,
gender_cd
from customer 
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,case,gender_cd
CS021313000114,1981-04-29,30,1
CS037613000071,1952-04-01,60,9
CS031415000172,1976-10-04,40,1
CS028811000001,1933-03-27,60,1
CS001215000145,1995-03-29,20,1
CS020401000016,1974-09-15,40,0
CS015414000103,1977-08-09,40,1
CS029403000008,1973-08-17,40,0
CS015804000004,1931-05-02,60,0
CS033513000180,1962-07-11,50,1


---
> S-057: 前問題の抽出結果と性別（gender）を組み合わせ、新たに性別×年代の組み合わせを表すカテゴリデータを作成せよ。組み合わせを表すカテゴリの値は任意とする。先頭10件を表示させればよい。

In [232]:
%%sql
select customer_id , birth_day , 
case when (age/10) * 10 >= 60 then 60 else (age/10) * 10 end ,
gender_cd,

concat(gender_cd ,case when (age/10) * 10 >= 60 then 60 else (age/10) * 10 end )
from customer 
limit 10


 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,case,gender_cd,concat
CS021313000114,1981-04-29,30,1,130
CS037613000071,1952-04-01,60,9,960
CS031415000172,1976-10-04,40,1,140
CS028811000001,1933-03-27,60,1,160
CS001215000145,1995-03-29,20,1,120
CS020401000016,1974-09-15,40,0,40
CS015414000103,1977-08-09,40,1,140
CS029403000008,1973-08-17,40,0,40
CS015804000004,1931-05-02,60,0,60
CS033513000180,1962-07-11,50,1,150


---
> S-058: 顧客テーブル（customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに抽出せよ。結果は10件表示させれば良い。

In [233]:
%%sql
SELECT
    customer_id,
    -- 個別にそれぞれ番号を割り振る
    case when gender_cd = '0' THEN '1' ELSE '0' end AS male,
    case when gender_cd = '1' THEN '1' ELSE '0' end AS female,
    case when gender_cd = '9' THEN '1' ELSE '0' end AS unknown
FROM
    customer
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,male,female,unknown
CS021313000114,0,1,0
CS037613000071,0,0,1
CS031415000172,0,1,0
CS028811000001,0,1,0
CS001215000145,0,1,0
CS020401000016,1,0,0
CS015414000103,0,1,0
CS029403000008,1,0,0
CS015804000004,1,0,0
CS033513000180,0,1,0


---
> S-059: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに表示せよ。標準化に使用する標準偏差は、不偏標準偏差と標本標準偏差のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [240]:
%%sql
with sales_amount as (
select customer_id , sum(amount) as amount
from receipt
where customer_id NOT LIKE 'Z%'
group by customer_id),

stats_amount AS (
    SELECT
        AVG(amount) AS avg_amount,
        stddev_samp(amount) AS std_amount
    FROM
        sales_amount
)

SELECT
    customer_id,
    amount,
    (amount - avg_amount) / std_amount AS normal_amount
FROM sales_amount
CROSS JOIN stats_amount
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,normal_amount
CS001311000059,2302,-0.0903240267170229
CS004614000122,248,-0.8452840002525365
CS003512000043,298,-0.8269062014809807
CS011615000061,246,-0.8460191122033986
CS029212000033,3604,0.3882338532942909
CS007515000119,7157,1.6941602340010484
CS034515000123,3699,0.423151670960247
CS004315000058,490,-0.7563354541982062
CS026414000014,6671,1.5155280299415257
CS001615000099,768,-0.6541548930283558


---
> S-060: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [245]:
%%sql
with sum_amount as (
select customer_id , sum(amount) as amount
from receipt 
where customer_id NOT LIKE 'Z%'
group by customer_id ),
max_min_amount as (
    select 
        max(amount) as max_amount,
        min(amount) as min_amount
    from sum_amount
)
select * ,(amount - min_amount) * 1.0 / (max_amount - min_amount) * 1.0
from sum_amount
cross join max_min_amount
limit 10


 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,max_amount,min_amount,?column?
CS001311000059,2302,23086,70,0.0969760166840458
CS004614000122,248,23086,70,0.0077337504344803
CS003512000043,298,23086,70,0.0099061522419186
CS011615000061,246,23086,70,0.0076468543621828
CS029212000033,3604,23086,70,0.1535453597497393
CS007515000119,7157,23086,70,0.3079162321863051
CS034515000123,3699,23086,70,0.157672923183872
CS004315000058,490,23086,70,0.0182481751824817
CS026414000014,6671,23086,70,0.2868004866180048
CS001615000099,768,23086,70,0.0303267292318387


---
> S-061: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を常用対数化（底=10）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [251]:
%%sql
with sum_amount as (
select customer_id , sum(amount) as amount
from receipt 
where customer_id NOT LIKE 'Z%'
group by customer_id )
select * , log(amount + 1)
from sum_amount  limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,log
CS001311000059,2302,3.362293937964231
CS004614000122,248,2.3961993470957363
CS003512000043,298,2.4756711883244296
CS011615000061,246,2.392696953259666
CS029212000033,3604,3.556905269055448
CS007515000119,7157,3.8547916940539855
CS034515000123,3699,3.568201724066995
CS004315000058,490,2.6910814921229687
CS026414000014,6671,3.824256037629682
CS001615000099,768,2.885926339801431


---
> S-062: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を自然対数化(底=e）して顧客ID、売上金額合計とともに表示せよ（ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること）。結果は10件表示させれば良い。

In [252]:
%%sql
with sum_amount as (
select customer_id , sum(amount) as amount
from receipt 
where customer_id NOT LIKE 'Z%'
group by customer_id )
select * , ln(amount + 1)
from sum_amount  limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,ln
CS001311000059,2302,7.741967899820685
CS004614000122,248,5.517452896464707
CS003512000043,298,5.700443573390687
CS011615000061,246,5.5093883366279774
CS029212000033,3604,8.190077049719049
CS007515000119,7157,8.875985891325971
CS034515000123,3699,8.216088098632316
CS004315000058,490,6.19644412779452
CS026414000014,6671,8.805674944038582
CS001615000099,768,6.645090969505644


---
> S-063: 商品テーブル（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益額を算出せよ。結果は10件表示させれば良い。

In [256]:
%%sql
select * , unit_price - unit_cost as value
from product limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,value
P040101001,4,401,40101,198,149,49
P040101002,4,401,40101,218,164,54
P040101003,4,401,40101,230,173,57
P040101004,4,401,40101,248,186,62
P040101005,4,401,40101,268,201,67
P040101006,4,401,40101,298,224,74
P040101007,4,401,40101,338,254,84
P040101008,4,401,40101,420,315,105
P040101009,4,401,40101,498,374,124
P040101010,4,401,40101,580,435,145


---
> S-064: 商品テーブル（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。 ただし、単価と原価にはNULLが存在することに注意せよ。

In [259]:
%%sql
select avg((unit_price*1.0 - unit_cost) / unit_price) as value
from product 

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


value
0.24911389885177


---
> S-065: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [266]:
%%sql
with new_table as (
select product_cd , unit_price , unit_cost , (unit_price*1.0 - unit_cost) / unit_price as value_rate , cast(unit_cost / 0.7 as integer) as new_price
    
from product )
select * , (new_price*1.0 - unit_cost) / new_price as new_value_rate 
from new_table limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,value_rate,new_price,new_value_rate
P040101001,198,149,0.2474747474747474,212.85714285714283,0.2999999999999999
P040101002,218,164,0.2477064220183486,234.28571428571428,0.2999999999999999
P040101003,230,173,0.2478260869565217,247.14285714285717,0.3
P040101004,248,186,0.25,265.71428571428567,0.3
P040101005,268,201,0.25,287.14285714285717,0.3
P040101006,298,224,0.2483221476510067,320.0,0.3
P040101007,338,254,0.2485207100591715,362.8571428571429,0.2999999999999999
P040101008,420,315,0.25,450.0,0.3
P040101009,498,374,0.2489959839357429,534.2857142857143,0.2999999999999999
P040101010,580,435,0.25,621.4285714285713,0.3


---
> S-066: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を丸めること（四捨五入または偶数への丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [273]:
%%sql
with new_table as (
select product_cd , unit_price , unit_cost , (unit_price*1.0 - unit_cost) / unit_price as value_rate , round(unit_cost / 0.7) as new_price
    
from product )
select * , (new_price*1.0 - unit_cost) / new_price as new_value_rate 
from new_table limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,value_rate,new_price,new_value_rate
P040101001,198,149,0.2474747474747474,213,0.3004694835680751
P040101002,218,164,0.2477064220183486,234,0.2991452991452991
P040101003,230,173,0.2478260869565217,247,0.2995951417004048
P040101004,248,186,0.25,266,0.3007518796992481
P040101005,268,201,0.25,287,0.2996515679442508
P040101006,298,224,0.2483221476510067,320,0.3
P040101007,338,254,0.2485207100591715,363,0.3002754820936639
P040101008,420,315,0.25,450,0.3
P040101009,498,374,0.2489959839357429,534,0.299625468164794
P040101010,580,435,0.25,621,0.2995169082125603


---
> S-067: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [276]:
%%sql
with new_table as (
select product_cd , unit_price , unit_cost , (unit_price*1.0 - unit_cost) / unit_price as value_rate , ceil(unit_cost / 0.7) as new_price
    
from product )
select * , (new_price*1.0 - unit_cost) / new_price as new_value_rate 
from new_table limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,value_rate,new_price,new_value_rate
P040101001,198,149,0.2474747474747474,213,0.3004694835680751
P040101002,218,164,0.2477064220183486,235,0.302127659574468
P040101003,230,173,0.2478260869565217,248,0.3024193548387096
P040101004,248,186,0.25,266,0.3007518796992481
P040101005,268,201,0.25,288,0.3020833333333333
P040101006,298,224,0.2483221476510067,320,0.3
P040101007,338,254,0.2485207100591715,363,0.3002754820936639
P040101008,420,315,0.25,450,0.3
P040101009,498,374,0.2489959839357429,535,0.3009345794392523
P040101010,580,435,0.25,622,0.3006430868167202


---
> S-068: 商品テーブル（product）の各商品について、消費税率10%の税込み金額を求めよ。 1円未満の端数は切り捨てとし、結果は10件表示すれば良い。ただし、単価（unit_price）にはNULLが存在することに注意せよ。

In [279]:
%%sql
select unit_price , trunc(unit_price * 1.1)
from product 
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


unit_price,trunc
198,217
218,239
230,253
248,272
268,294
298,327
338,371
420,462
498,547
580,638


---
> S-069: レシート明細テーブル（receipt）と商品テーブル（product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分"07"（瓶詰缶詰）の売上実績がある顧客のみとし、結果は10件表示させればよい。

In [284]:
%%sql
WITH amount_all AS(
    SELECT
        customer_id,
        sum(amount) AS sum_all
    FROM
        receipt
    GROUP BY
        customer_id
),
amount_07 AS (
    SELECT
        r.customer_id,
        SUM(r.amount) AS sum_07
    FROM
        receipt r
    JOIN
        product p
    ON
        r.product_cd = p.product_cd 
        AND  p.category_major_cd = '07'
    GROUP BY
        customer_id
)
SELECT
    amount_all.customer_id,
    sum_all,
    sum_07,
    sum_07 * 1.0 / sum_all as sales_rate
FROM
    amount_all
JOIN
    amount_07
ON
    amount_all.customer_id = amount_07.customer_id
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_all,sum_07,sales_rate
CS001311000059,2302,102,0.0443092962641181
CS011615000061,246,98,0.3983739837398373
CS029212000033,3604,3604,1.0
CS007515000119,7157,2832,0.3956965208886404
CS034515000123,3699,1202,0.3249526899161935
CS026414000014,6671,3142,0.4709938539949033
CS001615000099,768,318,0.4140625
CS010515000082,1482,553,0.3731443994601889
CS019315000045,813,380,0.4674046740467404
CS008513000099,1322,210,0.1588502269288956


---
> S-070: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [297]:
%%sql
select rec.customer_id , sales_ymd , application_date , cast(cast(sales_ymd as varchar) as date)- cast(application_date as date)
from receipt as rec
left join customer as cus
on rec.customer_id = cus.customer_id
limit 10;


 * postgresql://padawan:***@db:5432/dsdojo_db
14 rows affected.


customer_id,sales_ymd,application_date,?column?
CS019515000097,20171117,20141124,1089
CS019515000097,20170731,20141124,980
CS019515000097,20180708,20141124,1322
CS019515000097,20171130,20141124,1102
CS019515000097,20170131,20141124,799
CS019515000097,20170131,20141124,799
CS019515000097,20190630,20141124,1679
CS019515000097,20171130,20141124,1102
CS019515000097,20170102,20141124,770
CS019515000097,20171117,20141124,1089


---
> S-071: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [298]:
%%sql
select rec.customer_id , sales_ymd , application_date , 
case when 
cast(cast(sales_ymd as varchar) as date)- cast(application_date as date) >= 30 
then cast(cast(sales_ymd as varchar) as date)- cast(application_date as date) else 0 end
from receipt as rec
left join customer as cus
on rec.customer_id = cus.customer_id
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,case
CS006214000001,20181103,20150201.0,1371
CS008415000097,20181118,20150322.0,1337
CS028414000014,20170712,20150711.0,732
ZZ000000000000,20190205,,0
CS025415000050,20180821,20160131.0,933
CS003515000195,20190605,20150306.0,1552
CS024514000042,20181205,20151010.0,1152
CS040415000178,20190922,20150627.0,1548
ZZ000000000000,20170504,,0
CS027514000015,20191010,20151101.0,1439


---
> S-072: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [299]:
%%sql
select rec.customer_id , sales_ymd , application_date , 
case when 
cast(cast(sales_ymd as varchar) as date)- cast(application_date as date) >= 30 
then cast(cast(sales_ymd as varchar) as date)- cast(application_date as date) else 0 end
from receipt as rec
left join customer as cus
on rec.customer_id = cus.customer_id
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,case
CS006214000001,20181103,20150201.0,1371
CS008415000097,20181118,20150322.0,1337
CS028414000014,20170712,20150711.0,732
ZZ000000000000,20190205,,0
CS025415000050,20180821,20160131.0,933
CS003515000195,20190605,20150306.0,1552
CS024514000042,20181205,20151010.0,1152
CS040415000178,20190922,20150627.0,1548
ZZ000000000000,20170504,,0
CS027514000015,20191010,20151101.0,1439


---
> S-073: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [300]:
%%sql
WITH receit_distinct AS (
    SELECT distinct
        customer_id,
        sales_ymd
    FROM
        receipt
)
SELECT
    c.customer_id,
    r.sales_ymd,
    c.application_date,
    EXTRACT(EPOCH FROM TO_TIMESTAMP(CAST(r.sales_ymd AS VARCHAR), 'YYYYMMDD')) - 
                      EXTRACT(EPOCH FROM TO_TIMESTAMP(c.application_date, 'YYYYMMDD')) AS elapsed_epoch
FROM
    receit_distinct r
JOIN
    customer c
ON
    r.customer_id = c.customer_id
LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,elapsed_epoch
CS017515000010,20171117,20150803,72316800.0
CS019515000097,20190630,20141124,145065600.0
CS008515000005,20170714,20150216,75945600.0
CS026414000097,20170809,20150430,71884800.0
CS034514000008,20181012,20150807,100396800.0
CS029415000089,20180409,20150723,85622400.0
CS019411000012,20190314,20141213,134092800.0
CS015614000006,20190802,20150211,141091200.0
CS007515000053,20170712,20150325,72576000.0
CS024615000041,20170729,20150918,58752000.0


---
> S-074: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、当該週の月曜日付とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値でデータを保持している点に注意）。

In [305]:
%%sql
select * , EXTRACT(DOW FROM (TO_DATE(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD') - 1)) , 
TO_DATE(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD')
        - CAST(EXTRACT(DOW FROM (TO_DATE(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD') - 1)) AS INTEGER) AS monday
from receipt
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,extract,monday
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158,5,2018-10-29
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81,6,2018-11-12
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170,2,2017-07-10
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25,1,2019-02-04
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90,1,2018-08-20
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138,2,2019-06-03
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30,2,2018-12-03
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128,6,2019-09-16
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770,3,2017-05-01
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680,3,2019-10-07


---
> S-075: 顧客テーブル（customer）からランダムに1%のデータを抽出し、先頭から10件データを抽出せよ。 

In [312]:
%%sql
select count(*)
from customer 
where  random() < 0.01 

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
240


---
> S-076:  顧客テーブル（customer）から性別（gender_cd）の割合に基づきランダムに10%のデータを層化抽出し、性別ごとに件数を集計せよ。

In [314]:
%%sql
 SELECT * FROM (SELECT * FROM customer WHERE gender_cd = '0') male WHERE random() <= 0.1
 UNION ALL
 SELECT * FROM (SELECT * FROM customer WHERE gender_cd = '1') female WHERE random() <= 0.1
 UNION ALL
 SELECT * FROM (SELECT * FROM customer WHERE gender_cd = '9') unkown WHERE random() <= 0.1
    
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS020401000016,宮下 達士,0,男性,1974-09-15,44,174-0065,東京都板橋区若木**********,S13020,20150225,0-00000000-0
CS031403000002,栗田 誠治,0,男性,1970-08-17,48,151-0071,東京都渋谷区本町**********,S13031,20150225,0-00000000-0
CS011603000002,神山 耕司,0,男性,1955-03-07,64,223-0058,神奈川県横浜市港北区新吉田東**********,S14011,20150503,0-00000000-0
CS008502000023,臼井 貴嶺,0,男性,1962-06-30,56,213-0031,神奈川県川崎市高津区宇奈根**********,S13008,20150612,0-00000000-0
CS038802000001,草村 雅之,0,男性,1935-08-16,83,132-0015,東京都江戸川区西瑞江**********,S13038,20150901,7-20091101-6
CS034403000003,井川 真吾,0,男性,1975-06-17,43,216-0001,神奈川県川崎市宮前区野川**********,S14034,20150324,0-00000000-0
CS037704000007,吹越 菊生,0,男性,1943-01-11,76,136-0076,東京都江東区南砂**********,S13037,20150329,0-00000000-0
CS011502000015,三村 鉄洋,0,男性,1964-06-10,54,212-0057,神奈川県川崎市幸区北加瀬**********,S14011,20150514,0-00000000-0
CS024303000017,伴 豊,0,男性,1985-09-26,33,214-0035,神奈川県川崎市多摩区長沢**********,S14024,20150426,0-00000000-0
CS023502000017,宮下 惇,0,男性,1959-04-30,59,212-0055,神奈川県川崎市幸区南加瀬**********,S14023,20150401,0-00000000-0


---
> S-077: レシート明細テーブル（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を平均から3σ以上離れたものとする。結果は10件表示させれば良い。

In [326]:
%%sql
with  amount_table as(
select customer_id , sum(amount) as sum_amount
from receipt 
where customer_id not like 'Z%'
group by customer_id
),
data_table as (
    select avg(sum_amount) as avg_amount , STDDEV_SAMP(sum_amount)  as std_amount
    from amount_table
)
select *
from amount_table
cross join data_table
where abs(sum_amount - avg_amount) / std_amount > 3 
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,avg_amount,std_amount
CS021514000008,12839,2547.742234529256,2720.674038361292
CS022515000065,12903,2547.742234529256,2720.674038361292
CS007514000094,15735,2547.742234529256,2720.674038361292
CS015515000034,15300,2547.742234529256,2720.674038361292
CS026414000039,12944,2547.742234529256,2720.674038361292
CS018414000065,12313,2547.742234529256,2720.674038361292
CS011415000006,16094,2547.742234529256,2720.674038361292
CS011414000012,11432,2547.742234529256,2720.674038361292
CS021515000172,13974,2547.742234529256,2720.674038361292
CS031414000028,11743,2547.742234529256,2720.674038361292


---
> S-078: レシート明細テーブル（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第一四分位と第三四分位の差であるIQRを用いて、「第一四分位数-1.5×IQR」よりも下回るもの、または「第三四分位数+1.5×IQR」を超えるものとする。結果は10件表示させれば良い。

In [328]:
%%sql
WITH sales_amount AS(
SELECT customer_id, SUM(amount) AS sum_amount
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
)
SELECT customer_id, sum_amount
FROM sales_amount
CROSS JOIN (
    SELECT PERCENTILE_CONT(0.25) WITHIN GROUP(ORDER BY sum_amount) as amount_25per,
           PERCENTILE_CONT(0.75) WITHIN GROUP(ORDER BY sum_amount) as amount_75per
    FROM sales_amount   
) stats_amount
WHERE sum_amount < amount_25per - (amount_75per - amount_25per) * 1.5 
    OR amount_75per + (amount_75per - amount_25per) * 1.5 < sum_amount
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount
CS013415000226,8362
CS011415000041,9454
CS014514000004,8872
CS021514000008,12839
CS014515000007,9763
CS040415000220,10158
CS028415000161,8465
CS034515000173,10074
CS022515000065,12903
CS007514000094,15735


---
> S-079: 商品テーブル（product）の各項目に対し、欠損数を確認せよ。

In [332]:
%%sql
select sum(case when product_cd is null then 1 else 0 end) as product_data,
sum(case when category_major_cd is null then 1 else 0 end) as category_major_cd_data,
sum(case when category_medium_cd is null then 1 else 0 end) as category_medium_cd_data,
sum(case when category_small_cd is null then 1 else 0 end) as category_small_cd,
sum(case when unit_price is null then 1 else 0 end) as unit_price_data,
sum(case when unit_cost is null then 1 else 0 end) as unit_cost_data
from product
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


product_data,category_major_cd_data,category_medium_cd_data,category_small_cd,unit_price_data,unit_cost_data
0,0,0,0,7,7


---
> S-080: 商品テーブル（product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たなproduct_1を作成せよ。なお、削除前後の件数を表示させ、前設問で確認した件数だけ減少していることも確認すること。

In [335]:
%%sql

CREATE TABLE product_1 AS (
    SELECT * FROM product
    WHERE unit_price IS NOT NULL OR unit_cost IS NOT NULL
);
SELECT COUNT(1) FROM product_1;

 * postgresql://padawan:***@db:5432/dsdojo_db
10023 rows affected.
1 rows affected.


count
10023


---
> S-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たなproduct_2を作成せよ。なお、平均値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [348]:
%%sql

    select product_cd , category_major_cd , category_medium_cd , category_small_cd , 
    case when unit_price is null then (select round(avg(unit_price)) from product) else unit_price end ,
    case when unit_cost is null then  (select  round(avg(unit_cost)) from product) else unit_cost end ,
    unit_price
    from product 
    limit 10


 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,unit_price_1
P040101001,4,401,40101,198,149,198
P040101002,4,401,40101,218,164,218
P040101003,4,401,40101,230,173,230
P040101004,4,401,40101,248,186,248
P040101005,4,401,40101,268,201,268
P040101006,4,401,40101,298,224,298
P040101007,4,401,40101,338,254,338
P040101008,4,401,40101,420,315,420
P040101009,4,401,40101,498,374,498
P040101010,4,401,40101,580,435,580


---
> S-082:  単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たなproduct_3を作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [358]:
%%sql
    select product_cd , category_major_cd , category_medium_cd , category_small_cd , 
    case when unit_price is null then (select PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY unit_price) from product) else unit_price end AS PRICE,
    case when unit_cost is null then  (select  PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY unit_cost) from product) else unit_cost end AS COST,
    unit_price , unit_cost
    from product limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,price,cost,unit_price,unit_cost
P040101001,4,401,40101,198.0,149.0,198,149
P040101002,4,401,40101,218.0,164.0,218,164
P040101003,4,401,40101,230.0,173.0,230,173
P040101004,4,401,40101,248.0,186.0,248,186
P040101005,4,401,40101,268.0,201.0,268,201
P040101006,4,401,40101,298.0,224.0,298,224
P040101007,4,401,40101,338.0,254.0,338,254
P040101008,4,401,40101,420.0,315.0,420,315
P040101009,4,401,40101,498.0,374.0,498,374
P040101010,4,401,40101,580.0,435.0,580,435


---
> S-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品の小区分（category_small_cd）ごとに算出した中央値で補完した新たなproduct_4を作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [363]:
%%sql

create table if not exists product_4 as
 with csc_med as (select category_small_cd,
                         round(percentile_cont(0.5) within group (order by unit_price)) as csc_up_med,
                         round(percentile_cont(0.5) within group (order by unit_cost)) as csc_uc_med 
from product group by category_small_cd)
 select product_cd,
        category_major_cd,
        category_medium_cd,
        pr.category_small_cd, 
        coalesce(unit_price, csc_up_med) as unit_price, 
        coalesce(unit_cost, csc_uc_med) as unit_cost 
  from product as pr inner join csc_med as c_m on pr.category_small_cd = c_m.category_small_cd;

 * postgresql://padawan:***@db:5432/dsdojo_db
10030 rows affected.


[]

---
> S-084: 顧客テーブル（customer）の全顧客に対し、全期間の売上金額に占める2019年売上金額の割合を計算せよ。ただし、売上実績がない場合は0として扱うこと。そして計算した割合が0超のものを抽出せよ。 結果は10件表示させれば良い。

In [367]:
%%sql
with sales_amount as (select cu.customer_id, sum(r.amount)
                       from customer as cu inner join receipt as r
                        on cu.customer_id = r.customer_id 
                       group by cu.customer_id),
     sales_amount_2019 as (select cu.customer_id, sum(r.amount)
                            from customer as cu inner join receipt as r 
                              on cu.customer_id = r.customer_id
                        where 20190000 < r.sales_ymd and r.sales_ymd < 20191231 group by cu.customer_id)
select sales.customer_id,
       sales_2019.sum as sales_amount_2019,
       sales.sum as sales_amount,
       sales_2019.sum * 1.0 / sales.sum * 1.0 as percentage 
 from sales_amount as sales inner join sales_amount_2019 as sales_2019
   on sales.customer_id = sales_2019.customer_id limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_amount_2019,sales_amount,percentage
CS008513000099,256,1322,0.1936459909228441
CS007615000070,1558,2975,0.5236974789915966
CS025415000155,368,1038,0.3545279383429672
CS012514000018,667,2562,0.260343481654957
CS015215000021,326,3090,0.1055016181229773
CS039814000011,1373,8031,0.1709625202340928
CS024414000120,208,2066,0.100677637947725
CS016515000016,1051,1051,1.0
CS013415000226,238,8362,0.028462090408993
CS008515000180,216,5127,0.0421299005266237


---
> S-085: 顧客テーブル（customer）の全顧客に対し、郵便番号（postal_cd）を用いて経度緯度変換用テーブル（geocode）を紐付け、新たなcustomer_1を作成せよ。ただし、複数紐づく場合は経度（longitude）、緯度（latitude）それぞれ平均を算出すること。

In [369]:
%%sql
create table if not exists customer_1 as
 with avg_ge as (select postal_cd,
                        avg(longitude) as m_longitude,
                        avg(latitude) as m_latitude
                 from geocode group by postal_cd) 
 select cu.*, a_ge.m_longitude, a_ge.m_latitude
  from customer as cu inner join avg_ge as a_ge on cu.postal_cd = a_ge.postal_cd;

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.


[]

---
> S-086: 前設問で作成した緯度経度つき顧客テーブル（customer_1）に対し、申込み店舗コード（application_store_cd）をキーに店舗テーブル（store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客の緯度・経度を用いて距離（km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示すれば良い。

$$
緯度（ラジアン）：\phi \\
経度（ラジアン）：\lambda \\
距離L = 6371 * arccos(sin \phi_1 * sin \phi_2
+ cos \phi_1 * cos \phi_2 * cos(\lambda_1 − \lambda_2))
$$

In [370]:
%%sql
select c1.customer_id, c1.address as c_ad, s.address as s_ad,
       6371 * acos(sin(radians(c1.m_latitude)) * sin(radians(s.latitude)) +
   cos(radians(c1.m_latitude)) * cos(radians(s.latitude)) * cos(radians(c1.m_longitude - s.longitude))) as distance
 from customer_1 as c1 inner join store as s on c1.application_store_cd = s.store_cd limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,c_ad,s_ad,distance
CS037613000071,東京都江東区南砂**********,東京都江東区南砂一丁目,1.4511822099658445
CS031415000172,東京都渋谷区代々木**********,東京都渋谷区初台二丁目,0.4117334789298223
CS028811000001,神奈川県横浜市泉区和泉町**********,神奈川県横浜市瀬谷区二ツ橋町,8.065196026704987
CS001215000145,東京都大田区仲六郷**********,東京都大田区仲六郷二丁目,1.2684209720729689
CS015414000103,東京都江東区北砂**********,東京都江東区南砂二丁目,1.449673414532165
CS015804000004,東京都江東区北砂**********,東京都江東区南砂二丁目,1.449673414532165
CS007403000016,千葉県八千代市上高野**********,千葉県佐倉市上志津,1.920803253841905
CS035614000014,東京都世田谷区桜新町**********,東京都世田谷区用賀四丁目,1.0214681484997588
CS011215000048,神奈川県横浜市港北区日吉本町**********,神奈川県横浜市港北区日吉本町四丁目,0.8182767808775093
CS040412000191,神奈川県横浜市緑区北八朔町**********,神奈川県横浜市緑区長津田みなみ台五丁目,3.6641233580823287


---
> S-087: 顧客テーブル（customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなし、1顧客1レコードとなるように名寄せした名寄顧客テーブル（customer_u）を作成せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残すものとし、売上金額合計が同一もしくは売上実績がない顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [386]:
%%sql
with sum_table as (
select cus.customer_id , customer_name , postal_cd , sum(amount) as sum_amount
from customer cus
join receipt as rec 
    on cus.customer_id = rec.customer_id
group by cus.customer_id , customer_name , postal_cd
) , new_table as (
select *,
ROW_NUMBER() OVER(
                PARTITION BY customer_name, postal_cd 
                ORDER BY sum_amount desc, customer_ID ) AS ranking
FROM sum_table)

select count(*)
from new_table


 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
8302


---
> S-088: 前設問で作成したデータを元に、顧客テーブルに統合名寄IDを付与したテーブル（customer_n）を作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
>- 重複していない顧客：顧客ID（customer_id）を設定
>- 重複している顧客：前設問で抽出したレコードの顧客IDを設定

In [None]:
%%sql


---
> S-089: 売上実績がある顧客に対し、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

In [None]:
%%sql


---
> S-090: レシート明細テーブル（receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月のモデル構築用データを3セット作成せよ。データの持ち方は自由とする。

In [None]:
%%sql


---
> S-091: 顧客テーブル（customer）の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [None]:
%%sql


---
> S-092: 顧客テーブル（customer）では、性別に関する情報が非正規化の状態で保持されている。これを第三正規化せよ。

In [None]:
%%sql


---
> S-093: 商品テーブル（product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリテーブル（category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品テーブルを作成せよ。

In [None]:
%%sql


---
> S-094: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-095: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはSJIS

In [None]:
%%sql


---
> S-096: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-097: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しく取り込まれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-098: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しく取り込まれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-099: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-100: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しく取り込まれていることを確認せよ。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


# これで１００本終わりです。おつかれさまでした！