# データサイエンス100本ノック（構造化データ加工編） - SQL

## はじめに
- データベースはPostgreSQL12です
- 初めに以下のセルを実行してください
- セルに %%sql と記載することでSQLを発行することができます
- jupyterからはdescribeコマンドによるテーブル構造の確認ができないため、テーブル構造を確認する場合はlimitを指定したSELECTなどで代用してください
- 使い慣れたSQLクライアントを使っても問題ありません（接続情報は以下の通り）
  - IPアドレス：Docker Desktopの場合はlocalhost、Docker toolboxの場合は192.168.99.100
  - Port:5432
  - database名: dsdojo_db
  - ユーザ名：padawan
  - パスワード:padawan12345
- 大量出力を行うとJupyterが固まることがあるため、出力件数は制限することを推奨します（設問にも出力件数を記載）
    - 結果確認のために表示させる量を適切にコントロールし、作業を軽快にすすめる技術もデータ加工には求められます
- 大量結果が出力された場合は、ファイルが重くなり以降開けなくなることもあります
    - その場合、作業結果は消えますがファイルをGitHubから取り直してください
    - vimエディタなどで大量出力範囲を削除することもできます
- 名前、住所等はダミーデータであり、実在するものではありません

In [1]:
%load_ext sql
import os
import pandas as pd
import psycopg2
from sqlalchemy import create_engine

pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}
dsl = 'postgresql://{user}:{password}@{host}:{port}/{database}'.format(**pgconfig)

# pd.read_sql用のコネクタ
conn = psycopg2.connect(**pgconfig)
# pd.to_sql用のcreate engine
engine = create_engine(dsl)
# MagicコマンドでSQLを書くための設定
%sql $dsl

'Connected: padawan@dsdojo_db'

# 使い方
- セルの先頭に%%sqlと記載し、２行目以降にSQLを記述することでJupyterからPostgreSQLに対しSQLを実行できます。

In [2]:
%%sql
select 'このように実行できます' as sample

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sample
このように実行できます


# データ加工100本ノック

---
> S-001: レシート明細テーブル（receipt）から全項目を10件抽出し、どのようなデータを保有しているか目視で確認せよ。


In [3]:
%%sql
select * from receipt limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1258502400,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1215820800,S14028,1102,1,CS028414000014,P060101005,1,170
20190205,1265328000,S14042,1132,1,ZZ000000000000,P050301001,1,25
20180821,1250812800,S14025,1102,2,CS025415000050,P060102007,1,90
20190605,1275696000,S13003,1112,1,CS003515000195,P050102002,1,138
20181205,1259971200,S14024,1102,2,CS024514000042,P080101005,1,30
20190922,1285113600,S14040,1102,1,CS040415000178,P070501004,1,128
20170504,1209859200,S13020,1112,2,ZZ000000000000,P071302010,1,770
20191010,1286668800,S14027,1102,1,CS027514000015,P071101003,1,680


---
> S-002: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。

In [4]:
%%sql
SELECT sales_ymd, customer_id, product_cd, amount FROM receipt LIMIT 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-003: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。ただし、sales_ymdはsales_dateに項目名を変更しながら抽出すること。

In [5]:
%%sql
SELECT sales_ymd AS sales_date, customer_id, product_cd, amount FROM receipt LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_date,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-004: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ
> - 顧客ID（customer_id）が"CS018205000001"

In [6]:
%%sql
SELECT 
    sales_ymd, customer_id, product_cd, amount
FROM
    receipt
WHERE 
    customer_id='CS018205000001'

 * postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-005: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [7]:
%%sql
SELECT
    sales_ymd, customer_id, product_cd, amount
FROM
    receipt
WHERE
    customer_id='CS018205000001' AND amount>=1000;

 * postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-006: レシート明細テーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [8]:
%%sql
SELECT
    sales_ymd, customer_id, product_cd, quantity, amount
FROM
    receipt
WHERE
    customer_id='CS018205000001'
AND
    (amount >= 1000 OR quantity >= 5);

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


sales_ymd,customer_id,product_cd,quantity,amount
20180911,CS018205000001,P071401012,1,2200
20180414,CS018205000001,P060104007,6,600
20170614,CS018205000001,P050206001,5,990
20190226,CS018205000001,P071401020,1,2200
20180911,CS018205000001,P071401005,1,1100


---
> S-007: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [9]:
%%sql
select
    sales_ymd, customer_id, product_cd, amount
from
    receipt
where
    customer_id='CS018205000001'
and (
    amount >= 1000 and amount <= 2000
    )

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401005,1100


---
> S-008: レシート明細テーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [10]:
%%sql
select 
    sales_ymd, customer_id, product_cd, amount
from
    receipt
where
    customer_id='CS018205000001'
and
    product_cd not in ('P071401019')

 * postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。

`select * from store where not (prefecture_cd = '13' or floor_area > 900)`

In [11]:
%%sql
select * from store 
where
    prefecture_cd != '13'
    and
    floor_area <= 900;

 * postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> S-010: 店舗テーブル（store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件だけ表示せよ。

In [12]:
%%sql
select * from store where store_cd like 'S14%' limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,139.5789,35.29642,1838.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0


---
> S-011: 顧客テーブル（customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件だけ表示せよ。


In [13]:
%%sql
select * from customer where customer_id like '%1' limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS028314000011,小菅 あおい,1,女性,1983-11-26,35,246-0038,神奈川県横浜市瀬谷区宮沢**********,S14028,20151123,1-20080426-5
CS039212000051,藤島 恵梨香,1,女性,1997-02-03,22,166-0001,東京都杉並区阿佐谷北**********,S13039,20171121,1-20100215-4
CS015412000111,松居 奈月,1,女性,1972-10-04,46,136-0071,東京都江東区亀戸**********,S13015,20150629,0-00000000-0
CS004702000041,野島 洋,0,男性,1943-08-24,75,176-0022,東京都練馬区向山**********,S13004,20170218,0-00000000-0
CS041515000001,栗田 千夏,1,女性,1967-01-02,52,206-0001,東京都多摩市和田**********,S13041,20160422,E-20100803-F
CS029313000221,北条 ひかり,1,女性,1987-06-19,31,279-0011,千葉県浦安市美浜**********,S12029,20180810,0-00000000-0
CS034312000071,望月 奈央,1,女性,1980-09-20,38,213-0026,神奈川県川崎市高津区久末**********,S14034,20160106,0-00000000-0


---
> S-012: 店舗テーブル（store）から横浜市の店舗だけ全項目表示せよ。

In [14]:
%%sql
select * from store where address like '%横浜市%';

 * postgresql://padawan:***@db:5432/dsdojo_db
11 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,139.5758,35.54912,1657.0
S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,139.6593,35.43894,1044.0


---
> S-013: 顧客テーブル（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件だけ表示せよ。

In [15]:
%%sql
select * from customer where status_cd ~ '^[A-F]' limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS029415000023,梅田 里穂,1,女性,1976-01-17,43,279-0043,千葉県浦安市富士見**********,S12029,20150610,D-20100918-E
CS035415000029,寺沢 真希,9,不明,1977-09-27,41,158-0096,東京都世田谷区玉川台**********,S13035,20141220,F-20101029-F
CS031415000106,宇野 由美子,1,女性,1970-02-26,49,151-0053,東京都渋谷区代々木**********,S13031,20150201,F-20100511-E
CS029215000025,石倉 美帆,1,女性,1993-09-28,25,279-0022,千葉県浦安市今川**********,S12029,20150708,B-20100820-C
CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F


■POSIX正規表現を参照  
https://www.postgresql.jp/document/8.2/html/functions-matching.html

---
> S-014: 顧客テーブル（customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [16]:
%%sql
select * from customer where status_cd ~ '[1-9]$' limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS009315000023,皆川 文世,1,女性,1980-04-15,38,154-0012,東京都世田谷区駒沢**********,S13009,20150319,5-20080322-1
CS015315000033,福士 璃奈子,1,女性,1983-03-17,36,135-0043,東京都江東区塩浜**********,S13015,20141024,4-20080219-3
CS023513000066,神戸 そら,1,女性,1961-12-17,57,210-0005,神奈川県川崎市川崎区東田町**********,S14023,20150915,5-20100524-9
CS035513000134,市川 美帆,1,女性,1960-03-27,59,156-0053,東京都世田谷区桜**********,S13035,20150227,8-20100711-9
CS001515000263,高松 夏空,1,女性,1962-11-09,56,144-0051,東京都大田区西蒲田**********,S13001,20160812,1-20100804-1
CS040314000027,鶴田 きみまろ,9,不明,1986-03-26,33,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150122,2-20080426-4


■正規表現制約を参照  
https://www.postgresql.jp/document/8.2/html/functions-matching.html

---
> S-015: 顧客テーブル（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [17]:
%%sql
select * from customer where status_cd ~ '^[A-F].*[1-9]$' limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS022513000105,島村 貴美子,1,女性,1962-03-12,57,249-0002,神奈川県逗子市山の根**********,S14022,20150320,A-20091115-7
CS001515000096,水野 陽子,9,不明,1960-11-29,58,144-0053,東京都大田区蒲田本町**********,S13001,20150614,A-20100724-7
CS013615000053,西脇 季衣,1,女性,1953-10-18,65,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150128,B-20100329-6
CS020412000161,小宮 薫,1,女性,1974-05-21,44,174-0042,東京都板橋区東坂下**********,S13020,20150822,B-20081021-3
CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
CS035212000007,内村 恵梨香,1,女性,1990-12-04,28,152-0023,東京都目黒区八雲**********,S13035,20151013,B-20101018-6
CS002515000386,野田 コウ,1,女性,1963-05-30,55,185-0013,東京都国分寺市西恋ケ窪**********,S13002,20160410,C-20100127-8
CS001615000372,稲垣 寿々花,1,女性,1956-10-29,62,144-0035,東京都大田区南蒲田**********,S13001,20170403,A-20100104-1
CS032512000121,松井 知世,1,女性,1962-09-04,56,210-0011,神奈川県川崎市川崎区富士見**********,S13032,20150727,A-20100103-5


■正規表現  
- 「.」任意の1文字にマッチ
- 「*」アトムの0個以上の並びにマッチ

---
> S-016: 店舗テーブル（store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [18]:
%%sql
select * from store where tel_no ~ '^[0-9]{3}-[0-9]{3}-[0-9]{4}$'

 * postgresql://padawan:***@db:5432/dsdojo_db
34 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S13052,森野店,13,東京都,東京都町田市森野三丁目,トウキョウトマチダシモリノサンチョウメ,042-123-4030,139.4383,35.55293,1087.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0


---
> S-017: 顧客テーブル（customer）を生年月日（birth_day）で高齢順にソートし、先頭10件を全項目表示せよ。

In [19]:
%%sql
select * from customer order by birth_day ASC limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0
CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0


---
> S-018: 顧客テーブル（customer）を生年月日（birth_day）で若い順にソートし、先頭10件を全項目表示せよ。

In [20]:
%%sql
select * from customer order by birth_day desc limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS035114000004,大村 美里,1,女性,2007-11-25,11,156-0053,東京都世田谷区桜**********,S13035,20150619,6-20091205-6
CS022103000002,福山 はじめ,9,不明,2007-10-02,11,249-0006,神奈川県逗子市逗子**********,S14022,20160909,0-00000000-0
CS002113000009,柴田 真悠子,1,女性,2007-09-17,11,184-0014,東京都小金井市貫井南町**********,S13002,20160304,0-00000000-0
CS004115000014,松井 京子,1,女性,2007-08-09,11,165-0031,東京都中野区上鷺宮**********,S13004,20161120,1-20081231-1
CS002114000010,山内 遥,1,女性,2007-06-03,11,184-0015,東京都小金井市貫井北町**********,S13002,20160920,6-20100510-1
CS025115000002,小柳 夏希,1,女性,2007-04-18,11,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20160116,D-20100913-D
CS002113000025,広末 まなみ,1,女性,2007-03-30,12,184-0015,東京都小金井市貫井北町**********,S13002,20171030,0-00000000-0
CS033112000003,長野 美紀,1,女性,2007-03-22,12,245-0051,神奈川県横浜市戸塚区名瀬町**********,S14033,20150606,0-00000000-0
CS007115000006,福岡 瞬,1,女性,2007-03-10,12,285-0845,千葉県佐倉市西志津**********,S12007,20151118,F-20101016-F
CS014113000008,矢口 莉緒,1,女性,2007-03-05,12,260-0041,千葉県千葉市中央区東千葉**********,S12014,20150622,3-20091108-6


- order by asc: 昇順(デフォルト)
- order by desc: 降順(指定が必要)

---
> S-019: レシート明細テーブル（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [21]:
%%sql
select
    customer_id
    , amount, RANK() OVER (order by amount DESC) as ranking
from 
    receipt
limit 
    10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,ranking
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,4
ZZ000000000000,5480,4
ZZ000000000000,5440,7
CS021515000089,5440,7
ZZ000000000000,5280,9
CS009415000038,5280,9


---
>  S-020: レシート明細テーブル（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [22]:
%%sql
select
    customer_id
    , amount
    , row_number() over (order by amount desc) as ranking
from
    receipt
limit
    10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,ranking
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,5
ZZ000000000000,5480,6
ZZ000000000000,5440,7
CS021515000089,5440,8
ZZ000000000000,5280,9
CS009415000038,5280,10


---
> S-021: レシート明細テーブル（receipt）に対し、件数をカウントせよ。

In [23]:
%%sql
select count(*) from receipt;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
104681


---
> S-022: レシート明細テーブル（receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [24]:
%%sql
select count(distinct customer_id) from receipt;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
8307


---
> S-023: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [25]:
%%sql
select
    store_cd
    , sum(amount) as 売上金額
    , sum(quantity) as 売上数量
from receipt
group by store_cd;

 * postgresql://padawan:***@db:5432/dsdojo_db
52 rows affected.


store_cd,売上金額,売上数量
S12007,638761,2099
S13017,748221,2376
S13043,587895,1881
S13052,100314,250
S13016,793773,2432
S14027,714550,2303
S13009,808870,2486
S14022,651328,2047
S13019,827833,2541
S13039,611888,1981


---
> S-024: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）を求め、10件表示せよ。

▲やりなおし

In [26]:
%%sql
select customer_id, min(sales_ymd)
from receipt
group by customer_id
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,min
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20170318
CS007515000119,20170201
CS034515000123,20170527
CS004315000058,20170517
CS026414000014,20170718
CS001615000099,20170729


---
> S-025: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も古い売上日（sales_ymd）を求め、10件表示せよ。

In [27]:
%%sql
select
    customer_id
    , max(sales_ymd)
from 
    receipt
group by customer_id
limit
    10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,max
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20180621
CS007515000119,20190511
CS034515000123,20190708
CS004315000058,20170517
CS026414000014,20190720
CS001615000099,20170729


---
> S-026: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）と古い売上日を求め、両者が異なるデータを10件表示せよ。

In [28]:
%%sql
select
    customer_id
    , min(sales_ymd)
    , max(sales_ymd)
from 
    receipt
group by 
    customer_id
having
    min(sales_ymd) != max(sales_ymd)
limit
    10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,min,max
CS029212000033,20170318,20180621
CS007515000119,20170201,20190511
CS034515000123,20170527,20190708
CS026414000014,20170718,20190720
CS010515000082,20180518,20181204
CS019315000045,20170423,20170920
CS008513000099,20170722,20190308
CS007615000070,20170929,20191025
CS025415000155,20170314,20191026
CS016414000063,20170109,20190617


---
> S-027: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [29]:
%%sql
select
    store_cd, avg(amount) as amount
from
    receipt
group by
    store_cd
order by amount desc
limit 5;

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,amount
S13052,402.86746987951807
S13015,351.11196043165467
S13003,350.9155188246097
S14010,348.79126213592235
S13001,348.4703862660944


---
> S-028: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [30]:
%%sql
select
    store_cd, percentile_cont(0.5) within group(order by amount) as m_amount
from
    receipt
group by
    store_cd
order by
    m_amount desc
limit 5;

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,m_amount
S13052,190.0
S14010,188.0
S14050,185.0
S13003,180.0
S13018,180.0


---
> S-029: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに商品コード(product_cd)の最頻値を求めよ。

In [31]:
%%sql
select store_cd, mode() within group(order by product_cd)
from receipt
group by store_cd
order by store_cd

 * postgresql://padawan:***@db:5432/dsdojo_db
52 rows affected.


store_cd,mode
S12007,P060303001
S12013,P060303001
S12014,P060303001
S12029,P060303001
S12030,P060303001
S13001,P060303001
S13002,P060303001
S13003,P071401001
S13004,P060303001
S13005,P040503001


---
> S-030: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本分散を計算し、降順にTOP5を表示せよ。

In [32]:
%%sql
select store_cd, variance(amount) as amount
from receipt
group by store_cd
order by amount desc
limit 5;

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,amount
S13052,441863.252526234
S14011,306442.24243156874
S14034,297068.39274006075
S13001,295558.8426177125
S13015,295427.1970858536


---
> S-031: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本標準偏差を計算し、降順にTOP5を表示せよ。

In [33]:
%%sql
select store_cd, stddev(amount) as st_amount
from receipt
group by store_cd
order by st_amount desc
limit 5;

 * postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,st_amount
S13052,664.727953772244
S14011,553.57225583619
S14034,545.039808399406
S13001,543.65323747561
S13015,543.532149082144


---
> S-032: レシート明細テーブル（receipt）に対し、売上金額（amount）について25％刻みでパーセンタイル値を求めよ。

▲やりなおし

In [34]:
%%sql
select
    percentile_cont(0.25) within group(order by amount) as "0.25"
    ,percentile_cont(0.5) within group(order by amount) as "0.5"
    ,percentile_cont(0.75) within group(order by amount) as "1.25"
    ,percentile_cont(1) within group(order by amount) as "1.00"
from receipt

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


0.25,0.5,1.25,1.00
102.0,170.0,288.0,10925.0


---
> S-033: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [35]:
%%sql
select
    store_cd
    , avg(amount) as avg_amount
from receipt
group by store_cd
having avg(amount) >= 300;

 * postgresql://padawan:***@db:5432/dsdojo_db
47 rows affected.


store_cd,avg_amount
S12007,307.6883429672447
S13017,317.58106960950767
S13043,318.125
S13052,402.86746987951807
S13016,329.6399501661129
S14027,314.9184662847069
S13009,328.1419878296146
S14022,321.6434567901234
S13019,330.2086158755485
S13039,310.91869918699183


---
> S-034: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

▲やりなおし

In [36]:
%%sql
with amount_per_customer as (
    select customer_id, sum(amount) as sum_amount
    from receipt
    where customer_id NOT like 'Z%'
    group by customer_id
)

select avg(sum_amount)
from amount_per_customer

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


avg
2547.742234529256


---
> S-035: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに販売金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、データは10件だけ表示させれば良い。

▲やりなおし。全然わからなかった。with句とは。。

In [37]:
%%sql
with amount_per_customer as (
    select customer_id, sum(amount) as sum_amount
    from receipt
    where customer_id NOT like 'Z%'
    group by customer_id
)

select 
    customer_id
    , sum_amount 
from 
    amount_per_customer 
where sum_amount >= (select
                         avg(sum_amount) 
                     from amount_per_customer)
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount
CS029212000033,3604
CS007515000119,7157
CS034515000123,3699
CS026414000014,6671
CS007615000070,2975
CS016414000063,6207
CS012514000018,2562
CS029515000142,3420
CS015215000021,3090
CS039814000011,8031


---
> S-036: レシート明細テーブル（receipt）と店舗テーブル（store）を内部結合し、レシート明細テーブルの全項目と店舗テーブルの店舗名（store_name）を10件表示させよ。

In [38]:
%%sql
select * from receipt limit 3;

 * postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1258502400,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1215820800,S14028,1102,1,CS028414000014,P060101005,1,170


In [39]:
%%sql
select * from store limit 3;

 * postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0


In [40]:
%%sql
select receipt.*, store.store_name 
from receipt 
inner join store 
    on receipt.store_cd = store.store_cd
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158,葛が谷店
20181118,1258502400,S13008,1132,2,CS008415000097,P070701017,1,81,成城店
20170712,1215820800,S14028,1102,1,CS028414000014,P060101005,1,170,二ツ橋店
20190205,1265328000,S14042,1132,1,ZZ000000000000,P050301001,1,25,新山下店
20180821,1250812800,S14025,1102,2,CS025415000050,P060102007,1,90,大和店
20190605,1275696000,S13003,1112,1,CS003515000195,P050102002,1,138,狛江店
20181205,1259971200,S14024,1102,2,CS024514000042,P080101005,1,30,三田店
20190922,1285113600,S14040,1102,1,CS040415000178,P070501004,1,128,長津田店
20170504,1209859200,S13020,1112,2,ZZ000000000000,P071302010,1,770,十条仲原店
20191010,1286668800,S14027,1102,1,CS027514000015,P071101003,1,680,南藤沢店


---
> S-037: 商品テーブル（product）とカテゴリテーブル（category）を内部結合し、商品テーブルの全項目とカテゴリテーブルの小区分名（category_small_name）を10件表示させよ。

▲やりなおし。こんな書き方しらん。

In [41]:
%%sql
select p.*, c.category_small_name
from product p
inner join category c
on p.category_small_cd = c.category_small_cd
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_small_name
P040101001,4,401,40101,198,149,弁当類
P040101002,4,401,40101,218,164,弁当類
P040101003,4,401,40101,230,173,弁当類
P040101004,4,401,40101,248,186,弁当類
P040101005,4,401,40101,268,201,弁当類
P040101006,4,401,40101,298,224,弁当類
P040101007,4,401,40101,338,254,弁当類
P040101008,4,401,40101,420,315,弁当類
P040101009,4,401,40101,498,374,弁当類
P040101010,4,401,40101,580,435,弁当類


---
> S-038: 顧客テーブル（customer）とレシート明細テーブル（receipt）から、各顧客ごとの売上金額合計を求めよ。ただし、買い物の実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが'Z'から始まるもの）は除外すること。なお、結果は10件だけ表示させれば良い。

In [42]:
%%sql
select * from customer limit 2;

 * postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0


In [43]:
%%sql
select * from receipt limit 2;

 * postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1258502400,S13008,1132,2,CS008415000097,P070701017,1,81


In [44]:
%%sql
/*先に対象顧客を絞るパターン*/
with customer_lady as (
    select * from customer
    where gender_cd = '1'
    and
    customer_id NOT like 'Z%'
)

/*sum()でnullをsumしていることになるのであまりよろしくない*/
/*集約関数を使う場合は先に計算しておいたものを使ってjoinしたほうが良いかも*/
select c.customer_id, coalesce(sum(r.amount),0) as SUM
from receipt r
right outer join customer_lady c on c.customer_id = r.customer_id
/*where c.customer_id='CS021313000114'*/
group by c.customer_id
order by c.customer_id
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum
CS001112000009,0
CS001112000019,0
CS001112000021,0
CS001112000023,0
CS001112000024,0
CS001112000029,0
CS001112000030,0
CS001113000004,1298
CS001113000010,0
CS001114000005,626


receiptを主体にして考える

In [45]:
%%sql
/*各顧客ごとの売上金額合計を集計する*/
with sum_per_customer as (
    select customer_id, sum(amount) as SUM
    from receipt
    group by customer_id
)

select c.customer_id, coalesce(r.SUM, 0)
from customer c
left outer join sum_per_customer r
on c.customer_id = r.customer_id
where c.gender_cd = '1' and c.customer_id not like 'Z%'
order by c.customer_id
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,coalesce
CS001112000009,0
CS001112000019,0
CS001112000021,0
CS001112000023,0
CS001112000024,0
CS001112000029,0
CS001112000030,0
CS001113000004,1298
CS001113000010,0
CS001114000005,626


---
> S-039: レシート明細テーブル（receipt）から売上日数の多い顧客の上位20件と、売上金額合計の多い顧客の上位20件を抽出し、完全外部結合せよ。ただし、非会員（顧客IDが'Z'から始まるもの）は除外すること。

▲やりなおし

In [46]:
%%sql
/*売上日数の多い顧客の上位20件*/
/*重複注意！*/
with receipt_count_sales_ymd as (
    select
        customer_id
        ,count(distinct sales_ymd) as COUNT_YMD
    from receipt
    where customer_id NOT LIKE 'Z%'
    group by customer_id
    order by COUNT_YMD desc
    limit 20
),
/*売上金額合計の多い顧客の上位20件*/
receipt_sum_amount as (
    select
        customer_id
        , sum(amount) as SUM
    from receipt
    where customer_id NOT LIKE 'Z%'
    group by customer_id
    order by SUM desc
    limit 20
)

/*customer_idで完全外部結合*/
/*select y.*, a.*
from receipt_count_sales_ymd as y
    full outer join receipt_sum_amount as a on y.customer_id = a.customer_id*/
select coalesce(y.customer_id, a.customer_id) as customer_id, y.COUNT_YMD, a.SUM
from receipt_count_sales_ymd as y
    full outer join receipt_sum_amount as a
        on y.customer_id = a.customer_id

 * postgresql://padawan:***@db:5432/dsdojo_db
34 rows affected.


customer_id,count_ymd,sum
CS040214000008,23.0,
CS015415000185,22.0,20153.0
CS010214000010,22.0,18585.0
CS028415000007,21.0,19127.0
CS010214000002,21.0,
CS017415000097,20.0,23086.0
CS016415000141,20.0,18372.0
CS021514000045,19.0,
CS022515000226,19.0,
CS031414000051,19.0,19202.0


---
> S-040: 全ての店舗と全ての商品を組み合わせると何件のデータとなるか調査したい。店舗（store）と商品（product）を直積した件数を計算せよ。

▲やりなおし 直積(クロス結合) 結合するテーブル同士のすべての組み合わせのデータを取得する結合のこと。

In [47]:
%%sql
select * from store limit 2;

 * postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0


In [48]:
%%sql
select * from product limit 2;

 * postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
P040101001,4,401,40101,198,149
P040101002,4,401,40101,218,164


In [49]:
%%sql

select count(1) from product cross join store

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
531590


---
> S-041: レシート明細テーブル（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前日からの売上金額増減を計算せよ。なお、計算結果は10件表示すればよい。

In [50]:
%%sql
select 
    sales_ymd
    , sum(amount) as SUM
    , (lag(sum(amount), 0) over(order by sales_ymd) -  lag(sum(amount), 1) over(order by sales_ymd) )as d_amount
from receipt
group by sales_ymd
order by sales_ymd
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sum,d_amount
20170101,33723,
20170102,24165,-9558.0
20170103,27503,3338.0
20170104,36165,8662.0
20170105,37830,1665.0
20170106,32387,-5443.0
20170107,23415,-8972.0
20170108,24737,1322.0
20170109,26718,1981.0
20170110,20143,-6575.0


---
> S-042: レシート明細テーブル（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、１日前、２日前、３日前のデータを結合せよ。結果は10件表示すればよい。

▲やりなおし　引き算をするのではなくてlagを使うこと。

In [51]:
%%sql
with sales_amount_ymd as (
    select sales_ymd, sum(amount) as SUM
    from receipt
    group by sales_ymd
    order by sales_ymd
),
sales_3days as (
    select
        sales_ymd
        ,SUM
        ,lag(sales_ymd, 1) over (order by sales_ymd) as day1
        ,lag(SUM, 1) over (order by sales_ymd) as sum1
        ,lag(sales_ymd, 2) over (order by sales_ymd) as day2
        ,lag(SUM, 2) over (order by sales_ymd) as sum2
        ,lag(sales_ymd, 3) over (order by sales_ymd) as day3
        ,lag(SUM, 3) over (order by sales_ymd) as sum3
    from sales_amount_ymd
)

select * from sales_3days 
where sum3 is not null
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sum,day1,sum1,day2,sum2,day3,sum3
20170104,36165,20170103,27503,20170102,24165,20170101,33723
20170105,37830,20170104,36165,20170103,27503,20170102,24165
20170106,32387,20170105,37830,20170104,36165,20170103,27503
20170107,23415,20170106,32387,20170105,37830,20170104,36165
20170108,24737,20170107,23415,20170106,32387,20170105,37830
20170109,26718,20170108,24737,20170107,23415,20170106,32387
20170110,20143,20170109,26718,20170108,24737,20170107,23415
20170111,24287,20170110,20143,20170109,26718,20170108,24737
20170112,23526,20170111,24287,20170110,20143,20170109,26718
20170113,28004,20170112,23526,20170111,24287,20170110,20143


---
> S-043: レシート明細テーブル（receipt）と顧客テーブル（customer）を結合し、性別（gender）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリテーブル（sales_summary）を作成せよ。性別は0が男性、1が女性、9が不明を表すものとする。
>
>ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

▲やりなおし　まったくわからなかった。

In [52]:
%%sql
drop table if exists sales_summary;

create table sales_summary as 
with gender_era_amount as (
    select
        c.gender_cd
        , trunc(c.age/10) * 10 as era
        , sum(r.amount) as amount
    from customer as c
    join receipt as r
    on c.customer_id = r.customer_id
    group by c.gender_cd, era
)

select 
    era
    , SUM(case gender_cd when '0' then amount else 0 end) as male
    , SUM(case gender_cd when '1' then amount else 0 end) as female
    , SUM(case gender_cd when '9' then amount else 0 end) as unknown
from gender_era_amount
group by era
order by era;

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
9 rows affected.


[]

↓残骸

In [53]:
%%sql
/*顧客別の集計テーブル*/
with receipt_sum as (
    select
        customer_id
        , sum(amount) as SUM
    from receipt
    group by customer_id
),

/*顧客別の集計テーブルに顧客情報を追加したテーブルを作成する*/
receipt_sum_customer as (
    select
        c.gender_cd,
        sum(r.SUM),
        trunc(c.age/10) * 10 as nendai 
        from receipt_sum as r
    left join customer as c
        on r.customer_id = c.customer_id
        group by customer.gender_id, nendai
)

select * from receipt_sum_customer limit 2


 * postgresql://padawan:***@db:5432/dsdojo_db
(psycopg2.errors.UndefinedTable) invalid reference to FROM-clause entry for table "customer"
LINE 19:         group by customer.gender_id, nendai
                          ^
HINT:  Perhaps you meant to reference the table alias "c".

[SQL: /*顧客別の集計テーブル*/
with receipt_sum as (
    select
        customer_id
        , sum(amount) as SUM
    from receipt
    group by customer_id
),

/*顧客別の集計テーブルに顧客情報を追加したテーブルを作成する*/
receipt_sum_customer as (
    select
        c.gender_cd,
        sum(r.SUM),
        trunc(c.age/10) * 10 as nendai 
        from receipt_sum as r
    left join customer as c
        on r.customer_id = c.customer_id
        group by customer.gender_id, nendai
)

select * from receipt_sum_customer limit 2]
(Background on this error at: http://sqlalche.me/e/13/f405)


---
> S-044: 前設問で作成した売上サマリテーブル（sales_summary）は性別の売上を横持ちさせたものであった。このテーブルから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を'00'、女性を'01'、不明を'99'とする。

In [54]:
%%sql
select era, '00' as gender_cd, male as amount from sales_summary
union all
select era, '01' as gender_cd, female as amount from sales_summary
union all
select era, '99' as gender_cd, unknown as amount from sales_summary

 * postgresql://padawan:***@db:5432/dsdojo_db
27 rows affected.


era,gender_cd,amount
10.0,0,1591
20.0,0,72940
30.0,0,177322
40.0,0,19355
50.0,0,54320
60.0,0,272469
70.0,0,13435
80.0,0,46360
90.0,0,0
10.0,1,149836


---
> S-045: 顧客テーブル（customer）の生年月日（birth_day）は日付型（Date）でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [55]:
%%sql
select customer_id, to_char(birth_day, 'YYYYMMDD') from customer limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,to_char
CS021313000114,19810429
CS037613000071,19520401
CS031415000172,19761004
CS028811000001,19330327
CS001215000145,19950329
CS020401000016,19740915
CS015414000103,19770809
CS029403000008,19730817
CS015804000004,19310502
CS033513000180,19620711


---
> S-046: 顧客テーブル（customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型（dateやdatetime）に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [56]:
%%sql
select customer_id, to_date(application_date, 'YYYYMMDD') from customer limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,to_date
CS021313000114,2015-09-05
CS037613000071,2015-04-14
CS031415000172,2015-05-29
CS028811000001,2016-01-15
CS001215000145,2017-06-05
CS020401000016,2015-02-25
CS015414000103,2015-07-22
CS029403000008,2015-05-15
CS015804000004,2015-06-07
CS033513000180,2015-07-28


---
> S-047: レシート明細テーブル（receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型（dateやdatetime）に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [57]:
%%sql
select
    receipt_no
    , receipt_sub_no
    , to_date(CAST(sales_ymd as VARCHAR), 'YYYYMMDD') as sales_ymd
from receipt
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,sales_ymd
112,1,2018-11-03
1132,2,2018-11-18
1102,1,2017-07-12
1132,1,2019-02-05
1102,2,2018-08-21
1112,1,2019-06-05
1102,2,2018-12-05
1102,1,2019-09-22
1112,2,2017-05-04
1102,1,2019-10-10


---
> S-048: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型（timestamp型）に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [58]:
%%sql
select * from receipt limit 1;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1257206400,S14006,112,1,CS006214000001,P070305012,1,158


In [59]:
%%sql
select
    receipt_no
    , receipt_sub_no
    , to_timestamp(sales_epoch)
from receipt
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_timestamp
112,1,2009-11-03 00:00:00+00:00
1132,2,2009-11-18 00:00:00+00:00
1102,1,2008-07-12 00:00:00+00:00
1132,1,2010-02-05 00:00:00+00:00
1102,2,2009-08-21 00:00:00+00:00
1112,1,2010-06-05 00:00:00+00:00
1102,2,2009-12-05 00:00:00+00:00
1102,1,2010-09-22 00:00:00+00:00
1112,2,2008-05-04 00:00:00+00:00
1102,1,2010-10-10 00:00:00+00:00


---
> S-049: レシート明細テーブル（receipt）の販売エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"年"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [60]:
%%sql
select
    receipt_no
    , receipt_sub_no
    , to_char(to_timestamp(sales_epoch), 'YYYY') as sales_year
from receipt
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,sales_year
112,1,2009
1132,2,2009
1102,1,2008
1132,1,2010
1102,2,2009
1112,1,2010
1102,2,2009
1102,1,2010
1112,2,2008
1102,1,2010


---
> S-050: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"月"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、"月"は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [61]:
%%sql
select
    receipt_no
    , receipt_sub_no
    , to_char(to_timestamp(sales_epoch), 'MM') as sales_month
from receipt
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,sales_month
112,1,11
1132,2,11
1102,1,7
1132,1,2
1102,2,8
1112,1,6
1102,2,12
1102,1,9
1112,2,5
1102,1,10


---
> S-051: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）を日付型（timestamp型）に変換し、"日"だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、"日"は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [62]:
%%sql
select
    receipt_no
    , receipt_sub_no
    , to_char(to_timestamp(sales_epoch), 'DD')
from receipt
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_char
112,1,3
1132,2,18
1102,1,12
1132,1,5
1102,2,21
1112,1,5
1102,2,5
1102,1,22
1112,2,4
1102,1,10


---
> S-052: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2000円以下を0、2000円超を1に2値化し、顧客ID、合計金額とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [63]:
%%sql
select
    customer_id
    , sum(amount) as sum_amount
    , case
        when sum(amount) <= 2000 then 0
        when sum(amount) > 2000 then 1
    end as amount_flg
from receipt
where customer_id not like 'Z%'
group by customer_id
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,amount_flg
CS001311000059,2302,1
CS004614000122,248,0
CS003512000043,298,0
CS011615000061,246,0
CS029212000033,3604,1
CS007515000119,7157,1
CS034515000123,3699,1
CS004315000058,490,0
CS026414000014,6671,1
CS001615000099,768,0


---
> S-053: 顧客テーブル（customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に２値化せよ。さらにレシート明細テーブル（receipt）と結合し、全期間において買い物実績のある顧客数を、作成した2値ごとにカウントせよ。

In [64]:
%%sql
with cust as (
select
    customer_id,
    postal_cd,
    case
        when
            100 <= cast(substr(postal_cd, 1, 3) as integer)
            and cast(substr(postal_cd, 1, 3) as integer) <= 209 then 1
        else 0
    end as yubin
from customer
),
rect as (
select
    customer_id,
    sum(amount)
from receipt
group by
    customer_id
)

select c.yubin, count(yubin)
from rect as r
    join cust as c on r.customer_id=c.customer_id
group by yubin
limit 10;


 * postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


yubin,count
0,3906
1,4400


---
> S-054: 顧客テーブル（customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに抽出せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。結果は10件表示させれば良い。

In [65]:
%%sql
select
    customer_id,
    address,
    case
        when address like '%埼玉%' then 11
        when address like '%千葉%' then 12
        when address like '%東京%' then 13
        when address like '%神奈川%' then 14
    else 0
    end as prefecture_cd
from 
    customer
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,address,prefecture_cd
CS021313000114,神奈川県伊勢原市粟窪**********,14
CS037613000071,東京都江東区南砂**********,13
CS031415000172,東京都渋谷区代々木**********,13
CS028811000001,神奈川県横浜市泉区和泉町**********,14
CS001215000145,東京都大田区仲六郷**********,13
CS020401000016,東京都板橋区若木**********,13
CS015414000103,東京都江東区北砂**********,13
CS029403000008,千葉県浦安市海楽**********,12
CS015804000004,東京都江東区北砂**********,13
CS033513000180,神奈川県横浜市旭区善部町**********,14


---
> S-055: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに表示せよ。カテゴリ値は上から順に1〜4とする。結果は10件表示させれば良い。
>
> - 最小値以上第一四分位未満
> - 第一四分位以上第二四分位未満
> - 第二四分位以上第三四分位未満
> - 第三四分位以上

In [66]:
%%sql
with sales_amount as (
select
    customer_id,
    sum(amount) as sum_amount
from receipt
group by customer_id
),

sales_pct as (
select
    percentile_cont(0.25) within group (order by sum_amount) as pct25,
    percentile_cont(0.50) within group (order by sum_amount) as pct50,
    percentile_cont(0.75) within group (order by sum_amount) as pct75
from sales_amount
)

select
    a.customer_id, 
    a.sum_amount,
    case
        when a.sum_amount < pct25 then 1
        when pct25 <= a.sum_amount and a.sum_amount < pct50 then 2
        when pct50 <= a.sum_amount and a.sum_amount < pct75 then 3
        when pct75 <= a.sum_amount then 4
    else 0
    end as pct_flg
from sales_amount as a
cross join sales_pct as p
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,pct_flg
CS001311000059,2302,3
CS004614000122,248,1
CS003512000043,298,1
CS011615000061,246,1
CS029212000033,3604,3
CS007515000119,7157,4
CS034515000123,3699,4
CS004315000058,490,1
CS026414000014,6671,4
CS001615000099,768,2


---
> S-056: 顧客テーブル（customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに抽出せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。先頭10件を表示させればよい。

In [67]:
%%sql
select
    customer_id,
    birth_day,
    case
        when trunc(age/10) * 10 < 60 then cast(trunc(age/10) * 10 as INTEGER)
        else 60
    end as era
from 
    customer
group by
    customer_id,
    birth_day
limit
    10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,era
CS001105000001,2000-01-14,10
CS001112000009,2006-08-24,10
CS001112000019,2001-01-31,10
CS001112000021,2001-12-15,10
CS001112000023,2004-01-26,10
CS001112000024,2001-01-16,10
CS001112000029,2005-01-24,10
CS001112000030,2003-03-02,10
CS001113000004,2003-02-22,10
CS001113000010,2005-05-09,10


---
> S-057: 前問題の抽出結果と性別（gender）を組み合わせ、新たに性別×年代の組み合わせを表すカテゴリデータを作成せよ。組み合わせを表すカテゴリの値は任意とする。先頭10件を表示させればよい。

In [68]:
%%sql
select
    customer_id,
    birth_day,
    gender_cd || least(cast(trunc(age/10) * 10 as INTEGER), 60) as era
from 
    customer
group by
    customer_id,
    birth_day
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,era
CS001105000001,2000-01-14,10
CS001112000009,2006-08-24,110
CS001112000019,2001-01-31,110
CS001112000021,2001-12-15,110
CS001112000023,2004-01-26,110
CS001112000024,2001-01-16,110
CS001112000029,2005-01-24,110
CS001112000030,2003-03-02,110
CS001113000004,2003-02-22,110
CS001113000010,2005-05-09,110


---
> S-058: 顧客テーブル（customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに抽出せよ。結果は10件表示させれば良い。

In [69]:
%%sql
select
    customer_id,
    case when gender_cd='0' then '1' else '0' end as gender_male,
    case when gender_cd='1' then '1' else '0' end as gender_female,
    case when gender_cd='9' then '1' else '0' end as gender_unknown
from 
    customer
limit 
    10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,gender_male,gender_female,gender_unknown
CS021313000114,0,1,0
CS037613000071,0,0,1
CS031415000172,0,1,0
CS028811000001,0,1,0
CS001215000145,0,1,0
CS020401000016,1,0,0
CS015414000103,0,1,0
CS029403000008,1,0,0
CS015804000004,1,0,0
CS033513000180,0,1,0


---
> S-059: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに表示せよ。標準化に使用する標準偏差は、不偏標準偏差と標本標準偏差のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [70]:
%%sql
with sales_amount as (
select 
    customer_id,
    sum(amount) as sum_amount
from 
    receipt
where customer_id not like 'Z%'
group by 
    customer_id
),
stats_amount as (
select
    avg(sum_amount) as avg_amount,
    stddev_samp(sum_amount) as std_amount
from 
    sales_amount
)

select
    customer_id,
    sum_amount,
    (sum_amount - avg_amount) / std_amount as normal_amount
from sales_amount
    cross join stats_amount
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,normal_amount
CS001311000059,2302,-0.0903240267170229
CS004614000122,248,-0.8452840002525365
CS003512000043,298,-0.8269062014809807
CS011615000061,246,-0.8460191122033986
CS029212000033,3604,0.3882338532942909
CS007515000119,7157,1.6941602340010484
CS034515000123,3699,0.423151670960247
CS004315000058,490,-0.7563354541982062
CS026414000014,6671,1.5155280299415257
CS001615000099,768,-0.6541548930283558


---
> S-060: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [71]:
%%sql
with sales_amount as (
    select
        customer_id,
        sum(amount) as sum_amount
    from receipt
    where customer_id not like 'Z%'
    group by customer_id
),
sales_min_max as (
    select
        min(sum_amount) as min_amount,
        max(sum_amount) as max_amount
    from sales_amount
)
select
    customer_id,
    sum_amount,
    (sum_amount - min_amount) * 1.0 / (max_amount - min_amount ) * 1.0 as scale_amount
from 
    sales_amount
    cross join sales_min_max
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,scale_amount
CS001311000059,2302,0.0969760166840458
CS004614000122,248,0.0077337504344803
CS003512000043,298,0.0099061522419186
CS011615000061,246,0.0076468543621828
CS029212000033,3604,0.1535453597497393
CS007515000119,7157,0.3079162321863051
CS034515000123,3699,0.157672923183872
CS004315000058,490,0.0182481751824817
CS026414000014,6671,0.2868004866180048
CS001615000099,768,0.0303267292318387


---
> S-061: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を常用対数化（底=10）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [72]:
%%sql
with sales_amount as (
    select 
        customer_id,
        sum(amount) as sum_amount
    from receipt
    where customer_id not like '%Z'
    group by customer_id
),
log_amount as (
    select
        customer_id,
        log(sum_amount + 1) as log_amount
    from
        sales_amount        
)

select
    s.customer_id,
    s.sum_amount,
    l.log_amount
from sales_amount as s
    left join log_amount as l 
        on s.customer_id = l.customer_id
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,log_amount
CS001311000059,2302,3.362293937964231
CS004614000122,248,2.3961993470957363
CS003512000043,298,2.4756711883244296
CS011615000061,246,2.392696953259666
CS029212000033,3604,3.556905269055448
CS007515000119,7157,3.8547916940539855
CS034515000123,3699,3.568201724066995
CS004315000058,490,2.6910814921229687
CS026414000014,6671,3.824256037629682
CS001615000099,768,2.885926339801431


---
> S-062: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、合計した売上金額を自然対数化(底=e）して顧客ID、売上金額合計とともに表示せよ（ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること）。結果は10件表示させれば良い。

In [73]:
%%sql
select
    customer_id,
    sum(amount) as sum_amount,
    ln(sum(amount)+ 1) as ln_amount
from
    receipt
where 
    customer_id not like '%Z'
group by 
    customer_id
limit 
    10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,ln_amount
CS001311000059,2302,7.741967899820685
CS004614000122,248,5.517452896464707
CS003512000043,298,5.700443573390687
CS011615000061,246,5.5093883366279774
CS029212000033,3604,8.190077049719049
CS007515000119,7157,8.875985891325971
CS034515000123,3699,8.216088098632316
CS004315000058,490,6.19644412779452
CS026414000014,6671,8.805674944038582
CS001615000099,768,6.645090969505644


---
> S-063: 商品テーブル（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益額を算出せよ。結果は10件表示させれば良い。

In [74]:
%%sql
select
    product_cd,
    unit_price,
    unit_cost,
    unit_price - unit_cost as rieki
from product
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,rieki
P040101001,198,149,49
P040101002,218,164,54
P040101003,230,173,57
P040101004,248,186,62
P040101005,268,201,67
P040101006,298,224,74
P040101007,338,254,84
P040101008,420,315,105
P040101009,498,374,124
P040101010,580,435,145


---
> S-064: 商品テーブル（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。 ただし、単価と原価にはNULLが存在することに注意せよ。

▲やりなおし

In [75]:
%%sql
with rieki_products as (
    select
        product_cd,
        unit_price,
        unit_cost,
        unit_price - unit_cost as rieki,
        (unit_price - unit_cost) / unit_price as per_rieki
    from
        product
    where
        unit_price is not null
        and
        unit_cost is not null
),
zentai_percent as (
    select
        product_cd,
        per_rieki,
        avg(per_rieki) * 100 as zentai_avg
    from rieki_products
    group by product_cd
)
select * from zentai_percent limit 3;

 * postgresql://padawan:***@db:5432/dsdojo_db
(psycopg2.errors.GroupingError) column "rieki_products.per_rieki" must appear in the GROUP BY clause or be used in an aggregate function
LINE 18:         per_rieki,
                 ^

[SQL: with rieki_products as (
    select
        product_cd,
        unit_price,
        unit_cost,
        unit_price - unit_cost as rieki,
        (unit_price - unit_cost) / unit_price as per_rieki
    from
        product
    where
        unit_price is not null
        and
        unit_cost is not null
),
zentai_percent as (
    select
        product_cd,
        per_rieki,
        avg(per_rieki) * 100 as zentai_avg
    from rieki_products
    group by product_cd
)
select * from zentai_percent limit 3;]
(Background on this error at: http://sqlalche.me/e/13/f405)


In [76]:
%%sql
select
    avg((unit_price * 1.0 - unit_cost) / unit_price) as unit_profit_rate
from 
    product
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


unit_profit_rate
0.24911389885177


---
> S-065: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [77]:
%%sql
select
    product_cd,
    unit_price,
    unit_cost,
    trunc(unit_cost / 0.7) as new_price,
    ((trunc(unit_cost / 0.7) - unit_cost) / trunc(unit_cost / 0.7)) as new_profit
from 
    product
where 
    unit_price is not null
    and
    unit_cost is not null
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,new_price,new_profit
P040101001,198,149,212,0.2971698113207547
P040101002,218,164,234,0.2991452991452991
P040101003,230,173,247,0.2995951417004048
P040101004,248,186,265,0.2981132075471698
P040101005,268,201,287,0.2996515679442508
P040101006,298,224,320,0.3
P040101007,338,254,362,0.298342541436464
P040101008,420,315,450,0.3
P040101009,498,374,534,0.299625468164794
P040101010,580,435,621,0.2995169082125603


---
> S-066: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を四捨五入すること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [78]:
%%sql
select
    product_cd,
    unit_price,
    unit_cost,
    ROUND(unit_cost / 0.7) as new_price,
    (ROUND(unit_cost/ 0.7) - unit_cost) / ROUND(unit_cost/0.7) as new_prof
from
    product
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,new_price,new_prof
P040101001,198,149,213,0.3004694835680751
P040101002,218,164,234,0.2991452991452991
P040101003,230,173,247,0.2995951417004048
P040101004,248,186,266,0.3007518796992481
P040101005,268,201,287,0.2996515679442508
P040101006,298,224,320,0.3
P040101007,338,254,363,0.3002754820936639
P040101008,420,315,450,0.3
P040101009,498,374,534,0.299625468164794
P040101010,580,435,621,0.2995169082125603


---
> S-067: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [79]:
%%sql
select
    product_cd,
    unit_price,
    unit_cost,
    CEIL(unit_cost / 0.7) as new_price,
    ( (ceil(unit_cost / 0.7) - unit_cost) / ceil(unit_cost / 0.7)) as new_prof
from product
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,new_price,new_prof
P040101001,198,149,213,0.3004694835680751
P040101002,218,164,235,0.302127659574468
P040101003,230,173,248,0.3024193548387096
P040101004,248,186,266,0.3007518796992481
P040101005,268,201,288,0.3020833333333333
P040101006,298,224,320,0.3
P040101007,338,254,363,0.3002754820936639
P040101008,420,315,450,0.3
P040101009,498,374,535,0.3009345794392523
P040101010,580,435,622,0.3006430868167202


---
> S-068: 商品テーブル（product）の各商品について、消費税率10%の税込み金額を求めよ。 1円未満の端数は切り捨てとし、結果は10件表示すれば良い。ただし、単価（unit_price）にはNULLが存在することに注意せよ。

In [80]:
%%sql
select
    product_cd,
    unit_price,
    trunc(unit_price * 1.1 )as unit_price_tax
from product
limit 10

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_price_tax
P040101001,198,217
P040101002,218,239
P040101003,230,253
P040101004,248,272
P040101005,268,294
P040101006,298,327
P040101007,338,371
P040101008,420,462
P040101009,498,547
P040101010,580,638


---
> S-069: レシート明細テーブル（receipt）と商品テーブル（product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分"07"（瓶詰缶詰）の購入実績がある顧客のみとし、結果は10件表示させればよい。

In [81]:
%%sql
-- 顧客ごとの全商品の購入金額を算出
with sales_amount as (
    select
        customer_id,
        sum(amount) as sum_amount
    from
        receipt
    group by customer_id
),
-- カテゴリ大区分が07の売上合計金額を算出
sales_amount07 as (
    select
        customer_id,
        sum(amount) as sum_07amount
    from
        receipt
        left join product on receipt.product_cd = product.product_cd
    where
        category_major_cd = '07'
    group by
        customer_id
)

-- select * from sales_amount07 limit 10;

-- 最終出力
select
    t.customer_id,
    sum_amount,
    sum_07amount,
    sum_07amount * 1.0 / sum_amount as sales_rate
from
    sales_amount as t
left join
    sales_amount07 as p 
on
    t.customer_id = p.customer_id
limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,sum_07amount,sales_rate
CS001311000059,2302,102.0,0.0443092962641181
CS004614000122,248,,
CS003512000043,298,,
CS011615000061,246,98.0,0.3983739837398373
CS029212000033,3604,3604.0,1.0
CS007515000119,7157,2832.0,0.3956965208886404
CS034515000123,3699,1202.0,0.3249526899161935
CS004315000058,490,,
CS026414000014,6671,3142.0,0.4709938539949033
CS001615000099,768,318.0,0.4140625


---
> S-070: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [82]:
%%sql
-- receiptにcustomerをcustomer_idで結合する
WITH sales_date AS(
    SELECT
        customer_id,
        to_date(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD') as sales_ymd_date
    FROM
        receipt
),
customer_data AS(
    SELECT
        customer_id,
        to_date(application_date, 'YYYYMMDD') as application_date_date
    FROM
        customer
)

SELECT
    sales_date.customer_id,
    sales_ymd_date,
    application_date_date,
    -- 会員申込日からの経過日数
    sales_ymd_date - application_date_date AS keika
FROM
    sales_date
JOIN
    customer_data
ON
    sales_date.customer_id = customer_data.customer_id
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd_date,application_date_date,keika
CS006214000001,2018-11-03,2015-02-01,1371
CS008415000097,2018-11-18,2015-03-22,1337
CS028414000014,2017-07-12,2015-07-11,732
CS025415000050,2018-08-21,2016-01-31,933
CS003515000195,2019-06-05,2015-03-06,1552
CS024514000042,2018-12-05,2015-10-10,1152
CS040415000178,2019-09-22,2015-06-27,1548
CS027514000015,2019-10-10,2015-11-01,1439
CS025415000134,2019-09-18,2015-07-20,1521
CS021515000126,2017-10-10,2015-05-08,886


---
> S-071: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [83]:
%%sql
WITH sales_date AS(
    SELECT
        customer_id,
        to_timestamp(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD') as sales_ymd_timestamp
    FROM
        receipt
),
customer_data AS(
    SELECT
        customer_id,
        to_timestamp(application_date, 'YYYYMMDD') as application_date_timestamp
    FROM
        customer
)

SELECT
    sales_date.customer_id,
    sales_ymd_timestamp,
    application_date_timestamp,
    -- 会員申込日からの経過月数
    EXTRACT(YEAR FROM age(sales_ymd_timestamp, application_date_timestamp)) * 12 +
    EXTRACT(MONTH FROM age(sales_ymd_timestamp, application_date_timestamp)) as time_age_month
FROM
    sales_date
JOIN
    customer_data
ON
    sales_date.customer_id = customer_data.customer_id
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd_timestamp,application_date_timestamp,time_age_month
CS006214000001,2018-11-03 00:00:00+00:00,2015-02-01 00:00:00+00:00,45.0
CS008415000097,2018-11-18 00:00:00+00:00,2015-03-22 00:00:00+00:00,43.0
CS028414000014,2017-07-12 00:00:00+00:00,2015-07-11 00:00:00+00:00,24.0
CS025415000050,2018-08-21 00:00:00+00:00,2016-01-31 00:00:00+00:00,30.0
CS003515000195,2019-06-05 00:00:00+00:00,2015-03-06 00:00:00+00:00,50.0
CS024514000042,2018-12-05 00:00:00+00:00,2015-10-10 00:00:00+00:00,37.0
CS040415000178,2019-09-22 00:00:00+00:00,2015-06-27 00:00:00+00:00,50.0
CS027514000015,2019-10-10 00:00:00+00:00,2015-11-01 00:00:00+00:00,47.0
CS025415000134,2019-09-18 00:00:00+00:00,2015-07-20 00:00:00+00:00,49.0
CS021515000126,2017-10-10 00:00:00+00:00,2015-05-08 00:00:00+00:00,29.0


---
> S-072: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

日付の引き算はage()関数が便利。  
age()関数はtimestamp型をとるのでtimestamp型に変換して引き算する。  
計算結果はEXTRACTを使って年数取得、取得した年数x112 + monthで経過月数を求められる。  
経過日数はdate型同士で引き算した方がラク。  

In [84]:
%%sql
WITH sales_timestamp AS (
    SELECT
        customer_id,
        -- 売上日
        to_timestamp(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD') AS sales_ymd_timestamp
    FROM
        receipt
),
customer_timestamp AS (
    SELECT
        customer_id,
        -- 会員申込日
        to_timestamp(application_date, 'YYYYMMDD') AS application_data_timestamp
    FROM
        customer
)

SELECT
    sales_timestamp.customer_id,
    sales_ymd_timestamp,
    application_data_timestamp,
    EXTRACT(YEAR FROM age(sales_ymd_timestamp, application_data_timestamp))
FROM
    sales_timestamp
JOIN
    customer_timestamp
ON
    sales_timestamp.customer_id = customer_timestamp.customer_id
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd_timestamp,application_data_timestamp,date_part
CS006214000001,2018-11-03 00:00:00+00:00,2015-02-01 00:00:00+00:00,3.0
CS008415000097,2018-11-18 00:00:00+00:00,2015-03-22 00:00:00+00:00,3.0
CS028414000014,2017-07-12 00:00:00+00:00,2015-07-11 00:00:00+00:00,2.0
CS025415000050,2018-08-21 00:00:00+00:00,2016-01-31 00:00:00+00:00,2.0
CS003515000195,2019-06-05 00:00:00+00:00,2015-03-06 00:00:00+00:00,4.0
CS024514000042,2018-12-05 00:00:00+00:00,2015-10-10 00:00:00+00:00,3.0
CS040415000178,2019-09-22 00:00:00+00:00,2015-06-27 00:00:00+00:00,4.0
CS027514000015,2019-10-10 00:00:00+00:00,2015-11-01 00:00:00+00:00,3.0
CS025415000134,2019-09-18 00:00:00+00:00,2015-07-20 00:00:00+00:00,4.0
CS021515000126,2017-10-10 00:00:00+00:00,2015-05-08 00:00:00+00:00,2.0


---
> S-073: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [85]:
%%sql
WITH sales_timestamp AS (
    SELECT
        customer_id,
        -- 売上日
        to_timestamp(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD') AS sales_ymd_timestamp
    FROM
        receipt
),
customer_timestamp AS (
    SELECT
        customer_id,
        -- 会員申込日
        to_timestamp(application_date, 'YYYYMMDD') AS application_data_timestamp
    FROM
        customer
)

SELECT
    sales_timestamp.customer_id,
    sales_ymd_timestamp,
    application_data_timestamp,
    EXTRACT(epoch FROM sales_ymd_timestamp-application_data_timestamp) as EPOCH
FROM
    sales_timestamp
JOIN
    customer_timestamp
ON
    sales_timestamp.customer_id = customer_timestamp.customer_id
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd_timestamp,application_data_timestamp,epoch
CS006214000001,2018-11-03 00:00:00+00:00,2015-02-01 00:00:00+00:00,118454400.0
CS008415000097,2018-11-18 00:00:00+00:00,2015-03-22 00:00:00+00:00,115516800.0
CS028414000014,2017-07-12 00:00:00+00:00,2015-07-11 00:00:00+00:00,63244800.0
CS025415000050,2018-08-21 00:00:00+00:00,2016-01-31 00:00:00+00:00,80611200.0
CS003515000195,2019-06-05 00:00:00+00:00,2015-03-06 00:00:00+00:00,134092800.0
CS024514000042,2018-12-05 00:00:00+00:00,2015-10-10 00:00:00+00:00,99532800.0
CS040415000178,2019-09-22 00:00:00+00:00,2015-06-27 00:00:00+00:00,133747200.0
CS027514000015,2019-10-10 00:00:00+00:00,2015-11-01 00:00:00+00:00,124329600.0
CS025415000134,2019-09-18 00:00:00+00:00,2015-07-20 00:00:00+00:00,131414400.0
CS021515000126,2017-10-10 00:00:00+00:00,2015-05-08 00:00:00+00:00,76550400.0


---
> S-074: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、当該週の月曜日付とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値でデータを保持している点に注意）。

In [86]:
%%sql
SELECT
    customer_id,
    -- 売上日
    to_date(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD') AS 売上日,
    -- 当該の月曜日からの経過日数
    -- DOW
    EXTRACT(ISODOW FROM (to_date(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD'))) - 1 AS elapsed_years,
    -- 当該週の月曜日の日付
    to_date(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD') 
        - CAST(EXTRACT(DOW FROM (to_date(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD') - 1))  AS INTEGER) AS MONday
FROM
    receipt
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,売上日,elapsed_years,monday
CS006214000001,2018-11-03,5.0,2018-10-29
CS008415000097,2018-11-18,6.0,2018-11-12
CS028414000014,2017-07-12,2.0,2017-07-10
ZZ000000000000,2019-02-05,1.0,2019-02-04
CS025415000050,2018-08-21,1.0,2018-08-20
CS003515000195,2019-06-05,2.0,2019-06-03
CS024514000042,2018-12-05,2.0,2018-12-03
CS040415000178,2019-09-22,6.0,2019-09-16
ZZ000000000000,2017-05-04,3.0,2017-05-01
CS027514000015,2019-10-10,3.0,2019-10-07


---
> S-075: 顧客テーブル（customer）からランダムに1%のデータを抽出し、先頭から10件データを抽出せよ。 

In [87]:
%%sql
SELECT
    *
FROM
    customer
WHERE
    RANDOM() <= 0.01
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS009413000079,市川 コウ,1,女性,1975-12-28,43,158-0093,東京都世田谷区上野毛**********,S13009,20151209,0-00000000-0
CS004503000022,釈 三郎,0,男性,1965-06-17,53,165-0032,東京都中野区鷺宮**********,S13004,20150314,0-00000000-0
CS029402000041,浅利 俊二,0,男性,1975-08-15,43,134-0013,東京都江戸川区江戸川**********,S12029,20150220,0-00000000-0
CS033714000020,玉木 遥,1,女性,1942-06-28,76,241-0825,神奈川県横浜市旭区中希望が丘**********,S14033,20150624,0-00000000-0
CS034212000044,相原 ちえみ,1,女性,1997-06-26,21,223-0066,神奈川県横浜市港北区高田西**********,S14034,20160106,0-00000000-0
CS004402000153,岩本 栄一,0,男性,1969-10-20,49,171-0051,東京都豊島区長崎**********,S13004,20170929,0-00000000-0
CS004702000011,西本 右京,0,男性,1939-09-22,79,176-0003,東京都練馬区羽沢**********,S13004,20141127,0-00000000-0
CS001614000199,岩沢 美和子,1,女性,1955-10-10,63,144-0054,東京都大田区新蒲田**********,S13001,20161230,0-00000000-0
CS005401000001,吉野 聖陽,0,男性,1973-11-11,45,177-0045,東京都練馬区石神井台**********,S13005,20160123,0-00000000-0
CS011713000018,矢口 七世,1,女性,1946-10-22,72,223-0065,神奈川県横浜市港北区高田東**********,S14011,20150227,0-00000000-0


---
> S-076:  顧客テーブル（customer）から性別（gender_cd）の割合に基づきランダムに10%のデータを層化抽出データし、性別ごとに件数を集計せよ。

▲やりなおし　ランダム抽出の仕方まったくわからない。処理がおもすぎて動かないのでスルーする。

In [88]:
%%sql


UsageError: %%sql is a cell magic, but the cell body is empty. Did you mean the line magic %sql (single %)?


---
> S-077: レシート明細テーブル（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を平均から3σ以上離れたものとする。結果は10件表示させれば良い。

In [102]:
%%sql
WITH sales_amount as (
    SELECT
        customer_id,
        SUM(amount) as sum_amount
    FROM
        receipt
    WHERE
        customer_id NOT LIKE 'Z%'
    GROUP BY
        customer_id
),
sales_static as (
    SELECT
        AVG(sum_amount) AS avg_amount,
        STDDEV_SAMP(sum_amount) AS std_amount
    FROM
        sales_amount
)

SELECT
    customer_id,
    sum_amount
FROM
    sales_amount
CROSS JOIN
    sales_static
WHERE
    sum_amount >= avg_amount + 3 * std_amount
    OR
    sum_amount <= avg_amount - 3 * std_amount
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount
CS021514000008,12839
CS022515000065,12903
CS007514000094,15735
CS015515000034,15300
CS026414000039,12944
CS018414000065,12313
CS011415000006,16094
CS011414000012,11432
CS021515000172,13974
CS031414000028,11743


---
> S-078: レシート明細テーブル（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第一四分位と第三四分位の差であるIQRを用いて、「第一四分位数-1.5×IQR」よりも下回るもの、または「第三四分位数+1.5×IQR」を超えるものとする。結果は10件表示させれば良い。

In [107]:
%%sql
WITH sales_amount AS (
    SELECT
        customer_id,
        SUM(amount) AS sum_amount
    FROM
        receipt
    WHERE
        customer_id NOT LIKE 'Z%'
    GROUP BY
        customer_id
),
-- 統計量の計算
sales_limit AS (
    SELECT
        PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY sum_amount) AS cnt_1,
        PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY sum_amount) AS cnt_3
    FROM
        sales_amount
)

SELECT
    customer_id,
    sum_amount
FROM
    sales_amount
CROSS JOIN
    sales_limit
WHERE
    sum_amount <= cnt_1 - (cnt_3 - cnt_1) * 1.5
    OR
    sum_amount >= cnt_3 + (cnt_3 - cnt_1) * 1.5    
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount
CS013415000226,8362
CS011415000041,9454
CS014514000004,8872
CS021514000008,12839
CS014515000007,9763
CS040415000220,10158
CS028415000161,8465
CS034515000173,10074
CS022515000065,12903
CS007514000094,15735


---
> S-079: 商品テーブル（product）の各項目に対し、欠損数を確認せよ。

In [110]:
%%sql
select * from product limit 2;

 * postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
P040101001,4,401,40101,198,149
P040101002,4,401,40101,218,164


In [113]:
%%sql
SELECT
    SUM(CASE WHEN product_cd IS NULL THEN 1 ELSE 0 END) AS product_cd,
    SUM(CASE WHEN category_major_cd IS NULL THEN 1 ELSE 0 END) AS category_major_cd,
    SUM(CASE WHEN category_medium_cd IS NULL THEN 1 ELSE 0 END) AS category_medium_cd,
    SUM(CASE WHEN category_small_cd IS NULL THEN 1 ELSE 0 END) AS category_small_cd,
    SUM(CASE WHEN unit_price IS NULL THEN 1 ELSE 0 END) AS unit_price,
    SUM(CASE WHEN unit_cost IS NULL THEN 1 ELSE 0 END) AS unit_cost
FROM
    product
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
0,0,0,0,7,7


---
> S-080: 商品テーブル（product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たなproduct_1を作成せよ。なお、削除前後の件数を表示させ、前設問で確認した件数だけ減少していることも確認すること。

In [127]:
%%sql
-- 削除前のproduct件数
SELECT COUNT(*) FROM product; -- 10030

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
10030


In [133]:
%%sql
-- NULLがある行を削除する
DROP TABLE IF EXISTS product_1

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.


[]

In [134]:
%%sql
-- テーブルの作成
CREATE TABLE product_1 AS (
SELECT *
FROM
    product
WHERE
    product_cd IS NOT NULL
    AND
    category_major_cd IS NOT NULL
    AND
    category_medium_cd IS NOT NULL
    AND
    category_small_cd IS NOT NULL
    AND
    unit_price IS NOT NULL
    AND
    unit_cost IS NOT NULL
)    

 * postgresql://padawan:***@db:5432/dsdojo_db
10023 rows affected.


[]

In [135]:
%%sql
-- テーブルのレコード数を確認
SELECT COUNT(*) FROM product_1;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
10023


7件だけ削除されて10030件から10023件まで減った。

---
> S-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たなproduct_2を作成せよ。なお、平均値について1円未満は四捨五入とする。補完実施後、各項目について欠損が生じていないことも確認すること。

In [164]:
%%sql
DROP TABLE IF EXISTS product_2;

-- NULLに値を代入する
CREATE TABLE product_2 AS (
    -- NULLに代入したい値を作成
    WITH AVGS AS (
        SELECT
            ROUND(AVG(unit_price)) AS avg_unit_price,
            ROUND(AVG(unit_cost)) AS avg_unit_cost
        FROM
            product
    )

    SELECT
        product_cd,
        category_major_cd,
        category_medium_cd,
        category_small_cd,
        COALESCE(unit_price, avg_unit_price) AS unit_price,
        COALESCE(unit_cost, avg_unit_cost) AS unit_cost
    FROM
        product
    CROSS JOIN
        AVGS
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.


[]

In [163]:
%%sql
select count(*) from product_2 limit 1;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
10030


---
> S-082:  単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たなproduct_3を作成せよ。なお、中央値について1円未満は四捨五入とする。補完実施後、各項目について欠損が生じていないことも確認すること。

In [173]:
%%sql
DROP TABLE IF EXISTS product_3;

CREATE TABLE product_3 AS (
    WITH medians AS (
        SELECT
            ROUND(PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY unit_price)) AS med_unit_price,
            ROUND(PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY unit_cost)) AS med_unit_cost
        FROM
            product
    )

    SELECT
        product_cd,
        category_major_cd,
        category_medium_cd,
        category_small_cd,
        COALESCE(unit_price, med_unit_price) AS unit_price,
        COALESCE(unit_cost, med_unit_cost) AS unit_cost
    FROM
        product
    CROSS JOIN
        medians
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.


[]

In [177]:
%%sql
-- NULL値が埋まったかどうか確認する
SELECT
    SUM(CASE WHEN unit_price IS NULL THEN 1 ELSE 0 END) AS unit_price,
    SUM(CASE WHEN unit_cost  IS NULL THEN 1 ELSE 0 END) AS unit_cost
FROM
    product_3
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


unit_price,unit_cost
0,0


---
> S-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品の小区分（category_small_cd）ごとに算出した中央値で補完した新たなproduct_4を作成せよ。なお、中央値について1円未満は四捨五入とする。補完実施後、各項目について欠損が生じていないことも確認すること。

In [187]:
%%sql

DROP TABLE IF EXISTS product_4;

CREATE TABLE product_4 AS (
    -- 欠損値を埋めるためのデータ
    WITH medians_per_category_small_cd AS (
        SELECT
            category_small_cd,
            PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY unit_price) as med_unit_price,
            PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY unit_cost ) as med_unit_cost
        FROM
            product
        GROUP BY
            category_small_cd
    )

    -- category_small_cdをキーにして欠損値を埋める
    SELECT
        product_cd,
        category_major_cd,
        category_medium_cd,
        p.category_small_cd,
        COALESCE(unit_price, med_unit_price) AS unit_price,
        COALESCE(unit_cost, med_unit_cost) AS unit_cost
    FROM
        product as p
    JOIN
        medians_per_category_small_cd as m
    ON
        p.category_small_cd = m.category_small_cd
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.


[]

In [201]:

%%sql
-- NULL値が埋まったかどうか確認する
SELECT
    SUM(CASE WHEN unit_price IS NULL THEN 1 ELSE 0 END) AS unit_price,
    SUM(CASE WHEN unit_cost  IS NULL THEN 1 ELSE 0 END) AS unit_cost
FROM
    product_3
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


unit_price,unit_cost
0,0


---
> S-084: 顧客テーブル（customer）の全顧客に対し、全期間の売上金額に占める2019年売上金額の割合を計算せよ。ただし、販売実績のない場合は0として扱うこと。そして計算した割合が0超のものを抽出せよ。 結果は10件表示させれば良い。

In [279]:
%%sql
-- 顧客一人あたりの全購買金額を取得
WITH sales_amount as (
    SELECT
        customer_id,
        SUM(amount) as sum_amount
    FROM
        receipt
    GROUP BY
        customer_id
),
-- 顧客一人あたりの年別の購買金額
sales_per_year AS (
    SELECT
        customer_id,
        EXTRACT(YEAR FROM to_timestamp(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD'))::VARCHAR AS sales_year,
        SUM(amount) as sum_amount_per_year
    FROM
        receipt
    GROUP BY
        customer_id, sales_year
    ORDER BY
        customer_id
),
-- 顧客全体と一人あたりの全購入金額
-- 一回も購入していない人も含む
sales_sum_amount_all_customer as (
    SELECT
        customer.customer_id,
        COALESCE(sum_amount, 0) as sum_amount
    FROM
        customer
    LEFT JOIN
        sales_amount
    ON customer.customer_id = sales_amount.customer_id
),

-- 更に年ごとに購入したデータをあわせる
sales_all_customers AS (
    SELECT
        sales_sum_amount_all_customer.customer_id,
        sum_amount,
        COALESCE(sales_year, '0') AS sales_year,
        COALESCE(sum_amount_per_year, 0) AS sum_amount_per_year,
        -- 全期間の売上金額に占める2019年売上金額の割合
        CASE WHEN sum_amount=0 THEN 0 ELSE sum_amount_per_year * 1.0 / sum_amount * 1.0 END AS sale_rate_year
    FROM
        sales_sum_amount_all_customer
    LEFT JOIN
        sales_per_year
    ON
        sales_sum_amount_all_customer.customer_id = sales_per_year.customer_id
    ORDER BY
        sales_sum_amount_all_customer.customer_id, sales_year
)

-- 2019年に購入した人のデータを抽出する
SELECT 
    *
FROM
    sales_all_customers
WHERE
    sales_year='2019'
    AND
    sale_rate_year > 0
    -- AND
    -- customer_id='CS031415000172'
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount,sales_year,sum_amount_per_year,sale_rate_year
CS001113000004,1298,2019,1298,1.0
CS001114000005,626,2019,188,0.3003194888178913
CS001115000010,3044,2019,578,0.1898817345597897
CS001205000004,1988,2019,702,0.3531187122736418
CS001205000006,3337,2019,486,0.1456397962241534
CS001211000025,456,2019,456,1.0
CS001212000070,456,2019,456,1.0
CS001214000009,4685,2019,664,0.1417289220917822
CS001214000017,4132,2019,2962,0.7168441432720232
CS001214000048,2374,2019,1889,0.7957034540859309


---
> S-085: 顧客テーブル（customer）の全顧客に対し、郵便番号（postal_cd）を用いて経度緯度変換用テーブル（geocode）を紐付け、新たなcustomer_1を作成せよ。ただし、複数紐づく場合は経度（longitude）、緯度（latitude）それぞれ平均を算出すること。

In [282]:
%%sql
select * from customer limit 1;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0


In [284]:
%%sql
select * from geocode limit 1;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


postal_cd,prefecture,city,town,street,address,full_address,longitude,latitude
060-0000,北海道,札幌市中央区,,,,北海道札幌市中央区,141.34103,43.05513


In [294]:
%%sql

DROP TABLE IF EXISTS customer_1;

CREATE TABLE customer_1 AS (
    -- 経度緯度変換用テーブルをpostal_cdでグループ化しておく
    WITH geocode_avg AS(
        SELECT
            postal_cd,
            AVG(longitude) AS avg_longitude,
            AVG(latitude) AS avg_latitude
        FROM
            geocode
        GROUP BY
            postal_cd
    )

    SELECT
        *
    FROM
        customer
    LEFT JOIN
        geocode_avg
    USING(postal_cd)
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
21971 rows affected.


[]

In [296]:
%%sql
select * from customer_1 limit 1;

 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


postal_cd,customer_id,customer_name,gender_cd,gender,birth_day,age,address,application_store_cd,application_date,status_cd,avg_longitude,avg_latitude
136-0076,CS037613000071,六角 雅彦,9,不明,1952-04-01,66,東京都江東区南砂**********,S13037,20150414,0-00000000-0,139.83502,35.67193


---
> S-086: 前設問で作成した緯度経度つき顧客テーブル（customer_1）に対し、申込み店舗コード（application_store_cd）をキーに店舗テーブル（store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客の緯度・経度を用いて距離（km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示すれば良い。

$$
緯度（ラジアン）：\phi \\
経度（ラジアン）：\lambda \\
距離L = 6371 * arccos(sin \phi_1 * sin \phi_2
+ cos \phi_1 * cos \phi_2 * cos(\lambda_1 − \lambda_2))
$$

In [309]:
%%sql
-- 顧客テーブルとstoreの結合
WITH customer_store AS (
    SELECT
        customer_id,
        customer_1.address AS customer_address,
        avg_longitude AS ramda_c,
        avg_latitude AS phai_c,
        store_cd,
        store.address AS store_address,
        longitude AS ramda_s,
        latitude AS phai_s
        -- 6371*acos(sin(phai_c)*sin(phai_s) + cos(phai_c)*cos(phai_s)*cos(ramda_c - ramda_s)) AS distance
    FROM
        customer_1
    JOIN
        store
    ON
        customer_1.application_store_cd = store.store_cd
)

SELECT
    customer_id,
    customer_address,
    store_cd,
    store_address,
    6371*acos(sin(RADIANS(phai_c))*sin(RADIANS(phai_s)) + cos(RADIANS(phai_c))*cos(RADIANS(phai_s))*cos(RADIANS(ramda_c) - RADIANS(ramda_s))) AS distance
FROM
    customer_store
LIMIT 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_address,store_cd,store_address,distance
CS037613000071,東京都江東区南砂**********,S13037,東京都江東区南砂一丁目,1.4511822099658445
CS031415000172,東京都渋谷区代々木**********,S13031,東京都渋谷区初台二丁目,0.4117334789298223
CS028811000001,神奈川県横浜市泉区和泉町**********,S14028,神奈川県横浜市瀬谷区二ツ橋町,8.065196026704987
CS001215000145,東京都大田区仲六郷**********,S13001,東京都大田区仲六郷二丁目,1.2684209720729689
CS015414000103,東京都江東区北砂**********,S13015,東京都江東区南砂二丁目,1.449673414532165
CS015804000004,東京都江東区北砂**********,S13015,東京都江東区南砂二丁目,1.449673414532165
CS007403000016,千葉県八千代市上高野**********,S12007,千葉県佐倉市上志津,1.920803253841905
CS035614000014,東京都世田谷区桜新町**********,S13035,東京都世田谷区用賀四丁目,1.0214681484997588
CS011215000048,神奈川県横浜市港北区日吉本町**********,S14011,神奈川県横浜市港北区日吉本町四丁目,0.8182767808775093
CS040412000191,神奈川県横浜市緑区北八朔町**********,S14040,神奈川県横浜市緑区長津田みなみ台五丁目,3.6641233580823287


---
> S-087: 顧客テーブル（customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなし、1顧客1レコードとなるように名寄せした名寄顧客テーブル（customer_u）を作成せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残すものとし、売上金額合計が同一もしくは売上実績の無い顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

▲やりなおし　　検討もつかなかった。答えがきれいにできすぎててびっくりする

In [344]:
%%sql
DROP TABLE IF EXISTS customer_u;
CREATE TABLE customer_u AS (
    
-- とりあえずもとのデータを名前と売上でまとめる
WITH sales_amount AS (
    SELECT
        c.customer_id,
        c.customer_name,
        c.postal_cd, 
        SUM(r.amount) as sum_amount
    FROM
        customer c

    LEFT JOIN
        receipt r
    ON c.customer_id = r.customer_id
    GROUP by
        c.customer_id, c.customer_name, c.postal_cd
    ORDER by
        c.customer_name desc
),
-- まとめたテーブルにランキングをつける
sales_ranking AS (
    SELECT
        *,
        ROW_NUMBER() OVER(PARTITION BY customer_name, postal_cd ORDER BY sum_amount, customer_id) AS rank
    FROM
        sales_amount
)

SELECT
    c.*
FROM
    customer as c
JOIN
    sales_ranking as r
ON
    c.customer_id = r.customer_id
    and r.rank = 1
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
21941 rows affected.


[]

In [346]:
%%sql
select * from customer_u limit 10;

 * postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS019415000213,おかやま あさみ,1,女性,1974-09-09,44,176-0002,東京都練馬区桜台**********,S13019,20150717,B-20100925-A
CS001515000060,おかやま そら,1,女性,1965-02-14,54,144-0046,東京都大田区東六郷**********,S13001,20141125,1-20090702-1
CS002515000380,おかやま ひかり,1,女性,1962-10-01,56,185-0011,東京都国分寺市本多**********,S13002,20161018,8-20100706-7
CS002612000263,おかやま まひる,1,女性,1955-12-15,63,185-0012,東京都国分寺市本町**********,S13002,20171017,0-00000000-0
CS007713000059,おかやま まひる,1,女性,1940-01-30,79,285-0858,千葉県佐倉市ユーカリが丘**********,S12007,20150406,0-00000000-0
CS028314000010,おかやま まみ,1,女性,1985-09-12,33,241-0826,神奈川県横浜市旭区東希望が丘**********,S14028,20150507,A-20090221-5
CS024114000006,おかやま めぐみ,1,女性,2002-05-27,16,214-0038,神奈川県川崎市多摩区生田**********,S14024,20150603,5-20090503-4
CS025413000064,おかやま 一恵,1,女性,1970-05-06,48,242-0024,神奈川県大和市福田**********,S14025,20150411,2-20090920-4
CS039415000296,おかやま 京子,1,女性,1971-07-17,47,167-0051,東京都杉並区荻窪**********,S13039,20170802,0-00000000-0
CS003415000694,おかやま 倫子,1,女性,1972-03-30,47,182-0022,東京都調布市国領町**********,S13003,20170914,0-00000000-0


---
> S-088: 前設問で作成したデータを元に、顧客テーブルに統合名寄IDを付与したテーブル（customer_n）を作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
>- 重複していない顧客：顧客ID（customer_id）を設定
>- 重複している顧客：前設問で抽出したレコードの顧客IDを設定

▲やりなおし　JOINの条件に２つあることで重複している顧客をしぼっている

In [348]:
%%sql
DROP TABLE IF EXISTS customer_n;
CREATE TABLE customer_n AS (
    SELECT 
        c.*, 
        u.customer_id as integration_id
    FROM 
        customer c
    JOIN
        customer_u u
    ON c.customer_name = u.customer_name
        and c.postal_cd = u.postal_cd
)

 * postgresql://padawan:***@db:5432/dsdojo_db
Done.
21971 rows affected.


[]

---
> S-089: 売上実績のある顧客に対し、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムに分割し、テーブルを作成せよ。

▲やりなおし　あたまがいい。ランダム値を降って行数×0.8でデータの8割をランダムに取得する方法は覚えておきたい。

In [360]:
%%sql

SELECT SETSEED(0.1);

-- 購入履歴のある顧客をあつめてランダムに数字をつけ昇順に並べた
-- create tempは一時テーブルなのでセッションとともに消える
CREATE TEMP TABLE IF NOT EXISTS sales_record_customer_id AS(
    SELECT customer_id, ROW_NUMBER() OVER(order by RANDOM()) as ROW
    FROM customer
    LEFT JOIN receipt USING(customer_id)
    GROUP BY customer_id
    HAVING SUM(amount) IS NOT NULL
);

-- 訓練データ
DROP TABLE IF EXISTS customer_train;
-- 訓練データはcustomer_idをランダムに取得して
-- もとのテーブルから引っ張ることで作成する
-- rowはランダムに降った数字なので単純に行数の8割以下のrow値の行をもってこれば
-- ランダムに取得したことになる
CREATE TABLE customer_train AS
-- customer テーブルのものを全部selectする
SELECT customer.*
FROM sales_record_customer_id
LEFT JOIN customer USING(customer_id)
WHERE sales_record_customer_id.row < (SELECT COUNT(*) FROM sales_record_customer_id) * 0.8;

-- テストデータ
DROP TABLE IF EXISTS customer_test;
-- テストデータは訓練データ以外
CREATE TABLE customer_test AS
-- customer テーブルのものを全部selectする
SELECT customer.*
FROM sales_record_customer_id
LEFT JOIN customer USING(customer_id)
EXCEPT
SELECT * FROM customer_train;


 * postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.
Done.
Done.
6644 rows affected.
Done.
1662 rows affected.


[]

---
> S-090: レシート明細テーブル（receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月のモデル構築用データを3テーブルとしてセット作成せよ。データの持ち方は自由とする。

In [379]:
%%sql
select * from receipt limit 2;

-- sales_ymdから年月別の売上金額の集計をおこなう
SELECT
    EXTRACT(YEAR FROM to_date(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD'))::INTEGER AS sales_year,
    EXTRACT(MONTH FROM to_date(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD'))::INTEGER AS sales_month,
    SUM(amount)
FROM
    receipt
GROUP BY
    sales_year, sales_month
ORDER BY
    sales_year, sales_month
LIMIT 50;

 * postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.
34 rows affected.


sales_year,sales_month,sum
2017,1,902056
2017,2,764413
2017,3,962945
2017,4,847566
2017,5,884010
2017,6,894242
2017,7,959205
2017,8,954836
2017,9,902037
2017,10,905739


---
> S-091: 顧客テーブル（customer）の各顧客に対し、売上実績のある顧客数と売上実績のない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [None]:
%%sql


---
> S-092: 顧客テーブル（customer）では、性別に関する情報が非正規化の状態で保持されている。これを第三正規化せよ。

In [None]:
%%sql


---
> S-093: 商品テーブル（product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリテーブル（category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品テーブルを作成せよ。

In [None]:
%%sql


---
> S-094: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは'/tmp/data'を指定することでJupyterの/'work/data'と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-095: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは'/tmp/data'を指定することでJupyterの/'work/data'と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはSJIS

In [None]:
%%sql


---
> S-096: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは'/tmp/data'を指定することでJupyterの/'work/data'と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-097: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-098: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-099: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは'/tmp/data'を指定することでJupyterの/'work/data'と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


---
> S-100: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭10件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

In [None]:
%%sql


# これで１００本終わりです。おつかれさまでした！