# データサイエンス100本ノック（構造化データ加工編） - SQL

## はじめに
- データベースはPostgreSQL13です
- 初めに以下のセルを実行してください
- セルに %%sql と記載することでSQLを発行することができます
- jupyterからはdescribeコマンドによるテーブル構造の確認ができないため、テーブル構造を確認する場合はlimitを指定したSELECTなどで代用してください
- 使い慣れたSQLクライアントを使っても問題ありません（接続情報は以下の通り）
  - IPアドレス：Docker Desktopの場合はlocalhost、Docker toolboxの場合は192.168.99.100
  - Port:5432
  - database名: dsdojo_db
  - ユーザ名：padawan
  - パスワード:padawan12345
- 大量出力を行うとJupyterが固まることがあるため、出力件数は制限することを推奨します（設問にも出力件数を記載）
    - 結果確認のために表示させる量を適切にコントロールし、作業を軽快にすすめる技術もデータ加工には求められます
- 大量結果が出力された場合は、ファイルが重くなり以降開けなくなることもあります
    - その場合、作業結果は消えますがファイルをGitHubから取り直してください
    - vimエディタなどで大量出力範囲を削除することもできます
- 名前、住所等はダミーデータであり、実在するものではありません

In [2]:
%load_ext sql
import os
from sqlalchemy import create_engine

pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}
dsl = 'postgresql://{user}:{password}@{host}:{port}/{database}'.format(**pgconfig)
conn = create_engine(dsl)

# MagicコマンドでSQLを書くための設定
%sql conn

[33mThere's a new jupysql version available (0.10.10), you're running 0.7.2. To upgrade: pip install jupysql --upgrade[0m


# 使い方
- セルの先頭に%%sqlと記載し、２行目以降にSQLを記述することでJupyterからPostgreSQLに対しSQLを実行できます。

In [2]:
%%sql
SELECT 'このように実行できます' AS sample;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sample
このように実行できます


# データ加工100本ノック

---
> S-001: レシート明細データ（receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [3]:
%%sql
select * from receipt limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680


---
> S-002: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。

In [6]:
%%sql
select sales_ymd, customer_id, product_cd, amount from receipt limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-003: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。ただし、sales_ymdをsales_dateに項目名を変更しながら抽出すること。

In [7]:
%%sql
select sales_ymd sales_date, customer_id, product_cd, amount from receipt limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_date,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-004: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [10]:
%%sql
select sales_ymd, customer_id, product_cd, amount from receipt where customer_id = 'CS018205000001';

*  postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-005: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [11]:
%%sql
select sales_ymd, customer_id, product_cd, amount from receipt where (customer_id ='CS018205000001' and amount >= 1000);

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-006: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [12]:
%%sql
select sales_ymd, customer_id, product_cd, quantity, amount from receipt where (customer_id = 'CS018205000001' and (amount >=1000 or quantity >= 5));

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


sales_ymd,customer_id,product_cd,quantity,amount
20180911,CS018205000001,P071401012,1,2200
20180414,CS018205000001,P060104007,6,600
20170614,CS018205000001,P050206001,5,990
20190226,CS018205000001,P071401020,1,2200
20180911,CS018205000001,P071401005,1,1100


---
> S-007: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [15]:
%%sql
select sales_ymd, customer_id, product_cd, amount from receipt where (customer_id = 'CS018205000001' and (amount between 1000 and 2000));

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401005,1100


---
> S-008: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [16]:
%%sql
select sales_ymd, customer_id, product_cd, amount from receipt where customer_id = 'CS018205000001' and product_cd <> 'P071401019';


*  postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。
>
> `SELECT * FROM store WHERE NOT (prefecture_cd = '13' OR floor_area > 900)`

In [17]:
%%sql
SELECT * FROM store WHERE (prefecture_cd != '13' and floor_area <= 900)

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> S-010: 店舗データ（store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件表示せよ。

In [5]:
%%sql
select * from store where store_cd like 'S14%' limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,139.5789,35.29642,1838.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0


---
> S-011: 顧客データ（customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件表示せよ。

In [27]:
%%sql
select * from customer where customer_id like '%1' limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS028314000011,小菅 あおい,1,女性,1983-11-26,35,246-0038,神奈川県横浜市瀬谷区宮沢**********,S14028,20151123,1-20080426-5
CS039212000051,藤島 恵梨香,1,女性,1997-02-03,22,166-0001,東京都杉並区阿佐谷北**********,S13039,20171121,1-20100215-4
CS015412000111,松居 奈月,1,女性,1972-10-04,46,136-0071,東京都江東区亀戸**********,S13015,20150629,0-00000000-0
CS004702000041,野島 洋,0,男性,1943-08-24,75,176-0022,東京都練馬区向山**********,S13004,20170218,0-00000000-0
CS041515000001,栗田 千夏,1,女性,1967-01-02,52,206-0001,東京都多摩市和田**********,S13041,20160422,E-20100803-F
CS029313000221,北条 ひかり,1,女性,1987-06-19,31,279-0011,千葉県浦安市美浜**********,S12029,20180810,0-00000000-0
CS034312000071,望月 奈央,1,女性,1980-09-20,38,213-0026,神奈川県川崎市高津区久末**********,S14034,20160106,0-00000000-0


---
> S-012: 店舗データ（store）から、住所 (address) に"横浜市"が含まれるものだけ全項目表示せよ。

In [29]:
%%sql
select * from store where address like '%横浜市%';

*  postgresql://padawan:***@db:5432/dsdojo_db
11 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,139.5758,35.54912,1657.0
S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,139.6593,35.43894,1044.0


---
> S-013: 顧客データ（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件表示せよ。

In [6]:
%%sql
select * from customer where status_cd ~ '^[A-F]' limit 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS029415000023,梅田 里穂,1,女性,1976-01-17,43,279-0043,千葉県浦安市富士見**********,S12029,20150610,D-20100918-E
CS035415000029,寺沢 真希,9,不明,1977-09-27,41,158-0096,東京都世田谷区玉川台**********,S13035,20141220,F-20101029-F
CS031415000106,宇野 由美子,1,女性,1970-02-26,49,151-0053,東京都渋谷区代々木**********,S13031,20150201,F-20100511-E
CS029215000025,石倉 美帆,1,女性,1993-09-28,25,279-0022,千葉県浦安市今川**********,S12029,20150708,B-20100820-C
CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F



> S-014: 顧客データ（customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [7]:
%%sql
select * from customer where status_cd ~ '[1-9]$' limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS009315000023,皆川 文世,1,女性,1980-04-15,38,154-0012,東京都世田谷区駒沢**********,S13009,20150319,5-20080322-1
CS015315000033,福士 璃奈子,1,女性,1983-03-17,36,135-0043,東京都江東区塩浜**********,S13015,20141024,4-20080219-3
CS023513000066,神戸 そら,1,女性,1961-12-17,57,210-0005,神奈川県川崎市川崎区東田町**********,S14023,20150915,5-20100524-9
CS035513000134,市川 美帆,1,女性,1960-03-27,59,156-0053,東京都世田谷区桜**********,S13035,20150227,8-20100711-9
CS001515000263,高松 夏空,1,女性,1962-11-09,56,144-0051,東京都大田区西蒲田**********,S13001,20160812,1-20100804-1
CS040314000027,鶴田 きみまろ,9,不明,1986-03-26,33,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150122,2-20080426-4


---
> S-015: 顧客データ（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [41]:
%%sql
select * from customer where status_cd ~ '^[A-F]' and status_cd ~ '[1-9]$' limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS022513000105,島村 貴美子,1,女性,1962-03-12,57,249-0002,神奈川県逗子市山の根**********,S14022,20150320,A-20091115-7
CS001515000096,水野 陽子,9,不明,1960-11-29,58,144-0053,東京都大田区蒲田本町**********,S13001,20150614,A-20100724-7
CS013615000053,西脇 季衣,1,女性,1953-10-18,65,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150128,B-20100329-6
CS020412000161,小宮 薫,1,女性,1974-05-21,44,174-0042,東京都板橋区東坂下**********,S13020,20150822,B-20081021-3
CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
CS035212000007,内村 恵梨香,1,女性,1990-12-04,28,152-0023,東京都目黒区八雲**********,S13035,20151013,B-20101018-6
CS002515000386,野田 コウ,1,女性,1963-05-30,55,185-0013,東京都国分寺市西恋ケ窪**********,S13002,20160410,C-20100127-8
CS001615000372,稲垣 寿々花,1,女性,1956-10-29,62,144-0035,東京都大田区南蒲田**********,S13001,20170403,A-20100104-1
CS032512000121,松井 知世,1,女性,1962-09-04,56,210-0011,神奈川県川崎市川崎区富士見**********,S13032,20150727,A-20100103-5


---
> S-016: 店舗データ（store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [8]:
%%sql
select * from store where tel_no ~ '^[0-9]{3}-[0-9]{3}-[0-9]{4}$' limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S13052,森野店,13,東京都,東京都町田市森野三丁目,トウキョウトマチダシモリノサンチョウメ,042-123-4030,139.4383,35.55293,1087.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0


---
> S-017: 顧客データ（customer）を生年月日（birth_day）で高齢順にソートし、先頭から全項目を10件表示せよ。

In [47]:
%%sql
select * from customer order by birth_day limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0
CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0


---
> S-018: 顧客データ（customer）を生年月日（birth_day）で若い順にソートし、先頭から全項目を10件表示せよ。

In [48]:
%%sql
select * from customer order by birth_day desc limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS035114000004,大村 美里,1,女性,2007-11-25,11,156-0053,東京都世田谷区桜**********,S13035,20150619,6-20091205-6
CS022103000002,福山 はじめ,9,不明,2007-10-02,11,249-0006,神奈川県逗子市逗子**********,S14022,20160909,0-00000000-0
CS002113000009,柴田 真悠子,1,女性,2007-09-17,11,184-0014,東京都小金井市貫井南町**********,S13002,20160304,0-00000000-0
CS004115000014,松井 京子,1,女性,2007-08-09,11,165-0031,東京都中野区上鷺宮**********,S13004,20161120,1-20081231-1
CS002114000010,山内 遥,1,女性,2007-06-03,11,184-0015,東京都小金井市貫井北町**********,S13002,20160920,6-20100510-1
CS025115000002,小柳 夏希,1,女性,2007-04-18,11,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20160116,D-20100913-D
CS002113000025,広末 まなみ,1,女性,2007-03-30,12,184-0015,東京都小金井市貫井北町**********,S13002,20171030,0-00000000-0
CS033112000003,長野 美紀,1,女性,2007-03-22,12,245-0051,神奈川県横浜市戸塚区名瀬町**********,S14033,20150606,0-00000000-0
CS007115000006,福岡 瞬,1,女性,2007-03-10,12,285-0845,千葉県佐倉市西志津**********,S12007,20151118,F-20101016-F
CS014113000008,矢口 莉緒,1,女性,2007-03-05,12,260-0041,千葉県千葉市中央区東千葉**********,S12014,20150622,3-20091108-6


---
> S-019: レシート明細データ（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [10]:
%%sql
select customer_id, amount, rank() over(order by amount desc) from receipt limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,rank
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,4
ZZ000000000000,5480,4
ZZ000000000000,5440,7
CS021515000089,5440,7
ZZ000000000000,5280,9
CS001412000160,5280,9


---
> S-020: レシート明細データ（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [11]:
%%sql
select customer_id, amount, ROW_NUMBER() over(order by amount desc) from receipt limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,row_number
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,5
ZZ000000000000,5480,6
ZZ000000000000,5440,7
CS021515000089,5440,8
CS020414000081,5280,9
CS001412000160,5280,10


---
> S-021: レシート明細データ（receipt）に対し、件数をカウントせよ。

In [59]:
%%sql
select count(1) from receipt

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
104681


---
> S-022: レシート明細データ（receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [60]:
%%sql
select count(distinct customer_id) from receipt;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
8307


---
> S-023: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [63]:
%%sql
select store_cd, sum(amount) sum_amount, sum(quantity) sum_quantity from receipt group by store_cd;

*  postgresql://padawan:***@db:5432/dsdojo_db
52 rows affected.


store_cd,sum_amount,sum_quantity
S12007,638761,2099
S13017,748221,2376
S13043,587895,1881
S13052,100314,250
S13016,793773,2432
S14027,714550,2303
S13009,808870,2486
S14022,651328,2047
S13019,827833,2541
S13039,611888,1981


---
> S-024: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）を求め、10件表示せよ。

In [71]:
%%sql
select customer_id, max(sales_ymd) newest_sales_ymd from receipt group by customer_id limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,newest_sales_ymd
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20180621
CS007515000119,20190511
CS034515000123,20190708
CS004315000058,20170517
CS026414000014,20190720
CS001615000099,20170729


---
> S-025: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も古い売上年月日（sales_ymd）を求め、10件表示せよ。

In [73]:
%%sql
select customer_id, min(sales_ymd) from receipt group by customer_id limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,min
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20170318
CS007515000119,20170201
CS034515000123,20170527
CS004315000058,20170517
CS026414000014,20170718
CS001615000099,20170729


---
> S-026: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）と古い売上年月日を求め、両者が異なるデータを10件表示せよ。

In [78]:
%%sql
select customer_id, max(sales_ymd) newest_sales_ymd, min(sales_ymd) oldest_sales_ymd from receipt group by customer_id having max(sales_ymd) <> min(sales_ymd) limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,newest_sales_ymd,oldest_sales_ymd
CS029212000033,20180621,20170318
CS007515000119,20190511,20170201
CS034515000123,20190708,20170527
CS026414000014,20190720,20170718
CS010515000082,20181204,20180518
CS019315000045,20170920,20170423
CS008513000099,20190308,20170722
CS007615000070,20191025,20170929
CS025415000155,20191026,20170314
CS016414000063,20190617,20170109


---
> S-027: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [83]:
%%sql
select store_cd, avg(amount) AVE_amount from receipt group by store_cd order by avg(amount) desc limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,ave_amount
S13052,402.86746987951807
S13015,351.11196043165467
S13003,350.9155188246097
S14010,348.79126213592235
S13001,348.4703862660944
S13020,337.879932117098
S14011,335.7183333333333
S14026,332.34058847239015
S13004,330.943949044586
S13019,330.2086158755485


---
> S-028: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [13]:
%%sql
select store_cd, percentile_cont(0.5) within group(order by amount) as median from receipt group by store_cd order by percentile_cont(0.5) within group(order by amount) desc limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,median
S13052,190.0
S14010,188.0
S14050,185.0
S13003,180.0
S13018,180.0


---
> S-029: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求め、10件表示させよ。

In [98]:
%%sql
select store_cd, mode() within group(order by product_cd) from receipt group by store_cd limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,mode
S12007,P060303001
S12013,P060303001
S12014,P060303001
S12029,P060303001
S12030,P060303001
S13001,P060303001
S13002,P060303001
S13003,P071401001
S13004,P060303001
S13005,P040503001


---
> S-030: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の分散を計算し、降順で5件表示せよ。

In [104]:
%%sql


select store_cd, VAR_POP(amount) STD from receipt group by store_cd order by STD desc limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,std
S13052,440088.7013112692
S14011,306314.55816388887
S14034,296920.08101128385
S13001,295431.9933290353
S13015,295294.3611159409


---
> S-031: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標準偏差を計算し、降順で5件表示せよ。

In [105]:
%%sql
select store_cd, stddev_pop(amount) stddev from receipt group by store_cd order by stddev desc limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,stddev
S13052,663.391815830787
S14011,553.456916267101
S14034,544.903735545357
S13001,543.536561170484
S13015,543.409938366921


---
> S-032: レシート明細データ（receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [107]:
%%sql
select 
    percentile_cont(0.25) within group (order by amount) percentile_25per,
    percentile_cont(0.5) within group (order by amount) percentile_50per,
    percentile_cont(0.75) within group (order by amount) percentile_75per,
    percentile_cont(1.00) within group (order by amount) percentile_100per
from receipt

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


percentile_25per,percentile_50per,percentile_75per,percentile_100per
102.0,170.0,288.0,10925.0


---
> S-033: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [110]:
%%sql
select store_cd, avg(amount) as avg_amount from receipt group by store_cd having avg(amount) >= 330;

*  postgresql://padawan:***@db:5432/dsdojo_db
13 rows affected.


store_cd,avg_amount
S13052,402.86746987951807
S13019,330.2086158755485
S13003,350.9155188246097
S14045,330.0820734341253
S13004,330.943949044586
S13001,348.4703862660944
S14026,332.34058847239015
S14010,348.79126213592235
S13015,351.11196043165467
S12013,330.19412997903567


---
> S-034: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [119]:
%%sql

with customer_amount as (
    select 
        customer_id, 
        sum(amount) as sum_amount 
    from receipt
    where customer_id not like 'Z%'
    group by customer_id
)

select 
    avg(sum_amount) as avg_all_customer_amount
from customer_amount;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


avg_all_customer_amount
2547.742234529256


---
> S-035: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出し、10件表示せよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [121]:
%%sql

WITH customer_amount AS (
    SELECT
        customer_id,
        SUM(amount) AS sum_amount
    FROM receipt
    WHERE
        customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
)
SELECT
    customer_id,
    sum_amount
FROM customer_amount
WHERE
    sum_amount >= (
        SELECT
            AVG(sum_amount)
        FROM customer_amount
    )
LIMIT 10
;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount
CS029212000033,3604
CS007515000119,7157
CS034515000123,3699
CS026414000014,6671
CS007615000070,2975
CS016414000063,6207
CS012514000018,2562
CS029515000142,3420
CS015215000021,3090
CS039814000011,8031


---
> S-036: レシート明細データ（receipt）と店舗データ（store）を内部結合し、レシート明細データの全項目と店舗データの店舗名（store_name）を10件表示せよ。

In [126]:
%%sql
select r.*, s.store_name from receipt r join store s using(store_cd) limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158,葛が谷店
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81,成城店
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170,二ツ橋店
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25,新山下店
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90,大和店
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138,狛江店
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30,三田店
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128,長津田店
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770,十条仲原店
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680,南藤沢店


In [131]:
%%sql

select * from product limit 10;



*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
P040101001,4,401,40101,198,149
P040101002,4,401,40101,218,164
P040101003,4,401,40101,230,173
P040101004,4,401,40101,248,186
P040101005,4,401,40101,268,201
P040101006,4,401,40101,298,224
P040101007,4,401,40101,338,254
P040101008,4,401,40101,420,315
P040101009,4,401,40101,498,374
P040101010,4,401,40101,580,435


---
> S-037: 商品データ（product）とカテゴリデータ（category）を内部結合し、商品データの全項目とカテゴリデータのカテゴリ小区分名（category_small_name）を10件表示せよ。

In [132]:
%%sql

select p.*, c.category_small_cd from product p join category c using(category_small_cd) limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_small_cd_1
P040101001,4,401,40101,198,149,40101
P040101002,4,401,40101,218,164,40101
P040101003,4,401,40101,230,173,40101
P040101004,4,401,40101,248,186,40101
P040101005,4,401,40101,268,201,40101
P040101006,4,401,40101,298,224,40101
P040101007,4,401,40101,338,254,40101
P040101008,4,401,40101,420,315,40101
P040101009,4,401,40101,498,374,40101
P040101010,4,401,40101,580,435,40101


---
> S-038: 顧客データ（customer）とレシート明細データ（receipt）から、顧客ごとの売上金額合計を求め、10件表示せよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [136]:
%%sql

select * from customer limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C


In [137]:
%%sql

select * from receipt limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170


In [142]:
%%sql

with sum_amount as (
    select
        customer_id,
        sum(amount) as sum_amount_per_customer
    from receipt
    group by customer_id
),
customer_view as (
    select
        customer_id
    from customer
    where gender = '女性' and customer_id not like 'Z%'
)

select
    c.customer_id,
    COALESCE(s.sum_amount_per_customer, 0) as Amount
from customer_view c left outer join sum_amount s
on c.customer_id = s.customer_id
limit 10;
    

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount
CS021313000114,0
CS031415000172,5088
CS028811000001,0
CS001215000145,875
CS015414000103,3122
CS033513000180,868
CS035614000014,0
CS011215000048,3444
CS009413000079,0
CS040412000191,210


---
> S-039: レシート明細データ（receipt）から、売上日数の多い顧客の上位20件を抽出したデータと、売上金額合計の多い顧客の上位20件を抽出したデータをそれぞれ作成し、さらにその2つを完全外部結合せよ。ただし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [144]:
%%sql

WITH customer_data AS (
    select
        customer_id,
        sales_ymd,
        amount
    FROM receipt
    WHERE
        customer_id NOT LIKE 'Z%'
),
customer_days AS (
    select
        customer_id,
        COUNT(DISTINCT sales_ymd) come_days
    FROM customer_data
    GROUP BY
        customer_id
    ORDER BY
        come_days DESC
    LIMIT 20
),
customer_amount AS (
    SELECT
        customer_id,
        SUM(amount) buy_amount
    FROM customer_data
    GROUP BY
        customer_id
    ORDER BY
        buy_amount DESC
    LIMIT 20
)
SELECT
    COALESCE(d.customer_id, a.customer_id) customer_id,
    d.come_days,
    a.buy_amount
FROM customer_days d
FULL OUTER JOIN customer_amount a
ON
    d.customer_id = a.customer_id
;

*  postgresql://padawan:***@db:5432/dsdojo_db
34 rows affected.


customer_id,come_days,buy_amount
CS040214000008,23.0,
CS015415000185,22.0,20153.0
CS010214000010,22.0,18585.0
CS028415000007,21.0,19127.0
CS010214000002,21.0,
CS017415000097,20.0,23086.0
CS016415000141,20.0,18372.0
CS021514000045,19.0,
CS022515000226,19.0,
CS031414000051,19.0,19202.0


---
> S-040: 全ての店舗と全ての商品を組み合わせたデータを作成したい。店舗データ（store）と商品データ（product）を直積し、件数を計算せよ。

In [145]:
%%sql
select count(1) from store cross join product;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
531590


---
> S-041: レシート明細データ（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前回売上があった日からの売上金額増減を計算せよ。そして結果を10件表示せよ。

In [150]:
%%sql

with group_ymd as (
    select
        sales_ymd,
        sum(amount) as sum_amount
    from receipt
    group by sales_ymd
    order by sales_ymd
),
lag_view as (
    select
        sales_ymd,
        sum_amount,
        lag(sum_amount, 1) over(order by sales_ymd) as lag_amount
    from group_ymd
)

select 
    sales_ymd,
    sum_amount,
    lag_amount,
    (sum_amount - lag_amount) as diff_amount
from lag_view
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sum_amount,lag_amount,diff_amount
20170101,33723,,
20170102,24165,33723.0,-9558.0
20170103,27503,24165.0,3338.0
20170104,36165,27503.0,8662.0
20170105,37830,36165.0,1665.0
20170106,32387,37830.0,-5443.0
20170107,23415,32387.0,-8972.0
20170108,24737,23415.0,1322.0
20170109,26718,24737.0,1981.0
20170110,20143,26718.0,-6575.0


---
> S-042: レシート明細データ（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、前回、前々回、3回前に売上があった日のデータを結合せよ。そして結果を10件表示せよ。

In [155]:
%%sql

with group_ymd as (
    select
        sales_ymd,
        sum(amount) as sum_amount
    from receipt
    group by sales_ymd
),
lag_amount as (
    select
        sales_ymd,
        sum_amount,
        lag(sum_amount, 1) over(order by sales_ymd) as lag1_amount,
        lag(sum_amount, 2) over(order by sales_ymd) as lag2_amount,
        lag(sum_amount, 3) over(order by sales_ymd) as lag3_amount
    from group_ymd
)

select 
    sales_ymd,
    sum_amount,
    lag1_amount,
    lag2_amount,
    lag3_amount
from lag_amount
where lag3_amount is not Null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sum_amount,lag1_amount,lag2_amount,lag3_amount
20170104,36165,27503,24165,33723
20170105,37830,36165,27503,24165
20170106,32387,37830,36165,27503
20170107,23415,32387,37830,36165
20170108,24737,23415,32387,37830
20170109,26718,24737,23415,32387
20170110,20143,26718,24737,23415
20170111,24287,20143,26718,24737
20170112,23526,24287,20143,26718
20170113,28004,23526,24287,20143


---
> S-043: レシート明細データ（receipt）と顧客データ（customer）を結合し、性別コード（gender_cd）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリデータを作成せよ。性別コードは0が男性、1が女性、9が不明を表すものとする。
>
> ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [167]:
%%sql

drop table if exists sales_summary;

create table sales_summary as (
    with group_table as (
        select
            trunc(c.age / 10) * 10 as era,
            c.gender_cd,
            sum(r.amount) as sum_amount
        from customer c join receipt r using(customer_id)
        group by era, c.gender_cd
    )
    select
        era,
        sum(case when gender_cd = '0' then sum_amount END) as man,
        sum(case when gender_cd = '1' then sum_amount END) as woman,
        sum(case when gender_cd = '9' then sum_amount END) as unknown
    from group_table
    group by era
    order by era
);

select * from sales_summary;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
9 rows affected.
9 rows affected.


era,man,woman,unknown
10.0,1591.0,149836,4317.0
20.0,72940.0,1363724,44328.0
30.0,177322.0,693047,50441.0
40.0,19355.0,9320791,483512.0
50.0,54320.0,6685192,342923.0
60.0,272469.0,987741,71418.0
70.0,13435.0,29764,2427.0
80.0,46360.0,262923,5111.0
90.0,,6260,


---
> S-044: 043で作成した売上サマリデータ（sales_summary）は性別の売上を横持ちさせたものであった。このデータから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を"00"、女性を"01"、不明を"99"とする。

In [197]:
%%sql

drop table if exists sales_summary;

create table sales_summary as (
    select
        trunc(c.age / 10) * 10 as era,
        case
            when c.gender_cd = '0' then replace(c.gender_cd, '0', '00')
            when c.gender_cd = '1' then replace(c.gender_cd, '1', '01')
            when c.gender_cd = '9' then replace(c.gender_cd, '9', '99')
        END,
        sum(r.amount) as sum_amount
    from customer c join receipt r using(customer_id)
    group by era, gender_cd
);

select * from sales_summary;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
25 rows affected.
25 rows affected.


era,case,sum_amount
10.0,0,1591
10.0,1,149836
10.0,99,4317
20.0,0,72940
20.0,1,1363724
20.0,99,44328
30.0,0,177322
30.0,1,693047
30.0,99,50441
40.0,0,19355


---
> S-045: 顧客データ（customer）の生年月日（birth_day）は日付型でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [14]:
%%sql

select customer_id, to_char(birth_day, 'YYYYMMDD') birth_day from customer limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day
CS021313000114,19810429
CS037613000071,19520401
CS031415000172,19761004
CS028811000001,19330327
CS001215000145,19950329
CS020401000016,19740915
CS015414000103,19770809
CS029403000008,19730817
CS015804000004,19310502
CS033513000180,19620711


---
> S-046: 顧客データ（customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [19]:
%%sql
select customer_id, to_timestamp(application_date, 'YYYYMMDD') as date from customer limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,date
CS021313000114,2015-09-05 00:00:00+00:00
CS037613000071,2015-04-14 00:00:00+00:00
CS031415000172,2015-05-29 00:00:00+00:00
CS028811000001,2016-01-15 00:00:00+00:00
CS001215000145,2017-06-05 00:00:00+00:00
CS020401000016,2015-02-25 00:00:00+00:00
CS015414000103,2015-07-22 00:00:00+00:00
CS029403000008,2015-05-15 00:00:00+00:00
CS015804000004,2015-06-07 00:00:00+00:00
CS033513000180,2015-07-28 00:00:00+00:00


---
> S-047: レシート明細データ（receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [23]:
%%sql
select receipt_no, receipt_sub_no, to_timestamp(cast(sales_ymd as VARCHAR), 'YYYYMMDD') from receipt limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_timestamp
112,1,2018-11-03 00:00:00+00:00
1132,2,2018-11-18 00:00:00+00:00
1102,1,2017-07-12 00:00:00+00:00
1132,1,2019-02-05 00:00:00+00:00
1102,2,2018-08-21 00:00:00+00:00
1112,1,2019-06-05 00:00:00+00:00
1102,2,2018-12-05 00:00:00+00:00
1102,1,2019-09-22 00:00:00+00:00
1112,2,2017-05-04 00:00:00+00:00
1102,1,2019-10-10 00:00:00+00:00


---
> S-048: レシート明細データ（receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [25]:
%%sql

select receipt_no, receipt_sub_no, cast(to_timestamp(sales_epoch) as date) as Date from receipt limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,date
112,1,2018-11-03
1132,2,2018-11-18
1102,1,2017-07-12
1132,1,2019-02-05
1102,2,2018-08-21
1112,1,2019-06-05
1102,2,2018-12-05
1102,1,2019-09-22
1112,2,2017-05-04
1102,1,2019-10-10


---
> S-049: レシート明細データ（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「年」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [225]:
%%sql

select receipt_no, receipt_sub_no, extract(year from to_timestamp(sales_epoch)) from receipt limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,extract
112,1,2018
1132,2,2018
1102,1,2017
1132,1,2019
1102,2,2018
1112,1,2019
1102,2,2018
1102,1,2019
1112,2,2017
1102,1,2019


---
> S-050: レシート明細データ（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「月」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「月」は0埋め2桁で取り出すこと。

In [228]:
%%sql

select receipt_no, receipt_sub_no, to_char(extract(month from to_timestamp(sales_epoch)), 'FM00') as month from receipt limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,month
112,1,11
1132,2,11
1102,1,7
1132,1,2
1102,2,8
1112,1,6
1102,2,12
1102,1,9
1112,2,5
1102,1,10


---
> S-051: レシート明細データ（receipt）の売上エポック秒を日付型に変換し、「日」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「日」は0埋め2桁で取り出すこと。

In [27]:
%%sql

select receipt_no, receipt_sub_no, to_char(extract(day from to_timestamp(sales_epoch)), 'FM00') from receipt limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_char
112,1,3
1132,2,18
1102,1,12
1132,1,5
1102,2,21
1112,1,5
1102,2,5
1102,1,22
1112,2,4
1102,1,10


---
> S-052: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2,000円以下を0、2,000円より大きい金額を1に二値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [36]:
%%sql

drop table if exists sales_amount_over_2000;

create table sales_amount_over_2000 as (
    with group_customer_id as (
        select
            customer_id,
            sum(amount) as sum_amount
        from receipt
        where customer_id not like 'Z%'
        group by customer_id
    )
    select 
        customer_id,
        case 
            when sum_amount <= 2000 then 0 
            when sum_amount > 2000 then 1
        END as binary_over_2000
        from group_customer_id
        limit 10
);

select * from sales_amount_over_2000;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
10 rows affected.
10 rows affected.


customer_id,binary_over_2000
CS001311000059,1
CS004614000122,0
CS003512000043,0
CS011615000061,0
CS029212000033,1
CS007515000119,1
CS034515000123,1
CS004315000058,0
CS026414000014,1
CS001615000099,0


In [58]:
%%sql

select postal_cd from customer
where cast(substring(postal_cd, 1, 3) as INTEGER) between 101 and 209
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


postal_cd
136-0076
151-0053
144-0055
174-0065
136-0073
136-0073
154-0015
158-0093
154-0012
185-0011


---
> S-053: 顧客データ（customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に二値化せよ。さらにレシート明細データ（receipt）と結合し、全期間において売上実績のある顧客数を、作成した二値ごとにカウントせよ。

In [59]:
%%sql

drop table if exists count_binary_postal_cd;

create table count_binary_postal_cd as (
    with binary_postal_cd as (
        select
            customer_id,
            case
                when cast(substring(postal_cd, 1, 3) as INTEGER) between 101 and 209 then 1
                else 0
            END as binary
        from customer
    ),
sales_sum_amount as (
    select
        customer_id,
        sum(amount) as sum_amount
    from receipt
    group by customer_id
    having sum(amount) > 0
)

    select
        b.binary,
        count(s.sum_amount) as count_customer
    from binary_postal_cd b
    left outer join
    sales_sum_amount s
    using(customer_id)
    where s.customer_id is not Null
    group by b.binary
    limit 10
);

select * from count_binary_postal_cd;


*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
2 rows affected.
2 rows affected.


binary,count_customer
0,3906
1,4400


---
> S-054: 顧客データ（customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに10件表示せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。

In [62]:
%%sql

select
    customer_id,
    case
        when address like '%埼玉県%' then 11
        when address like '%千葉県%' then 12
        when address like '%東京都%' then 13
        when address like '%神奈川県%' then 14
    END as address_no
from customer
limit 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,address_no
CS021313000114,14
CS037613000071,13
CS031415000172,13
CS028811000001,14
CS001215000145,13
CS020401000016,13
CS015414000103,13
CS029403000008,12
CS015804000004,13
CS033513000180,14


---
> S-055: レシート明細（receipt）データの売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに10件表示せよ。カテゴリ値は順に1〜4とする。
>
> - 最小値以上第1四分位未満 ・・・ 1を付与
> - 第1四分位以上第2四分位未満 ・・・ 2を付与
> - 第2四分位以上第3四分位未満 ・・・ 3を付与
> - 第3四分位以上 ・・・ 4を付与

In [71]:
%%sql

drop table if exists amount_number;

create table amount_number as (
    with sum_amount_per_customer as (
        select
            customer_id,
            sum(amount) as sum_amount
        from receipt
        group by customer_id
    ),
    percentiles as (
        select
            percentile_cont(0.0) within group (order by sum_amount) as per0,
            percentile_cont(0.25) within group (order by sum_amount) as per25,
            percentile_cont(0.50) within group (order by sum_amount) as per50,
            percentile_cont(0.75) within group (order by sum_amount) as per75
        from sum_amount_per_customer
    )
    select
        s.customer_id,
        case
            when s.sum_amount > p.per0 and s.sum_amount <= p.per25 then 1
            when s.sum_amount > p.per25 and s.sum_amount <= p.per50 then 2
            when s.sum_amount > p.per50 and s.sum_amount <= p.per75 then 3
            else 4
        END as sum_amount_no
    from sum_amount_per_customer s, percentiles p
);

select * from amount_number limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
8307 rows affected.
10 rows affected.


customer_id,sum_amount_no
CS001311000059,3
CS004614000122,1
CS003512000043,1
CS011615000061,1
CS029212000033,3
CS007515000119,4
CS034515000123,4
CS004315000058,1
CS026414000014,4
CS001615000099,2


---
> S-056: 顧客データ（customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに10件表示せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。

In [72]:
%%sql

select
    customer_id,
    birth_day,
    case
        when 0<= age and age < 10 then '10歳代'
        when 10<= age and age < 20 then '20歳代'
        when 20<= age and age < 30 then '30歳代'
        when 30<= age and age < 40 then '40歳代'
        when 40<= age and age < 50 then '50歳代'
        else '60歳代'
    END as age_category
    from customer
    limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,age_category
CS021313000114,1981-04-29,40歳代
CS037613000071,1952-04-01,60歳代
CS031415000172,1976-10-04,50歳代
CS028811000001,1933-03-27,60歳代
CS001215000145,1995-03-29,30歳代
CS020401000016,1974-09-15,50歳代
CS015414000103,1977-08-09,50歳代
CS029403000008,1973-08-17,50歳代
CS015804000004,1931-05-02,60歳代
CS033513000180,1962-07-11,60歳代


---
> S-057: 056の抽出結果と性別コード（gender_cd）により、新たに性別×年代の組み合わせを表すカテゴリデータを作成し、10件表示せよ。組み合わせを表すカテゴリの値は任意とする。

In [83]:
%%sql

drop table if exists new_category;

create table new_category as (

    with age_category as (
    select
        distinct(
        case
            when 0<= age and age < 10 then '10'
            when 10<= age and age < 20 then '20'
            when 20<= age and age < 30 then '30'
            when 30<= age and age < 40 then '40'
            when 40<= age and age < 50 then '50'
            else '60'
        END) as age_categories
    from customer
    ),
    gender_category as (
        select
            distinct(gender_cd) as gender_categories
        from customer
    )
    select 
        a.age_categories,
        g.gender_categories,
        a.age_categories || g.gender_categories as age_gender
    from age_category a
    cross join
    gender_category g
);

select * from new_category limit 10;



*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
15 rows affected.
10 rows affected.


age_categories,gender_categories,age_gender
20,0,200
20,1,201
20,9,209
30,0,300
30,1,301
30,9,309
60,0,600
60,1,601
60,9,609
40,0,400


---
> S-058: 顧客データ（customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに10件表示せよ。

In [87]:
%%sql

select 
    customer_id,
    case when gender_cd = '0' then 1 else 0 END as gender_cd1,
    case when gender_cd = '1' then 1 else 0 END as gender_cd2,
    case when gender_cd = '9' then 1 else 0 END as gender_cd3,
    gender_cd
from customer
limit 10;
    

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,gender_cd1,gender_cd2,gender_cd3,gender_cd
CS021313000114,0,1,0,1
CS037613000071,0,0,1,9
CS031415000172,0,1,0,1
CS028811000001,0,1,0,1
CS001215000145,0,1,0,1
CS020401000016,1,0,0,0
CS015414000103,0,1,0,1
CS029403000008,1,0,0,0
CS015804000004,1,0,0,0
CS033513000180,0,1,0,1


---
> S-059: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに10件表示せよ。標準化に使用する標準偏差は、分散の平方根、もしくは不偏分散の平方根のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [93]:
%%sql

drop table if exists normalized_amount;

create table normalized_amount as (
    with group_customer as (
        select
            customer_id,
            sum(amount) as sum_amount
        from receipt
        where customer_id not like 'Z%'
        group by customer_id
    ),
    mean_std as (
        select
            avg(sum_amount) as avg,
            stddev_pop(sum_amount) as std
        from group_customer
    )
    select
        customer_id,
        (g.sum_amount - m.avg) / m.std as normalized
        from group_customer g, mean_std m
);

select * from normalized_amount limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
8306 rows affected.
10 rows affected.


customer_id,normalized
CS001311000059,-0.0903294644839052
CS004614000122,-0.8453348887869585
CS003512000043,-0.8269559836189193
CS011615000061,-0.8460700449936801
CS029212000033,0.3882572260918374
CS007515000119,1.6942622273327081
CS034515000123,0.423177145911112
CS004315000058,-0.7563809877736484
CS026414000014,1.5156192690993664
CS001615000099,-0.6541942750393501


---
> S-060: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [106]:
%%sql

drop table if exists min_max_normalized;

create table min_max_normalized as (
    with group_customer as (
        select
            customer_id,
            sum(amount) as sum_amount
        from receipt
        where customer_id not like 'Z%'
        group by customer_id
    ),
    min_max as (
        select
            min(sum_amount) as min_amount,
            max(sum_amount) as max_amount
        from group_customer
    )
    select
        g.customer_id,
        (g.sum_amount - m.min_amount) * 1.0 / (m.max_amount - m.min_amount) as min_max_norm
    from group_customer g, min_max m
);

select * from min_max_normalized limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
8306 rows affected.
10 rows affected.


customer_id,min_max_norm
CS001311000059,0.0969760166840458
CS004614000122,0.0077337504344803
CS003512000043,0.0099061522419186
CS011615000061,0.0076468543621828
CS029212000033,0.1535453597497393
CS007515000119,0.3079162321863051
CS034515000123,0.157672923183872
CS004315000058,0.0182481751824817
CS026414000014,0.2868004866180048
CS001615000099,0.0303267292318387


---
> S-061: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を常用対数化（底10）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [107]:
%%sql

drop table if exists log_amount;

create table log_amount as (
    with group_customer as (
        select
            customer_id,
            sum(amount) as sum_amount
        from receipt
        where customer_id not like 'Z%'
        group by customer_id
    )
    select
        customer_id,
        log(sum_amount + 0.001) as log
    from group_customer
);

select * from log_amount limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
8306 rows affected.
10 rows affected.


customer_id,log
CS001311000059,3.362105507953368
CS004614000122,2.394453432010113
CS003512000043,2.474217721437843
CS011615000061,2.390936872524514
CS029212000033,3.556784902810472
CS007515000119,3.854731077895017
CS034515000123,3.5680844487239973
CS004315000058,2.6901969663428784
CS026414000014,3.8241910057544337
CS001615000099,2.8853617855187506


---
> S-062: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を自然対数化（底e）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [108]:
%%sql

drop table if exists log_amount;

create table log_amount as (
    with group_customer as (
        select
            customer_id,
            sum(amount) as sum_amount
        from receipt
        where customer_id not like 'Z%'
        group by customer_id
    )
    select
        customer_id,
        ln(sum_amount + 0.001) as log
    from group_customer
);

select * from log_amount limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
8306 rows affected.
10 rows affected.


customer_id,log
CS001311000059,7.7415340236866
CS004614000122,5.513432778414916
CS003512000043,5.697096842204472
CS011615000061,5.505335600964751
CS029212000033,8.189799896197668
CS007515000119,8.875846317461935
CS034515000123,8.215818062175753
CS004315000058,6.194407431918917
CS026414000014,8.805525202612067
CS001615000099,6.643791035230158


---
> S-063: 商品データ（product）の単価（unit_price）と原価（unit_cost）から各商品の利益額を算出し、結果を10件表示せよ。

In [111]:
%%sql

select
    unit_price,
    unit_cost,
    (unit_price - unit_cost) as proficient
from product
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


unit_price,unit_cost,proficient
198,149,49
218,164,54
230,173,57
248,186,62
268,201,67
298,224,74
338,254,84
420,315,105
498,374,124
580,435,145


---
> S-064: 商品データ（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。ただし、単価と原価には欠損が生じていることに注意せよ。

In [114]:
%%sql

select
    avg((unit_price - unit_cost) * 1.0 / unit_price) as avg_proficiency
from product
where unit_price is not null 
and 
unit_cost is not null;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


avg_proficiency
0.24911389885177


---
> S-065: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [125]:
%%sql

select
    trunc(unit_cost * 10 / 7 * 1.0, 0) as new_unit_price,
    unit_cost,
    (trunc(unit_cost * 10 / 7 * 1.0, 0) - unit_cost) * 1.0 / trunc(unit_cost * 10 / 7 * 1.0, 0) as new_proficiency
from product
where unit_price is not null 
and 
unit_cost is not null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


new_unit_price,unit_cost,new_proficiency
212,149,0.2971698113207547
234,164,0.2991452991452991
247,173,0.2995951417004048
265,186,0.2981132075471698
287,201,0.2996515679442508
320,224,0.3
362,254,0.298342541436464
450,315,0.3
534,374,0.299625468164794
621,435,0.2995169082125603


---
> S-066: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を丸めること（四捨五入または偶数への丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [126]:
%%sql

select
    round(unit_cost * 10 / 7 * 1.0, 0) as new_unit_price,
    unit_cost,
    (round(unit_cost * 10 / 7 * 1.0, 0) - unit_cost) * 1.0 / round(unit_cost * 10 / 7 * 1.0, 0) as new_proficiency
from product
where unit_price is not null 
and 
unit_cost is not null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


new_unit_price,unit_cost,new_proficiency
212,149,0.2971698113207547
234,164,0.2991452991452991
247,173,0.2995951417004048
265,186,0.2981132075471698
287,201,0.2996515679442508
320,224,0.3
362,254,0.298342541436464
450,315,0.3
534,374,0.299625468164794
621,435,0.2995169082125603


---
> S-067: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [127]:
%%sql

select
    ceil(unit_cost * 10 / 7 * 1.0) as new_unit_price,
    unit_cost,
    (ceil(unit_cost * 10 / 7 * 1.0) - unit_cost) * 1.0 / ceil(unit_cost * 10 / 7 * 1.0) as new_proficiency
from product
where unit_price is not null 
and 
unit_cost is not null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


new_unit_price,unit_cost,new_proficiency
212,149,0.2971698113207547
234,164,0.2991452991452991
247,173,0.2995951417004048
265,186,0.2981132075471698
287,201,0.2996515679442508
320,224,0.3
362,254,0.298342541436464
450,315,0.3
534,374,0.299625468164794
621,435,0.2995169082125603


---
> S-068: 商品データ（product）の各商品について、消費税率10％の税込み金額を求めよ。1円未満の端数は切り捨てとし、結果を10件表示せよ。ただし、単価（unit_price）には欠損が生じていることに注意せよ。

In [133]:
%%sql

select
    product_cd,
    trunc(unit_price *1.1, 0) as taxed_price
from product
where unit_price is not null
limit 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,taxed_price
P040101001,217
P040101002,239
P040101003,253
P040101004,272
P040101005,294
P040101006,327
P040101007,371
P040101008,462
P040101009,547
P040101010,638


---
> S-069: レシート明細データ（receipt）と商品データ（product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分コード（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分コード"07"（瓶詰缶詰）の売上実績がある顧客のみとし、結果を10件表示せよ。

In [135]:
%%sql

select * from receipt limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170


In [136]:
%%sql

select * from product limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
P040101001,4,401,40101,198,149
P040101002,4,401,40101,218,164
P040101003,4,401,40101,230,173


In [143]:
%%sql

select
    r.customer_id,
    sum(case when p.category_major_cd = '07' then r.amount END) as sum_amount_07,
    sum(r.amount) as sum_amount,
    sum(case when p.category_major_cd = '07' then r.amount END) * 1.0 / sum(r.amount) as ratio_07
from receipt r
join
product p
using(product_cd)
group by customer_id
having sum(case when p.category_major_cd = '07' then r.amount END) > 0
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount_07,sum_amount,ratio_07
CS001311000059,102,2302,0.0443092962641181
CS011615000061,98,246,0.3983739837398373
CS029212000033,3604,3604,1.0
CS007515000119,2832,7157,0.3956965208886404
CS034515000123,1202,3699,0.3249526899161935
CS026414000014,3142,6671,0.4709938539949033
CS001615000099,318,768,0.4140625
CS010515000082,553,1482,0.3731443994601889
CS019315000045,380,813,0.4674046740467404
CS008513000099,210,1322,0.1588502269288956


---
> S-070: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [146]:
%%sql

select * from receipt limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170


In [147]:
%%sql

select * from customer limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C


In [166]:
%%sql

select
    c.customer_id,
    to_date(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD') as sales_ymd,
    to_date(c.application_date, 'YYYYMMDD') as application_date,
    extract(day from (to_timestamp(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD') 
                - to_timestamp(c.application_date, 'YYYYMMDD')))  as passed_date
from receipt r
join
customer c
using(customer_id)
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,passed_date
CS006214000001,2018-11-03,2015-02-01,1371
CS008415000097,2018-11-18,2015-03-22,1337
CS028414000014,2017-07-12,2015-07-11,732
CS025415000050,2018-08-21,2016-01-31,933
CS003515000195,2019-06-05,2015-03-06,1552
CS024514000042,2018-12-05,2015-10-10,1152
CS040415000178,2019-09-22,2015-06-27,1548
CS027514000015,2019-10-10,2015-11-01,1439
CS025415000134,2019-09-18,2015-07-20,1521
CS021515000126,2017-10-10,2015-05-08,886


---
> S-071: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [168]:
%%sql

select
    c.customer_id,
    to_date(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD') as sales_ymd,
    to_date(c.application_date, 'YYYYMMDD') as application_date,
    extract(month from (to_timestamp(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD') 
                - to_timestamp(c.application_date, 'YYYYMMDD')))  as passed_date
from receipt r
join
customer c
using(customer_id)
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,passed_date
CS006214000001,2018-11-03,2015-02-01,0
CS008415000097,2018-11-18,2015-03-22,0
CS028414000014,2017-07-12,2015-07-11,0
CS025415000050,2018-08-21,2016-01-31,0
CS003515000195,2019-06-05,2015-03-06,0
CS024514000042,2018-12-05,2015-10-10,0
CS040415000178,2019-09-22,2015-06-27,0
CS027514000015,2019-10-10,2015-11-01,0
CS025415000134,2019-09-18,2015-07-20,0
CS021515000126,2017-10-10,2015-05-08,0


---
> S-072: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [171]:
%%sql

select
    c.customer_id,
    to_date(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD') as sales_ymd,
    to_date(c.application_date, 'YYYYMMDD') as application_date,
    extract(year from age(to_timestamp(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD'), to_timestamp(c.application_date, 'YYYYMMDD'))) * 12 +
    extract(month from age(to_timestamp(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD'), to_timestamp(c.application_date, 'YYYYMMDD')))  as passed_month
from receipt r
join
customer c
using(customer_id)
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,passed_month
CS006214000001,2018-11-03,2015-02-01,45
CS008415000097,2018-11-18,2015-03-22,43
CS028414000014,2017-07-12,2015-07-11,24
CS025415000050,2018-08-21,2016-01-31,30
CS003515000195,2019-06-05,2015-03-06,50
CS024514000042,2018-12-05,2015-10-10,37
CS040415000178,2019-09-22,2015-06-27,50
CS027514000015,2019-10-10,2015-11-01,47
CS025415000134,2019-09-18,2015-07-20,49
CS021515000126,2017-10-10,2015-05-08,29


---
> S-073: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [173]:
%%sql

select
    c.customer_id,
    to_date(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD') as sales_ymd,
    to_date(c.application_date, 'YYYYMMDD') as application_date,
    extract(epoch from (to_timestamp(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD') 
                - to_timestamp(c.application_date, 'YYYYMMDD')))  as passed_date
from receipt r
join
customer c
using(customer_id)
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,passed_date
CS006214000001,2018-11-03,2015-02-01,118454400.0
CS008415000097,2018-11-18,2015-03-22,115516800.0
CS028414000014,2017-07-12,2015-07-11,63244800.0
CS025415000050,2018-08-21,2016-01-31,80611200.0
CS003515000195,2019-06-05,2015-03-06,134092800.0
CS024514000042,2018-12-05,2015-10-10,99532800.0
CS040415000178,2019-09-22,2015-06-27,133747200.0
CS027514000015,2019-10-10,2015-11-01,124329600.0
CS025415000134,2019-09-18,2015-07-20,131414400.0
CS021515000126,2017-10-10,2015-05-08,76550400.0


---
> S-074: レシート明細データ（receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、直前の月曜日付とともに10件表示せよ（sales_ymdは数値でデータを保持している点に注意）。

In [176]:
%%sql

select
    c.customer_id,
    to_date(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD') as sales_ymd,
    to_date(c.application_date, 'YYYYMMDD') as application_date,
    extract(isodow from to_date(cast(r.sales_ymd as VARCHAR), 'YYYYMMDD')) - 1 as pass_dow
from receipt r
join
customer c
using(customer_id)
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,pass_dow
CS006214000001,2018-11-03,2015-02-01,5
CS008415000097,2018-11-18,2015-03-22,6
CS028414000014,2017-07-12,2015-07-11,2
CS025415000050,2018-08-21,2016-01-31,1
CS003515000195,2019-06-05,2015-03-06,2
CS024514000042,2018-12-05,2015-10-10,2
CS040415000178,2019-09-22,2015-06-27,6
CS027514000015,2019-10-10,2015-11-01,3
CS025415000134,2019-09-18,2015-07-20,2
CS021515000126,2017-10-10,2015-05-08,1


---
> S-075: 顧客データ（customer）からランダムに1%のデータを抽出し、先頭から10件表示せよ。

In [180]:
%%sql

select * from customer
order by random()
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS040415000169,戸塚 ちえみ,1,女性,1969-10-29,49,226-0026,神奈川県横浜市緑区長津田町**********,S14040,20150402,A-20100525-A
CS020515000037,金井 ひろ子,1,女性,1965-04-09,53,173-0001,東京都板橋区本町**********,S13020,20150811,B-20100815-C
CS035614000067,長沢 愛梨,1,女性,1955-11-29,63,158-0095,東京都世田谷区瀬田**********,S13035,20150318,4-20091207-5
CS025303000017,三上 雅彦,0,男性,1985-09-03,33,242-0024,神奈川県大和市福田**********,S14025,20151015,0-00000000-0
CS003515000219,内村 知世,1,女性,1962-12-21,56,182-0022,東京都調布市国領町**********,S13003,20151231,A-20091212-B
CS012515000198,窪塚 人志,9,不明,1962-05-02,56,231-0822,神奈川県横浜市中区本牧元町**********,S14012,20150423,F-20100812-F
CS004414000105,堀 さとみ,1,女性,1974-09-05,44,176-0025,東京都練馬区中村南**********,S13004,20150808,1-20100714-1
CS019515000097,青木 みゆき,1,女性,1962-01-20,57,173-0036,東京都板橋区向原**********,S13019,20141124,E-20100630-D
CS010412000181,大原 佳乃,1,女性,1968-12-23,50,223-0057,神奈川県横浜市港北区新羽町**********,S14010,20150521,0-00000000-0
CS003412000322,森下 愛子,1,女性,1972-06-08,46,182-0022,東京都調布市国領町**********,S13003,20160728,0-00000000-0


---
> S-076: 顧客データ（customer）から性別コード（gender_cd）の割合に基づきランダムに10%のデータを層化抽出し、性別コードごとに件数を集計せよ。

In [None]:
%%sql
分からぬ

---
> S-077: レシート明細データ（receipt）の売上金額を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。なお、外れ値は売上金額合計を対数化したうえで平均と標準偏差を計算し、その平均から3σを超えて離れたものとする（自然対数と常用対数のどちらでも可）。結果は10件表示せよ。

In [187]:
%%sql

drop table if exists hazureti;

create table hazureti as (
    with avg_and_std as (
        select
            avg(amount) as avg,
            stddev_pop(amount) as std
        from receipt
    ),
    group_customer as (
        select
            customer_id,
            ln(sum(amount) + 0.001) as ln_sum_amount
        from receipt
        group by customer_id
    )
    select
        g.customer_id,
        g.ln_sum_amount
    from avg_and_std a, group_customer g
    where g.ln_sum_amount > a.avg + 3*a.std or g.ln_sum_amount < a.avg - 3*a.std
);

select * from hazureti; 

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
0 rows affected.
0 rows affected.


customer_id,ln_sum_amount


---
> S-078: レシート明細データ（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第1四分位と第3四分位の差であるIQRを用いて、「第1四分位数-1.5×IQR」を下回るもの、または「第3四分位数+1.5×IQR」を超えるものとする。結果は10件表示せよ。

In [196]:
%%sql

drop table if exists hazureti;

create table hazureti as (
    with group_customer as (
        select
            customer_id,
            sum(amount) as sum_amount
        from receipt
        where customer_id not like 'Z%'
        group by customer_id
    ),
    per25_per75_IQR as (
        select
            percentile_cont(0.25) within group(order by sum_amount) as per25,
            percentile_cont(0.75) within group(order by sum_amount) as per75,
            percentile_cont(0.75) within group(order by sum_amount) - percentile_cont(0.25) within group(order by sum_amount) as IQR
        from group_customer
        where customer_id not like 'Z%'
    )
    select
        g.customer_id,
        g.sum_amount
    from per25_per75_IQR p, group_customer g
    where g.sum_amount > p.per75 + 1.5*p.IQR or g.sum_amount < p.per25 - 1.5*p.IQR
);

select * from hazureti limit 10; 

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
393 rows affected.
10 rows affected.


customer_id,sum_amount
CS013415000226,8362
CS011415000041,9454
CS014514000004,8872
CS021514000008,12839
CS014515000007,9763
CS040415000220,10158
CS028415000161,8465
CS034515000173,10074
CS022515000065,12903
CS007514000094,15735


---
> S-079: 商品データ（product）の各項目に対し、欠損数を確認せよ。

In [198]:
%%sql

select * from product limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
P040101001,4,401,40101,198,149
P040101002,4,401,40101,218,164
P040101003,4,401,40101,230,173


In [200]:
%%sql

select
    sum(case when product_cd is null then 1 else 0 END) as product_cd,
    sum(case when category_major_cd is null then 1 else 0 END) as category_major_cd,
    sum(case when category_medium_cd is null then 1 else 0 END) as category_medium_cd,
    sum(case when category_small_cd is null then 1 else 0 END) as category_small_cd,
    sum(case when unit_price is null then 1 else 0 END) as unit_price,
    sum(case when unit_cost is null then 1 else 0 END) as unit_cost
from product;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
0,0,0,0,7,7


---
> S-080: 商品データ（product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。

In [202]:
%%sql

with not_null_product as (
    select
        *
    from product
    where
    product_cd is not null and
    category_major_cd is not null and 
    category_medium_cd is not null and 
    category_small_cd is not null and 
    unit_price is not null and
    unit_cost is not null
)

select
 count(1)
from not_null_product

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
10023


In [203]:
%%sql

select
count(1)
from product;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
10030


---
> S-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たな商品データを作成せよ。なお、平均値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [222]:
%%sql

with avg_not_null as (
    select
        round(avg(unit_price), 0) as avg_unit_price,
        round(avg(unit_cost), 0) as avg_unit_cost
    from product    
),
hokan_by_avg as (
    select
        product_cd,
        p.category_major_cd,
        p.category_medium_cd,
        p.category_small_cd,
        coalesce(p.unit_price, a.avg_unit_price) as unit_price,
        coalesce(p.unit_cost, a.avg_unit_cost) as unit_cost
    from product p, avg_not_null a
)

select 
*
from hokan_by_avg
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
P040101001,4,401,40101,198,149
P040101002,4,401,40101,218,164
P040101003,4,401,40101,230,173
P040101004,4,401,40101,248,186
P040101005,4,401,40101,268,201
P040101006,4,401,40101,298,224
P040101007,4,401,40101,338,254
P040101008,4,401,40101,420,315
P040101009,4,401,40101,498,374
P040101010,4,401,40101,580,435


In [36]:
%%sql

with avg_not_null as (
    select
        round(avg(unit_price), 0) as avg_unit_price,
        round(avg(unit_cost), 0) as avg_unit_cost
    from product    
),
hokan_by_avg as (
    select
        product_cd,
        p.category_major_cd,
        p.category_medium_cd,
        p.category_small_cd,
        coalesce(p.unit_price, a.avg_unit_price) as unit_price,
        coalesce(p.unit_cost, a.avg_unit_cost) as unit_cost
    from product p, avg_not_null a
)

select 
count(1)
from hokan_by_avg
where unit_price is null
or unit_cost is null;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
0


---
> S-082: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [20]:
%%sql

with hokan_by_mode as (
    select
        round(cast(percentile_cont(0.5) within group (order by unit_price) as numeric), 0) as mode_unit_price,
        round(cast(percentile_cont(0.5) within group (order by unit_cost) as numeric), 0) as mode_unit_cost
    from product
),

hokan as (
    select
        p.product_cd,
        p.category_major_cd,
        p.category_medium_cd,
        p.category_small_cd,
        coalesce(p.unit_price, h.mode_unit_price) as unit_price,
        coalesce(p.unit_cost, h.mode_unit_cost) as unit_cost
    from product p, hokan_by_mode h
)

select 
*
from hokan
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
P040101001,4,401,40101,198,149
P040101002,4,401,40101,218,164
P040101003,4,401,40101,230,173
P040101004,4,401,40101,248,186
P040101005,4,401,40101,268,201
P040101006,4,401,40101,298,224
P040101007,4,401,40101,338,254
P040101008,4,401,40101,420,315
P040101009,4,401,40101,498,374
P040101010,4,401,40101,580,435


In [35]:
%%sql

with hokan_by_mode as (
    select
        round(cast(percentile_cont(0.5) within group (order by unit_price) as numeric), 0) as mode_unit_price,
        round(cast(percentile_cont(0.5) within group (order by unit_cost) as numeric), 0) as mode_unit_cost
    from product
),

hokan as (
    select
        p.product_cd,
        p.category_major_cd,
        p.category_medium_cd,
        p.category_small_cd,
        coalesce(p.unit_price, h.mode_unit_price) as unit_price,
        coalesce(p.unit_cost, h.mode_unit_cost) as unit_cost
    from product p, hokan_by_mode h
)

select 
count(1)
from hokan
where unit_price is null
or unit_cost is null;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
0


---
> S-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品のカテゴリ小区分コード（category_small_cd）ごとに算出した中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [29]:
%%sql

with group_small_cd as (
    select
        category_small_cd,
        round(cast(percentile_cont(0.5) within group (order by unit_price) as numeric), 0) as mode_unit_price,
        round(cast(percentile_cont(0.5) within group (order by unit_cost) as numeric), 0) as mode_unit_cost
    from product
    group by category_small_cd
),
product_join_small_cd as (
    select
        p.product_cd,
        p.category_major_cd,
        p.category_medium_cd,
        p.category_small_cd,
        coalesce(p.unit_price, g.mode_unit_price) as unit_price,
        coalesce(p.unit_cost, g.mode_unit_price) as unit_cost
    from product p
    join
    group_small_cd g
    using(category_small_cd)
)

select 
*
from
product_join_small_cd
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
P040101001,4,401,40101,198,149
P040101002,4,401,40101,218,164
P040101003,4,401,40101,230,173
P040101004,4,401,40101,248,186
P040101005,4,401,40101,268,201
P040101006,4,401,40101,298,224
P040101007,4,401,40101,338,254
P040101008,4,401,40101,420,315
P040101009,4,401,40101,498,374
P040101010,4,401,40101,580,435


In [34]:
%%sql

with group_small_cd as (
    select
        category_small_cd,
        round(cast(percentile_cont(0.5) within group (order by unit_price) as numeric), 0) as mode_unit_price,
        round(cast(percentile_cont(0.5) within group (order by unit_cost) as numeric), 0) as mode_unit_cost
    from product
    group by category_small_cd
),
product_join_small_cd as (
    select
        p.product_cd,
        p.category_major_cd,
        p.category_medium_cd,
        p.category_small_cd,
        coalesce(p.unit_price, g.mode_unit_price) as unit_price,
        coalesce(p.unit_cost, g.mode_unit_price) as unit_cost
    from product p
    join
    group_small_cd g
    using(category_small_cd)
)

select 
count(1)
from
product_join_small_cd
where unit_price is null
or unit_cost is null;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
0


---
> S-084: 顧客データ（customer）の全顧客に対して全期間の売上金額に占める2019年売上金額の割合を計算し、新たなデータを作成せよ。ただし、売上実績がない場合は0として扱うこと。そして計算した割合が0超のものを抽出し、結果を10件表示せよ。また、作成したデータに欠損が存在しないことを確認せよ。

In [73]:
%%sql

select
    sales_ymd
from receipt
limit 1;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sales_ymd
20181103


In [44]:
%%sql

select
    sum(case when sales_ymd is null then 1 else 0 END) as sales_ymd,
    sum(case when customer_id is null then 1 else 0 END) as customer_id,
    sum(case when amount is null then 1 else 0 END) as amount
from receipt;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sales_ymd,customer_id,amount
0,0,0


In [46]:
%%sql

select
    sum(case when customer_id is null then 1 else 0 END) as customer_id
from customer;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


customer_id
0


In [55]:
%%sql

select
    count(1)
from receipt

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
104681


In [64]:
%%sql
select
    count(distinct customer_id)
from customer

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
21971


In [81]:
%%sql

drop table if exists table_2019;

create table table_2019 as (
    with null_to_zero as (
        select
            c.customer_id,
            r.sales_ymd,
            coalesce(r.amount, 0) as amount
        from customer c
        left outer join
        receipt r
        on c.customer_id = r.customer_id
    ),
    group_customer as (
        select
            customer_id,
            sum(case when extract(year from to_timestamp(cast(sales_ymd as text), 'YYYYMMDD')) = 2019 then amount else 0 end) as sum_2019_amount,
            sum(case when sales_ymd is not null then amount else 0 end) as sum_all_amount
            
        from null_to_zero
        group by customer_id
        having sum(case when sales_ymd is not null then amount else 0 end) > 0 and 
            sum(case when extract(year from to_timestamp(cast(sales_ymd as text), 'YYYYMMDD')) = 2019 then amount else 0 end) > 0
    )
    select
    *,
    (sum_2019_amount * 1.0 / sum_all_amount) as amount_ratio_2019
    from group_customer
);

select
*
from table_2019
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
5019 rows affected.
10 rows affected.


customer_id,sum_2019_amount,sum_all_amount,amount_ratio_2019
CS011615000061,246,246,1.0
CS008513000099,256,1322,0.1936459909228441
CS007615000070,1558,2975,0.5236974789915966
CS025415000155,368,1038,0.3545279383429672
CS012514000018,667,2562,0.260343481654957
CS015215000021,326,3090,0.1055016181229773
CS039814000011,1373,8031,0.1709625202340928
CS024414000120,208,2066,0.100677637947725
CS016515000016,1051,1051,1.0
CS013415000226,238,8362,0.028462090408993


In [83]:
%%sql

drop table if exists table_2019;

create table table_2019 as (
    with null_to_zero as (
        select
            c.customer_id,
            r.sales_ymd,
            coalesce(r.amount, 0) as amount
        from customer c
        left outer join
        receipt r
        on c.customer_id = r.customer_id
    ),
    group_customer as (
        select
            customer_id,
            sum(case when extract(year from to_timestamp(cast(sales_ymd as text), 'YYYYMMDD')) = 2019 then amount else 0 end) as sum_2019_amount,
            sum(case when sales_ymd is not null then amount else 0 end) as sum_all_amount
            
        from null_to_zero
        group by customer_id
        having sum(case when sales_ymd is not null then amount else 0 end) > 0 and 
            sum(case when extract(year from to_timestamp(cast(sales_ymd as text), 'YYYYMMDD')) = 2019 then amount else 0 end) > 0
    )
    select
    *,
    (sum_2019_amount * 1.0 / sum_all_amount) as amount_ratio_2019
    from group_customer
);

select
count(1)
from table_2019
where customer_id is null or
    sum_2019_amount is null or
    sum_all_amount is null; 


*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
5019 rows affected.
1 rows affected.


count
0


---
> S-085: 顧客データ（customer）の全顧客に対し、郵便番号（postal_cd）を用いてジオコードデータ（geocode）を紐付け、新たな顧客データを作成せよ。ただし、1つの郵便番号（postal_cd）に複数の経度（longitude）、緯度（latitude）情報が紐づく場合は、経度（longitude）、緯度（latitude）の平均値を算出して使用すること。また、作成結果を確認するために結果を10件表示せよ。

In [95]:
%%sql
with mean_geocode as(
    select
        c.customer_id,
        c.postal_cd,
        c.address,
        avg(g.longitude) as mean_longitude,
        avg(g.latitude) as mean_latitude
    from customer c
    join
    geocode g
    using(postal_cd)
    group by c.customer_id)
select
    *
from mean_geocode
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,postal_cd,address,mean_longitude,mean_latitude
CS001105000001,144-0056,東京都大田区西六郷**********,139.70238,35.54137
CS001112000009,143-0026,東京都大田区西馬込**********,139.70386,35.5867
CS001112000019,143-0004,東京都大田区昭和島**********,139.74687,35.57153
CS001112000021,144-0056,東京都大田区西六郷**********,139.70238,35.54137
CS001112000023,143-0004,東京都大田区昭和島**********,139.74687,35.57153
CS001112000024,144-0056,東京都大田区西六郷**********,139.70238,35.54137
CS001112000029,144-0056,東京都大田区西六郷**********,139.70238,35.54137
CS001112000030,144-0056,東京都大田区西六郷**********,139.70238,35.54137
CS001113000004,144-0056,東京都大田区西六郷**********,139.70238,35.54137
CS001113000010,144-0056,東京都大田区西六郷**********,139.70238,35.54137


---
> S-086: 085で作成した緯度経度つき顧客データに対し、会員申込店舗コード（application_store_cd）をキーに店舗データ（store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客住所（address）の緯度・経度を用いて申込み店舗と顧客住所の距離（単位：km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は以下の簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示せよ。

$$
\mbox{緯度（ラジアン）}：\phi \\
\mbox{経度（ラジアン）}：\lambda \\
\mbox{距離}L = 6371 * \arccos(\sin \phi_1 * \sin \phi_2
+ \cos \phi_1 * \cos \phi_2 * \cos(\lambda_1 − \lambda_2))
$$

In [96]:
%%sql

select
*
from geocode
limit 1;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


postal_cd,prefecture,city,town,street,address,full_address,longitude,latitude
060-0000,北海道,札幌市中央区,,,,北海道札幌市中央区,141.34103,43.05513


In [97]:
%%sql

select 
*
from store
limit 1;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0


In [99]:
%%sql

select
*
from customer
limit 1;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0


In [107]:
%%sql

drop table if exists distance_table;
create table distance_table as (
    with mean_geocode as(
        select
            c.customer_id,
            c.address,
            avg(g.longitude) as mean_longitude,
            avg(g.latitude) as mean_latitude
        from customer c
        join
        geocode g
        using(postal_cd)
        group by c.customer_id),
    
    application_store_geocode as (
        select
            c.customer_id,
            s.address as application_store_address,
            s.longitude as store_longitude,
            s.latitude as store_latitude
        from customer c
        join store s on c.application_store_cd = s.store_cd
    ),

    mean_geocode_join_application_store_geocode as (
        select
            m.customer_id,
            m.address as customer_address,
            a.application_store_address,
            pow(pow(m.mean_longitude - a.store_longitude, 2) + pow(m.mean_latitude - a.store_latitude, 2), 0.5) as distance
        from mean_geocode m
        join application_store_geocode a on m.customer_id = a.customer_id
    )

    select *
    from mean_geocode_join_application_store_geocode
);

select *
from distance_table
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
21971 rows affected.
10 rows affected.


customer_id,customer_address,application_store_address,distance
CS001105000001,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0147198097813796
CS001112000009,東京都大田区西馬込**********,東京都大田区仲六郷二丁目,0.0365630701664945
CS001112000019,東京都大田区昭和島**********,東京都大田区仲六郷二丁目,0.0392543156863038
CS001112000021,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0147198097813796
CS001112000023,東京都大田区昭和島**********,東京都大田区仲六郷二丁目,0.0392543156863038
CS001112000024,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0147198097813796
CS001112000029,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0147198097813796
CS001112000030,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0147198097813796
CS001113000004,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0147198097813796
CS001113000010,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0147198097813796


---
> S-087: 顧客データ（customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなして1顧客1レコードとなるように名寄せした名寄顧客データを作成し、顧客データの件数、名寄顧客データの件数、重複数を算出せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残し、売上金額合計が同一もしくは売上実績がない顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [109]:
%%sql

DROP TABLE IF EXISTS customer_u;
CREATE TABLE customer_u AS (
    WITH sales_amount AS(
        SELECT
            c.customer_id,
            c.customer_name,
            c.postal_cd, 
            COALESCE(SUM(r.amount), 0) AS sum_amount
        FROM
            customer c

        LEFT JOIN
            receipt r        
        ON c.customer_id = r.customer_id
        GROUP by
            c.customer_id, c.customer_name, c.postal_cd
    ),
    sales_ranking AS(
        SELECT
            *,
            ROW_NUMBER() OVER(
                PARTITION BY customer_name, postal_cd 
                ORDER BY sum_amount desc, customer_id ) AS ranking
        FROM sales_amount
    )
    SELECT c.*
    FROM
        customer c
    JOIN
        sales_ranking r
    ON
        c.customer_id = r.customer_id
        AND r.ranking = 1
);

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
21941 rows affected.


[]

In [110]:
%%sql

SELECT 
    customer_cnt, 
    customer_u_cnt, 
    customer_cnt - customer_u_cnt AS diff 
FROM
    (SELECT COUNT(1) AS customer_cnt FROM customer) customer
CROSS JOIN (SELECT COUNT(1) AS customer_u_cnt FROM customer_u) customer_u
;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


customer_cnt,customer_u_cnt,diff
21971,21941,30


---
> S-088: 087で作成したデータを元に、顧客データに統合名寄IDを付与したデータを作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
> - 重複していない顧客：顧客ID（customer_id）を設定
> - 重複している顧客：前設問で抽出したレコードの顧客IDを設定
> 
> 顧客IDのユニーク件数と、統合名寄IDのユニーク件数の差も確認すること。

In [113]:
%%sql

DROP TABLE IF EXISTS customer_n;
CREATE TABLE customer_n AS (
    SELECT 
        c.*, 
        u.customer_id AS integration_id
    FROM 
        customer c
    JOIN
        customer_u u
    ON c.customer_name = u.customer_name
        AND c.postal_cd = u.postal_cd
);


*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
21971 rows affected.


[]

In [114]:
%%sql

SELECT COUNT(1) AS ID数の差 FROM customer_n
WHERE customer_id != integration_id;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


id数の差
30


---
> S-089: 売上実績がある顧客を、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

In [132]:
%%sql

with tmp_table as (
    select
        customer_id,
        sum(amount) as sum_amount,
        row_number() over (order by random()) as seq_num,
        count(*) over () as total_count
    from receipt
    group by customer_id
    having sum(amount) > 0
),
partitioned_data as (
    select
        customer_id,
        sum_amount,
        seq_num,
        total_count,
        case
            when seq_num <= total_count * 0.7 then 'train'
            else 'validate'
        end as dataset_type
    from tmp_table
)

select 
    customer_id, sum_amount
from partitioned_data
where dataset_type = 'train'
limit 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_amount
CS040512000004,278
CS038515000170,1587
CS025513000073,1445
CS019215000020,4202
CS019411000049,1833
CS013515000176,10830
CS002513000484,296
CS037513000129,1546
CS025515000148,3478
CS006512000014,238


In [143]:
%%sql

with tmp_table as (
    select
        customer_id,
        sum(amount) as sum_amount,
        row_number() over (order by random()) as seq_num,
        count(*) over () as total_count
    from receipt
    group by customer_id
    having sum(amount) > 0
),
partitioned_data as (
    select
        customer_id,
        sum_amount,
        seq_num,
        total_count,
        case
            when seq_num <= total_count * 0.7 then 'train'
            else 'validate'
        end as dataset_type
    from tmp_table
)

select dataset_type, count(*) 
from partitioned_data 
group by dataset_type;

*  postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


dataset_type,count
train,5814
validate,2493


---
> S-090: レシート明細データ（receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月の時系列モデル構築用データを3セット作成せよ。

In [165]:
%%sql

with month_sum_amount as (
    select
        substring(cast(sales_ymd as VARCHAR),1 ,6) as month,
        sum(amount) as sum_amount,
        row_number() over (order by random()) as seq_num,
        count(*) over () as total_count
    from receipt
    group by substring(cast(sales_ymd as VARCHAR),1 ,6)
    order by month    
),

partitioned_data as (
    select
        month,
        sum_amount,
        seq_num,
        total_count,
        case
            when seq_num <= total_count * 0.7 then 'train'
            else 'validate'
        end as dataset_type
    from month_sum_amount
)

select dataset_type, count(*) 
from partitioned_data 
group by dataset_type

##offsetについて、trainは11まで、validateは5まで可能

*  postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


dataset_type,count
train,23
validate,11


---
> S-091: 顧客データ（customer）の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [None]:
%%sql
分からん

---
> S-092: 顧客データ（customer）の性別について、第三正規形へと正規化せよ。

In [3]:
%%sql

select
*from
customer
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
CS020401000016,宮下 達士,0,男性,1974-09-15,44,174-0065,東京都板橋区若木**********,S13020,20150225,0-00000000-0
CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
CS029403000008,釈 人志,0,男性,1973-08-17,45,279-0003,千葉県浦安市海楽**********,S12029,20150515,0-00000000-0
CS015804000004,松谷 米蔵,0,男性,1931-05-02,87,136-0073,東京都江東区北砂**********,S13015,20150607,0-00000000-0
CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5


In [7]:
%%sql

drop table if exists gender_seikika;

create table gender_seikika as (
    select
        distinct gender_cd,
        gender
    from customer
);

select
    *
from gender_seikika

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
3 rows affected.
3 rows affected.


gender_cd,gender
0,男性
9,不明
1,女性


---
> S-093: 商品データ（product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリデータ（category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品データを作成せよ。

In [9]:
%%sql

select
*
from
product
limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
P040101001,4,401,40101,198,149
P040101002,4,401,40101,218,164
P040101003,4,401,40101,230,173


In [8]:
%%sql

select 
*
from category
limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


category_major_cd,category_major_name,category_medium_cd,category_medium_name,category_small_cd,category_small_name
4,惣菜,401,御飯類,40101,弁当類
4,惣菜,401,御飯類,40102,寿司類
4,惣菜,402,佃煮類,40201,魚介佃煮類


In [13]:
%%sql

drop table if exists full_product;
create table full_product as (
    select
        p.*,
        c.category_major_name,
        c.category_medium_name,
        c.category_small_name
    from product p join category c using(category_major_cd, category_medium_cd, category_small_cd)     
);
select
    *
from full_product
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_name,category_medium_name,category_small_name
P040101001,4,401,40101,198,149,惣菜,御飯類,弁当類
P040101002,4,401,40101,218,164,惣菜,御飯類,弁当類
P040101003,4,401,40101,230,173,惣菜,御飯類,弁当類
P040101004,4,401,40101,248,186,惣菜,御飯類,弁当類
P040101005,4,401,40101,268,201,惣菜,御飯類,弁当類
P040101006,4,401,40101,298,224,惣菜,御飯類,弁当類
P040101007,4,401,40101,338,254,惣菜,御飯類,弁当類
P040101008,4,401,40101,420,315,惣菜,御飯類,弁当類
P040101009,4,401,40101,498,374,惣菜,御飯類,弁当類
P040101010,4,401,40101,580,435,惣菜,御飯類,弁当類


---
> S-094: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。

In [17]:
%%sql

drop table if exists full_product;
create table full_product as (
    select
        p.*,
        c.category_major_name,
        c.category_medium_name,
        c.category_small_name
    from product p join category c using(category_major_cd, category_medium_cd, category_small_cd)     
);

copy full_product to '/tmp/data/full_product_UTF-8_header.csv' 
with csv header encoding 'UTF-8';

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.
10030 rows affected.


[]

---
> S-095: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|CP932|
> 
> PostgreSQLではShift_JISを指定することでCP932相当となる。ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。

In [19]:
%%sql

drop table if exists full_product;
create table full_product as (
    select
        p.*,
        c.category_major_name,
        c.category_medium_name,
        c.category_small_name
    from product p join category c using(category_major_cd, category_medium_cd, category_small_cd)     
);

copy full_product to '/tmp/data/full_product_SJIS_header.csv' 
with csv header encoding 'SJIS';

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.
10030 rows affected.


[]

---
> S-096: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|無し|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。

In [20]:
%%sql

drop table if exists full_product;
create table full_product as (
    select
        p.*,
        c.category_major_name,
        c.category_medium_name,
        c.category_small_name
    from product p join category c using(category_major_cd, category_medium_cd, category_small_cd)     
);

copy full_product to '/tmp/data/full_product_UTF-8.csv' 
with csv encoding 'UTF-8';

*  postgresql://padawan:***@db:5432/dsdojo_db
Done.
10030 rows affected.
10030 rows affected.


[]

---
> S-097: 094で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|

In [21]:
%%sql

copy full_product from '/tmp/data/full_product_UTF-8_header.csv' 
with csv header encoding 'UTF-8';

select
*
from full_product
limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
10030 rows affected.
3 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_name,category_medium_name,category_small_name
P040101001,4,401,40101,198,149,惣菜,御飯類,弁当類
P040101002,4,401,40101,218,164,惣菜,御飯類,弁当類
P040101003,4,401,40101,230,173,惣菜,御飯類,弁当類


---
> S-098: 096で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|ヘッダ無し|UTF-8|

In [23]:
%%sql

copy full_product from '/tmp/data/full_product_UTF-8.csv' 
with csv encoding 'UTF-8';

select
*
from full_product
limit 3;

*  postgresql://padawan:***@db:5432/dsdojo_db
10030 rows affected.
3 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_name,category_medium_name,category_small_name
P040101001,4,401,40101,198,149,惣菜,御飯類,弁当類
P040101002,4,401,40101,218,164,惣菜,御飯類,弁当類
P040101003,4,401,40101,230,173,惣菜,御飯類,弁当類


---
> S-099: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。


In [27]:
%%sql

copy full_product to '/tmp/data/full_product_UTF-8_header.csv' 
with csv header delimiter e'\t' encoding 'UTF-8';

*  postgresql://padawan:***@db:5432/dsdojo_db
40120 rows affected.


[]

---
> S-100: 099で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|

In [29]:
%%sql

copy full_product from '/tmp/data/full_product_UTF-8_header.csv' 
with csv header delimiter e'\t' encoding 'UTF-8';

select
*
from full_product
limit 3

*  postgresql://padawan:***@db:5432/dsdojo_db
40120 rows affected.
3 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_name,category_medium_name,category_small_name
P040101001,4,401,40101,198,149,惣菜,御飯類,弁当類
P040101002,4,401,40101,218,164,惣菜,御飯類,弁当類
P040101003,4,401,40101,230,173,惣菜,御飯類,弁当類


# これで１００本終わりです。おつかれさまでした！