# データサイエンス100本ノック（構造化データ加工編） - SQL

## はじめに
- データベースはPostgreSQL13です
- 初めに以下のセルを実行してください
- セルに %%sql と記載することでSQLを発行することができます
- jupyterからはdescribeコマンドによるテーブル構造の確認ができないため、テーブル構造を確認する場合はlimitを指定したSELECTなどで代用してください
- 使い慣れたSQLクライアントを使っても問題ありません（接続情報は以下の通り）
  - IPアドレス：Docker Desktopの場合はlocalhost、Docker toolboxの場合は192.168.99.100
  - Port:5432
  - database名: dsdojo_db
  - ユーザ名：padawan
  - パスワード:padawan12345
- 大量出力を行うとJupyterが固まることがあるため、出力件数は制限することを推奨します（設問にも出力件数を記載）
    - 結果確認のために表示させる量を適切にコントロールし、作業を軽快にすすめる技術もデータ加工には求められます
- 大量結果が出力された場合は、ファイルが重くなり以降開けなくなることもあります
    - その場合、作業結果は消えますがファイルをGitHubから取り直してください
    - vimエディタなどで大量出力範囲を削除することもできます
- 名前、住所等はダミーデータであり、実在するものではありません

In [1]:
%load_ext sql
import os
from sqlalchemy import create_engine

pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}
dsl = 'postgresql://{user}:{password}@{host}:{port}/{database}'.format(**pgconfig)
conn = create_engine(dsl)

# MagicコマンドでSQLを書くための設定
%sql conn

[33mThere's a new jupysql version available (0.10.9), you're running 0.7.2. To upgrade: pip install jupysql --upgrade[0m


# 使い方
- セルの先頭に%%sqlと記載し、２行目以降にSQLを記述することでJupyterからPostgreSQLに対しSQLを実行できます。

In [3]:
%%sql
SELECT 'このように実行できます' AS sample;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sample
このように実行できます


# データ加工100本ノック

---
> S-001: レシート明細データ（receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [4]:
%%sql
SELECT * FROM receipt LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680


---
> S-002: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。

In [11]:
%%sql
SELECT sales_ymd, customer_id, product_cd, amount
FROM receipt
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-003: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。ただし、sales_ymdをsales_dateに項目名を変更しながら抽出すること。

In [13]:
%%sql
SELECT sales_ymd as sales_date, customer_id, product_cd, amount
FROM receipt
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_date,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-004: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [14]:
%%sql
SELECT sales_ymd, customer_id, product_cd, amount
FROM receipt
WHERE customer_id = 'CS018205000001';

*  postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-005: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [15]:
%%sql
SELECT sales_ymd, customer_id, product_cd, amount
FROM receipt
WHERE
customer_id = 'CS018205000001'
AND amount >= 1000;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-006: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [17]:
%%sql
SELECT sales_ymd, customer_id, product_cd, quantity, amount
FROM receipt
WHERE
customer_id = 'CS018205000001'
AND (amount >= 1000 OR quantity >= 5);

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


sales_ymd,customer_id,product_cd,quantity,amount
20180911,CS018205000001,P071401012,1,2200
20180414,CS018205000001,P060104007,6,600
20170614,CS018205000001,P050206001,5,990
20190226,CS018205000001,P071401020,1,2200
20180911,CS018205000001,P071401005,1,1100


---
> S-007: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [21]:
%%sql
SELECT sales_ymd, customer_id, product_cd, amount
FROM receipt
WHERE
customer_id = 'CS018205000001'
AND amount BETWEEN 1000 AND 2000;


*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401005,1100


---
> S-008: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [23]:
%%sql
SELECT sales_ymd, customer_id, product_cd, amount
FROM receipt
WHERE customer_id = 'CS018205000001'
AND product_cd != 'P071401019';

*  postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。
>
> `SELECT * FROM store WHERE NOT (prefecture_cd = '13' OR floor_area > 900)`

In [26]:
%%sql
SELECT * FROM store
WHERE
floor_area <= 900
AND prefecture_cd != '13';


*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> S-010: 店舗データ（store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件表示せよ。

In [30]:
%%sql
SELECT * FROM store
WHERE
store_cd LIKE 'S14%';

*  postgresql://padawan:***@db:5432/dsdojo_db
23 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,139.5789,35.29642,1838.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0


---
> S-011: 顧客データ（customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件表示せよ。

In [31]:
%%sql
SELECT * FROM customer
WHERE customer_id LIKE '%1'
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS028314000011,小菅 あおい,1,女性,1983-11-26,35,246-0038,神奈川県横浜市瀬谷区宮沢**********,S14028,20151123,1-20080426-5
CS039212000051,藤島 恵梨香,1,女性,1997-02-03,22,166-0001,東京都杉並区阿佐谷北**********,S13039,20171121,1-20100215-4
CS015412000111,松居 奈月,1,女性,1972-10-04,46,136-0071,東京都江東区亀戸**********,S13015,20150629,0-00000000-0
CS004702000041,野島 洋,0,男性,1943-08-24,75,176-0022,東京都練馬区向山**********,S13004,20170218,0-00000000-0
CS041515000001,栗田 千夏,1,女性,1967-01-02,52,206-0001,東京都多摩市和田**********,S13041,20160422,E-20100803-F
CS029313000221,北条 ひかり,1,女性,1987-06-19,31,279-0011,千葉県浦安市美浜**********,S12029,20180810,0-00000000-0
CS034312000071,望月 奈央,1,女性,1980-09-20,38,213-0026,神奈川県川崎市高津区久末**********,S14034,20160106,0-00000000-0


---
> S-012: 店舗データ（store）から、住所 (address) に"横浜市"が含まれるものだけ全項目表示せよ。

In [33]:
%%sql
SELECT * FROM store
WHERE address LIKE '%横浜市%';


*  postgresql://padawan:***@db:5432/dsdojo_db
11 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,139.5758,35.54912,1657.0
S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,139.6593,35.43894,1044.0


---
> S-013: 顧客データ（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件表示せよ。

In [39]:
%%sql
SELECT *
FROM customer
WHERE status_cd ~ '^[A-F]'
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS029415000023,梅田 里穂,1,女性,1976-01-17,43,279-0043,千葉県浦安市富士見**********,S12029,20150610,D-20100918-E
CS035415000029,寺沢 真希,9,不明,1977-09-27,41,158-0096,東京都世田谷区玉川台**********,S13035,20141220,F-20101029-F
CS031415000106,宇野 由美子,1,女性,1970-02-26,49,151-0053,東京都渋谷区代々木**********,S13031,20150201,F-20100511-E
CS029215000025,石倉 美帆,1,女性,1993-09-28,25,279-0022,千葉県浦安市今川**********,S12029,20150708,B-20100820-C
CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F


---
> S-014: 顧客データ（customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [41]:
%%sql
SELECT *
FROM customer
WHERE status_cd ~ '[1-9]$'
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS009315000023,皆川 文世,1,女性,1980-04-15,38,154-0012,東京都世田谷区駒沢**********,S13009,20150319,5-20080322-1
CS015315000033,福士 璃奈子,1,女性,1983-03-17,36,135-0043,東京都江東区塩浜**********,S13015,20141024,4-20080219-3
CS023513000066,神戸 そら,1,女性,1961-12-17,57,210-0005,神奈川県川崎市川崎区東田町**********,S14023,20150915,5-20100524-9
CS035513000134,市川 美帆,1,女性,1960-03-27,59,156-0053,東京都世田谷区桜**********,S13035,20150227,8-20100711-9
CS001515000263,高松 夏空,1,女性,1962-11-09,56,144-0051,東京都大田区西蒲田**********,S13001,20160812,1-20100804-1
CS040314000027,鶴田 きみまろ,9,不明,1986-03-26,33,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150122,2-20080426-4


---
> S-015: 顧客データ（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [43]:
%%sql
SELECT *
FROM customer
WHERE status_cd ~ '^[A-F].*[1-9]$'
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS022513000105,島村 貴美子,1,女性,1962-03-12,57,249-0002,神奈川県逗子市山の根**********,S14022,20150320,A-20091115-7
CS001515000096,水野 陽子,9,不明,1960-11-29,58,144-0053,東京都大田区蒲田本町**********,S13001,20150614,A-20100724-7
CS013615000053,西脇 季衣,1,女性,1953-10-18,65,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150128,B-20100329-6
CS020412000161,小宮 薫,1,女性,1974-05-21,44,174-0042,東京都板橋区東坂下**********,S13020,20150822,B-20081021-3
CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
CS035212000007,内村 恵梨香,1,女性,1990-12-04,28,152-0023,東京都目黒区八雲**********,S13035,20151013,B-20101018-6
CS002515000386,野田 コウ,1,女性,1963-05-30,55,185-0013,東京都国分寺市西恋ケ窪**********,S13002,20160410,C-20100127-8
CS001615000372,稲垣 寿々花,1,女性,1956-10-29,62,144-0035,東京都大田区南蒲田**********,S13001,20170403,A-20100104-1
CS032512000121,松井 知世,1,女性,1962-09-04,56,210-0011,神奈川県川崎市川崎区富士見**********,S13032,20150727,A-20100103-5


---
> S-016: 店舗データ（store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [4]:
%%sql
SELECT * FROM store
WHERE tel_no ~ '^[0-9]{3}-[0-9]{3}-[0-9]{4}$';

*  postgresql://padawan:***@db:5432/dsdojo_db
34 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S13052,森野店,13,東京都,東京都町田市森野三丁目,トウキョウトマチダシモリノサンチョウメ,042-123-4030,139.4383,35.55293,1087.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0


---
> S-017: 顧客データ（customer）を生年月日（birth_day）で高齢順にソートし、先頭から全項目を10件表示せよ。

In [7]:
%%sql
SELECT * FROM customer
ORDER BY birth_day
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0
CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0


---
> S-018: 顧客データ（customer）を生年月日（birth_day）で若い順にソートし、先頭から全項目を10件表示せよ。

In [9]:
%%sql
SELECT * FROM customer
ORDER BY birth_day DESC
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS035114000004,大村 美里,1,女性,2007-11-25,11,156-0053,東京都世田谷区桜**********,S13035,20150619,6-20091205-6
CS022103000002,福山 はじめ,9,不明,2007-10-02,11,249-0006,神奈川県逗子市逗子**********,S14022,20160909,0-00000000-0
CS002113000009,柴田 真悠子,1,女性,2007-09-17,11,184-0014,東京都小金井市貫井南町**********,S13002,20160304,0-00000000-0
CS004115000014,松井 京子,1,女性,2007-08-09,11,165-0031,東京都中野区上鷺宮**********,S13004,20161120,1-20081231-1
CS002114000010,山内 遥,1,女性,2007-06-03,11,184-0015,東京都小金井市貫井北町**********,S13002,20160920,6-20100510-1
CS025115000002,小柳 夏希,1,女性,2007-04-18,11,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20160116,D-20100913-D
CS002113000025,広末 まなみ,1,女性,2007-03-30,12,184-0015,東京都小金井市貫井北町**********,S13002,20171030,0-00000000-0
CS033112000003,長野 美紀,1,女性,2007-03-22,12,245-0051,神奈川県横浜市戸塚区名瀬町**********,S14033,20150606,0-00000000-0
CS007115000006,福岡 瞬,1,女性,2007-03-10,12,285-0845,千葉県佐倉市西志津**********,S12007,20151118,F-20101016-F
CS014113000008,矢口 莉緒,1,女性,2007-03-05,12,260-0041,千葉県千葉市中央区東千葉**********,S12014,20150622,3-20091108-6


---
> S-019: レシート明細データ（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [13]:
%%sql
SELECT customer_id, amount, RANK() OVER (ORDER BY amount DESC) AS rank
FROM receipt
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,rank
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
ZZ000000000000,5480,4
CS015515000034,5480,4
ZZ000000000000,5440,7
CS021515000089,5440,7
CS001412000160,5280,9
CS020414000081,5280,9


---
> S-020: レシート明細データ（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [17]:
%%sql
SELECT customer_id, amount, ROW_NUMBER() OVER (ORDER BY amount DESC) AS RANK
FROM receipt
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,rank
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,5
ZZ000000000000,5480,6
ZZ000000000000,5440,7
CS021515000089,5440,8
CS001412000160,5280,9
CS020414000081,5280,10


---
> S-021: レシート明細データ（receipt）に対し、件数をカウントせよ。

In [2]:
%%sql
SELECT count(*) FROM receipt;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
104681


---
> S-022: レシート明細データ（receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [5]:
%%sql
SELECT count(DISTINCT customer_id) FROM receipt;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
8307


---
> S-023: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [6]:
%%sql
SELECT SUM(amount) AS total_amount, SUM(quantity) AS total_quantity
FROM receipt
GROUP BY store_cd;

*  postgresql://padawan:***@db:5432/dsdojo_db
52 rows affected.


total_amount,total_quantity
638761,2099
748221,2376
587895,1881
100314,250
793773,2432
714550,2303
808870,2486
651328,2047
827833,2541
611888,1981


---
> S-024: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）を求め、10件表示せよ。

In [11]:
%%sql
SELECT customer_id, MAX(sales_ymd) AS latest FROM receipt
GROUP BY customer_id
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,latest
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20180621
CS007515000119,20190511
CS034515000123,20190708
CS004315000058,20170517
CS026414000014,20190720
CS001615000099,20170729


---
> S-025: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も古い売上年月日（sales_ymd）を求め、10件表示せよ。

In [13]:
%%sql
SELECT customer_id, MIN(sales_ymd) AS oldest
FROM receipt
GROUP BY customer_id
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,oldest
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20170318
CS007515000119,20170201
CS034515000123,20170527
CS004315000058,20170517
CS026414000014,20170718
CS001615000099,20170729


---
> S-026: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）と古い売上年月日を求め、両者が異なるデータを10件表示せよ。

In [18]:
%%sql
SELECT customer_id, MAX(sales_ymd) AS latest, MIN(sales_ymd) AS oldest
FROM receipt
GROUP BY customer_id
HAVING MAX(sales_ymd) <> MIN(sales_ymd)
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,latest,oldest
CS029212000033,20180621,20170318
CS007515000119,20190511,20170201
CS034515000123,20190708,20170527
CS026414000014,20190720,20170718
CS010515000082,20181204,20180518
CS019315000045,20170920,20170423
CS008513000099,20190308,20170722
CS007615000070,20191025,20170929
CS025415000155,20191026,20170314
CS016414000063,20190617,20170109


---
> S-027: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [20]:
%%sql
SELECT store_cd, AVG(amount) average_amount
FROM receipt
GROUP BY store_cd
ORDER BY average_amount
LIMIT 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,average_amount
S14042,278.3388859968766
S12030,288.53372681281616
S14050,290.59130434782605
S14049,297.8167741935484
S13037,299.90783210731286


---
> S-028: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [40]:
%%sql
SELECT store_cd, PERCENTILE_CONT(0.5) WITHIN GROUP(ORDER BY amount) AS med
FROM receipt
GROUP BY store_cd
ORDER BY med DESC
LIMIT 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,med
S13052,190.0
S14010,188.0
S14050,185.0
S13003,180.0
S13018,180.0


---
> S-029: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求め、10件表示させよ。

In [65]:
%%sql
WITH FrequencyTable AS (
    SELECT store_cd, product_cd, COUNT(*) AS freq
    FROM receipt
    GROUP BY store_cd, product_cd
),
MaxFrequency AS (
    SELECT store_cd, MAX(freq) AS max_freq
    FROM FrequencyTable
    GROUP BY store_cd
)
SELECT ft.store_cd, ft.product_cd
FROM FrequencyTable ft
JOIN MaxFrequency mf ON 
    ft.store_cd = mf.store_cd
AND ft.freq = mf.max_freq
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,product_cd
S14024,P060303001
S13051,P050102001
S13035,P040503001
S13052,P050101001
S13020,P071401001
S13038,P060303001
S12014,P060303001
S13009,P060303001
S14022,P060303001
S14011,P060101001


---
> S-030: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の分散を計算し、降順で5件表示せよ。

In [68]:
%%sql
SELECT store_cd, VARIANCE(amount) AS var
FROM receipt
GROUP BY store_cd
ORDER BY var DESC
LIMIT 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,var
S13052,441863.252526234
S14011,306442.24243156874
S14034,297068.39274006075
S13001,295558.8426177125
S13015,295427.1970858536


---
> S-031: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標準偏差を計算し、降順で5件表示せよ。

In [4]:
%%sql
SELECT store_cd, STDDEV(amount) AS std
FROM receipt
GROUP BY store_cd
ORDER BY std DESC
LIMIT 5;


*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,std
S13052,664.727953772244
S14011,553.57225583619
S14034,545.039808399406
S13001,543.65323747561
S13015,543.532149082144


---
> S-032: レシート明細データ（receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [5]:
%%sql
SELECT 
    PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY amount) AS percentile_25,
    PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY amount) AS percentile_50,
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY amount) AS percentile_75,
    PERCENTILE_CONT(1) WITHIN GROUP (ORDER BY amount) AS percentile_100
FROM receipt;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


percentile_25,percentile_50,percentile_75,percentile_100
102.0,170.0,288.0,10925.0


---
> S-033: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [11]:
%%sql
SELECT store_cd, AVG(amount) AS sales
FROM receipt
GROUP BY store_cd
HAVING AVG(amount) >= 330;


*  postgresql://padawan:***@db:5432/dsdojo_db
13 rows affected.


store_cd,sales
S13052,402.86746987951807
S13019,330.2086158755485
S13003,350.9155188246097
S14045,330.0820734341253
S13004,330.943949044586
S13001,348.4703862660944
S14026,332.34058847239015
S14010,348.79126213592235
S13015,351.11196043165467
S12013,330.19412997903567


---
> S-034: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [31]:
%%sql
WITH SUM_TABLE AS(
    SELECT customer_id, SUM(amount) AS sum
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
)
SELECT AVG(sum) AS avg
FROM SUM_TABLE;





*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


avg
2547.742234529256


---
> S-035: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出し、10件表示せよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [54]:
%%sql
WITH CustomerSales AS (
    SELECT customer_id, SUM(amount) AS total_amount
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
), AverageSales AS (
    SELECT AVG(total_amount) AS average_amount
    FROM CustomerSales
)
SELECT cs.customer_id, cs.total_amount
FROM CustomerSales cs, AverageSales
WHERE cs.total_amount >= AverageSales.average_amount
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount
CS029212000033,3604
CS007515000119,7157
CS034515000123,3699
CS026414000014,6671
CS007615000070,2975
CS016414000063,6207
CS012514000018,2562
CS029515000142,3420
CS015215000021,3090
CS039814000011,8031


---
> S-036: レシート明細データ（receipt）と店舗データ（store）を内部結合し、レシート明細データの全項目と店舗データの店舗名（store_name）を10件表示せよ。

In [3]:
%%sql
SELECT r.*, s.store_name
FROM receipt r
INNER JOIN store s ON r.store_cd = s.store_cd
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158,葛が谷店
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81,成城店
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170,二ツ橋店
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25,新山下店
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90,大和店
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138,狛江店
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30,三田店
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128,長津田店
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770,十条仲原店
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680,南藤沢店


---
> S-037: 商品データ（product）とカテゴリデータ（category）を内部結合し、商品データの全項目とカテゴリデータのカテゴリ小区分名（category_small_name）を10件表示せよ。

In [28]:
%%sql
SELECT p.*, c.category_small_name
FROM product p
INNER JOIN category c ON p.category_small_cd = c.category_small_cd
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_small_name
P040101001,4,401,40101,198,149,弁当類
P040101002,4,401,40101,218,164,弁当類
P040101003,4,401,40101,230,173,弁当類
P040101004,4,401,40101,248,186,弁当類
P040101005,4,401,40101,268,201,弁当類
P040101006,4,401,40101,298,224,弁当類
P040101007,4,401,40101,338,254,弁当類
P040101008,4,401,40101,420,315,弁当類
P040101009,4,401,40101,498,374,弁当類
P040101010,4,401,40101,580,435,弁当類


---
> S-038: 顧客データ（customer）とレシート明細データ（receipt）から、顧客ごとの売上金額合計を求め、10件表示せよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [37]:
%%sql
SELECT c.customer_id, COALESCE(SUM(r.amount), 0)
FROM customer c
LEFT JOIN receipt r ON c.customer_id = r.customer_id
WHERE c.gender_cd = '1' AND c.customer_id NOT LIKE 'Z%'
GROUP BY c.customer_id
LIMIT 10;



*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,coalesce
CS004412000425,0
CS007512000199,0
CS002712000064,0
CS039515000243,0
CS001615000099,768
CS010515000082,1482
CS019315000045,813
CS008513000099,1322
CS007615000070,2975
CS029511000005,0


---
> S-039: レシート明細データ（receipt）から、売上日数の多い顧客の上位20件を抽出したデータと、売上金額合計の多い顧客の上位20件を抽出したデータをそれぞれ作成し、さらにその2つを完全外部結合せよ。ただし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [38]:
%%sql
-- 売上日数の多い顧客の上位20件
WITH SalesDays AS (
    SELECT customer_id, COUNT(DISTINCT sales_ymd) AS sales_days
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
    ORDER BY sales_days DESC
    LIMIT 20
),
-- 売上金額合計の多い顧客の上位20件
TotalAmount AS (
    SELECT customer_id, SUM(amount) AS total_amount
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
    ORDER BY total_amount DESC
    LIMIT 20
)
-- 2つのデータセットを完全外部結合
SELECT 
    COALESCE(SalesDays.customer_id, TotalAmount.customer_id) AS customer_id,
    SalesDays.sales_days,
    TotalAmount.total_amount
FROM SalesDays
FULL OUTER JOIN TotalAmount ON SalesDays.customer_id = TotalAmount.customer_id;



*  postgresql://padawan:***@db:5432/dsdojo_db
34 rows affected.


customer_id,sales_days,total_amount
CS040214000008,23.0,
CS015415000185,22.0,20153.0
CS010214000010,22.0,18585.0
CS028415000007,21.0,19127.0
CS010214000002,21.0,
CS017415000097,20.0,23086.0
CS016415000141,20.0,18372.0
CS021514000045,19.0,
CS022515000226,19.0,
CS031414000051,19.0,19202.0


---
> S-040: 全ての店舗と全ての商品を組み合わせたデータを作成したい。店舗データ（store）と商品データ（product）を直積し、件数を計算せよ。

In [40]:
%%sql
SELECT count(*)
FROM store CROSS JOIN product;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
531590


---
> S-041: レシート明細データ（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前回売上があった日からの売上金額増減を計算せよ。そして結果を10件表示せよ。

In [2]:
%%sql
WITH sales_amount_per_day AS (
    SELECT
        TO_CHAR(TO_DATE(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD'), 'YYYY-MM-DD') AS sales_date,
        SUM(amount) AS total_amount
    FROM
        receipt
    GROUP BY
        sales_ymd
),
sales_with_previous_day AS (
    SELECT
        sales_date,
        total_amount,
        LAG(total_amount) OVER (ORDER BY sales_date) AS previous_day_amount
    FROM
        sales_amount_per_day
)
SELECT
    sales_date,
    total_amount,
    total_amount - COALESCE(previous_day_amount, 0) AS amount_difference
FROM
    sales_with_previous_day
ORDER BY
    sales_date
LIMIT 10;



*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_date,total_amount,amount_difference
2017-01-01,33723,33723
2017-01-02,24165,-9558
2017-01-03,27503,3338
2017-01-04,36165,8662
2017-01-05,37830,1665
2017-01-06,32387,-5443
2017-01-07,23415,-8972
2017-01-08,24737,1322
2017-01-09,26718,1981
2017-01-10,20143,-6575


---
> S-042: レシート明細データ（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、前回、前々回、3回前に売上があった日のデータを結合せよ。そして結果を10件表示せよ。

In [6]:
%%sql
WITH sales_amount_per_day AS (
    SELECT
        sales_ymd,
        SUM(amount) AS total_amount
    FROM
        receipt
    GROUP BY
        sales_ymd
),
sales_with_previous_days AS (
    SELECT
        sales_ymd,
        total_amount,
        LAG(sales_ymd, 1) OVER (ORDER BY sales_ymd) AS previous_day,
        LAG(sales_ymd, 2) OVER (ORDER BY sales_ymd) AS day_before_previous,
        LAG(sales_ymd, 3) OVER (ORDER BY sales_ymd) AS three_days_ago
    FROM
        sales_amount_per_day
)
SELECT
    a.sales_ymd,
    a.total_amount,
    b.sales_ymd AS previous_day_sales_ymd,
    b.total_amount AS previous_day_amount,
    c.sales_ymd AS day_before_previous_sales_ymd,
    c.total_amount AS day_before_previous_amount,
    d.sales_ymd AS three_days_ago_sales_ymd,
    d.total_amount AS three_days_ago_amount
FROM
    sales_with_previous_days a
LEFT JOIN sales_amount_per_day b ON a.previous_day = b.sales_ymd
LEFT JOIN sales_amount_per_day c ON a.day_before_previous = c.sales_ymd
LEFT JOIN sales_amount_per_day d ON a.three_days_ago = d.sales_ymd
ORDER BY
    a.sales_ymd
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,total_amount,previous_day_sales_ymd,previous_day_amount,day_before_previous_sales_ymd,day_before_previous_amount,three_days_ago_sales_ymd,three_days_ago_amount
20170101,33723,,,,,,
20170102,24165,20170101.0,33723.0,,,,
20170103,27503,20170102.0,24165.0,20170101.0,33723.0,,
20170104,36165,20170103.0,27503.0,20170102.0,24165.0,20170101.0,33723.0
20170105,37830,20170104.0,36165.0,20170103.0,27503.0,20170102.0,24165.0
20170106,32387,20170105.0,37830.0,20170104.0,36165.0,20170103.0,27503.0
20170107,23415,20170106.0,32387.0,20170105.0,37830.0,20170104.0,36165.0
20170108,24737,20170107.0,23415.0,20170106.0,32387.0,20170105.0,37830.0
20170109,26718,20170108.0,24737.0,20170107.0,23415.0,20170106.0,32387.0
20170110,20143,20170109.0,26718.0,20170108.0,24737.0,20170107.0,23415.0


---
> S-043: レシート明細データ（receipt）と顧客データ（customer）を結合し、性別コード（gender_cd）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリデータを作成せよ。性別コードは0が男性、1が女性、9が不明を表すものとする。
>
> ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [6]:
%%sql
SELECT
    FLOOR(age / 10) * 10 as age_group,
    SUM(CASE gender_cd WHEN '0' THEN amount ELSE 0 END) AS male_sales,
    SUM(CASE gender_cd WHEN '1' THEN amount ELSE 0 END) AS female_sales,
    SUM(CASE gender_cd WHEN '9' THEN amount ELSE 0 END) AS unknown_gender_sales
FROM receipt
INNER JOIN customer ON receipt.customer_id = customer.customer_id
GROUP BY age_group
ORDER BY age_group;

*  postgresql://padawan:***@db:5432/dsdojo_db
9 rows affected.


age_group,male_sales,female_sales,unknown_gender_sales
10.0,1591,149836,4317
20.0,72940,1363724,44328
30.0,177322,693047,50441
40.0,19355,9320791,483512
50.0,54320,6685192,342923
60.0,272469,987741,71418
70.0,13435,29764,2427
80.0,46360,262923,5111
90.0,0,6260,0


---
> S-044: 043で作成した売上サマリデータ（sales_summary）は性別の売上を横持ちさせたものであった。このデータから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を"00"、女性を"01"、不明を"99"とする。

In [13]:
%%sql
WITH sales_summary AS(
SELECT
    FLOOR(age / 10) * 10 as age_group,
    SUM(CASE gender_cd WHEN '0' THEN amount ELSE 0 END) AS male_sales,
    SUM(CASE gender_cd WHEN '1' THEN amount ELSE 0 END) AS female_sales,
    SUM(CASE gender_cd WHEN '9' THEN amount ELSE 0 END) AS unknown_gender_sales
FROM receipt
INNER JOIN customer ON receipt.customer_id = customer.customer_id
GROUP BY age_group
ORDER BY age_group
)
SELECT
    age_group,
    '00' AS gender_cd,
    male_sales AS sales_amount
FROM sales_summary
UNION ALL
SELECT
    age_group,
    '01' AS gender_cd,
    female_sales AS sales_amount
FROM sales_summary
UNION ALL
SELECT
    age_group,
    '99' AS gender_cd,
    unknown_gender_sales AS sales_amount
FROM sales_summary

*  postgresql://padawan:***@db:5432/dsdojo_db
27 rows affected.


age_group,gender_cd,sales_amount
10.0,0,1591
20.0,0,72940
30.0,0,177322
40.0,0,19355
50.0,0,54320
60.0,0,272469
70.0,0,13435
80.0,0,46360
90.0,0,0
10.0,1,149836


---
> S-045: 顧客データ（customer）の生年月日（birth_day）は日付型でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [18]:
%%sql
SELECT TO_CHAR(birth_day, 'YYYYMMDD') AS formatted_date, customer_id
FROM customer
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


formatted_date,customer_id
19810429,CS021313000114
19520401,CS037613000071
19761004,CS031415000172
19330327,CS028811000001
19950329,CS001215000145
19740915,CS020401000016
19770809,CS015414000103
19730817,CS029403000008
19310502,CS015804000004
19620711,CS033513000180


---
> S-046: 顧客データ（customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [5]:
%%sql
SELECT
    customer_id,
    TO_DATE(application_date, 'YYYYMMDD') AS converted_date
FROM
    customer
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,converted_date
CS021313000114,2015-09-05
CS037613000071,2015-04-14
CS031415000172,2015-05-29
CS028811000001,2016-01-15
CS001215000145,2017-06-05
CS020401000016,2015-02-25
CS015414000103,2015-07-22
CS029403000008,2015-05-15
CS015804000004,2015-06-07
CS033513000180,2015-07-28


---
> S-047: レシート明細データ（receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [9]:
%%sql
SELECT
    receipt_no,
    receipt_sub_no,
    TO_DATE(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD')
FROM receipt
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,to_date
112,1,2018-11-03
1132,2,2018-11-18
1102,1,2017-07-12
1132,1,2019-02-05
1102,2,2018-08-21
1112,1,2019-06-05
1102,2,2018-12-05
1102,1,2019-09-22
1112,2,2017-05-04
1102,1,2019-10-10


---
> S-048: レシート明細データ（receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [10]:
%%sql
SELECT
    receipt_no,
    receipt_sub_no,
    TO_TIMESTAMP(sales_epoch) AS cd
FROM receipt
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,cd
112,1,2018-11-03 00:00:00+00:00
1132,2,2018-11-18 00:00:00+00:00
1102,1,2017-07-12 00:00:00+00:00
1132,1,2019-02-05 00:00:00+00:00
1102,2,2018-08-21 00:00:00+00:00
1112,1,2019-06-05 00:00:00+00:00
1102,2,2018-12-05 00:00:00+00:00
1102,1,2019-09-22 00:00:00+00:00
1112,2,2017-05-04 00:00:00+00:00
1102,1,2019-10-10 00:00:00+00:00


---
> S-049: レシート明細データ（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「年」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [12]:
%%sql
SELECT
    receipt_no,
    receipt_sub_no,
    EXTRACT(YEAR FROM TO_TIMESTAMP(sales_epoch)) AS sales_year
FROM
    receipt
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,sales_year
112,1,2018
1132,2,2018
1102,1,2017
1132,1,2019
1102,2,2018
1112,1,2019
1102,2,2018
1102,1,2019
1112,2,2017
1102,1,2019


---
> S-050: レシート明細データ（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「月」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「月」は0埋め2桁で取り出すこと。

In [15]:
%%sql
SELECT
    receipt_no,
    receipt_sub_no,
    TO_CHAR(TO_TIMESTAMP(sales_epoch), 'MM') AS sales_month
FROM
    receipt
LIMIT 10;



*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,sales_month
112,1,2018
1132,2,2018
1102,1,2017
1132,1,2019
1102,2,2018
1112,1,2019
1102,2,2018
1102,1,2019
1112,2,2017
1102,1,2019


---
> S-051: レシート明細データ（receipt）の売上エポック秒を日付型に変換し、「日」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「日」は0埋め2桁で取り出すこと。

In [16]:
%%sql
SELECT
    receipt_no,
    receipt_sub_no,
    TO_CHAR(TO_TIMESTAMP(sales_epoch), 'DD') AS sales_month
FROM
    receipt
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,sales_month
112,1,3
1132,2,18
1102,1,12
1132,1,5
1102,2,21
1112,1,5
1102,2,5
1102,1,22
1112,2,4
1102,1,10


---
> S-052: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2,000円以下を0、2,000円より大きい金額を1に二値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [8]:
%%sql
SELECT customer_id, SUM(amount) AS sum, CASE WHEN SUM(amount) > 2000 THEN 1 ELSE 0 END AS flag
FROM receipt
WHERE customer_id NOT LIKE 'Z%'
GROUP BY customer_id
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum,flag
CS001311000059,2302,1
CS004614000122,248,0
CS003512000043,298,0
CS011615000061,246,0
CS029212000033,3604,1
CS007515000119,7157,1
CS034515000123,3699,1
CS004315000058,490,0
CS026414000014,6671,1
CS001615000099,768,0


---
> S-053: 顧客データ（customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に二値化せよ。さらにレシート明細データ（receipt）と結合し、全期間において売上実績のある顧客数を、作成した二値ごとにカウントせよ。

In [7]:
%%sql
SELECT
    CASE
        WHEN SUBSTR(postal_cd, 1, 3) BETWEEN '100' AND '209' THEN 1
        ELSE 0
    END AS is_tokyo,
    COUNT(DISTINCT customer.customer_id) AS customer_count
FROM
    customer
JOIN
    receipt ON customer.customer_id = receipt.customer_id
GROUP BY
    is_tokyo;


*  postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


is_tokyo,customer_count
0,3906
1,4400


---
> S-054: 顧客データ（customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに10件表示せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。

In [9]:
%%sql
SELECT
    customer_id,
    address,
    CASE
        WHEN address LIKE '埼玉県%' THEN 11
        WHEN address LIKE '千葉県%' THEN 12
        WHEN address LIKE '東京都%' THEN 13
        WHEN address LIKE '神奈川県%' THEN 14
    END AS pref_num
FROM
    customer
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,address,pref_num
CS021313000114,神奈川県伊勢原市粟窪**********,14
CS037613000071,東京都江東区南砂**********,13
CS031415000172,東京都渋谷区代々木**********,13
CS028811000001,神奈川県横浜市泉区和泉町**********,14
CS001215000145,東京都大田区仲六郷**********,13
CS020401000016,東京都板橋区若木**********,13
CS015414000103,東京都江東区北砂**********,13
CS029403000008,千葉県浦安市海楽**********,12
CS015804000004,東京都江東区北砂**********,13
CS033513000180,神奈川県横浜市旭区善部町**********,14


---
> S-055: レシート明細（receipt）データの売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに10件表示せよ。カテゴリ値は順に1〜4とする。
>
> - 最小値以上第1四分位未満 ・・・ 1を付与
> - 第1四分位以上第2四分位未満 ・・・ 2を付与
> - 第2四分位以上第3四分位未満 ・・・ 3を付与
> - 第3四分位以上 ・・・ 4を付与

In [18]:
%%sql
WITH sum_amount AS (
    SELECT
        customer_id,
        SUM(amount) AS sum
    FROM receipt
    GROUP BY customer_id
), quartiles AS (
    SELECT
        PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY sum) AS q1,
        PERCENTILE_CONT(0.50) WITHIN GROUP (ORDER BY sum) AS q2,
        PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY sum) AS q3
    FROM sum_amount
)
SELECT
    s.customer_id,
    s.sum,
    CASE
        WHEN s.sum < q.q1 THEN 1
        WHEN s.sum < q.q2 THEN 2
        WHEN s.sum < q.q3 THEN 3
        ELSE 4
    END AS category
FROM sum_amount s, quartiles q
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum,category
CS001311000059,2302,3
CS004614000122,248,1
CS003512000043,298,1
CS011615000061,246,1
CS029212000033,3604,3
CS007515000119,7157,4
CS034515000123,3699,4
CS004315000058,490,1
CS026414000014,6671,4
CS001615000099,768,2


---
> S-056: 顧客データ（customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに10件表示せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。

In [2]:
%%sql
SELECT
    customer_id,
    birth_day,
    CASE
        WHEN age BETWEEN 0 AND 10 THEN 10
        WHEN age BETWEEN 10 AND 20 THEN 20
        WHEN age BETWEEN 20 AND 30 THEN 30
        WHEN age BETWEEN 30 AND 40 THEN 40
        WHEN age BETWEEN 40 AND 50 THEN 50
        ELSE 60
    END AS period
FROM
    customer
LIMIT 10;
    

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,period
CS021313000114,1981-04-29,40
CS037613000071,1952-04-01,60
CS031415000172,1976-10-04,50
CS028811000001,1933-03-27,60
CS001215000145,1995-03-29,30
CS020401000016,1974-09-15,50
CS015414000103,1977-08-09,50
CS029403000008,1973-08-17,50
CS015804000004,1931-05-02,60
CS033513000180,1962-07-11,60


---
> S-057: 056の抽出結果と性別コード（gender_cd）により、新たに性別×年代の組み合わせを表すカテゴリデータを作成し、10件表示せよ。組み合わせを表すカテゴリの値は任意とする。

In [17]:
%%sql
SELECT
    customer_id,
    gender_cd,
    birth_day,
    CASE
        WHEN age >= 60 THEN '60以上'
        ELSE CONCAT(FLOOR(age / 10) * 10, '代')
    END AS age_group,
    CONCAT(
        CASE gender_cd
            WHEN '0' THEN '男性'
            WHEN '1' THEN '女性'
            ELSE 'その他'
        END,
        '_',
        CASE
            WHEN age >= 60 THEN '60以上'
            ELSE CONCAT(FLOOR(age / 10) * 10, '代')
        END
    ) AS gender_age_category
FROM
    customer
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,gender_cd,birth_day,age_group,gender_age_category
CS021313000114,1,1981-04-29,30代,女性_30代
CS037613000071,9,1952-04-01,60以上,その他_60以上
CS031415000172,1,1976-10-04,40代,女性_40代
CS028811000001,1,1933-03-27,60以上,女性_60以上
CS001215000145,1,1995-03-29,20代,女性_20代
CS020401000016,0,1974-09-15,40代,男性_40代
CS015414000103,1,1977-08-09,40代,女性_40代
CS029403000008,0,1973-08-17,40代,男性_40代
CS015804000004,0,1931-05-02,60以上,男性_60以上
CS033513000180,1,1962-07-11,50代,女性_50代


---
> S-058: 顧客データ（customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに10件表示せよ。

In [18]:
%%sql
SELECT
    customer_id,
    CASE WHEN gender_cd = '0' THEN 1 ELSE 0 END AS gender_male,
    CASE WHEN gender_cd = '1' THEN 1 ELSE 0 END AS gender_female,
    CASE WHEN gender_cd = '9' THEN 1 ELSE 0 END AS gender_unknown
FROM
    customer
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,gender_male,gender_female,gender_unknown
CS021313000114,0,1,0
CS037613000071,0,0,1
CS031415000172,0,1,0
CS028811000001,0,1,0
CS001215000145,0,1,0
CS020401000016,1,0,0
CS015414000103,0,1,0
CS029403000008,1,0,0
CS015804000004,1,0,0
CS033513000180,0,1,0


---
> S-059: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに10件表示せよ。標準化に使用する標準偏差は、分散の平方根、もしくは不偏分散の平方根のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [2]:
%%sql
WITH customer_sales AS (
    SELECT
        customer_id,
        SUM(amount) AS total_amount
    FROM
        receipt
    WHERE
        customer_id NOT LIKE 'Z%'
    GROUP BY
        customer_id
),
sales_stats AS (
    SELECT
        AVG(total_amount) AS avg_amount,
        STDDEV(total_amount) AS stddev_amount
    FROM
        customer_sales
)
SELECT
    cs.customer_id,
    cs.total_amount,
    (cs.total_amount - ss.avg_amount) / ss.stddev_amount AS standardized_amount
FROM
    customer_sales cs,
    sales_stats ss
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount,standardized_amount
CS001311000059,2302,-0.0903240267170229
CS004614000122,248,-0.8452840002525365
CS003512000043,298,-0.8269062014809807
CS011615000061,246,-0.8460191122033986
CS029212000033,3604,0.3882338532942909
CS007515000119,7157,1.6941602340010484
CS034515000123,3699,0.423151670960247
CS004315000058,490,-0.7563354541982062
CS026414000014,6671,1.5155280299415257
CS001615000099,768,-0.6541548930283558


---
> S-060: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [None]:
%%sql
WITH customer_sales AS (
    SELECT
        customer_id,
        SUM(amount) AS total_amount
    FROM
        receipt
    WHERE
        customer_id NOT LIKE 'Z%'
    GROUP BY
        customer_id
),
sales_min_max AS (
    SELECT
        MIN(total_amount) AS min_amount,
        MAX(total_amount) AS max_amount
    FROM
        customer_sales
)
SELECT
    cs.customer_id,
    cs.total_amount,
    (cs.total_amount - smm.min_amount) / (smm.max_amount - smm.min_amount) AS normalized_amount
FROM
    customer_sales cs,
    sales_min_max smm
LIMIT 10;

---
> S-061: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を常用対数化（底10）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [None]:
%%sql
SELECT
    customer_id,
    SUM(amount) AS total_amount,
    LOG10(SUM(amount)) AS log_total_amount
FROM
    receipt
WHERE
    customer_id NOT LIKE 'Z%'
GROUP BY
    customer_id
ORDER BY
    customer_id
LIMIT 10;


---
> S-062: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を自然対数化（底e）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [3]:
%%sql
SELECT
    customer_id,
    SUM(amount) AS total_amount,
    LN(SUM(amount)) AS ln_total_amount
FROM
    receipt
WHERE
    customer_id NOT LIKE 'Z%'
GROUP BY
    customer_id
ORDER BY
    customer_id
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount,ln_total_amount
CS001113000004,1298,7.168579897264035
CS001114000005,626,6.439350371100098
CS001115000010,3044,8.020927718981577
CS001205000004,1988,7.59488438721652
CS001205000006,3337,8.112827478751374
CS001211000025,456,6.1224928095143865
CS001212000027,448,6.104793232414985
CS001212000031,296,5.69035945432406
CS001212000046,228,5.429345628954441
CS001212000070,456,6.1224928095143865


---
> S-063: 商品データ（product）の単価（unit_price）と原価（unit_cost）から各商品の利益額を算出し、結果を10件表示せよ。

In [4]:
%%sql
SELECT
    unit_price,
    unit_cost,
    unit_price - unit_cost AS profit
FROM
    product
LIMIT
    10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


unit_price,unit_cost,profit
198,149,49
218,164,54
230,173,57
248,186,62
268,201,67
298,224,74
338,254,84
420,315,105
498,374,124
580,435,145


---
> S-064: 商品データ（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。ただし、単価と原価には欠損が生じていることに注意せよ。

In [22]:
%%sql
SELECT AVG((unit_price * 1.0 - unit_cost) / unit_price) AS average_profit_margin
FROM product
WHERE unit_price > 0;


*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


average_profit_margin
0.24911389885177


---
> S-065: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [31]:
%%sql
SELECT
    product_cd, 
    unit_price, 
    unit_cost,
    -- 利益率が30％の単価
    TRUNC(unit_cost / 0.7) as new_price,
    -- 新しい単価での利益率の計算
    ((TRUNC(unit_cost / 0.7) - unit_cost) / TRUNC(unit_cost / 0.7)) AS new_profit
FROM
    product
LIMIT 10;  

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,new_price,new_profit
P040101001,198,149,212,0.2971698113207547
P040101002,218,164,234,0.2991452991452991
P040101003,230,173,247,0.2995951417004048
P040101004,248,186,265,0.2981132075471698
P040101005,268,201,287,0.2996515679442508
P040101006,298,224,320,0.3
P040101007,338,254,362,0.298342541436464
P040101008,420,315,450,0.3
P040101009,498,374,534,0.299625468164794
P040101010,580,435,621,0.2995169082125603


---
> S-066: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を丸めること（四捨五入または偶数への丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [3]:
%%sql
SELECT
    product_cd, 
    unit_price, 
    unit_cost,
    -- 利益率が30％の単価
    ROUND(unit_cost / 0.7) as new_price,
    -- 新しい単価での利益率の計算
    ((ROUND(unit_cost / 0.7) - unit_cost) / ROUND(unit_cost / 0.7)) AS new_profit
FROM
    product
LIMIT 10;  

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,new_price,new_profit
P040101001,198,149,213,0.3004694835680751
P040101002,218,164,234,0.2991452991452991
P040101003,230,173,247,0.2995951417004048
P040101004,248,186,266,0.3007518796992481
P040101005,268,201,287,0.2996515679442508
P040101006,298,224,320,0.3
P040101007,338,254,363,0.3002754820936639
P040101008,420,315,450,0.3
P040101009,498,374,534,0.299625468164794
P040101010,580,435,621,0.2995169082125603


---
> S-067: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [4]:
%%sql
SELECT
    product_cd, 
    unit_price, 
    unit_cost,
    CEIL(unit_cost / 0.7) as new_price,
    ((CEIL(unit_cost / 0.7) - unit_cost) / CEIL(unit_cost / 0.7)) as new_profit
FROM product
LIMIT 10; 

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,new_price,new_profit
P040101001,198,149,213,0.3004694835680751
P040101002,218,164,235,0.302127659574468
P040101003,230,173,248,0.3024193548387096
P040101004,248,186,266,0.3007518796992481
P040101005,268,201,288,0.3020833333333333
P040101006,298,224,320,0.3
P040101007,338,254,363,0.3002754820936639
P040101008,420,315,450,0.3
P040101009,498,374,535,0.3009345794392523
P040101010,580,435,622,0.3006430868167202


---
> S-068: 商品データ（product）の各商品について、消費税率10％の税込み金額を求めよ。1円未満の端数は切り捨てとし、結果を10件表示せよ。ただし、単価（unit_price）には欠損が生じていることに注意せよ。

In [3]:
%%sql
SELECT
    product_cd, 
    unit_price, 
    unit_cost,
    TRUNC(1.1 * unit_price) as tax_included_price
FROM product
LIMIT 10; 

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_cost,tax_included_price
P040101001,198,149,217
P040101002,218,164,239
P040101003,230,173,253
P040101004,248,186,272
P040101005,268,201,294
P040101006,298,224,327
P040101007,338,254,371
P040101008,420,315,462
P040101009,498,374,547
P040101010,580,435,638


---
> S-069: レシート明細データ（receipt）と商品データ（product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分コード（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分コード"07"（瓶詰缶詰）の売上実績がある顧客のみとし、結果を10件表示せよ。

In [18]:
%%sql
-- (1)：売上金額を顧客ごとに集計
WITH amount_all AS(
    SELECT
        customer_id,
        sum(amount) AS sum_all
    FROM
        receipt
    GROUP BY
        customer_id
),
-- (2)：カテゴリが07の売上金額を計算する
amount_07 AS (
    SELECT
        r.customer_id,
        SUM(r.amount) AS sum_07
    FROM
        receipt r
    JOIN
        product p
    ON
        r.product_cd = p.product_cd 
        AND  p.category_major_cd = '07'
    GROUP BY
        customer_id
)
SELECT
    amount_all.customer_id,
    sum_all,
    sum_07,
    sum_07 * 1.0 / sum_all as sales_rate
FROM
    amount_all
JOIN
    amount_07
ON
    amount_all.customer_id = amount_07.customer_id
LIMIT 10;



*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sum_all,sum_07,sales_rate
CS001311000059,2302,102,0.0443092962641181
CS011615000061,246,98,0.3983739837398373
CS029212000033,3604,3604,1.0
CS007515000119,7157,2832,0.3956965208886404
CS034515000123,3699,1202,0.3249526899161935
CS026414000014,6671,3142,0.4709938539949033
CS001615000099,768,318,0.4140625
CS010515000082,1482,553,0.3731443994601889
CS019315000045,813,380,0.4674046740467404
CS008513000099,1322,210,0.1588502269288956


---
> S-070: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [3]:
%%sql
WITH receit_distinct AS (
    SELECT DISTINCT
        customer_id,
        sales_ymd
    FROM
        receipt
)
SELECT
    c.customer_id,
    r.sales_ymd,
    c.application_date,
    EXTRACT(DAY FROM (TO_TIMESTAMP(CAST(r.sales_ymd AS VARCHAR), 'YYYYMMDD') 
                      - TO_TIMESTAMP(c.application_date, 'YYYYMMDD'))) AS elapsed_days
FROM
    receit_distinct r
JOIN
    customer c
ON
    r.customer_id = c.customer_id
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,elapsed_days
CS017515000010,20171117,20150803,837
CS008413000003,20180524,20151228,878
CS019515000097,20190630,20141124,1679
CS008515000005,20170714,20150216,879
CS026414000097,20170809,20150430,832
CS034514000008,20181012,20150807,1162
CS029415000089,20180409,20150723,991
CS019411000012,20190314,20141213,1552
CS015614000006,20190802,20150211,1633
CS007515000053,20170712,20150325,840


---
> S-071: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [5]:
%%sql

SELECT
    r.customer_id,
    TO_DATE(CAST(r.sales_ymd AS VARCHAR), 'YYYYMMDD') AS sales_date,
    TO_DATE(c.application_date, 'YYYYMMDD') AS application_date,
    EXTRACT(YEAR FROM age(TO_DATE(CAST(r.sales_ymd AS VARCHAR), 'YYYYMMDD'), TO_DATE(c.application_date, 'YYYYMMDD'))) * 12 +
    EXTRACT(MONTH FROM age(TO_DATE(CAST(r.sales_ymd AS VARCHAR), 'YYYYMMDD'), TO_DATE(c.application_date, 'YYYYMMDD'))) AS elapsed_months
FROM
    receipt r
JOIN
    customer c ON r.customer_id = c.customer_id
LIMIT 10;



*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_date,application_date,elapsed_months
CS006214000001,2018-11-03,2015-02-01,45
CS008415000097,2018-11-18,2015-03-22,43
CS028414000014,2017-07-12,2015-07-11,24
CS025415000050,2018-08-21,2016-01-31,30
CS003515000195,2019-06-05,2015-03-06,50
CS024514000042,2018-12-05,2015-10-10,37
CS040415000178,2019-09-22,2015-06-27,50
CS027514000015,2019-10-10,2015-11-01,47
CS025415000134,2019-09-18,2015-07-20,49
CS021515000126,2017-10-10,2015-05-08,29


---
> S-072: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [None]:
%%sql


---
> S-073: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [11]:
%%sql
SELECT
    r.customer_id,
    r.sales_ymd,
    c.application_date,
    EXTRACT(EPOCH FROM TO_TIMESTAMP(TO_CHAR(r.sales_ymd, 'FM99999999'), 'YYYYMMDD') - TO_TIMESTAMP(c.application_date, 'YYYYMMDD')) AS elapsed_seconds
FROM
    receipt r
JOIN
    customer c ON r.customer_id = c.customer_id
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,elapsed_seconds
CS006214000001,20181103,20150201,118454400.0
CS008415000097,20181118,20150322,115516800.0
CS028414000014,20170712,20150711,63244800.0
CS025415000050,20180821,20160131,80611200.0
CS003515000195,20190605,20150306,134092800.0
CS024514000042,20181205,20151010,99532800.0
CS040415000178,20190922,20150627,133747200.0
CS027514000015,20191010,20151101,124329600.0
CS025415000134,20190918,20150720,131414400.0
CS021515000126,20171010,20150508,76550400.0


---
> S-074: レシート明細データ（receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、直前の月曜日付とともに10件表示せよ（sales_ymdは数値でデータを保持している点に注意）。

In [21]:
%%sql
WITH sales_info AS (
    SELECT
        sales_ymd,
        TO_DATE(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD') AS sales_date,
        EXTRACT(DOW FROM TO_DATE(CAST(sales_ymd AS VARCHAR), 'YYYYMMDD')) AS sales_dow
    FROM
        receipt
),
adjusted_days AS (
    SELECT
        sales_ymd,
        sales_date,
        sales_dow,
        CASE
            WHEN sales_dow = 0 THEN 6 -- 日曜日の場合、直前の月曜日から6日経過
            ELSE sales_dow - 1 -- それ以外の場合、直前の月曜日からの経過日数
        END AS elapsed_days_since_monday
    FROM
        sales_info
)
SELECT
    sales_ymd,
    sales_date,
    sales_date - elapsed_days_since_monday * INTERVAL '1 day' AS last_monday,
    elapsed_days_since_monday
FROM
    adjusted_days
LIMIT 10;




*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_date,last_monday,elapsed_days_since_monday
20181103,2018-11-03,2018-10-29 00:00:00,5
20181118,2018-11-18,2018-11-12 00:00:00,6
20170712,2017-07-12,2017-07-10 00:00:00,2
20190205,2019-02-05,2019-02-04 00:00:00,1
20180821,2018-08-21,2018-08-20 00:00:00,1
20190605,2019-06-05,2019-06-03 00:00:00,2
20181205,2018-12-05,2018-12-03 00:00:00,2
20190922,2019-09-22,2019-09-16 00:00:00,6
20170504,2017-05-04,2017-05-01 00:00:00,3
20191010,2019-10-10,2019-10-07 00:00:00,3


---
> S-075: 顧客データ（customer）からランダムに1%のデータを抽出し、先頭から10件表示せよ。

In [2]:
%%sql
SELECT *
FROM customer
TABLESAMPLE SYSTEM (1)
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS032603000005,早美 慎之介,0,男性,1951-03-13,68,144-0056,東京都大田区西六郷**********,S13032,20150529,0-00000000-0
CS022403000027,永田 聡,0,男性,1971-06-18,47,249-0003,神奈川県逗子市池子**********,S14022,20150919,0-00000000-0
CS015414000114,宮地 薫,1,女性,1971-04-08,47,136-0073,東京都江東区北砂**********,S13015,20150719,D-20100806-C
CS004313000314,西本 美佐子,1,女性,1980-06-12,38,176-0024,東京都練馬区中村**********,S13004,20161128,0-00000000-0
CS038313000155,安井 コウ,1,女性,1984-01-09,35,134-0084,東京都江戸川区東葛西**********,S13038,20150909,0-00000000-0
CS008615000117,菊地 礼子,1,女性,1950-10-14,68,157-0066,東京都世田谷区成城**********,S13008,20150619,0-00000000-0
CS029311000031,河野 育子,1,女性,1981-05-10,37,134-0093,東京都江戸川区二之江町**********,S12029,20150308,0-00000000-0
CS002712000108,青木 あい,1,女性,1944-10-17,74,185-0032,東京都国分寺市日吉町**********,S13002,20161021,0-00000000-0
CS032512000166,奥野 あさみ,1,女性,1967-11-28,51,212-0026,神奈川県川崎市幸区紺屋町**********,S13032,20170510,0-00000000-0
CS020613000090,岩淵 薫,1,女性,1952-01-16,67,173-0001,東京都板橋区本町**********,S13020,20150723,0-00000000-0


---
> S-076: 顧客データ（customer）から性別コード（gender_cd）の割合に基づきランダムに10%のデータを層化抽出し、性別コードごとに件数を集計せよ。

In [3]:
%%sql
WITH stratified_sample AS (
    SELECT
        gender_cd,
        customer_id,
        NTILE(10) OVER (PARTITION BY gender_cd ORDER BY RANDOM()) AS tile
    FROM
        customer
)
SELECT
    gender_cd,
    COUNT(*) AS count
FROM
    stratified_sample
WHERE
    tile = 1
GROUP BY
    gender_cd;


*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


gender_cd,count
0,299
1,1792
9,108


---
> S-077: レシート明細データ（receipt）の売上金額を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。なお、外れ値は売上金額合計を対数化したうえで平均と標準偏差を計算し、その平均から3σを超えて離れたものとする（自然対数と常用対数のどちらでも可）。結果は10件表示せよ。

In [2]:
%%sql
WITH sales_summary AS (
    SELECT
        customer_id,
        SUM(amount) AS total_amount
    FROM
        receipt
    GROUP BY
        customer_id
),
log_sales AS (
    SELECT
        customer_id,
        LOG(SUM(amount)) AS log_total_amount
    FROM
        receipt
    GROUP BY
        customer_id
),
stats AS (
    SELECT
        AVG(log_total_amount) AS avg_log,
        STDDEV(log_total_amount) AS stddev_log
    FROM
        log_sales
)
SELECT
    s.customer_id,
    s.total_amount,
    l.log_total_amount
FROM
    sales_summary s
JOIN
    log_sales l ON s.customer_id = l.customer_id,
    stats
WHERE
    l.log_total_amount < (avg_log - 3 * stddev_log)
    OR l.log_total_amount > (avg_log + 3 * stddev_log)
LIMIT 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


customer_id,total_amount,log_total_amount
ZZ000000000000,12395003,7.093246636217458


---
> S-078: レシート明細データ（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第1四分位と第3四分位の差であるIQRを用いて、「第1四分位数-1.5×IQR」を下回るもの、または「第3四分位数+1.5×IQR」を超えるものとする。結果は10件表示せよ。

In [None]:
%%sql


---
> S-079: 商品データ（product）の各項目に対し、欠損数を確認せよ。

In [None]:
%%sql


---
> S-080: 商品データ（product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。

In [None]:
%%sql


---
> S-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たな商品データを作成せよ。なお、平均値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [None]:
%%sql


---
> S-082: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [None]:
%%sql


---
> S-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品のカテゴリ小区分コード（category_small_cd）ごとに算出した中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [None]:
%%sql


---
> S-084: 顧客データ（customer）の全顧客に対して全期間の売上金額に占める2019年売上金額の割合を計算し、新たなデータを作成せよ。ただし、売上実績がない場合は0として扱うこと。そして計算した割合が0超のものを抽出し、結果を10件表示せよ。また、作成したデータに欠損が存在しないことを確認せよ。

In [None]:
%%sql


---
> S-085: 顧客データ（customer）の全顧客に対し、郵便番号（postal_cd）を用いてジオコードデータ（geocode）を紐付け、新たな顧客データを作成せよ。ただし、1つの郵便番号（postal_cd）に複数の経度（longitude）、緯度（latitude）情報が紐づく場合は、経度（longitude）、緯度（latitude）の平均値を算出して使用すること。また、作成結果を確認するために結果を10件表示せよ。

In [None]:
%%sql


---
> S-086: 085で作成した緯度経度つき顧客データに対し、会員申込店舗コード（application_store_cd）をキーに店舗データ（store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客住所（address）の緯度・経度を用いて申込み店舗と顧客住所の距離（単位：km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は以下の簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示せよ。

$$
\mbox{緯度（ラジアン）}：\phi \\
\mbox{経度（ラジアン）}：\lambda \\
\mbox{距離}L = 6371 * \arccos(\sin \phi_1 * \sin \phi_2
+ \cos \phi_1 * \cos \phi_2 * \cos(\lambda_1 − \lambda_2))
$$

In [None]:
%%sql


---
> S-087: 顧客データ（customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなして1顧客1レコードとなるように名寄せした名寄顧客データを作成し、顧客データの件数、名寄顧客データの件数、重複数を算出せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残し、売上金額合計が同一もしくは売上実績がない顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [None]:
%%sql


---
> S-088: 087で作成したデータを元に、顧客データに統合名寄IDを付与したデータを作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
> - 重複していない顧客：顧客ID（customer_id）を設定
> - 重複している顧客：前設問で抽出したレコードの顧客IDを設定
> 
> 顧客IDのユニーク件数と、統合名寄IDのユニーク件数の差も確認すること。

In [None]:
%%sql


---
> S-089: 売上実績がある顧客を、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

In [None]:
%%sql


---
> S-090: レシート明細データ（receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月の時系列モデル構築用データを3セット作成せよ。

In [None]:
%%sql


---
> S-091: 顧客データ（customer）の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [None]:
%%sql


---
> S-092: 顧客データ（customer）の性別について、第三正規形へと正規化せよ。

In [None]:
%%sql


---
> S-093: 商品データ（product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリデータ（category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品データを作成せよ。

In [None]:
%%sql


---
> S-094: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。

In [None]:
%%sql


---
> S-095: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|CP932|
> 
> PostgreSQLではShift_JISを指定することでCP932相当となる。ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。

In [None]:
%%sql


---
> S-096: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|無し|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。

In [None]:
%%sql


---
> S-097: 094で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|

In [None]:
%%sql


---
> S-098: 096で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|ヘッダ無し|UTF-8|

In [None]:
%%sql


---
> S-099: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。


In [None]:
%%sql


---
> S-100: 099で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|

In [None]:
%%sql


# これで１００本終わりです。おつかれさまでした！