# データサイエンス100本ノック（構造化データ加工編） - SQL

## はじめに
- データベースはPostgreSQL13です
- 初めに以下のセルを実行してください
- セルに %%sql と記載することでSQLを発行することができます
- jupyterからはdescribeコマンドによるテーブル構造の確認ができないため、テーブル構造を確認する場合はlimitを指定したSELECTなどで代用してください
- 使い慣れたSQLクライアントを使っても問題ありません（接続情報は以下の通り）
  - IPアドレス：Docker Desktopの場合はlocalhost、Docker toolboxの場合は192.168.99.100
  - Port:5432
  - database名: dsdojo_db
  - ユーザ名：padawan
  - パスワード:padawan12345
- 大量出力を行うとJupyterが固まることがあるため、出力件数は制限することを推奨します（設問にも出力件数を記載）
    - 結果確認のために表示させる量を適切にコントロールし、作業を軽快にすすめる技術もデータ加工には求められます
- 大量結果が出力された場合は、ファイルが重くなり以降開けなくなることもあります
    - その場合、作業結果は消えますがファイルをGitHubから取り直してください
    - vimエディタなどで大量出力範囲を削除することもできます
- 名前、住所等はダミーデータであり、実在するものではありません

In [197]:
%load_ext sql
import os
from sqlalchemy import create_engine

pgconfig = {
    'host': 'db',
    'port': os.environ['PG_PORT'],
    'database': os.environ['PG_DATABASE'],
    'user': os.environ['PG_USER'],
    'password': os.environ['PG_PASSWORD'],
}
dsl = 'postgresql://{user}:{password}@{host}:{port}/{database}'.format(**pgconfig)
conn = create_engine(dsl)

# MagicコマンドでSQLを書くための設定
%sql conn

The sql extension is already loaded. To reload it, use:
  %reload_ext sql
[33mThere's a new jupysql version available (0.10.10), you're running 0.7.2. To upgrade: pip install jupysql --upgrade[0m


# 使い方
- セルの先頭に%%sqlと記載し、２行目以降にSQLを記述することでJupyterからPostgreSQLに対しSQLを実行できます。

In [372]:
%%sql
SELECT 'このように実行できます' AS sample;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sample
このように実行できます


# データ加工100本ノック

---
> S-001: レシート明細データ（receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [3]:
%%sql
SELECT * FROM receipt
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680


---
> S-002: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。

In [7]:
%%sql
SELECT sales_ymd, customer_id, product_cd,amount
FROM receipt
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-003: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。ただし、sales_ymdをsales_dateに項目名を変更しながら抽出すること。

In [8]:
%%sql
SELECT sales_ymd AS sales_date, customer_id,product_cd, amount
FROM receipt
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_date,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-004: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [14]:
%%sql
SELECT sales_ymd, customer_id, product_cd, amount
FROM receipt
WHERE customer_id = 'CS018205000001';

*  postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-005: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [17]:
%%sql
SELECT  sales_ymd,customer_id, product_cd,amount
FROM receipt
WHERE customer_id = 'CS018205000001' AND amount >= 1000;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-006: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [19]:
%%sql
SELECT sales_ymd, customer_id, product_cd, quantity, amount
FROM receipt
WHERE customer_id = 'CS018205000001' AND amount >= 1000 OR quantity >= 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
6 rows affected.


sales_ymd,customer_id,product_cd,quantity,amount
20180911,CS018205000001,P071401012,1,2200
20180414,CS018205000001,P060104007,6,600
20170614,CS018205000001,P050206001,5,990
20190610,CS037414000080,P090401002,8,640
20190226,CS018205000001,P071401020,1,2200
20180911,CS018205000001,P071401005,1,1100


---
> S-007: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [21]:
%%sql
SELECT sales_ymd, customer_id, product_cd, amount
FROM receipt
WHERE customer_id = 'CS018205000001' 
AND amount BETWEEN 1000 and 2000;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sales_ymd,product_cd,amount
20180911,P071401005,1100


---
> S-008: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [22]:
%%sql
SELECT sales_ymd, customer_id, product_cd, amount
FROM receipt
WHERE customer_id = 'CS018205000001'
AND NOT product_cd = 'P071401019';

*  postgresql://padawan:***@db:5432/dsdojo_db
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。
>
> `SELECT * FROM store WHERE NOT (prefecture_cd = '13' OR floor_area > 900)`

In [23]:
%%sql
SELECT * FROM store WHERE NOT prefecture_cd = '13' AND NOT floor_area > 900;

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> S-010: 店舗データ（store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件表示せよ。

In [27]:
%%sql
SELECT * FROM store
WHERE store_cd LIKE 'S14%';

*  postgresql://padawan:***@db:5432/dsdojo_db
23 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,139.5789,35.29642,1838.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0


---
> S-011: 顧客データ（customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件表示せよ。

In [29]:
%%sql
SELECT * FROM customer
WHERE customer_id LIKE '%1'
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS028314000011,小菅 あおい,1,女性,1983-11-26,35,246-0038,神奈川県横浜市瀬谷区宮沢**********,S14028,20151123,1-20080426-5
CS039212000051,藤島 恵梨香,1,女性,1997-02-03,22,166-0001,東京都杉並区阿佐谷北**********,S13039,20171121,1-20100215-4
CS015412000111,松居 奈月,1,女性,1972-10-04,46,136-0071,東京都江東区亀戸**********,S13015,20150629,0-00000000-0
CS004702000041,野島 洋,0,男性,1943-08-24,75,176-0022,東京都練馬区向山**********,S13004,20170218,0-00000000-0
CS041515000001,栗田 千夏,1,女性,1967-01-02,52,206-0001,東京都多摩市和田**********,S13041,20160422,E-20100803-F
CS029313000221,北条 ひかり,1,女性,1987-06-19,31,279-0011,千葉県浦安市美浜**********,S12029,20180810,0-00000000-0
CS034312000071,望月 奈央,1,女性,1980-09-20,38,213-0026,神奈川県川崎市高津区久末**********,S14034,20160106,0-00000000-0


---
> S-012: 店舗データ（store）から、住所 (address) に"横浜市"が含まれるものだけ全項目表示せよ。

In [33]:
%%sql
SELECT * FROM store
WHERE address LIKE '%横浜市%';

*  postgresql://padawan:***@db:5432/dsdojo_db
11 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,139.5758,35.54912,1657.0
S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,139.6593,35.43894,1044.0


---
> S-013: 顧客データ（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件表示せよ。

In [40]:
%%sql
SELECT * FROM customer
WHERE status_cd SIMILAR TO '[A-F]%'
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS029415000023,梅田 里穂,1,女性,1976-01-17,43,279-0043,千葉県浦安市富士見**********,S12029,20150610,D-20100918-E
CS035415000029,寺沢 真希,9,不明,1977-09-27,41,158-0096,東京都世田谷区玉川台**********,S13035,20141220,F-20101029-F
CS031415000106,宇野 由美子,1,女性,1970-02-26,49,151-0053,東京都渋谷区代々木**********,S13031,20150201,F-20100511-E
CS029215000025,石倉 美帆,1,女性,1993-09-28,25,279-0022,千葉県浦安市今川**********,S12029,20150708,B-20100820-C
CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F


---
> S-014: 顧客データ（customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [42]:
%%sql
SELECT * FROM customer
WHERE status_cd SIMILAR TO '%[1-9]'
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS009315000023,皆川 文世,1,女性,1980-04-15,38,154-0012,東京都世田谷区駒沢**********,S13009,20150319,5-20080322-1
CS015315000033,福士 璃奈子,1,女性,1983-03-17,36,135-0043,東京都江東区塩浜**********,S13015,20141024,4-20080219-3
CS023513000066,神戸 そら,1,女性,1961-12-17,57,210-0005,神奈川県川崎市川崎区東田町**********,S14023,20150915,5-20100524-9
CS035513000134,市川 美帆,1,女性,1960-03-27,59,156-0053,東京都世田谷区桜**********,S13035,20150227,8-20100711-9
CS001515000263,高松 夏空,1,女性,1962-11-09,56,144-0051,東京都大田区西蒲田**********,S13001,20160812,1-20100804-1
CS040314000027,鶴田 きみまろ,9,不明,1986-03-26,33,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150122,2-20080426-4


---
> S-015: 顧客データ（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [43]:
%%sql
SELECT * FROM customer
WHERE status_cd SIMILAR TO '[A-F]%[1-9]'
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS022513000105,島村 貴美子,1,女性,1962-03-12,57,249-0002,神奈川県逗子市山の根**********,S14022,20150320,A-20091115-7
CS001515000096,水野 陽子,9,不明,1960-11-29,58,144-0053,東京都大田区蒲田本町**********,S13001,20150614,A-20100724-7
CS013615000053,西脇 季衣,1,女性,1953-10-18,65,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150128,B-20100329-6
CS020412000161,小宮 薫,1,女性,1974-05-21,44,174-0042,東京都板橋区東坂下**********,S13020,20150822,B-20081021-3
CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
CS035212000007,内村 恵梨香,1,女性,1990-12-04,28,152-0023,東京都目黒区八雲**********,S13035,20151013,B-20101018-6
CS002515000386,野田 コウ,1,女性,1963-05-30,55,185-0013,東京都国分寺市西恋ケ窪**********,S13002,20160410,C-20100127-8
CS001615000372,稲垣 寿々花,1,女性,1956-10-29,62,144-0035,東京都大田区南蒲田**********,S13001,20170403,A-20100104-1
CS032512000121,松井 知世,1,女性,1962-09-04,56,210-0011,神奈川県川崎市川崎区富士見**********,S13032,20150727,A-20100103-5


---
> S-016: 店舗データ（store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [50]:
%%sql
SELECT *FROM store
WHERE tel_no SIMILAR TO '[0-9]{3}-[0-9]{3}-[0-9]{4}';

*  postgresql://padawan:***@db:5432/dsdojo_db
34 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S13052,森野店,13,東京都,東京都町田市森野三丁目,トウキョウトマチダシモリノサンチョウメ,042-123-4030,139.4383,35.55293,1087.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0


---
> S-017: 顧客データ（customer）を生年月日（birth_day）で高齢順にソートし、先頭から全項目を10件表示せよ。

In [52]:
%%sql
SELECT * FROM customer
ORDER BY birth_day
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0
CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0


---
> S-018: 顧客データ（customer）を生年月日（birth_day）で若い順にソートし、先頭から全項目を10件表示せよ。

In [53]:
%%sql
SELECT * FROM customer
ORDER BY birth_day
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0
CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0


---
> S-019: レシート明細データ（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [64]:
%%sql
SELECT customer_id, amount, RANK() OVER(ORDER BY amount DESC) AS rank
FROM receipt
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,rank
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,4
ZZ000000000000,5480,4
CS021515000089,5440,7
ZZ000000000000,5440,7
CS027415000133,5280,9
CS016415000004,5280,9


In [67]:
%%sql
EXPLAIN SELECT customer_id, amount, RANK() OVER(ORDER BY amount DESC) AS rank
FROM receipt
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
7 rows affected.


QUERY PLAN
Limit (cost=7594.26..7595.55 rows=10 width=27)
-> WindowAgg (cost=7594.26..21095.03 rows=104681 width=27)
-> Gather Merge (cost=7594.26..19524.82 rows=104681 width=19)
Workers Planned: 1
-> Sort (cost=6594.25..6748.20 rows=61577 width=19)
Sort Key: amount DESC
-> Parallel Seq Scan on receipt (cost=0.00..1695.77 rows=61577 width=19)


---
> S-020: レシート明細データ（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [68]:
%%sql
SELECT customer_id, amount, ROW_NUMBER() OVER(ORDER BY amount DESC) AS rank
FROM receipt
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,amount,rank
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,5
ZZ000000000000,5480,6
CS021515000089,5440,7
ZZ000000000000,5440,8
CS038415000071,5280,9
ZZ000000000000,5280,10


---
> S-021: レシート明細データ（receipt）に対し、件数をカウントせよ。

In [57]:
%%sql
SELECT count(*) FROM receipt;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
104681


---
> S-022: レシート明細データ（receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [69]:
%%sql
SELECT COUNT(distinct customer_id)　
FROM receipt;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


8307


---
> S-023: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [75]:
%%sql
select store_cd,sum(amount) as total_amount, sum(quantity) as total_quantity
from receipt
group by store_cd;

*  postgresql://padawan:***@db:5432/dsdojo_db
52 rows affected.


store_cd,total_amount,total_quantity
S12007,638761,2099
S13017,748221,2376
S13043,587895,1881
S13052,100314,250
S13016,793773,2432
S14027,714550,2303
S13009,808870,2486
S14022,651328,2047
S13019,827833,2541
S13039,611888,1981


---
> S-024: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）を求め、10件表示せよ。

In [77]:
%%sql
select customer_id, max(sales_ymd)
from receipt
group by customer_id
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,max
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20180621
CS007515000119,20190511
CS034515000123,20190708
CS004315000058,20170517
CS026414000014,20190720
CS001615000099,20170729


---
> S-025: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も古い売上年月日（sales_ymd）を求め、10件表示せよ。

In [79]:
%%sql
select customer_id, min(sales_ymd)
from receipt
group by customer_id
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,min
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20170318
CS007515000119,20170201
CS034515000123,20170527
CS004315000058,20170517
CS026414000014,20170718
CS001615000099,20170729


---
> S-026: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）と古い売上年月日を求め、両者が異なるデータを10件表示せよ。

In [88]:
%%sql
select customer_id, min(sales_ymd) as old , max(sales_ymd) as new
from receipt
group by customer_id
having not min(sales_ymd) = max(sales_ymd)
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,old,new
CS029212000033,20170318,20180621
CS007515000119,20170201,20190511
CS034515000123,20170527,20190708
CS026414000014,20170718,20190720
CS010515000082,20180518,20181204
CS019315000045,20170423,20170920
CS008513000099,20170722,20190308
CS007615000070,20170929,20191025
CS025415000155,20170314,20191026
CS016414000063,20170109,20190617


In [87]:
%%sql
EXPLAIN
select customer_id, min(sales_ymd) as old , max(sales_ymd) as new
from receipt
group by customer_id
having not min(sales_ymd) = max(sales_ymd)
LIMIT 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


QUERY PLAN
Limit (cost=2911.92..2912.04 rows=10 width=23)
-> HashAggregate (cost=2911.92..2995.14 rows=6625 width=23)
Group Key: customer_id
Filter: (min(sales_ymd) <> max(sales_ymd))
-> Seq Scan on receipt (cost=0.00..2126.81 rows=104681 width=19)


---
> S-027: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [94]:
%%sql
select store_cd, avg(amount) as avg
from receipt
group by store_cd
order by avg desc
limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,avg
S13052,402.86746987951807
S13015,351.11196043165467
S13003,350.9155188246097
S14010,348.79126213592235
S13001,348.4703862660944


In [97]:
%%sql
explain
select store_cd, avg(amount) as avg
from receipt
group by store_cd
order by avg desc
limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
6 rows affected.


QUERY PLAN
Limit (cost=2651.73..2651.74 rows=5 width=39)
-> Sort (cost=2651.73..2651.86 rows=52 width=39)
Sort Key: (avg(amount)) DESC
-> HashAggregate (cost=2650.21..2650.86 rows=52 width=39)
Group Key: store_cd
-> Seq Scan on receipt (cost=0.00..2126.81 rows=104681 width=11)


---
> S-028: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [103]:
%%sql
select store_cd, PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY amount) as median
from receipt
group by store_cd
order by median desc
limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,median
S13052,190.0
S14010,188.0
S14050,185.0
S13003,180.0
S13018,180.0


---
> S-029: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求め、10件表示させよ。

In [112]:
%%sql
select store_cd, mode() within group (order by product_cd) as mode_product, count(product_cd) as mode_value
from receipt
group by store_cd
order by mode_value desc
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


store_cd,mode_product,mode_value
S13018,P071401001,2530
S12029,P060303001,2518
S13019,P071401001,2507
S14026,P071401001,2481
S13008,P060303001,2468
S13009,P060303001,2465
S13032,P060303001,2459
S14028,P060303001,2424
S13016,P071102001,2408
S14011,P060101001,2400


---
> S-030: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の分散を計算し、降順で5件表示せよ。

In [115]:
%%sql
select store_cd, variance(amount) as var
from receipt
group by store_cd
order by var desc
limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,var
S13052,441863.252526234
S14011,306442.24243156874
S14034,297068.39274006075
S13001,295558.8426177125
S13015,295427.1970858536


---
> S-031: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標準偏差を計算し、降順で5件表示せよ。

In [117]:
%%sql
select store_cd, stddev(amount) as stddev
from receipt
group by store_cd
order by stddev
limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


store_cd,stddev
S14050,397.45800504948
S14042,414.910595531094
S14049,424.964543257148
S12030,430.837734219357
S13044,435.555919251573


---
> S-032: レシート明細データ（receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [120]:
%%sql
select PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY amount) as p25,
PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY amount) as p50,
PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY amount) as p75,
PERCENTILE_CONT(1) WITHIN GROUP (ORDER BY amount) as p100
from receipt

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


p25,p50,p75,p100
102.0,170.0,288.0,10925.0


---
> S-033: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [127]:
%%sql
select store_cd, avg(amount) as avg
from receipt
group by store_cd
having avg(amount) >= 330;

*  postgresql://padawan:***@db:5432/dsdojo_db
13 rows affected.


store_cd,avg
S13052,402.86746987951807
S13019,330.2086158755485
S13003,350.9155188246097
S14045,330.0820734341253
S13004,330.943949044586
S13001,348.4703862660944
S14026,332.34058847239015
S14010,348.79126213592235
S13015,351.11196043165467
S12013,330.19412997903567


---
> S-034: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [135]:
%%sql
select avg(amount) as avg
from receipt
where customer_id not like 'Z%';

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


avg
322.1818306385311


---
> S-035: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出し、10件表示せよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [136]:
%%sql
select customer_id,  sum(amount) as total_amount
from receipt
where customer_id not like 'Z%'
group by customer_id
having sum(amount) > (select avg(amount) from receipt)
limit 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount
CS001311000059,2302
CS029212000033,3604
CS007515000119,7157
CS034515000123,3699
CS004315000058,490
CS026414000014,6671
CS001615000099,768
CS010515000082,1482
CS019315000045,813
CS008513000099,1322


---
> S-036: レシート明細データ（receipt）と店舗データ（store）を内部結合し、レシート明細データの全項目と店舗データの店舗名（store_name）を10件表示せよ。

In [15]:
%%sql
select receipt.*, store.store_name from receipt
INNER JOIN store
ON receipt.store_cd = store.store_cd
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158,葛が谷店
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81,成城店
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170,二ツ橋店
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25,新山下店
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90,大和店
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138,狛江店
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30,三田店
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128,長津田店
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770,十条仲原店
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680,南藤沢店


---
> S-037: 商品データ（product）とカテゴリデータ（category）を内部結合し、商品データの全項目とカテゴリデータのカテゴリ小区分名（category_small_name）を10件表示せよ。

In [31]:
%%sql
SELECT product.*, category_small_name from product
INNER JOIN category
ON product.category_small_cd = category.category_small_cd
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_small_name
P040101001,4,401,40101,198,149,弁当類
P040101002,4,401,40101,218,164,弁当類
P040101003,4,401,40101,230,173,弁当類
P040101004,4,401,40101,248,186,弁当類
P040101005,4,401,40101,268,201,弁当類
P040101006,4,401,40101,298,224,弁当類
P040101007,4,401,40101,338,254,弁当類
P040101008,4,401,40101,420,315,弁当類
P040101009,4,401,40101,498,374,弁当類
P040101010,4,401,40101,580,435,弁当類


In [28]:
%%sql
select * from category
limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


category_major_cd,category_major_name,category_medium_cd,category_medium_name,category_small_cd,category_small_name
4,惣菜,401,御飯類,40101,弁当類
4,惣菜,401,御飯類,40102,寿司類
4,惣菜,402,佃煮類,40201,魚介佃煮類
4,惣菜,402,佃煮類,40202,海草佃煮類
4,惣菜,402,佃煮類,40203,野菜佃煮類


---
> S-038: 顧客データ（customer）とレシート明細データ（receipt）から、顧客ごとの売上金額合計を求め、10件表示せよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [45]:
%%sql
select sum(amount) , gender_cd, customer.customer_id from receipt
left join customer
on receipt.customer_id = customer.customer_id
where gender_cd = '1' and customer.customer_id not like 'Z%'
group by customer.customer_id
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sum,gender_cd,customer_id
768,1,CS001615000099
1482,1,CS010515000082
813,1,CS019315000045
1322,1,CS008513000099
2975,1,CS007615000070
1038,1,CS025415000155
2562,1,CS012514000018
3090,1,CS015215000021
586,1,CS010614000019
446,1,CS026512000011


---
> S-039: レシート明細データ（receipt）から、売上日数の多い顧客の上位20件を抽出したデータと、売上金額合計の多い顧客の上位20件を抽出したデータをそれぞれ作成し、さらにその2つを完全外部結合せよ。ただし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [69]:
%%sql
select * from 
(select count(*), customer_id from receipt
where customer_id not like 'Z%'
group by sales_ymd, customer_id
order by count(*) desc
limit 20)  as date_rank
full join
(select sum(amount), customer_id from receipt
where customer_id not like 'Z%'
group by customer_id
order by sum(amount) desc
limit 20) as amount_rank
on date_rank.customer_id = amount_rank.customer_id
;




*  postgresql://padawan:***@db:5432/dsdojo_db
40 rows affected.


count,customer_id,sum,customer_id_1
6.0,CS028414000005,,
6.0,CS020414000070,,
6.0,CS031515000192,,
6.0,CS028414000061,,
4.0,CS010414000096,,
4.0,CS022614000025,,
4.0,CS020414000084,,
4.0,CS034414000102,,
4.0,CS021513000119,,
4.0,CS031513000149,,


---
> S-040: 全ての店舗と全ての商品を組み合わせたデータを作成したい。店舗データ（store）と商品データ（product）を直積し、件数を計算せよ。

In [73]:
%%sql
select count(*) from store
cross join product
;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


count
531590


---
> S-041: レシート明細データ（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前回売上があった日からの売上金額増減を計算せよ。そして結果を10件表示せよ。

In [125]:
%%sql
with lagged as (
    select sales_ymd, 
            amount, 
            lag(amount,1) over(order by sales_ymd) as previous_amount 
    from receipt
)

select sales_ymd, sum(amount) - sum(previous_amount) from lagged
group by sales_ymd
limit 10
;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,?column?
20170101,98
20170102,180
20170103,-190
20170104,160
20170105,432
20170106,1520
20170107,-2098
20170108,78
20170109,118
20170110,-130


---
> S-042: レシート明細データ（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、前回、前々回、3回前に売上があった日のデータを結合せよ。そして結果を10件表示せよ。

In [129]:
%%sql
with lagged as (
    select sales_ymd, sum(amount) as total_amount
    from receipt
    group by sales_ymd
)

select sales_ymd, 
lag(total_amount,1) over(order by sales_ymd) as lag_one,
lag(total_amount,2) over(order by sales_ymd) as lag_two,
lag(total_amount,3 ) over(order by sales_ymd) as lag_three
from lagged
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_ymd,lag_one,lag_two,lag_three
20170101,,,
20170102,33723.0,,
20170103,24165.0,33723.0,
20170104,27503.0,24165.0,33723.0
20170105,36165.0,27503.0,24165.0
20170106,37830.0,36165.0,27503.0
20170107,32387.0,37830.0,36165.0
20170108,23415.0,32387.0,37830.0
20170109,24737.0,23415.0,32387.0
20170110,26718.0,24737.0,23415.0


---
> S-043: レシート明細データ（receipt）と顧客データ（customer）を結合し、性別コード（gender_cd）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリデータを作成せよ。性別コードは0が男性、1が女性、9が不明を表すものとする。
>
> ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [181]:
%%sql
with customer_age_class as (
    select customer_id,gender_cd,
case
    when age between 0 and 9 then 0
    when age between 10 and 19 then 10
    when age between 20 and 29 then 20
    when age between 30 and 39 then 30
    when age between 40 and 49 then 40
    when age between 50 and 59 then 50
    when age between 60 and 69 then 60
    when age between 70 and 79 then 70
    when age between 80 and 89 then 80
    when age between 90 and 99 then 90
end as age_class
from customer
where not age is null and not gender_cd is null
)

select age_class as 年代, 
coalesce(sum(amount) filter(where gender_cd = '0') ,0)  as 男性,
coalesce(sum(amount) filter(where gender_cd = '1') ,0) as 女性,
coalesce(sum(amount) filter(where gender_cd = '9'),0 ) as 不明
from receipt
left join customer_age_class
on receipt.customer_id = customer_age_class.customer_id
where not age_class is null
group by age_class, gender_cd

*  postgresql://padawan:***@db:5432/dsdojo_db
25 rows affected.


年代,男性,女性,不明
10,1591,0,0
10,0,149836,0
10,0,0,4317
20,72940,0,0
20,0,1363724,0
20,0,0,44328
30,177322,0,0
30,0,693047,0
30,0,0,50441
40,19355,0,0


---
> S-044: 043で作成した売上サマリデータ（sales_summary）は性別の売上を横持ちさせたものであった。このデータから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を"00"、女性を"01"、不明を"99"とする。

In [187]:
%%sql
with customer_age_class as (
    select customer_id,gender_cd,
case
    when age between 0 and 9 then 0
    when age between 10 and 19 then 10
    when age between 20 and 29 then 20
    when age between 30 and 39 then 30
    when age between 40 and 49 then 40
    when age between 50 and 59 then 50
    when age between 60 and 69 then 60
    when age between 70 and 79 then 70
    when age between 80 and 89 then 80
    when age between 90 and 99 then 90
    else 999
end as age_class
from customer
where not age is null and not gender_cd is null
)

select age_class as 年代, gender_cd as 性別コード, sum(amount) as 売上金額
from receipt
left join customer_age_class
on receipt.customer_id = customer_age_class.customer_id
where not receipt.customer_id is null and 
      not age_class is null
group by age_class, gender_cd
order by age_class,gender_cd
;

*  postgresql://padawan:***@db:5432/dsdojo_db
25 rows affected.


年代,性別コード,売上金額
10,0,1591
10,1,149836
10,9,4317
20,0,72940
20,1,1363724
20,9,44328
30,0,177322
30,1,693047
30,9,50441
40,0,19355


---
> S-045: 顧客データ（customer）の生年月日（birth_day）は日付型でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [192]:
%%sql
select customer_id,birth_day, to_char(birth_day,'YYYYMMDD') as 生年月日 from customer
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,birth_day,生年月日
CS021313000114,1981-04-29,19810429
CS037613000071,1952-04-01,19520401
CS031415000172,1976-10-04,19761004
CS028811000001,1933-03-27,19330327
CS001215000145,1995-03-29,19950329
CS020401000016,1974-09-15,19740915
CS015414000103,1977-08-09,19770809
CS029403000008,1973-08-17,19730817
CS015804000004,1931-05-02,19310502
CS033513000180,1962-07-11,19620711


---
> S-046: 顧客データ（customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [195]:
%%sql
select customer_id, to_date(application_date,'YYYYMMDD')
from customer
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,to_date
CS021313000114,2015-09-05
CS037613000071,2015-04-14
CS031415000172,2015-05-29
CS028811000001,2016-01-15
CS001215000145,2017-06-05
CS020401000016,2015-02-25
CS015414000103,2015-07-22
CS029403000008,2015-05-15
CS015804000004,2015-06-07
CS033513000180,2015-07-28


---
> S-047: レシート明細データ（receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [202]:
%%sql
select customer_id , to_date(to_char(sales_ymd,'99999999'),'YYYYMMDD') as 売上日
from receipt
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,売上日
CS006214000001,2018-11-03
CS008415000097,2018-11-18
CS028414000014,2017-07-12
ZZ000000000000,2019-02-05
CS025415000050,2018-08-21
CS003515000195,2019-06-05
CS024514000042,2018-12-05
CS040415000178,2019-09-22
ZZ000000000000,2017-05-04
CS027514000015,2019-10-10


---
> S-048: レシート明細データ（receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [207]:
%%sql
select receipt_no, to_timestamp(sales_epoch) as 売り上げ時間
from receipt
limit 10 ;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,売り上げ時間
112,2018-11-03 00:00:00+00:00
1132,2018-11-18 00:00:00+00:00
1102,2017-07-12 00:00:00+00:00
1132,2019-02-05 00:00:00+00:00
1102,2018-08-21 00:00:00+00:00
1112,2019-06-05 00:00:00+00:00
1102,2018-12-05 00:00:00+00:00
1102,2019-09-22 00:00:00+00:00
1112,2017-05-04 00:00:00+00:00
1102,2019-10-10 00:00:00+00:00


---
> S-049: レシート明細データ（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「年」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [210]:
%%sql
select receipt_no, to_char(to_timestamp(sales_epoch),'YYYY') as 購入年
from receipt
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,購入年
112,2018
1132,2018
1102,2017
1132,2019
1102,2018
1112,2019
1102,2018
1102,2019
1112,2017
1102,2019


---
> S-050: レシート明細データ（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「月」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「月」は0埋め2桁で取り出すこと。

In [214]:
%%sql
select receipt_no, to_char(to_timestamp(sales_epoch),'MM') as 購入月
from receipt
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,購入月
112,11
1132,11
1102,7
1132,2
1102,8
1112,6
1102,12
1102,9
1112,5
1102,10


---
> S-051: レシート明細データ（receipt）の売上エポック秒を日付型に変換し、「日」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「日」は0埋め2桁で取り出すこと。

In [215]:
%%sql
select receipt_no, receipt_sub_no,to_char(to_timestamp(sales_epoch),'dd') as 購入日
from receipt
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


receipt_no,receipt_sub_no,購入日
112,1,3
1132,2,18
1102,1,12
1132,1,5
1102,2,21
1112,1,5
1102,2,5
1102,1,22
1112,2,4
1102,1,10


---
> S-052: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2,000円以下を0、2,000円より大きい金額を1に二値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [223]:
%%sql
select receipt.customer_id, sum(amount) as total_amount, 
case 
when sum(amount) > 2000 then 1
else 0
end as is_over_tow_thousands
from receipt
left join customer
on receipt.customer_id = customer.customer_id
where not receipt.customer_id like 'Z%'
group by receipt.customer_id
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount,is_over_tow_thousands
CS001311000059,2302,1
CS004614000122,248,0
CS003512000043,298,0
CS011615000061,246,0
CS029212000033,3604,1
CS007515000119,7157,1
CS034515000123,3699,1
CS004315000058,490,0
CS026414000014,6671,1
CS001615000099,768,0


---
> S-053: 顧客データ（customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に二値化せよ。さらにレシート明細データ（receipt）と結合し、全期間において売上実績のある顧客数を、作成した二値ごとにカウントせよ。

In [233]:
%%sql
with customer_tokyo as (
    select customer_id ,  
    postal_cd,
    case when cast(substring(postal_cd from 1 for 3) as integer) between 100 and 209 then 1
    else 0
    end as is_tokyo
    from customer
)

select is_tokyo ,count(*) from receipt
left join customer_tokyo
on receipt.customer_id = customer_tokyo.customer_id
where not is_tokyo is null
group by is_tokyo

*  postgresql://padawan:***@db:5432/dsdojo_db
2 rows affected.


is_tokyo,count
0,34438
1,31244


---


> S-054: 顧客データ（customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに10件表示せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。

In [236]:
%%sql
select customer_id,address, 
case when address like '埼玉県%' then 11
when address like '千葉県%' then 12
when address like '東京都%' then 13
when address like '神奈川県%' then 14
end as address_code
from customer
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,address,address_code
CS021313000114,神奈川県伊勢原市粟窪**********,14
CS037613000071,東京都江東区南砂**********,13
CS031415000172,東京都渋谷区代々木**********,13
CS028811000001,神奈川県横浜市泉区和泉町**********,14
CS001215000145,東京都大田区仲六郷**********,13
CS020401000016,東京都板橋区若木**********,13
CS015414000103,東京都江東区北砂**********,13
CS029403000008,千葉県浦安市海楽**********,12
CS015804000004,東京都江東区北砂**********,13
CS033513000180,神奈川県横浜市旭区善部町**********,14


---
> S-055: レシート明細（receipt）データの売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに10件表示せよ。カテゴリ値は順に1〜4とする。
>
> - 最小値以上第1四分位未満 ・・・ 1を付与
> - 第1四分位以上第2四分位未満 ・・・ 2を付与
> - 第2四分位以上第3四分位未満 ・・・ 3を付与
> - 第3四分位以上 ・・・ 4を付与

In [244]:
%%sql
select customer_id,sum(amount) as total_amount, 
ntile(4) over(order by sum(amount)) as q_amount
from receipt
where customer_id !=  'ZZ000000000000'
group by customer_id
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount,q_amount
CS014614000056,70,1
CS002513000267,80,1
CS010803000005,93,1
CS005412000085,98,1
CS035304000008,105,1
CS005315000108,115,1
CS037412000091,115,1
CS039413000007,115,1
CS018613000019,118,1
CS003413000010,118,1


---
> S-056: 顧客データ（customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに10件表示せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。

In [249]:
%%sql
select customer_id as 顧客ID, birth_day as 生年月日, 
case when age between 10 and 19 then 10
when age between 20 and 29 then 20
when age between 30 and 39 then 30
when age between 40 and 49 then 40
when age between 50 and 59 then 50
when age >= 60 then 60
end as 年代,
age as 年齢
from customer
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


顧客id,生年月日,年代,年齢
CS021313000114,1981-04-29,30,37
CS037613000071,1952-04-01,60,66
CS031415000172,1976-10-04,40,42
CS028811000001,1933-03-27,60,86
CS001215000145,1995-03-29,20,24
CS020401000016,1974-09-15,40,44
CS015414000103,1977-08-09,40,41
CS029403000008,1973-08-17,40,45
CS015804000004,1931-05-02,60,87
CS033513000180,1962-07-11,50,56


---
> S-057: 056の抽出結果と性別コード（gender_cd）により、新たに性別×年代の組み合わせを表すカテゴリデータを作成し、10件表示せよ。組み合わせを表すカテゴリの値は任意とする。

In [252]:
%%sql
select customer_id as 顧客ID, birth_day as 生年月日, 

concat(
case when age between 10 and 19 then 10
when age between 20 and 29 then 20
when age between 30 and 39 then 30
when age between 40 and 49 then 40
when age between 50 and 59 then 50
when age >= 60 then 60
end,
'代_',
case when gender_cd = '0' then '女性'
else '男性'
end) as 性別_年代
from customer
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


顧客id,生年月日,性別_年代
CS021313000114,1981-04-29,30代_男性
CS037613000071,1952-04-01,60代_男性
CS031415000172,1976-10-04,40代_男性
CS028811000001,1933-03-27,60代_男性
CS001215000145,1995-03-29,20代_男性
CS020401000016,1974-09-15,40代_女性
CS015414000103,1977-08-09,40代_男性
CS029403000008,1973-08-17,40代_女性
CS015804000004,1931-05-02,60代_女性
CS033513000180,1962-07-11,50代_男性


---
> S-058: 顧客データ（customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに10件表示せよ。

In [258]:
%%sql
select customer_id, gender_cd ,
case when gender_cd = '1' then 1 
    else 0 
end as is_male,
case when gender_cd = '0' then 1 
    else 0 
end as is_female
from customer
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,gender_cd,is_male,is_female
CS021313000114,1,1,0
CS037613000071,9,0,0
CS031415000172,1,1,0
CS028811000001,1,1,0
CS001215000145,1,1,0
CS020401000016,0,0,1
CS015414000103,1,1,0
CS029403000008,0,0,1
CS015804000004,0,0,1
CS033513000180,1,1,0


---
> S-059: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに10件表示せよ。標準化に使用する標準偏差は、分散の平方根、もしくは不偏分散の平方根のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [266]:
%%sql
with grouped_data as (
    select customer_id,
    sum(amount) as total_amount
    from receipt
    where not customer_id like 'Z%'
    group by customer_id
), stats as (
    select 
        avg(amount) as avg_amount,
        stddev(amount) as stddev_amount
    from receipt
    where not customer_id like 'Z%'
)

select 
     a.customer_id,
     a.total_amount,
     b.avg_amount,
     b.stddev_amount,
     (a.total_amount - b.avg_amount) / b.stddev_amount as normalized_amount 
from 
grouped_data a,
stats b
limit 10; 

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount,avg_amount,stddev_amount,normalized_amount
CS001311000059,2302,322.1818306385311,479.507324332326,4.128859078676641
CS004614000122,248,322.1818306385311,479.507324332326,-0.1547042701419068
CS003512000043,298,322.1818306385311,479.507324332326,-0.0504305761589821
CS011615000061,246,322.1818306385311,479.507324332326,-0.1588752179012238
CS029212000033,3604,322.1818306385311,479.507324332326,6.844146069992001
CS007515000119,7157,322.1818306385311,479.507324332326,14.253834764418633
CS034515000123,3699,322.1818306385311,479.507324332326,7.0422660885595585
CS004315000058,490,322.1818306385311,479.507324332326,0.3499804087354488
CS026414000014,6671,322.1818306385311,479.507324332326,13.240294458904604
CS001615000099,768,322.1818306385311,479.507324332326,0.9297421472805104


---
> S-060: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [281]:
%%sql
with grouped_data as (
    select customer_id, sum(amount) as total_amount
    from receipt
    where not customer_id like 'Z%'
    group by customer_id
),min_max as (
    select min(total_amount) as min, max(total_amount) as max
    from grouped_data
)

select customer_id,(a.total_amount - m.min)::float / (m.max - m.min)::float as norm_amount,total_amount,m.min,m.max
from grouped_data a, min_max m
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,norm_amount,total_amount,min,max
CS001311000059,0.0969760166840458,2302,70,23086
CS004614000122,0.0077337504344803,248,70,23086
CS003512000043,0.0099061522419186,298,70,23086
CS011615000061,0.0076468543621828,246,70,23086
CS029212000033,0.1535453597497393,3604,70,23086
CS007515000119,0.3079162321863052,7157,70,23086
CS034515000123,0.157672923183872,3699,70,23086
CS004315000058,0.0182481751824817,490,70,23086
CS026414000014,0.2868004866180049,6671,70,23086
CS001615000099,0.0303267292318387,768,70,23086


---
> S-061: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を常用対数化（底10）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [288]:
%%sql
select customer_id , log(10,sum(amount)) as total_amount
    from receipt
    group by customer_id
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount
CS001311000059,3.362105319293773
CS004614000122,2.3944516808262164
CS003512000043,2.4742162640762553
CS011615000061,2.3909351071033793
CS029212000033,3.5567847823070253
CS007515000119,3.8547310172139424
CS034515000123,3.568084331315394
CS004315000058,2.6901960800285134
CS026414000014,3.824190940652583
CS001615000099,2.885361220031512


---
> S-062: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を自然対数化（底e）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [291]:
%%sql
select customer_id, ln(sum(amount)) as log_total_amount 
from receipt
where not customer_id like 'Z%'
group by customer_id
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,log_total_amount
CS001311000059,7.741533589281828
CS004614000122,5.513428746164983
CS003512000043,5.697093486505405
CS011615000061,5.5053315359323625
CS029212000033,8.189799618728228
CS007515000119,8.875846177738598
CS034515000123,8.215817791832453
CS004315000058,6.194405391104672
CS026414000014,8.805525052709516
CS001615000099,6.643789733147672


---
> S-063: 商品データ（product）の単価（unit_price）と原価（unit_cost）から各商品の利益額を算出し、結果を10件表示せよ。

In [296]:
%%sql
select product_cd ,unit_price - unit_cost as profit from product
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,profit
P040101001,49
P040101002,54
P040101003,57
P040101004,62
P040101005,67
P040101006,74
P040101007,84
P040101008,105
P040101009,124
P040101010,145


---
> S-064: 商品データ（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。ただし、単価と原価には欠損が生じていることに注意せよ。

In [298]:
%%sql
select avg(unit_price - unit_cost) as avg_profit
from product
where not unit_price is null and not unit_cost is null;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


avg_profit
100.38611194253215


---
> S-065: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [319]:
%%sql

select product_cd, unit_cost,floor(unit_cost * 1.3) as new_price
from product
where not unit_price is null and not unit_cost is null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_cost,new_price
P040101001,149,193
P040101002,164,213
P040101003,173,224
P040101004,186,241
P040101005,201,261
P040101006,224,291
P040101007,254,330
P040101008,315,409
P040101009,374,486
P040101010,435,565


---
> S-066: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を丸めること（四捨五入または偶数への丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [318]:
%%sql
select product_cd, unit_cost, round(unit_cost * 1.3) as new_price
from product
where not unit_price is null and not unit_cost is null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_cost,new_price
P040101001,149,194
P040101002,164,213
P040101003,173,225
P040101004,186,242
P040101005,201,261
P040101006,224,291
P040101007,254,330
P040101008,315,410
P040101009,374,486
P040101010,435,566


---
> S-067: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [317]:
%%sql
select product_cd, ceil(unit_cost * 1.3) as new_price
from product
where not unit_price is null and not unit_cost is null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,new_price
P040101001,194
P040101002,214
P040101003,225
P040101004,242
P040101005,262
P040101006,292
P040101007,331
P040101008,410
P040101009,487
P040101010,566


---
> S-068: 商品データ（product）の各商品について、消費税率10％の税込み金額を求めよ。1円未満の端数は切り捨てとし、結果を10件表示せよ。ただし、単価（unit_price）には欠損が生じていることに注意せよ。

In [321]:
%%sql
select product_cd, unit_price, floor(unit_price * 1.1) as unit_price_inx_tax
from product
where not unit_price is null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,unit_price,unit_price_inx_tax
P040101001,198,217
P040101002,218,239
P040101003,230,253
P040101004,248,272
P040101005,268,294
P040101006,298,327
P040101007,338,371
P040101008,420,462
P040101009,498,547
P040101010,580,638


---
> S-069: レシート明細データ（receipt）と商品データ（product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分コード（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分コード"07"（瓶詰缶詰）の売上実績がある顧客のみとし、結果を10件表示せよ。

In [338]:
%%sql
select customer_id, sum(amount) as total_amount,
sum(amount) filter (where category_major_cd = '07') as total_amount_07,
sum(amount) filter (where category_major_cd = '07'):: float/sum(amount):: float as ratio_07 
from receipt
left join product
on receipt.product_cd = product.product_cd
group by customer_id
having sum(amount) filter (where category_major_cd = '07') > 0
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount,total_amount_07,ratio_07
CS001311000059,2302,102,0.0443092962641181
CS011615000061,246,98,0.3983739837398374
CS029212000033,3604,3604,1.0
CS007515000119,7157,2832,0.3956965208886405
CS034515000123,3699,1202,0.3249526899161936
CS026414000014,6671,3142,0.4709938539949033
CS001615000099,768,318,0.4140625
CS010515000082,1482,553,0.3731443994601889
CS019315000045,813,380,0.4674046740467404
CS008513000099,1322,210,0.1588502269288956


---
> S-070: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [349]:
%%sql
select receipt.customer_id, 
    sales_ymd, 
       application_date,
       to_date(to_char(sales_ymd,'99999999'), 'YYYYMMDD') - to_date(application_date,'YYYYMMDD') as passed_date
from receipt
left join customer
on receipt.customer_id = customer.customer_id
where not receipt.customer_id is null and
not application_date is null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,passed_date
CS006214000001,20181103,20150201,1371
CS008415000097,20181118,20150322,1337
CS028414000014,20170712,20150711,732
CS025415000050,20180821,20160131,933
CS003515000195,20190605,20150306,1552
CS024514000042,20181205,20151010,1152
CS040415000178,20190922,20150627,1548
CS027514000015,20191010,20151101,1439
CS025415000134,20190918,20150720,1521
CS021515000126,20171010,20150508,886


---
> S-071: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [356]:
%%sql
select receipt.customer_id, sales_ymd, application_date,
date_part('year', age(to_date(to_char(receipt.sales_ymd,'99999999'),'YYYYMMDD'), to_date(customer.application_date,'YYYYMMDD'))) * 12  +
date_part('month', age(to_date(to_char(receipt.sales_ymd,'99999999'),'YYYYMMDD'),to_date(customer.application_date,'YYYYMMDD')))
as passed_month
from receipt
left join customer
on receipt.customer_id = customer.customer_id
where not receipt.customer_id is null and
      not customer.application_date is null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,passed_date
CS006214000001,20181103,20150201,45.0
CS008415000097,20181118,20150322,43.0
CS028414000014,20170712,20150711,24.0
CS025415000050,20180821,20160131,30.0
CS003515000195,20190605,20150306,50.0
CS024514000042,20181205,20151010,37.0
CS040415000178,20190922,20150627,50.0
CS027514000015,20191010,20151101,47.0
CS025415000134,20190918,20150720,49.0
CS021515000126,20171010,20150508,29.0


---
> S-072: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [358]:
%%sql
select receipt.customer_id, sales_ymd, application_date,
date_part('year', age(to_date(to_char(sales_ymd,'99999999'),'YYYYMMDD'),to_date(application_date,'YYYYMMDD'))) as passed_yaer
from receipt
left join customer
on receipt.customer_id = customer.customer_id
where not receipt.customer_id is null and not customer.application_date is null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,passed_yaer
CS006214000001,20181103,20150201,3.0
CS008415000097,20181118,20150322,3.0
CS028414000014,20170712,20150711,2.0
CS025415000050,20180821,20160131,2.0
CS003515000195,20190605,20150306,4.0
CS024514000042,20181205,20151010,3.0
CS040415000178,20190922,20150627,4.0
CS027514000015,20191010,20151101,3.0
CS025415000134,20190918,20150720,4.0
CS021515000126,20171010,20150508,2.0


---
> S-073: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [370]:
%%sql
select receipt.customer_id, sales_ymd,application_date,
extract(EPOCH from to_timestamp(sales_ymd) - to_timestamp(to_number(application_date,'99999999'))) as passed_sec
from receipt
left join customer
on receipt.customer_id = customer.customer_id
where not receipt.customer_id is null and not customer.application_date is null
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,sales_ymd,application_date,passed_sec
CS006214000001,20181103,20150201,30902.0
CS008415000097,20181118,20150322,30796.0
CS028414000014,20170712,20150711,20001.0
CS025415000050,20180821,20160131,20690.0
CS003515000195,20190605,20150306,40299.0
CS024514000042,20181205,20151010,30195.0
CS040415000178,20190922,20150627,40295.0
CS027514000015,20191010,20151101,39909.0
CS025415000134,20190918,20150720,40198.0
CS021515000126,20171010,20150508,20502.0


---
> S-074: レシート明細データ（receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、直前の月曜日付とともに10件表示せよ（sales_ymdは数値でデータを保持している点に注意）。

In [391]:
%%sql
with weekday as (
select to_date(sales_ymd::text, 'YYYYMMDD') as sales_date,
    case 
       when extract(dow from to_date(sales_ymd::text, 'YYYYMMDD')) = 0 then 6
       else extract(dow from to_date(sales_ymd::text, 'YYYYMMDD')) - 1
       end as weekday_from_monday
from receipt)

select sales_date,sales_date - (weekday_from_monday * interval '1 day') as last_monday
from weekday
limit 10;
　　　　

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


sales_date,last_monday
2018-11-03,2018-10-29 00:00:00
2018-11-18,2018-11-12 00:00:00
2017-07-12,2017-07-10 00:00:00
2019-02-05,2019-02-04 00:00:00
2018-08-21,2018-08-20 00:00:00
2019-06-05,2019-06-03 00:00:00
2018-12-05,2018-12-03 00:00:00
2019-09-22,2019-09-16 00:00:00
2017-05-04,2017-05-01 00:00:00
2019-10-10,2019-10-07 00:00:00


---
> S-075: 顧客データ（customer）からランダムに1%のデータを抽出し、先頭から10件表示せよ。

In [394]:
%%sql
select * from customer
tablesample bernoulli(1)
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS040415000104,金井 由美子,1,女性,1971-03-14,48,226-0026,神奈川県横浜市緑区長津田町**********,S14040,20160306,7-20090423-A
CS001615000258,関 麗奈,1,女性,1955-05-25,63,144-0035,東京都大田区南蒲田**********,S13001,20161116,0-00000000-0
CS002312000013,水田 窈,1,女性,1980-02-26,39,187-0002,東京都小平市花小金井**********,S13002,20150225,0-00000000-0
CS039213000039,高見 結衣,1,女性,1989-09-02,29,168-0081,東京都杉並区宮前**********,S13039,20150630,0-00000000-0
CS020513000020,岡村 愛子,1,女性,1963-04-20,55,115-0056,東京都北区西が丘**********,S13020,20151224,0-00000000-0
CS037514000133,田村 陽子,1,女性,1961-12-28,57,135-0016,東京都江東区東陽**********,S13037,20171218,0-00000000-0
CS011612000101,渡部 あや子,1,女性,1949-04-11,69,211-0025,神奈川県川崎市中原区木月**********,S14011,20150711,0-00000000-0
CS001514000191,高倉 礼子,1,女性,1965-11-04,53,144-0046,東京都大田区東六郷**********,S13001,20160628,A-20100731-1
CS039613000119,黒崎 彩,1,女性,1953-01-29,66,167-0053,東京都杉並区西荻南**********,S13039,20150418,0-00000000-0
CS022315000167,菅谷 瞳,1,女性,1984-03-19,35,249-0005,神奈川県逗子市桜山**********,S14022,20151001,0-00000000-0


---
> S-076: 顧客データ（customer）から性別コード（gender_cd）の割合に基づきランダムに10%のデータを層化抽出し、性別コードごとに件数を集計せよ。

In [401]:
%%sql
with count as (
    select gender_cd, 
    count(*) as total
          from customer
    group by gender_cd
),
sample_size as (
        select gender_cd,total,total * 0.1 as sample_count
    from count
)

select c.* from customer c
left join sample_size s 
on c.gender_cd = s.gender_cd
where c.customer_id in (
    select customer_id 
    from customer
    where gender_cd = s.gender_cd
    order by random()
    limit (select sample_count from sample_size where gender_cd = s.gender_cd)
)
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001212000098,菊地 りえ,9,不明,1995-01-19,24,210-0842,神奈川県川崎市川崎区渡田東町**********,S13001,20170604,3-20090405-2
CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
CS003613000188,西本 めぐみ,1,女性,1950-05-18,68,201-0012,東京都狛江市中和泉**********,S13003,20160820,0-00000000-0
CS015412000111,松居 奈月,1,女性,1972-10-04,46,136-0071,東京都江東区亀戸**********,S13015,20150629,0-00000000-0
CS040413000257,堤 明慶,9,不明,1974-11-26,44,226-0016,神奈川県横浜市緑区霧が丘**********,S14040,20151203,0-00000000-0
CS031515000093,中村 ひろ子,1,女性,1964-06-25,54,151-0053,東京都渋谷区代々木**********,S13031,20150204,D-20100304-D
CS026512000160,西井 美咲,1,女性,1967-12-06,51,253-0001,神奈川県茅ヶ崎市赤羽根**********,S14026,20160326,0-00000000-0
CS030615000018,島崎 美菜,1,女性,1957-10-16,61,272-0024,千葉県市川市稲荷木**********,S12030,20150925,2-20100705-4
CS002615000349,田辺 文世,1,女性,1951-08-20,67,185-0022,東京都国分寺市東元町**********,S13002,20170118,0-00000000-0
CS021411000096,布施 杏,1,女性,1971-10-30,47,259-1114,神奈川県伊勢原市高森**********,S14021,20160621,0-00000000-0


---
> S-077: レシート明細データ（receipt）の売上金額を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。なお、外れ値は売上金額合計を対数化したうえで平均と標準偏差を計算し、その平均から3σを超えて離れたものとする（自然対数と常用対数のどちらでも可）。結果は10件表示せよ。

In [6]:
%%sql
with grouped_data as (
select customer_id, sum(amount) as total_amount,log(sum(amount)) as log_total_amount
from receipt
group by customer_id
), stats as (
    select avg(log_total_amount) as average, 
           stddev(log_total_amount) as sd
    from grouped_data
)

select sum(total_amount)
from grouped_data g,stats s
where abs(g.log_total_amount - s.average) > 3 * s.sd
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


sum
12395003


---
> S-078: レシート明細データ（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第1四分位と第3四分位の差であるIQRを用いて、「第1四分位数-1.5×IQR」を下回るもの、または「第3四分位数+1.5×IQR」を超えるものとする。結果は10件表示せよ。

In [17]:
%%sql
with grouped_data as (
    select customer_id, sum(amount) as total_amount
    from receipt
    where not customer_id like 'Z%'
    group by customer_id
), stats as (
    select percentile_cont(0.75) within group(order by total_amount) as q3,
           percentile_cont(0.25) within group (order by total_amount) as q1
    from grouped_data
), iqr as (
    select q3 - q1 as iqr,
           q1 - 1.5 * (q3 - q1) as th1,
           q3 + 1.5 * (q3 - q1) as th3
    from stats
)

select customer_id,total_amount, iqr * 1.5 as threshold,q1,q3
from grouped_data g, iqr,stats
where g.total_amount < th1
or    g.total_amount > th3
limit 10;


*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,total_amount,threshold,q1,q3
CS013415000226,8362,4652.25,548.25,3649.75
CS011415000041,9454,4652.25,548.25,3649.75
CS014514000004,8872,4652.25,548.25,3649.75
CS021514000008,12839,4652.25,548.25,3649.75
CS014515000007,9763,4652.25,548.25,3649.75
CS040415000220,10158,4652.25,548.25,3649.75
CS028415000161,8465,4652.25,548.25,3649.75
CS034515000173,10074,4652.25,548.25,3649.75
CS022515000065,12903,4652.25,548.25,3649.75
CS007514000094,15735,4652.25,548.25,3649.75


---
> S-079: 商品データ（product）の各項目に対し、欠損数を確認せよ。

In [33]:
%%sql
select 
    count(*) filter(where product_cd is null) as product_cd,
    count(*) filter(where category_major_cd is null) as category_major_cd,
    count(*) filter(where category_medium_cd is null) as category_medium_cd,
    count(*) filter(where category_small_cd is null) as category_small_cd,
    count(*) filter(where unit_price is null) as unit_price,
    count(*) filter(where unit_cost is null) as unit_cost
from product;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
0,0,0,0,7,7


---
> S-080: 商品データ（product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。

In [35]:
%%sql
with product_filtered as (
    select product_cd, category_major_cd, category_medium_cd, category_small_cd, unit_price, unit_cost
    from product
    where not unit_price is null and not unit_cost is null
)

select 
    count(*) filter(where unit_price is null) as unit_price,
    count(*) filter(where unit_cost is null) as unit_cost
from product_filtered

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


unit_price,unit_cost
0,0


---
> S-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たな商品データを作成せよ。なお、平均値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [40]:
%%sql
with product_complemented as (
    select product_cd, category_major_cd, category_medium_cd, category_small_cd, 
    coalesce(unit_price, round(avg(unit_price) over())) as unit_price,
    coalesce(unit_cost, round(avg(unit_cost) over())) as unit_cost
    from product
)

select 
    count(*) filter(where unit_price is null) as unit__price,
    count(*) filter(where unit_cost is null ) as unit_cost
          from product_complemented

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


unit__price,unit_cost
0,0


---
> S-082: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [52]:
%%sql
with median as (
    select round(percentile_cont(0.5) within group (order by unit_price)) as median_unit_price,
           round(percentile_cont(0.5) within group (order by unit_cost)) as median_unit_cost
from product
), prduct_complemented as (
    select product_cd, category_major_cd,category_medium_cd,category_small_cd,
    coalesce(unit_price,median_unit_price) as unit_price,
    coalesce(unit_cost,  median_unit_cost) as unit_cost
    from product, median
)

select 
 count(*) filter(where unit_price is null) as unit_price,
 count(*) filter(where unit_cost is null) as unit_cost
from prduct_complemented ;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


unit_price,unit_cost
0,0


---
> S-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品のカテゴリ小区分コード（category_small_cd）ごとに算出した中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [63]:
%%sql
with grouped_median as (
    select
        category_small_cd,
        round(percentile_cont(0.5) within group(order by unit_price)) as median_unit_price,
        round(percentile_cont(0.5) within group(order by unit_cost)) as median_unit_cost
    from product
    group by category_small_cd
) ,product_complemented as (
    select product_cd, category_major_cd,category_major_cd,p.category_small_cd,
    coalesce(unit_price,median_unit_price) as unit_price,
    coalesce(unit_price,median_unit_cost) as unit_cost
    from product p
    left join grouped_median m
    on p.category_small_cd = m.category_small_cd 
)

select 
    count(*) filter(where unit_price is null) as unit_price,
    count(*) filter(where unit_cost is null) as unit_cost
from product_complemented

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


unit_price,unit_cost
0,0


---
> S-084: 顧客データ（customer）の全顧客に対して全期間の売上金額に占める2019年売上金額の割合を計算し、新たなデータを作成せよ。ただし、売上実績がない場合は0として扱うこと。そして計算した割合が0超のものを抽出し、結果を10件表示せよ。また、作成したデータに欠損が存在しないことを確認せよ。

---
SQLの方針
年数列を追加する
全期間で集計
2019年で集計
割合を算出。割合,customer_cd

customer_cdでcustomerに結合
割合データのnul補完をする。

In [107]:
%%sql
with receipt_year as (
    select sales_ymd, sales_epoch, store_cd, receipt_no, receipt_sub_no, customer_id, product_cd, quantity, amount,
    extract(year from to_date(to_char(sales_ymd,'99999999'),'YYYYMMDD')) as sales_year
    from receipt
), total_amount as (
    select
        customer_id,
    coalesce(sum(amount) filter(where sales_year = 2019),0)as amount_2019,
    sum(amount) as total_amount
    from receipt_year
    group by customer_id
), amount_ratio as (
    select 
        customer_id,
        amount_2019/total_amount::float as ratio_2019
    from total_amount
)

select c.customer_id, c.customer_name, c.gender_cd, c.gender, c.birth_day, c.age, c.postal_cd,
        c.address, c.application_store_cd, c.application_date, c.status_cd,
        coalesce(r.ratio_2019,0) as ratio_2019
from customer c
left join amount_ratio r
on c.customer_id = r.customer_id
where ratio_2019 > 0
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,ratio_2019
CS011615000061,藤島 幸子,1,女性,1949-06-18,69,223-0063,神奈川県横浜市港北区高田町**********,S14011,20150115,1-20100503-3,1.0
CS007515000119,金城 咲,1,女性,1962-11-26,56,276-0023,千葉県八千代市勝田台**********,S12007,20150627,E-20100511-F,0.2538773229006567
CS034515000123,松原 彩華,1,女性,1967-02-14,52,216-0001,神奈川県川崎市宮前区野川**********,S14034,20150616,C-20100708-D,0.1905920519059205
CS026414000014,椎名 りえ,1,女性,1973-02-06,46,253-0022,神奈川県茅ヶ崎市松浪**********,S14026,20150628,E-20100720-E,0.1049317943336831
CS008513000099,三好 れいな,1,女性,1964-11-11,54,201-0004,東京都狛江市岩戸北**********,S13008,20150626,7-20100308-8,0.1936459909228441
CS007615000070,菊地 さやか,1,女性,1956-09-27,62,285-0845,千葉県佐倉市西志津**********,S12007,20150901,B-20101025-C,0.5236974789915967
CS025415000155,古川 みゆき,1,女性,1970-02-12,49,242-0024,神奈川県大和市福田**********,S14025,20151025,6-20101026-A,0.3545279383429672
CS016414000063,本上 窈,1,女性,1976-07-05,42,184-0004,東京都小金井市本町**********,S13016,20141120,E-20100617-F,0.2609956500724988
CS012514000018,筒井 朝陽,1,女性,1962-09-13,56,231-0826,神奈川県横浜市中区本牧荒井**********,S14012,20150614,A-20100703-D,0.2603434816549571
CS029515000142,稲垣 れいな,1,女性,1963-08-25,55,279-0041,千葉県浦安市堀江**********,S12029,20150513,C-20100807-C,0.4087719298245614


In [97]:
%%sql
select * from customer
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
CS020401000016,宮下 達士,0,男性,1974-09-15,44,174-0065,東京都板橋区若木**********,S13020,20150225,0-00000000-0
CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
CS029403000008,釈 人志,0,男性,1973-08-17,45,279-0003,千葉県浦安市海楽**********,S12029,20150515,0-00000000-0
CS015804000004,松谷 米蔵,0,男性,1931-05-02,87,136-0073,東京都江東区北砂**********,S13015,20150607,0-00000000-0
CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5


---
> S-085: 顧客データ（customer）の全顧客に対し、郵便番号（postal_cd）を用いてジオコードデータ（geocode）を紐付け、新たな顧客データを作成せよ。ただし、1つの郵便番号（postal_cd）に複数の経度（longitude）、緯度（latitude）情報が紐づく場合は、経度（longitude）、緯度（latitude）の平均値を算出して使用すること。また、作成結果を確認するために結果を10件表示せよ。

In [121]:
%%sql
with geocode as (
    select postal_cd,
    round(avg(longitude),5) as longitude, round(avg(latitude),5) as latitude
    from geocode
    group by postal_cd
)

select c.*,
        latitude,
        longitude
from customer c
left join geocode g
on c.postal_cd = g.postal_cd
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,latitude,longitude
CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0,35.41358,139.31779
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0,35.67193,139.83502
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C,35.67374,139.68965
CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0,35.39125,139.4836
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2,35.54084,139.70775
CS020401000016,宮下 達士,0,男性,1974-09-15,44,174-0065,東京都板橋区若木**********,S13020,20150225,0-00000000-0,35.77073,139.67245
CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B,35.67818,139.83601
CS029403000008,釈 人志,0,男性,1973-08-17,45,279-0003,千葉県浦安市海楽**********,S12029,20150515,0-00000000-0,35.65422,139.90469
CS015804000004,松谷 米蔵,0,男性,1931-05-02,87,136-0073,東京都江東区北砂**********,S13015,20150607,0-00000000-0,35.67818,139.83601
CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5,35.45013,139.51463


---
> S-086: 085で作成した緯度経度つき顧客データに対し、会員申込店舗コード（application_store_cd）をキーに店舗データ（store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客住所（address）の緯度・経度を用いて申込み店舗と顧客住所の距離（単位：km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は以下の簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示せよ。

$$
\mbox{緯度（ラジアン）}：\phi \\
\mbox{経度（ラジアン）}：\lambda \\
\mbox{距離}L = 6371 * \arccos(\sin \phi_1 * \sin \phi_2
+ \cos \phi_1 * \cos \phi_2 * \cos(\lambda_1 − \lambda_2))
$$

In [123]:
%%sql

CREATE OR REPLACE FUNCTION cal_distance(lat1 float, lon1 float, lat2 float, lon2 float)
RETURNS float AS $$
DECLARE
    r float := 6371; -- 地球の半径をキロメートル単位で設定
    rad_lat1 float;
    rad_lon1 float;
    rad_lat2 float;
    rad_lon2 float;
    delta_lat float;
    delta_lon float;
    a float;
    c float;
BEGIN
    -- 度数法からラジアンに変換
    rad_lat1 := radians(lat1);
    rad_lon1 := radians(lon1);
    rad_lat2 := radians(lat2);
    rad_lon2 := radians(lon2);
    
    -- 緯度と経度の差
    delta_lat := rad_lat2 - rad_lat1;
    delta_lon := rad_lon2 - rad_lon1;
    
    -- ハーバーサイン公式を使用して距離を計算
    a := sin(delta_lat / 2) ^ 2 + cos(rad_lat1) * cos(rad_lat2) * sin(delta_lon / 2) ^ 2;
    c := 2 * atan2(sqrt(a), sqrt(1 - a));
    RETURN r * c; -- 結果はキロメートル単位
END;
$$ LANGUAGE plpgsql;


*  postgresql://padawan:***@db:5432/dsdojo_db
Done.


[]

In [128]:
%%sql
with geocode as (
    select postal_cd,
    round(avg(longitude),5) as longitude, round(avg(latitude),5) as latitude
    from geocode
    group by postal_cd
), customer_geocode as (
    select c.*,
            latitude,
            longitude
    from customer c
    left join geocode g
    on c.postal_cd = g.postal_cd
)



select 
    customer_id,
    c.address as customer_adress,
    s.address as store_adress,
    cal_distance(c.latitude,c.longitude,s.latitude,s.longitude)as distance
from customer_geocode c
left join store s
on c.application_store_cd = s.store_cd
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_adress,store_adress,distance
CS021313000114,神奈川県伊勢原市粟窪**********,神奈川県伊勢原市伊勢原四丁目,1.3944087053435292
CS037613000071,東京都江東区南砂**********,東京都江東区南砂一丁目,1.451182210508693
CS031415000172,東京都渋谷区代々木**********,東京都渋谷区初台二丁目,0.4117334759843218
CS028811000001,神奈川県横浜市泉区和泉町**********,神奈川県横浜市瀬谷区二ツ橋町,8.06519602691263
CS001215000145,東京都大田区仲六郷**********,東京都大田区仲六郷二丁目,1.2684209724617026
CS020401000016,東京都板橋区若木**********,東京都北区十条仲原三丁目,4.185904615488711
CS015414000103,東京都江東区北砂**********,東京都江東区南砂二丁目,1.449673410710019
CS029403000008,千葉県浦安市海楽**********,千葉県浦安市東野一丁目,0.8048581278617041
CS015804000004,東京都江東区北砂**********,東京都江東区南砂二丁目,1.449673410710019
CS033513000180,神奈川県横浜市旭区善部町**********,神奈川県横浜市瀬谷区阿久和西一丁目,1.956947004175404


---
> S-087: 顧客データ（customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなして1顧客1レコードとなるように名寄せした名寄顧客データを作成し、顧客データの件数、名寄顧客データの件数、重複数を算出せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残し、売上金額合計が同一もしくは売上実績がない顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [152]:
%%sql
with total_amount as (
    select 
        c.customer_id,
        coalesce(sum(r.amount),0) as total_amount
    from customer c
    left join receipt r
    on c.customer_id = r.customer_id
    where not c.customer_id like 'Z%'
    group by c.customer_id
),customer_total_amount as (
    select 
        c.*,
        t.total_amount    
    from customer c
    left join total_amount t
    on c.customer_id = t.customer_id
), ranking as (
    select c.* ,
        ROW_NUMBER() OVER (
            PARTITION BY customer_id
            ORDER BY total_amount DESC, customer_id ASC
        ) AS rank
from customer_total_amount c
)

select r.* from ranking r
where rank = 1
limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,total_amount,rank
CS001105000001,中島 利夫,0,男性,2000-01-14,19,144-0056,東京都大田区西六郷**********,S13001,20170310,0-00000000-0,0,1
CS001112000009,秦 美里,1,女性,2006-08-24,12,143-0026,東京都大田区西馬込**********,S13001,20150703,0-00000000-0,0,1
CS001112000019,門脇 莉沙,1,女性,2001-01-31,18,143-0004,東京都大田区昭和島**********,S13001,20170207,0-00000000-0,0,1
CS001112000021,長澤 麗奈,1,女性,2001-12-15,17,144-0056,東京都大田区西六郷**********,S13001,20170612,0-00000000-0,0,1
CS001112000023,戸田 一恵,1,女性,2004-01-26,15,143-0004,東京都大田区昭和島**********,S13001,20170724,0-00000000-0,0,1


---
> S-088: 087で作成したデータを元に、顧客データに統合名寄IDを付与したデータを作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
> - 重複していない顧客：顧客ID（customer_id）を設定
> - 重複している顧客：前設問で抽出したレコードの顧客IDを設定
> 
> 顧客IDのユニーク件数と、統合名寄IDのユニーク件数の差も確認すること。

In [156]:
%%sql
with total_amount as (
    select 
        c.customer_id,
        coalesce(sum(r.amount),0) as total_amount
    from customer c
    left join receipt r
    on c.customer_id = r.customer_id
    where not c.customer_id like 'Z%'
    group by c.customer_id
),customer_total_amount as (
    select 
        c.*,
        t.total_amount    
    from customer c
    left join total_amount t
    on c.customer_id = t.customer_id
), ranking as (
    select c.* ,
        ROW_NUMBER() OVER (
            PARTITION BY customer_id
            ORDER BY total_amount DESC, customer_id ASC
        ) AS rank
from customer_total_amount c
) ,distinct_customer as (
    select r.* from ranking r
    where rank = 1
), integrated_customer as (
    select
        c.*,
        d.customer_id as integrated_customer_id
    from customer c
    left join distinct_customer d
    on c.customer_name = d.customer_name and 
       c.postal_cd = d.postal_cd
)

select * from integrated_customer
limit 5;

*  postgresql://padawan:***@db:5432/dsdojo_db
5 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,integrated_customer_id
CS021313000114,大野 あや子,1,女性,1981-04-29,37,259-1113,神奈川県伊勢原市粟窪**********,S14021,20150905,0-00000000-0,CS021313000114
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0,CS037613000071
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C,CS031415000172
CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0,CS028811000001
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2,CS001215000145


In [167]:
%%sql
with total_amount as (
    select 
        c.customer_id,
        coalesce(sum(r.amount),0) as total_amount
    from customer c
    left join receipt r
    on c.customer_id = r.customer_id
    where not c.customer_id like 'Z%'
    group by c.customer_id
),customer_total_amount as (
    select 
        c.*,
        t.total_amount    
    from customer c
    left join total_amount t
    on c.customer_id = t.customer_id
), ranking as (
    select c.* ,
        ROW_NUMBER() OVER (
            PARTITION BY customer_name,postal_cd
            ORDER BY total_amount DESC, customer_id ASC
        ) AS rank
from customer_total_amount c
) ,distinct_customer as (
    select r.* from ranking r
    where rank = 1
), integrated_customer as (
    select
        c.*,
        d.customer_id as integrated_customer_id
    from customer c
    left join distinct_customer d
    on c.customer_name = d.customer_name and 
       c.postal_cd = d.postal_cd
)

select 
    count(distinct customer_id) as customer_id,
    count(distinct integrated_customer_id) as integrated_customer_id
from integrated_customer;

*  postgresql://padawan:***@db:5432/dsdojo_db
1 rows affected.


customer_id,integrated_customer_id
21971,21941


---
> S-089: 売上実績がある顧客を、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

In [175]:
%%sql
with total_amount as (
    select customer_id,
            sum(amount) as total_amount
    from receipt
    where not customer_id like 'Z%'
    group by customer_id
), random_customer as (
    select *, 
    row_number() over (order by random()) as rank,
    count(*) over() as total_count
    from total_amount
    where not total_amount is null
), labeled_customer as (
        select * ,
        case 
            when rank <= total_count * 0.8 then 'train'
            else 'test'
        end as label
    from random_customer
)
select customer_id, label 
from labeled_customer
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,label
CS003511000065,train
CS016411000041,train
CS008315000082,train
CS032604000010,train
CS030415000146,train
CS025512000039,train
CS009515000084,train
CS028411000010,train
CS026215000042,train
CS039214000014,train


---
> S-090: レシート明細データ（receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月の時系列モデル構築用データを3セット作成せよ。

In [196]:
%%sql
with year_month_receipt as (
    select * ,
    to_char(to_date(to_char(sales_ymd, '99999999'),'YYYYMMDD'),'YYYY-MM') as year_month
    from receipt
), month_amount as (
    select year_month, sum(amount) as total_amount
    from year_month_receipt
    group by year_month
), dataset1 as (
    select * ,
    case
        when year_month between '2017-01' and '2017-12' then 'train'
        when year_month between '2018-01' and '2018-06' then 'test'
    end as label
    from month_amount
    where year_month between '2017-01' and '2018-06'
)

select * from dataset1
order by year_month desc
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


year_month,total_amount,label
2018-06,1012329,test
2018-05,1004438,test
2018-04,937099,test
2018-03,946588,test
2018-02,864128,test
2018-01,944509,test
2017-12,939654,train
2017-11,932157,train
2017-10,905739,train
2017-09,902037,train


---
> S-091: 顧客データ（customer）の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [213]:
%%sql
with receipt_count as (
    select 
        customer_id, 
        case when count(*) >= 1 then 1
        else 0 
        end as sales_flag 
    from receipt
    group by customer_id
), customer_sales as (
    select
            c.*,
            coalesce(r.sales_flag,0) as sales_flag
            from customer c
    left join receipt_count r
    on c.customer_id = r.customer_id
), with_random_rank as (
    select *,
            row_number() over(partition by sales_flag
                              order by random()) as random_rank
    from customer_sales
)

select * from with_random_rank
where random_rank < 100
order by random_rank
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,sales_flag,random_rank
CS023415000081,上杉 夏希,1,女性,1976-12-02,42,212-0012,神奈川県川崎市幸区中幸町**********,S14023,20150622,B-20090425-D,1,1
CS002612000353,寺沢 菜々美,1,女性,1955-03-04,64,187-0011,東京都小平市鈴木町**********,S13002,20180509,0-00000000-0,0,1
CS005212000086,中林 花,1,女性,1995-12-28,23,177-0044,東京都練馬区上石神井**********,S13005,20170213,0-00000000-0,0,2
CS017513000124,大原 真希,1,女性,1961-06-04,57,166-0012,東京都杉並区和田**********,S13017,20141114,9-20100530-A,1,2
CS014402000057,川瀬 明,0,男性,1975-09-12,43,263-0054,千葉県千葉市稲毛区宮野木町**********,S12014,20141215,0-00000000-0,0,3
CS004415000231,栗田 郁恵,1,女性,1976-08-04,42,165-0034,東京都中野区大和町**********,S13004,20150821,6-20080612-1,1,3
CS018414000108,柳原 りえ,1,女性,1973-02-19,46,204-0022,東京都清瀬市松山**********,S13018,20150418,E-20100817-E,1,4
CS011312000063,杉本 ちえみ,1,女性,1986-06-09,32,212-0033,神奈川県川崎市幸区東小倉**********,S14011,20150814,0-00000000-0,0,4
CS004812000029,池本 めぐみ,1,女性,1932-08-13,86,167-0022,東京都杉並区下井草**********,S13004,20160703,0-00000000-0,0,5
CS004415000169,松井 美帆,1,女性,1970-01-14,49,165-0031,東京都中野区上鷺宮**********,S13004,20151025,9-20101016-8,1,5


---
> S-092: 顧客データ（customer）の性別について、第三正規形へと正規化せよ。

In [222]:
%%sql
with gender_code as (
    select distinct gender_cd ,
           gender
    from customer
    order by gender_cd
),customer_gender as (
        select customer_id, customer_name,	gender_cd	,	birth_day,	age	postal_cd,	address,	application_store_cd,	application_date,	status_cd
    from customer
    )


select * from gender_code

*  postgresql://padawan:***@db:5432/dsdojo_db
3 rows affected.


gender_cd,gender
0,男性
1,女性
9,不明


---
> S-093: 商品データ（product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリデータ（category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品データを作成せよ。

In [225]:
%%sql
with product_category as (
    select p.* from product p
    left join category j
    on p.category_small_cd = j.category_small_cd
)

select * from product_category
limit 10;

*  postgresql://padawan:***@db:5432/dsdojo_db
10 rows affected.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_cd_1,category_major_name,category_medium_cd_1,category_medium_name,category_small_cd_1,category_small_name
P040101001,4,401,40101,198,149,4,惣菜,401,御飯類,40101,弁当類
P040101002,4,401,40101,218,164,4,惣菜,401,御飯類,40101,弁当類
P040101003,4,401,40101,230,173,4,惣菜,401,御飯類,40101,弁当類
P040101004,4,401,40101,248,186,4,惣菜,401,御飯類,40101,弁当類
P040101005,4,401,40101,268,201,4,惣菜,401,御飯類,40101,弁当類
P040101006,4,401,40101,298,224,4,惣菜,401,御飯類,40101,弁当類
P040101007,4,401,40101,338,254,4,惣菜,401,御飯類,40101,弁当類
P040101008,4,401,40101,420,315,4,惣菜,401,御飯類,40101,弁当類
P040101009,4,401,40101,498,374,4,惣菜,401,御飯類,40101,弁当類
P040101010,4,401,40101,580,435,4,惣菜,401,御飯類,40101,弁当類


---
> S-094: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。

In [None]:
%%sql


---
> S-095: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|CP932|
> 
> PostgreSQLではShift_JISを指定することでCP932相当となる。ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。

In [None]:
%%sql


---
> S-096: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|無し|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。

In [None]:
%%sql


---
> S-097: 094で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|

In [None]:
%%sql


---
> S-098: 096で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|ヘッダ無し|UTF-8|

In [None]:
%%sql


---
> S-099: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
> 
> |出力先|
> |:--:|
> |/tmp/data|
> 
> ※"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。


In [None]:
%%sql


---
> S-100: 099で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|

In [None]:
%%sql


# これで１００本終わりです。おつかれさまでした！