# データサイエンス100本ノック（構造化データ加工編） - SQL

## はじめに
- データベースはSQLServer2019で検証しています（おそらく2017以上で問題ないと思いますが、未確認です）
- 初めに以下のセルを実行してください
- セルに %%sql と記載することでSQLを発行することができます
- jupyterからはdescribeコマンドによるテーブル構造の確認ができないため、テーブル構造を確認する場合はTOPを指定したSELECTなどで代用してください
- 使い慣れたSQLクライアントを使っても問題ありません（接続情報は以下の通り）
  - database名: 100KnocksPreprocess
  - ユーザ名：padawan
  - パスワード:padawan12345
- 大量出力を行うとJupyterが固まることがあるため、出力件数は制限することを推奨します（設問にも出力件数を記載）
    - 結果確認のために表示させる量を適切にコントロールし、作業を軽快にすすめる技術もデータ加工には求められます
- 大量結果が出力された場合は、ファイルが重くなり以降開けなくなることもあります
    - その場合、作業結果は消えますがファイルをGitHubから取り直してください
    - vimエディタなどで大量出力範囲を削除することもできます
- 名前、住所等はダミーデータであり、実在するものではありません
- 一部の問題はSQLServerでは不向きなため回答がありません

注意

- SQLの最初にコメント`--`を入れると実行エラーになることを確認しています
- 実行エラーになる場合はSSMSで実行したほうがエラーはわかりやすいです（行数の指定がずれるため）
- SQLServerとの接続に失敗する場合はインスタンスのプロパティで**SQL Server認証の有効化、リモート接続の有効化を行っている**ことを確認してください

In [1]:
%load_ext sql

pgconfig = {
    'host': 'localhost', #インスタンス名がある場合はhost\instance
    'database': '100KnocksPreprocess',
    'user': 'padawan',
    'password': 'padawan12345',
}
dsl = 'mssql+pyodbc://{user}:{password}@{host}/{database}?driver=SQL+Server+Native+Client+11.0'.format(**pgconfig)

# # MagicコマンドでSQLを書くための設定
%sql $dsl

# 使い方
- セルの先頭に%%sqlと記載し、２行目以降にSQLを記述することでJupyterからPostgreSQLに対しSQLを実行できます。

In [4]:
%%sql
SELECT 'このように実行できます' as SAMPLE

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sample
このように実行できます


# データ加工100本ノック

## クエリの基本

---
> S-001: レシート明細テーブル（receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。


In [5]:
%%sql

SELECT TOP 10 * FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20170101,1483228800,S12013,1112,1,ZZ000000000000,P090102011,1,180
20170101,1483228800,S12013,1142,2,ZZ000000000000,P070901024,1,198
20170101,1483228800,S12013,1172,2,ZZ000000000000,P070202007,1,138
20170101,1483228800,S12014,1152,1,CS014411000048,P080401010,1,110
20170101,1483228800,S12014,1152,2,CS014411000048,P070708081,1,338
20170101,1483228800,S12014,1172,1,ZZ000000000000,P071401022,1,2400
20170101,1483228800,S12029,112,1,CS029214000004,P060203001,1,98
20170101,1483228800,S12029,112,2,CS029214000004,P060701001,1,98
20170101,1483228800,S12029,1132,1,ZZ000000000000,P060104003,1,80
20170101,1483228800,S12029,1192,1,CS029414000005,P050102001,1,60


---
> S-002: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。

In [6]:
%%sql

SELECT TOP 10 sales_ymd, customer_id, product_cd, amount FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_ymd,customer_id,product_cd,amount
20170101,ZZ000000000000,P090102011,180
20170101,ZZ000000000000,P070901024,198
20170101,ZZ000000000000,P070202007,138
20170101,CS014411000048,P080401010,110
20170101,CS014411000048,P070708081,338
20170101,ZZ000000000000,P071401022,2400
20170101,CS029214000004,P060203001,98
20170101,CS029214000004,P060701001,98
20170101,ZZ000000000000,P060104003,80
20170101,CS029414000005,P050102001,60


---
> S-003: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示させよ。ただし、sales_ymdはsales_dateに項目名を変更しながら抽出すること。

In [7]:
%%sql

SELECT TOP 10 sales_ymd as sales_date, customer_id, product_cd, amount 
FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_date,customer_id,product_cd,amount
20170101,ZZ000000000000,P090102011,180
20170101,ZZ000000000000,P070901024,198
20170101,ZZ000000000000,P070202007,138
20170101,CS014411000048,P080401010,110
20170101,CS014411000048,P070708081,338
20170101,ZZ000000000000,P071401022,2400
20170101,CS029214000004,P060203001,98
20170101,CS029214000004,P060701001,98
20170101,ZZ000000000000,P060104003,80
20170101,CS029414000005,P050102001,60


## 条件指定

---
> S-004: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [9]:
%%sql

SELECT
    sales_ymd AS sales_date, customer_id, product_cd, amount
FROM
    receipt
WHERE
    customer_id = 'CS018205000001'

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_date,customer_id,product_cd,amount
20170614,CS018205000001,P060702015,108
20170614,CS018205000001,P050206001,990
20180414,CS018205000001,P071101002,278
20180414,CS018205000001,P060104007,600
20180911,CS018205000001,P071401005,1100
20180911,CS018205000001,P071401012,2200
20190216,CS018205000001,P040101002,218
20190216,CS018205000001,P071005024,102
20190226,CS018205000001,P071401020,2200
20190226,CS018205000001,P070902035,168


---
> S-005: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [10]:
%%sql

SELECT
    sales_ymd AS sales_date, customer_id, product_cd, amount
FROM
    receipt
WHERE
    customer_id = 'CS018205000001'
    AND
    amount >= 1000

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_date,customer_id,product_cd,amount
20180911,CS018205000001,P071401005,1100
20180911,CS018205000001,P071401012,2200
20190226,CS018205000001,P071401020,2200


---
> S-006: レシート明細テーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [11]:
%%sql

SELECT
    sales_ymd AS sales_date, customer_id, product_cd, quantity, amount
FROM
    receipt
WHERE
    customer_id = 'CS018205000001'
    AND
    (
        amount >= 1000
        OR
        quantity >= 5
    )

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_date,customer_id,product_cd,quantity,amount
20170614,CS018205000001,P050206001,5,990
20180414,CS018205000001,P060104007,6,600
20180911,CS018205000001,P071401005,1,1100
20180911,CS018205000001,P071401012,1,2200
20190226,CS018205000001,P071401020,1,2200


---
> S-007: レシート明細のテーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [12]:
%%sql

SELECT
    sales_ymd AS sales_date, customer_id, product_cd, amount
FROM
    receipt
WHERE
    customer_id = 'CS018205000001'
    AND
    amount BETWEEN 1000 AND 2000

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_date,customer_id,product_cd,amount
20180911,CS018205000001,P071401005,1100


---
> S-008: レシート明細テーブル（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [15]:
%%sql

SELECT
    sales_ymd AS sales_date, customer_id, product_cd, amount
FROM
    receipt
WHERE
    customer_id = 'CS018205000001'
    AND
    product_cd != 'P071401019' --<>でもOK

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_date,customer_id,product_cd,amount
20170614,CS018205000001,P060702015,108
20170614,CS018205000001,P050206001,990
20180414,CS018205000001,P071101002,278
20180414,CS018205000001,P060104007,600
20180911,CS018205000001,P071401005,1100
20180911,CS018205000001,P071401012,2200
20190216,CS018205000001,P040101002,218
20190216,CS018205000001,P071005024,102
20190226,CS018205000001,P071401020,2200
20190226,CS018205000001,P070902035,168


---
> S-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。

`select * from store where not (prefecture_cd = '13' or floor_area > 900)`

In [16]:
%%sql

SELECT * FROM store WHERE prefecture_cd != '13' AND floor_area <= 900

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140,36,808
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,140,36,890
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,140,36,831


---
> S-010: 店舗テーブル（store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件だけ表示せよ。

In [17]:
%%sql

SELECT TOP 10 * FROM store WHERE store_cd like 'S14%'

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14006,葛が谷店,14,神奈川県,神奈川県横浜市都筑区葛が谷,カナガワケンヨコハマシツヅキククズガヤ,045-123-4031,140,36,1886
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,140,36,1732
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,140,36,890
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,140,35,1341
S14021,伊勢原店,14,神奈川県,神奈川県伊勢原市伊勢原四丁目,カナガワケンイセハラシイセハラヨンチョウメ,046-123-4035,139,35,962
S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,140,35,1838
S14023,川崎店,14,神奈川県,神奈川県川崎市川崎区本町二丁目,カナガワケンカワサキシカワサキクホンチョウニチョウメ,044-123-4037,140,36,1804
S14024,三田店,14,神奈川県,神奈川県川崎市多摩区三田四丁目,カナガワケンカワサキシタマクミタヨンチョウメ,044-123-4038,140,36,972
S14025,大和店,14,神奈川県,神奈川県大和市下和田,カナガワケンヤマトシシモワダ,046-123-4039,139,35,1011
S14026,辻堂西海岸店,14,神奈川県,神奈川県藤沢市辻堂西海岸二丁目,カナガワケンフジサワシツジドウニシカイガンニチョウメ,046-123-4040,139,35,1732


---
> S-011: 顧客テーブル（customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件だけ表示せよ。


In [18]:
%%sql

SELECT TOP 10 * FROM customer WHERE customer_id like '%1'

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001105000001,中島 利夫,0,男性,2000-01-14,19,144-0056,東京都大田区西六郷**********,S13001,20170310,0-00000000-0
CS001112000021,長澤 麗奈,1,女性,2001-12-15,17,144-0056,東京都大田区西六郷**********,S13001,20170612,0-00000000-0
CS001203000021,青木 ひとり,0,男性,1995-05-30,23,144-0055,東京都大田区仲六郷**********,S13001,20161001,0-00000000-0
CS001212000031,平塚 恵望子,1,女性,1990-07-26,28,210-0007,神奈川県川崎市川崎区駅前本町**********,S13001,20150822,2-20090906-2
CS001212000131,野口 ちえみ,1,女性,1994-06-08,24,212-0058,神奈川県川崎市幸区鹿島田**********,S13001,20180103,0-00000000-0
CS001215000061,伴 綾,1,女性,1989-03-14,30,144-0046,東京都大田区東六郷**********,S13001,20161111,4-20100326-7
CS001215000141,菊地 美幸,1,女性,1991-05-12,27,144-0046,東京都大田区東六郷**********,S13001,20170525,0-00000000-0
CS001305000011,松田 雄太,0,男性,1984-06-14,34,144-0055,東京都大田区仲六郷**********,S13001,20160807,D-20100910-B
CS001311000141,田辺 咲,1,女性,1987-03-27,32,212-0022,神奈川県川崎市幸区神明町**********,S13001,20180110,0-00000000-0
CS001312000001,多田 夏希,1,女性,1983-04-01,35,212-0058,神奈川県川崎市幸区鹿島田**********,S13001,20150614,0-00000000-0


---
> S-012: 店舗テーブル（store）から横浜市の店舗だけ全項目表示せよ。

In [19]:
%%sql

SELECT * FROM store WHERE address LIKE '%横浜市%'

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S14006,葛が谷店,14,神奈川県,神奈川県横浜市都筑区葛が谷,カナガワケンヨコハマシツヅキククズガヤ,045-123-4031,140,36,1886
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,140,36,1732
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,140,36,890
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,140,35,1341
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139,35,1574
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139,35,1495
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139,36,1548
S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,140,35,1044
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,140,36,831
S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,140,36,1657


---
> S-013: 顧客テーブル（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件だけ表示せよ。

In [20]:
%%sql

SELECT TOP 10 * FROM customer WHERE status_cd LIKE '[A-F]%'

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001115000010,藤沢 涼,1,女性,2006-05-16,12,144-0056,東京都大田区西六郷**********,S13001,20150417,B-20100405-9
CS001205000006,福士 明,0,男性,1993-06-12,25,144-0056,東京都大田区西六郷**********,S13001,20161111,B-20100224-C
CS001214000009,平尾 奈月,1,女性,1990-05-02,28,144-0056,東京都大田区西六郷**********,S13001,20160108,D-20100902-D
CS001214000017,小野 寿々花,1,女性,1996-06-05,22,144-0056,東京都大田区西六郷**********,S13001,20150409,C-20101006-C
CS001214000048,牧 エリカ,1,女性,1991-06-20,27,144-0056,東京都大田区西六郷**********,S13001,20160830,A-20100929-C
CS001214000052,宮脇 恵梨香,1,女性,1993-12-01,25,144-0055,東京都大田区仲六郷**********,S13001,20161008,E-20100617-C
CS001215000040,大原 奈央,1,女性,1995-07-10,23,144-0055,東京都大田区仲六郷**********,S13001,20151211,C-20081022-B
CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
CS001304000006,塩谷 竜也,0,男性,1980-02-24,39,144-0055,東京都大田区仲六郷**********,S13001,20151012,C-20080424-7
CS001305000005,前島 雅彦,0,男性,1979-01-02,40,144-0045,東京都大田区南六郷**********,S13001,20150519,C-20100420-D


---
> S-014: 顧客テーブル（customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [22]:
%%sql

SELECT TOP 10 * FROM customer WHERE status_cd LIKE '%[1-9]'

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001113000004,葛西 莉央,1,女性,2003-02-22,16,144-0056,東京都大田区西六郷**********,S13001,20151105,7-20100308-1
CS001114000005,安 里穂,1,女性,2004-11-22,14,144-0056,東京都大田区西六郷**********,S13001,20160412,5-20100731-7
CS001115000010,藤沢 涼,1,女性,2006-05-16,12,144-0056,東京都大田区西六郷**********,S13001,20150417,B-20100405-9
CS001211000025,河野 夏希,1,女性,1996-06-09,22,140-0013,東京都品川区南大井**********,S13001,20160505,4-20100322-2
CS001212000027,杉山 なぎさ,1,女性,1991-03-25,28,210-0022,神奈川県川崎市川崎区池田**********,S13001,20150731,3-20080127-2
CS001212000031,平塚 恵望子,1,女性,1990-07-26,28,210-0007,神奈川県川崎市川崎区駅前本町**********,S13001,20150822,2-20090906-2
CS001212000046,伊東 愛,1,女性,1994-09-08,24,210-0014,神奈川県川崎市川崎区貝塚**********,S13001,20160615,1-20080811-2
CS001212000070,浜本 愛,1,女性,1996-01-14,23,210-0831,神奈川県川崎市川崎区観音**********,S13001,20160918,4-20101018-2
CS001212000098,菊地 りえ,9,不明,1995-01-19,24,210-0842,神奈川県川崎市川崎区渡田東町**********,S13001,20170604,3-20090405-2
CS001213000018,市川 瞳,1,女性,1996-01-16,23,144-0055,東京都大田区仲六郷**********,S13001,20150721,1-20080519-2


---
> S-015: 顧客テーブル（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件だけ表示せよ。

In [23]:
%%sql

SELECT TOP 10 * FROM customer WHERE status_cd LIKE '[A-F]%[1-9]'

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001115000010,藤沢 涼,1,女性,2006-05-16,12,144-0056,東京都大田区西六郷**********,S13001,20150417,B-20100405-9
CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
CS001304000006,塩谷 竜也,0,男性,1980-02-24,39,144-0055,東京都大田区仲六郷**********,S13001,20151012,C-20080424-7
CS001311000059,浜口 菜々美,1,女性,1985-04-22,33,212-0004,神奈川県川崎市幸区小向西町**********,S13001,20160303,A-20090211-2
CS001314000060,若杉 憲史,9,不明,1980-12-26,38,144-0055,東京都大田区仲六郷**********,S13001,20150625,A-20090214-2
CS001315000074,上村 沙知絵,1,女性,1984-12-29,34,144-0035,東京都大田区南蒲田**********,S13001,20150920,A-20080524-1
CS001315000180,長浜 瞳,1,女性,1987-03-19,32,144-0052,東京都大田区蒲田**********,S13001,20151122,B-20081018-1
CS001411000027,長瀬 礼子,1,女性,1969-05-15,49,210-0024,神奈川県川崎市川崎区日進町**********,S13001,20150301,A-20091001-1
CS001411000037,矢沢 路子,1,女性,1974-11-26,44,210-0866,神奈川県川崎市川崎区水江町**********,S13001,20150604,A-20090308-1
CS001411000054,筒井 花,1,女性,1973-06-19,45,210-0007,神奈川県川崎市川崎区駅前本町**********,S13001,20150705,A-20091019-8


---
> S-016: 店舗テーブル（store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [25]:
%%sql

SELECT * FROM store WHERE tel_no LIKE '[0-9][0-9][0-9]-[0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]'

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
S12007,佐倉店,12,千葉県,千葉県佐倉市上志津,チバケンサクラシカミシヅ,043-123-4001,140,36,1895
S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140,36,808
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140,36,1698
S12029,東野店,12,千葉県,千葉県浦安市東野一丁目,チバケンウラヤスシヒガシノイッチョウメ,047-123-4004,140,36,1101
S12030,八幡店,12,千葉県,千葉県市川市八幡三丁目,チバケンイチカワシヤワタサンチョウメ,047-123-4005,140,36,1162
S12053,高洲店,12,千葉県,千葉県浦安市高洲五丁目,チバケンウラヤスシタカスゴチョウメ,047-123-4006,140,36,1555
S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139,36,1735
S13016,小金井店,13,東京都,東京都小金井市本町一丁目,トウキョウトコガネイシホンチョウイッチョウメ,042-123-4015,140,36,1399
S13018,清瀬店,13,東京都,東京都清瀬市松山一丁目,トウキョウトキヨセシマツヤマイッチョウメ,042-123-4017,140,36,1220
S13041,八王子店,13,東京都,東京都八王子市大塚,トウキョウトハチオウジシオオツカ,042-123-4026,139,36,810


## ソート

---
> S-017: 顧客テーブル（customer）を生年月日（birth_day）で高齢順にソートし、先頭10件を全項目表示せよ。

In [27]:
%%sql

SELECT TOP 10 * FROM customer ORDER BY birth_day

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0
CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0


---
> S-018: 顧客テーブル（customer）を生年月日（birth_day）で若い順にソートし、先頭10件を全項目表示せよ。

In [28]:
%%sql

SELECT TOP 10 * FROM customer ORDER BY birth_day DESC

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS035114000004,大村 美里,1,女性,2007-11-25,11,156-0053,東京都世田谷区桜**********,S13035,20150619,6-20091205-6
CS022103000002,福山 はじめ,9,不明,2007-10-02,11,249-0006,神奈川県逗子市逗子**********,S14022,20160909,0-00000000-0
CS002113000009,柴田 真悠子,1,女性,2007-09-17,11,184-0014,東京都小金井市貫井南町**********,S13002,20160304,0-00000000-0
CS004115000014,松井 京子,1,女性,2007-08-09,11,165-0031,東京都中野区上鷺宮**********,S13004,20161120,1-20081231-1
CS002114000010,山内 遥,1,女性,2007-06-03,11,184-0015,東京都小金井市貫井北町**********,S13002,20160920,6-20100510-1
CS025115000002,小柳 夏希,1,女性,2007-04-18,11,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20160116,D-20100913-D
CS002113000025,広末 まなみ,1,女性,2007-03-30,12,184-0015,東京都小金井市貫井北町**********,S13002,20171030,0-00000000-0
CS033112000003,長野 美紀,1,女性,2007-03-22,12,245-0051,神奈川県横浜市戸塚区名瀬町**********,S14033,20150606,0-00000000-0
CS007115000006,福岡 瞬,1,女性,2007-03-10,12,285-0845,千葉県佐倉市西志津**********,S12007,20151118,F-20101016-F
CS014113000008,矢口 莉緒,1,女性,2007-03-05,12,260-0041,千葉県千葉市中央区東千葉**********,S12014,20150622,3-20091108-6


---
> S-019: レシート明細テーブル（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [29]:
%%sql

SELECT TOP 10 customer_id, amount, RANK() OVER(ORDER BY amount DESC) AS ranking 
FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,amount,ranking
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
CS015515000034,5480,4
ZZ000000000000,5480,4
ZZ000000000000,5480,4
CS021515000089,5440,7
ZZ000000000000,5440,7
ZZ000000000000,5280,9
ZZ000000000000,5280,9


---
>  S-020: レシート明細テーブル（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭10件を抽出せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [30]:
%%sql

SELECT TOP 10 customer_id, amount, ROW_NUMBER() OVER(ORDER BY amount DESC) AS ranking 
FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,amount,ranking
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
CS015515000034,5480,4
ZZ000000000000,5480,5
ZZ000000000000,5480,6
CS021515000089,5440,7
ZZ000000000000,5440,8
ZZ000000000000,5280,9
ZZ000000000000,5280,10


## 集計関数（基本）

---
> S-021: レシート明細テーブル（receipt）に対し、件数をカウントせよ。

In [31]:
%%sql

SELECT count(1) FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


104681


---
> S-022: レシート明細テーブル（receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [33]:
%%sql

SELECT count(DISTINCT customer_id) FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


8307


---
> S-023: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [34]:
%%sql

SELECT store_cd
    , SUM(amount) as amount
    , SUM(quantity) as quantity
FROM receipt
GROUP BY store_cd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,amount,quantity
S14006,712839,2284
S14045,458484,1398
S14050,167090,580
S14040,701858,2233
S14026,824537,2503
S14042,534689,1935
S13039,611888,1981
S14049,230808,788
S12029,794741,2555
S13004,779373,2390


---
> S-024: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）を求め、10件表示せよ。

In [35]:
%%sql

SELECT TOP 10 customer_id, MAX(sales_ymd)
FROM receipt
GROUP BY customer_id

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,Unnamed: 1
CS019814000010,20191008
CS009512000138,20180802
CS017515000054,20190710
CS022415000234,20190420
CS004513000426,20180301
CS014514000054,20180525
CS020513000041,20180720
CS027615000011,20190131
CS040212000049,20191024
CS016415000116,20190513


---
> S-025: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も古い売上日（sales_ymd）を求め、10件表示せよ。

In [36]:
%%sql

SELECT TOP 10 customer_id, MIN(sales_ymd)
FROM receipt
GROUP BY customer_id

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,Unnamed: 1
CS019814000010,20170522
CS009512000138,20180802
CS017515000054,20170121
CS022415000234,20170418
CS004513000426,20180301
CS014514000054,20180525
CS020513000041,20180720
CS027615000011,20190131
CS040212000049,20191024
CS016415000116,20170116


---
> S-026: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上日（sales_ymd）と古い売上日を求め、両者が異なるデータを10件表示せよ。

In [37]:
%%sql

SELECT TOP 10 customer_id, MAX(sales_ymd), MIN(sales_ymd)
FROM receipt
GROUP BY customer_id
HAVING MAX(sales_ymd) != MIN(sales_ymd)

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,Unnamed: 1,_1
CS019814000010,20191008,20170522
CS017515000054,20190710,20170121
CS022415000234,20190420,20170418
CS016415000116,20190513,20170116
CS003415000091,20180321,20170528
CS024514000039,20190627,20181205
CS021515000172,20191020,20170111
CS039515000008,20190703,20170211
CS039515000090,20191010,20170616
CS034515000020,20190805,20170803


## 集計関数（統計値）

---
> S-027: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [38]:
%%sql

SELECT TOP 5 store_cd, AVG(amount) as avr_amount
FROM receipt
GROUP BY store_cd
ORDER BY avr_amount DESC

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,avr_amount
S13052,402
S13015,351
S13003,350
S13001,348
S14010,348


---
> S-028: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [57]:
%%sql

SELECT DISTINCT TOP 5
    store_cd, 
    PERCENTILE_CONT(0.5) WITHIN GROUP(ORDER BY amount) OVER (PARTITION BY store_cd) as amount_50per
FROM receipt
ORDER BY amount_50per DESC

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,amount_50per
S13052,190.0
S14010,188.0
S14050,185.0
S13003,180.0
S13018,180.0


---
> S-029: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求めよ。

In [8]:
%%sql

SELECT store_cd, product_cd, mode_cnt
FROM (
    SELECT 
        store_cd,
        product_cd,
        COUNT(1) AS mode_cnt,
        RANK() OVER(PARTITION BY store_cd ORDER BY COUNT(1) DESC) AS rnk
    FROM receipt
    GROUP BY store_cd,product_cd
) AS product_mode
WHERE rnk = 1
ORDER BY store_cd,product_cd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,product_cd,mode_cnt
S12007,P060303001,72
S12013,P060303001,107
S12014,P060303001,65
S12029,P060303001,92
S12030,P060303001,115
S13001,P060303001,67
S13002,P060303001,78
S13003,P071401001,65
S13004,P060303001,88
S13005,P040503001,36


---
> S-030: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本分散を計算し、降順でTOP5を表示せよ。

In [9]:
%%sql

SELECT TOP 5 store_cd, VARP(amount) as vars_amount
FROM receipt
GROUP BY store_cd
ORDER BY vars_amount DESC

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,vars_amount
S13052,440088.7013112692
S14011,306314.55816388887
S14034,296920.0810112839
S13001,295431.9933290353
S13015,295294.3611159409


---
> S-031: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標本標準偏差を計算し、降順でTOP5を表示せよ。

In [11]:
%%sql

SELECT TOP 5 store_cd, STDEVP(amount) as stds_amount
FROM receipt
GROUP BY store_cd
ORDER BY stds_amount DESC

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,stds_amount
S13052,663.3918158307873
S14011,553.4569162671011
S14034,544.9037355453565
S13001,543.5365611704841
S13015,543.409938366921


---
> S-032: レシート明細テーブル（receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [151]:
%%sql

SELECT TOP 1
    PERCENTILE_CONT(0.25) WITHIN GROUP(ORDER BY amount) OVER() AS amount_25per,
    PERCENTILE_CONT(0.50) WITHIN GROUP(ORDER BY amount) OVER() AS amount_50per,
    PERCENTILE_CONT(0.75) WITHIN GROUP(ORDER BY amount) OVER() AS amount_75per,
    PERCENTILE_CONT(1.0) WITHIN GROUP(ORDER BY amount) OVER() AS amount_100per
FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


amount_25per,amount_50per,amount_75per,amount_100per
102.0,170.0,288.0,10925.0


---
> S-033: レシート明細テーブル（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [19]:
%%sql

SELECT store_cd, AVG(amount) AS avg_amount
FROM receipt
GROUP BY store_cd
HAVING AVG(amount) >= 330

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


store_cd,avg_amount
S14045,330
S14026,332
S13004,330
S13019,330
S13001,348
S12013,330
S14047,330
S13003,350
S13020,337
S14011,335


---
> S-034: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [21]:
%%sql

SELECT AVG(sum_amount) 
FROM (
    SELECT customer_id, SUM(amount) AS sum_amount
    FROM receipt
    WHERE customer_id not like 'Z%'
    GROUP BY customer_id
) customer_amount

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


2547


---
> S-035: レシート明細テーブル（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、データは10件だけ表示させれば良い。

In [39]:
%%sql

WITH customer_amount AS (
        SELECT customer_id, SUM(amount) AS sum_amount
        FROM receipt
        WHERE customer_id NOT like 'Z%'
        GROUP BY customer_id
) 

SELECT TOP 10
    customer_id, sum_amount
FROM customer_amount
WHERE sum_amount >= (
    SELECT AVG(sum_amount) AS avg_amount
    FROM customer_amount
)

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sum_amount
CS019814000010,6368
CS017515000054,4011
CS022415000234,2910
CS016415000116,9305
CS021515000172,13974
CS039515000090,8540
CS034515000020,5997
CS022415000124,3277
CS020515000071,3864
CS017113000006,5571


## テーブル結合

---
> S-036: レシート明細テーブル（receipt）と店舗テーブル（store）を内部結合し、レシート明細テーブルの全項目と店舗テーブルの店舗名（store_name）を10件表示させよ。

In [31]:
%%sql

SELECT TOP 10 r.*, s.store_name
FROM receipt r
JOIN store s
ON r.store_cd = s.store_cd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
20170101,1483228800,S12013,1112,1,ZZ000000000000,P090102011,1,180,習志野店
20170101,1483228800,S12013,1142,2,ZZ000000000000,P070901024,1,198,習志野店
20170101,1483228800,S12013,1172,2,ZZ000000000000,P070202007,1,138,習志野店
20170101,1483228800,S12014,1152,1,CS014411000048,P080401010,1,110,千草台店
20170101,1483228800,S12014,1152,2,CS014411000048,P070708081,1,338,千草台店
20170101,1483228800,S12014,1172,1,ZZ000000000000,P071401022,1,2400,千草台店
20170101,1483228800,S12029,112,1,CS029214000004,P060203001,1,98,東野店
20170101,1483228800,S12029,112,2,CS029214000004,P060701001,1,98,東野店
20170101,1483228800,S12029,1132,1,ZZ000000000000,P060104003,1,80,東野店
20170101,1483228800,S12029,1192,1,CS029414000005,P050102001,1,60,東野店


---
> S-037: 商品テーブル（product）とカテゴリテーブル（category）を内部結合し、商品テーブルの全項目とカテゴリテーブルの小区分名（category_small_name）を10件表示させよ。

In [32]:
%%sql

SELECT TOP 10 p.*, c.category_small_name
FROM product p
JOIN category c
on p.category_small_cd = c.category_small_cd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_small_name
P040101001,4,401,40101,198,149,弁当類
P040101002,4,401,40101,218,164,弁当類
P040101003,4,401,40101,230,173,弁当類
P040101004,4,401,40101,248,186,弁当類
P040101005,4,401,40101,268,201,弁当類
P040101006,4,401,40101,298,224,弁当類
P040101007,4,401,40101,338,254,弁当類
P040101008,4,401,40101,420,315,弁当類
P040101009,4,401,40101,498,374,弁当類
P040101010,4,401,40101,580,435,弁当類


---
> S-038: 顧客テーブル（customer）とレシート明細テーブル（receipt）から、各顧客ごとの売上金額合計を求めよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが'Z'から始まるもの）は除外すること。なお、結果は10件だけ表示させれば良い。

In [34]:
%%sql

WITH customer_amount AS (
    SELECT customer_id, SUM(amount) AS sum_amount
    FROM receipt
    GROUP BY customer_id
)
SELECT TOP 10 c.customer_id, COALESCE(a.sum_amount,0)
FROM customer c
LEFT JOIN customer_amount a
ON c.customer_id = a.customer_id
WHERE c.gender_cd = '1'
      AND c.customer_id NOT like 'Z%'

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,Unnamed: 1
CS001112000009,0
CS001112000019,0
CS001112000021,0
CS001112000023,0
CS001112000024,0
CS001112000029,0
CS001112000030,0
CS001113000004,1298
CS001113000010,0
CS001114000005,626


---
> S-039: レシート明細テーブル（receipt）から売上日数の多い顧客の上位20件と、売上金額合計の多い顧客の上位20件を抽出し、完全外部結合せよ。ただし、非会員（顧客IDが'Z'から始まるもの）は除外すること。

In [42]:
%%sql

WITH customer_days AS (
    SELECT TOP 20 customer_id, count(distinct sales_ymd) come_days
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
    ORDER BY come_days DESC
),
customer_amount AS (
    SELECT TOP 20 customer_id, sum(amount) buy_amount
    FROM receipt 
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
    ORDER BY buy_amount DESC
)
SELECT COALESCE(d.customer_id, a.customer_id), d.come_days, a.buy_amount
FROM customer_days d
FULL OUTER JOIN customer_amount a
ON d.customer_id = a.customer_id;

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


Unnamed: 0,come_days,buy_amount
CS017415000097,20.0,23086.0
CS015415000185,22.0,20153.0
CS031414000051,19.0,19202.0
CS028415000007,21.0,19127.0
CS001605000009,,18925.0
CS010214000010,22.0,18585.0
CS006515000023,,18372.0
CS016415000141,20.0,18372.0
CS011414000106,,18338.0
CS038415000104,,17847.0


---
> S-040: 全ての店舗と全ての商品を組み合わせると何件のデータとなるか調査したい。店舗（store）と商品（product）を直積した件数を計算せよ。

In [44]:
%%sql

SELECT COUNT(1)
FROM store
CROSS JOIN product

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


531590


## 前行との比較

---
> S-041: レシート明細テーブル（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前日からの売上金額増減を計算せよ。なお、計算結果は10件表示すればよい。

In [46]:
%%sql

WITH sales_amount_by_date AS (
    SELECT sales_ymd, SUM(amount) AS amount FROM receipt
    GROUP BY sales_ymd
)
SELECT TOP 10 sales_ymd, LAG(sales_ymd, 1) OVER(ORDER BY sales_ymd) lag_ymd,
    amount,
    LAG(amount, 1) OVER(ORDER BY sales_ymd) AS lag_amount,
    amount - LAG(amount, 1) OVER(ORDER BY sales_ymd) AS diff_amount
FROM sales_amount_by_date

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_ymd,lag_ymd,amount,lag_amount,diff_amount
20170101,,33723,,
20170102,20170101.0,24165,33723.0,-9558.0
20170103,20170102.0,27503,24165.0,3338.0
20170104,20170103.0,36165,27503.0,8662.0
20170105,20170104.0,37830,36165.0,1665.0
20170106,20170105.0,32387,37830.0,-5443.0
20170107,20170106.0,23415,32387.0,-8972.0
20170108,20170107.0,24737,23415.0,1322.0
20170109,20170108.0,26718,24737.0,1981.0
20170110,20170109.0,20143,26718.0,-6575.0


---
> S-042: レシート明細テーブル（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、１日前、２日前、３日前のデータを結合せよ。結果は10件表示すればよい。

コード例1:縦持ちケース

In [50]:
%%sql

WITH sales_amount_by_date AS (
    SELECT sales_ymd, SUM(amount) AS amount FROM receipt
    GROUP BY sales_ymd
),
sales_amount_lag_date AS (
    SELECT sales_ymd,
        COALESCE(LAG(sales_ymd, 3) OVER (ORDER BY sales_ymd),
        MIN(sales_ymd) OVER (PARTITION BY NULL)) AS lag_date_3,
        amount
    FROM sales_amount_by_date
)
SELECT TOP 10 a.sales_ymd, b.sales_ymd AS lag_ymd,
    a.amount AS amount, b.amount AS lag_amount
FROM sales_amount_lag_date a
JOIN sales_amount_lag_date b
ON b.sales_ymd >= a.lag_date_3 
    AND b.sales_ymd < a.sales_ymd
ORDER BY sales_ymd, lag_ymd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_ymd,lag_ymd,amount,lag_amount
20170102,20170101,24165,33723
20170103,20170101,27503,33723
20170103,20170102,27503,24165
20170104,20170101,36165,33723
20170104,20170102,36165,24165
20170104,20170103,36165,27503
20170105,20170102,37830,24165
20170105,20170103,37830,27503
20170105,20170104,37830,36165
20170106,20170103,32387,27503


コード例2:横持ちケース

In [51]:
%%sql

WITH sales_amount_by_date AS (
    SELECT sales_ymd, SUM(amount) AS amount FROM receipt
    GROUP BY sales_ymd
), sales_amount_with_lag AS(
SELECT sales_ymd, amount, 
    LAG(sales_ymd, 1) OVER (ORDER BY sales_ymd) AS lag_ymd_1,
    LAG(amount, 1) OVER (ORDER BY sales_ymd) AS lag_amount_1,
    LAG(sales_ymd, 2) OVER (ORDER BY sales_ymd) AS lag_ymd_2,
    LAG(amount, 2) OVER (ORDER BY sales_ymd) AS lag_amount_2,
    LAG(sales_ymd, 3) OVER (ORDER BY sales_ymd) AS lag_ymd_3,
    LAG(amount, 3) OVER (ORDER BY sales_ymd) AS lag_amount_3
FROM sales_amount_by_date
)
SELECT TOP 10 * FROM sales_amount_with_lag
WHERE lag_ymd_3 IS NOT NULL
ORDER BY sales_ymd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_ymd,amount,lag_ymd_1,lag_amount_1,lag_ymd_2,lag_amount_2,lag_ymd_3,lag_amount_3
20170104,36165,20170103,27503,20170102,24165,20170101,33723
20170105,37830,20170104,36165,20170103,27503,20170102,24165
20170106,32387,20170105,37830,20170104,36165,20170103,27503
20170107,23415,20170106,32387,20170105,37830,20170104,36165
20170108,24737,20170107,23415,20170106,32387,20170105,37830
20170109,26718,20170108,24737,20170107,23415,20170106,32387
20170110,20143,20170109,26718,20170108,24737,20170107,23415
20170111,24287,20170110,20143,20170109,26718,20170108,24737
20170112,23526,20170111,24287,20170110,20143,20170109,26718
20170113,28004,20170112,23526,20170111,24287,20170110,20143


## クロス集計

---
> S-043: レシート明細テーブル（receipt）と顧客テーブル（customer）を結合し、性別（gender）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリテーブル（sales_summary）を作成せよ。性別は0が男性、1が女性、9が不明を表すものとする。
>
>ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

SQL向きではないため、やや強引に記載する（カテゴリ数が多いときはとても長いSQLとなってしまう点に注意）

In [7]:
%%sql

SELECT era,
    MAX(CASE gender_cd WHEN '0' THEN amount ELSE 0 END) AS male ,
    MAX(CASE gender_cd WHEN '1' THEN amount ELSE 0 END) AS female,
    MAX(CASE gender_cd WHEN '9' THEN amount ELSE 0 END) AS unknown
    FROM (
        SELECT c.gender_cd,
        FLOOR(age/ 10) * 10 AS era,
        SUM(r.amount) AS amount
        FROM customer c
        JOIN receipt r
        ON c.customer_id = r.customer_id
        GROUP BY c.gender_cd, FLOOR(age/ 10) * 10
    ) gender_era_amount
GROUP BY era
ORDER BY era


 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


era,male,female,unknown
10,1591,149836,4317
20,72940,1363724,44328
30,177322,693047,50441
40,19355,9320791,483512
50,54320,6685192,342923
60,272469,987741,71418
70,13435,29764,2427
80,46360,262923,5111
90,0,6260,0


---
> S-044: 前設問で作成した売上サマリテーブル（sales_summary）は性別の売上を横持ちさせたものであった。このテーブルから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を'00'、女性を'01'、不明を'99'とする。

SQL向きではないため、やや強引に記載する（カテゴリ数が多いときはとても長いSQLとなってしまう点に注意）

In [6]:
%%sql

SELECT era, gender_cd, amount
FROM (
    SELECT CASE WHEN c.gender_cd = 0 THEN '00' WHEN c.gender_cd = 1 THEN '01' ELSE '99' END AS gender_cd,
    FLOOR(age/ 10) * 10 AS era,
    SUM(r.amount) AS amount
    FROM customer c
    JOIN receipt r
    ON c.customer_id = r.customer_id
    GROUP BY c.gender_cd, (FLOOR(age/ 10) * 10)
) AS gender_era_amount
ORDER BY era, gender_cd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


era,gender_cd,amount
10,0,1591
10,1,149836
10,99,4317
20,0,72940
20,1,1363724
20,99,44328
30,0,177322
30,1,693047
30,99,50441
40,0,19355


## 型変換

[関数>変換](https://docs.microsoft.com/ja-jp/sql/t-sql/functions/cast-and-convert-transact-sql?view=sql-server-ver15)

---
> S-045: 顧客テーブル（customer）の生年月日（birth_day）は日付型でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [10]:
%%sql

SELECT TOP 10
  customer_id, CONVERT(varchar(12), birth_day, 112) 
FROM customer

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,Unnamed: 1
CS001105000001,20000114
CS001112000009,20060824
CS001112000019,20010131
CS001112000021,20011215
CS001112000023,20040126
CS001112000024,20010116
CS001112000029,20050124
CS001112000030,20030302
CS001113000004,20030222
CS001113000010,20050509


---
> S-046: 顧客テーブル（customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型に変換し、顧客ID（customer_id）とともに抽出せよ。データは10件を抽出すれば良い。

In [11]:
%%sql

SELECT TOP 10
  customer_id, CONVERT(date, application_date) 
FROM customer

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,Unnamed: 1
CS001105000001,2017-03-10
CS001112000009,2015-07-03
CS001112000019,2017-02-07
CS001112000021,2017-06-12
CS001112000023,2017-07-24
CS001112000024,2016-11-06
CS001112000029,2017-03-22
CS001112000030,2017-06-11
CS001113000004,2015-11-05
CS001113000010,2015-11-20


---
> S-047: レシート明細テーブル（receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [31]:
%%sql

SELECT TOP 10
    CONVERT(date, CONVERT(VARCHAR(8), sales_ymd), 112), 
    receipt_no, 
    receipt_sub_no 
FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


Unnamed: 0,receipt_no,receipt_sub_no
2017-01-01,1112,1
2017-01-01,1142,2
2017-01-01,1172,2
2017-01-01,1152,1
2017-01-01,1152,2
2017-01-01,1172,1
2017-01-01,112,1
2017-01-01,112,2
2017-01-01,1132,1
2017-01-01,1192,1


---
> S-048: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [32]:
%%sql

SELECT TOP 10
    DATEADD(s, sales_epoch, '1970-01-01 9:00:00') AS sales_date, 
    receipt_no, receipt_sub_no 
FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_date,receipt_no,receipt_sub_no
2017-01-01 09:00:00,1112,1
2017-01-01 09:00:00,1142,2
2017-01-01 09:00:00,1172,2
2017-01-01 09:00:00,1152,1
2017-01-01 09:00:00,1152,2
2017-01-01 09:00:00,1172,1
2017-01-01 09:00:00,112,1
2017-01-01 09:00:00,112,2
2017-01-01 09:00:00,1132,1
2017-01-01 09:00:00,1192,1


---
> S-049: レシート明細テーブル（receipt）の販売エポック秒（sales_epoch）を日付型に変換し、「年」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。データは10件を抽出すれば良い。

In [40]:
%%sql

SELECT TOP 10
    CONVERT(VARCHAR(4), DATEADD(s, sales_epoch, '1970-01-01 9:00:00'), 112) as sales_year, 
    -- 日付をYYYYMMDDで変換かけてから頭4文字だけ切り取る
    receipt_no, 
    receipt_sub_no
FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_year,receipt_no,receipt_sub_no
2017,1112,1
2017,1142,2
2017,1172,2
2017,1152,1
2017,1152,2
2017,1172,1
2017,112,1
2017,112,2
2017,1132,1
2017,1192,1


---
> S-050: レシート明細テーブル（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「月」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、「月」は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [42]:
%%sql

SELECT TOP 10 
    CONVERT(VARCHAR(2), DATEADD(s, sales_epoch, '1970-01-01 9:00:00'), 1) AS sales_month, 
    -- MM/DD/YYに変換して頭2文字取得
    receipt_no, receipt_sub_no
FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_month,receipt_no,receipt_sub_no
1,1112,1
1,1142,2
1,1172,2
1,1152,1
1,1152,2
1,1172,1
1,112,1
1,112,2
1,1132,1
1,1192,1


---
> S-051: レシート明細テーブル（receipt）の売上エポック秒を日付型に変換し、「日」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに抽出せよ。なお、「日」は0埋め2桁で取り出すこと。データは10件を抽出すれば良い。

In [44]:
%%sql

SELECT TOP 10
    receipt_no, receipt_sub_no,
    CONVERT(VARCHAR(2), DATEADD(s, sales_epoch, '1970-01-01 9:00:00'), 3) AS sales_day 
    -- DD/MM/YYに変換して頭2文字取得
FROM receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


receipt_no,receipt_sub_no,sales_day
1112,1,1
1142,2,1
1172,2,1
1152,1,1
1152,2,1
1172,1,1
112,1,1
112,2,1
1132,1,1
1192,1,1


## 条件式

---
> S-052: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2,000円以下を0、2,000円より大きい金額を1に2値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [45]:
%%sql

SELECT TOP 10
    customer_id,
    SUM(amount) AS sum_amount,
    CASE
        WHEN SUM(amount)  > 2000 THEN 1
        WHEN SUM(amount) <= 2000 THEN 0
    END as amount_flg
FROM receipt
WHERE customer_id not like 'Z%'
GROUP BY customer_id

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sum_amount,amount_flg
CS019814000010,6368,1
CS009512000138,536,0
CS017515000054,4011,1
CS022415000234,2910,1
CS004513000426,1368,0
CS014514000054,212,0
CS020513000041,141,0
CS027615000011,268,0
CS040212000049,1300,0
CS016415000116,9305,1


---
> S-053: 顧客テーブル（customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に２値化せよ。さらにレシート明細テーブル（receipt）と結合し、全期間において売上実績がある顧客数を、作成した2値ごとにカウントせよ。

In [49]:
%%sql

WITH cust AS (
    SELECT
        customer_id,
        postal_cd,
        CASE
            WHEN 100 <= CAST(CONVERT(VARCHAR(3), postal_cd) AS INTEGER) 
                    AND CAST(CONVERT(VARCHAR(3), postal_cd) AS INTEGER) <= 209 THEN 1
            ELSE 0
        END AS postal_flg
    FROM customer
),
rect AS(
    SELECT
        customer_id
    FROM receipt
    GROUP BY customer_id
)
SELECT 
    c.postal_flg, count(1) 
FROM rect r
JOIN cust c
ON r.customer_id = c.customer_id
GROUP BY c.postal_flg

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


postal_flg,Unnamed: 1
0,3906
1,4400


---
> S-054: 顧客テーブル（customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに抽出せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。結果は10件表示させれば良い。

In [51]:
%%sql

SELECT TOP 10
    customer_id,
    -- 確認用に住所も表示
    address,
    CASE CONVERT(NVARCHAR(3), address)
        WHEN '埼玉県' THEN '11'
        WHEN '千葉県' THEN '12'
        WHEN '東京都' THEN '13'
        WHEN '神奈川' THEN '14'
    END AS prefecture_cd
FROM
    customer

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,address,prefecture_cd
CS001105000001,東京都大田区西六郷**********,13
CS001112000009,東京都大田区西馬込**********,13
CS001112000019,東京都大田区昭和島**********,13
CS001112000021,東京都大田区西六郷**********,13
CS001112000023,東京都大田区昭和島**********,13
CS001112000024,東京都大田区西六郷**********,13
CS001112000029,東京都大田区西六郷**********,13
CS001112000030,東京都大田区西六郷**********,13
CS001113000004,東京都大田区西六郷**********,13
CS001113000010,東京都大田区西六郷**********,13


## データ加工（変換）

---
> S-055: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに表示せよ。カテゴリ値は上から順に1〜4とする。結果は10件表示させれば良い。
>
> - 最小値以上第一四分位未満
> - 第一四分位以上第二四分位未満
> - 第二四分位以上第三四分位未満
> - 第三四分位以上

In [52]:
%%sql

WITH sales_amount AS(
    SELECT
        customer_id,
        SUM(amount) as sum_amount
    FROM
        receipt
    GROUP BY
        customer_id
),
sales_pct AS (
    SELECT
        PERCENTILE_CONT(0.25) WITHIN GROUP(ORDER BY sum_amount) OVER() AS pct25,
        PERCENTILE_CONT(0.50) WITHIN GROUP(ORDER BY sum_amount) OVER() AS pct50,
        PERCENTILE_CONT(0.75) WITHIN GROUP(ORDER BY sum_amount) OVER() AS pct75
    FROM
        sales_amount
)
SELECT TOP 10
    a.customer_id,
    a.sum_amount,
    CASE
        WHEN a.sum_amount < pct25 THEN 1
        WHEN pct25 <= a.sum_amount and a.sum_amount < pct50 THEN 2
        WHEN pct50 <= a.sum_amount and a.sum_amount < pct75 THEN 3
        WHEN pct75 <= a.sum_amount THEN 4
    END as pct_flg
FROM sales_amount a
CROSS JOIN sales_pct p

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sum_amount,pct_flg
CS019814000010,6368,4
CS009512000138,536,1
CS017515000054,4011,4
CS022415000234,2910,3
CS004513000426,1368,2
CS014514000054,212,1
CS020513000041,141,1
CS027615000011,268,1
CS040212000049,1300,2
CS016415000116,9305,4


---
> S-056: 顧客テーブル（customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに抽出せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。先頭10件を表示させればよい。

In [59]:
%%sql

SELECT TOP 10
    customer_id,
    birth_day,
    CASE WHEN CAST(FLOOR(age / 10) * 10 AS INTEGER) > 60 THEN 60 ELSE CAST(FLOOR(age / 10) * 10 AS INTEGER) END AS era
FROM
    customer
GROUP BY
    customer_id,
    birth_day,
    age

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,birth_day,era
CS001105000001,2000-01-14,10
CS001112000009,2006-08-24,10
CS001112000019,2001-01-31,10
CS001112000021,2001-12-15,10
CS001112000023,2004-01-26,10
CS001112000024,2001-01-16,10
CS001112000029,2005-01-24,10
CS001112000030,2003-03-02,10
CS001113000004,2003-02-22,10
CS001113000010,2005-05-09,10


---
> S-057: 前問題の抽出結果と性別（gender）を組み合わせ、新たに性別×年代の組み合わせを表すカテゴリデータを作成せよ。組み合わせを表すカテゴリの値は任意とする。先頭10件を表示させればよい。

In [65]:
%%sql

SELECT TOP 10
    customer_id,
    birth_day,
    gender_cd + (CASE WHEN CAST(FLOOR(age / 10) * 10 AS INTEGER) > 60 THEN 60 ELSE CAST(FLOOR(age / 10) * 10 AS INTEGER) END) * 10 AS era
FROM
    customer
GROUP BY
    customer_id,
    birth_day,
    gender_cd,
    age

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,birth_day,era
CS001105000001,2000-01-14,100
CS001112000009,2006-08-24,101
CS001112000019,2001-01-31,101
CS001112000021,2001-12-15,101
CS001112000023,2004-01-26,101
CS001112000024,2001-01-16,101
CS001112000029,2005-01-24,101
CS001112000030,2003-03-02,101
CS001113000004,2003-02-22,101
CS001113000010,2005-05-09,101


---
> S-058: 顧客テーブル（customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに抽出せよ。結果は10件表示させれば良い。

In [66]:
%%sql

SELECT TOP 10
    customer_id,
    CASE WHEN gender_cd = '0' THEN '1' ELSE '0' END AS gender_male,
    CASE WHEN gender_cd = '1' THEN '1' ELSE '0' END AS gender_female,
    CASE WHEN gender_cd = '9' THEN '1' ELSE '0' END AS gender_unknown
FROM
    customer
-- SQL向きではないため、やや強引に記載する（カテゴリ数が多いときはとても長いSQLとなってしまう点に注意）

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,gender_male,gender_female,gender_unknown
CS001105000001,1,0,0
CS001112000009,0,1,0
CS001112000019,0,1,0
CS001112000021,0,1,0
CS001112000023,0,1,0
CS001112000024,0,1,0
CS001112000029,0,1,0
CS001112000030,0,1,0
CS001113000004,0,1,0
CS001113000010,0,1,0


## データ加工（計算）

---
> S-059: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに表示せよ。標準化に使用する標準偏差は、不偏標準偏差と標本標準偏差のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [68]:
%%sql

WITH sales_amount AS(
    SELECT
        customer_id,
        SUM(amount) as sum_amount
    FROM
        receipt
    WHERE
        customer_id NOT LIKE 'Z%'
    GROUP BY
        customer_id
),
stats_amount AS (
    SELECT
        AVG(sum_amount) as avg_amount,
        STDEVP(sum_amount) as std_amount
    FROM
        sales_amount
)
SELECT TOP 10
    customer_id,
    sum_amount,
    (sum_amount - avg_amount) / std_amount as normal_amount
FROM sales_amount
CROSS JOIN stats_amount

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sum_amount,normal_amount
CS019814000010,6368,1.4045159329415615
CS009512000138,536,-0.7391995658585396
CS017515000054,4011,0.53813434332019
CS022415000234,2910,0.1334308515199651
CS004513000426,1368,-0.4333745838623661
CS014514000054,212,-0.8582948713474342
CS020513000041,141,-0.8843929166860499
CS027615000011,268,-0.8377104975592302
CS040212000049,1300,-0.4583698948908995
CS016415000116,9305,2.4840928225121885


---
> S-060: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [69]:
%%sql

WITH sales_amount AS(
    SELECT
        customer_id,
        SUM(amount) as sum_amount
    FROM
        receipt
    WHERE
        customer_id NOT LIKE 'Z%'
    GROUP BY
        customer_id
),
stats_amount AS (
    SELECT
        max(sum_amount) as max_amount,
        min(sum_amount) as min_amount
    FROM
        sales_amount
)
SELECT TOP 10
    customer_id,
    sum_amount,
    (sum_amount - min_amount) * 1.0 
            / (max_amount -  min_amount) * 1.0 AS scale_amount
FROM sales_amount
CROSS JOIN stats_amount

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sum_amount,scale_amount
CS019814000010,6368,0.273635731664
CS009512000138,536,0.020246784845
CS017515000054,4011,0.171228710462
CS022415000234,2910,0.123392422662
CS004513000426,1368,0.056395550921
CS014514000054,212,0.006169621133
CS020513000041,141,0.003084810566
CS027615000011,268,0.008602711157
CS040212000049,1300,0.053441084462
CS016415000116,9305,0.401242613833


---
> S-061: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を常用対数化（底=10）して顧客ID、売上金額合計とともに表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。結果は10件表示させれば良い。

In [72]:
%%sql

SELECT TOP 10
    customer_id,
    SUM(amount),
    LOG10(SUM(amount) + 0.5) as log_amount
FROM
    receipt
WHERE
    customer_id NOT LIKE 'Z%'
GROUP BY
    customer_id

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,Unnamed: 1,log_amount
CS019814000010,6368,3.804037153146142
CS009512000138,536,2.72956972630197
CS017515000054,4011,3.6033067965385137
CS022415000234,2910,3.4639676036208997
CS004513000426,1368,3.1362448017461424
CS014514000054,212,2.3273589343863303
CS020513000041,141,2.150756439860309
CS027615000011,268,2.428944290035574
CS040212000049,1300,3.114110356531892
CS016415000116,9305,3.968739713458941


---
> S-062: レシート明細テーブル（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を自然対数化(底=e）して顧客ID、売上金額合計とともに表示せよ（ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること）。結果は10件表示させれば良い。

In [73]:
%%sql

SELECT TOP 10
    customer_id,
    SUM(amount),
    LOG(SUM(amount) + 0.5) as log_amount
FROM
    receipt
WHERE
    customer_id NOT LIKE 'Z%'
GROUP BY
    customer_id

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,Unnamed: 1,log_amount
CS019814000010,6368,8.759119242029815
CS009512000138,536,6.285066562070753
CS017515000054,4011,8.29692051519371
CS022415000234,2910,7.97608016671179
CS004513000426,1368,7.221470528480734
CS014514000054,212,5.358941988364472
CS020513000041,141,4.952299717083292
CS027615000011,268,5.59285091394892
CS040212000049,1300,7.170504084888706
CS016415000116,9305,9.13836090218402


---
> S-063: 商品テーブル（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益額を算出せよ。結果は10件表示させれば良い。

In [74]:
%%sql

SELECT TOP 10
    product_cd, 
    unit_price, 
    unit_cost,
    unit_price - unit_cost as unit_profit
FROM
    product

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


product_cd,unit_price,unit_cost,unit_profit
P040101001,198,149,49
P040101002,218,164,54
P040101003,230,173,57
P040101004,248,186,62
P040101005,268,201,67
P040101006,298,224,74
P040101007,338,254,84
P040101008,420,315,105
P040101009,498,374,124
P040101010,580,435,145


---
> S-064: 商品テーブル（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。 ただし、単価と原価にはNULLが存在することに注意せよ。

In [75]:
%%sql

SELECT TOP 10
    AVG((unit_price * 1.0 - unit_cost) / unit_price) as unit_profit_rate
FROM
    product

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


unit_profit_rate
0.249113898851


---
> S-065: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [76]:
%%sql

SELECT TOP 10
    product_cd, 
    unit_price, 
    unit_cost,
    FLOOR(unit_cost / 0.7) as new_price,
    ((FLOOR(unit_cost / 0.7) - unit_cost) 
             / FLOOR(unit_cost / 0.7)) as new_profit
FROM
    product

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


product_cd,unit_price,unit_cost,new_price,new_profit
P040101001,198,149,212,0.2971698113207547
P040101002,218,164,234,0.2991452991452991
P040101003,230,173,247,0.2995951417004048
P040101004,248,186,265,0.2981132075471698
P040101005,268,201,287,0.2996515679442508
P040101006,298,224,320,0.3
P040101007,338,254,362,0.298342541436464
P040101008,420,315,450,0.3
P040101009,498,374,534,0.299625468164794
P040101010,580,435,621,0.2995169082125603


---
> S-066: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を丸めること（四捨五入または偶数への丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [78]:
%%sql

SELECT ROUND(2.5, 0)

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


3.0


In [80]:
%%sql

SELECT TOP 10
    product_cd, 
    unit_price, 
    unit_cost,
    ROUND(unit_cost / 0.7, 0) as new_price,
    ((ROUND(unit_cost / 0.7, 0) - unit_cost) 
             / ROUND(unit_cost / 0.7, 0)) as new_profit
FROM
    product

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


product_cd,unit_price,unit_cost,new_price,new_profit
P040101001,198,149,213.0,0.3004694835680751
P040101002,218,164,234.0,0.2991452991452991
P040101003,230,173,247.0,0.2995951417004048
P040101004,248,186,266.0,0.3007518796992481
P040101005,268,201,287.0,0.2996515679442508
P040101006,298,224,320.0,0.3
P040101007,338,254,363.0,0.3002754820936639
P040101008,420,315,450.0,0.3
P040101009,498,374,534.0,0.299625468164794
P040101010,580,435,621.0,0.2995169082125603


---
> S-067: 商品テーブル（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）にはNULLが存在することに注意せよ。

In [81]:
%%sql

SELECT TOP 10
    product_cd, 
    unit_price, 
    unit_cost,
    CEILING(unit_cost / 0.7) as new_price,
    ((CEILING(unit_cost / 0.7) - unit_cost) / CEILING(unit_cost / 0.7)) as new_profit
FROM
    product

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


product_cd,unit_price,unit_cost,new_price,new_profit
P040101001,198,149,213,0.3004694835680751
P040101002,218,164,235,0.302127659574468
P040101003,230,173,248,0.3024193548387096
P040101004,248,186,266,0.3007518796992481
P040101005,268,201,288,0.3020833333333333
P040101006,298,224,320,0.3
P040101007,338,254,363,0.3002754820936639
P040101008,420,315,450,0.3
P040101009,498,374,535,0.3009345794392523
P040101010,580,435,622,0.3006430868167202


---
> S-068: 商品テーブル（product）の各商品について、消費税率10%の税込み金額を求めよ。 1円未満の端数は切り捨てとし、結果は10件表示すれば良い。ただし、単価（unit_price）にはNULLが存在することに注意せよ。

In [82]:
%%sql

SELECT TOP 10
    product_cd,
    unit_price,
    FLOOR(unit_price * 1.1) as tax_price
FROM
    product

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


product_cd,unit_price,tax_price
P040101001,198,217
P040101002,218,239
P040101003,230,253
P040101004,248,272
P040101005,268,294
P040101006,298,327
P040101007,338,371
P040101008,420,462
P040101009,498,547
P040101010,580,638


## 比率計算

---
> S-069: レシート明細テーブル（receipt）と商品テーブル（product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分"07"（瓶詰缶詰）の売上実績がある顧客のみとし、結果は10件表示させればよい。

In [83]:
%%sql

WITH amount_all AS(
    SELECT
        customer_id,
        sum(amount) AS sum_all
    FROM
        receipt
    GROUP BY
        customer_id
),
amount_07 AS (
    SELECT
        r.customer_id,
        sum(r.amount) AS sum_07
    FROM
        receipt r
    JOIN
        product p
    ON
        r.product_cd = p.product_cd 
        and  p.category_major_cd = '07'
    GROUP BY
        customer_id
)
SELECT TOP 10
    amount_all.customer_id,
    sum_all,
    sum_07,
    sum_07 * 1.0 / sum_all as sales_rate
FROM
    amount_all
JOIN
    amount_07
ON
    amount_all.customer_id = amount_07.customer_id

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sum_all,sum_07,sales_rate
CS019814000010,6368,3732,0.586055276381
CS009512000138,536,536,1.0
CS017515000054,4011,2834,0.706556968337
CS022415000234,2910,1460,0.501718213058
CS004513000426,1368,1100,0.804093567251
CS014514000054,212,102,0.481132075471
CS020513000041,141,81,0.574468085106
CS040212000049,1300,1200,0.923076923076
CS016415000116,9305,6768,0.72735088662
CS003415000091,1397,98,0.070150322118


## 日付型の計算

---
> S-070: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [87]:
%%sql

WITH receit_distinct AS (
    SELECT distinct
        customer_id,
        sales_ymd
    FROM
        receipt
)
SELECT TOP 10
    c.customer_id,
    r.sales_ymd,
    c.application_date,
    DATEDIFF(day, CONVERT(date, application_date)
                , CONVERT(date, CONVERT(VARCHAR(8), sales_ymd))) AS elapsed_days
FROM
    receit_distinct r
JOIN
    customer c
ON
    r.customer_id = c.customer_id

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sales_ymd,application_date,elapsed_days
CS014411000048,20170101,20150610,571
CS029214000004,20170101,20150404,638
CS029414000005,20170101,20150824,496
CS001414000126,20170101,20150205,696
CS008214000024,20170101,20150127,705
CS008414000039,20170101,20151127,401
CS008414000056,20170101,20150113,719
CS015214000012,20170101,20151028,431
CS017414000056,20170101,20150406,636
CS017414000048,20170101,20150828,492


---
> S-071: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [99]:
%%sql

WITH receit_distinct AS (
    SELECT distinct
        customer_id,
        sales_ymd
    FROM
        receipt
),
time_age_tbl AS(
    SELECT
        c.customer_id,
        r.sales_ymd,
        c.application_date,
        DATEDIFF(month, CONVERT(date, application_date)
                , CONVERT(date, CONVERT(VARCHAR(8), sales_ymd))) AS elapsed_months
    FROM
        receit_distinct r
    JOIN
        customer c
    ON
        r.customer_id = c.customer_id
)
SELECT TOP 10
    customer_id, 
    sales_ymd, application_date,
    elapsed_months
FROM
    time_age_tbl
WHERE elapsed_months > 0

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sales_ymd,application_date,elapsed_months
CS014411000048,20170101,20150610,19
CS029214000004,20170101,20150404,21
CS029414000005,20170101,20150824,17
CS001414000126,20170101,20150205,23
CS008214000024,20170101,20150127,24
CS008414000039,20170101,20151127,14
CS008414000056,20170101,20150113,24
CS015214000012,20170101,20151028,15
CS017414000056,20170101,20150406,21
CS017414000048,20170101,20150828,17


---
> S-072: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [102]:
%%sql

WITH receit_distinct AS (
    SELECT distinct
        customer_id,
        sales_ymd
    FROM
        receipt
)
SELECT TOP 10
    c.customer_id,
    r.sales_ymd,
    c.application_date,
    DATEDIFF(year, CONVERT(date, application_date)
                , CONVERT(date, CONVERT(VARCHAR(8), sales_ymd))) AS elapsed_years
FROM
    receit_distinct r
JOIN
    customer c
ON
    r.customer_id = c.customer_id
WHERE DATEDIFF(year, CONVERT(date, application_date)
                , CONVERT(date, CONVERT(VARCHAR(8), sales_ymd))) > 0

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sales_ymd,application_date,elapsed_years
CS014411000048,20170101,20150610,2
CS029214000004,20170101,20150404,2
CS029414000005,20170101,20150824,2
CS001414000126,20170101,20150205,2
CS008214000024,20170101,20150127,2
CS008414000039,20170101,20151127,2
CS008414000056,20170101,20150113,2
CS015214000012,20170101,20151028,2
CS017414000056,20170101,20150406,2
CS017414000048,20170101,20150828,2


---
> S-073: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、顧客テーブル（customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [107]:
%%sql

WITH receit_distinct AS (
    SELECT distinct
        customer_id,
        sales_ymd
    FROM
        receipt
)
SELECT TOP 10
    c.customer_id,
    r.sales_ymd,
    c.application_date,
    DATEDIFF(second, CONVERT(date, application_date)
                , CONVERT(date, CONVERT(VARCHAR(8), sales_ymd))) AS elapsed_epoch
    -- エポック秒同士で引き算しているので普通の秒
FROM
    receit_distinct r
JOIN
    customer c
ON
    r.customer_id = c.customer_id

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sales_ymd,application_date,elapsed_epoch
CS014411000048,20170101,20150610,49334400
CS029214000004,20170101,20150404,55123200
CS029414000005,20170101,20150824,42854400
CS001414000126,20170101,20150205,60134400
CS008214000024,20170101,20150127,60912000
CS008414000039,20170101,20151127,34646400
CS008414000056,20170101,20150113,62121600
CS015214000012,20170101,20151028,37238400
CS017414000056,20170101,20150406,54950400
CS017414000048,20170101,20150828,42508800


---
> S-074: レシート明細テーブル（receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、当該週の月曜日付とともに表示せよ。結果は10件表示させれば良い（なお、sales_ymdは数値でデータを保持している点に注意）。

In [113]:
%%sql

SELECT TOP 10
    customer_id,
    CONVERT(date, CONVERT(VARCHAR(8), sales_ymd)),
    (DATEPART(WEEKDAY,CONVERT(date, CONVERT(VARCHAR(8), sales_ymd))) + 5) % 7 AS elapsed_monday,
    DATEADD(day, -(DATEPART(WEEKDAY,CONVERT(date, CONVERT(VARCHAR(8), sales_ymd))) + 5) % 7, CONVERT(date, CONVERT(VARCHAR(8), sales_ymd))) AS monday
FROM
    receipt

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,Unnamed: 1,elapsed_monday,monday
ZZ000000000000,2017-01-01,6,2016-12-26
ZZ000000000000,2017-01-01,6,2016-12-26
ZZ000000000000,2017-01-01,6,2016-12-26
CS014411000048,2017-01-01,6,2016-12-26
CS014411000048,2017-01-01,6,2016-12-26
ZZ000000000000,2017-01-01,6,2016-12-26
CS029214000004,2017-01-01,6,2016-12-26
CS029214000004,2017-01-01,6,2016-12-26
ZZ000000000000,2017-01-01,6,2016-12-26
CS029414000005,2017-01-01,6,2016-12-26


## サンプリング：回答なし

SQLServerは圧倒的にサンプリングに不向きなのでやらない
（無理やりやればできなくもないが不向き）

---
> S-075: 顧客テーブル（customer）からランダムに1%のデータを抽出し、先頭から10件データを抽出せよ。 

---
> S-076:  顧客テーブル（customer）から性別（gender_cd）の割合に基づきランダムに10%のデータを層化抽出し、性別ごとに件数を集計せよ。

## 外れ値

---
> S-077: レシート明細テーブル（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を平均から3σ以上離れたものとする。結果は10件表示させれば良い。

In [171]:
%%sql

WITH sales_amount AS(
SELECT customer_id, SUM(amount) AS sum_amount
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
)
SELECT TOP 10 customer_id, sum_amount
FROM sales_amount
CROSS JOIN (
    SELECT AVG(sum_amount) AS avg_amount, STDEVP(sum_amount) AS std_amount
    FROM sales_amount   
) stats_amount
WHERE ABS(sum_amount - avg_amount) / std_amount > 3

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sum_amount
CS021515000172,13974
CS028605000002,11270
CS040414000077,11282
CS008415000077,13449
CS010214000010,18585
CS024415000206,14093
CS026414000039,12944
CS011415000057,14944
CS038415000147,13324
CS013415000180,13275


---
> S-078: レシート明細テーブル（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第一四分位と第三四分位の差であるIQRを用いて、「第一四分位数-1.5×IQR」よりも下回るもの、または「第三四分位数+1.5×IQR」を超えるものとする。結果は10件表示させれば良い。

In [134]:
%%sql

WITH sales_amount AS(
SELECT customer_id, SUM(amount) AS sum_amount
    FROM receipt
    WHERE customer_id NOT LIKE 'Z%'
    GROUP BY customer_id
)
SELECT TOP 10 customer_id, sum_amount
FROM sales_amount
CROSS JOIN (
    SELECT
        PERCENTILE_CONT(0.25) WITHIN GROUP(ORDER BY sum_amount) OVER() as amount_25per,
        PERCENTILE_CONT(0.75) WITHIN GROUP(ORDER BY sum_amount) OVER() as amount_75per
    FROM sales_amount   
) stats_amount
WHERE sum_amount < amount_25per - (amount_75per - amount_25per) * 1.5 
    OR amount_75per + (amount_75per - amount_25per) * 1.5 < sum_amount

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sum_amount
CS016415000116,9305
CS021515000172,13974
CS039515000090,8540
CS027414000118,9247
CS031415000188,10616
CS028605000002,11270
CS031414000073,9317
CS040414000077,11282
CS016211000011,9345
CS032414000062,9568


## 欠損値

---
> S-079: 商品テーブル（product）の各項目に対し、欠損数を確認せよ。

In [116]:
%%sql

SELECT TOP 10
    SUM(
        CASE WHEN product_cd IS NULL THEN 1 ELSE 0 END
    ) AS product_cd,
    SUM(
        CASE WHEN category_major_cd IS NULL THEN 1 ELSE 0 END
    ) AS category_major_cd,
    SUM(
        CASE WHEN category_medium_cd IS NULL THEN 1 ELSE 0 END
    ) AS category_medium_cd,
    SUM(
        CASE WHEN category_small_cd IS NULL THEN 1 ELSE 0 END
    ) AS category_small_cd,
    SUM(
        CASE WHEN unit_price IS NULL THEN 1 ELSE 0 END
    ) AS unit_price,
    SUM(
        CASE WHEN unit_cost IS NULL THEN 1 ELSE 0 END
    ) AS unit_cost
FROM product
    

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost
0,0,0,0,7,7


---
> S-080: 商品テーブル（product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たなproduct_1を作成せよ。なお、削除前後の件数を表示させ、前設問で確認した件数だけ減少していることも確認すること。

In [135]:
%%sql

DROP TABLE IF EXISTS product_1;

SELECT * 
INTO product_1
FROM product
WHERE unit_price IS NOT NULL AND unit_cost IS NOT NULL


 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.
10023 rows affected.


[]

In [136]:
%%sql

SELECT '削除前', COUNT(1) FROM product;

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


Unnamed: 0,_1
削除前,10030


In [137]:
%%sql

SELECT '削除前', COUNT(1) FROM product_1;

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


Unnamed: 0,_1
削除前,10023


---
> S-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たなproduct_2を作成せよ。なお、平均値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [139]:
%%sql

DROP TABLE IF EXISTS product_2;

SELECT
    product_cd, 
    category_major_cd, 
    category_medium_cd, 
    category_small_cd, 
    COALESCE(unit_price, unit_avg) as unit_price,
    COALESCE(unit_cost, cost_avg) as unit_cost
INTO product_2
FROM
    product
CROSS JOIN (
    SELECT
        ROUND(AVG(unit_price),0) AS unit_avg,
        ROUND(AVG(unit_cost),0) AS cost_avg
    FROM
        product
) stats_product


 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.
10030 rows affected.


[]

In [140]:
%%sql

SELECT TOP 10
    SUM(CASE WHEN unit_price IS NULL THEN 1 ELSE 0 END) AS unit_price,
    SUM(CASE WHEN unit_cost IS NULL THEN 1 ELSE 0 END) AS unit_cost
FROM product_2
    

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


unit_price,unit_cost
0,0


---
> S-082:  単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たなproduct_3を作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [152]:
%%sql

DROP TABLE IF EXISTS product_3;

SELECT
    product_cd, 
    category_major_cd, 
    category_medium_cd, 
    category_small_cd, 
    COALESCE(unit_price, unit_med) as unit_price,
    COALESCE(unit_cost, cost_med) as unit_cost
INTO product_3
FROM
    product
CROSS JOIN (
    SELECT TOP 1
        ROUND(
            PERCENTILE_CONT(0.5) WITHIN GROUP(ORDER BY unit_price) OVER()
            ,0
        ) AS unit_med,
        ROUND(
            PERCENTILE_CONT(0.5) WITHIN GROUP(ORDER BY unit_cost) OVER()
            ,0
        ) AS cost_med
    FROM
        product
) stats_product

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.
10030 rows affected.


[]

In [148]:
%%sql

SELECT TOP 10
    SUM(CASE WHEN unit_price IS NULL THEN 1 ELSE 0 END) AS unit_price,
    SUM(CASE WHEN unit_cost IS NULL THEN 1 ELSE 0 END) AS unit_cost
FROM product_3

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


unit_price,unit_cost
0,0


---
> S-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品の小区分（category_small_cd）ごとに算出した中央値で補完した新たなproduct_4を作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [157]:
%%sql

DROP TABLE IF EXISTS product_4;

WITH category_median AS(
    SELECT DISTINCT
        category_small_cd, 
        ROUND(
            PERCENTILE_CONT(0.5) WITHIN GROUP(ORDER BY unit_price) OVER()
            ,0
        ) AS unit_med,
        ROUND(
            PERCENTILE_CONT(0.5) WITHIN GROUP(ORDER BY unit_cost) OVER()
            ,0
        ) AS cost_med
    FROM product
    GROUP BY category_small_cd, unit_price, unit_cost
)
SELECT
    product_cd, 
    category_major_cd, 
    category_medium_cd, 
    p.category_small_cd, 
    COALESCE(unit_price, unit_med) as unit_price,
    COALESCE(unit_cost, cost_med) as unit_cost
INTO product_4
FROM
    product p
JOIN
    category_median m
ON m.category_small_cd = p.category_small_cd


 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.
10030 rows affected.


[]

In [158]:
%%sql

SELECT TOP 10
    SUM(CASE WHEN unit_price IS NULL THEN 1 ELSE 0 END) AS unit_price,
    SUM(CASE WHEN unit_cost IS NULL THEN 1 ELSE 0 END) AS unit_cost
FROM product_4

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


unit_price,unit_cost
0,0


## 複雑なクエリ

---
> S-084: 顧客テーブル（customer）の全顧客に対し、全期間の売上金額に占める2019年売上金額の割合を計算せよ。ただし、売上実績がない場合は0として扱うこと。そして計算した割合が0超のものを抽出せよ。 結果は10件表示させれば良い。

In [117]:
%%sql

WITH sales_amount_2019 AS (
    SELECT
        customer_id,
        SUM(amount) AS sum_amount_2019
    FROM
        receipt
    WHERE
        20190101 <= sales_ymd AND sales_ymd <= 20191231
    GROUP BY
        customer_id
),
sales_amount_all AS (
    SELECT
        customer_id,
        SUM(amount) AS sum_amount_all
    FROM
        receipt
    GROUP BY
        customer_id
)
SELECT TOP 10
    a.customer_id,
    COALESCE(b.sum_amount_2019, 0) AS sales_amount_2019,
    COALESCE(c.sum_amount_all, 0)  AS sales_amount_all,
    CASE COALESCE(c.sum_amount_all, 0)
        WHEN 0 THEN 0 
        ELSE COALESCE(b.sum_amount_2019, 0) * 1.0 / c.sum_amount_all
    END AS sales_rate
FROM
    customer a
LEFT JOIN
    sales_amount_2019 b
ON a.customer_id = b.customer_id
LEFT JOIN
    sales_amount_all c
ON a.customer_id = c.customer_id
WHERE CASE COALESCE(c.sum_amount_all, 0) 
        WHEN 0 THEN 0 
        ELSE COALESCE(b.sum_amount_2019, 0) * 1.0 / c.sum_amount_all 
        END > 0


 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,sales_amount_2019,sales_amount_all,sales_rate
CS001113000004,1298,1298,1.0
CS001114000005,188,626,0.300319488817
CS001115000010,578,3044,0.189881734559
CS001205000004,702,1988,0.353118712273
CS001205000006,486,3337,0.145639796224
CS001211000025,456,456,1.0
CS001212000070,456,456,1.0
CS001214000009,664,4685,0.141728922091
CS001214000017,2962,4132,0.716844143272
CS001214000048,1889,2374,0.795703454085


---
> S-085: 顧客テーブル（customer）の全顧客に対し、郵便番号（postal_cd）を用いて経度緯度変換用テーブル（geocode）を紐付け、新たなcustomer_1を作成せよ。ただし、複数紐づく場合は経度（longitude）、緯度（latitude）それぞれ平均を算出すること。

In [125]:
%%sql

DROP TABLE IF EXISTS customer_1;

SELECT 
    c.*,
    m_longitude,
    m_latitude
INTO customer_1
FROM
    customer c
JOIN (
    SELECT
        postal_cd,
        AVG(longitude) as m_longitude,
        AVG(latitude) as m_latitude
    FROM
        geocode
    GROUP BY 
        postal_cd
) g
ON g.postal_cd = c.postal_cd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.
21971 rows affected.


[]

In [126]:
%%sql

SELECT TOP 3 * FROM customer_1

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd,m_longitude,m_latitude
CS001105000001,中島 利夫,0,男性,2000-01-14,19,144-0056,東京都大田区西六郷**********,S13001,20170310,0-00000000-0,140.0,36.0
CS001112000009,秦 美里,1,女性,2006-08-24,12,143-0026,東京都大田区西馬込**********,S13001,20150703,0-00000000-0,140.0,36.0
CS001112000019,門脇 莉沙,1,女性,2001-01-31,18,143-0004,東京都大田区昭和島**********,S13001,20170207,0-00000000-0,140.0,36.0


---
> S-086: 前設問で作成した緯度経度つき顧客テーブル（customer_1）に対し、申込み店舗コード（application_store_cd）をキーに店舗テーブル（store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客の緯度・経度を用いて距離（km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示すれば良い。

$$
緯度（ラジアン）：\phi \\
経度（ラジアン）：\lambda \\
距離L = 6371 * arccos(sin \phi_1 * sin \phi_2
+ cos \phi_1 * cos \phi_2 * cos(\lambda_1 − \lambda_2))
$$

In [127]:
%%sql

SELECT TOP 10
    c.customer_id,
    c.address AS customer_address,
    s.address AS store_address,
    (
        6371 * ACOS( 
                SIN(RADIANS(c.m_latitude)) 
                * SIN(RADIANS(s.latitude))
                + COS(RADIANS(c.m_latitude)) 
                * COS(RADIANS(s.latitude)) 
                * COS(RADIANS(c.m_longitude) - RADIANS(s.longitude))
        )
    ) AS distance 
FROM
    customer_1 c
JOIN
    store s
ON
    c.application_store_cd = s.store_cd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


customer_id,customer_address,store_address,distance
CS001105000001,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0
CS001112000009,東京都大田区西馬込**********,東京都大田区仲六郷二丁目,0.0
CS001112000019,東京都大田区昭和島**********,東京都大田区仲六郷二丁目,0.0
CS001112000021,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0
CS001112000023,東京都大田区昭和島**********,東京都大田区仲六郷二丁目,0.0
CS001112000024,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0
CS001112000029,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0
CS001112000030,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0
CS001113000004,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0
CS001113000010,東京都大田区西六郷**********,東京都大田区仲六郷二丁目,0.0


---
> S-087: 顧客テーブル（customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなし、1顧客1レコードとなるように名寄せした名寄顧客テーブル（customer_u）を作成せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残すものとし、売上金額合計が同一もしくは売上実績がない顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [128]:
%%sql

DROP TABLE IF EXISTS customer_u;

WITH sales_amount AS(
    SELECT
        c.customer_id,
        c.customer_name,
        c.postal_cd, 
        COALESCE(SUM(r.amount), 0) AS sum_amount
    FROM
        customer c

    LEFT JOIN
        receipt r        
    ON c.customer_id = r.customer_id
    GROUP by
        c.customer_id, c.customer_name, c.postal_cd
),
sales_ranking AS(
    SELECT
        *,
        ROW_NUMBER() OVER(
            PARTITION BY customer_name, postal_cd 
            ORDER BY sum_amount desc, customer_ID ) AS ranking
    FROM sales_amount
)
SELECT c.*
INTO customer_u
FROM
    customer c
JOIN
    sales_ranking r
ON
    c.customer_id = r.customer_id
    AND r.ranking = 1


 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.
21941 rows affected.


[]

In [129]:
%%sql

SELECT 
    cnt, 
    cnt_u, 
    cnt - cnt_u AS diff 
FROM
    (SELECT COUNT(1) AS cnt FROM customer) customer
CROSS JOIN (SELECT COUNT(1) AS cnt_u FROM customer_u) customer_u

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


cnt,cnt_u,diff
21971,21941,30


---
> S-088: 前設問で作成したデータを元に、顧客テーブルに統合名寄IDを付与したテーブル（customer_n）を作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
>- 重複していない顧客：顧客ID（customer_id）を設定
>- 重複している顧客：前設問で抽出したレコードの顧客IDを設定

In [130]:
%%sql

DROP TABLE IF EXISTS customer_n;
SELECT 
    c.*, 
    u.customer_id as integration_id
INTO customer_n
FROM 
    customer c
JOIN
    customer_u u
ON c.customer_name = u.customer_name
    and c.postal_cd = u.postal_cd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.
21971 rows affected.


[]

In [131]:
%%sql
SELECT count(1) FROM customer_n
WHERE customer_id != integration_id

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


30


## 学習用・テスト用データ作成：一部のみ回答あり

サンプリングと同様、SQLには不向きなためサンプリング系の問題は回答なし

---
> S-089: 売上実績がある顧客に対し、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

---
> S-090: レシート明細テーブル（receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月のモデル構築用データを3セット作成せよ。データの持ち方は自由とする。

In [2]:
%%sql

DROP TABLE IF EXISTS sales_amount

SELECT 
    CONVERT(VARCHAR(6),CONVERT(VARCHAR(8), sales_ymd)) AS sales_ym, 
    SUM(amount) AS sum_amount,
    row_number() OVER(PARTITION BY NULL ORDER BY 
                        CONVERT(VARCHAR(6),CONVERT(VARCHAR(8), sales_ymd))) AS rn
INTO sales_amount
FROM
    receipt
GROUP BY CONVERT(VARCHAR(6),CONVERT(VARCHAR(8), sales_ymd))

-- SQLでは限界があるが、作成データセットの増加に伴いなるべく使いまわしができるものにする
-- WITH句内のLAG関数について、ラグ期間を変えれば使い回せるよう記述

DROP TABLE IF EXISTS series_data_1;

WITH lag_amount AS (
    SELECT sales_ym, sum_amount, LAG(rn, 0) OVER (ORDER BY rn) AS rn
    FROM sales_amount
)
SELECT 
    sales_ym, sum_amount, 
    CASE WHEN rn <= 12 THEN 0 WHEN 12 < rn THEN 1 END as test_flg
INTO series_data_1
FROM lag_amount 
WHERE rn <= 18

DROP TABLE IF EXISTS series_data_2;

WITH lag_amount AS (
    SELECT 
        sales_ym, 
        sum_amount, 
        LAG(rn, 6) OVER (ORDER BY rn) AS rn
    FROM sales_amount
)
SELECT
    sales_ym, 
    sum_amount, 
    CASE WHEN rn <= 12 THEN 0 WHEN 12 < rn THEN 1 END as test_flg
INTO series_data_2
FROM lag_amount WHERE rn <= 18

DROP TABLE IF EXISTS series_data_3;

WITH lag_amount AS (
    SELECT sales_ym, sum_amount, LAG(rn, 12) OVER (ORDER BY rn) AS rn
    FROM sales_amount
)
SELECT 
    sales_ym, 
    sum_amount, 
    CASE WHEN rn <= 12 THEN 0 WHEN 12 < rn THEN 1 END as test_flg
INTO series_data_3
FROM lag_amount WHERE rn <= 18

-- SQL向きではないため、やや強引に記載する（分割数が多くなる場合はSQLが長くなるため現実的ではない）
-- また、秒単位のデータなど時系列が細かく、かつ長期間に渡る場合はデータが膨大となるため注意（そのようなケースではループ処理でモデル学習ができる言語が望ましい）
-- 学習データ(0)とテストデータ(1)を区別するフラグを付与する


 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
34 rows affected.
18 rows affected.
18 rows affected.
18 rows affected.


[]

In [3]:
%%sql

SELECT * FROM series_data_1

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


sales_ym,sum_amount,test_flg
201701,902056,0
201702,764413,0
201703,962945,0
201704,847566,0
201705,884010,0
201706,894242,0
201707,959205,0
201708,954836,0
201709,902037,0
201710,905739,0


---
> S-091: 顧客テーブル（customer）の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

## DBの正規化

---
> S-092: 顧客テーブル（customer）では、性別に関する情報が非正規化の状態で保持されている。これを第三正規化せよ。

第三正規化：性別のCD・名称のテーブルを作成する

In [176]:
%%sql

DROP TABLE IF EXISTS customer_std
SELECT
    customer_id,
    customer_name,
    gender_cd,
    birth_day,
    age,
    postal_cd,
    application_store_cd,
    application_date,
    status_cd
INTO customer_std
FROM customer

DROP TABLE IF EXISTS gender_std
SELECT DISTINCT
    gender_cd, gender
INTO gender_std
FROM customer


 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
21971 rows affected.


[]

In [175]:
%%sql

SELECT * FROM gender_std

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


gender_cd,gender
0,男性
9,不明
1,女性


---
> S-093: 商品テーブル（product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリテーブル（category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品テーブルを作成せよ。

In [178]:
%%sql

DROP TABLE IF EXISTS product_full
SELECT
    p.product_cd,
    p.category_major_cd,
    c.category_major_name,
    p.category_medium_cd,
    c.category_medium_name,
    p.category_small_cd,
    c.category_small_name,
    p.unit_price,
    p.unit_cost
INTO product_full
FROM product p
LEFT JOIN category c
on c.category_small_cd = p.category_small_cd

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
10030 rows affected.


[]

In [180]:
%%sql

SELECT TOP 10 * FROM product_full

 * mssql+pyodbc://padawan:***@localhost\SQLEXPRESS/100KnocksPreprocess?driver=SQL+Server+Native+Client+11.0
Done.


product_cd,category_major_cd,category_major_name,category_medium_cd,category_medium_name,category_small_cd,category_small_name,unit_price,unit_cost
P040101001,4,惣菜,401,御飯類,40101,弁当類,198,149
P040101002,4,惣菜,401,御飯類,40101,弁当類,218,164
P040101003,4,惣菜,401,御飯類,40101,弁当類,230,173
P040101004,4,惣菜,401,御飯類,40101,弁当類,248,186
P040101005,4,惣菜,401,御飯類,40101,弁当類,268,201
P040101006,4,惣菜,401,御飯類,40101,弁当類,298,224
P040101007,4,惣菜,401,御飯類,40101,弁当類,338,254
P040101008,4,惣菜,401,御飯類,40101,弁当類,420,315
P040101009,4,惣菜,401,御飯類,40101,弁当類,498,374
P040101010,4,惣菜,401,御飯類,40101,弁当類,580,435


## ファイル入出力：回答なし

bcp等を使えばできなくもないが権限設定などが面倒すぎる

普通にSSMSで入出力する、もしくはsqlcmdをコマンドから実行するなどしたほうが早い

---
> S-094: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

---
> S-095: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはSJIS

---
> S-096: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

---
> S-097: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

---
> S-098: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はCSV（カンマ区切り）
> - ヘッダ無し
> - 文字コードはUTF-8

---
> S-099: 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。出力先のパスは"/tmp/data"を指定することでJupyterの"/work/data"と共有されるようになっている。なお、COPYコマンドの権限は付与済みである。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

---
> S-100: 先に作成した以下形式のファイルを読み込み、テーブルを作成せよ。また、先頭3件を表示させ、正しくとりまれていることを確認せよ。
>
> - ファイル形式はTSV（タブ区切り）
> - ヘッダ有り
> - 文字コードはUTF-8

# これで１００本終わりです。おつかれさまでした！