# SQL演習

SQLの基本を体に染みこませるために，本演習では細かな課題「ノック」を大量に解く．

本演習では，架空のショッピングサイト`VirtualStore`における商品管理，購買履歴管理のために運用されている関係データベースにアクセスできるとの想定の下，様々なデータ要求に応えるためのSQL文を書く練習（ノック）を行う．

本演習では，関係データベースの管理システム（DBMS）の中でも環境構築がカンタンで軽量なDBMSである[SQLite](https://www.sqlite.org)を用いる．
演習で用いる関係データベース（`virtual_store`）には，下記テーブルが格納されている：
- `receipt`: レシート明細に関するテーブル
- `store`: 店舗情報に関するテーブル
- `product`: 商品情報に関するテーブル
- `category`: 商品カテゴリに関するテーブル

これらテーブルに対してSQL文を実行し，データベースに対する問い合わせの練習を行う．
ノックの数は合計**25**である．
どのノックも前章までに解説した内容に即したものになっている．
適宜過去資料を振り返りながら，各ノックに取り組むこと．

なお，演習を始める前に，必ずJupyter Notebookもしくは[Google Colaboratory](../misc/how-to-execute-sql.ipynb)上で以下のコードを実行すること．
演習で用いるSQLiteデータ（`virtual_store.db`）のダウンロード，およびSQLiteの実行環境設定を自動で済ませることができる．

In [4]:
import os

# 演習で用いるデータのダウンロード
if not os.path.isfile('data/virtual_store.db'):
    os.makedirs('data', exist_ok=True)
    !wget -P data https://github.com/hontolab-courses/database-lecturenote/raw/main/content/exercise/data/virtual_store.db

!pip install jupysql

%load_ext sql
%config SqlMagic.feedback = 0
%sql sqlite:///data/virtual_store.db

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


### 演習で用いるデータおよび課題の出典について
本演習課題で用いるデータは，[データサイエンティスト協会](https://www.datascientist.or.jp)スキル定義委員の「[データサイエンス100本ノック（構造化データ加工編）](https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master)」で配布されているデータを，わたし山本がSQLite形式に変換したものである．
また，演習内容（ノック）は[データサイエンス100本ノック（構造化データ加工編）](https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master)に収録されている演習課題を，本講義向けにアレンジしたものである．

下記のとおり，元データの著作権やライセンスは，MITライセンスに従う．

> Copyright (c) 2020 The Japan DataScientist Society<br />
> Released under the MIT license<br />
> [https://raw.githubusercontent.com/The-Japan-DataScientist-Society/100knocks-preprocess/master/LICENSE](https://raw.githubusercontent.com/The-Japan-DataScientist-Society/100knocks-preprocess/master/LICENSE)

## SQL Knock 25連発

### Knock 1: 選択

レシート明細のテーブル（`receipt`）から全項目の先頭10件を表示し，どのようなレコードが保存されているか確認せよ．

In [6]:
%%sql



### Knock 2: 射影1

レシート明細のテーブル（`receipt`）から売上日（`sales_ymd`），顧客ID（`customer_id`），商品コード（`product_cd`），売上金額（`amount`）の順に列を指定し，10件レコードを表示せよ．

In [5]:
%%sql



### Knock 3: 射影2

レシート明細のテーブル（`receipt`）から売上日（`sales_ymd`），顧客ID（`customer_id`），商品コード（`product_cd`），売上金額（`amount`）の順に列を指定し，10件レコードを表示せよ．ただし，列`sales_ymd`は列名を`sales_date`に変更して表示すること．

In [7]:
%%sql



### Knock 4: 選択2
レシート明細のテーブル（`receipt`）から売上日（`sales_ymd`），顧客ID（`customer_id`），商品コード（`product_cd`），売上金額（`amount`）の順に列を指定し，以下の条件を満たすレコードをすべて抽出せよ．

* 顧客IDが"CS018205000001"

In [5]:
%%sql



### Knock 5: 選択3
レシート明細のテーブル（`receipt`）から売上日（`sales_ymd`），顧客ID（`customer_id`），商品コード（`product_cd`），売上金額（`amount`）の順に列を指定し，以下の条件を満たすレコードをすべて抽出せよ．

* 顧客IDが"CS018205000001"
* 売上金額が1000以上

In [5]:
%%sql



### Knock 6: 選択4
レシート明細のテーブル（`receipt`）から売上日（`sales_ymd`），顧客ID（`customer_id`），商品コード（`product_cd`），売上数量（`quantity`），売上金額（`amount`）の順に列を指定し，以下の条件を満たすレコードをすべて抽出せよ．

* 顧客IDが"CS018205000001"
* 売上金額が1000以上または売上数量が5以上

In [5]:
%%sql



### Knock 7: 選択5
レシート明細のテーブル（`receipt`）から売上日（`sales_ymd`），顧客ID（`customer_id`），商品コード（`product_cd`），売上金額（`amount`）の順に列を指定し，以下の条件を満たすレコードをすべて抽出せよ．

* 顧客IDが"CS018205000001"
* 売上金額が1000以上2000以下

In [5]:
%%sql



### Knock 8: 選択6
レシート明細のテーブル（`receipt`）から売上日（`sales_ymd`），顧客ID（`customer_id`），商品コード（`product_cd`），売上金額（`amount`）の順に列を指定し，以下の条件を満たすレコードをすべて抽出せよ．

* 顧客IDが"CS018205000001"
* 商品コードが"P071401019"以外

In [5]:
%%sql



### Knock 9: 選択7
下記SQL文について，問い合わせ結果が変わらないよう`OR`を`AND`に書き換えよ．

```sql
SELECT 
    *
FROM
    store
WHERE
    NOT (prefecture_cd == 13 OR floor_area > 900);
```

In [5]:
%%sql



### Knock 10: LIKE句1

店舗テーブル（`store`）から，店舗コード（`store_cd`）が"S14"で始まるものだけを全項目抽出し，10件だけ表示せよ．

In [5]:
%%sql



### Knock 11: LIKE句2
店舗テーブル（`store`）から横浜市の店舗だけを全項目表示せよ．

In [None]:
%%sql



### Knock 12: ソート1
顧客テーブル（`customer`）のレコードを高年齢順にソートし，先頭10レコードを前項目表示せよ．

In [10]:
%%sql



### Knock 13: ソート2
顧客テーブル（`customer`）のレコードを若い順（同じ年齢の場合は誕生日が遅い順）にソートし，先頭10レコードを前項目表示せよ．

※ヒント: `ORDER BY`にはソートのための属性を複数指定できる

In [10]:
%%sql



### Knock 14: 集計1
レシート明細テーブル（`receipt`）のレコード数を求めよ．

In [10]:
%%sql



### Knock 15: 集計2
レシート明細テーブル（`receipt`）中の顧客ID（`customer_id`）の総数（重複を除く）を求めよ．

In [10]:
%%sql



### Knock 16: 集約演算1
レシート明細テーブル（`receipt`）に対し，店舗コード（`store_cd`）ごとに売上金額の合計（`total_amount`）と売上数量の合計（`total_quantity`）を計算し表示せよ．なお，表示件数は先頭の10件でよい．



In [12]:
%%sql



### Knock 17: 集約演算2
レシート明細テーブル（`receipt`）に対し，顧客ID（`customer_id`）ごとに最も新しい売上日と最も古い売り上げ日を求め，それらが異なる顧客IDを10件表示せよ．なお，表示項目は顧客IDと最も新しい売り上げ日（`latest_sales_ymd`），最も古い売り上げ日（`oldest_sales_ymd`）とする．

In [None]:
%%sql



### Knock 18: 集約演算3
レシート明細テーブル（`receipt`）に対し，店舗コード（`store_cd`）ごとに売上金額（`amount`）の平均を計算し，平均売り上げ金額の上位5件の店舗を表示せよ．

In [None]:
%%sql



### Knock 19: 集約演算4
レシート明細テーブル（`receipt`）に対し，店舗コード（`store_cd`）ごとに売上金額（`amount`）の総額を計算し，売り上げ総額が800,000以上の店舗を表示せよ．

In [None]:
%%sql



### Knock 20: 副問い合わせ1
レシート明細テーブル（`receipt`）を利用して顧客ID（`customer_id`）ごとの売上総額を計算し，その平均（`avg_total_amount`）を求めよ．ただし，顧客IDが"Z"から始まるのものは非会員を表すため，除外して計算すること．

In [None]:
%%sql



### Knock 21: 副問い合わせ2
レシート明細テーブル（`receipt`）を利用して全商品の中で売上総額が上位3位の商品コード（`product_cd`）を求め，各店舗（`store_cd`）における3つの商品の売上総額を求めよ．なお，結果は`store_cd`列でソートして表示すること．なお，このノックでは`WITH句`を用いよ．表示件数は30件でよい．

In [None]:
%%sql



### Knock 22: 結合1
レシート明細テーブル（`receipt`）と店舗テーブル（`store`）を内部結合し，レシート明細テーブルの全項目と店舗テーブルの店舗名（`store_name`）を10件表示させよ．

In [None]:
%%sql



### Knock 23: 結合2
商品テーブル（`product`）とカテゴリテーブル（`category`）を内部結合し，商品テーブルの全項目とカテゴリテーブルの小区分名（`category_small_name`）を10件表示させよ．

In [None]:
%%sql



### Knock 24: 結合3
顧客テーブル（`customer`）とレシート明細テーブル（`receipt`）から，各顧客ごとの売上金額合計を求めよ．ただし，売上実績がない顧客については売上金額を0として表示させること．また，顧客は性別コード（`gender_cd`）が女性（1）であるものを対象とし，非会員（顧客IDが"Z"から始まるもの）は除外すること．なお，表示項目は顧客ID（`customer_id`），顧客名（`customer_name`），売上金額合計とせよ．結果は10件だけ表示させればよい．

※ヒント: `IFNULL（変数1, 0）`関数は，変数1が空値（None）のとき0に置き換える

In [None]:
%%sql



### Knock 25: 四則演算と集約演算

レシート明細テーブル（`receipt`）と顧客テーブル（`customer`）を結合し，性別（`gender`）と年代（`age`から計算）ごとの売上金額（`amount`）の合計値を表示せよ．ただし，表示項目の構成は性別，年代，売上総額の3項目とすること．また，年代は10歳ごとの階級とすること．

In [None]:
%%sql

