# SQL100本ノック(PostgreSQL ver.)
PostgreSQLコンテナ構築手順とJupyterLabからの接続方法も知りたかったので、  
SQL100本ノックのリポジトリのコンテナは使わず自前で近い環境を構築してみた。  
[SQL100本ノックのリポジトリ](https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess/tree/master/docker/work)

* 参考
    * [Dockerでpostgresqlを構築する](https://zenn.dev/ayano_sakai/articles/42e64d873bf7df)
    * [PostgreSQL日本語ドキュメント](https://pgsql-jp.github.io/jpug-doc/16.0/postgresql-16.0-A4.pdf)
    * [Postgresql超初心者が知っておくべきこと](https://qiita.com/sean1225/items/aca78e004c18eecc589b)
    * [PostgreSQLの使い方](https://www.javadrive.jp/postgresql/)

In [None]:
!pip install psycopg2
!pip install ipython-sql
!pip install sqlalchemy

[補足] psycopg2をインストールするために下記が必要  
> sudo apt install libpq-dev

参考：https://qiita.com/b2bmakers/items/d1b0db5966ac145b0e29

In [None]:
# セルから直接psqlを使えるようにインストール
!pip install pgspecial

## PostgreSQLコンテナとの接続設定＆マジックコマンド設定

In [1]:
%load_ext sql

import os 
from sqlalchemy import create_engine

# 接続パラメータの設定
config = {
  'host': os.environ['PSQL_IP'], 
  'user': os.environ['PSQL_USR'],
  'password': os.environ['PSQL_PW'],
  'database': 'sample'
}

dsl = 'postgresql://{user}:{password}@{host}/{database}'.format(**config)
# conn = create_engine(dsl)

# MagicコマンドでSQLを書くための設定。%sqlにそのまま文字列を指定する必要があるので、$をつけてコマンドへ渡す
%sql $dsl

## PostgreSQLと接続出来ることを確認

In [7]:
%%sql
/* データベース一覧を表示 */
SELECT datname from pg_database;

 * postgresql://user:***@172.21.0.3/sample
5 rows affected.


datname
postgres
user
template1
template0
sample


In [9]:
%%sql
-- スキーマ作成
CREATE SCHEMA my_schema

 * postgresql://user:***@172.21.0.3/sample
Done.


[]

## 100本ノックのテーブル準備(初回のみ実行)

### - レシート明細テーブル作成

In [16]:
%%sql
CREATE TABLE receipt (
    sales_ymd INT,
    sales_epoch INT,
    store_cd VARCHAR(255),
    receipt_no INT,
    receipt_sub_no INT,
    customer_id VARCHAR(255),
    product_cd VARCHAR(255),
    quantity INT,
    amount INT
)


 * postgresql://user:***@172.21.0.3/sample
Done.


[]

In [15]:
%%sql
/* 作成したテーブルを確認。 */
select schemaname, tablename, tableowner 
  from pg_tables 
  where schemaname not like 'pg_%' and schemaname != 'information_schema';

 * postgresql://user:***@172.21.0.3/sample
1 rows affected.


schemaname,tablename,tableowner
public,receipt,user


psqlでログイン済みの場合、\dtを実行した方が早い。

上記のように先にテーブルを作成した後、psqlでPostgreSQLにログインし、  
クライアント側のcsvの格納先を絶対パスで指定して、csvをテーブルに読み込む。  
PostgreSQLから見える領域ではなくクライアント側であることに注意。  
[参考](https://www.ashisuto.co.jp/db_blog/article/how-import-and-export-data-using-csv-files-postgresql.html)  

> copy receipt from 'psqlクライアント側にあるcsvの絶対パス' delimiter ',' header;

### - 店舗テーブル作成

In [22]:
# %%sql
# DROP TABLE store

In [21]:
%%sql
-- 店舗のテーブル作成
CREATE TABLE store (
    store_cd VARCHAR(255),
    store_name VARCHAR(255),
    prefecture_cd VARCHAR(255),
    prefecture VARCHAR(255),
    address VARCHAR(255),
    addres_kana VARCHAR(255),
    tel_no VARCHAR(255),
    longitude double precision, -- 経度
    latitude double precision, -- 緯度
    floor_area real
)


 * postgresql://user:***@172.21.0.3/sample
Done.


[]

### - 顧客テーブル作成

In [23]:
%%sql
CREATE TABLE customer (
    customer_id VARCHAR(255),
    customer_name VARCHAR(255),
    gender_cd VARCHAR(255),
    gender VARCHAR(255),
    birth_day DATE,
    age INT,
    postal_cd VARCHAR(255),
    address VARCHAR(255),
    application_store_cd VARCHAR(255),
    application_date VARCHAR(255),
    status_cd VARCHAR(255)
)


 * postgresql://user:***@172.21.0.3/sample
Done.


[]

## SQL100本ノック問題＆解答

---
>S-001: レシート明細データ（receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [24]:
%%sql
select * from receipt LIMIT 10

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90
20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138
20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30
20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128
20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770
20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680


---
> S-002: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、  
> 商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。

In [25]:
%%sql
SELECT 
    sales_ymd, 
    customer_id, 
    product_cd, 
    amount 
FROM receipt 
LIMIT 10;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


sales_ymd,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-003: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。  
> ただし、sales_ymdをsales_dateに項目名を変更しながら抽出すること。

In [29]:
%%sql
SELECT
    sales_ymd AS sales_date, -- ASでカラム名を変えられる
    customer_id,
    product_cd,
    amount
FROM receipt
LIMIT 10;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


sales_date,customer_id,product_cd,amount
20181103,CS006214000001,P070305012,158
20181118,CS008415000097,P070701017,81
20170712,CS028414000014,P060101005,170
20190205,ZZ000000000000,P050301001,25
20180821,CS025415000050,P060102007,90
20190605,CS003515000195,P050102002,138
20181205,CS024514000042,P080101005,30
20190922,CS040415000178,P070501004,128
20170504,ZZ000000000000,P071302010,770
20191010,CS027514000015,P071101003,680


---
> S-004: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、  
> 以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [30]:
%%sql
SELECT
    sales_ymd,
    customer_id,
    product_cd,
    amount
FROM receipt
WHERE customer_id = 'CS018205000001'

 * postgresql://user:***@172.21.0.3/sample
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-005: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、  
> 以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [31]:
%%sql
SELECT
    sales_ymd,
    customer_id,
    product_cd,
    amount
FROM
    receipt
WHERE 
    customer_id = 'CS018205000001' 
    AND amount >= 1000

 * postgresql://user:***@172.21.0.3/sample
3 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-006: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、  
> 以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [32]:
%%sql
SELECT
    sales_ymd,
    customer_id,
    product_cd,
    quantity,
    amount
FROM
    receipt
WHERE 
    customer_id = 'CS018205000001' 
    AND (amount >= 1000 OR quantity >= 5)
;

 * postgresql://user:***@172.21.0.3/sample
5 rows affected.


sales_ymd,customer_id,product_cd,quantity,amount
20180911,CS018205000001,P071401012,1,2200
20180414,CS018205000001,P060104007,6,600
20170614,CS018205000001,P050206001,5,990
20190226,CS018205000001,P071401020,1,2200
20180911,CS018205000001,P071401005,1,1100


---
> S-007: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、  
> 以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [33]:
%%sql
SELECT
    sales_ymd,
    customer_id,
    product_cd,
    amount
FROM 
    receipt
WHERE
    customer_id = 'CS018205000001'
    AND amount BETWEEN 1000 AND 2000 -- A以上、B以下の行をフィルタリング


 * postgresql://user:***@172.21.0.3/sample
1 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401005,1100


---
> S-008: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、  
> 以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [34]:
%%sql
SELECT 
    sales_ymd,
    customer_id,
    product_cd,
    amount
FROM 
    receipt
WHERE
    customer_id = 'CS018205000001'
    AND product_cd != 'P071401019'

 * postgresql://user:***@172.21.0.3/sample
12 rows affected.


sales_ymd,customer_id,product_cd,amount
20180911,CS018205000001,P071401012,2200
20180414,CS018205000001,P060104007,600
20170614,CS018205000001,P050206001,990
20170614,CS018205000001,P060702015,108
20190216,CS018205000001,P071005024,102
20180414,CS018205000001,P071101002,278
20190226,CS018205000001,P070902035,168
20190924,CS018205000001,P060805001,495
20190226,CS018205000001,P071401020,2200
20180911,CS018205000001,P071401005,1100


---
> S-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。
>
> `SELECT * FROM store WHERE NOT (prefecture_cd = '13' OR floor_area > 900)`

In [35]:
%%sql
SELECT * FROM store WHERE NOT (prefecture_cd = '13' OR floor_area > 900)

 * postgresql://user:***@172.21.0.3/sample
3 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,addres_kana,tel_no,longitude,latitude,floor_area
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


問題文のSQLを実行すると上記の出力が得られる。  
WHERE句以降は(prefecture_cd = '13' または floor_area > 900)”でない”という意味であるから、  
言い換えると、prefecture_cd = '13'でもないし、 floor_area > 900でもない、ということになるので、  
それぞれ否定の表現に変えてANDでつなげばよい。（ドモルガンの法則）

In [36]:
%%sql
SELECT * FROM store WHERE (prefecture_cd != '13' AND floor_area <= 900)

 * postgresql://user:***@172.21.0.3/sample
3 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,addres_kana,tel_no,longitude,latitude,floor_area
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> S-010: 店舗データ（store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件表示せよ。

In [37]:
%%sql
SELECT 
    * 
FROM store 
WHERE 
    store_cd LIKE 'S14%' 
LIMIT 10;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,addres_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14022,逗子店,14,神奈川県,神奈川県逗子市逗子一丁目,カナガワケンズシシズシイッチョウメ,046-123-4036,139.5789,35.29642,1838.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0


---
> S-011: 顧客データ（customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件表示せよ。

In [38]:
%%sql
SELECT
    *
FROM customer
WHERE customer_id LIKE '%1' LIMIT 10

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS037613000071,六角 雅彦,9,不明,1952-04-01,66,136-0076,東京都江東区南砂**********,S13037,20150414,0-00000000-0
CS028811000001,堀井 かおり,1,女性,1933-03-27,86,245-0016,神奈川県横浜市泉区和泉町**********,S14028,20160115,0-00000000-0
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS028314000011,小菅 あおい,1,女性,1983-11-26,35,246-0038,神奈川県横浜市瀬谷区宮沢**********,S14028,20151123,1-20080426-5
CS039212000051,藤島 恵梨香,1,女性,1997-02-03,22,166-0001,東京都杉並区阿佐谷北**********,S13039,20171121,1-20100215-4
CS015412000111,松居 奈月,1,女性,1972-10-04,46,136-0071,東京都江東区亀戸**********,S13015,20150629,0-00000000-0
CS004702000041,野島 洋,0,男性,1943-08-24,75,176-0022,東京都練馬区向山**********,S13004,20170218,0-00000000-0
CS041515000001,栗田 千夏,1,女性,1967-01-02,52,206-0001,東京都多摩市和田**********,S13041,20160422,E-20100803-F
CS029313000221,北条 ひかり,1,女性,1987-06-19,31,279-0011,千葉県浦安市美浜**********,S12029,20180810,0-00000000-0
CS034312000071,望月 奈央,1,女性,1980-09-20,38,213-0026,神奈川県川崎市高津区久末**********,S14034,20160106,0-00000000-0


---
> S-012: 店舗データ（store）から、住所 (address) に"横浜市"が含まれるものだけ全項目表示せよ。

In [39]:
%%sql
SELECT
    *
FROM store
WHERE address LIKE '%横浜市%';

 * postgresql://user:***@172.21.0.3/sample
11 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,addres_kana,tel_no,longitude,latitude,floor_area
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0
S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
S14048,中川中央店,14,神奈川県,神奈川県横浜市都筑区中川中央二丁目,カナガワケンヨコハマシツヅキクナカガワチュウオウニチョウメ,045-123-4051,139.5758,35.54912,1657.0
S14042,新山下店,14,神奈川県,神奈川県横浜市中区新山下二丁目,カナガワケンヨコハマシナカクシンヤマシタニチョウメ,045-123-4047,139.6593,35.43894,1044.0


---
> S-013: 顧客データ（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件表示せよ。

In [41]:
%%sql
SELECT
    *
FROM customer
WHERE status_cd ~ '^[A-F]' 
LIMIT 10

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS031415000172,宇多田 貴美子,1,女性,1976-10-04,42,151-0053,東京都渋谷区代々木**********,S13031,20150529,D-20100325-C
CS015414000103,奥野 陽子,1,女性,1977-08-09,41,136-0073,東京都江東区北砂**********,S13015,20150722,B-20100609-B
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS029415000023,梅田 里穂,1,女性,1976-01-17,43,279-0043,千葉県浦安市富士見**********,S12029,20150610,D-20100918-E
CS035415000029,寺沢 真希,9,不明,1977-09-27,41,158-0096,東京都世田谷区玉川台**********,S13035,20141220,F-20101029-F
CS031415000106,宇野 由美子,1,女性,1970-02-26,49,151-0053,東京都渋谷区代々木**********,S13031,20150201,F-20100511-E
CS029215000025,石倉 美帆,1,女性,1993-09-28,25,279-0022,千葉県浦安市今川**********,S12029,20150708,B-20100820-C
CS033605000005,猪股 雄太,0,男性,1955-12-05,63,246-0031,神奈川県横浜市瀬谷区瀬谷**********,S14033,20150425,F-20100917-E
CS033415000229,板垣 菜々美,1,女性,1977-11-07,41,246-0021,神奈川県横浜市瀬谷区二ツ橋町**********,S14033,20150712,F-20100326-E
CS008415000145,黒谷 麻緒,1,女性,1977-06-27,41,157-0067,東京都世田谷区喜多見**********,S13008,20150829,F-20100622-F


PostgreSQLでは正規表現にマッチさせる場合、 ~ '文字列'。  
MySQLはREGEXP句を用いる。  

---
> S-014: 顧客データ（customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [42]:
%%sql
SELECT * FROM customer WHERE status_cd ~ '[1-9]$' LIMIT 10;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS001215000145,田崎 美紀,1,女性,1995-03-29,24,144-0055,東京都大田区仲六郷**********,S13001,20170605,6-20090929-2
CS033513000180,安斎 遥,1,女性,1962-07-11,56,241-0823,神奈川県横浜市旭区善部町**********,S14033,20150728,6-20080506-5
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS040412000191,川井 郁恵,1,女性,1977-01-05,42,226-0021,神奈川県横浜市緑区北八朔町**********,S14040,20151101,1-20091025-4
CS009315000023,皆川 文世,1,女性,1980-04-15,38,154-0012,東京都世田谷区駒沢**********,S13009,20150319,5-20080322-1
CS015315000033,福士 璃奈子,1,女性,1983-03-17,36,135-0043,東京都江東区塩浜**********,S13015,20141024,4-20080219-3
CS023513000066,神戸 そら,1,女性,1961-12-17,57,210-0005,神奈川県川崎市川崎区東田町**********,S14023,20150915,5-20100524-9
CS035513000134,市川 美帆,1,女性,1960-03-27,59,156-0053,東京都世田谷区桜**********,S13035,20150227,8-20100711-9
CS001515000263,高松 夏空,1,女性,1962-11-09,56,144-0051,東京都大田区西蒲田**********,S13001,20160812,1-20100804-1
CS040314000027,鶴田 きみまろ,9,不明,1986-03-26,33,226-0027,神奈川県横浜市緑区長津田**********,S14040,20150122,2-20080426-4


---
> S-015: 顧客データ（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、  
> 末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [43]:
%%sql
SELECT * FROM customer WHERE status_cd ~ '^[A-F].*[1-9]$' LIMIT 10;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS011215000048,芦田 沙耶,1,女性,1992-02-01,27,223-0062,神奈川県横浜市港北区日吉本町**********,S14011,20150228,C-20100421-9
CS022513000105,島村 貴美子,1,女性,1962-03-12,57,249-0002,神奈川県逗子市山の根**********,S14022,20150320,A-20091115-7
CS001515000096,水野 陽子,9,不明,1960-11-29,58,144-0053,東京都大田区蒲田本町**********,S13001,20150614,A-20100724-7
CS013615000053,西脇 季衣,1,女性,1953-10-18,65,261-0026,千葉県千葉市美浜区幕張西**********,S12013,20150128,B-20100329-6
CS020412000161,小宮 薫,1,女性,1974-05-21,44,174-0042,東京都板橋区東坂下**********,S13020,20150822,B-20081021-3
CS001215000097,竹中 あさみ,1,女性,1990-07-25,28,146-0095,東京都大田区多摩川**********,S13001,20170315,A-20100211-2
CS035212000007,内村 恵梨香,1,女性,1990-12-04,28,152-0023,東京都目黒区八雲**********,S13035,20151013,B-20101018-6
CS002515000386,野田 コウ,1,女性,1963-05-30,55,185-0013,東京都国分寺市西恋ケ窪**********,S13002,20160410,C-20100127-8
CS001615000372,稲垣 寿々花,1,女性,1956-10-29,62,144-0035,東京都大田区南蒲田**********,S13001,20170403,A-20100104-1
CS032512000121,松井 知世,1,女性,1962-09-04,56,210-0011,神奈川県川崎市川崎区富士見**********,S13032,20150727,A-20100103-5


---
> S-016: 店舗データ（store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [48]:
%%sql
SELECT * FROM store WHERE tel_no ~ '^[0-9]{3}-[0-9]{3}-[0-9]{4}$';

 * postgresql://user:***@172.21.0.3/sample
0 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,addres_kana,tel_no,longitude,latitude,floor_area


何故か解答の書き方では引っかからず。  
MySQLとPostgreSQLでは正規表現の取り扱いが微妙に違う？  
下記だと想定通りとなった。

In [46]:
%%sql
SELECT * FROM store WHERE tel_no ~ '...-...-....';

 * postgresql://user:***@172.21.0.3/sample
34 rows affected.


store_cd,store_name,prefecture_cd,prefecture,address,addres_kana,tel_no,longitude,latitude,floor_area
S12014,千草台店,12,千葉県,千葉県千葉市稲毛区千草台一丁目,チバケンチバシイナゲクチグサダイイッチョウメ,043-123-4003,140.118,35.63559,1698.0
S13002,国分寺店,13,東京都,東京都国分寺市本多二丁目,トウキョウトコクブンジシホンダニチョウメ,042-123-4008,139.4802,35.70566,1735.0
S14010,菊名店,14,神奈川県,神奈川県横浜市港北区菊名一丁目,カナガワケンヨコハマシコウホククキクナイッチョウメ,045-123-4032,139.6326,35.50049,1732.0
S14033,阿久和店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4043,139.4961,35.45918,1495.0
S14036,相模原中央店,14,神奈川県,神奈川県相模原市中央二丁目,カナガワケンサガミハラシチュウオウニチョウメ,042-123-4045,139.3716,35.57327,1679.0
S14040,長津田店,14,神奈川県,神奈川県横浜市緑区長津田みなみ台五丁目,カナガワケンヨコハマシミドリクナガツタミナミダイゴチョウメ,045-123-4046,139.4994,35.52398,1548.0
S14050,阿久和西店,14,神奈川県,神奈川県横浜市瀬谷区阿久和西一丁目,カナガワケンヨコハマシセヤクアクワニシイッチョウメ,045-123-4053,139.4961,35.45918,1830.0
S13052,森野店,13,東京都,東京都町田市森野三丁目,トウキョウトマチダシモリノサンチョウメ,042-123-4030,139.4383,35.55293,1087.0
S14028,二ツ橋店,14,神奈川県,神奈川県横浜市瀬谷区二ツ橋町,カナガワケンヨコハマシセヤクフタツバシチョウ,045-123-4042,139.4963,35.46304,1574.0
S14012,本牧和田店,14,神奈川県,神奈川県横浜市中区本牧和田,カナガワケンヨコハマシナカクホンモクワダ,045-123-4034,139.6582,35.42156,1341.0


---
> S-017: 顧客データ（customer）を生年月日（birth_day）で高齢順にソートし、先頭から全項目を10件表示せよ。

In [49]:
%%sql
SELECT * FROM customer ORDER BY birth_day ASC LIMIT 10;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS003813000014,村山 菜々美,1,女性,1928-11-26,90,182-0007,東京都調布市菊野台**********,S13003,20160214,0-00000000-0
CS026813000004,吉村 朝陽,1,女性,1928-12-14,90,251-0043,神奈川県藤沢市辻堂元町**********,S14026,20150723,0-00000000-0
CS018811000003,熊沢 美里,1,女性,1929-01-07,90,204-0004,東京都清瀬市野塩**********,S13018,20150403,0-00000000-0
CS027803000004,内村 拓郎,0,男性,1929-01-12,90,251-0031,神奈川県藤沢市鵠沼藤が谷**********,S14027,20151227,0-00000000-0
CS013801000003,天野 拓郎,0,男性,1929-01-15,90,274-0824,千葉県船橋市前原東**********,S12013,20160120,0-00000000-0
CS001814000022,鶴田 里穂,1,女性,1929-01-28,90,144-0045,東京都大田区南六郷**********,S13001,20161012,A-20090415-7
CS016815000002,山元 美紀,1,女性,1929-02-22,90,184-0005,東京都小金井市桜町**********,S13016,20150629,C-20090923-C
CS009815000003,中田 里穂,1,女性,1929-04-08,89,154-0014,東京都世田谷区新町**********,S13009,20150421,D-20091021-E
CS012813000013,宇野 南朋,1,女性,1929-04-09,89,231-0806,神奈川県横浜市中区本牧町**********,S14012,20150712,0-00000000-0
CS005813000015,金谷 恵梨香,1,女性,1929-04-09,89,165-0032,東京都中野区鷺宮**********,S13005,20150506,0-00000000-0


ASCで昇順に並べる。指定しなくてもASCで並べる。

---
> S-018: 顧客データ（customer）を生年月日（birth_day）で若い順にソートし、先頭から全項目を10件表示せよ。

In [50]:
%%sql
SELECT * FROM customer ORDER BY birth_day DESC LIMIT 10;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
CS035114000004,大村 美里,1,女性,2007-11-25,11,156-0053,東京都世田谷区桜**********,S13035,20150619,6-20091205-6
CS022103000002,福山 はじめ,9,不明,2007-10-02,11,249-0006,神奈川県逗子市逗子**********,S14022,20160909,0-00000000-0
CS002113000009,柴田 真悠子,1,女性,2007-09-17,11,184-0014,東京都小金井市貫井南町**********,S13002,20160304,0-00000000-0
CS004115000014,松井 京子,1,女性,2007-08-09,11,165-0031,東京都中野区上鷺宮**********,S13004,20161120,1-20081231-1
CS002114000010,山内 遥,1,女性,2007-06-03,11,184-0015,東京都小金井市貫井北町**********,S13002,20160920,6-20100510-1
CS025115000002,小柳 夏希,1,女性,2007-04-18,11,245-0018,神奈川県横浜市泉区上飯田町**********,S14025,20160116,D-20100913-D
CS002113000025,広末 まなみ,1,女性,2007-03-30,12,184-0015,東京都小金井市貫井北町**********,S13002,20171030,0-00000000-0
CS033112000003,長野 美紀,1,女性,2007-03-22,12,245-0051,神奈川県横浜市戸塚区名瀬町**********,S14033,20150606,0-00000000-0
CS007115000006,福岡 瞬,1,女性,2007-03-10,12,285-0845,千葉県佐倉市西志津**********,S12007,20151118,F-20101016-F
CS014113000008,矢口 莉緒,1,女性,2007-03-05,12,260-0041,千葉県千葉市中央区東千葉**********,S12014,20150622,3-20091108-6


DESCで降順に並べる。

---
> S-019: レシート明細データ（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。  
> 項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [51]:
%%sql
SELECT
    customer_id,
    amount,
    RANK() OVER (ORDER BY amount DESC) AS rank_of_amount
FROM receipt
LIMIT 10
;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,amount,rank_of_amount
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
CS015515000034,5480,4
ZZ000000000000,5480,4
ZZ000000000000,5480,4
ZZ000000000000,5440,7
CS021515000089,5440,7
ZZ000000000000,5280,9
ZZ000000000000,5280,9


RANK()で順位付け、OVERは何に対して順位をつけるか、OVERの後の()内はOVERの対象（ここではamountを降順に並べたもの）を指す。  
AS [新しいカラム名]で演算後のフィールドに対して名前をつけることができる。(polarsの.aliasと一緒)
> RANK() OVER (ORDER BY amount DESC) AS rank_of_amount

---
> S-020: レシート明細データ（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。  
> 項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [52]:
%%sql
SELECT
 customer_id,
 amount,
 ROW_NUMBER() OVER (ORDER BY amount DESC) AS row_numer_amount
FROM receipt
LIMIT 10
;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,amount,row_numer_amount
CS011415000006,10925,1
ZZ000000000000,6800,2
CS028605000002,5780,3
ZZ000000000000,5480,4
CS015515000034,5480,5
ZZ000000000000,5480,6
CS021515000089,5440,7
ZZ000000000000,5440,8
CS017414000114,5280,9
CS020515000102,5280,10


売上金額が等しい場合でも、単に上から順番に番号をつけたい場合はROW_NUMBER()を用いる。

---
> S-021: レシート明細データ（receipt）に対し、件数をカウントせよ。

In [53]:
%%sql
SELECT COUNT(*) FROM receipt

 * postgresql://user:***@172.21.0.3/sample
1 rows affected.


count
104681


SELECT COUNT(フィールド名)でNULL値が含まれるかどうかに関係なく、取得された行の数を返す。  
フィールド名に*を入れると全フィールドが対象になる。

---
> S-022: レシート明細データ（receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [54]:
%%sql
SELECT COUNT(DISTINCT customer_id) FROM receipt

 * postgresql://user:***@172.21.0.3/sample
1 rows affected.


count
8307


あるフィールドから重複を排除して件数をカウントする場合はCOUNT(DISTINCT フィールド名)を用いる。  
uniq関数みたいなのはない。

In [55]:
%%sql
SELECT COUNT(customer_id) FROM receipt -- 重複もカウントされる。

 * postgresql://user:***@172.21.0.3/sample
1 rows affected.


count
104681


---
> S-023: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [56]:
%%sql
SELECT 
    store_cd,
    SUM(amount) AS total_amount,
    SUM(quantity) AS total_quantity
FROM receipt
GROUP BY store_cd
ORDER BY store_cd
LIMIT 10
;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


store_cd,total_amount,total_quantity
S12007,638761,2099
S12013,787513,2425
S12014,725167,2358
S12029,794741,2555
S12030,684402,2403
S13001,811936,2347
S13002,727821,2340
S13003,764294,2197
S13004,779373,2390
S13005,629876,2004


SQLにおけるGROUP BYは上記のように書く。  
Pandas,Polarsの方が直感的かも。  
SUM関数以外を適用したい場合下記のように書けばOK

In [57]:
%%sql
SELECT 
    store_cd,
    MAX(amount) AS MAX_amount,
    MAX(quantity) AS MAX_quantity
FROM receipt
GROUP BY store_cd
ORDER BY store_cd
LIMIT 10
;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


store_cd,max_amount,max_quantity
S12007,5000,3
S12013,5000,3
S12014,5000,3
S12029,5280,3
S12030,5280,3
S13001,5280,2
S13002,5280,2
S13003,5060,3
S13004,5440,3
S13005,5280,3


---
> S-024: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）を求め、10件表示せよ。

In [58]:
%%sql
SELECT
    customer_id,
    MAX(sales_ymd) AS latest_sales_ymd
FROM receipt
GROUP BY customer_id
LIMIT 10
;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,latest_sales_ymd
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20180621
CS007515000119,20190511
CS034515000123,20190708
CS004315000058,20170517
CS026414000014,20190720
CS001615000099,20170729


---
> S-025: レシート明細データ（receipt）に対し、  
> 顧客ID（customer_id）ごとに最も古い売上年月日（sales_ymd）を求め、10件表示せよ。

In [59]:
%%sql
SELECT
    customer_id,
    MIN(sales_ymd) AS oldest_sales_ymd
FROM receipt
GROUP BY customer_id
LIMIT 10
;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,oldest_sales_ymd
CS001311000059,20180211
CS004614000122,20181228
CS003512000043,20180106
CS011615000061,20190503
CS029212000033,20170318
CS007515000119,20170201
CS034515000123,20170527
CS004315000058,20170517
CS026414000014,20170718
CS001615000099,20170729


---
> S-026: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）と古い売上年月日を求め、  
> 両者が異なるデータを10件表示せよ。

In [61]:
%%sql
SELECT
    customer_id,
    MAX(sales_ymd) AS latest_sales_ymd,
    MIN(sales_ymd) AS oldest_sales_ymd
FROM receipt
GROUP BY customer_id
HAVING MAX(sales_ymd) != MIN(sales_ymd)
LIMIT 10
;

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


customer_id,latest_sales_ymd,oldest_sales_ymd
CS029212000033,20180621,20170318
CS007515000119,20190511,20170201
CS034515000123,20190708,20170527
CS026414000014,20190720,20170718
CS010515000082,20181204,20180518
CS019315000045,20170920,20170423
CS008513000099,20190308,20170722
CS007615000070,20191025,20170929
CS025415000155,20191026,20170314
CS016414000063,20190617,20170109


HAVINGはGROUP BYによるグループごとの集計結果を用いた条件判定を行いたいときに用いる。  
下記の書き方はエラーになる。  

In [62]:
%%sql
SELECT
    customer_id,
    MAX(sales_ymd) AS latest_sales_ymd,
    MIN(sales_ymd) AS oldest_sales_ymd
FROM receipt
GROUP BY customer_id
WHERE latest_sales_ymd != oldest_sales_ymd
LIMIT 10
;

 * postgresql://user:***@172.21.0.3/sample
(psycopg2.errors.SyntaxError) syntax error at or near "WHERE"
LINE 7: WHERE latest_sales_ymd != oldest_sales_ymd
        ^

[SQL: SELECT
    customer_id,
    MAX(sales_ymd) AS latest_sales_ymd,
    MIN(sales_ymd) AS oldest_sales_ymd
FROM receipt
GROUP BY customer_id
WHERE latest_sales_ymd != oldest_sales_ymd
LIMIT 10
;]
(Background on this error at: https://sqlalche.me/e/20/f405)


---
> S-027: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [63]:
%%sql
SELECT
    store_cd,
    AVG(amount) AS average_amount
FROM receipt
GROUP BY store_cd
ORDER BY average_amount DESC
LIMIT 5
;

 * postgresql://user:***@172.21.0.3/sample
5 rows affected.


store_cd,average_amount
S13052,402.86746987951807
S13015,351.11196043165467
S13003,350.9155188246097
S14010,348.79126213592235
S13001,348.4703862660944


ORDER BYでは普通に新たに定義したフィールド名を用いることが出来る。

---
> S-028: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [66]:
%%sql
SELECT
    store_cd,
    percentile_cont(0.5) WITHIN GROUP (ORDER BY amount) AS amount_50ptile
FROM receipt
GROUP BY store_cd
ORDER BY amount_50ptile DESC
LIMIT 5

 * postgresql://user:***@172.21.0.3/sample
5 rows affected.


store_cd,amount_50ptile
S13052,190.0
S14010,188.0
S14050,185.0
S13003,180.0
S13018,180.0


percentile_cont(percentile)で任意のパーセンタイル値を求めることが出来る。上記は50%ile。  
WITHINは複数の入力値（レコード）をソートして単一の結果を返すような集計をするときに使う(順序集合集約関数)。  
[集約関数について](https://www.postgresql.jp/docs/9.4/functions-aggregate.html)

---
> S-029: レシート明細データ（receipt）に対し、  
> 店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求め、10件表示させよ。

In [69]:
%%sql
SELECT 
    store_cd, 
    mode() WITHIN GROUP (ORDER BY product_cd) AS product_cd_mode
FROM receipt
GROUP BY store_cd
ORDER BY store_cd
LIMIT 10

 * postgresql://user:***@172.21.0.3/sample
10 rows affected.


store_cd,product_cd_mode
S12007,P060303001
S12013,P060303001
S12014,P060303001
S12029,P060303001
S12030,P060303001
S13001,P060303001
S13002,P060303001
S13003,P071401001
S13004,P060303001
S13005,P040503001


---
> S-030: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに  
> 売上金額（amount）の分散を計算し、降順で5件表示せよ。

In [5]:
%%sql
SELECT
    store_cd,
    variance(amount) AS amount_variance
FROM receipt
GROUP BY store_cd
ORDER BY amount_variance DESC
LIMIT 5

 * postgresql://user:***@172.21.0.3/sample
5 rows affected.


store_cd,amount_variance
S13052,441863.252526234
S14011,306442.24243156874
S14034,297068.39274006075
S13001,295558.8426177125
S13015,295427.1970858536


[参考](https://www.postgresql.jp/docs/9.4/functions-aggregate.html)