# データサイエンス100本ノック（構造化データ加工編） - SQL (Google Colab環境)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/rootassist/100knocks-preprocess-inSQLandPython-withColab/blob/master/preprocess_knock_SQL_Colab.ipynb)

## はじめに
- 初めに以下の「環境構築用のセル」を実行してください（再開時にも実行する必要があります）
- データベースはPostgreSQL13です
- セルに %%sql と記載することでSQLを発行することができます
- jupyterからはdescribeコマンドによるテーブル構造の確認ができないため、テーブル構造を確認する場合はlimitを指定したSELECTなどで代用してください
- サーバーは以下のように設定して起動しています
  - Port: 5432
  - database名: dsdojo_db
  - ユーザ名: padwan
  - パスワード: padwan12345
- データ（CSVファイル）はこのリポジトリからcurlコマンドで/tmp/data/100knock-preprocess/ディレクトリの下へ取得した上で読み込んでいます
- CSVファイルの出力などは/tmp/dataに対して行います
- 大量出力を行うとJupyterが固まることがあるため、出力件数は制限することを推奨します（設問にも出力件数を記載）
    - 結果確認のために表示させる量を適切にコントロールし、作業を軽快にすすめる技術もデータ加工には求められます
- 解答にあたって、処理は複数回に分けても構いません
- 名前、住所等はダミーデータであり、実在するものではありません
- ノートは、Googleドライブの下のColab Notebooksフォルダの下に保存されます

In [1]:
#環境構築用のセル
# Import the repository signing key:
!sudo apt install curl ca-certificates
!sudo install -d /usr/share/postgresql-common/pgdg
!sudo curl -o /usr/share/postgresql-common/pgdg/apt.postgresql.org.asc --fail https://www.postgresql.org/media/keys/ACCC4CF8.asc

# Create the repository configuration file:
!sudo sh -c "echo 'deb [signed-by=/usr/share/postgresql-common/pgdg/apt.postgresql.org.asc] https://apt.postgresql.org/pub/repos/apt '$(grep -oP 'VERSION_CODENAME=\K\w+' /etc/os-release)'-pgdg main' > /etc/apt/sources.list.d/pgdg.list"

# Update the package lists:
!sudo apt update

# Install the 13th version of PostgreSQL:
!sudo apt-get -y -qq update
!sudo apt-get -y -qq install postgresql-13
!sudo pg_ctlcluster 13 main start

!sudo -u postgres psql -U postgres -c "create database dsdojo_db;"
!sudo -u postgres psql -U postgres -c "create user padwan with superuser;"
!sudo -u postgres psql -U postgres -c "alter user padwan password 'padwan12345';"
!sudo -u postgres psql -U postgres -c "grant all privileges on database dsdojo_db to padwan;"
!sudo -u postgres psql -U postgres -c "grant pg_read_server_files to padwan;"
!sudo -u postgres psql -U postgres -c "grant pg_write_server_files to padwan;"

!sudo -u postgres psql -U postgres -d dsdojo_db -c "create table customer(customer_id VARCHAR(14), customer_name VARCHAR(20), gender_cd VARCHAR(1), gender VARCHAR(2), birth_day DATE, age INTEGER, postal_cd VARCHAR(8), address VARCHAR(128), application_store_cd VARCHAR(6), application_date VARCHAR(8), status_cd VARCHAR(12), primary key (customer_id));create table category( category_major_cd VARCHAR(2), category_major_name VARCHAR(32), category_medium_cd VARCHAR(4), category_medium_name VARCHAR(32), category_small_cd VARCHAR(6), category_small_name VARCHAR(32), primary key (category_small_cd));create table product( product_cd VARCHAR(10), category_major_cd VARCHAR(2), category_medium_cd VARCHAR(4), category_small_cd VARCHAR(6), unit_price INTEGER, unit_cost INTEGER, primary key (product_cd));create table store( store_cd VARCHAR(6), store_name VARCHAR(128), prefecture_cd VARCHAR(2), prefecture VARCHAR(5), address VARCHAR(128), address_kana VARCHAR(128), tel_no VARCHAR(20), longitude NUMERIC, latitude NUMERIC, floor_area NUMERIC, primary key (store_cd));create table receipt( sales_ymd INTEGER, sales_epoch INTEGER, store_cd VARCHAR(6), receipt_no SMALLINT, receipt_sub_no SMALLINT, customer_id VARCHAR(14), product_cd VARCHAR(10), quantity INTEGER, amount INTEGER, primary key (sales_ymd, store_cd, receipt_no, receipt_sub_no));create table geocode( postal_cd VARCHAR(8), prefecture VARCHAR(4), city VARCHAR(30), town VARCHAR(30), street VARCHAR(30), address VARCHAR(30), full_address VARCHAR(80), longitude NUMERIC, latitude NUMERIC);"

!sudo mkdir -p /tmp/data/100knock-preprocess
!sudo chmod -R 777 /tmp/data

table_names = ('customer', 'category', 'product', 'receipt', 'store', 'geocode')
base = "/tmp/data/100knock-preprocess/"
baseurl = "https://raw.githubusercontent.com/The-Japan-DataScientist-Society/100knocks-preprocess/master/docker/work/data/"
for table_name in table_names:
   CURLCMD="curl -o "+base+table_name+".csv "+baseurl+table_name+".csv"
   !sudo -u postgres $CURLCMD
   COPYCMD="\copy "+table_name+" from '"+base+table_name+".csv' encoding 'utf8' csv header;"
   !sudo -u postgres psql -U postgres -d dsdojo_db -c "$COPYCMD"

!pip install prettytable==3.6.0

%load_ext sql
%config SqlMagic.autopandas = True
%sql postgresql://padwan:padwan12345@localhost:5432/dsdojo_db

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
ca-certificates is already the newest version (20240203~22.04.1).
curl is already the newest version (7.81.0-1ubuntu1.20).
0 upgraded, 0 newly installed, 0 to remove and 35 not upgraded.
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  4812  100  4812    0     0  11524      0 --:--:-- --:--:-- --:--:-- 11511
Get:1 https://apt.postgresql.org/pub/repos/apt jammy-pgdg InRelease [107 kB]
Get:2 https://cli.github.com/packages stable InRelease [3,917 B]
Get:3 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,632 B]
Get:4 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1,581 B]
Hit:5 https://r2u.stat.illinois.edu/ubuntu jammy InRelease
Hit:6 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:7 http://security.ubuntu.com/ubu

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# 新しいセクション

# 使い方
- セルの先頭に%%sqlと記載し、２行目以降にSQLを記述することでJupyterからPostgreSQLに対しSQLを実行できます。

In [2]:
%%sql
SELECT 'このように実行できます' AS sample;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
1 rows affected.


Unnamed: 0,sample
0,このように実行できます


# データ加工100本ノック

---
> S-001: レシート明細データ（receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [3]:
%%sql
select
    *
from
    receipt
limit
    10;


 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount
0,20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158
1,20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81
2,20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170
3,20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25
4,20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90
5,20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138
6,20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30
7,20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128
8,20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770
9,20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680


---
> S-002: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。

In [4]:
%%sql
select
    sales_ymd
   ,customer_id
   ,product_cd
   ,amount
from
    receipt
limit
    10;


 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,sales_ymd,customer_id,product_cd,amount
0,20181103,CS006214000001,P070305012,158
1,20181118,CS008415000097,P070701017,81
2,20170712,CS028414000014,P060101005,170
3,20190205,ZZ000000000000,P050301001,25
4,20180821,CS025415000050,P060102007,90
5,20190605,CS003515000195,P050102002,138
6,20181205,CS024514000042,P080101005,30
7,20190922,CS040415000178,P070501004,128
8,20170504,ZZ000000000000,P071302010,770
9,20191010,CS027514000015,P071101003,680


---
> S-003: レシート明細データ（receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。ただし、sales_ymdをsales_dateに項目名を変更しながら抽出すること。

In [5]:
%%sql
select
     sales_ymd as "sales_date"
    ,customer_id
    ,product_cd
    ,amount
from
    receipt
limit
    10;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,sales_date,customer_id,product_cd,amount
0,20181103,CS006214000001,P070305012,158
1,20181118,CS008415000097,P070701017,81
2,20170712,CS028414000014,P060101005,170
3,20190205,ZZ000000000000,P050301001,25
4,20180821,CS025415000050,P060102007,90
5,20190605,CS003515000195,P050102002,138
6,20181205,CS024514000042,P080101005,30
7,20190922,CS040415000178,P070501004,128
8,20170504,ZZ000000000000,P071302010,770
9,20191010,CS027514000015,P071101003,680


---
> S-004: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [9]:
%%sql
select
     sales_ymd
    ,customer_id
    ,product_cd
    ,amount
from
    receipt
where
    customer_id = 'CS018205000001'
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
12 rows affected.


Unnamed: 0,sales_ymd,customer_id,product_cd,amount
0,20180911,CS018205000001,P071401012,2200
1,20180414,CS018205000001,P060104007,600
2,20170614,CS018205000001,P050206001,990
3,20170614,CS018205000001,P060702015,108
4,20190216,CS018205000001,P071005024,102
5,20180414,CS018205000001,P071101002,278
6,20190226,CS018205000001,P070902035,168
7,20190924,CS018205000001,P060805001,495
8,20190226,CS018205000001,P071401020,2200
9,20180911,CS018205000001,P071401005,1100


---
> S-005: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [10]:
%%sql
select
    sales_ymd
    ,customer_id
    ,product_cd
    ,amount
from
    receipt
where
    customer_id = 'CS018205000001'
and
    amount > 1000
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
3 rows affected.


Unnamed: 0,sales_ymd,customer_id,product_cd,amount
0,20180911,CS018205000001,P071401012,2200
1,20190226,CS018205000001,P071401020,2200
2,20180911,CS018205000001,P071401005,1100


---
> S-006: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [12]:
%%sql
select
    sales_ymd
    ,customer_id
    ,product_cd
    ,quantity
    ,amount
from
    receipt
where
    customer_id = 'CS018205000001'
and
    amount > 1000
or
    quantity > 5
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
5 rows affected.


Unnamed: 0,sales_ymd,customer_id,product_cd,quantity,amount
0,20180911,CS018205000001,P071401012,1,2200
1,20180414,CS018205000001,P060104007,6,600
2,20190610,CS037414000080,P090401002,8,640
3,20190226,CS018205000001,P071401020,1,2200
4,20180911,CS018205000001,P071401005,1,1100


---
> S-007: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [13]:
%%sql
select
    sales_ymd
    ,customer_id
    ,product_cd
    ,amount
from
    receipt
where
    customer_id = 'CS018205000001'
and
    amount between 1000 and 2000
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
1 rows affected.


Unnamed: 0,sales_ymd,customer_id,product_cd,amount
0,20180911,CS018205000001,P071401005,1100


---
> S-008: レシート明細データ（receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [14]:
%%sql
select
    sales_ymd
    ,customer_id
    ,product_cd
    ,amount
from
    receipt
where
    customer_id = 'CS018205000001'
and
    product_cd <> 'P071401019'
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
12 rows affected.


Unnamed: 0,sales_ymd,customer_id,product_cd,amount
0,20180911,CS018205000001,P071401012,2200
1,20180414,CS018205000001,P060104007,600
2,20170614,CS018205000001,P050206001,990
3,20170614,CS018205000001,P060702015,108
4,20190216,CS018205000001,P071005024,102
5,20180414,CS018205000001,P071101002,278
6,20190226,CS018205000001,P070902035,168
7,20190924,CS018205000001,P060805001,495
8,20190226,CS018205000001,P071401020,2200
9,20180911,CS018205000001,P071401005,1100


---
> S-009: 以下の処理において、出力結果を変えずにORをANDに書き換えよ。
>
> `SELECT * FROM store WHERE NOT (prefecture_cd = '13' OR floor_area > 900)`

In [16]:
%%sql
select
    *
from
    store
where
    prefecture_cd <> '13'
and
    floor_area <= '900'
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
3 rows affected.


Unnamed: 0,store_cd,store_name,prefecture_cd,prefecture,address,address_kana,tel_no,longitude,latitude,floor_area
0,S14046,北山田店,14,神奈川県,神奈川県横浜市都筑区北山田一丁目,カナガワケンヨコハマシツヅキクキタヤマタイッチョウメ,045-123-4049,139.5916,35.56189,831.0
1,S14011,日吉本町店,14,神奈川県,神奈川県横浜市港北区日吉本町四丁目,カナガワケンヨコハマシコウホククヒヨシホンチョウヨンチョウメ,045-123-4033,139.6316,35.54655,890.0
2,S12013,習志野店,12,千葉県,千葉県習志野市芝園一丁目,チバケンナラシノシシバゾノイッチョウメ,047-123-4002,140.022,35.66122,808.0


---
> S-010: 店舗データ（store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、10件表示せよ。

In [18]:
%%sql
select
    store_cd
from
    store
where
    store_cd like 'S14%'
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,store_cd
0,S14010
1,S14033
2,S14036
3,S14040
4,S14050
5,S14028
6,S14012
7,S14046
8,S14022
9,S14011


---
> S-011: 顧客データ（customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、10件表示せよ。

In [20]:
%%sql
select
    customer_id
from
    customer
where
    customer_id like '%1'
limit
    10;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id
0,CS037613000071
1,CS028811000001
2,CS040412000191
3,CS028314000011
4,CS039212000051
5,CS015412000111
6,CS004702000041
7,CS041515000001
8,CS029313000221
9,CS034312000071


---
> S-012: 店舗データ（store）から、住所 (address) に"横浜市"が含まれるものだけ全項目表示せよ。

In [21]:
%%sql
select
    address
from
    store
where
    address like '%横浜市%'
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
11 rows affected.


Unnamed: 0,address
0,神奈川県横浜市港北区菊名一丁目
1,神奈川県横浜市瀬谷区阿久和西一丁目
2,神奈川県横浜市緑区長津田みなみ台五丁目
3,神奈川県横浜市瀬谷区阿久和西一丁目
4,神奈川県横浜市瀬谷区二ツ橋町
5,神奈川県横浜市中区本牧和田
6,神奈川県横浜市都筑区北山田一丁目
7,神奈川県横浜市港北区日吉本町四丁目
8,神奈川県横浜市都筑区中川中央二丁目
9,神奈川県横浜市中区新山下二丁目


---
> S-013: 顧客データ（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、10件表示せよ。

In [2]:
%%sql
select
    status_cd
from
    customer
where
     substring(status_cd, 1, 1) between 'A' and 'F'
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,status_cd
0,D-20100325-C
1,B-20100609-B
2,C-20100421-9
3,D-20100918-E
4,F-20101029-F
5,F-20100511-E
6,B-20100820-C
7,F-20100917-E
8,F-20100326-E
9,F-20100622-F


---
> S-014: 顧客データ（customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [4]:
%%sql
select
    status_cd
from
    customer
where
    right(status_cd,1) between '1' and '9'
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,status_cd
0,6-20090929-2
1,6-20080506-5
2,C-20100421-9
3,1-20091025-4
4,5-20080322-1
5,4-20080219-3
6,5-20100524-9
7,8-20100711-9
8,1-20100804-1
9,2-20080426-4


---
> S-015: 顧客データ（customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、10件表示せよ。

In [5]:
%%sql
select
    status_cd
from
    customer
where
    substring(status_cd, 1, 1) between 'A' and 'F'
and
    right(status_cd,1) between '1' and '9'
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,status_cd
0,C-20100421-9
1,A-20091115-7
2,A-20100724-7
3,B-20100329-6
4,B-20081021-3
5,A-20100211-2
6,B-20101018-6
7,C-20100127-8
8,A-20100104-1
9,A-20100103-5


---
> S-016: 店舗データ（store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [29]:
%%sql
select
    tel_no
from
    store
where
    tel_no like '___-___-____'
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
34 rows affected.


Unnamed: 0,tel_no
0,043-123-4003
1,042-123-4008
2,045-123-4032
3,045-123-4043
4,042-123-4045
5,045-123-4046
6,045-123-4053
7,042-123-4030
8,045-123-4042
9,045-123-4034


---
> S-017: 顧客データ（customer）を生年月日（birth_day）で高齢順にソートし、先頭から全項目を10件表示せよ。

In [11]:
%%sql
select
    birth_day
from
    customer
order by
    birth_day
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,birth_day
0,1928-11-26
1,1928-12-14
2,1929-01-07
3,1929-01-12
4,1929-01-15
5,1929-01-28
6,1929-02-22
7,1929-04-08
8,1929-04-09
9,1929-04-09


---
> S-018: 顧客データ（customer）を生年月日（birth_day）で若い順にソートし、先頭から全項目を10件表示せよ。

In [12]:
%%sql
select
    birth_day
from
    customer
order by
    birth_day desc
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,birth_day
0,2007-11-25
1,2007-10-02
2,2007-09-17
3,2007-08-09
4,2007-06-03
5,2007-04-18
6,2007-03-30
7,2007-03-22
8,2007-03-10
9,2007-03-05


---
> S-019: レシート明細データ（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

In [15]:
%%sql
select
    customer_id
    ,amount
    ,rank() over (order by amount desc)
from
    receipt
order by
    amount desc
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,amount,rank
0,CS011415000006,10925,1
1,ZZ000000000000,6800,2
2,CS028605000002,5780,3
3,ZZ000000000000,5480,4
4,ZZ000000000000,5480,4
5,CS015515000034,5480,4
6,ZZ000000000000,5440,7
7,CS021515000089,5440,7
8,ZZ000000000000,5280,9
9,CS001412000160,5280,9


---
> S-020: レシート明細データ（receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

In [16]:
%%sql
select
    customer_id
    ,amount
from
    receipt
order by
    amount desc
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,amount
0,CS011415000006,10925
1,ZZ000000000000,6800
2,CS028605000002,5780
3,ZZ000000000000,5480
4,ZZ000000000000,5480
5,CS015515000034,5480
6,CS021515000089,5440
7,ZZ000000000000,5440
8,ZZ000000000000,5280
9,CS020515000102,5280


---
> S-021: レシート明細データ（receipt）に対し、件数をカウントせよ。

In [17]:
%%sql
select
    count(*)
from
   receipt
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
1 rows affected.


Unnamed: 0,count
0,104681


---
> S-022: レシート明細データ（receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [18]:
%%sql
select
    count(distinct customer_id)
from
   receipt
;


 * postgresql://padwan:***@localhost:5432/dsdojo_db
1 rows affected.


Unnamed: 0,count
0,8307


---
> S-023: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [19]:
%%sql
select
    store_cd
    ,sum(amount)
    ,sum(quantity)
from
    receipt
group by
    store_cd
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
52 rows affected.


Unnamed: 0,store_cd,sum,sum.1
0,S12007,638761,2099
1,S13017,748221,2376
2,S13043,587895,1881
3,S13052,100314,250
4,S13016,793773,2432
5,S14027,714550,2303
6,S13009,808870,2486
7,S14022,651328,2047
8,S13019,827833,2541
9,S13039,611888,1981


---
> S-024: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）を求め、10件表示せよ。

In [20]:
%%sql
select
    customer_id
    ,max(sales_ymd)
from
    receipt
group by
    customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,max
0,CS001311000059,20180211
1,CS004614000122,20181228
2,CS003512000043,20180106
3,CS011615000061,20190503
4,CS029212000033,20180621
5,CS007515000119,20190511
6,CS034515000123,20190708
7,CS004315000058,20170517
8,CS026414000014,20190720
9,CS001615000099,20170729


---
> S-025: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も古い売上年月日（sales_ymd）を求め、10件表示せよ。

In [21]:
%%sql
select
    customer_id
    ,min(sales_ymd)
from
    receipt
group by
    customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,min
0,CS001311000059,20180211
1,CS004614000122,20181228
2,CS003512000043,20180106
3,CS011615000061,20190503
4,CS029212000033,20170318
5,CS007515000119,20170201
6,CS034515000123,20170527
7,CS004315000058,20170517
8,CS026414000014,20170718
9,CS001615000099,20170729


---
> S-026: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）と古い売上年月日を求め、両者が異なるデータを10件表示せよ。

In [22]:
%%sql
select
    customer_id
    ,max(sales_ymd)
    ,min(sales_ymd)
from
    receipt
group by
    customer_id
having
    max(sales_ymd) <> min(sales_ymd)
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,max,min
0,CS029212000033,20180621,20170318
1,CS007515000119,20190511,20170201
2,CS034515000123,20190708,20170527
3,CS026414000014,20190720,20170718
4,CS010515000082,20181204,20180518
5,CS019315000045,20170920,20170423
6,CS008513000099,20190308,20170722
7,CS007615000070,20191025,20170929
8,CS025415000155,20191026,20170314
9,CS016414000063,20190617,20170109


---
> S-027: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [29]:
%%sql
select
    store_cd
    ,avg(amount)
from
    receipt
group by
    store_cd
order by
    avg(amount) desc
limit
    5
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
5 rows affected.


Unnamed: 0,store_cd,avg
0,S13052,402.86746987951807
1,S13015,351.11196043165467
2,S13003,350.9155188246097
3,S14010,348.79126213592235
4,S13001,348.4703862660944


---
> S-028: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [27]:
%%sql
select
    store_cd
    ,median(amount)
from
    receipt
group by
    store_cd
order by
    median(amount) desc
limit
    5
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
(psycopg2.errors.UndefinedFunction) function med(integer) does not exist
LINE 3:     ,med(amount)
             ^
HINT:  No function matches the given name and argument types. You might need to add explicit type casts.

[SQL: select
    store_cd
    ,med(amount)
from
    receipt
group by
    store_cd
order by
    med(amount) desc
limit
    5
;]
(Background on this error at: https://sqlalche.me/e/20/f405)


---
> S-029: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求め、10件表示させよ。

In [32]:
%%sql
select
    store_cd
    ,mode() within group (order by product_cd)
from
    receipt
group by
    store_cd
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,store_cd,mode
0,S12007,P060303001
1,S12013,P060303001
2,S12014,P060303001
3,S12029,P060303001
4,S12030,P060303001
5,S13001,P060303001
6,S13002,P060303001
7,S13003,P071401001
8,S13004,P060303001
9,S13005,P040503001


---
> S-030: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の分散を計算し、降順で5件表示せよ。

In [33]:
%%sql
select
    store_cd
    ,variance(amount)
from
    receipt
group by
    store_cd
order by
    variance(amount) desc
limit
    5
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
5 rows affected.


Unnamed: 0,store_cd,variance
0,S13052,441863.252526234
1,S14011,306442.24243156874
2,S14034,297068.39274006075
3,S13001,295558.8426177125
4,S13015,295427.1970858536


---
> S-031: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標準偏差を計算し、降順で5件表示せよ。

In [34]:
%%sql
select
    store_cd
    ,stddev(amount)
from
    receipt
group by
    store_cd
order by
    stddev(amount) desc
limit
    5
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
5 rows affected.


Unnamed: 0,store_cd,stddev
0,S13052,664.727953772244
1,S14011,553.57225583619
2,S14034,545.039808399406
3,S13001,543.65323747561
4,S13015,543.532149082144


---
> S-032: レシート明細データ（receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [36]:
%%sql
select
     percentile_cont(0.25) within group (order by amount)
from
    receipt
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
1 rows affected.


Unnamed: 0,percentile_cont
0,102.0


---
> S-033: レシート明細データ（receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [37]:
%%sql
select
    store_cd
    ,avg(amount)
from
    receipt
group by
    store_cd
having
    avg(amount) >= 330
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
13 rows affected.


Unnamed: 0,store_cd,avg
0,S13052,402.86746987951807
1,S13019,330.2086158755485
2,S13003,350.9155188246097
3,S14045,330.0820734341253
4,S13004,330.943949044586
5,S13001,348.4703862660944
6,S14026,332.34058847239015
7,S14010,348.79126213592235
8,S13015,351.11196043165467
9,S12013,330.19412997903567


---
> S-034: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [38]:
%%sql
select
     customer_id
    ,sum(amount)
from
    receipt
where
    customer_id not like 'Z%'
group by
    customer_id
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
8306 rows affected.


Unnamed: 0,customer_id,sum
0,CS001311000059,2302
1,CS004614000122,248
2,CS003512000043,298
3,CS011615000061,246
4,CS029212000033,3604
...,...,...
8301,CS023414000087,6171
8302,CS002513000310,202
8303,CS019415000216,2351
8304,CS015415000068,12315


---
> S-035: レシート明細データ（receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出し、10件表示せよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [40]:
%%sql
select
    customer_id
    ,sum(amount)
from
    receipt
where
    customer_id not like 'Z%'
group by
    customer_id
having
    sum(amount) >= (
                    select
                        avg(sum(amount))
                    from
                        receipt
                    where
                        customer_id not like 'Z%'
                    group by customer_id
                    )
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
(psycopg2.errors.GroupingError) aggregate function calls cannot be nested
LINE 13:                         avg(sum(amount)) 
                                     ^

[SQL: select
    customer_id
    ,sum(amount)
from
    receipt
where
    customer_id not like 'Z%%'
group by
    customer_id
having
    sum(amount) >= (
                    select
                        avg(sum(amount)) 
                    from 
                        receipt 
                    where 
                        customer_id not like 'Z%%' 
                    group by customer_id
                    )
limit
    10
;]
(Background on this error at: https://sqlalche.me/e/20/f405)


---
> S-036: レシート明細データ（receipt）と店舗データ（store）を内部結合し、レシート明細データの全項目と店舗データの店舗名（store_name）を10件表示せよ。

In [42]:
%%sql
select
    a.*
    ,b.store_name
from
    receipt as a
inner join
    store as b
on
    a.store_cd = b.store_cd
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,sales_ymd,sales_epoch,store_cd,receipt_no,receipt_sub_no,customer_id,product_cd,quantity,amount,store_name
0,20181103,1541203200,S14006,112,1,CS006214000001,P070305012,1,158,葛が谷店
1,20181118,1542499200,S13008,1132,2,CS008415000097,P070701017,1,81,成城店
2,20170712,1499817600,S14028,1102,1,CS028414000014,P060101005,1,170,二ツ橋店
3,20190205,1549324800,S14042,1132,1,ZZ000000000000,P050301001,1,25,新山下店
4,20180821,1534809600,S14025,1102,2,CS025415000050,P060102007,1,90,大和店
5,20190605,1559692800,S13003,1112,1,CS003515000195,P050102002,1,138,狛江店
6,20181205,1543968000,S14024,1102,2,CS024514000042,P080101005,1,30,三田店
7,20190922,1569110400,S14040,1102,1,CS040415000178,P070501004,1,128,長津田店
8,20170504,1493856000,S13020,1112,2,ZZ000000000000,P071302010,1,770,十条仲原店
9,20191010,1570665600,S14027,1102,1,CS027514000015,P071101003,1,680,南藤沢店


---
> S-037: 商品データ（product）とカテゴリデータ（category）を内部結合し、商品データの全項目とカテゴリデータのカテゴリ小区分名（category_small_name）を10件表示せよ。

In [43]:
%%sql
select
    *
    ,b.category_small_name
from
    product as a
inner join
    category as b
on
    a.category_small_cd = b.category_small_cd
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,product_cd,category_major_cd,category_medium_cd,category_small_cd,unit_price,unit_cost,category_major_cd.1,category_major_name,category_medium_cd.1,category_medium_name,category_small_cd.1,category_small_name,category_small_name.1
0,P040101001,4,401,40101,198,149,4,惣菜,401,御飯類,40101,弁当類,弁当類
1,P040101002,4,401,40101,218,164,4,惣菜,401,御飯類,40101,弁当類,弁当類
2,P040101003,4,401,40101,230,173,4,惣菜,401,御飯類,40101,弁当類,弁当類
3,P040101004,4,401,40101,248,186,4,惣菜,401,御飯類,40101,弁当類,弁当類
4,P040101005,4,401,40101,268,201,4,惣菜,401,御飯類,40101,弁当類,弁当類
5,P040101006,4,401,40101,298,224,4,惣菜,401,御飯類,40101,弁当類,弁当類
6,P040101007,4,401,40101,338,254,4,惣菜,401,御飯類,40101,弁当類,弁当類
7,P040101008,4,401,40101,420,315,4,惣菜,401,御飯類,40101,弁当類,弁当類
8,P040101009,4,401,40101,498,374,4,惣菜,401,御飯類,40101,弁当類,弁当類
9,P040101010,4,401,40101,580,435,4,惣菜,401,御飯類,40101,弁当類,弁当類


---
> S-038: 顧客データ（customer）とレシート明細データ（receipt）から、顧客ごとの売上金額合計を求め、10件表示せよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [8]:
%%sql
select
    a.customer_id
    ,sum(coalesce(b.amount,0))
from
    customer a
left join
    receipt b
on
    a.customer_id = b.customer_id
where
    a.customer_id not like 'Z%'
and
    a.gender_cd = '1'
group by
    a.customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,sum
0,CS004412000425,0
1,CS007512000199,0
2,CS002712000064,0
3,CS039515000243,0
4,CS001615000099,768
5,CS010515000082,1482
6,CS019315000045,813
7,CS008513000099,1322
8,CS007615000070,2975
9,CS029511000005,0


---
> S-039: レシート明細データ（receipt）から、売上日数の多い顧客の上位20件を抽出したデータと、売上金額合計の多い顧客の上位20件を抽出したデータをそれぞれ作成し、さらにその2つを完全外部結合せよ。ただし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [11]:
%%sql
(select
    customer_id
    ,count(distinct sales_ymd)
from
    receipt
where
    customer_id not like 'Z%'
group by
    customer_id
order by
    count(distinct sales_ymd) desc
limit
    20)
union
(select
    customer_id
    ,sum(coalesce(amount,0))
from
    receipt
where
    customer_id not like 'Z%'
group by
    customer_id
order by
    sum(coalesce(amount,0)) desc
limit
    20)
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
40 rows affected.


Unnamed: 0,customer_id,count
0,CS021515000172,19
1,CS017415000097,23086
2,CS032415000209,18
3,CS010214000010,18585
4,CS017415000097,20
5,CS031414000073,18
6,CS001605000009,18925
7,CS014214000023,19
8,CS010214000002,21
9,CS030415000034,15468


---
> S-040: 全ての店舗と全ての商品を組み合わせたデータを作成したい。店舗データ（store）と商品データ（product）を直積し、件数を計算せよ。

In [13]:
%%sql
select
    count(*)
from
    store
cross join
    product
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
1 rows affected.


Unnamed: 0,count
0,531590


---
> S-041: レシート明細データ（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前回売上があった日からの売上金額増減を計算せよ。そして結果を10件表示せよ。

In [17]:
%%sql
select
    sales_ymd
    ,amount
    ,amount - lag(amount,1) over (order by sales_ymd)
from
    receipt
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,sales_ymd,amount,?column?
0,20170101,180,
1,20170101,198,18.0
2,20170101,138,-60.0
3,20170101,110,-28.0
4,20170101,338,228.0
5,20170101,2400,2062.0
6,20170101,98,-2302.0
7,20170101,98,0.0
8,20170101,80,-18.0
9,20170101,60,-20.0


---
> S-042: レシート明細データ（receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、前回、前々回、3回前に売上があった日のデータを結合せよ。そして結果を10件表示せよ。

In [18]:
%%sql
select
    sales_ymd
    ,amount
    ,lag(amount,1) over (order by sales_ymd)
    ,lag(amount,2) over (order by sales_ymd)
    ,lag(amount,3) over (order by sales_ymd)
from
    receipt
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,sales_ymd,amount,lag,lag.1,lag.2
0,20170101,180,,,
1,20170101,198,180.0,,
2,20170101,138,198.0,180.0,
3,20170101,110,138.0,198.0,180.0
4,20170101,338,110.0,138.0,198.0
5,20170101,2400,338.0,110.0,138.0
6,20170101,98,2400.0,338.0,110.0
7,20170101,98,98.0,2400.0,338.0
8,20170101,80,98.0,98.0,2400.0
9,20170101,60,80.0,98.0,98.0


---
> S-043: レシート明細データ（receipt）と顧客データ（customer）を結合し、性別コード（gender_cd）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリデータを作成せよ。性別コードは0が男性、1が女性、9が不明を表すものとする。
>
> ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [28]:
%%sql
select
   floor(a.age / 10) * 10 as "age_group"
   ,sum(case when a.gender_cd = '1' then b.amount else 0 end) as "女性"
   ,sum(case when a.gender_cd = '0' then b.amount else 0 end) as "男性"
   ,sum(case when a.gender_cd = '9' then b.amount else 0 end) as "不明"
from
    receipt b
left join
    customer a
on
    b.customer_id = a.customer_id
group by
    floor(a.age / 10) * 10
order by
    floor(a.age / 10) * 10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,age_group,女性,男性,不明
0,10.0,149836,1591,4317
1,20.0,1363724,72940,44328
2,30.0,693047,177322,50441
3,40.0,9320791,19355,483512
4,50.0,6685192,54320,342923
5,60.0,987741,272469,71418
6,70.0,29764,13435,2427
7,80.0,262923,46360,5111
8,90.0,6260,0,0
9,,0,0,0


---
> S-044: 043で作成した売上サマリデータ（sales_summary）は性別の売上を横持ちさせたものであった。このデータから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を"00"、女性を"01"、不明を"99"とする。    
>> **※ Colaboratoryで演習を再開したときは、解答前にS-043の解答を実行して下さい**

In [35]:
%%sql
with sales_summary
as
(
select
    floor(a.age::numeric / 10) * 10 as "年代"
    ,case a.gender_cd
     when '0' then '00'
     when '1' then '01'
     when '9' then '99'
     end as "性別コード"
    ,b.amount
from
    receipt b
join
    customer a
on
    b.customer_id = a.customer_id
)
select
    "年代"
   ,"性別コード"
   ,sum(amount) as "売上金額"
from
    sales_summary
where
    "性別コード" is not null
group by
    "年代"
   ,"性別コード"
order by
    "年代"
   ,"性別コード"
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
25 rows affected.


Unnamed: 0,年代,性別コード,売上金額
0,10,0,1591
1,10,1,149836
2,10,99,4317
3,20,0,72940
4,20,1,1363724
5,20,99,44328
6,30,0,177322
7,30,1,693047
8,30,99,50441
9,40,0,19355


---
> S-045: 顧客データ（customer）の生年月日（birth_day）は日付型でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [40]:
%%sql
select
    customer_id
   ,to_char(birth_day,'YYYYMMDD')
from
    customer
order by
    customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,to_char
0,CS001105000001,20000114
1,CS001112000009,20060824
2,CS001112000019,20010131
3,CS001112000021,20011215
4,CS001112000023,20040126
5,CS001112000024,20010116
6,CS001112000029,20050124
7,CS001112000030,20030302
8,CS001113000004,20030222
9,CS001113000010,20050509


---
> S-046: 顧客データ（customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [41]:
%%sql
select
    customer_id
   ,to_date(application_date,'YYYYMMDD')
from
    customer
order by
    customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,to_date
0,CS001105000001,2017-03-10
1,CS001112000009,2015-07-03
2,CS001112000019,2017-02-07
3,CS001112000021,2017-06-12
4,CS001112000023,2017-07-24
5,CS001112000024,2016-11-06
6,CS001112000029,2017-03-22
7,CS001112000030,2017-06-11
8,CS001113000004,2015-11-05
9,CS001113000010,2015-11-20


---
> S-047: レシート明細データ（receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [44]:
%%sql
select
    receipt_no
    ,receipt_sub_no
    ,to_date(sales_ymd::text,'YYYYMMDD')
from
    receipt
order by
    receipt_no
    ,receipt_sub_no
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,receipt_no,receipt_sub_no,to_date
0,112,1,2019-03-22
1,112,1,2017-07-30
2,112,1,2019-07-18
3,112,1,2017-05-31
4,112,1,2019-10-31
5,112,1,2017-08-29
6,112,1,2018-11-03
7,112,1,2019-03-26
8,112,1,2018-03-10
9,112,1,2018-08-05


---
> S-048: レシート明細データ（receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [46]:
%%sql
select
    receipt_no
    ,receipt_sub_no
    ,to_timestamp(sales_epoch)
from
    receipt
order by
    receipt_no
    ,receipt_sub_no
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,receipt_no,receipt_sub_no,to_timestamp
0,112,1,2019-03-22 00:00:00+00:00
1,112,1,2017-07-30 00:00:00+00:00
2,112,1,2019-07-18 00:00:00+00:00
3,112,1,2017-05-31 00:00:00+00:00
4,112,1,2019-10-31 00:00:00+00:00
5,112,1,2017-08-29 00:00:00+00:00
6,112,1,2018-11-03 00:00:00+00:00
7,112,1,2019-03-26 00:00:00+00:00
8,112,1,2018-03-10 00:00:00+00:00
9,112,1,2018-08-05 00:00:00+00:00


---
> S-049: レシート明細データ（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「年」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [47]:
%%sql
select
    receipt_no
    ,receipt_sub_no
    ,to_char(to_timestamp(sales_epoch),'YYYY')
from
    receipt
order by
    receipt_no
    ,receipt_sub_no
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,receipt_no,receipt_sub_no,to_char
0,112,1,2019
1,112,1,2017
2,112,1,2019
3,112,1,2017
4,112,1,2019
5,112,1,2017
6,112,1,2018
7,112,1,2019
8,112,1,2018
9,112,1,2018


---
> S-050: レシート明細データ（receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「月」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「月」は0埋め2桁で取り出すこと。

In [48]:
%%sql
select
    receipt_no
    ,receipt_sub_no
    ,to_char(to_timestamp(sales_epoch),'MM')
from
    receipt
order by
    receipt_no
    ,receipt_sub_no
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,receipt_no,receipt_sub_no,to_char
0,112,1,3
1,112,1,7
2,112,1,7
3,112,1,5
4,112,1,10
5,112,1,8
6,112,1,11
7,112,1,3
8,112,1,3
9,112,1,8


---
> S-051: レシート明細データ（receipt）の売上エポック秒を日付型に変換し、「日」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「日」は0埋め2桁で取り出すこと。

In [49]:
%%sql
select
    receipt_no
    ,receipt_sub_no
    ,to_char(to_timestamp(sales_epoch),'DD')
from
    receipt
order by
    receipt_no
    ,receipt_sub_no
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,receipt_no,receipt_sub_no,to_char
0,112,1,22
1,112,1,30
2,112,1,18
3,112,1,31
4,112,1,31
5,112,1,29
6,112,1,3
7,112,1,26
8,112,1,10
9,112,1,5


---
> S-052: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2,000円以下を0、2,000円より大きい金額を1に二値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [51]:
%%sql
select
    customer_id
    ,sum(amount)
    ,case when sum(amount) > 2000
    then 1
    else 0 end
from
    receipt
where
    customer_id not like 'Z%'
group by
    customer_id
order by
    customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,sum,case
0,CS001113000004,1298,0
1,CS001114000005,626,0
2,CS001115000010,3044,1
3,CS001205000004,1988,0
4,CS001205000006,3337,1
5,CS001211000025,456,0
6,CS001212000027,448,0
7,CS001212000031,296,0
8,CS001212000046,228,0
9,CS001212000070,456,0


---
> S-053: 顧客データ（customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に二値化せよ。さらにレシート明細データ（receipt）と結合し、全期間において売上実績のある顧客数を、作成した二値ごとにカウントせよ。

In [54]:
%%sql
select
  case
    when left(a.postal_cd,3)::int between 100 and 209
    then 1
    else 0
    end as "地域"
   ,count(distinct a.customer_id)
from
    customer a
join
    receipt b
on
    a.customer_id = b.customer_id
group by
    "地域"
order by
    "地域"
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
2 rows affected.


Unnamed: 0,地域,count
0,0,3906
1,1,4400


---
> S-054: 顧客データ（customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに10件表示せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。

In [57]:
%%sql
select
    customer_id
   ,address
   ,case
    when address like '埼玉県%'   then 11
    when address like '千葉県%'   then 12
    when address like '東京都%'   then 13
    when address like '神奈川県%' then 14
    else null
    end as "地域"
from
    customer
order by
    customer_id
limit
    10
;


 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,address,地域
0,CS001105000001,東京都大田区西六郷**********,13
1,CS001112000009,東京都大田区西馬込**********,13
2,CS001112000019,東京都大田区昭和島**********,13
3,CS001112000021,東京都大田区西六郷**********,13
4,CS001112000023,東京都大田区昭和島**********,13
5,CS001112000024,東京都大田区西六郷**********,13
6,CS001112000029,東京都大田区西六郷**********,13
7,CS001112000030,東京都大田区西六郷**********,13
8,CS001113000004,東京都大田区西六郷**********,13
9,CS001113000010,東京都大田区西六郷**********,13


---
> S-055: レシート明細（receipt）データの売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに10件表示せよ。カテゴリ値は順に1〜4とする。
>
> - 最小値以上第1四分位未満 ・・・ 1を付与
> - 第1四分位以上第2四分位未満 ・・・ 2を付与
> - 第2四分位以上第3四分位未満 ・・・ 3を付与
> - 第3四分位以上 ・・・ 4を付与

In [61]:
%%sql
with a as (
  select
      customer_id
     ,sum(amount) as total_amount
  from
      receipt
  group by
      customer_id
)
select
    customer_id
   ,total_amount
   ,ntile(4) over (order by total_amount)
from
    a
order by
    customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,total_amount,ntile
0,CS001113000004,1298,2
1,CS001114000005,626,2
2,CS001115000010,3044,3
3,CS001205000004,1988,3
4,CS001205000006,3337,3
5,CS001211000025,456,1
6,CS001212000027,448,1
7,CS001212000031,296,1
8,CS001212000046,228,1
9,CS001212000070,456,1


---
> S-056: 顧客データ（customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに10件表示せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。

In [66]:
%%sql
select
    customer_id
    ,birth_day
    ,age
    ,case
        when age < 10 then '0代'
        when age < 20 then '10代'
        when age < 30 then '20代'
        when age < 40 then '30代'
        when age < 50 then '40代'
        when age < 60 then '50代'
        else '60代'
        end as "年代"
from
    customer
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,birth_day,age,年代
0,CS021313000114,1981-04-29,37,30代
1,CS037613000071,1952-04-01,66,60代
2,CS031415000172,1976-10-04,42,40代
3,CS028811000001,1933-03-27,86,60代
4,CS001215000145,1995-03-29,24,20代
5,CS020401000016,1974-09-15,44,40代
6,CS015414000103,1977-08-09,41,40代
7,CS029403000008,1973-08-17,45,40代
8,CS015804000004,1931-05-02,87,60代
9,CS033513000180,1962-07-11,56,50代


---
> S-057: 056の抽出結果と性別コード（gender_cd）により、新たに性別×年代の組み合わせを表すカテゴリデータを作成し、10件表示せよ。組み合わせを表すカテゴリの値は任意とする。

In [68]:
%%sql
select
    customer_id
   ,birth_day
   ,case
        when age < 10 then '0代'
        when age < 20 then '10代'
        when age < 30 then '20代'
        when age < 40 then '30代'
        when age < 50 then '40代'
        when age < 60 then '50代'
        else '60代'
        end as "年代"
   ,gender_cd
   ,concat(
        gender_cd, '×',
        case
            when age < 10 then '0代'
            when age < 20 then '10代'
            when age < 30 then '20代'
            when age < 40 then '30代'
            when age < 50 then '40代'
            when age < 60 then '50代'
            else '60代'
        end
    ) as "性別×年代"
from
    customer
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,birth_day,年代,gender_cd,性別×年代
0,CS021313000114,1981-04-29,30代,1,1×30代
1,CS037613000071,1952-04-01,60代,9,9×60代
2,CS031415000172,1976-10-04,40代,1,1×40代
3,CS028811000001,1933-03-27,60代,1,1×60代
4,CS001215000145,1995-03-29,20代,1,1×20代
5,CS020401000016,1974-09-15,40代,0,0×40代
6,CS015414000103,1977-08-09,40代,1,1×40代
7,CS029403000008,1973-08-17,40代,0,0×40代
8,CS015804000004,1931-05-02,60代,0,0×60代
9,CS033513000180,1962-07-11,50代,1,1×50代


---
> S-058: 顧客データ（customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに10件表示せよ。

In [69]:
%%sql
select
    customer_id
  , gender_cd
  , case gender_cd
        when '0' then 1
        when '1' then 0
        else null end
from
    customer
order by
    customer_id
limit 10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,gender_cd,gender_dummy
0,CS001105000001,0,1
1,CS001112000009,1,0
2,CS001112000019,1,0
3,CS001112000021,1,0
4,CS001112000023,1,0
5,CS001112000024,1,0
6,CS001112000029,1,0
7,CS001112000030,1,0
8,CS001113000004,1,0
9,CS001113000010,1,0


---
> S-059: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに10件表示せよ。標準化に使用する標準偏差は、分散の平方根、もしくは不偏分散の平方根のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [71]:
%%sql
select
    customer_id
   ,sum(amount) as "売上金額合計"
   ,(sum(amount) - avg(sum(amount)) over())
    /stddev_samp(sum(amount)) over() as "標準化"
from
    receipt
where
    customer_id not like 'Z%'
group by
    customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,売上金額合計,標準化
0,CS001311000059,2302,-0.0903240267170229
1,CS004614000122,248,-0.8452840002525365
2,CS003512000043,298,-0.8269062014809807
3,CS011615000061,246,-0.8460191122033986
4,CS029212000033,3604,0.3882338532942909
5,CS007515000119,7157,1.6941602340010484
6,CS034515000123,3699,0.423151670960247
7,CS004315000058,490,-0.7563354541982062
8,CS026414000014,6671,1.5155280299415257
9,CS001615000099,768,-0.6541548930283558


---
> S-060: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [76]:
%%sql
select
     customer_id
    ,sum(amount) as "売上金額合計"
    ,(sum(amount) - min(sum(amount)) over())
    /(max(sum(amount)) over() - min(sum(amount)) over()) as "正規化"
from
    receipt
where
    customer_id not like 'z%'
group by
    customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,total_amount,?column?
0,CS001113000004,1298,0
1,CS001114000005,626,0
2,CS001115000010,3044,0
3,CS001205000004,1988,0
4,CS001205000006,3337,0
5,CS001211000025,456,0
6,CS001212000027,448,0
7,CS001212000031,296,0
8,CS001212000046,228,0
9,CS001212000070,456,0


---
> S-061: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を常用対数化（底10）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [78]:
%%sql
select
    customer_id
    ,sum(amount) as "売上金額合計"
    ,log(10, sum(amount)) as "対数化"
from
    receipt
where
    customer_id not like 'Z%'
group by
    customer_id
limit
    10;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,売上金額合計,対数化
0,CS001311000059,2302,3.362105319293773
1,CS004614000122,248,2.3944516808262164
2,CS003512000043,298,2.4742162640762553
3,CS011615000061,246,2.3909351071033793
4,CS029212000033,3604,3.5567847823070253
5,CS007515000119,7157,3.8547310172139424
6,CS034515000123,3699,3.568084331315394
7,CS004315000058,490,2.6901960800285134
8,CS026414000014,6671,3.824190940652583
9,CS001615000099,768,2.885361220031512


---
> S-062: レシート明細データ（receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を自然対数化（底e）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [79]:
%%sql
select
    customer_id
    ,sum(amount) as "売上金額合計"
    ,ln(sum(amount)) as "自然対数化"
from
    receipt
where
    customer_id not like 'Z%'
group by
    customer_id
limit
    10;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,売上金額合計,自然対数化
0,CS001311000059,2302,7.741534
1,CS004614000122,248,5.513429
2,CS003512000043,298,5.697093
3,CS011615000061,246,5.505332
4,CS029212000033,3604,8.1898
5,CS007515000119,7157,8.875846
6,CS034515000123,3699,8.215818
7,CS004315000058,490,6.194405
8,CS026414000014,6671,8.805525
9,CS001615000099,768,6.64379


---
> S-063: 商品データ（product）の単価（unit_price）と原価（unit_cost）から各商品の利益額を算出し、結果を10件表示せよ。

In [82]:
%%sql
select
    (unit_price - unit_cost) as "利益額"
from
    product
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,利益額
0,2
1,2
2,2
3,2
4,2
5,2
6,2
7,3
8,3
9,3


---
> S-064: 商品データ（product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。ただし、単価と原価には欠損が生じていることに注意せよ。

In [84]:
%%sql
select
     avg((unit_price - unit_cost)/unit_price) as "平均利益率"
from
    product
where
    unit_price is not null
and
    unit_cost is not null
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
1 rows affected.


Unnamed: 0,平均利益率
0,0.0


---
> S-065: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [87]:
%%sql
select
    product_cd
    ,unit_cost as "原価"
    ,floor(unit_cost / 0.7) as "新単価"
    ,round((floor(unit_cost / 0.7) - unit_cost)
           /floor(unit_cost / 0.7) * 100,2) as "利益率"
from
    product
where
    unit_cost is not null
and
    unit_price is not null
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,product_cd,原価,新単価,利益率
0,P040101001,149,212,29.72
1,P040101002,164,234,29.91
2,P040101003,173,247,29.96
3,P040101004,186,265,29.81
4,P040101005,201,287,29.97
5,P040101006,224,320,30.0
6,P040101007,254,362,29.83
7,P040101008,315,450,30.0
8,P040101009,374,534,29.96
9,P040101010,435,621,29.95


---
> S-066: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を丸めること（四捨五入または偶数への丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [6]:
%%sql
select
    product_cd
    ,unit_cost
    ,round(unit_cost / 0.7, 0) as "新単価"
    ,round((round(unit_cost / 0.7, 0) - unit_cost)
           /round(unit_cost / 0.7, 0) * 100, 1) as "利益率"
from
    product
where
    unit_price is not null
and
    unit_cost is not null
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,product_cd,unit_cost,新単価,利益率
0,P040101001,149,213,30.0
1,P040101002,164,234,29.9
2,P040101003,173,247,30.0
3,P040101004,186,266,30.1
4,P040101005,201,287,30.0
5,P040101006,224,320,30.0
6,P040101007,254,363,30.0
7,P040101008,315,450,30.0
8,P040101009,374,534,30.0
9,P040101010,435,621,30.0


---
> S-067: 商品データ（product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [7]:
%%sql
select
    product_cd
    ,unit_cost
    ,ceil(unit_cost / 0.7) as "新単価"
    ,round((ceil(unit_cost / 0.7) - unit_cost)
           /ceil(unit_cost / 0.7) * 100, 1) as "利益率"
from
    product
where
    unit_price is not null
and
    unit_cost is not null
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,product_cd,unit_cost,新単価,利益率
0,P040101001,149,213,30.0
1,P040101002,164,235,30.2
2,P040101003,173,248,30.2
3,P040101004,186,266,30.1
4,P040101005,201,288,30.2
5,P040101006,224,320,30.0
6,P040101007,254,363,30.0
7,P040101008,315,450,30.0
8,P040101009,374,535,30.1
9,P040101010,435,622,30.1


---
> S-068: 商品データ（product）の各商品について、消費税率10％の税込み金額を求めよ。1円未満の端数は切り捨てとし、結果を10件表示せよ。ただし、単価（unit_price）には欠損が生じていることに注意せよ。

In [8]:
%%sql
select
    product_cd
    ,unit_price
    ,floor(unit_price * 1.1) as "税込価格"
from
    product
where
    unit_price is not null
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,product_cd,unit_price,税込価格
0,P040101001,198,217
1,P040101002,218,239
2,P040101003,230,253
3,P040101004,248,272
4,P040101005,268,294
5,P040101006,298,327
6,P040101007,338,371
7,P040101008,420,462
8,P040101009,498,547
9,P040101010,580,638


---
> S-069: レシート明細データ（receipt）と商品データ（product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分コード（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分コード"07"（瓶詰缶詰）の売上実績がある顧客のみとし、結果を10件表示せよ。

In [21]:
%%sql
select
    a.customer_id
   ,sum(a.amount) as "売上金額合計"
   ,sum(case when b.category_major_cd = '07'
        then a.amount
        else 0 end) as "瓶詰缶詰売上"
   ,round(sum(case when b.category_major_cd = '07'
              then a.amount
              else 0 end)
             /nullif(sum(a.amount)*1.00, 0),2) as "比率"
from
    receipt a
join
    product b
on
    a.product_cd = b.product_cd
group by
    a.customer_id
having
    sum(case when b.category_major_cd = '07'
        then a.amount
        else 0 end) > 0
order by
    a.customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,売上金額合計,瓶詰缶詰売上,比率
0,CS001113000004,1298,1298,1.0
1,CS001114000005,626,486,0.78
2,CS001115000010,3044,2694,0.89
3,CS001205000004,1988,346,0.17
4,CS001205000006,3337,2004,0.6
5,CS001212000027,448,200,0.45
6,CS001212000031,296,296,1.0
7,CS001212000046,228,108,0.47
8,CS001212000070,456,308,0.68
9,CS001213000018,243,145,0.6


---
> S-070: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [25]:
%%sql
select
    a.customer_id
   ,to_date(a.sales_ymd::text, 'yyyymmdd') as "売上日"
   ,to_date(b.application_date, 'yyyymmdd') as "会員申込日"
   ,(to_date(a.sales_ymd::text, 'yyyymmdd') - to_date(b.application_date, 'yyyymmdd')) as "経過日数"
from
    receipt a
join
    customer b
on
    a.customer_id = b.customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,売上日,会員申込日,経過日数
0,CS006214000001,2018-11-03,2015-02-01,1371
1,CS008415000097,2018-11-18,2015-03-22,1337
2,CS028414000014,2017-07-12,2015-07-11,732
3,CS025415000050,2018-08-21,2016-01-31,933
4,CS003515000195,2019-06-05,2015-03-06,1552
5,CS024514000042,2018-12-05,2015-10-10,1152
6,CS040415000178,2019-09-22,2015-06-27,1548
7,CS027514000015,2019-10-10,2015-11-01,1439
8,CS025415000134,2019-09-18,2015-07-20,1521
9,CS021515000126,2017-10-10,2015-05-08,886


---
> S-071: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [26]:
%%sql
select
    a.customer_id
   ,to_date(a.sales_ymd::text, 'yyyymmdd') as "売上日"
   ,to_date(b.application_date, 'yyyymmdd') as "会員申込日"
   ,(extract(year  from age(to_date(a.sales_ymd::text, 'yyyymmdd')
                           ,to_date(b.application_date, 'yyyymmdd'))) * 12
      + extract(month from age(to_date(a.sales_ymd::text, 'yyyymmdd')
                              ,to_date(b.application_date, 'yyyymmdd')))
    )::int as "経過月数"
from
    receipt a
join
    customer b
on
    a.customer_id = b.customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,売上日,会員申込日,経過月数
0,CS006214000001,2018-11-03,2015-02-01,45
1,CS008415000097,2018-11-18,2015-03-22,43
2,CS028414000014,2017-07-12,2015-07-11,24
3,CS025415000050,2018-08-21,2016-01-31,30
4,CS003515000195,2019-06-05,2015-03-06,50
5,CS024514000042,2018-12-05,2015-10-10,37
6,CS040415000178,2019-09-22,2015-06-27,50
7,CS027514000015,2019-10-10,2015-11-01,47
8,CS025415000134,2019-09-18,2015-07-20,49
9,CS021515000126,2017-10-10,2015-05-08,29


---
> S-072: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [30]:
%%sql
select
    a.customer_id
   ,to_date(a.sales_ymd::text, 'yyyymmdd') as "売上日"
   ,to_date(b.application_date, 'yyyymmdd') as "会員申込日"
   ,extract(year from age(to_date(a.sales_ymd::text, 'yyyymmdd')
                         ,to_date(b.application_date, 'yyyymmdd'))
           )::int as "経過年数"
from
    receipt a
join
    customer b
on
    a.customer_id = b.customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,売上日,会員申込日,経過年数
0,CS006214000001,2018-11-03,2015-02-01,3
1,CS008415000097,2018-11-18,2015-03-22,3
2,CS028414000014,2017-07-12,2015-07-11,2
3,CS025415000050,2018-08-21,2016-01-31,2
4,CS003515000195,2019-06-05,2015-03-06,4
5,CS024514000042,2018-12-05,2015-10-10,3
6,CS040415000178,2019-09-22,2015-06-27,4
7,CS027514000015,2019-10-10,2015-11-01,3
8,CS025415000134,2019-09-18,2015-07-20,4
9,CS021515000126,2017-10-10,2015-05-08,2


---
> S-073: レシート明細データ（receipt）の売上日（sales_ymd）に対し、顧客データ（customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [32]:
%%sql
select
    a.customer_id
   ,to_date(a.sales_ymd::text, 'yyyymmdd') as "売上日"
   ,to_date(b.application_date, 'yyyymmdd') as "会員申込日"
   ,extract(epoch from (to_date(a.sales_ymd::text, 'yyyymmdd')::timestamp
                      - to_date(b.application_date, 'yyyymmdd')::timestamp)
            )::bigint as "経過秒数"
from
    receipt a
join
    customer b
on
    a.customer_id = b.customer_id
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,売上日,会員申込日,経過秒数
0,CS006214000001,2018-11-03,2015-02-01,118454400
1,CS008415000097,2018-11-18,2015-03-22,115516800
2,CS028414000014,2017-07-12,2015-07-11,63244800
3,CS025415000050,2018-08-21,2016-01-31,80611200
4,CS003515000195,2019-06-05,2015-03-06,134092800
5,CS024514000042,2018-12-05,2015-10-10,99532800
6,CS040415000178,2019-09-22,2015-06-27,133747200
7,CS027514000015,2019-10-10,2015-11-01,124329600
8,CS025415000134,2019-09-18,2015-07-20,131414400
9,CS021515000126,2017-10-10,2015-05-08,76550400


---
> S-074: レシート明細データ（receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、直前の月曜日付とともに10件表示せよ（sales_ymdは数値でデータを保持している点に注意）。

In [35]:
%%sql
select
    sales_ymd as "売上日"
    ,sales_ymd - ((sales_ymd - 1) % 7) as "月曜日"
    ,sales_ymd - (sales_ymd - ((sales_ymd - 1) % 7)) as  "経過日数"
from
    receipt
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,売上日,月曜日,経過日数
0,20181103,20181099,4
1,20181118,20181113,5
2,20170712,20170711,1
3,20190205,20190199,6
4,20180821,20180819,2
5,20190605,20190605,0
6,20181205,20181204,1
7,20190922,20190920,2
8,20170504,20170501,3
9,20191010,20191004,6


---
> S-075: 顧客データ（customer）からランダムに1%のデータを抽出し、先頭から10件表示せよ。

In [36]:
%%sql
select
    *
from
    customer
where
    random() < 0.01
limit
    10
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10 rows affected.


Unnamed: 0,customer_id,customer_name,gender_cd,gender,birth_day,age,postal_cd,address,application_store_cd,application_date,status_cd
0,CS004713000036,米谷 菜々美,1,女性,1947-07-14,71,165-0035,東京都中野区白鷺**********,S13004,20150808,0-00000000-0
1,CS040603000006,水谷 隼士,0,男性,1952-12-16,66,226-0028,神奈川県横浜市緑区いぶき野**********,S14040,20151231,0-00000000-0
2,CS002614000180,関口 沙知絵,1,女性,1948-10-19,70,187-0021,東京都小平市上水南町**********,S13002,20170130,C-20100830-7
3,CS022415000256,内田 沙知絵,1,女性,1976-06-11,42,249-0005,神奈川県逗子市桜山**********,S14022,20150507,C-20100423-A
4,CS046314000005,多部 エリカ,1,女性,1979-02-27,40,224-0029,神奈川県横浜市都筑区南山田**********,S14046,20190219,0-00000000-0
5,CS001514000322,坂口 結衣,1,女性,1966-01-15,53,144-0052,東京都大田区蒲田**********,S13001,20170318,4-20091202-1
6,CS008515000180,草野 恭子,1,女性,1960-05-29,58,157-0072,東京都世田谷区祖師谷**********,S13008,20150331,D-20100728-E
7,CS027312000084,原 優,1,女性,1982-06-23,36,251-0052,神奈川県藤沢市藤沢**********,S14027,20150112,0-00000000-0
8,CS018212000037,倉田 美和子,1,女性,1992-06-07,26,204-0011,東京都清瀬市下清戸**********,S13018,20150811,0-00000000-0
9,CS010804000001,向井 隆博,0,男性,1930-06-15,88,222-0026,神奈川県横浜市港北区篠原町**********,S14010,20151027,0-00000000-0


---
> S-076: 顧客データ（customer）から性別コード（gender_cd）の割合に基づきランダムに10%のデータを層化抽出し、性別コードごとに件数を集計せよ。

In [38]:
%%sql
select
    gender_cd as "性別コード"
   ,count(*) as "件数"
from
    customer
where
    random() < 0.10
group by
    gender_cd
order by
    gender_cd
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
3 rows affected.


Unnamed: 0,性別コード,件数
0,0,316
1,1,1708
2,9,100


---
> S-077: レシート明細データ（receipt）の売上金額を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。なお、外れ値は売上金額合計を対数化したうえで平均と標準偏差を計算し、その平均から3σを超えて離れたものとする（自然対数と常用対数のどちらでも可）。結果は10件表示せよ。

In [None]:
%%sql


---
> S-078: レシート明細データ（receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第1四分位と第3四分位の差であるIQRを用いて、「第1四分位数-1.5×IQR」を下回るもの、または「第3四分位数+1.5×IQR」を超えるものとする。結果は10件表示せよ。

In [None]:
%%sql


---
> S-079: 商品データ（product）の各項目に対し、欠損数を確認せよ。

In [40]:
%%sql
select
    count(*) - count(product_cd) as "product_cd欠損数"
    ,count(*) - count(category_major_cd) as "category_major_cd欠損数"
    ,count(*) - count(category_medium_cd) as "category_medium_cd欠損数"
    ,count(*) - count(category_small_cd) as "category_small_cd欠損数"
    ,count(*) - count(unit_cost) as "unit_cost欠損数"
    ,count(*) - count(unit_price) as "unit_price欠損数"
from
    product
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
1 rows affected.


Unnamed: 0,product_cd欠損数,category_major_cd欠損数,category_medium_cd欠損数,category_small_cd欠損数,unit_cost欠損数,unit_price欠損数
0,0,0,0,0,7,7


---
> S-080: 商品データ（product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。

In [43]:
%%sql


UsageError: %%sql is a cell magic, but the cell body is empty. Did you mean the line magic %sql (single %)?


---
> S-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たな商品データを作成せよ。なお、平均値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [52]:
%%sql
with a as (
    select
         round(avg(unit_price)) as avg_price
        ,round(avg(unit_cost)) as avg_cost
    from
        product
)
select
     coalesce(unit_price, a.avg_price) as "単価"
    ,coalesce(unit_cost, a.avg_cost) as "原価"
from
    product, a
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10030 rows affected.


Unnamed: 0,product_cd,単価,原価
0,P040101001,198,149
1,P040101002,218,164
2,P040101003,230,173
3,P040101004,248,186
4,P040101005,268,201
...,...,...,...
10025,P091503001,280,210
10026,P091503002,680,510
10027,P091503003,1080,810
10028,P091503004,1130,848


---
> S-082: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [56]:
%%sql
with a as (
    select
        round(percentile_cont(0.5) within group (order by unit_price)) as median_price
       ,round(percentile_cont(0.5) within group (order by unit_cost))  as median_cost
    from
        product
)
select
    coalesce(unit_price, a.median_price) as "単価"
   ,coalesce(unit_cost, a.median_cost)   as "原価"
from
    product, a
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10030 rows affected.


Unnamed: 0,単価,原価
0,198.0,149.0
1,218.0,164.0
2,230.0,173.0
3,248.0,186.0
4,268.0,201.0
...,...,...
10025,280.0,210.0
10026,680.0,510.0
10027,1080.0,810.0
10028,1130.0,848.0


---
> S-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品のカテゴリ小区分コード（category_small_cd）ごとに算出した中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [61]:
%%sql
with a as (
    select
         category_small_cd
        ,round(percentile_cont(0.5) within group (order by unit_price)) as med_price
        ,round(percentile_cont(0.5) within group (order by unit_cost))  as med_cost
    from
        product
    group by
        category_small_cd
)
select
     b.product_cd
    ,b.category_small_cd
    ,coalesce(b.unit_price,a.med_price) as "単価"
    ,coalesce(b.unit_cost,a.med_cost)  as "原価"
from
    product b
join
    a
on
    b.category_small_cd = a.category_small_cd
;

 * postgresql://padwan:***@localhost:5432/dsdojo_db
10030 rows affected.


Unnamed: 0,product_cd,category_small_cd,単価,原価
0,P040101001,040101,198.0,149.0
1,P040101002,040101,218.0,164.0
2,P040101003,040101,230.0,173.0
3,P040101004,040101,248.0,186.0
4,P040101005,040101,268.0,201.0
...,...,...,...,...
10025,P091503001,091503,280.0,210.0
10026,P091503002,091503,680.0,510.0
10027,P091503003,091503,1080.0,810.0
10028,P091503004,091503,1130.0,848.0


---
> S-084: 顧客データ（customer）の全顧客に対して全期間の売上金額に占める2019年売上金額の割合を計算し、新たなデータを作成せよ。ただし、売上実績がない場合は0として扱うこと。そして計算した割合が0超のものを抽出し、結果を10件表示せよ。また、作成したデータに欠損が存在しないことを確認せよ。

In [62]:
%%sql


 * postgresql://padwan:***@localhost:5432/dsdojo_db
21971 rows affected.


---
> S-085: 顧客データ（customer）の全顧客に対し、郵便番号（postal_cd）を用いてジオコードデータ（geocode）を紐付け、新たな顧客データを作成せよ。ただし、1つの郵便番号（postal_cd）に複数の経度（longitude）、緯度（latitude）情報が紐づく場合は、経度（longitude）、緯度（latitude）の平均値を算出して使用すること。また、作成結果を確認するために結果を10件表示せよ。

In [None]:
%%sql


---
> S-086: 085で作成した緯度経度つき顧客データに対し、会員申込店舗コード（application_store_cd）をキーに店舗データ（store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客住所（address）の緯度・経度を用いて申込み店舗と顧客住所の距離（単位：km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は以下の簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示せよ。
>> **※ Colaboratoryで演習を再開したときは、解答前にS-085の解答を実行して下さい**
$$
緯度（ラジアン）：\phi \\
経度（ラジアン）：\lambda \\
距離L = 6371 * arccos(sin \phi_1 * sin \phi_2
+ cos \phi_1 * cos \phi_2 * cos(\lambda_1 − \lambda_2))
$$

In [None]:
%%sql


---
> S-087: 顧客データ（customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなして1顧客1レコードとなるように名寄せした名寄顧客データを作成し、顧客データの件数、名寄顧客データの件数、重複数を算出せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残し、売上金額合計が同一もしくは売上実績がない顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [None]:
%%sql


---
> S-088: 087で作成したデータを元に、顧客データに統合名寄IDを付与したデータを作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
> - 重複していない顧客：顧客ID（customer_id）を設定
> - 重複している顧客：前設問で抽出したレコードの顧客IDを設定
>
> 顧客IDのユニーク件数と、統合名寄IDのユニーク件数の差も確認すること。
>> **※ Colaboratoryで演習を再開したときは、解答前にS-087の解答を実行して下さい**

In [None]:
%%sql


---
> S-089: 売上実績がある顧客を、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

In [None]:
%%sql


---
> S-090: レシート明細データ（receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月の時系列モデル構築用データを3セット作成せよ。

In [3]:
%%sql


UsageError: %%sql is a cell magic, but the cell body is empty. Did you mean the line magic %sql (single %)?


---
> S-091: 顧客データ（customer）の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [None]:
%%sql


---
> S-092: 顧客データ（customer）の性別について、第三正規形へと正規化せよ。

In [None]:
%%sql


---
> S-093: 商品データ（product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリデータ（category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品データを作成せよ。

In [None]:
%%sql


---
> S-094: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|
>
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
>
> |出力先|
> |:--:|
> |/tmp/data|
>
>> **※ Colaboratoryで演習を再開したときは、解答前にS-093の解答を実行して下さい**

In [None]:
%%sql


---
> S-095: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|CP932|
>
> PostgreSQLではShift_JISを指定することでCP932相当となる。ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
>
> |出力先|
> |:--:|
> |/tmp/data|
>
>> **※ Colaboratoryで演習を再開したときは、解答前にS-093の解答を実行して下さい**

In [None]:
%%sql


---
> S-096: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|無し|UTF-8|
>
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
>
> |出力先|
> |:--:|
> |/tmp/data|
>
>> **※ Colaboratoryで演習を再開したときは、解答前にS-093の解答を実行して下さい**

In [None]:
%%sql


---
> S-097: 094で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|
>
>> **※ Colaboratoryで演習を再開したときは、解答前にS-093、S-094の解答を実行して下さい**

In [None]:
%%sql


---
> S-098: 096で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|ヘッダ無し|UTF-8|
>
>> **※ Colaboratoryで演習を再開したときは、解答前にS-093、S-096の解答を実行して下さい**

In [None]:
%%sql


---
> S-099: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|
>
> ファイル出力先のパスは以下のようにすること（COPYコマンドの権限は付与済み）。
>
> |出力先|
> |:--:|
> |/tmp/data|
>
>> **※ Colaboratoryで演習を再開したときは、解答前にS-093の解答を実行して下さい**

In [None]:
%%sql


---
> S-100: 099で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|
>
>> **※ Colaboratoryで演習を再開したときは、解答前にS-093、S-099の解答を実行して下さい**

In [None]:
%%sql


# これで１００本終わりです。おつかれさまでした！