# データ分析のためのSQL

こちらのノートブックでは、セットアップで準備したデータセットをサンプルとして、データ分析でよく用いられるSQL構文について紹介します。

In [1]:
%load_ext dotenv
%load_ext sql

In [2]:
import os
%dotenv
dsl = f"postgresql://postgres:{os.environ.get('POSTGRES_PASSWORD')}@postgres:5432/postgres"
%sql $dsl

## SQLの基本構文

分析的なSQLを学習するための基本的な構文について紹介します。SQLについてより詳しく学びたい方は、参考教材なども活用してください。

### 参考教材

- オンライン（英語）
  - 【動画】[freeCodeCamp.org Learn PostgreSQL Tutorial - Video Playlist](https://www.youtube.com/watch?v=qw--VYLpxG4)
  - 【動画】[Amigoscode SQL For Beginners Tutorial - Youtube Video](https://www.youtube.com/watch?v=5hzZtqCNQKk)
- オンライン（日本語）
  - 【チュートリアル】[SQLZoo - SQL Tutorial/ja](https://sqlzoo.net/wiki/SQL_Tutorial/ja)
  - 【ドキュメント】[PostgreSQL日本語ドキュメント](https://www.postgresql.jp/document/13/html/)
  - 【読み物】[リレーショナル・データベースの世界](https://mickindex.sakura.ne.jp/database/idx_database.html)
- 書籍
  - 【入門】[SQL 第2版 ゼロからはじめるデータベース操作](https://www.amazon.co.jp/dp/B01HD5VWWO)
  - 【中級】[SQLパズル 第2版~プログラミングが変わる書き方/考え方](https://www.amazon.co.jp/dp/4798114138/)
  - 【中級】[SQLクックブック 第2版](https://www.amazon.co.jp/dp/4873119774/)
  - 【中級】[ビッグデータ分析・活用のためのSQLレシピ](https://www.amazon.co.jp/dp/B06XRWPPC9/)
  - 【上級】[プログラマのためのSQL 第4版 すべてを知り尽くしたいあなたに](https://www.amazon.co.jp/dp/B00SF6JN4U)

### SELECT文

- SQLは、データベースなどに対してデータの検索や操作などおこなうためのドメイン固有言語です。
- SQLの基本的な命令の単位を「文」と呼びます。文の区切りは「;」（セミコロン）で表現します。
- SELECT文は、データベースから欲しいデータを取得するための代表的な文です。
- 一般的なプログラミング言語（手続き型言語）と異なり、メモリの操作やアルゴリズムの手順は記述せず、取得したいデータの定義を論理式のような形で宣言します（宣言型言語）

#### 例:

animeテーブルからn件のレコードを取得し、すべてのカラムを表示するクエリ

```
SELECT * FROM anime LIMIT n;
```

####  補足

- SELECT, FROM, LIMITのような、文を構成する要素を「句」と呼びます。
- LIMIT句は、最終的に取得するレコード数の上限を定義します。
- LIMIT句は必須ではありませんが、予期せず大量のデータを取得してしまいDBに負荷をかけてしまう可能性があるため、常にLIMIT句を記述する癖を付けておくと良いでしょう。
- SQLではほとんどの場合で大文字と小文字を区別しませんが、慣習として予約語（SELECT, FROMなど）は大文字、それ以外を小文字で書く場合が多いです（参考: [SQLプログラミング作法](https://mickindex.sakura.ne.jp/database/db_manner.html)）

In [3]:
%%sql
SELECT *
FROM anime
LIMIT 3;

 * postgresql://postgres:***@postgres:5432/postgres
3 rows affected.


mal_id,name,score,genres,english_name,japanese_name,type,episodes,aired,premiered,producers,licensors,studios,source,duration,rating,ranked,popularity,members,favorites,watching,completed,on_hold,dropped,plan_to_watch,score_10,score_9,score_8,score_7,score_6,score_5,score_4,score_3,score_2,score_1
1,Cowboy Bebop,8.78,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",Cowboy Bebop,カウボーイビバップ,TV,26,"Apr 3, 1998 to Apr 24, 1999",Spring 1998,Bandai Visual,"Funimation, Bandai Entertainment",Sunrise,Original,24 min. per ep.,R - 17+ (violence & profanity),28.0,39,1251960,61971,105808,718161,71513,26678,329800,229170.0,182126.0,131625.0,62330.0,20688.0,8904.0,3184.0,1357.0,741.0,1580.0
5,Cowboy Bebop: Tengoku no Tobira,8.39,"Action, Drama, Mystery, Sci-Fi, Space",Cowboy Bebop:The Movie,カウボーイビバップ 天国の扉,Movie,1,"Sep 1, 2001",,"Sunrise, Bandai Visual",Sony Pictures Entertainment,Bones,Original,1 hr. 55 min.,R - 17+ (violence & profanity),159.0,518,273145,1174,4143,208333,1935,770,57964,30043.0,49201.0,49505.0,22632.0,5805.0,1877.0,577.0,221.0,109.0,379.0
6,Trigun,8.24,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen",Trigun,トライガン,TV,26,"Apr 1, 1998 to Sep 30, 1998",Spring 1998,Victor Entertainment,"Funimation, Geneon Entertainment USA",Madhouse,Manga,24 min. per ep.,PG-13 - Teens 13 or older,266.0,201,558913,12944,29113,343492,25465,13925,146918,50229.0,75651.0,86142.0,49432.0,15376.0,5838.0,1965.0,664.0,316.0,533.0


### SELECT句

- SELECT句のあとには、取得したいデータをカンマ区切りで列挙します。
- テーブルに存在するすべてのカラムを取得したい場合には「\*」（アスタリスク）も利用できます。
- 取得したいデータには、テーブルのカラム名のほか、関数の返り値や、句中に直接記載した定数などが利用できます。
- AS句を用いることで、カラム名の任意の名前に変換して取得できます。

In [4]:
%%sql
SELECT
      mal_id
    , japanese_name
    , score
    , now()
    , 'CONSTANT_STRING' AS constant
FROM anime
LIMIT 3;

 * postgresql://postgres:***@postgres:5432/postgres
3 rows affected.


mal_id,japanese_name,score,now,constant
1,カウボーイビバップ,8.78,2022-05-12 03:35:02.524453+00:00,CONSTANT_STRING
5,カウボーイビバップ 天国の扉,8.39,2022-05-12 03:35:02.524453+00:00,CONSTANT_STRING
6,トライガン,8.24,2022-05-12 03:35:02.524453+00:00,CONSTANT_STRING


### WHERE句

- FROM句に続いてWHERE句を指定して、取得するレコードの条件を指定することができます。

In [5]:
%%sql
SELECT mal_id, japanese_name, score, type
FROM anime
WHERE type = 'TV'
LIMIT 3;

 * postgresql://postgres:***@postgres:5432/postgres
3 rows affected.


mal_id,japanese_name,score,type
1,カウボーイビバップ,8.78,TV
6,トライガン,8.24,TV
7,Witch Hunter ROBIN (ウイッチハンターロビン),7.27,TV


### ORDER BY句

- WHERE句に続いて、ORDER BY句を指定して、レコードの並べ替えをできます。
- デフォルトでは値の昇順（ASC: Ascending order）ですが、DESC(Decending order)キーワードを付与することで降順を指定できます。

In [6]:
%%sql
SELECT mal_id, japanese_name, score, ranked
FROM anime
WHERE ranked > 0
ORDER BY ranked
LIMIT 3;

 * postgresql://postgres:***@postgres:5432/postgres
3 rows affected.


mal_id,japanese_name,score,ranked
5114,鋼の錬金術師 FULLMETAL ALCHEMIST,9.19,1.0
40028,進撃の巨人 The Final Season,9.17,2.0
9253,STEINS;GATE,9.11,3.0


In [7]:
%%sql
SELECT mal_id, japanese_name, score, watching
FROM anime
WHERE watching > 0
ORDER BY watching DESC
LIMIT 3;

 * postgresql://postgres:***@postgres:5432/postgres
3 rows affected.


mal_id,japanese_name,score,watching
21,ONE PIECE,8.52,887333
40028,進撃の巨人 The Final Season,9.17,566239
40748,呪術廻戦,8.54,533016


## 一つの値に対する操作

SELECT句で指定したデータに対して、さまざまなデータ加工を施して取得することができます。


### 文字列関数

- PostgreSQLで実装されている文字列関数の使用例を紹介します。
- 詳細は[公式ドキュメント](https://www.postgresql.jp/document/13/html/functions-string.html)を参照してください。

In [8]:
%%sql
SELECT
      english_name
    , upper(english_name)
    , japanese_name
    , char_length(japanese_name)
    , substring(japanese_name for 5)
FROM anime
LIMIT 5;

 * postgresql://postgres:***@postgres:5432/postgres
5 rows affected.


english_name,upper,japanese_name,char_length,substring
Cowboy Bebop,COWBOY BEBOP,カウボーイビバップ,9,カウボーイ
Cowboy Bebop:The Movie,COWBOY BEBOP:THE MOVIE,カウボーイビバップ 天国の扉,14,カウボーイ
Trigun,TRIGUN,トライガン,5,トライガン
Witch Hunter Robin,WITCH HUNTER ROBIN,Witch Hunter ROBIN (ウイッチハンターロビン),32,Witch
Beet the Vandel Buster,BEET THE VANDEL BUSTER,冒険王ビィト,6,冒険王ビィ


### 配列関数

- 一つのカラムに複数の値が含まれているようなデータについては、配列関数を用いて配列化して活用することができます。
- 詳細は[公式ドキュメント](https://www.postgresql.jp/document/13/html/functions-array.html)を参照してください。

In [9]:
%%sql
SELECT
      japanese_name
    , genres
    , string_to_array(genres, ',')
    , (string_to_array(genres, ','))[1]
    , array_length(string_to_array(genres, ','), 1)
FROM anime
LIMIT 5;

 * postgresql://postgres:***@postgres:5432/postgres
5 rows affected.


japanese_name,genres,string_to_array,string_to_array_1,array_length
カウボーイビバップ,"Action, Adventure, Comedy, Drama, Sci-Fi, Space","['Action', ' Adventure', ' Comedy', ' Drama', ' Sci-Fi', ' Space']",Action,6
カウボーイビバップ 天国の扉,"Action, Drama, Mystery, Sci-Fi, Space","['Action', ' Drama', ' Mystery', ' Sci-Fi', ' Space']",Action,5
トライガン,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen","['Action', ' Sci-Fi', ' Adventure', ' Comedy', ' Drama', ' Shounen']",Action,6
Witch Hunter ROBIN (ウイッチハンターロビン),"Action, Mystery, Police, Supernatural, Drama, Magic","['Action', ' Mystery', ' Police', ' Supernatural', ' Drama', ' Magic']",Action,6
冒険王ビィト,"Adventure, Fantasy, Shounen, Supernatural","['Adventure', ' Fantasy', ' Shounen', ' Supernatural']",Adventure,4


### CASE式

- SQLのCASE式は、与えられた条件式に応じて異なる出力を定義できる式です。
- 手続き型プログラミング言語における**CASE文**とは異なり、処理の分岐をするものではありません（どちらかと言えばラムダ式に近い）
- 下記の例で、premieredの値が'None'になっているレコードは、文字列の'None'ではなく、値が存在しないこと（NULL）を意味しています。
- 値が存在しないこと（NULL）を判定するには、IS NULL演算子が利用できます。

In [10]:
%%sql
SELECT
      japanese_name
    , premiered
    , CASE
        WHEN premiered IS NULL THEN '---'
        ELSE premiered
      END AS mod_premiered
FROM anime
LIMIT 5;

 * postgresql://postgres:***@postgres:5432/postgres
5 rows affected.


japanese_name,premiered,mod_premiered
カウボーイビバップ,Spring 1998,Spring 1998
カウボーイビバップ 天国の扉,,---
トライガン,Spring 1998,Spring 1998
Witch Hunter ROBIN (ウイッチハンターロビン),Summer 2002,Summer 2002
冒険王ビィト,Fall 2004,Fall 2004


### NULLの取り扱い

- NULLを取り扱う関数として、NULLIF関数やCOALESCE関数があります。
- NULLIF関数は、引数を2つ取り、両者が等しい場合にNULL、その他の場合は第一引数を返します。
- COALESCE関数は、引数を複数取り、最初のNULLでない値を返します。

In [11]:
%%sql
SELECT
    japanese_name
    , premiered
    , COALESCE(premiered, '---') AS mod_premiered
    , NULLIF(premiered, 'Spring 1998')
FROM anime
LIMIT 5;

 * postgresql://postgres:***@postgres:5432/postgres
5 rows affected.


japanese_name,premiered,mod_premiered,nullif
カウボーイビバップ,Spring 1998,Spring 1998,
カウボーイビバップ 天国の扉,,---,
トライガン,Spring 1998,Spring 1998,
Witch Hunter ROBIN (ウイッチハンターロビン),Summer 2002,Summer 2002,Summer 2002
冒険王ビィト,Fall 2004,Fall 2004,Fall 2004


### パターンマッチ

- SQLでは、LIKE演算子やSIMILAR TO演算子を用いて、パターンマッチによるレコードの絞り込みが可能です。
- 詳細は[公式ドキュメント](https://www.postgresql.jp/document/13/html/functions-matching.html)を参照してください。
- 下記の例は、アニメの日本語タイトル（japanese_anime）が「銀魂～」で開始するレコードを取得するクエリです。

In [12]:
%%sql
SELECT
      name
    , japanese_name
    , type
    , ranked
    , score
    , aired
FROM anime
WHERE japanese_name LIKE '銀魂%'
ORDER BY ranked
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
10 rows affected.


name,japanese_name,type,ranked,score,aired
Gintama°,銀魂°,TV,5.0,9.1,"Apr 8, 2015 to Mar 30, 2016"
Gintama',銀魂',TV,7.0,9.08,"Apr 4, 2011 to Mar 26, 2012"
Gintama': Enchousen,銀魂' 延長戦,TV,9.0,9.04,"Oct 4, 2012 to Mar 28, 2013"
Gintama.,銀魂。,TV,12.0,8.99,"Jan 9, 2017 to Mar 27, 2017"
Gintama,銀魂,TV,15.0,8.96,"Apr 4, 2006 to Mar 25, 2010"
Gintama: The Final,銀魂 THE FINAL,Movie,19.0,8.88,"Jan 8, 2021"
Gintama.: Shirogane no Tamashii-hen - Kouhan-sen,銀魂. 銀ノ魂篇 後半戦,TV,21.0,8.86,"Jul 9, 2018 to Oct 8, 2018"
Gintama.: Shirogane no Tamashii-hen,銀魂. 銀ノ魂篇,TV,25.0,8.81,"Jan 8, 2018 to Mar 26, 2018"
Gintama: The Semi-Final,銀魂 THE SEMI-FINAL,Special,77.0,8.58,"Jan 15, 2021 to Jan 20, 2021"
Gintama.: Porori-hen,銀魂。ポロリ編,TV,90.0,8.53,"Oct 2, 2017 to Dec 25, 2017"


### 型変換（CAST）

- テキストデータであるCSVから取り込んだデータは、厳密な型定義をされていない場合があります。
- SQLのCAST関数を利用することで、ある型のデータを別の型に変換できます。
- 下記の例は、文字列として表現されているaired（放送時期）から、アニメの放送開始日を抽出し、日付型（DATE）に変換して並べ替える例です。

In [13]:
%%sql
SELECT
      name
    , japanese_name
    , type
    , aired
    , string_to_array(aired, 'to') AS aired_array
    , (string_to_array(aired, 'to'))[1] AS aired_start
    , CAST((string_to_array(aired, 'to'))[1] AS DATE) AS aired_start_date
FROM anime
WHERE japanese_name LIKE '銀魂%'
ORDER BY aired_start_date DESC
LIMIT 20;

 * postgresql://postgres:***@postgres:5432/postgres
18 rows affected.


name,japanese_name,type,aired,aired_array,aired_start,aired_start_date
Gintama: The Semi-Final,銀魂 THE SEMI-FINAL,Special,"Jan 15, 2021 to Jan 20, 2021","['Jan 15, 2021 ', ' Jan 20, 2021']","Jan 15, 2021",2021-01-15
Gintama: The Final,銀魂 THE FINAL,Movie,"Jan 8, 2021","['Jan 8, 2021']","Jan 8, 2021",2021-01-08
Gintama: Monster Strike-hen,銀魂 ～モンスターストライク編～,ONA,"Aug 29, 2019 to Sep 4, 2019","['Aug 29, 2019 ', ' Sep 4, 2019']","Aug 29, 2019",2019-08-29
Gintama.: Shirogane no Tamashii-hen - Kouhan-sen,銀魂. 銀ノ魂篇 後半戦,TV,"Jul 9, 2018 to Oct 8, 2018","['Jul 9, 2018 ', ' Oct 8, 2018']","Jul 9, 2018",2018-07-09
Gintama.: Shirogane no Tamashii-hen,銀魂. 銀ノ魂篇,TV,"Jan 8, 2018 to Mar 26, 2018","['Jan 8, 2018 ', ' Mar 26, 2018']","Jan 8, 2018",2018-01-08
Gintama.: Porori-hen,銀魂。ポロリ編,TV,"Oct 2, 2017 to Dec 25, 2017","['Oct 2, 2017 ', ' Dec 25, 2017']","Oct 2, 2017",2017-10-02
Gintama.,銀魂。,TV,"Jan 9, 2017 to Mar 27, 2017","['Jan 9, 2017 ', ' Mar 27, 2017']","Jan 9, 2017",2017-01-09
Gintama°: Aizome Kaori-hen,銀魂　愛染香篇,OVA,"Aug 4, 2016 to Nov 4, 2016","['Aug 4, 2016 ', ' Nov 4, 2016']","Aug 4, 2016",2016-08-04
Gintama°: Umai-mono wa Atomawashi ni Suru to Yokodorisareru kara Yappari Saki ni Kue,銀魂 〜美味いモノは後回しにすると横取りされるからやっぱり先に食え〜,Special,"Nov 3, 2015","['Nov 3, 2015']","Nov 3, 2015",2015-11-03
Gintama°,銀魂°,TV,"Apr 8, 2015 to Mar 30, 2016","['Apr 8, 2015 ', ' Mar 30, 2016']","Apr 8, 2015",2015-04-08


## 複数の値に対する操作

関数や演算子の中には、複数の値を引数にして処理をおこなうものもあります。基本的に、一つのレコード内に含まれるカラムであれば、同時に利用して別の値を計算することができます。

異なるレコードに存在する値を同時に利用して別の値を計算したい場合は、後述の集約関数やWINDOW関数の利用を検討してください。

### 比較演算子

- SQLでは、比較可能な2つ以上の値について比較をおこなう演算子が定義されています。
- 比較結果は基本的にTRUE/FALSE/UNKNOWNのBoolean型で返りますので、WHERE句での絞り込みやCASE式の条件式に使用できます。
- 比較演算子の詳細は[公式ドキュメント](https://www.postgresql.jp/document/13/html/functions-comparison.html)を参照してください。
- SQLのBoolean型は、一般的なプログラミング言語におけるTRUE/FALSEの2値ではなく、TRUE/FALSE/UNKNOWNの3値論理を採用しています（参考: [3値論理](https://mickindex.sakura.ne.jp/database/db_3vl.html)）

In [14]:
%%sql
SELECT
    mal_id
    , mal_id = 1 AS eq_1
    , mal_id IN (5, 6, 7) AS in_5_6_7
    , japanese_name
    , score_10
    , score_9
    , score_10 < score_9 AS less_than
    , score_10 >= score_9 AS greater_than_equal
    , score_10 <> score_9  AS not_equal
    , ranked
    , ranked between 100 and 999 AS range_100_999 
FROM anime
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
10 rows affected.


mal_id,eq_1,in_5_6_7,japanese_name,score_10,score_9,less_than,greater_than_equal,not_equal,ranked,range_100_999
1,True,False,カウボーイビバップ,229170.0,182126.0,False,True,True,28.0,False
5,False,True,カウボーイビバップ 天国の扉,30043.0,49201.0,True,False,True,159.0,True
6,False,True,トライガン,50229.0,75651.0,True,False,True,266.0,True
7,False,True,Witch Hunter ROBIN (ウイッチハンターロビン),2182.0,4806.0,True,False,True,2481.0,False
8,False,False,冒険王ビィト,312.0,529.0,True,False,True,3710.0,False
15,False,False,アイシールド21,9226.0,14904.0,True,False,True,604.0,True
16,False,False,ハチミツとクローバー,11829.0,16309.0,True,False,True,468.0,True
17,False,False,ハングリーハート Wild Striker,1123.0,1777.0,True,False,True,1317.0,False
18,False,False,頭文字〈イニシャル〉D FOURTH STAGE,10948.0,15820.0,True,False,True,360.0,True
19,False,False,モンスター,77350.0,60652.0,False,True,True,30.0,False


### 算術演算子・関数

- SQLでは、数値データに対して基本的な四則演算や関数を用いて、別の値を計算できます。
- 整数同士で除算を行なうと、そのままでは計算結果も整数となり、余りは切り捨てられてしまいます。
  - CAST関数で明示的に実数型に変換してあげるか、最初に実数型の値（例: 100.0）を乗算してあげることで、小数点以下の計算結果も取得できます。
- 除算をおこなう際の分母にテーブル内のデータを用いると、0除算エラーが発生する場合があります。
  - 0除算を避けるテクニックとして、NULLIF関数を用いて、値が0の場合にNULLへ変換するなどの方法があります。

In [15]:
%%sql
SELECT
      japanese_name
    , members
    , completed
    , dropped
    , score_10
    , score_9
    , completed / NULLIF(members, 0) AS completed_rate_int
    , 100.0 * completed / NULLIF(members, 0) AS completed_rate
    , 100.0 * dropped / NULLIF(members, 0) AS dropped_rate
    , (score_10 + score_9) / 2 AS avg
FROM anime
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
10 rows affected.


japanese_name,members,completed,dropped,score_10,score_9,completed_rate_int,completed_rate,dropped_rate,avg
カウボーイビバップ,1251960,718161,26678,229170.0,182126.0,0,57.362934918048495,2.1308987507588104,205648.0
カウボーイビバップ 天国の扉,273145,208333,770,30043.0,49201.0,0,76.27194347324682,0.2819015541196068,39622.0
トライガン,558913,343492,13925,50229.0,75651.0,0,61.45714986053286,2.491443212092043,62940.0
Witch Hunter ROBIN (ウイッチハンターロビン),94683,46165,5378,2182.0,4806.0,0,48.757432696471376,5.6800059144725035,3494.0
冒険王ビィト,13224,7314,1108,312.0,529.0,0,55.30852994555354,8.378705384150031,420.5
アイシールド21,148259,78349,11573,9226.0,14904.0,0,52.84603295584079,7.805934209727571,12065.0
ハチミツとクローバー,214499,81145,11026,11829.0,16309.0,0,37.830013193534704,5.140350304663425,14069.0
ハングリーハート Wild Striker,20470,13778,1168,1123.0,1777.0,0,67.30825598436736,5.7059110893991205,1450.0
頭文字〈イニシャル〉D FOURTH STAGE,117929,90967,1356,10948.0,15820.0,0,77.13709096151075,1.1498443979004316,13384.0
モンスター,614100,214491,23008,77350.0,60652.0,0,34.927699071812405,3.7466210714867287,69001.0


## テーブル関数

- SQLの多くの関数は単一または複数の値を返しますが、複数のレコードの集合（≒テーブル）を返す関数も存在します。
- generate_series(start, stop, stepinterval)関数は、連番のデータを持った複数レコードを生成するテーブル関数です。
- unnest関数は、配列をレコードに展開するテーブル関数です。

In [16]:
%%sql
SELECT generate_series(1, 10, 2) AS series
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
5 rows affected.


series
1
3
5
7
9


In [17]:
%%sql
SELECT
      mal_id
    , japanese_name
    , string_to_array(genres, ',') AS genres_array
FROM anime
WHERE mal_id IN (1, 5)
LIMIT 20;

 * postgresql://postgres:***@postgres:5432/postgres
2 rows affected.


mal_id,japanese_name,genres_array
1,カウボーイビバップ,"['Action', ' Adventure', ' Comedy', ' Drama', ' Sci-Fi', ' Space']"
5,カウボーイビバップ 天国の扉,"['Action', ' Drama', ' Mystery', ' Sci-Fi', ' Space']"


In [18]:
%%sql
SELECT
      mal_id
    , japanese_name
    , unnest(string_to_array(genres, ',')) AS genre
FROM anime
WHERE mal_id IN (1, 5)
LIMIT 20;

 * postgresql://postgres:***@postgres:5432/postgres
11 rows affected.


mal_id,japanese_name,genre
1,カウボーイビバップ,Action
1,カウボーイビバップ,Adventure
1,カウボーイビバップ,Comedy
1,カウボーイビバップ,Drama
1,カウボーイビバップ,Sci-Fi
1,カウボーイビバップ,Space
5,カウボーイビバップ 天国の扉,Action
5,カウボーイビバップ 天国の扉,Drama
5,カウボーイビバップ 天国の扉,Mystery
5,カウボーイビバップ 天国の扉,Sci-Fi


## 一つのテーブルに対する操作

一つのテーブル内にある複数のレコードにまたがったデータをもとに値を計算したい場合、集約関数やウィンドウ関数などが利用できます。

### 集約関数

- 集約関数とは、複数のレコードからなる集合を入力として、データを集約した結果から構成される新たな集合を返す関数群です。
- 代表的な集約関数として、カウント（COUNT）、合計（SUM）、平均（AVG）、最大値（MAX）、最小値（MIN）などがあります。

In [19]:
%%sql
SELECT
      COUNT(*)
    , SUM(members)
    , AVG(members)
    , MAX(members)
    , MIN(members)
FROM anime
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
1 rows affected.


count,sum,avg,max,min
17562,608673271,34658.53951713928,2589552,1


- これら集約関数は、一見すると集約された単一の値を返しているように感じられますが、実際には一つのレコードからなる新しいテーブルを返しています。
- 上記の例では、animeテーブルを入力として、レコード数やメンバーの合計・平均・最大値・最小値を含む新しいテーブルを生成しています。
- そのため、もとのanimeテーブルに含まれていた情報は消失し、使用することはできません。
- 下記のように、animeテーブルに存在していたカラムを集約関数と同時に取得しようとすると、エラーになります。

In [20]:
%%sql
SELECT
      COUNT(*)
    , SUM(members)
    , AVG(members)
    , MAX(members)
    , MIN(members)
    , japanese_name
FROM anime
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
(psycopg2.errors.GroupingError) column "anime.japanese_name" must appear in the GROUP BY clause or be used in an aggregate function
LINE 5:     , japanese_name
              ^

[SQL: SELECT COUNT(*) , SUM(members)
    , AVG(members)
    , MAX(members)
    , MIN(members)
    , japanese_name
FROM anime
LIMIT 10;]
(Background on this error at: https://sqlalche.me/e/14/f405)


- GROPU BY句を用いることで、集約関数の対象となるレコード集合をグルーピングすることができます。
- GROPU BY句に指定したカラムは、新しいテーブルにも含まれるため、SELECT句中で利用できます。

In [21]:
%%sql
SELECT
      type
    , COUNT(*)
    , SUM(members)
    , AVG(members)
    , MAX(members)
    , MIN(members)
FROM anime
GROUP BY type
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
7 rows affected.


type,count,sum,avg,max,min
TV,4996,457725895,91618.47377902322,2589552,25
,37,364047,9839.108108108108,81060,75
Special,2218,27368028,12339.056807935076,338678,25
ONA,1907,12774250,6698.61038280021,650309,1
Music,1469,1665258,1133.5997277059223,265646,1
Movie,3041,66907007,22001.646497862544,1726660,32
OVA,3894,41868786,10752.127889060092,676023,43


集約関数を適用した値に対して絞り込みを行なう場合は、WHERE句ではなくHAVING句を用います。

In [22]:
%%sql
SELECT
      type
    , COUNT(*)
    , SUM(members)
    , AVG(members)
    , MAX(members)
    , MIN(members)
FROM anime
GROUP BY type
HAVING COUNT(*) > 1000
ORDER BY COUNT(*) DESC
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
6 rows affected.


type,count,sum,avg,max,min
TV,4996,457725895,91618.47377902322,2589552,25
OVA,3894,41868786,10752.127889060092,676023,43
Movie,3041,66907007,22001.646497862544,1726660,32
Special,2218,27368028,12339.056807935076,338678,25
ONA,1907,12774250,6698.61038280021,650309,1
Music,1469,1665258,1133.5997277059223,265646,1


### ウィンドウ関数

- ウィンドウ関数は、集約関数と異なり、もとのテーブルに変更を加えず、レコード集合を入力とした値を計算できる関数群です。
- ウィンドウ関数を用いるには、集約関数の後ろにOVER句を指定します。
- ウィンドウ関数のみで使用できる関数も存在します。
- ウィンドウ関数の詳細は[公式ドキュメント](https://www.postgresql.jp/document/13/html/functions-window.html)を参照してください。

In [23]:
%%sql
SELECT
    japanese_name
    , type
    , members
    , SUM(members) OVER() AS total_members
    , AVG(members) OVER() AS average_members
FROM anime
LIMIT 5;

 * postgresql://postgres:***@postgres:5432/postgres
5 rows affected.


japanese_name,type,members,total_members,average_members
カウボーイビバップ,TV,1251960,608673271,34658.53951713928
カウボーイビバップ 天国の扉,Movie,273145,608673271,34658.53951713928
トライガン,TV,558913,608673271,34658.53951713928
Witch Hunter ROBIN (ウイッチハンターロビン),TV,94683,608673271,34658.53951713928
冒険王ビィト,TV,13224,608673271,34658.53951713928


- ウィンドウ関数の入力となるレコード群を分割するには、GROUP BYの代わりにPARTITION BYを使います。

In [24]:
%%sql
SELECT
    japanese_name
    , type
    , members
    , AVG(members) OVER() AS average_members
    , AVG(members) OVER(PARTITION BY type) AS average_members_in_type
FROM anime
LIMIT 5;

 * postgresql://postgres:***@postgres:5432/postgres
5 rows affected.


japanese_name,type,members,average_members,average_members_in_type
WAVE!!～サーフィンやっぺ!!～,Movie,16928,34658.53951713928,22001.646497862544
ドラゴンクエスト　ユア・ストーリー,Movie,10106,34658.53951713928,22001.646497862544
グレートラビット,Movie,797,34658.53951713928,22001.646497862544
布団,Movie,691,34658.53951713928,22001.646497862544
DREAMS,Movie,899,34658.53951713928,22001.646497862544


- OVER内でORDER BY句を用いることで、ウィンドウ内のレコードに順序付けすることができます。
- RANK関数は、順序付けされたウィンドウ内における、現在のレコードの順位を返すウィンドウ関数です。
- LAG, LEAD関数は、順序付けされたウィンドウ内において、現在のレコードから前後にずれたレコードの値を取得するウィンドウ関数です。
- 下記の例は、これらのウィンドウ関数を用いて、人数の多いアニメ順にランキングを作成し、次点のレコードとの人数差を計算するクエリです。

In [25]:
%%sql
SELECT
    RANK() OVER(ORDER BY members DESC)
    , japanese_name
    , members
    , LAG(members, 1) OVER(ORDER BY members DESC)
    , LEAD(members, 1) OVER(ORDER BY members DESC)
    , members - LEAD(members, 1) OVER(ORDER BY members DESC) AS diff
FROM anime
ORDER BY rank
LIMIT 10

 * postgresql://postgres:***@postgres:5432/postgres
10 rows affected.


rank,japanese_name,members,lag,lead,diff
1,デスノート,2589552,,2531397,58155
2,進撃の巨人,2531397,2589552.0,2248456,282941
3,鋼の錬金術師 FULLMETAL ALCHEMIST,2248456,2531397.0,2214395,34061
4,ソードアート・オンライン,2214395,2248456.0,2123866,90529
5,ワンパンマン,2123866,2214395.0,1909814,214052
6,僕のヒーローアカデミア,1909814,2123866.0,1895488,14326
7,東京喰種-トーキョーグール-,1895488,1909814.0,1830540,64948
8,ナルト,1830540,1895488.0,1771162,59378
9,STEINS;GATE,1771162,1830540.0,1751054,20108
10,ノーゲーム・ノーライフ,1751054,1771162.0,1726660,24394


- OVER内でORDER BY句とともに「ROWS BETWEEN start AND end」という構文を用いることで、「フレーム」と呼ばれる区間を定義できます。
- フレーム構文を用いることで、ウィンドウよりさらに小さな単位に入力レコード群を分割することができます。
- startとendには、「CURRENT ROW」（現在の行）、「n PRECEDING」（n行前）、「n FOLLOWING」（n行後）、「UNBOUNDED PRECEDING」（前の行すべて）、「UNBOUNDED FOLLOWING」（後ろの行すべて）などのキーワードを指定できます。
- 下記の例は、フレーム構文を用いて、人数の多いアニメランキングに対して、人数の総合計、ランキング順の累積合計、ランキング順の移動合計を計算するクエリです。

In [26]:
%%sql
SELECT
    RANK() OVER(ORDER BY members DESC)
    , japanese_name
    , members
    , SUM(members) OVER(ORDER BY members DESC
        ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING
      ) AS total_members
    , SUM(members) OVER(ORDER BY members DESC
        ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
      ) AS cumulative_total_members
    , SUM(members) OVER(ORDER BY members DESC
        ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING
      ) AS move_total_members
FROM anime
ORDER BY rank
LIMIT 10

 * postgresql://postgres:***@postgres:5432/postgres
10 rows affected.


rank,japanese_name,members,total_members,cumulative_total_members,move_total_members
1,デスノート,2589552,608673271,2589552,5120949
2,進撃の巨人,2531397,608673271,5120949,7369405
3,鋼の錬金術師 FULLMETAL ALCHEMIST,2248456,608673271,7369405,6994248
4,ソードアート・オンライン,2214395,608673271,9583800,6586717
5,ワンパンマン,2123866,608673271,11707666,6248075
6,僕のヒーローアカデミア,1909814,608673271,13617480,5929168
7,東京喰種-トーキョーグール-,1895488,608673271,15512968,5635842
8,ナルト,1830540,608673271,17343508,5497190
9,STEINS;GATE,1771162,608673271,19114670,5352756
10,ノーゲーム・ノーライフ,1751054,608673271,20865724,5248876


## 複数のテーブルに対する操作

ここまで、単一のanimeテーブルのみを対象とするクエリを紹介してきました。最後に、複数のテーブルを一つのクエリで同時に使用する方法について紹介します。

### JOIN句

- FROM句内に複数のテーブルを列挙し、両者のレコードの組み合わせ（積集合）からなる新しいテーブルを生成できます。
- すべてのレコードの組み合わせは膨大な数になるため、一般的にはキーとなるカラムを指定して、組み合わせとなるレコードを絞り込みます。
- JOIN句を用いることで、複数のレコードを結合するためのキーを指定できます。
- 複数のテーブルから生成された新しいレコードのカラム名は、「元のテーブル名.カラム名」で参照できます。

In [27]:
%%sql
SELECT animelist.*, anime.mal_id, anime.japanese_name
FROM animelist, anime
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
10 rows affected.


user_id,anime_id,rating,watching_status,watched_episodes,mal_id,japanese_name
0,67,9,1,1,1,カウボーイビバップ
0,67,9,1,1,5,カウボーイビバップ 天国の扉
0,67,9,1,1,6,トライガン
0,67,9,1,1,7,Witch Hunter ROBIN (ウイッチハンターロビン)
0,67,9,1,1,8,冒険王ビィト
0,67,9,1,1,15,アイシールド21
0,67,9,1,1,16,ハチミツとクローバー
0,67,9,1,1,17,ハングリーハート Wild Striker
0,67,9,1,1,18,頭文字〈イニシャル〉D FOURTH STAGE
0,67,9,1,1,19,モンスター


In [28]:
%%sql
SELECT animelist.*, anime.mal_id, anime.japanese_name
FROM animelist
    JOIN anime ON animelist.anime_id = anime.mal_id
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
10 rows affected.


user_id,anime_id,rating,watching_status,watched_episodes,mal_id,japanese_name
0,67,9,1,1,67,バジリスク 甲賀忍法帖
0,6702,7,1,4,6702,FAIRY TAIL（フェアリーテイル）
0,242,10,1,4,242,ごくせん
0,4898,0,1,1,4898,黒執事
0,21,10,1,0,21,ONE PIECE
0,24,9,1,5,24,スクールランブル
0,2104,0,1,4,2104,瀬戸の花嫁
0,4722,8,1,4,4722,スキップ・ビート！
0,6098,6,1,2,6098,宙のまにまに
0,3125,9,1,29,3125,ときめきトゥナイト


- デフォルトのJOIN句はINNER JOIN（内部結合）と呼ばれ、ON句で指定した条件がTRUEでないレコードは結果から除かれてしまいます。
- ON句で結合されないレコードも結果に残したい場合は、OUTER JOIN（外部結合）を用います。
- 外部結合には、結合する2つのテーブルのうちどちらのレコードを残すかによって、「FULL (OUTER) JOIN」「RIGHT (OUTER) JOIN」「LEFT (OUTER) JOIN」3種類があります。「OUTER」キーワードは省略可能です。
- 下記の例は、animeテーブルにrating_completeテーブルを結合する際、(INNER) JOINではrating_completeに存在しないanime_id=235のレコードは結果から消えてしまうものの、LEFT (OUTER) JOINでは結合された値が'None'のレコードとして表示されている例です。
- JOINをする際のテーブル名は、AS句を用いて別名に書き換えることができます。

In [29]:
%%sql
SELECT a.mal_id, a.japanese_name, r.*
FROM anime AS a
    JOIN rating_complete AS r ON a.mal_id = r.anime_id
WHERE a.mal_id IN (235, 13457, 32152)
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
2 rows affected.


mal_id,japanese_name,user_id,anime_id,rating
32152,클로저스:SIDE BLACKLAMBS,94450,32152,6
13457,ともだち8にん,189037,13457,7


In [30]:
%%sql
SELECT a.mal_id, a.japanese_name, r.*
FROM anime AS a
    LEFT JOIN rating_complete AS r ON a.mal_id = r.anime_id
WHERE a.mal_id IN (235, 13457, 32152)
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
3 rows affected.


mal_id,japanese_name,user_id,anime_id,rating
32152,클로저스:SIDE BLACKLAMBS,94450.0,32152.0,6.0
13457,ともだち8にん,189037.0,13457.0,7.0
235,名探偵コナン,,,


### WITH句: 共通テーブル式(CTE)

- WITH句を用いると、SELECT文を使って抽出した結果を新しいテーブルとして名前を付け、同じSQL文中で再利用することができます。
- WITH句を用いて一時的なテーブルを作成する構文を共通テーブル式と呼びます。

In [31]:
%%sql
WITH sampling_animelist AS (
    SELECT *
    FROM animelist
    WHERE user_id < 100
)
SELECT MAX(user_id), COUNT(*)
FROM sampling_animelist
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
1 rows affected.


max,count
99,26826


In [32]:
%%sql
WITH sampling_animelist AS (
    SELECT *
    FROM animelist
    WHERE user_id < 100
)
SELECT anime.mal_id, anime.japanese_name, COUNT(animelist.user_id)
FROM anime
    JOIN sampling_animelist AS animelist
    ON anime.mal_id = animelist.anime_id
GROUP BY anime.mal_id, anime.japanese_name
ORDER BY COUNT(animelist.user_id) DESC
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
10 rows affected.


mal_id,japanese_name,count
1535,デスノート,67
16498,進撃の巨人,65
4224,とらドラ！,62
5114,鋼の錬金術師 FULLMETAL ALCHEMIST,61
11757,ソードアート・オンライン,59
6547,Angel Beats!（エンジェルビーツ）,54
9253,STEINS;GATE,54
2167,CLANNAD,53
20,ナルト,53
1575,コードギアス 反逆のルルーシュ,53


### UNION句

- UNION句は、同じカラム定義を持った2つのテーブルを結合し、新しいテーブルを作成することができます。
- デフォルトのUNION句は重複するレコードを持たないテーブルを返します。
- UNION ALL句を用いることで、重複するレコードを許すテーブルも作成できます。

In [33]:
%%sql
WITH
    tmp1 AS (
        SELECT generate_series(1, 5, 1) AS id
    )
    , tmp2 AS (
        SELECT generate_series(5, 10, 2) AS id
    )
SELECT id FROM tmp1
UNION
SELECT id FROM tmp2
ORDER BY id
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
7 rows affected.


id
1
2
3
4
5
7
9


In [34]:
%%sql
WITH
    tmp1 AS (
        SELECT generate_series(1, 5, 1) AS id
    )
    , tmp2 AS (
        SELECT generate_series(5, 10, 2) AS id
    )
SELECT id FROM tmp1
UNION ALL
SELECT id FROM tmp2
ORDER BY id
LIMIT 10;

 * postgresql://postgres:***@postgres:5432/postgres
8 rows affected.


id
1
2
3
4
5
5
7
9
