# More SELECT 文 🍳

このノートブックでは SELECT 文におけるサブクエリ・JOIN・UNIONの使い方を確認します。

## 1. 初期設定

Jupyter Notebook を再起動した場合などはここから実行してください。

In [None]:
! pip install ipython-sql pymysql
%load_ext sql

## 2. 接続確認

In [2]:
%%sql mysql+pymysql://hello:world@10.0.1.100/employees
select 'hello' as world

1 rows affected.


world
hello


## 3. サブクエリ

サブクエリはクエリ中に記述された SELECT 文のことです。サブクエリを利用することで集合的な操作を簡単に記述することができ、集計処理を行う分析クエリや分散処理基盤を使った大規模データの整形を行う際に重宝します。

In [3]:
%%sql
select
    *
from
    (select
        emp_no,
        first_name
    from
        employees
    ) as t
limit 3

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


emp_no,first_name
10001,Georgi
10002,Bezalel
10003,Parto


FROM 句以外の部分でもサブクエリを利用することができます。以下は `salaries` テーブルから給料が平均を下回っているレコードを10件抽出するクエリです。

In [4]:
%%sql
select
    *
from
    salaries
where
    salary < (select avg(salary) from salaries)
limit 10

 * mysql+pymysql://hello:***@10.0.1.100/employees
10 rows affected.


emp_no,salary,from_date,to_date
10001,60117,1986-06-26,1987-06-26
10001,62102,1987-06-26,1988-06-25
10003,40006,1995-12-03,1996-12-02
10003,43616,1996-12-02,1997-12-02
10003,43466,1997-12-02,1998-12-02
10003,43636,1998-12-02,1999-12-02
10003,43478,1999-12-02,2000-12-01
10003,43699,2000-12-01,2001-12-01
10003,43311,2001-12-01,9999-01-01
10004,40054,1986-12-01,1987-12-01


## 4. EXISTS 句

WHERE 句の検索条件に `EXISTS` 句を渡すとサブクエリの結果が存在するかどうかでレコードを絞り込むことができます。また、あるレコードに対応するデータをサブクエリ内で検索するケースのように「サブクエリの外側」にあるデータにアクセスするようなサブクエリを「相関サブクエリ」と呼びます。以下は EXISTS 句を利用して `title` が `Technique Leader` であるような社員を検索するクエリです。

In [5]:
%%sql
select
    *
from
    employees as e
where
    exists
    (select
         emp_no
    from
         titles as t
    where
         e.emp_no = t.emp_no -- 相関サブクエリ
         and title = 'Technique Leader'
    )
limit 5

 * mysql+pymysql://hello:***@10.0.1.100/employees
5 rows affected.


emp_no,birth_date,first_name,last_name,gender,hire_date
10021,1960-02-20,Ramzi,Erde,M,1988-02-10
10025,1958-10-31,Prasadram,Heyers,M,1987-08-17
10033,1956-11-14,Arif,Merlo,M,1987-03-18
10044,1961-09-21,Mingsen,Casley,F,1994-05-21
10069,1960-09-06,Margareta,Bierman,F,1989-11-05


## 5. IN 句とサブクエリ

IN 句を使うことで複数条件からいずれかにマッチするレコードを検索することができます。

In [6]:
%%sql
select
    *
from
    employees
where
    emp_no in (10021, 10022, 10023)

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


emp_no,birth_date,first_name,last_name,gender,hire_date
10021,1960-02-20,Ramzi,Erde,M,1988-02-10
10022,1952-07-08,Shahaf,Famili,M,1995-08-22
10023,1953-09-29,Bojan,Montemayor,F,1989-12-17


IN 句もサブクエリと組み合わせることができ、先ほど EXISTS 句を使って書いた検索クエリを以下のようにして IN 句で書き換えることが可能です。

In [7]:
%%sql
select
    *
from
    employees
where
    emp_no in
    (select
        emp_no
    from
        titles
    where
        title = 'Technique Leader'
    )
limit 5

 * mysql+pymysql://hello:***@10.0.1.100/employees
5 rows affected.


emp_no,birth_date,first_name,last_name,gender,hire_date
10021,1960-02-20,Ramzi,Erde,M,1988-02-10
10025,1958-10-31,Prasadram,Heyers,M,1987-08-17
10033,1956-11-14,Arif,Merlo,M,1987-03-18
10044,1961-09-21,Mingsen,Casley,F,1994-05-21
10069,1960-09-06,Margareta,Bierman,F,1989-11-05


## 6. 内部結合

`JOIN` を利用することで SELECT 文を実行するときに複数のテーブルまたはサブクエリを結合した結果を取得することができます。結合形式には内部結合（`INNER JOIN`）と外部結合（`OUTER JOIN`）とクロス結合（`CROSS JOIN`）の3種類があり、それぞれ役割が異なります（外部結合については LEFT か RIGHT かという違いがあります）。

INNER JOIN と OUTER JOIN の構文については以下のようになっており複数のテーブルを JOIN することもできます。MySQL で `JOIN` とだけ記述した場合は `INNER JOIN` がデフォルトの動作になっています。

```sql
SELECT
    <式>
FROM
    <テーブル>
JOIN
    <結合するテーブル>
ON
    <結合する条件>
JOIN
    <別の結合するテーブル>
ON
    <結合する条件>
```

`INNER JOIN` は ID などが共通のレコードを結合させることができます。以下は `employees` テーブルと `salaries` テーブルについて `emp_no` が一致するレコードを結合します。

In [8]:
%%sql
select
    first_name,
    salary
from
    employees as l
    
inner join
    salaries as r
on l.emp_no = r.emp_no
-- ここは using (emp_no) とも書ける

where
    to_date = '9999-01-01' -- salaries テーブルには過去の給与情報も入っているのでこの条件で最新の給与を絞り込む

limit 5

 * mysql+pymysql://hello:***@10.0.1.100/employees
5 rows affected.


first_name,salary
Georgi,88958
Bezalel,72527
Parto,43311
Chirstian,74057
Kyoichi,94692


## 7. 外部結合

`INNER JOIN` だと片方のテーブルに含まれないレコードが消失してしまいます。`OUTER JOIN` を利用することでマッチするデータが存在しない場合は `NULL` 扱いにして結合を行うことができます。`LEFT OUTER JOIN` と `RIGHT OUTER JOIN` の2種類があり、どちらのテーブルをベースに外部結合するかで使い分けます。 

In [9]:
%%sql
create temporary table tmp.some (
    id int,
    name text
)
;

create temporary table tmp.another (
    id int,
    attribute text
)
;

insert into tmp.some values (1, "alice"), (2, "bob"), (3, "carlie");
insert into tmp.another values (1, "hello"), (3, "world");

 * mysql+pymysql://hello:***@10.0.1.100/employees
0 rows affected.
0 rows affected.
3 rows affected.
2 rows affected.


[]

`tmp.some` テーブルには `id` と `name` が紐づいたレコードが入っています。

In [10]:
%%sql
select * from tmp.some;

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


id,name
1,alice
2,bob
3,carlie


`tmp.another` テーブルには `id` と `attribute` が紐づいたレコードが入っています。

In [11]:
%%sql
select * from tmp.another;

 * mysql+pymysql://hello:***@10.0.1.100/employees
2 rows affected.


id,attribute
1,hello
3,world


`tmp.another` には `id=2` のレコードが存在しないので、`id` で `INNER JOIN` すると `id=2` のレコードは結合されません。

In [12]:
%%sql
select
    *
from
    tmp.some
join
    tmp.another
using (id)

 * mysql+pymysql://hello:***@10.0.1.100/employees
2 rows affected.


id,name,attribute
1,alice,hello
3,carlie,world


`LEFT OUTER JOIN` の場合は `tmp.some` に入っているレコードは全て残り、`tmp.another` に対応するレコードがない場合は `NULL` であるものとして結合を行います。

In [13]:
%%sql
select
    *
from
    tmp.some
left outer join
    tmp.another
using (id)

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


id,name,attribute
1,alice,hello
3,carlie,world
2,bob,


`RIGHT OUTER JOIN` の場合については `tmp.another` のレコードがベースになるので `id=2` のレコードは結合されません。

In [14]:
%%sql
select
    *
from
    tmp.some
right outer join
    tmp.another
using (id)

 * mysql+pymysql://hello:***@10.0.1.100/employees
2 rows affected.


id,attribute,name
1,hello,alice
3,world,carlie


## 8. 交差結合

`CROSS JOIN` は二つのテーブルについて各レコードの組み合わせを列挙できる結合方法です。

```sql
SELECT
    <式>
FROM
    <テーブル>
CROSS JOIN
    <結合するテーブル>
```

CROSS JOIN には ON などの条件指定は付きません。以下は tmp.some テーブルと tmp.another テーブルについて name と attribute の組み合わせを列挙するクエリです。

In [15]:
%%sql
select
    name,
    attribute
from
    tmp.some
cross join
    tmp.another

 * mysql+pymysql://hello:***@10.0.1.100/employees
6 rows affected.


name,attribute
alice,hello
alice,world
bob,hello
bob,world
carlie,hello
carlie,world


これだけだと何が嬉しいのか分かりにくいですが、日付に抜けがあるようなログデータに対して穴埋めを行なったり、ネストした構造に対応しているクエリエンジン（Presto や BigQuery など）では配列データをレコードに変換するときなどによく使います。

ここでは MySQL 5.7 からサポートされた `JSON` 型を使って `CROSS JOIN` で JSON の配列をレコードに変換してみましょう。まずは JSON 型のカラムを持つテーブルを作ってみます。

In [16]:
%%sql
-- drop table tmp.hello_json;
create temporary table tmp.hello_json (
    data json
)
;

 * mysql+pymysql://hello:***@10.0.1.100/employees
0 rows affected.


[]

続けて `data` カラムに JSON の文字列を格納します。

In [17]:
%%sql
insert into tmp.hello_json values ('{"hello":"world", "list": ["item-1", "item-2", "item-3"]}')

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


[]

JSON のプロパティにアクセスするには `json_extract` 関数を利用します。

In [18]:
%%sql
select json_extract(data, '$.hello') from tmp.hello_json;

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


"json_extract(data, '$.hello')"
"""world"""


MySQL 8.0 で追加された `json_table` 関数を利用すると JSON 文字列をテーブルとして操作することが可能です

In [19]:
%%sql
select
    *
from
    json_table('{"hello":"world"}', "$" columns (hello text path '$.hello')) as t

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


hello
world


これを `CROSS JOIN` と組み合わせることで JSON の配列データをレコードに分割することができます。

In [20]:
%%sql
select
    item
from
    tmp.hello_json
cross join
    -- data は tmp.hello_json のカラム
    json_table(data, '$.list[*]' columns (item varchar(20) path '$')) as t

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


item
item-1
item-2
item-3


CROSS JOIN はテーブルをカンマ区切りにすることでも表現できます

In [21]:
%%sql
select
    item
from
    tmp.hello_json,
    json_table(data, '$.list[*]' columns (item varchar(20) path '$')) as t

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


item
item-1
item-2
item-3


## 9. UNION

`UNION` 句を使うとクエリの結果を縦方向に結合することができます。

In [22]:
%%sql
select
    1 as id,
    'hello' as name

union
select
    2 as id,
    'world' as name

 * mysql+pymysql://hello:***@10.0.1.100/employees
2 rows affected.


id,name
1,hello
2,world


## 🌱 練習問題 # 1/2

`dept_emp` テーブルと `salaries` テーブルの情報を元に、所属する社員の平均給与（salary）が最も高い部署（department）を調査してください。`dept_emp` テーブルと `salaries` テーブルはそれぞれ `to_date` カラムが `9999-01-01` であるレコードの情報を対象とするものとします。

- `employees` テーブルと `dept_emp` テーブルを INNER JOIN し社員が所属する部署 `dept_no` を紐付けます
- 上記結果と `salaries` テーブルを INNER JOIN し社員の給与 `salary` を紐付けます
- 部署ごとに `salary` カラム の平均値を求め、平均給与が最大の `dept_no` を求めます

In [66]:
%%sql
-- ここにクエリを入力してください
select 1

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


1
1


In [None]:
# 実行後、"your answer" の右側に表示される入力ボックスに答えを入力し Enter キーを押してください m(_ _)m
import urllib.request

answer = input('your answer (first_name): ')

url = 'http://10.0.1.100:18080/submit'
data = 'q=q5&a={}'.format(answer.strip()).encode('utf-8')
req = urllib.request.Request(url, data=data, method='POST')
with urllib.request.urlopen(req) as res:
    print(res.read().decode('utf-8'))

## 🌱 練習問題 # 2/2

`titles` テーブルと `salaries` テーブルの情報を元に、所属する社員の平均給与が最大である部署の中で `title` が `Staff` の社員のうち最も給与 `salary` が高い社員の `first_name` を調べてください。ただし `titles` テーブルと `salaries` テーブルは `to_date` カラムが `9999-01-01` であるレコードの情報を対象とするものとします。

In [65]:
%%sql
-- ここにクエリを入力してください
select 1

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


1
1


In [None]:
# 実行後、"your answer" の右側に表示される入力ボックスに答えを入力し Enter キーを押してください m(_ _)m
import urllib.request

answer = input('your answer (first_name): ')

url = 'http://10.0.1.100:18080/submit'
data = 'q=q6&a={}'.format(answer.strip()).encode('utf-8')
req = urllib.request.Request(url, data=data, method='POST')
with urllib.request.urlopen(req) as res:
    print(res.read().decode('utf-8'))