# 6 データベースの応用（高度なSQL処理と高速化）

- **[6.1 この章の概要](#6.1-この章の概要)**
    - [6.1.1 この章について](#6.1.1-この章について)
    - [6.1.2 高度なSQL処理](#6.1.2-高度なSQL処理)
    - [6.1.3 ストアドプロシージャとストアドファンクション](#6.1.3-ストアドプロシージャとストアドファンクション)
    - [6.1.4 SQLの高速化について](#6.1.4-SQLの高速化について)
    - [6.1.5 その他](#6.1.5-その他)
<br><br>
- **[6.2 高度なSQL処理](#6.2-高度なSQL処理)** 
    - [6.2.1 データの準備と確認](#6.2.1-データの準備と確認)
    - [6.2.2 exists文、case文、自己結合の応用](#6.2.2-exists文、case文、自己結合の応用)
    - [6.2.3 外部結合の応用](#6.2.3-外部結合の応用)
    - [6.2.4（応用）having句の応用](#6.2.4-（応用）having句の応用)
<br><br> 
- **[6.3 ストアドプロシージャとスドアドファンクション](#6.3-ストアドプロシージャとスドアドファンクション)** 
    - [6.3.1 ストアドプロシージャ](#6.3.1-ストアドプロシージャ)
    - [6.3.2 ストアドファンクション](#6.3.2-ストアドファンクション)
<br><br>
- **[6.4 インデクシングとSQLの高速化](#6.4-インデクシングとSQLの高速化)**
    - [6.4.1 インデックスの設定](#6.4.1-インデックスの設定)
    - [6.4.2 インデックスの種類](#6.4.2-インデックスの種類)
    - [6.4.3 SQLのパフォーマンスチューニング](#6.4.3-SQLのパフォーマンスチューニング)
<br><br>
- **[6.5 その他](#6.5-その他)**
    - [6.5.1 データベースとファイルのやり取り](#6.5.1-データベースとファイルのやり取り)
    - [6.5.2 データモデリングと正規化](#6.5.2-データモデリングと正規化)
<br><br>
- **[6.6 総合問題](#6.6-総合問題)**
    - [6.6.1 総合問題1](#6.6.1-総合問題1)
    - [6.6.2 総合問題2](#6.6.2-総合問題2)

***

## 6.1 この章の概要
ゴール：複雑なSQL処理や高速化ができることを知る

### 6.1.1 この章について
キーワード：特になし

この章では、5章の基礎知識をベースに、さらにSQLの操作方法に慣れるため、また高度な処理ができるようになるための技法を身につけていただきます。ここをクリアできれば、SQLの中級者の道へと進み、後は独学でも学ぶことができるでしょう。以下の文献が参考になりますので、ここが終わった後は是非読むことをおすすめします。最後の参考文献『ビッグデータ分析・活用のためのSQLレシピ』は、PostgreSQLやRedshift等いろいろな記述方法が載っていますし、またマーケティング分析でよく使うテクニック等もあり、調べ物として便利です。

**注意：この章で使うデータベースやテーブルは5章で作成したもの（練習問題含む）も一部使いますので、5章のSQLは実行済みで、該当のデータがあるとしてこの章を進めていきます。**

>[参考文献]

>『SQL実践入門──高速でわかりやすいクエリの書き方 (WEB+DB PRESS plus) 』（ミック  (著)、技術評論社）

>『プログラマのためのSQL 第4版』（ジョー・セルコ (著), Joe Celko (著), ミック (監修, 翻訳)、翔泳社）

>『達人に学ぶ SQL徹底指南書』（ミック  (著)、翔泳社）

>『達人に学ぶDB設計 徹底指南書 初級者で終わりたくないあなたへ 』（ミック  (著)、翔泳社）

>『ビッグデータ分析・活用のためのSQLレシピ』（加嵜 長門  (著), 田宮 直人  (著), 丸山 弘詩 (編集)、マイナビ出版 ）

### 6.1.2 高度なSQL処理
キーワード：exists,自己結合,case文活用

前章までは短いSQL文を学んできましたが、この章では少し難しいSQLの処理(exit,差分などテクニカルな処理)や、比較的大きなデータや複数のデータソースを使って、複雑なSQL文を書く処理を学んでいきましょう。

### 6.1.3 ストアドプロシージャとストアドファンクション
キーワード：ストアドプロシージャ、ストアドファンクション

一連の処理をするストアドプロシージャについて学びます。SQL文を単発で使うのではなく、いくつか組み合わせたり、関数のように用いる（ストアドファンクション）こともできます。ここで、それらの処理について学びましょう。

### 6.1.4 SQLの高速化について
キーワード：インデクシング

他のプログラミング言語同様、同じデータ抽出結果でもSQLの書き方は様々なパターンがあります。SQLの書き方によって、データ抽出スピードが上がることもありますし、インデクシングというパフォーマンスチューニングによって、効率を上げることができます。

### 6.1.5 その他
キーワード：ファイルのやり取り、データモデリング、正規化

その他、データベースとSQLについて、知っておくと便利なこと、概念等について説明します。主に、csvファイルなどのやり取りとデータモデリング、正規化について学びます。

***

## 6.2 高度なSQL処理
ゴール：複雑な処理をSQLを使って計算することができる

### 6.2.1 データの準備と確認
キーワード：show,use,desc

前章までは短いSQL文を学んできましたが、この章では少し難しい処理をSQLで書いたり、比較的大きなデータや複数のデータソースを使います。ここで、複雑なSQL文を書く練習をしていきましょう。

この章では以下のデータを使います。このデータはある会社の従業員データで、従業員の属性や所属部署、給与等のデータが入っているデータベースです。まず、5章の総合問題で準備した同じ手順でデータを取得し、データベースに挿入します。（注意事項等を読んでください。）

https://launchpad.net/test-db/employees-db-1

terminal(もしくは画面上にあるKernelをPythonに変更して)から以下のコマンドを入力します。

-------------------
wget https://launchpad.net/test-db/employees-db-1/1.0.6/+download/employees_db-full-1.0.6.tar.bz2  
tar jxfv  employees_db-full-1.0.6.tar.bz2  
cd employees_db  
mysql -h"db1" -P"3306" -u root -p"ilect" < employees.sql  

-------------------

そして、employeesを選択してみます。次のSQLコマンドを実行してみましょう。

In [2]:
show databases;
use employees;

show databases; use employees;
+--------------------+
| Database           |
+--------------------+
| TEST1              |
| TEST2              |
| employees          |
| information_schema |
| mysql              |
| performance_schema |
| world              |
+--------------------+
7 rows in set (0.00 sec)

Database changed
MariaDB [employees]

テーブルを見てみましょう。テーブルが6つあるのが確認できます。

In [6]:
show tables;

show tables;
+---------------------+
| Tables_in_employees |
+---------------------+
| departments         |
| dept_emp            |
| dept_manager        |
| employees           |
| salaries            |
| titles              |
+---------------------+
6 rows in set (0.00 sec)

MariaDB [employees]

それぞれのデータ構造を簡単に見てみます。従業員のデータで、部署テーブル、部署のマネージャーテーブル、給料テーブル、職種タイトルテーブルなどがあります。なお、salariesテーブルなどはレコード数が少し多い（100万レコード以上）ので、呼び出すときは注意しましょう。

In [4]:
desc departments;desc dept_emp;desc dept_manager;desc employees;desc salaries;desc titles;

desc departments;desc dept_emp;desc dept_manager;desc employees;desc salaries;desc titles;
+-----------+-------------+------+-----+---------+-------+
| Field     | Type        | Null | Key | Default | Extra |
+-----------+-------------+------+-----+---------+-------+
| dept_no   | char(4)     | NO   | PRI | NULL    |       |
| dept_name | varchar(40) | NO   | UNI | NULL    |       |
+-----------+-------------+------+-----+---------+-------+
2 rows in set (0.00 sec)

+-----------+---------+------+-----+---------+-------+
| Field     | Type    | Null | Key | Default | Extra |
+-----------+---------+------+-----+---------+-------+
| emp_no    | int(11) | NO   | PRI | NULL    |       |
| dept_no   | char(4) | NO   | PRI | NULL    |       |
| from_date | date    | NO   |     | NULL    |       |
| to_date   | date    | NO   |     | NULL    |       |
+-----------+---------+------+-----+---------+-------+
4 rows in set (0.00 sec)

+-----------+---------+------+-----+---------

以下は参考ですが、ER図といい、それぞれのテーブルの関係性を示した図です。テーブルを設計をしたり、テーブル間の関係を確認するときによく使います。

![comment](https://dev.mysql.com/doc/employee/en/images/employees-schema.png)

参照URL：https://dev.mysql.com/doc/employee/en/sakila-structure.html

### 6.2.2 exists文、case文、自己結合の応用
キーワード：条件分岐、自己結合

ここでは前章では取り扱わなかったexists文や自己結合を使った処理を学びます。

exists文は、以下のように記述し、副問合せによって返されたレコードが一つでもあれば真，一つもなければ偽を返します。

In [4]:
select * from dept_manager a
where exists ( select * from departments b where a.dept_no = b.dept_no) limit 10;

select * from dept_manager a where exists ( select * from departments b where a.dept_no = b.dept_no) limit 10;
+---------+--------+------------+------------+
| dept_no | emp_no | from_date  | to_date    |
+---------+--------+------------+------------+
| d001    | 110022 | 1985-01-01 | 1991-10-01 |
| d001    | 110039 | 1991-10-01 | 9999-01-01 |
| d002    | 110085 | 1985-01-01 | 1989-12-17 |
| d002    | 110114 | 1989-12-17 | 9999-01-01 |
| d003    | 110183 | 1985-01-01 | 1992-03-21 |
| d003    | 110228 | 1992-03-21 | 9999-01-01 |
| d004    | 110303 | 1985-01-01 | 1988-09-09 |
| d004    | 110344 | 1988-09-09 | 1992-08-02 |
| d004    | 110386 | 1992-08-02 | 1996-08-30 |
| d004    | 110420 | 1996-08-30 | 9999-01-01 |
+---------+--------+------------+------------+
10 rows in set (0.00 sec)



次は、case文を活用した例です。job titleを見てみますと7種類あるのがわかります。ここで、このタイトルを新しいカテゴリーに分類して、それぞれのレコード数をカウントしてみましょう。現在のjob title毎のレコード数は、以下のようになります。（なお、1人で2つ以上のタイトルが付いている人がいますが、今は特に気にしないことにします。）

In [13]:
select distinct title from titles;

select  distinct title from titles;
+--------------------+
| title              |
+--------------------+
| Senior Engineer    |
| Staff              |
| Engineer           |
| Senior Staff       |
| Assistant Engineer |
| Technique Leader   |
| Manager            |
+--------------------+
7 rows in set (0.48 sec)



ここで、これらのタイトルを新しいカテゴリーに分類して、それぞれのレコード数をカウントしてみましょう。具体的には、Engineerとついている人はEngineer、Staffとついている人はStaff、LeaderかManagerとついている人はLeaderで大分類としてカテゴリーを分けて、それぞれのレコード数をカウントします。

In [6]:
select case title
        when 'Engineer' then 'Engineer'
        when 'Staff' then 'Staff'
        when 'Senior Engineer' then 'Engineer'
        when 'Senior Staff ' then 'Staff'
        when 'Technique Leader' then 'Leader'
        when 'Assistant Engineer' then 'Engineer'
        when 'Manager' then 'Leader'
    else 'others' end as category
    ,count(*) as cnt
from titles
group by category;

select case title when 'Engineer' then 'Engineer' when 'Staff' then 'Staff' when 'Senior Engineer' then 'Engineer' when 'Senior Staff ' then 'Staff' when 'Technique Leader' then 'Leader' when 'Assistant Engineer' then 'Engineer' when 'Manager' then 'Leader' else 'others' end as category ,count(*) as cnt from titles group by category;
+----------+--------+
| category | cnt    |
+----------+--------+
| Engineer | 227881 |
| Leader   |  15183 |
| Staff    | 200244 |
+----------+--------+
3 rows in set (0.60 sec)



次は、自分自身のテーブルと結合する**自己結合**です。情報としては自分のテーブルだけあれば良いように思えますが、どういった場面で自己結合が役に立つのか、それを見ていくことにします。

以下は、depatmentsテーブルを使って集計例を見てみます。部署は9種類あるのがわかります。

In [10]:
select * from departments order by 1;

select * from departments order by 1;
+---------+--------------------+
| dept_no | dept_name          |
+---------+--------------------+
| d001    | Marketing          |
| d002    | Finance            |
| d003    | Human Resources    |
| d004    | Production         |
| d005    | Development        |
| d006    | Quality Management |
| d007    | Sales              |
| d008    | Research           |
| d009    | Customer Service   |
+---------+--------------------+
9 rows in set (0.00 sec)



データのレコードから、すべての組み合わせ（重複ありで自身の組み合わせ含む）のテーブルを作りたいときがある場合に、以下のようにして、自己結合します。9種類あったので、81通り（9×9）あります。（ただし、表示される行数が多いため、表記上、limit 10と制限をしています。以下、同様です。）

In [19]:
select a.*,b.* 
from departments a,departments b limit 10;

select a.*,b.* from departments a,departments b limit 10;
+---------+--------------------+---------+-----------+
| dept_no | dept_name          | dept_no | dept_name |
+---------+--------------------+---------+-----------+
| d009    | Customer Service   | d001    | Marketing |
| d005    | Development        | d001    | Marketing |
| d002    | Finance            | d001    | Marketing |
| d003    | Human Resources    | d001    | Marketing |
| d001    | Marketing          | d001    | Marketing |
| d004    | Production         | d001    | Marketing |
| d006    | Quality Management | d001    | Marketing |
| d008    | Research           | d001    | Marketing |
| d007    | Sales              | d001    | Marketing |
| d009    | Customer Service   | d002    | Finance   |
+---------+--------------------+---------+-----------+
10 rows in set (0.01 sec)

MariaDB [employees]

すべての組み合わせで、重複ありますが、自身の組み合わせがないパターンを作成したい場合は、以下のようにします。これは81-9=72通りあります。

In [22]:
select a.*,b.* 
from departments a,departments b
where a.dept_no != b.dept_no limit 10;

select a.*,b.* from departments a,departments b on a.dept_no != b.dept_no limit 10;
 ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MariaDB server version for the right syntax to use near 'on a.dept_no != b.dept_no limit 10' at line 1
MariaDB [employees]

すべての組み合わせ（重複なし）は以下のようにします。9種類から2種類選ぶので、${}_9 C _2=36$通りで、36行表示されます。

In [17]:
select a.*,b.* 
from departments a,departments b
where a.dept_no > b.dept_no limit 10;

select a.*,b.* from departments a,departments b where a.dept_no > b.dept_no limit 10;
+---------+------------------+---------+--------------------+
| dept_no | dept_name        | dept_no | dept_name          |
+---------+------------------+---------+--------------------+
| d009    | Customer Service | d001    | Marketing          |
| d009    | Customer Service | d002    | Finance            |
| d009    | Customer Service | d003    | Human Resources    |
| d009    | Customer Service | d004    | Production         |
| d009    | Customer Service | d005    | Development        |
| d009    | Customer Service | d006    | Quality Management |
| d009    | Customer Service | d007    | Sales              |
| d009    | Customer Service | d008    | Research           |
| d005    | Development      | d001    | Marketing          |
| d005    | Development      | d002    | Finance            |
+---------+------------------+---------+--------------------+
10 rows in set (0.00 sec)



この自己結合を使うことで、例えば、ある項目のデータのランキング結果を表示させることが可能です。以下、salariesテーブルの中から、従業員（emp_no）の給料が高い人を降順に並べ、ランキングを表示する列を追加する処理をしています。このような集計をしたい場合に、自己結合が使えます。

In [19]:
select a.emp_no
    ,a.salary
    ,a.from_date
    ,a.to_date
    ,(
        select count(b.salary)
        from salaries b
        where b.salary > a.salary
    　) + 1 as rank_1
from salaries a order by a.salary desc limit 10;

select a.emp_no ,a.salary ,a.from_date ,a.to_date ,( select count(b.salary) from salaries b where b.salary > a.salary ) + 1 as rank_1 from salaries a order by a.salary desc limit 10;
+--------+--------+------------+------------+--------+
| emp_no | salary | from_date  | to_date    | rank_1 |
+--------+--------+------------+------------+--------+
|  43624 | 158220 | 2002-03-22 | 9999-01-01 |      1 |
|  43624 | 157821 | 2001-03-22 | 2002-03-22 |      2 |
| 254466 | 156286 | 2001-08-04 | 9999-01-01 |      3 |
|  47978 | 155709 | 2002-07-14 | 9999-01-01 |      4 |
| 253939 | 155513 | 2002-04-11 | 9999-01-01 |      5 |
| 109334 | 155377 | 2000-02-12 | 2001-02-11 |      6 |
| 109334 | 155190 | 2002-02-11 | 9999-01-01 |      7 |
| 109334 | 154888 | 2001-02-11 | 2002-02-11 |      8 |
| 109334 | 154885 | 1999-02-12 | 2000-02-12 |      9 |
|  80823 | 154459 | 2002-02-22 | 9999-01-01 |     10 |
+--------+--------+------------+------------+--------+
10 rows in set (6.21 sec)



#### <練習問題 1>

case文を使って部署毎にgender別の人数を集計してみましょう。(特に部署移動等は考慮しなくて良いです。)

ヒント：case文をsum関数の中に記述できます。

In [12]:
select
    de.dept_no as dno, 
    sum(case when e.gender='M' then 1 else 0 end) as MaleCount, 
    sum(case when e.gender='F' then 1 else 0 end) as FemaleCount
 from dept_emp as de join employees as e on de.emp_no = e.emp_no
 group by dno
     limit 10

select de.dept_no as dno, sum(case when e.gender='M' then 1 else 0 end) as MaleCount, sum(case when e.gender='F' then 1 else 0 end) as FemaleCount from dept_emp as de join employees as e on de.emp_no = e.emp_no group by dno limit 10;
+------+-----------+-------------+
| dno  | MaleCount | FemaleCount |
+------+-----------+-------------+
| d001 |     12174 |        8037 |
| d002 |     10331 |        7015 |
| d003 |     10711 |        7075 |
| d004 |     43936 |       29549 |
| d005 |     51449 |       34258 |
| d006 |     12039 |        8078 |
| d007 |     31391 |       20854 |
| d008 |     12687 |        8439 |
| d009 |     14132 |        9448 |
+------+-----------+-------------+
9 rows in set (0.38 sec)

MariaDB [employees]

#### <練習問題 2>

job titleの全ての組み合わせ（重複なし）を表示してみましょう。

In [33]:
select * from (select distinct title from titles) as a join (select distinct title from titles) as b where a.title>b.title

select * from (select distinct title from titles) as a join (select distinct title from titles) as b where a.title>b.title;
+------------------+--------------------+
| title            | title              |
+------------------+--------------------+
| Staff            | Senior Engineer    |
| Senior Staff     | Senior Engineer    |
| Technique Leader | Senior Engineer    |
| Technique Leader | Staff              |
| Senior Engineer  | Engineer           |
| Staff            | Engineer           |
| Senior Staff     | Engineer           |
| Technique Leader | Engineer           |
| Manager          | Engineer           |
| Staff            | Senior Staff       |
| Technique Leader | Senior Staff       |
| Senior Engineer  | Assistant Engineer |
| Staff            | Assistant Engineer |
| Engineer         | Assistant Engineer |
| Senior Staff     | Assistant Engineer |
| Technique Leader | Assistant Engineer |
| Manager          | Assistant Engineer |
| Senior Enginee

#### <練習問題 3>

exists文を使って部署毎に現在job titleがStaffである人数を集計してみましょう。なお、現在とは、dateが9999-01-01のことを指すとします。

メモ
* emp_noはユニークではなく、各テーブルは「いつからいつまで誰がどの部署にいたか」「いつからいつまで誰が何の肩書きだったか」を示す。
* つまり、部署異動や肩書き変更があった場合は同じ人のレコードが複数行登録されている。
* なのでdept_empもtitlesもまずは最新の情報（to_dataが9999-01-01）にフィルタリングする必要がある。
* dept_emp→「現在」のemp_noとdept_no
* titles→「現在」「Staffである」人のemp_no

In [88]:
/* 解1 */
select dept_no, count(emp_no) as StaffCount
from (select * from dept_emp de where de.to_date=date'9999-01-01') a
where exists(select * from titles b where a.emp_no = b.emp_no and b.to_date=date'9999-01-01' and b.title='Staff')
group by dept_no

/* 解1 */ select dept_no, count(emp_no) as StaffCount from (select * from dept_emp de where de.to_date=date'9999-01-01') a where exists(select * from titles b where a.emp_no = b.emp_no and b.title='Staff') group by dept_no;
+---------+------------+
| dept_no | StaffCount |
+---------+------------+
| d001    |      11885 |
| d002    |       9995 |
| d003    |      10407 |
| d004    |       1185 |
| d005    |       1123 |
| d007    |      30117 |
| d008    |       9646 |
| d009    |      11836 |
+---------+------------+
8 rows in set (0.45 sec)

MariaDB [employees]

In [93]:
/* 解1 */
select dept_no, count(emp_no) as StaffCount
from (select * from dept_emp de where de.to_date=date'9999-01-01') a
where exists(select * from titles b where a.emp_no = b.emp_no and b.title='Staff')
group by dept_no

/* 解1 */ select dept_no, count(emp_no) as StaffCount from (select * from dept_emp de where de.to_date=date'9999-01-01') a where exists(select * from titles b where a.emp_no = b.emp_no and b.title='Staff') group by dept_no;
+---------+------------+
| dept_no | StaffCount |
+---------+------------+
| d001    |      11885 |
| d002    |       9995 |
| d003    |      10407 |
| d004    |       1185 |
| d005    |       1123 |
| d007    |      30117 |
| d008    |       9646 |
| d009    |      11836 |
+---------+------------+
8 rows in set (0.00 sec)

MariaDB [employees]

In [72]:
/* 解2 */
select dept_no, count(*)
from (
    select * from (select * from dept_emp de where de.to_date=date'9999-01-01') de_now
    where exists (select * from (select * from titles t where t.to_date=date'9999-01-01' and t.title = 'Staff') stf_emp where de_now.emp_no = stf_emp.emp_no)
    ) stf_dept
group by dept_no

select dept_no, count(*) from ( select * from (select * from dept_emp de where de.to_date=date'9999-01-01') de_now where exists (select * from (select * from titles t where t.to_date=date'9999-01-01' and t.title = 'Staff') stf_emp where de_now.emp_no = stf_emp.emp_no) ) stf_dept group by dept_no;
+---------+----------+
| dept_no | count(*) |
+---------+----------+
| d001    |     3551 |
| d002    |     2891 |
| d003    |     3073 |
| d004    |      349 |
| d005    |      315 |
| d007    |     8903 |
| d008    |     2870 |
| d009    |     3574 |
+---------+----------+
8 rows in set (0.00 sec)

MariaDB [employees]

### 6.2.3 外部結合の応用
キーワード：クロス集計、差分集合

ここでは外部結合を活用してみることにしましょう。

SQLを使ったクロス集計を実施してみます。以下は、各従業員（emp_no）がどのjob titleを持っているか（いたか）をクロス表にしています。外部結合でNULLになった場合は該当しないため空白とし、それ以外は該当するため'OK'と表示しています。Staff、Senior Staff、Engineerを対象に集計しています。

In [13]:
select 
    *
from (select distinct emp_no from employees ) x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no
limit 10;

select * from (select distinct emp_no from employees ) x0 left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no limit 10;
+--------+--------+--------+--------+
| emp_no | emp_no | emp_no | emp_no |
+--------+--------+--------+--------+
|  10001 |   NULL |   NULL |   NULL |
|  10002 |  10002 |   NULL |   NULL |
|  10003 |   NULL |   NULL |   NULL |
|  10004 |   NULL |   NULL |  10004 |
|  10005 |  10005 |  10005 |   NULL |
|  10006 |   NULL |   NULL |   NULL |
|  10007 |  10007 |  10007 |   NULL |
|  10008 |   NULL |   NULL |   NULL |
|  10009 |   NULL |   NULL |  10009 |
|  10010 |   NULL |   NULL |  10010 |
+--------+--------+--------+--------+
10 rows in set (0.00 sec)

MariaDB [employees]

In [20]:
select 
    x0.emp_no
    ,case when x1.emp_no is not null then 'OK' else '' end as "Staff"
    ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff"
    ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer"
from (select distinct emp_no from employees ) x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no
limit 10;

select x0.emp_no ,case when x1.emp_no is not null then 'OK' else '' end as "Staff" ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff" ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer" from (select distinct emp_no from employees ) x0 left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no limit 10;
+--------+-------+--------------+----------+
| emp_no | Staff | Senior Staff | Engineer |
+--------+-------+--------------+----------+
|  10001 |       |              |          |
|  10002 | OK    |              |          |
|  10003 |       |              |          |
|  10004 |       |              | OK       |
|  10005 | OK    | OK           |          |
|  10006 |       |              |          |
|  10007 | OK

例えば、emp_noが10001の人は3タイトルどれにもなったことがなく、emp_noが10005の人は、StaffとSenior Staff 両方なったことがあるということがわかります。

次は、外部結合を活用した、差分集合についてです。差分集合とは、ある集合Aと集合Bがあった場合に、Aの中からBである人を抜いた集合A-Bを取り出した集合になります。以下の参照図だと、左の丸がA、右の丸がBの集合だとすると、A-Bは赤い部分を指します。

![comment](https://upload.wikimedia.org/wikipedia/commons/thumb/e/e6/Venn0100.svg/220px-Venn0100.svg.png)

参照URL:https://upload.wikimedia.org/wikipedia/commons/thumb/e/e6/Venn0100.svg/220px-Venn0100.svg.png

job titleテーブルを使って、まずはそれぞれのjob titleで何人いるかカウントしています。

In [63]:
select title,count(emp_no) as cnt from titles group by 1;

select title,count(distinct emp_no) as cnt from titles group by 1;
+--------------------+--------+
| title              | cnt    |
+--------------------+--------+
| Assistant Engineer |  15128 |
| Engineer           | 115003 |
| Manager            |     24 |
| Senior Engineer    |  97750 |
| Senior Staff       |  92853 |
| Staff              | 107391 |
| Technique Leader   |  15157 |
+--------------------+--------+
7 rows in set (0.94 sec)



Staff とSenior Staffに注目してください。上記の集計では、それぞれ107,391人、92,853人いました。以下の集計で、どちらともこのポジションになっている人がいることがわかります（107391 + 92853 > 133981）。

In [62]:
select count(distinct emp_no) as cnt from titles where title='Senior Staff' or title='Staff'

select count(distinct emp_no) as cnt from titles where title='Senior Staff' or title='Staff';
+--------+
| cnt    |
+--------+
| 133981 |
+--------+
1 row in set (0.23 sec)



それでは、Staffだけになった人を抽出（カウント）するにはどうすればよいでしょうか。集合として、$A$をStaffになったの集合、$B$をSenior Staffになった人の集合すると、$A-B$と差分集合を求めるSQLは以下になります。

In [23]:
select * from 
(select * from titles where title='Staff') a
left outer join
(select * from titles where title='Senior Staff') b
on a.emp_no = b.emp_no
where b.title is NULL
limit 10;

select * from (select * from titles where title='Staff') a left outer join (select * from titles where title='Senior Staff') b on a.emp_no = b.emp_no where b.title is NULL limit 10;
+--------+-------+------------+------------+--------+-------+-----------+---------+
| emp_no | title | from_date  | to_date    | emp_no | title | from_date | to_date |
+--------+-------+------------+------------+--------+-------+-----------+---------+
|  10002 | Staff | 1996-08-03 | 9999-01-01 |   NULL | NULL  | NULL      | NULL    |
|  10011 | Staff | 1990-01-22 | 1996-11-09 |   NULL | NULL  | NULL      | NULL    |
|  10016 | Staff | 1998-02-11 | 9999-01-01 |   NULL | NULL  | NULL      | NULL    |
|  10019 | Staff | 1999-04-30 | 9999-01-01 |   NULL | NULL  | NULL      | NULL    |
|  10034 | Staff | 1995-04-12 | 1999-10-31 |   NULL | NULL  | NULL      | NULL    |
|  10055 | Staff | 1992-04-27 | 1995-07-22 |   NULL | NULL  | NULL      | NULL    |
|  10064 | Staff | 1985-11-20 | 1992-03-02 |   NULL |

また、以下はSenior Staffだけになった人です。

In [24]:
select * from 
(select * from titles where title='Senior Staff') a
left outer join
(select * from titles where title='Staff') b
on a.emp_no = b.emp_no
where b.title is NULL
limit 10;

select * from (select * from titles where title='Senior Staff') a left outer join (select * from titles where title='Staff') b on a.emp_no = b.emp_no where b.title is NULL limit 10;
+--------+--------------+------------+------------+--------+-------+-----------+---------+
| emp_no | title        | from_date  | to_date    | emp_no | title | from_date | to_date |
+--------+--------------+------------+------------+--------+-------+-----------+---------+
|  10013 | Senior Staff | 1985-10-20 | 9999-01-01 |   NULL | NULL  | NULL      | NULL    |
|  10015 | Senior Staff | 1992-09-19 | 1993-08-22 |   NULL | NULL  | NULL      | NULL    |
|  10036 | Senior Staff | 1992-04-28 | 9999-01-01 |   NULL | NULL  | NULL      | NULL    |
|  10053 | Senior Staff | 1994-11-13 | 9999-01-01 |   NULL | NULL  | NULL      | NULL    |
|  10058 | Senior Staff | 1988-04-25 | 9999-01-01 |   NULL | NULL  | NULL      | NULL    |
|  10059 | Senior Staff | 1991-06-26 | 9999-01-01 |   NULL | NULL  | NULL      | N

#### <練習問題 1>

各従業員について、最大給料が70,000以下の人、70,000～80,000の人、80,000～90,000の人、90,000より多い人でクロス表を作成してみましょう。

In [12]:
select
    x0.emp_no, x0.salary
    , case when x1.emp_no is not null then 'OK' else '' end "below_70000"
    , case when x2.emp_no is not null then 'OK' else '' end "70000-80000"
    , case when x3.emp_no is not null then 'OK' else '' end "80000-90000"
    , case when x4.emp_no is not null then 'OK' else '' end "over_70000"
from
    (select emp_no, max(salary) as salary from salaries group by emp_no) x0
    left outer join
    (select emp_no from salaries group by emp_no having max(salary) <= 70000) x1
    on x0.emp_no = x1.emp_no
    left outer join
    (select emp_no from salaries group by emp_no having max(salary) > 70000 and max(salary) <= 80000) x2
    on x0.emp_no = x2.emp_no
    left outer join
    (select emp_no from salaries group by emp_no having max(salary) > 80000 and max(salary) <= 90000) x3
    on x0.emp_no = x3.emp_no
    left outer join
    (select emp_no from salaries group by emp_no having max(salary) > 90000) x4
    on x0.emp_no = x4.emp_no
limit 10

select x0.emp_no, x0.salary , case when x1.emp_no is not null then 'OK' else '' end "below_70000" , case when x2.emp_no is not null then 'OK' else '' end "70000-80000" , case when x3.emp_no is not null then 'OK' else '' end "80000-90000" , case when x4.emp_no is not null then 'OK' else '' end "over_70000" from (select emp_no, max(salary) as salary from salaries group by emp_no) x0 left outer join (select emp_no from salaries group by emp_no having max(salary) <= 70000) x1 on x0.emp_no = x1.emp_no left outer join (select emp_no from salaries group by emp_no having max(salary) > 70000 and max(salary) <= 80000) x2 on x0.emp_no = x2.emp_no left outer join (select emp_no from salaries group by emp_no having max(salary) > 80000 and max(salary) <= 90000) x3 on x0.emp_no = x3.emp_no left outer join (select emp_no from salaries group by emp_no having max(salary) > 90000) x4 on x0.emp_no = x4.emp_no limit 10;
+--------+--------+-------------+-------------+-------------+------------+
| emp_no | 

#### <練習問題 2>

最大の給料が100,000より多い人のうち、最小の給料が90,000以上の人の数を求めてみましょう。

In [4]:
select count(*)
from
(select emp_no from (select emp_no, max(salary) as salary from salaries group by emp_no)tmp where salary > 100000)x0
inner join
(select emp_no from (select emp_no, min(salary) as salary from salaries group by emp_no)tmp where salary >= 90000)x1
on x0.emp_no = x1.emp_no
limit 10

select count(*) from (select emp_no from (select emp_no, max(salary) as salary from salaries group by emp_no)tmp where salary > 100000)x0 inner join (select emp_no from (select emp_no, min(salary) as salary from salaries group by emp_no)tmp where salary >= 90000)x1 on x0.emp_no = x1.emp_no limit 10;
+----------+
| count(*) |
+----------+
|     4835 |
+----------+
1 row in set (1.65 sec)

MariaDB [employees]

### 6.2.4 （応用）having句の応用
キーワード：having句

havingの応用です。次は各部署に所属している従業員の平均給与を計算し、その平均給与が60000以上の人が半分（50%）以上の部署を抽出します。（本来は年月日によって所属部署や給与が異なるので、それらを考慮し条件を絞る必要がありますが、少し複雑になりますので、今回はこの手法を理解するために、省略します。）

In [25]:
select 
    c.dept_no
    ,c.dept_name
    ,count(distinct a.emp_no) as cnt
    ,avg(avgSalary) as avgDepSalary 
from dept_emp a
left outer join
(
    select 
        emp_no
        ,avg(salary) as avgSalary 
    from salaries 
    group by 1
) b
on a.emp_no = b.emp_no 
left outer join departments c
on a.dept_no = c.dept_no
group by 1,2
having count(*) * 0.5 <= SUM(case when b.avgSalary >= 60000 then 1 else 0 end)
;

select c.dept_no ,c.dept_name ,count(distinct a.emp_no) as cnt ,avg(avgSalary) as avgDepSalary from dept_emp a left outer join ( select emp_no ,avg(salary) as avgSalary from salaries group by 1 ) b on a.emp_no = b.emp_no left outer join departments c on a.dept_no = c.dept_no group by 1,2 having count(*) * 0.5 <= SUM(case when b.avgSalary >= 60000 then 1 else 0 end) ;
+---------+-----------+-------+----------------+
| dept_no | dept_name | cnt   | avgDepSalary   |
+---------+-----------+-------+----------------+
| d001    | Marketing | 20211 | 69541.61771136 |
| d002    | Finance   | 17346 | 68061.43501801 |
| d007    | Sales     | 52245 | 78313.22247361 |
+---------+-----------+-------+----------------+
3 rows in set (3.45 sec)



***

## 6.3 ストアドプロシージャとスドアドファンクション
ゴール：ストアドプロシージャについて操作できること

### 6.3.1 ストアドプロシージャ
キーワード：ストアドプロシージャ

SQLを使った一連の処理をまとめて実行するためのストアドプロシージャについて学んでいきましょう。前までは、SQLを単発で実行してきました。しかし、連続して同じような処理を実行したい場合など、都度それらを実行するのは面倒です。そこで、それらの処理を一括にまとめて処理するストアドプロシージャを用意して実行すれば、作業を効率化できます。
また、変数を用いた演算、条件分岐やテーブルの作成など多少複雑な処理も可能になります。ここでは、簡単なストアドプロシージャの作成について学びます。

In [28]:
show databases;
use TEST1;

show databases; use TEST1;
+--------------------+
| Database           |
+--------------------+
| information_schema |
| TEST1              |
| employees          |
| foodmart_mondrian  |
| mysql              |
| performance_schema |
| sakila             |
| sys                |
| test2              |
| world              |
+--------------------+
10 rows in set (0.00 sec)

Database changed


まず、ストアドプロシージャを作成するときは、以下のdelimiter //を実行してデリミタを指定します。プロシージャを作成するときはこれを忘れないようにしましょう。

通常、デリミタはセミコロンですが、ストアドプロシージャの中には複数のSQL文を定義するため、途中で定義が終了しないようにデリミッタを変更します。**なおここの環境では、delimiterを実行する場合は、以下のようにセル1つ1行で「delimiter //」のみ記載して、実行してください。コメントを入れたり、まとめて処理を書かないようにしてください。**

In [29]:
delimiter //

delimiter //;



次に、ストアドプロシージャ作成をするのは、create procedureで始まり、beginとendでsql文を書き、最後に変更したデリミタの // をつけます。

In [30]:
create procedure stpr1()
begin
select * from meibo;
select * from meibo2;
end
//

create procedure stpr1() begin select * from meibo; select * from meibo2; end //;

Query OK, 0 rows affected (0.01 sec)



最後に、以下のdelimiter ;も忘れないように実行しましょう。デリミタをもとに戻します。（**こちらもこの1行だけのセルに記載し、実行してください。**）

In [31]:
delimiter ;

delimiter ;



作成したストアドプロシージャを呼ぶときは、以下のcallを使って実行します。

In [32]:
call stpr1;

call stpr1;
+----+----------+-------+------+
| id | name     | class | age  |
+----+----------+-------+------+
|  1 | Yamada   |     1 |   14 |
|  2 | Tanaka   |     2 |   13 |
|  3 | Suzuki   |     1 |   13 |
|  5 | Ito      |     3 |   12 |
|  6 | Takeuchi |     2 |   16 |
|  7 | Kimura   |     3 |   11 |
|  8 | Sato     |     1 |   14 |
+----+----------+-------+------+
7 rows in set (0.00 sec)

Empty set (0.00 sec)

Query OK, 0 rows affected (0.00 sec)



作成したストアドプロシージャを見たいときは、show create procedureを使います。

In [33]:
show create procedure stpr1;

show create procedure stpr1;
+-----------+-------------------------------------------------------------------------------------------------------------------------------------------+------------------------------------------------------------------------------------------------------------+----------------------+----------------------+--------------------+
| Procedure | sql_mode                                                                                                                                  | Create Procedure                                                                                           | character_set_client | collation_connection | Database Collation |
+-----------+-------------------------------------------------------------------------------------------------------------------------------------------+------------------------------------------------------------------------------------------------------------+----------------------+----------------------+-

作成したストアドプロシージャを削除したい場合は、dropを使います。

In [34]:
drop procedure stpr1;

drop procedure stpr1;

Query OK, 0 rows affected (0.00 sec)



また、このストアドプロシージャに引数を指定して、実行することも可能です。以下では、int型のxを引数として、設定しています。

In [16]:
delimiter //

delimiter //;



In [17]:
create procedure stpr2(in x int)
begin
select * from meibo where age>=x;
select * from meibo2 where age>=x;
end
//

create procedure stpr1(in x int) begin select * from meibo where age>=15; select * from meibo2 where age>=x; end //;

Query OK, 0 rows affected (0.00 sec)



In [18]:
delimiter ;

delimiter ;



以下を実行すると、meiboとmeibo3のテーブルで、15歳以上のレコードが選択されているのがわかります。

In [19]:
call stpr2(15);

call stpr1(15);
+----+----------+-------+------+------+
| id | name     | class | age  | high |
+----+----------+-------+------+------+
|  4 | Kato     |     2 |   15 |  150 |
|  6 | Takeuchi |     2 |   16 |  155 |
+----+----------+-------+------+------+
2 rows in set (0.00 sec)

+----+------+-------+------+
| id | name | class | age  |
+----+------+-------+------+
| 12 | Jon  |     3 |   16 |
+----+------+-------+------+
1 row in set (0.00 sec)

Query OK, 0 rows affected (0.00 sec)



#### <練習問題 1>

次の処理を実行するストアド・プロシージャを作成して実行してみましょう。

・meiboテーブルと同じ構造のテーブルmeibo3を作成

・meiboテーブルのデータをmeibo3テーブルに挿入

・meibo3テーブルにweightカラムを追加

・引数で与えられたBMIとhighカラムの身長から体重を逆算してweightカラムに設定する（※BMI=体重(kg)÷(身長(m)×身長(m))

・meibo3の内容を出力

### 6.3.2 ストアドファンクション
キーワード：ストアドファンクション

次は、ストアドファンクションです。ストアドプロシージャと同じように作成できますが、値を一つだけ返す点が異なります。ユーザー定義関数とも言われます。作成した関数はcount関数やmax関数のように標準の関数と同じように利用できます。

次は、meiboテーブルにあるデータの平均年齢を返す処理をする関数を作成します。

ストアドプロシージャと同じようにデリミタを変更してから実行してください。

In [18]:
drop function if exists fc1;

drop function if exists fc1;




In [19]:
delimiter //

delimiter //;



「create function 関数名 returns 返り値の型」からはじまり、begin~endで記述します。

In [20]:
create function fc1() returns double
begin
declare avgAge double;
select avg(age) into avgAge from meibo;
return avgAge;
end
//

create function fc1() returns double begin declare avgAge double; select avg(age) into avgAge from meibo; return avgAge; end //;

Query OK, 0 rows affected (0.00 sec)



デリミタをもとに戻します。

In [21]:
delimiter ;

delimiter ;



呼び出しは以下のようにします。

In [None]:
select fc1();

#### <練習問題 1>

上記の例を参考に、meiboテーブルから平均身長を返す関数を作成して呼んでください。

#### <練習問題 2>

MySQLはナノ秒の取扱ができません。時、分、秒、ナノ秒（小数点以下の秒）の4つの引数を与えると "HH:MM:SS.sssssssss"形式の文字列(varchar(18))を返す関数を作って実行してみましょう。

ヒント：文字列の結合にはconcat関数が利用できます。

***

## 6.4 インデクシングとSQLの高速化
ゴール：データベース上の処理の高速化の手法を知る

### 6.4.1 インデックスの設定
キーワード：インデックス

テーブルからデータを検索するときに、データが膨大にある場合には全件検索は非常に時間がかかります。そこで、テーブルに索引を設定することで、検索がしやすくなり、高速化できます。テーブルに設定する索引を**インデックス**と言います。なお、主キーを設定した場合には、自動的にインデックスも作成されます。ただし、インデックスを設定することでいつもでも早くなるというわけではなく、適切に設定することが大事です。

In [2]:
show databases;
use employees;

show databases; use employees;
+--------------------+
| Database           |
+--------------------+
| information_schema |
| TEST1              |
| employees          |
| foodmart           |
| foodmart_mondrian  |
| mysql              |
| performance_schema |
| sakila             |
| sys                |
| test2              |
| world              |
+--------------------+
11 rows in set (0.00 sec)

Database changed


In [9]:
show tables;

show tables;
+---------------------+
| Tables_in_employees |
+---------------------+
| departments         |
| dept_emp            |
| dept_manager        |
| employees           |
| salaries            |
| titles              |
+---------------------+
6 rows in set (0.00 sec)



In [12]:
show index from employees;

show index from employees;
+-----------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table     | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+-----------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| employees |          0 | PRIMARY  |            1 | emp_no      | A         |      299157 |     NULL | NULL   |      | BTREE      |         |               |
+-----------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
1 row in set (0.00 sec)



explainを使うと、クエリがどのような順番でどのような方法でテーブルを検索するかを知ることができます。

In [60]:
explain
select * from employees;

explain select * from employees;
+----+-------------+-----------+------------+------+---------------+------+---------+------+--------+----------+-------+
| id | select_type | table     | partitions | type | possible_keys | key  | key_len | ref  | rows   | filtered | Extra |
+----+-------------+-----------+------------+------+---------------+------+---------+------+--------+----------+-------+
|  1 | SIMPLE      | employees | NULL       | ALL  | NULL          | NULL | NULL    | NULL | 299157 |   100.00 | NULL  |
+----+-------------+-----------+------------+------+---------------+------+---------+------+--------+----------+-------+



条件指定をせずにテーブルの全てを出力しているのでインデックスも利用されていないことがわかります。
6.2.4で実行したクエリをexplainで調べてみましょう。

In [13]:
explain
select 
    c.dept_no
    ,c.dept_name,count(distinct a.emp_no) as cnt
    ,avg(avgSalary) as avgDepSalary 
from dept_emp a
left outer join
(select 
    emp_no
    ,avg(salary) as avgSalary 
from salaries 
group by 1) b
on a.emp_no = b.emp_no 
left outer join departments c
on a.dept_no = c.dept_no
group by 1,2
having count(*) * 0.5 <= SUM(case when b.avgSalary >= 60000 then 1 else 0 end)

explain select c.dept_no ,c.dept_name,count(distinct a.emp_no) as cnt ,avg(avgSalary) as avgDepSalary from dept_emp a left outer join (select emp_no ,avg(salary) as avgSalary from salaries group by 1) b on a.emp_no = b.emp_no left outer join departments c on a.dept_no = c.dept_no group by 1,2 having count(*) * 0.5 <= SUM(case when b.avgSalary >= 60000 then 1 else 0 end);
+------+-------------+------------+--------+---------------+---------+---------+---------------------+---------+----------------------------------------------+
| id   | select_type | table      | type   | possible_keys | key     | key_len | ref                 | rows    | Extra                                        |
+------+-------------+------------+--------+---------------+---------+---------+---------------------+---------+----------------------------------------------+
|    1 | PRIMARY     | a          | index  | NULL          | emp_no  | 4       | NULL                |  331570 | Using index; Using temporary; 

keyに値が入っていればインデックスは利用されています。

In [13]:
select * from employees limit 4;

select * from employees limit 4;
+--------+------------+------------+-----------+--------+------------+
| emp_no | birth_date | first_name | last_name | gender | hire_date  |
+--------+------------+------------+-----------+--------+------------+
|  10001 | 1953-09-02 | Georgi     | Facello   | M      | 1986-06-26 |
|  10002 | 1964-06-02 | Bezalel    | Simmel    | F      | 1985-11-21 |
|  10003 | 1959-12-03 | Parto      | Bamford   | M      | 1986-08-28 |
|  10004 | 1954-05-01 | Chirstian  | Koblick   | M      | 1986-12-01 |
+--------+------------+------------+-----------+--------+------------+
4 rows in set (0.00 sec)



既にあるテーブルにインデックスを追加する場合は以下のように設定します。

In [7]:
create index my_oinde_birth_date on employees(birth_date);

create index my_oinde_birth_date on employees(birth_date);

Query OK, 0 rows affected (0.41 sec)



確かめると以下のようにインデックスが設定されていることがわかります。

In [8]:
show index from employees;

show index from employees;
+-----------+------------+---------------------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table     | Non_unique | Key_name            | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+-----------+------------+---------------------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| employees |          0 | PRIMARY             |            1 | emp_no      | A         |      299157 |     NULL | NULL   |      | BTREE      |         |               |
| employees |          1 | my_oinde_birth_date |            1 | birth_date  | A         |        4723 |     NULL | NULL   |      | BTREE      |         |               |
+-----------+------------+---------------------+--------------+-------------+-----------+-------------+----------+----

インデックスは以下のように削除します。

In [9]:
drop index my_oinde_birth_date on employees;

drop index my_oinde_birth_date on employees;

Query OK, 0 rows affected (0.02 sec)



確かめると以下のようにインデックスが削除されていることがわかります。

In [10]:
show index from employees;

show index from employees;
+-----------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table     | Non_unique | Key_name | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+-----------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| employees |          0 | PRIMARY  |            1 | emp_no      | A         |      299157 |     NULL | NULL   |      | BTREE      |         |               |
+-----------+------------+----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
1 row in set (0.00 sec)



大量のデータから一部を検索するときはインデックスが利用されることが重要になります。
一回のwhere句やjoin、order by、group by の条件指定では一個のインデックスしか使えません。複数のカラムを条件指定しないと検索結果を絞り込めない場合は複合インデックスを指定します。salariesテーブルは元々、主キーがemp_noとfrom_dateの複合インデックスになっていますが、from_date、to_dateを同時に用いて検索したい場合は次のようにインデックスを設定すると良いでしょう。

In [11]:
create index from_to_date on salaries(from_date,to_date);

create index from_to_date on salaries(from_date,to_date);

Query OK, 0 rows affected (4.66 sec)



作成されたインデックスを確認します。

In [12]:
show index from salaries;

show index from salaries;
+----------+------------+--------------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table    | Non_unique | Key_name     | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+----------+------------+--------------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| salaries |          0 | PRIMARY      |            1 | emp_no      | A         |      301468 |     NULL | NULL   |      | BTREE      |         |               |
| salaries |          0 | PRIMARY      |            2 | from_date   | A         |     2838426 |     NULL | NULL   |      | BTREE      |         |               |
| salaries |          1 | emp_no       |            1 | emp_no      | A         |      303833 |     NULL | NULL   |      | BTREE      |         |              

インデックスを追加すると、検索は高速になりますが、インデックスの作成に時間がかかるためレコードの追加が遅くなったり、インデックスの情報を格納するためにディスク容量も必要になるというデメリットがあります。デメリットを把握した上で設定しましょう。

レコード数が少なかったり、ランダムアクセスが高速なSSDを利用している場合は必ずしもインデックスが必要ではないため、設定していても利用されない場合があります。むやみにインデックスを設定することは避けましょう。

また、インデックスで絞り込んでもテーブルの大部分のレコードが残るような場合、インデックスを介して検索するよりインデックスを利用しないほうが高速な場合もあります。

#### <練習問題 1>

dept_empテーブルのfrom_date、to_dateに複合インデックスを設定してみましょう。

### 6.4.2 インデックスの種類
キーワード：Bツリーインデックス、ハッシュインデックス、Rツリーインデックス

参考ですが、インデックスのデータの型の種類とそれぞれの特徴について以下、簡単に説明します。

- **Bツリー(balanced tree)インデックス**  
一番人気が高く、インデックスの型として最もよく使われます。  
柔軟性、サイズ、全体的な性能のバランスをうまくとっています。


- **ハッシュインデックス**  
二番目に人気が高いです。  
ツリーよりもハッシュテーブルに似ていて、各キーにハッシュ関数を実行した結果に基づいて並べます。   


- **Rツリーインデックス**  
空間データまたはN次元データを扱うときに用いられます。  
地図や地球科学のアプリケーションで幅広く使われます。  

### 6.4.3 SQLのパフォーマンスチューニング
キーワード：havingの活用

インデックスを使用する際は、条件式の左辺はカラムをいじらずに、そのままで設定しましょう。以下は、emp_noを係数倍して、それが400000より大きいものを抽出しています。

In [39]:
select * from employees
where emp_no * 0.80001 > 400000;

select * from employees where emp_no * 0.80001 > 400000;
+--------+------------+------------+-----------+--------+------------+
| emp_no | birth_date | first_name | last_name | gender | hire_date  |
+--------+------------+------------+-----------+--------+------------+
| 499994 | 1952-02-26 | Navin      | Argence   | F      | 1990-04-24 |
| 499995 | 1958-09-24 | Dekang     | Lichtner  | F      | 1993-01-12 |
| 499996 | 1953-03-07 | Zito       | Baaz      | M      | 1990-09-27 |
| 499997 | 1961-08-03 | Berhard    | Lenart    | M      | 1986-04-21 |
| 499998 | 1956-09-05 | Patricia   | Breugel   | M      | 1993-10-13 |
| 499999 | 1958-05-01 | Sachin     | Tsukuda   | M      | 1997-11-30 |
+--------+------------+------------+-----------+--------+------------+
6 rows in set (0.14 sec)



左辺を演算を入れずに、そのカラムのままにしておく設定だと、クエリが返ってくる時間が短くなります。上記の結果と比較してみてください。

In [38]:
select * from employees
where emp_no > 400000/0.80001;

select * from employees where emp_no > 400000/0.80001;
+--------+------------+------------+-----------+--------+------------+
| emp_no | birth_date | first_name | last_name | gender | hire_date  |
+--------+------------+------------+-----------+--------+------------+
| 499994 | 1952-02-26 | Navin      | Argence   | F      | 1990-04-24 |
| 499995 | 1958-09-24 | Dekang     | Lichtner  | F      | 1993-01-12 |
| 499996 | 1953-03-07 | Zito       | Baaz      | M      | 1990-09-27 |
| 499997 | 1961-08-03 | Berhard    | Lenart    | M      | 1986-04-21 |
| 499998 | 1956-09-05 | Patricia   | Breugel   | M      | 1993-10-13 |
| 499999 | 1958-05-01 | Sachin     | Tsukuda   | M      | 1997-11-30 |
+--------+------------+------------+-----------+--------+------------+
6 rows in set (0.00 sec)



無駄な中間テーブルは減らして、having句を活用しましょう。

In [53]:
select * from
(select emp_no,max(salary) as maxSalary from salaries group by 1) tmp
where maxSalary > 155000;

select * from (select emp_no,max(salary) as maxSalary from salaries group by 1) tmp where maxSalary > 155000;
+--------+-----------+
| emp_no | maxSalary |
+--------+-----------+
|  43624 |    158220 |
|  47978 |    155709 |
| 109334 |    155377 |
| 253939 |    155513 |
| 254466 |    156286 |
+--------+-----------+
5 rows in set (0.88 sec)



若干ですが、クエリが返ってくる時間が短くなります。

In [55]:
select 
    emp_no
    ,max(salary) as maxSalary
from salaries 
group by 1
having maxSalary > 155000;

select emp_no ,max(salary) as maxSalary from salaries group by 1 having maxSalary > 155000;
+--------+-----------+
| emp_no | maxSalary |
+--------+-----------+
|  43624 |    158220 |
|  47978 |    155709 |
| 109334 |    155377 |
| 253939 |    155513 |
| 254466 |    156286 |
+--------+-----------+
5 rows in set (0.80 sec)



演算処理はレコード件数を絞った後に実行されるようにしましょう。

6.2.3節で実行したクエリを高速化してみます。

(**ここから先の結果は、環境によっては、特に変化はなかったり、遅かったりする可能性もあるので、参考に見ておいてください**)

explainを実行してみましょう。

In [27]:
explain
select 
    x0.emp_no
    ,case when x1.emp_no is not null then 'OK' else '' end as "Staff"
    ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff"
    ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer"
from (select distinct emp_no from employees ) x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no
limit 10;

explain select x0.emp_no ,case when x1.emp_no is not null then 'OK' else '' end as "Staff" ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff" ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer" from (select distinct emp_no from employees ) x0 left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no limit 10;
+----+-------------+------------+------------+-------+----------------+---------+---------+-----------------+--------+----------+-------------+
| id | select_type | table      | partitions | type  | possible_keys  | key     | key_len | ref             | rows   | filtered | Extra       |
+----+-------------+------------+------------+-------+----------------+---------+---------+-----------------+--------+----------+

このクエリはx0の部分が主になって、x1,x2,x3が外部結合されています。

explainの結果、一番最初に選択されているテーブル(x0)の行数が291,937となっています。これは、limit句が一番外にあるためです。joinやcase文の演算を実行してからレコードがlimit句で10行だけ抽出されています。x0の段階でlimit 10を指定しておくとその他の処理も10行分しか実行しないため高速になります。

x0のサブクエリの時点でlimit句を指定してexplainを実行してみましょう

In [25]:
explain
select 
    x0.emp_no
    ,case when x1.emp_no is not null then 'OK' else '' end as "Staff"
    ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff"
    ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer"
from (select distinct emp_no from employees limit 10) x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no
;

explain select x0.emp_no ,case when x1.emp_no is not null then 'OK' else '' end as "Staff" ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff" ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer" from (select distinct emp_no from employees limit 10) x0 left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no ;
+----+-------------+------------+------------+-------+----------------+---------+---------+-----------------+--------+----------+-------------+
| id | select_type | table      | partitions | type  | possible_keys  | key     | key_len | ref             | rows   | filtered | Extra       |
+----+-------------+------------+------------+-------+----------------+---------+---------+-----------------+--------+----------+

一番最初に選択されるテーブル(x0)の行数が10になりました。

実行してみます。

In [26]:
select 
    x0.emp_no
    ,case when x1.emp_no is not null then 'OK' else '' end as "Staff"
    ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff"
    ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer"
from (select distinct emp_no from employees limit 10) x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no
;

select x0.emp_no ,case when x1.emp_no is not null then 'OK' else '' end as "Staff" ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff" ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer" from (select distinct emp_no from employees limit 10) x0 left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no ;
+--------+-------+--------------+----------+
| emp_no | Staff | Senior Staff | Engineer |
+--------+-------+--------------+----------+
|  10001 |       |              |          |
|  10002 | OK    |              |          |
|  10003 |       |              |          |
|  10004 |       |              | OK       |
|  10005 | OK    | OK           |          |
|  10006 |       |              |          |
|  10007 | OK

実行時間が大幅削減されました。

さらに、x0テーブルはemp_noの重複を排除するためにdistinctを指定していますが、employeesテーブルの主キーなので重複はありません。x0のサブクエリは廃止できます。

In [23]:
select 
    x0.emp_no
    ,case when x1.emp_no is not null then 'OK' else '' end as "Staff"
    ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff"
    ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer"
from employees  x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no
limit 10;

select x0.emp_no ,case when x1.emp_no is not null then 'OK' else '' end as "Staff" ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff" ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer" from employees  x0 left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no limit 10;
+--------+-------+--------------+----------+
| emp_no | Staff | Senior Staff | Engineer |
+--------+-------+--------------+----------+
|  10001 |       |              |          |
|  10002 | OK    |              |          |
|  10003 |       |              |          |
|  10004 |       |              | OK       |
|  10005 | OK    | OK           |          |
|  10006 |       |              |          |
|  10007 | OK    | OK           |          

この他、SQLの高速化には以下のような手法があります。詳細の説明は省略しますが、DBMSの公式サイトや書籍等を参照してください。

##### SQL実行時のプロファイリング結果を利用する。

プロファイリング機能を利用して、クエリの実行時間のうちどれだけの時間をどの処理で使用したかを確認しつつ、時間のかかっている原因を取り除きます。explainの結果とあわせて利用します。

##### パーティショニングを利用する。

1つのテーブルを複数に分割することで処理の高速化と格納効率を向上することが見込めます。テーブル定義にパーティショニングを設定することでテーブルを分割して高速になる場合があります。ただし、分割したテーブルを全て参照するようなSQLになる場合は逆に遅くなる場合もありますので注意してください。

##### DBMSの設定値をチューニングする。

DBMSの確保するメモリが足りないために一時テーブルをファイルに出力して処理すると急激に遅くなります。DBMSの確保するキャッシュ容量を調整することで回避できる場合があります。その他、DBMSの設定値を変更することでパフォーマンスを向上させることができる場合があります。

***

## 6.5 その他
ゴール：ファイルのやり取りやデータモデリング、正規化の概念を知る

### 6.5.1 データベースとファイルのやり取り
キーワード：データのインポート、エクスポート

データのファイル形式は様々あり、ここではよく扱われるCSV(Comma Separated Values)ファイルをデータベースに取り込むインポートや、データをファイルに書き出すエクスポート等について簡単に紹介します。

まずは、インポートです。これまでサンプルのデータを準備するときに、手で一部入力をして、実行していました。もちろん、大量のデータがある場合に、手で入力するのは現実的ではなく、CSVファイルにあるデータを自動的に入れる方法があり、「load data infile 'ファイル名' into table テーブル名 オプション;」のような記述で実行します。
ファイル名は、そのディレクトリ名を含むこともできます。オプションは、データの区切り文字や先頭をスキップする時などに使います。
一方、エクスポートについては、「select * into outfile 'ファイル名' オプション from テーブル名」のように記述をして、ファイルをアウトプットします。もし、大量のファイルをデータベースに入れたい場合や、その逆をすることがあれば、これらの方法を検討してみてください。

この他、SQLが記述されたファイルを実行する「source ファイル名」や、データベースをバックアップする方法（ダンプ）や、それを再び戻す方法（リストア）もあります。詳しくはMySQLの公式サイトを参照してみてください。

データのインポート：https://dev.mysql.com/doc/refman/5.6/ja/load-data.html

データのエクスポート：https://dev.mysql.com/doc/refman/5.6/ja/select-into.html

データベースのバックアップ・リストア：https://dev.mysql.com/doc/refman/5.6/ja/mysqldump.html

### 6.5.2 データモデリングと正規化
キーワード：データモデリング、正規化

前章では、データベースにテーブルがない場合は、テーブルを作成してきました。顧客の名前を管理する必要があれば、顧客名のカラムを作成し、それだけでは名前に重複がある可能性もあるので、一意に定まるIDのカラムを設定したり、他に属性情報等があれば、それらのカラムを作成します。これらのテーブル設計の要件は、ビジネスによって異なり、はじめにしっかりとやらないと、後で困ること（カラムが足りない、後から追加したいなどのニーズが出てきたときに柔軟に変更できるかどうかなど）も出てきます。このように、必要なデータ項目を洗い出して、テーブル設計していくことを**データモデリング**といいます。

このデータモデリングを進めていく上で、重要なことが**正規化**です。正規化の目的は、効率よくデータを扱うために整理することにあります。具体的には、あるテーブルの列において、データが繰り返し出てきて、別のテーブルにしたほうが、更新などもしやすいというケースがあります。この正規化には第1正規形から第5正規形、他にも色々とありますので、興味ある方は以下の参考文献やネットなどで調べてみてください。

>[参考文献]

>『Webエンジニアのための データベース技術[実践]入門 (Software Design plus)』（松信 嘉範 (著)、技術評論社）

以上で、この章は完了です。お疲れ様でした。再掲ですが、以下の参考文献などを読んで、是非中級者への道に進んでください。

>[参考文献]

>『SQL実践入門──高速でわかりやすいクエリの書き方 (WEB+DB PRESS plus) 』（ミック  (著)、技術評論社）

>『プログラマのためのSQL 第4版』（ジョー・セルコ (著), Joe Celko (著), ミック (監修, 翻訳)、翔泳社）

>『達人に学ぶ SQL徹底指南書』（ミック  (著)、翔泳社）

>『達人に学ぶDB設計 徹底指南書 初級者で終わりたくないあなたへ 』（ミック  (著)、翔泳社）

>『ビッグデータ分析・活用のためのSQLレシピ』（加嵜 長門  (著), 田宮 直人  (著), 丸山 弘詩 (編集)、マイナビ出版 ）

***

## 6.6 総合問題

### 6.6.1 総合問題1

以下のデータベースを使って、次の問題を考えて実行してみましょう。

https://dev.mysql.com/doc/sakila/en/

ターミナル(もしくは画面上にあるKernelをPythonに変更して)から以下のコマンドを入力します。

-------------------
wget http://downloads.mysql.com/docs/sakila-db.tar.gz  
tar zxf sakila-db.tar.gz  
cd sakila-db  
mysql -h"db1" -P"3306" -u root -p"ilect" < sakila-schema.sql  
mysql -h"db1" -P"3306" -u root -p"ilect" < sakila-data.sql  

-------------------

In [1]:
show databases

show databases;
+--------------------+
| Database           |
+--------------------+
| TEST1              |
| TEST2              |
| employees          |
| information_schema |
| mysql              |
| performance_schema |
| sakila             |
| world              |
+--------------------+
8 rows in set (0.01 sec)

MariaDB [(none)]

In [2]:
use sakila

use sakila;
 Database changed
MariaDB [sakila]

In [3]:
show tables

show tables;
+----------------------------+
| Tables_in_sakila           |
+----------------------------+
| actor                      |
| actor_info                 |
| address                    |
| category                   |
| city                       |
| country                    |
| customer                   |
| customer_list              |
| film                       |
| film_actor                 |
| film_category              |
| film_list                  |
| film_text                  |
| inventory                  |
| language                   |
| nicer_but_slower_film_list |
| payment                    |
| rental                     |
| sales_by_film_category     |
| sales_by_store             |
| staff                      |
| staff_list                 |
| store                      |
+----------------------------+
23 rows in set (0.00 sec)

MariaDB [sakila]

In [19]:
select * from rental limit 10

select * from rental limit 10;
+-----------+---------------------+--------------+-------------+---------------------+----------+---------------------+
| rental_id | rental_date         | inventory_id | customer_id | return_date         | staff_id | last_update         |
+-----------+---------------------+--------------+-------------+---------------------+----------+---------------------+
|         1 | 2005-05-24 22:53:30 |          367 |         130 | 2005-05-26 22:04:30 |        1 | 2006-02-15 21:30:53 |
|         2 | 2005-05-24 22:54:33 |         1525 |         459 | 2005-05-28 19:40:33 |        1 | 2006-02-15 21:30:53 |
|         3 | 2005-05-24 23:03:39 |         1711 |         408 | 2005-06-01 22:12:39 |        1 | 2006-02-15 21:30:53 |
|         4 | 2005-05-24 23:04:41 |         2452 |         333 | 2005-06-03 01:43:41 |        2 | 2006-02-15 21:30:53 |
|         5 | 2005-05-24 23:05:21 |         2079 |         222 | 2005-06-02 04:33:21 |        1 | 2006-02-15 21:30:53 |
|

In [45]:
select distinct cast(rental_date as char(7)) from rental

select distinct cast(rental_date as char(7)) from rental;
+------------------------------+
| cast(rental_date as char(7)) |
+------------------------------+
| 2005-05                      |
| 2005-06                      |
| 2005-07                      |
| 2005-08                      |
| 2006-02                      |
+------------------------------+

MariaDB [sakila]

In [3]:
select
    *
from
    (select rental_id, staff_id from rental)x0
    left outer join
    (select rental_id from rental where cast(rental_date as char(7))='2005-05')x1
    on x0.rental_id = x1.rental_id
    left outer join
    (select rental_id from rental where cast(rental_date as char(7))='2005-06')x2
    on x0.rental_id = x2.rental_id
    left outer join
   (select rental_id from rental where cast(rental_date as char(7))='2005-07')x3
    on x0.rental_id = x3.rental_id
    left outer join
   (select rental_id from rental where cast(rental_date as char(7))='2005-08')x4
    on x0.rental_id = x4.rental_id
    left outer join
   (select rental_id from rental where cast(rental_date as char(7))='2006-02')x5
    on x0.rental_id = x5.rental_id
limit 10

select * from (select rental_id, staff_id from rental)x0 left outer join (select rental_id from rental where cast(rental_date as char(7))='2005-05')x1 on x0.rental_id = x1.rental_id left outer join (select rental_id from rental where cast(rental_date as char(7))='2005-06')x2 on x0.rental_id = x2.rental_id left outer join (select rental_id from rental where cast(rental_date as char(7))='2005-07')x3 on x0.rental_id = x3.rental_id left outer join (select rental_id from rental where cast(rental_date as char(7))='2005-08')x4 on x0.rental_id = x4.rental_id left outer join (select rental_id from rental where cast(rental_date as char(7))='2006-02')x5 on x0.rental_id = x5.rental_id limit 10;
+-----------+----------+-----------+-----------+-----------+-----------+-----------+
| rental_id | staff_id | rental_id | rental_id | rental_id | rental_id | rental_id |
+-----------+----------+-----------+-----------+-----------+-----------+-----------+
|         1 |        1 |         1 |      NULL |  

In [14]:
select
    staff_list.name
    , sum(m1) as '2005-05'
    , sum(m2) as '2005-06'
    , sum(m3) as '2005-07'
    , sum(m4) as '2005-08'
    , sum(m5) as '2006-02'
from
    (select
        staff_id
        , case when date_format(rental_date, '%Y-%m')='2005-05' then 1 else 0 end as 'm1'
        , case when date_format(rental_date, '%Y-%m')='2005-06' then 1 else 0 end as 'm2'
        , case when date_format(rental_date, '%Y-%m')='2005-07' then 1 else 0 end as 'm3'
        , case when date_format(rental_date, '%Y-%m')='2005-08' then 1 else 0 end as 'm4'
        , case when date_format(rental_date, '%Y-%m')='2006-02' then 1 else 0 end as 'm5'
    from rental) tmp0
    join staff_list on tmp0.staff_id = staff_list.ID
group by staff_list.name

select staff_list.name , sum(m1) as '2005-05' , sum(m2) as '2005-06' , sum(m3) as '2005-07' , sum(m4) as '2005-08' , sum(m5) as '2006-02' from (select staff_id , case when date_format(rental_date, '%Y-%m')='2005-05' then 1 else 0 end as 'm1' , case when cast(rental_date as char(7))='2005-06' then 1 else 0 end as 'm2' , case when cast(rental_date as char(7))='2005-07' then 1 else 0 end as 'm3' , case when cast(rental_date as char(7))='2005-08' then 1 else 0 end as 'm4' , case when cast(rental_date as char(7))='2006-02' then 1 else 0 end as 'm5' from rental) tmp0 join staff_list on tmp0.staff_id = staff_list.ID group by staff_list.name;
+--------------+---------+---------+---------+---------+---------+
| name         | 2005-05 | 2005-06 | 2005-07 | 2005-08 | 2006-02 |
+--------------+---------+---------+---------+---------+---------+
| Jon Stephens |     598 |    1148 |    3367 |    2794 |      97 |
| Mike Hillyer |     558 |    1163 |    3342 |    2892 |      85 |
+--------------+-

In [8]:
select staff_list.name, x0.cnt from staff_list join (select staff_id, count(*) as cnt from rental group by staff_id) x0 on staff_list.ID = x0.staff_id

select staff_list.name, x0.cnt from staff_list join (select staff_id, count(*) as cnt from rental group by staff_id) x0 on staff_list.ID = x0.staff_id;
+--------------+------+
| name         | cnt  |
+--------------+------+
| Mike Hillyer | 8040 |
| Jon Stephens | 8004 |
+--------------+------+
2 rows in set (0.00 sec)

MariaDB [sakila]

(1) 支払金額の総額が100ドル以上の顧客名と支払総額を表示してください。

(2) (1)の結果を新しいテーブルに格納するストアド・プロシージャを作成してください。ただし、支払総額の閾値は引数で指定できるようにしてください。

### 6.6.2 総合問題2

以下のデータベースを使って 後の問に答えてください。

https://sites.google.com/a/dlpage.phi-integration.com/pentaho/mondrian/mysql-foodmart-database/foodmart_mysql.tar.gz?attredirects=0

参考の解説等はこちらになります。

https://github.com/julianhyde/foodmart-data-hsqldb

http://www.fromdual.ch/foodmart-old

**まずはデータを入れるために、データベースfoodmartを作成してください。**

次に、ターミナル(もしくは画面上にあるKernelをPythonに変更して)から以下のコマンドを入力します。

-------------------
mkdir foodmart  
cd foodmart  
wget http://pentaho.dlpage.phi-integration.com/mondrian/mysql-foodmart-database/foodmart_mysql.tar.gz  
tar zxf  foodmart_mysql.tar.gz  
mysql -h"db1" -P"3306" -u root -p"ilect" foodmart < foodmart_mysql.sql  

-------------------

(1) 1998年1月の従業員の給料ランキングを10位まで表示してください。

(2) sales_fact_1998テーブルの中で、同じ人が同じ時間に買っている商品の2つの組み合わせの中で、購買回数が多い2つの商品はどれとどれでしょうか。TOP5を抽出して、商品名(product_name)でそれぞれ答えてください。なお、商品はproduct_idベースでカウントして、同じ人とはcustomer_idが同じことを意味し、同じ時間とはtime_idが同じことを意味します。なお、これをバスケット分析（同時併売）といい、期間併売で計算することもあります。