# 9 データベースの応用（高度なSQL処理と高速化）

- **[9.1 この章の概要](#9.1-この章の概要)**
    - [9.1.1 この章について](#9.1.1-この章について)
    - [9.1.2 高度なSQL処理](#9.1.2-高度なSQL処理)
    - [9.1.3 ストアドプロシージャとストアドファンクション](#9.1.3-ストアドプロシージャとストアドファンクション)
    - [9.1.4 SQLの高速化について](#9.1.4-SQLの高速化について)
    - [9.1.5 その他](#9.1.5-その他)
<br><br>
- **[9.2 高度なSQL処理](#9.2-高度なSQL処理)** 
    - [9.2.1 データの準備と確認](#9.2.1-データの準備と確認)
    - [9.2.2 exists文、case文、自己結合の応用](#9.2.2-exists文、case文、自己結合の応用)
    - [9.2.3 外部結合の応用](#9.2.3-外部結合の応用)
    - [9.2.4（応用）having句の応用](#9.2.4-（応用）having句の応用)
<br><br> 
- **[9.3 ストアドプロシージャとストアドファンクション](#9.3-ストアドプロシージャとスドアドファンクション)** 
    - [9.3.1 ストアドプロシージャ](#9.3.1-ストアドプロシージャ)
    - [9.3.2 ストアドファンクション](#9.3.2-ストアドファンクション)
<br><br>
- **[9.4 インデクシングとSQLの高速化](#9.4-インデクシングとSQLの高速化)**
    - [9.4.1 インデックスの設定](#9.4.1-インデックスの設定)
    - [9.4.2 インデックスの種類](#9.4.2-インデックスの種類)
    - [9.4.3 SQLのパフォーマンスチューニング](#9.4.3-SQLのパフォーマンスチューニング)
<br><br>
- **[9.5 その他](#9.5-その他)**
    - [9.5.1 データベースとファイルのやり取り](#9.5.1-データベースとファイルのやり取り)
    - [9.5.2 データモデリングと正規化](#9.5.2-データモデリングと正規化)
<br><br>
- **[9.6 総合問題](#9.6-総合問題)**
    - [9.6.1 総合問題1](#9.6.1-総合問題1)
    - [9.6.2 総合問題2](#9.6.2-総合問題2)

***

## 9.1 この章の概要
ゴール：複雑なSQL処理や高速化ができることを知る

### 9.1.1 この章について
キーワード：特になし

この章では、前章のデータベース基礎知識をベースに、さらにSQLの操作方法に慣れるため、また高度な処理ができるようになるための技法を身につけていただきます。ここをクリアできれば、SQLの中級者の道へと進み、後は独学でも学ぶことができるでしょう。以下の文献が参考になりますので、ここが終わった後は是非読むことをおすすめします。最後の参考文献『ビッグデータ分析・活用のためのSQLレシピ』は、PostgreSQLやRedshift等いろいろな記述方法が載っています。またマーケティング分析でよく使うテクニック等もあり、調べ物として便利です。

**注意：この章で使うデータベースやテーブルは前章で作成したもの（練習問題含む）も一部使いますので、前章のSQLは実行済みで、該当のデータがあるとしてこの章を進めていきます。**

>[参考文献]

>『SQL実践入門──高速でわかりやすいクエリの書き方 (WEB+DB PRESS plus) 』（ミック  (著)、技術評論社）

>『プログラマのためのSQL 第4版』（ジョー・セルコ (著), Joe Celko (著), ミック (監修, 翻訳)、翔泳社）

>『達人に学ぶ SQL徹底指南書』（ミック  (著)、翔泳社）

>『達人に学ぶDB設計 徹底指南書 初級者で終わりたくないあなたへ 』（ミック  (著)、翔泳社）

>『ビッグデータ分析・活用のためのSQLレシピ』（加嵜 長門  (著), 田宮 直人  (著), 丸山 弘詩 (編集)、マイナビ出版 ）

### 9.1.2 高度なSQL処理
キーワード：exists,自己結合,case文活用

前章までは短いSQL文を学んできましたが、この章では少し難しいSQLの処理(exists,差分などテクニカルな処理)や、比較的大きなデータや複数のデータソースを使って、複雑なSQL文を書く処理を学んでいきましょう。

### 9.1.3 ストアドプロシージャとストアドファンクション
キーワード：ストアドプロシージャ、ストアドファンクション

一連の処理をするストアドプロシージャについて学びます。SQL文を単発で使うのではなく、いくつか組み合わせたり、関数のように用いる（ストアドファンクション）こともできます。ここでは、それらの処理について学びましょう。

### 9.1.4 SQLの高速化について
キーワード：インデクシング

他のプログラミング言語同様、同じデータ抽出結果でもSQLの書き方は様々なパターンがあります。SQLの書き方によって、データを抽出するスピードが上がりますし、インデクシングというパフォーマンスチューニングによって、効率を上げることができます。

### 9.1.5 その他
キーワード：ファイルのやり取り、データモデリング、正規化

その他、データベースとSQLについて、知っておくと便利なこと、概念等について説明します。主に、csvファイルなどのやり取りとデータモデリング、正規化について学びます。

***

## 9.2 高度なSQL処理
ゴール：複雑な処理をSQLを使って計算することができる

### 9.2.1 データの準備と確認
キーワード：show,use,desc

前章までは短いSQL文を学んできましたが、この章では少し難しい処理をSQLで書いたり、比較的大きなデータや複数のデータソースを使います。ここで、複雑なSQL文を書く練習をしていきましょう。

この章では以下のデータを使います。このデータはある会社の従業員データで、従業員の属性や所属部署、給与等のデータが入っているデータベースです。まず、以前の章の総合問題で準備した同じ手順でデータを取得し、データベースに挿入します。（注意事項等を読んでください。）

https://launchpad.net/test-db/employees-db-1

terminal(もしくは画面上にあるKernelをPythonに変更して)から以下のコマンドを入力します。

-------------------
wget https://launchpad.net/test-db/employees-db-1/1.0.6/+download/employees_db-full-1.0.6.tar.bz2  
tar jxfv  employees_db-full-1.0.6.tar.bz2  
cd employees_db  
mysql -h"zdb" -P"3306" -u root -p"gci" < employees.sql  

-------------------

そして、employeesを選択してみます。次のSQLコマンドを実行してみましょう。

In [1]:
%load_ext sql
%sql mysql+pymysql://root:Bicc2299@10.33.94.193/?charset=utf8mb4

'Connected: root@'

In [2]:
%%sql
show databases;
use employees;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
5 rows affected.
0 rows affected.


[]

テーブルを見てみましょう。テーブルが6つあるのが確認できます。

In [3]:
%%sql
show tables;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
6 rows affected.


Tables_in_employees
departments
dept_emp
dept_manager
employees
salaries
titles


それぞれのデータ構造を簡単に見てみます。従業員のデータで、部署テーブル、部署のマネージャーテーブル、給料テーブル、職種タイトルテーブルなどがあります。なお、salariesテーブルなどはレコード数が少し多い（100万レコード以上）ので、呼び出すときは注意しましょう。

In [4]:
%%sql
desc departments

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
2 rows affected.


Field,Type,Null,Key,Default,Extra
dept_no,char(4),NO,PRI,,
dept_name,varchar(40),NO,UNI,,


In [5]:
%%sql
desc dept_emp

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
4 rows affected.


Field,Type,Null,Key,Default,Extra
emp_no,int(11),NO,PRI,,
dept_no,char(4),NO,PRI,,
from_date,date,NO,,,
to_date,date,NO,,,


In [6]:
%%sql
desc dept_manager

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
4 rows affected.


Field,Type,Null,Key,Default,Extra
dept_no,char(4),NO,PRI,,
emp_no,int(11),NO,PRI,,
from_date,date,NO,,,
to_date,date,NO,,,


In [7]:
%%sql
desc employees

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
6 rows affected.


Field,Type,Null,Key,Default,Extra
emp_no,int(11),NO,PRI,,
birth_date,date,NO,,,
first_name,varchar(14),NO,,,
last_name,varchar(16),NO,,,
gender,"enum('M','F')",NO,,,
hire_date,date,NO,,,


In [8]:
%%sql
desc salaries

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
4 rows affected.


Field,Type,Null,Key,Default,Extra
emp_no,int(11),NO,PRI,,
salary,int(11),NO,,,
from_date,date,NO,PRI,,
to_date,date,NO,,,


In [9]:
%%sql
desc titles;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
4 rows affected.


Field,Type,Null,Key,Default,Extra
emp_no,int(11),NO,PRI,,
title,varchar(50),NO,PRI,,
from_date,date,NO,PRI,,
to_date,date,YES,,,


以下は参考ですが、ER図といい、それぞれのテーブルの関係性を示した図です。テーブルを設計をしたり、テーブル間の関係を確認するときによく使います。

![comment](https://dev.mysql.com/doc/employee/en/images/employees-schema.png)

参照URL：https://dev.mysql.com/doc/employee/en/sakila-structure.html

### 9.2.2 exists文、case文、自己結合の応用
キーワード：条件分岐、自己結合

ここでは前章では取り扱わなかったexists文や自己結合を使った処理を学びます。

exists文は、以下のように記述し、副問合せによって返されたレコードが一つでもあれば真，一つもなければ偽を返します。

In [10]:
%%sql
select * from dept_manager a
where exists ( select * from departments b where a.dept_no = b.dept_no) limit 10;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
10 rows affected.


dept_no,emp_no,from_date,to_date
d001,110022,1985-01-01,1991-10-01
d001,110039,1991-10-01,9999-01-01
d002,110085,1985-01-01,1989-12-17
d002,110114,1989-12-17,9999-01-01
d003,110183,1985-01-01,1992-03-21
d003,110228,1992-03-21,9999-01-01
d004,110303,1985-01-01,1988-09-09
d004,110344,1988-09-09,1992-08-02
d004,110386,1992-08-02,1996-08-30
d004,110420,1996-08-30,9999-01-01


ちなみに上のexists文での操作は以下のクエリでも同じ操作ができます。exists文の方が処理が速いことがあるので、exists文は覚えておくとよいでしょう。

In [11]:
%%sql
select a.* from dept_manager a, departments b
where a.dept_no = b.dept_no limit 10;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
10 rows affected.


dept_no,emp_no,from_date,to_date
d001,110022,1985-01-01,1991-10-01
d001,110039,1991-10-01,9999-01-01
d002,110085,1985-01-01,1989-12-17
d002,110114,1989-12-17,9999-01-01
d003,110183,1985-01-01,1992-03-21
d003,110228,1992-03-21,9999-01-01
d004,110303,1985-01-01,1988-09-09
d004,110344,1988-09-09,1992-08-02
d004,110386,1992-08-02,1996-08-30
d004,110420,1996-08-30,9999-01-01


次は、case文を活用した例です。job titleを見てみますと7種類あるのがわかります。ここで、このタイトルを新しいカテゴリーに分類して、それぞれのレコード数をカウントしてみましょう。現在のjob title毎のレコード数は、以下のようになります。（なお、1人で2つ以上のタイトルが付いている人がいますが、今は特に気にしないことにします。）

In [12]:
%%sql
select title, count(*) 
from titles 
group by title;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
7 rows affected.


title,count(*)
Assistant Engineer,15128
Engineer,115003
Manager,24
Senior Engineer,97750
Senior Staff,92853
Staff,107391
Technique Leader,15159


ここで、これらのタイトルを新しいカテゴリーに分類して、それぞれのレコード数をカウントしてみましょう。具体的には、Engineerとついている人はEngineer、Staffとついている人はStaff、LeaderかManagerとついている人はLeaderで大分類としてカテゴリーを分けて、それぞれのレコード数をカウントします。

これは、何かのカテゴリーや分類があった時に、もう少し大きな分類で集計したいときなどに使うテクニックです。例えば、データとして都道府県があった場合、各都道府県で集計すると数が多くなるので、関東や関西など、ある程度大きな分類で考えたい時に使います。

In [13]:
%%sql
select case title
        when 'Engineer' then 'Engineer'
        when 'Staff' then 'Staff'
        when 'Senior Engineer' then 'Engineer'
        when 'Senior Staff ' then 'Staff'
        when 'Technique Leader' then 'Leader'
        when 'Assistant Engineer' then 'Engineer'
        when 'Manager' then 'Leader'
    else 'others' end as category
    ,count(*) as cnt
from titles
group by category;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
3 rows affected.


category,cnt
Engineer,227881
Leader,15183
Staff,200244


次は、自分自身のテーブルと結合する**自己結合**です。情報としては自分のテーブルだけあれば良いように思えますが、どういった場面で自己結合が役に立つのか、それを見ていくことにします。

以下は、depatmentsテーブルを使って集計例を見てみます。部署は9種類あるのがわかります。

In [14]:
%%sql
select * from departments order by 1;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
9 rows affected.


dept_no,dept_name
d001,Marketing
d002,Finance
d003,Human Resources
d004,Production
d005,Development
d006,Quality Management
d007,Sales
d008,Research
d009,Customer Service


データのレコードから、すべての組み合わせ（重複ありで自身の組み合わせ含む）のテーブルを作りたいときがある場合に、以下のようにして、自己結合します。9種類あったので、81通り（9×9）あります。（実際に81通りであることを確認するため、ここではlimit 100と末尾に加えることでデフォルトの表示行数である30行よりも多いレコードを取得しています。以下、同様です。）

In [15]:
%%sql
select a.*,b.* from departments a, departments b limit 100;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
81 rows affected.


dept_no,dept_name,dept_no_1,dept_name_1
d009,Customer Service,d009,Customer Service
d005,Development,d009,Customer Service
d002,Finance,d009,Customer Service
d003,Human Resources,d009,Customer Service
d001,Marketing,d009,Customer Service
d004,Production,d009,Customer Service
d006,Quality Management,d009,Customer Service
d008,Research,d009,Customer Service
d007,Sales,d009,Customer Service
d009,Customer Service,d005,Development


すべての組み合わせで、自身の組み合わせがないパターンを作成したい場合は、以下のように「a.dept_no != b.dept_no 」として、自分自身と一致するもの以外を抽出します。例えば、d001とd001の組み合わせやd009とd009の組み合わせ等は省かれます。自分自身と同じものは9パターンあるので、結果以下のクエリは81-9=72通りあります。

In [16]:
%%sql
select a.*,b.* 
from departments a,departments b
where a.dept_no != b.dept_no limit 100;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
72 rows affected.


dept_no,dept_name,dept_no_1,dept_name_1
d005,Development,d009,Customer Service
d002,Finance,d009,Customer Service
d003,Human Resources,d009,Customer Service
d001,Marketing,d009,Customer Service
d004,Production,d009,Customer Service
d006,Quality Management,d009,Customer Service
d008,Research,d009,Customer Service
d007,Sales,d009,Customer Service
d009,Customer Service,d005,Development
d002,Finance,d005,Development


先ほどは、「d009とd001」と「d001とd009」のように、実質的に重複するレコードが含まれますが、重複がなしですべての組み合わせを抽出したい場合は、以下のようにします。9種類から2種類選ぶので、${}_9 C _2=36$通りで、36行表示されます。

In [17]:
%%sql
select a.*,b.* 
from departments a,departments b
where a.dept_no > b.dept_no limit 100;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
36 rows affected.


dept_no,dept_name,dept_no_1,dept_name_1
d009,Customer Service,d001,Marketing
d009,Customer Service,d002,Finance
d009,Customer Service,d003,Human Resources
d009,Customer Service,d004,Production
d009,Customer Service,d005,Development
d009,Customer Service,d006,Quality Management
d009,Customer Service,d007,Sales
d009,Customer Service,d008,Research
d005,Development,d001,Marketing
d005,Development,d002,Finance


さて、この自己結合、一見すると有用性を感じないのですが、これを活用することで、例えば、ある項目のデータのランキング結果を表示させることが可能です。以下、salariesテーブルの中から、従業員（emp_no）の給料が高い人を降順に並べ、ランキングを表示する列を追加する処理をしています。このような集計をしたい場合に、自己結合が使えます。

In [18]:
%%sql
select a.emp_no
    ,a.salary
    ,a.from_date
    ,a.to_date
    ,(
        select count(b.salary)
        from salaries b
        where b.salary > a.salary
    ) + 1 as rank_1
from salaries a order by a.salary desc limit 10;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
10 rows affected.


emp_no,salary,from_date,to_date,rank_1
43624,158220,2002-03-22,9999-01-01,1
43624,157821,2001-03-22,2002-03-22,2
254466,156286,2001-08-04,9999-01-01,3
47978,155709,2002-07-14,9999-01-01,4
253939,155513,2002-04-11,9999-01-01,5
109334,155377,2000-02-12,2001-02-11,6
109334,155190,2002-02-11,9999-01-01,7
109334,154888,2001-02-11,2002-02-11,8
109334,154885,1999-02-12,2000-02-12,9
80823,154459,2002-02-22,9999-01-01,10


#### <練習問題 1>

case文を使って部署毎にgender別の人数を集計してみましょう。(特に部署移動等は考慮しなくて良いです。)

ヒント：case文をsum関数の中に記述できます。

#### <練習問題 2>

job titleの全ての組み合わせ（重複なし）を表示してみましょう。

#### <練習問題 3>

exists文を使って部署毎に現在job titleがStaffである人数を集計してみましょう。なお、現在とは、to_dateが9999-01-01のことを指すとします。

### 9.2.3 外部結合の応用
キーワード：クロス集計、差分集合

ここでは外部結合を活用してみることにしましょう。

SQLを使ったクロス集計を実施してみます。以下は、各従業員（emp_no）がどのjob titleを持っているか（いたか）をクロス表にしています。外部結合でNULLになった場合は該当しないため空白とし、それ以外は該当するため'OK'と表示しています。Staff、Senior Staff、Engineerを対象に集計しています。

In [19]:
%%sql
select 
    x0.emp_no
    ,case when x1.emp_no is not null then 'OK' else '' end as "Staff"
    ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff"
    ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer"
from (select distinct emp_no from employees ) x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no
limit 10;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
10 rows affected.


emp_no,Staff,Senior Staff,Engineer
10001,,,
10002,OK,,
10003,,,
10004,,,OK
10005,OK,OK,
10006,,,
10007,OK,OK,
10008,,,
10009,,,OK
10010,,,OK


例えば、emp_noが10001の人は3タイトルどれにもなったことがなく、emp_noが10005の人は、StaffとSenior Staff 両方なったことがあるということがわかります。

次は、外部結合を活用した、差分集合についてです。差分集合とは、ある集合Aと集合Bがあった場合に、Aの中からBである人を抜いた集合A-Bを取り出した集合になります。以下の参照図だと、左の丸がA、右の丸がBの集合だとすると、A-Bは赤い部分を指します。

![comment](https://upload.wikimedia.org/wikipedia/commons/thumb/e/e6/Venn0100.svg/220px-Venn0100.svg.png)

参照URL:https://upload.wikimedia.org/wikipedia/commons/thumb/e/e6/Venn0100.svg/220px-Venn0100.svg.png

job titleテーブルを使って、まずはそれぞれのjob titleで何人いるかカウントしています。

In [20]:
%%sql
select title,count(emp_no) as cnt from titles group by 1;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
7 rows affected.


title,cnt
Assistant Engineer,15128
Engineer,115003
Manager,24
Senior Engineer,97750
Senior Staff,92853
Staff,107391
Technique Leader,15159


Staff とSenior Staffに注目してください。上記の集計では、それぞれ107,391人、92,853人いました。以下の集計で、どちらともこのポジションになっている人がいることがわかります（107391 + 92853 > 133981）。

In [21]:
%%sql
select count(distinct emp_no) as cnt from titles where title='Senior Staff' or title='Staff'

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
1 rows affected.


cnt
133981


それでは、Staffだけになった人を抽出（カウント）するにはどうすればよいでしょうか。集合として、$A$をStaffになったの集合、$B$をSenior Staffになった人の集合すると、$A-B$と差分集合を求めるSQLは以下になります。

In [22]:
%%sql
select * from 
(select * from titles where title='Staff') a
left outer join
(select * from titles where title='Senior Staff') b
on a.emp_no = b.emp_no
where b.title is NULL
limit 10;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
10 rows affected.


emp_no,title,from_date,to_date,emp_no_1,title_1,from_date_1,to_date_1
10002,Staff,1996-08-03,9999-01-01,,,,
10011,Staff,1990-01-22,1996-11-09,,,,
10016,Staff,1998-02-11,9999-01-01,,,,
10019,Staff,1999-04-30,9999-01-01,,,,
10034,Staff,1995-04-12,1999-10-31,,,,
10055,Staff,1992-04-27,1995-07-22,,,,
10064,Staff,1985-11-20,1992-03-02,,,,
10071,Staff,1995-08-05,9999-01-01,,,,
10077,Staff,1994-12-23,9999-01-01,,,,
10082,Staff,1990-01-03,1990-01-15,,,,


また、以下はSenior Staffだけになった人です。

In [23]:
%%sql
select * from 
(select * from titles where title='Senior Staff') a
left outer join
(select * from titles where title='Staff') b
on a.emp_no = b.emp_no
where b.title is NULL
limit 10;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
10 rows affected.


emp_no,title,from_date,to_date,emp_no_1,title_1,from_date_1,to_date_1
10013,Senior Staff,1985-10-20,9999-01-01,,,,
10015,Senior Staff,1992-09-19,1993-08-22,,,,
10036,Senior Staff,1992-04-28,9999-01-01,,,,
10053,Senior Staff,1994-11-13,9999-01-01,,,,
10058,Senior Staff,1988-04-25,9999-01-01,,,,
10059,Senior Staff,1991-06-26,9999-01-01,,,,
10061,Senior Staff,1989-12-02,9999-01-01,,,,
10094,Senior Staff,1987-04-18,1997-11-08,,,,
10104,Senior Staff,1987-04-16,9999-01-01,,,,
10107,Senior Staff,1999-03-30,9999-01-01,,,,


#### <練習問題 1>

各従業員について、最大給料が70,000以下の人、70,000～80,000の人、80,000～90,000の人、90,000より多い人でクロス表を作成してみましょう。

#### <練習問題 2>

最大の給料が100,000より多い人のうち、最小の給料が90,000以上の人の数を求めてみましょう。

### 9.2.4 （応用）having句の応用
キーワード：having句

havingの応用です。次は各部署に所属している従業員の平均給与を計算し、その平均給与が60000以上の人が半分（50%）以上の部署を抽出します。（本来は年月日によって所属部署や給与が異なるので、それらを考慮し条件を絞る必要がありますが、少し複雑になりますので、今回はこの手法を理解するために、省略します。）

In [24]:
%%sql
select 
    c.dept_no
    ,c.dept_name
    ,count(distinct a.emp_no) as cnt
    ,avg(avgSalary) as avgDepSalary 
from dept_emp a
left outer join
(
    select 
        emp_no
        ,avg(salary) as avgSalary 
    from salaries 
    group by 1
) b
on a.emp_no = b.emp_no 
left outer join departments c
on a.dept_no = c.dept_no
group by 1
having count(*) * 0.5 <= SUM(case when b.avgSalary >= 60000 then 1 else 0 end);

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
3 rows affected.


dept_no,dept_name,cnt,avgDepSalary
d001,Marketing,20211,69541.61771136
d002,Finance,17346,68061.43501801
d007,Sales,52245,78313.22247361


***

## 9.3 ストアドプロシージャとストアドファンクション
ゴール：ストアドプロシージャとストアドファンクションについて操作できること

### 9.3.1 ストアドプロシージャ
キーワード：ストアドプロシージャ

SQLを使った一連の処理をまとめて実行するためのストアドプロシージャについて学んでいきましょう。前までは、SQLを単発で実行してきました。しかし、連続して同じような処理を実行したい場合など、その都度それらを実行するのは面倒です。そこで、それらの処理を一括にまとめて処理するストアドプロシージャを用意して実行すれば、作業を効率化できます。
また、変数を用いた演算、条件分岐やテーブルの作成など多少複雑な処理も可能になります。ここでは、簡単なストアドプロシージャの作成について学びます。

In [25]:
%%sql
show databases;
use TEST1;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
5 rows affected.
0 rows affected.


[]

次に、ストアドプロシージャ作成をするのは、create procedureで始まり、beginとendでsql文を書きます。

In [26]:
%%sql
create procedure stpr1()
begin
select * from meibo;
select * from meibo2;
end

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
0 rows affected.


[]

作成したストアドプロシージャを呼ぶときは、以下のcallを使って実行します。

In [27]:
%%sql
call stpr1;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
11 rows affected.


id,name,class,age
1,Yamada,1.0,14.0
2,Tanaka,2.0,13.0
3,Suzuki,1.0,13.0
4,Kato,2.0,15.0
5,Ito,3.0,12.0
6,Takeuchi,2.0,16.0
7,Kimura,3.0,11.0
8,Sato,1.0,14.0
100,dummy_Yamada,,
200,dummy_Tanaka,,


作成したストアドプロシージャを見たいときは、show create procedureを使います。

In [28]:
%%sql
show create procedure stpr1;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
1 rows affected.


Procedure,sql_mode,Create Procedure,character_set_client,collation_connection,Database Collation
stpr1,"STRICT_TRANS_TABLES,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION",CREATE DEFINER=`root`@`%` PROCEDURE `stpr1`() begin select * from meibo; select * from meibo2; end,utf8mb4,utf8mb4_general_ci,utf8_general_ci


作成したストアドプロシージャを削除したい場合は、dropを使います。

In [29]:
%%sql
drop procedure stpr1;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
0 rows affected.


[]

また、このストアドプロシージャに引数を指定して、実行することも可能です。以下では、int型のxを引数として、設定しています。

In [30]:
%%sql
create procedure stpr2(in x int)
begin
select * from meibo where age>=x;
select * from meibo2 where age>=x;
end

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
0 rows affected.


[]

以下を実行すると、meiboとmeibo2のテーブルで、15歳以上のレコードが選択されているのがわかります。

In [31]:
%%sql
call stpr2(15);

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
2 rows affected.


id,name,class,age
4,Kato,2,15
6,Takeuchi,2,16


#### <練習問題 1>

次の処理を実行するストアドプロシージャを作成して実行してみましょう。

・meiboテーブルと同じ構造のテーブルmeibo3を作成

・meiboテーブルのデータをmeibo3テーブルに挿入

・meibo3テーブルにweightカラムを追加

・引数で与えられたBMIとheightカラムの身長から体重を逆算してweightカラムに設定する（※BMI=体重(kg)÷(身長(m)×身長(m)))

・meibo3の内容を出力

### 9.3.2 ストアドファンクション
キーワード：ストアドファンクション

次は、ストアドファンクションです。ストアドプロシージャと同じように作成できますが、値を一つだけ返す点が異なります。ユーザー定義関数とも言われます。作成した関数はcount関数やmax関数のように標準の関数と同じように利用できます。

次は、meiboテーブルにあるデータの平均年齢を返す処理をする関数を作成します。

ストアドプロシージャと同じようにデリミタを変更してから実行してください。

In [32]:
%%sql
drop function if exists fc1;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
0 rows affected.


  result = self._query(query)


[]

「create function 関数名 returns 返り値の型」からはじまり、begin~endで記述します。

In [33]:
%%sql
create function fc1() returns double
begin
declare avgAge double;
select avg(age) into avgAge from meibo;
return avgAge;
end

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
0 rows affected.


[]

呼び出しは以下のようにします。

In [34]:
%%sql
select fc1();

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
1 rows affected.


fc1()
13.5


#### <練習問題 1>

上記の例を参考に、meiboテーブルから平均身長を返す関数を作成して呼んでください。

#### <練習問題 2>

MySQLはナノ秒の取扱ができません。時、分、秒、ナノ秒（小数点以下の秒）の4つの引数を与えると "HH:MM:SS.sssssssss"形式の文字列(varchar(18))を返す関数を作って実行してみましょう。

ヒント：文字列の結合にはconcat関数が利用できます。

***

## 9.4 インデクシングとSQLの高速化
ゴール：データベース上の処理の高速化の手法を知る

### 9.4.1 インデックスの設定
キーワード：インデックス

テーブルからデータを検索するときに、データが膨大にある場合には全件検索は非常に時間がかかります。そこで、テーブルに索引を設定することで、検索がしやすくなり、高速化できます。テーブルに設定する索引を**インデックス**と言います。なお、主キーを設定した場合には、自動的にインデックスも作成されます。ただし、インデックスを設定すれば速くなるというわけではなく、適切に設定することが大事です。

In [35]:
%%sql
show databases;
use employees;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
5 rows affected.
0 rows affected.


[]

In [36]:
%%sql
show tables;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
6 rows affected.


Tables_in_employees
departments
dept_emp
dept_manager
employees
salaries
titles


In [37]:
%%sql
show index from employees;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
1 rows affected.


Table,Non_unique,Key_name,Seq_in_index,Column_name,Collation,Cardinality,Sub_part,Packed,Null,Index_type,Comment,Index_comment
employees,0,PRIMARY,1,emp_no,A,299778,,,,BTREE,,


explainを使うと、クエリがどのような順番でどのような方法でテーブルを検索するかを知ることができます。

In [38]:
%%sql
explain
select * from employees;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
1 rows affected.


id,select_type,table,type,possible_keys,key,key_len,ref,rows,Extra
1,SIMPLE,employees,ALL,,,,,299778,


条件指定をせずにテーブルの全てを出力しているのでインデックスも利用されていないことがわかります。
9.2.4で実行したクエリをexplainで調べてみましょう。

In [39]:
%%sql
explain
select 
    c.dept_no
    ,c.dept_name,count(distinct a.emp_no) as cnt
    ,avg(avgSalary) as avgDepSalary 
from dept_emp a
left outer join
(
    select 
        emp_no
        ,avg(salary) as avgSalary 
    from salaries 
group by 1) b
on a.emp_no = b.emp_no 
left outer join departments c
on a.dept_no = c.dept_no
group by 1
having count(*) * 0.5 <= SUM(case when b.avgSalary >= 60000 then 1 else 0 end)

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
4 rows affected.


id,select_type,table,type,possible_keys,key,key_len,ref,rows,Extra
1,PRIMARY,a,index,,emp_no,4,,331143,Using index; Using temporary; Using filesort
1,PRIMARY,<derived2>,ref,key0,key0,5,employees.a.emp_no,2,
1,PRIMARY,c,eq_ref,PRIMARY,PRIMARY,12,employees.a.dept_no,1,
2,LATERAL DERIVED,salaries,ref,"PRIMARY,emp_no",PRIMARY,4,employees.a.emp_no,4,


keyに値が入っていればインデックスは利用されています。

In [40]:
%%sql
select * from employees limit 4;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
4 rows affected.


emp_no,birth_date,first_name,last_name,gender,hire_date
10001,1953-09-02,Georgi,Facello,M,1986-06-26
10002,1964-06-02,Bezalel,Simmel,F,1985-11-21
10003,1959-12-03,Parto,Bamford,M,1986-08-28
10004,1954-05-01,Chirstian,Koblick,M,1986-12-01


既にあるテーブルにインデックスを追加する場合は以下のように設定します。（以下のコマンドは実行に時間がかかる可能性があります）

In [41]:
%%sql
create index my_oinde_birth_date on employees(birth_date);

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
0 rows affected.


[]

確かめると以下のようにインデックスが設定されていることがわかります。

In [42]:
%%sql
show index from employees;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
2 rows affected.


Table,Non_unique,Key_name,Seq_in_index,Column_name,Collation,Cardinality,Sub_part,Packed,Null,Index_type,Comment,Index_comment
employees,0,PRIMARY,1,emp_no,A,299778,,,,BTREE,,
employees,1,my_oinde_birth_date,1,birth_date,A,9670,,,,BTREE,,


インデックスは以下のように削除します。

In [43]:
%%sql
drop index my_oinde_birth_date on employees;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
0 rows affected.


[]

確かめると以下のようにインデックスが削除されていることがわかります。

In [44]:
%%sql
show index from employees;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
1 rows affected.


Table,Non_unique,Key_name,Seq_in_index,Column_name,Collation,Cardinality,Sub_part,Packed,Null,Index_type,Comment,Index_comment
employees,0,PRIMARY,1,emp_no,A,299778,,,,BTREE,,


大量のデータから一部を検索するときはインデックスが利用されることが重要になります。
一回のwhere句やjoin、order by、group by の条件指定では一個のインデックスしか使えません。複数のカラムを条件指定しないと検索結果を絞り込めない場合は複合インデックスを指定します。salariesテーブルは元々、主キーがemp_noとfrom_dateの複合インデックスになっていますが、from_date、to_dateを同時に用いて検索したい場合は次のようにインデックスを設定すると良いでしょう。

In [45]:
%%sql
create index from_to_date on salaries(from_date,to_date);

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
0 rows affected.


[]

作成されたインデックスを確認します。

In [46]:
%%sql
show index from salaries;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
5 rows affected.


Table,Non_unique,Key_name,Seq_in_index,Column_name,Collation,Cardinality,Sub_part,Packed,Null,Index_type,Comment,Index_comment
salaries,0,PRIMARY,1,emp_no,A,709606,,,,BTREE,,
salaries,0,PRIMARY,2,from_date,A,2838426,,,,BTREE,,
salaries,1,emp_no,1,emp_no,A,709606,,,,BTREE,,
salaries,1,from_to_date,1,from_date,A,12234,,,,BTREE,,
salaries,1,from_to_date,2,to_date,A,135163,,,,BTREE,,


インデックスを追加すると、検索は高速になりますが、インデックスの作成に時間がかかるためレコードの追加が遅くなったり、インデックスの情報を格納するためにディスク容量も必要になるというデメリットがあります。デメリットを把握した上で設定しましょう。

レコード数が少なかったり、ランダムアクセスが高速なSSDを利用している場合は必ずしもインデックスが必要ではないため、設定していても利用されない場合があります。むやみにインデックスを設定することは避けましょう。

また、インデックスで絞り込んでもテーブルの大部分のレコードが残るような場合、インデックスを介して検索するよりインデックスを利用しないほうが高速な場合もあります。

#### <練習問題 1>

dept_empテーブルのfrom_date、to_dateに複合インデックスを設定してみましょう。

### 9.4.2 インデックスの種類
キーワード：Bツリーインデックス、ハッシュインデックス、Rツリーインデックス

参考ですが、インデックスのデータの型の種類とそれぞれの特徴について以下、簡単に説明します。興味のある方や参考文献などを見て調べてみてください。

- **Bツリー(balanced tree)インデックス**  
一番人気が高く、インデックスの型として最もよく使われます。  
柔軟性、サイズ、全体的な性能のバランスをうまくとっています。


- **ハッシュインデックス**  
二番目に人気が高いです。  
ツリーよりもハッシュテーブルに似ていて、各キーにハッシュ関数を実行した結果に基づいて並べます。   


- **Rツリーインデックス**  
空間データまたはN次元データを扱うときに用いられます。  
地図や地球科学のアプリケーションで幅広く使われます。  

### 9.4.3 SQLのパフォーマンスチューニング
キーワード：特になし

インデックスを使用する際は、高速化のため、条件式の左辺はカラムのみを入れましょう。以下は比較のため、emp_noを係数倍して、それが400000より大きいものを抽出するクエリを示してあります。

**注意：現在の環境ではクエリが返ってくるまでの実行時間は表示されませんが、terminal上で実行すると見ることができますので、参考にしてください（なお、terminalで「mysql -h"zdb" -P"3306" -u root -p"gci"」のコマンドを実行すると、mariadbでsqlがたたけるようになります。）**

In [47]:
%%sql
select * from employees
where emp_no * 0.80001 > 400000;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
6 rows affected.


emp_no,birth_date,first_name,last_name,gender,hire_date
499994,1952-02-26,Navin,Argence,F,1990-04-24
499995,1958-09-24,Dekang,Lichtner,F,1993-01-12
499996,1953-03-07,Zito,Baaz,M,1990-09-27
499997,1961-08-03,Berhard,Lenart,M,1986-04-21
499998,1956-09-05,Patricia,Breugel,M,1993-10-13
499999,1958-05-01,Sachin,Tsukuda,M,1997-11-30


左辺に演算を入れずに、そのカラムのままにしておく設定だと、クエリが返ってくる時間が短くなります。上記の結果と比較してみてください。

In [48]:
%%sql
select * from employees
where emp_no > 400000/0.80001;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
6 rows affected.


emp_no,birth_date,first_name,last_name,gender,hire_date
499994,1952-02-26,Navin,Argence,F,1990-04-24
499995,1958-09-24,Dekang,Lichtner,F,1993-01-12
499996,1953-03-07,Zito,Baaz,M,1990-09-27
499997,1961-08-03,Berhard,Lenart,M,1986-04-21
499998,1956-09-05,Patricia,Breugel,M,1993-10-13
499999,1958-05-01,Sachin,Tsukuda,M,1997-11-30


他、無駄な中間テーブルは減らして、having句を活用しましょう。以下は比較のための中間テーブルを利用したクエリです

In [49]:
%%sql
select * from
(select emp_no,max(salary) as maxSalary from salaries group by 1) tmp
where maxSalary > 155000;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
5 rows affected.


emp_no,maxSalary
43624,158220
47978,155709
109334,155377
253939,155513
254466,156286


若干ですが、クエリが返ってくる時間が短くなります。

In [50]:
%%sql
select 
    emp_no
    ,max(salary) as maxSalary
from salaries 
group by 1
having maxSalary > 155000;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
5 rows affected.


emp_no,maxSalary
43624,158220
47978,155709
109334,155377
253939,155513
254466,156286


演算処理はレコード件数を絞った後に実行されるようにしましょう。

9.2.3節で実行したクエリを高速化してみます。

(**ここから先の結果は、環境によっては、特に変化がなかったり、遅かったりする可能性もあるので、参考に見ておいてください**)

explainを実行してみましょう。

In [51]:
%%sql
explain
select 
    x0.emp_no
    ,case when x1.emp_no is not null then 'OK' else '' end as "Staff"
    ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff"
    ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer"
from (select distinct emp_no from employees ) x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no
limit 10;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
5 rows affected.


id,select_type,table,type,possible_keys,key,key_len,ref,rows,Extra
1,PRIMARY,<derived2>,ALL,,,,,299778,
1,PRIMARY,titles,ref,"PRIMARY,emp_no",PRIMARY,156.0,"x0.emp_no,const",1,Using where; Using index
1,PRIMARY,titles,ref,"PRIMARY,emp_no",PRIMARY,156.0,"x0.emp_no,const",1,Using where; Using index
1,PRIMARY,titles,ref,"PRIMARY,emp_no",PRIMARY,156.0,"x0.emp_no,const",1,Using where; Using index
2,DERIVED,employees,index,,PRIMARY,4.0,,299778,Using index


このクエリはx0の部分が主になって、x1,x2,x3が外部結合されています。

explainの結果、一番最初に選択されているテーブル(x0)の行数が291,937となっています。これは、limit句が一番外にあるためです。joinやcase文の演算を実行してからレコードがlimit句で10行だけ抽出されています。x0の段階でlimit 10を指定しておくとその他の処理も10行分しか実行しないため高速になります。

x0のサブクエリの時点でlimit句を指定してexplainを実行してみましょう

In [52]:
%%sql
explain
select 
    x0.emp_no
    ,case when x1.emp_no is not null then 'OK' else '' end as "Staff"
    ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff"
    ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer"
from (select distinct emp_no from employees limit 10) x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
5 rows affected.


id,select_type,table,type,possible_keys,key,key_len,ref,rows,Extra
1,PRIMARY,<derived2>,ALL,,,,,10,
1,PRIMARY,titles,ref,"PRIMARY,emp_no",PRIMARY,156.0,"x0.emp_no,const",1,Using where; Using index
1,PRIMARY,titles,ref,"PRIMARY,emp_no",PRIMARY,156.0,"x0.emp_no,const",1,Using where; Using index
1,PRIMARY,titles,ref,"PRIMARY,emp_no",PRIMARY,156.0,"x0.emp_no,const",1,Using where; Using index
2,DERIVED,employees,index,,PRIMARY,4.0,,299778,Using index


一番最初に選択されるテーブル(x0)の行数が10になりました。

実行してみます。

In [53]:
%%sql
select 
    x0.emp_no
    ,case when x1.emp_no is not null then 'OK' else '' end as "Staff"
    ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff"
    ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer"
from (select distinct emp_no from employees limit 10) x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
10 rows affected.


emp_no,Staff,Senior Staff,Engineer
10001,,,
10002,OK,,
10003,,,
10004,,,OK
10005,OK,OK,
10006,,,
10007,OK,OK,
10008,,,
10009,,,OK
10010,,,OK


実行時間が大幅削減されました。

さらに、x0テーブルはemp_noの重複を排除するためにdistinctを指定していますが、employeesテーブルの主キーなので重複はありません。x0のサブクエリは廃止できます。

In [54]:
%%sql
select 
    x0.emp_no
    ,case when x1.emp_no is not null then 'OK' else '' end as "Staff"
    ,case when x2.emp_no is not null then 'OK' else '' end as "Senior Staff"
    ,case when x3.emp_no is not null then 'OK' else '' end as "Engineer"
from employees  x0
left outer join (select emp_no from titles where title ="Staff") x1 on x0.emp_no = x1.emp_no
left outer join (select emp_no from titles where title ="Senior Staff") x2 on x0.emp_no = x2.emp_no
left outer join (select emp_no from titles where title ="Engineer") x3 on x0.emp_no = x3.emp_no
limit 10;

 * mysql+pymysql://root:***@10.33.94.193/?charset=utf8mb4
10 rows affected.


emp_no,Staff,Senior Staff,Engineer
10001,,,
10002,OK,,
10003,,,
10004,,,OK
10005,OK,OK,
10006,,,
10007,OK,OK,
10008,,,
10009,,,OK
10010,,,OK


この他、SQLの高速化には以下のような手法があります。詳細の説明は省略しますが、DBMSの公式サイトや書籍等を参照してください。

##### SQL実行時のプロファイリング結果を利用する。

プロファイリング機能を利用して、クエリの実行時間のうちどれだけの時間をどの処理で使用したかを確認しつつ、時間のかかっている原因を取り除きます。explainの結果とあわせて利用します。

##### パーティショニングを利用する。

1つのテーブルを複数に分割することで処理の高速化と格納効率を向上することが見込めます。テーブル定義にパーティショニングを設定することでテーブルを分割して高速になる場合があります。ただし、分割したテーブルを全て参照するようなSQLになる場合は逆に遅くなる場合もありますので注意してください。

##### DBMSの設定値をチューニングする。

DBMSの確保するメモリが足りないために一時テーブルをファイルに出力して処理すると急激に遅くなります。DBMSの確保するキャッシュ容量を調整することで回避できる場合があります。その他、DBMSの設定値を変更することでパフォーマンスを向上させることができる場合があります。

***

## 9.5 その他
ゴール：ファイルのやり取りやデータモデリング、正規化の概念を知る

### 9.5.1 データベースとファイルのやり取り
キーワード：データのインポート、エクスポート

データのファイル形式は様々あり、ここではよく扱われるCSV(Comma Separated Values)ファイルをデータベースに取り込むインポートや、データをファイルに書き出すエクスポート等について簡単に紹介します。

まずは、インポートです。これまでサンプルのデータを準備するときに、手で一部入力をして、実行していました。もちろん、大量のデータがある場合に、手で入力するのは現実的ではなく、CSVファイルにあるデータを自動的に入れる方法があり、「load data infile 'ファイル名' into table テーブル名 オプション;」のような記述で実行します。
ファイル名は、そのディレクトリ名を含むこともできます。オプションは、データの区切り文字や先頭をスキップする時などに使います。
一方、エクスポートについては、「select * into outfile 'ファイル名' オプション from テーブル名」のように記述をして、ファイルをアウトプットします。もし、大量のファイルをデータベースに入れたい場合や、その逆をすることがあれば、これらの方法を検討してみてください。

この他、SQLが記述されたファイルを実行する「source ファイル名」や、データベースをバックアップする方法（ダンプ）や、それを再び戻す方法（リストア）もあります。詳しくはMySQLの公式サイトを参照してみてください。

データのインポート：https://dev.mysql.com/doc/refman/5.6/ja/load-data.html

データのエクスポート：https://dev.mysql.com/doc/refman/5.6/ja/select-into.html

データベースのバックアップ・リストア：https://dev.mysql.com/doc/refman/5.6/ja/mysqldump.html

### 9.5.2 データモデリングと正規化
キーワード：データモデリング、正規化

前章では、データベースにテーブルがない場合は、テーブルを作成してきました。顧客の名前を管理する必要があれば、顧客名のカラムを作成し、それだけでは名前に重複がある可能性もあるので、一意に定まるIDのカラムを設定したり、他に属性情報等があれば、それらのカラムを作成します。これらのテーブル設計の要件は、ビジネスによって異なり、はじめにしっかりとやらないと、後で困ること（カラムが足りない、後から追加したいなどのニーズが出てきたときに柔軟に変更できるかどうかなど）も出てきます。このように、必要なデータ項目を洗い出して、テーブル設計していくことを**データモデリング**といいます。

このデータモデリングを進めていく上で、重要なことが**正規化**です。正規化の目的は、効率よくデータを扱うために整理することにあります。具体的には、あるテーブルの列において、データが繰り返し出てきて、別のテーブルにしたほうが、更新などもしやすいというケースがあります。この正規化には第1正規形から第5正規形、他にも色々とありますので、興味ある方は以下の参考文献やネットなどで調べてみてください。

>[参考文献]

>『Webエンジニアのための データベース技術[実践]入門 (Software Design plus)』（松信 嘉範 (著)、技術評論社）

以上で、この章は完了です。お疲れ様でした。再掲ですが、以下の参考文献などを読んで、是非中級者への道に進んでください。

>[参考文献]

>『SQL実践入門──高速でわかりやすいクエリの書き方 (WEB+DB PRESS plus) 』（ミック  (著)、技術評論社）

>『プログラマのためのSQL 第4版』（ジョー・セルコ (著), Joe Celko (著), ミック (監修, 翻訳)、翔泳社）

>『達人に学ぶ SQL徹底指南書』（ミック  (著)、翔泳社）

>『達人に学ぶDB設計 徹底指南書 初級者で終わりたくないあなたへ 』（ミック  (著)、翔泳社）

>『ビッグデータ分析・活用のためのSQLレシピ』（加嵜 長門  (著), 田宮 直人  (著), 丸山 弘詩 (編集)、マイナビ出版 ）

***

## 9.6 総合問題

### 9.6.1 総合問題1

以下のデータベースを使って、次の問題を考えて実行してみましょう。（注意事項等を読んでください。）

https://dev.mysql.com/doc/sakila/en/

ターミナル(もしくは画面上にあるKernelをPythonに変更して)から以下のコマンドを入力します。

-------------------
wget http://downloads.mysql.com/docs/sakila-db.tar.gz  
tar zxf sakila-db.tar.gz  
cd sakila-db  
mysql -h"zdb" -P"3306" -u root -p"gci" < sakila-schema.sql  
mysql -h"zdb" -P"3306" -u root -p"gci" < sakila-data.sql  

-------------------

(1) 支払金額の総額が100ドル以上の顧客名と支払総額を表示してください。

(2) (1)の結果を新しいテーブルに格納するストアドプロシージャを作成してください。ただし、支払総額の閾値は引数で指定できるようにしてください。

### 9.6.2 総合問題2

以下のデータベースを使って 後の問に答えてください。（こちらも注意事項等を読んでください。）

https://sites.google.com/a/dlpage.phi-integration.com/pentaho/mondrian/mysql-foodmart-database/foodmart_mysql.tar.gz?attredirects=0

参考の解説等はこちらになります。

https://github.com/julianhyde/foodmart-data-hsqldb

http://www.fromdual.ch/foodmart-old

**まずはデータを入れるために、データベースfoodmartを作成してください。**

次に、ターミナル(もしくは画面上にあるKernelをPythonに変更して)から以下のコマンドを入力します。

-------------------
mkdir foodmart  
cd foodmart  
wget http://pentaho.dlpage.phi-integration.com/mondrian/mysql-foodmart-database/foodmart_mysql.tar.gz  
tar zxf  foodmart_mysql.tar.gz  
mysql -h"zdb" -P"3306" -u root -p"gci" foodmart < foodmart_mysql.sql  

-------------------

(1) 1998年1月の従業員の給料ランキングを10位まで表示してください。

(2) sales_fact_1998テーブルの中で、同じ人が同じ時間に買っている商品の2つの組み合わせの中で、購買回数が多い2つの商品はどれとどれでしょうか。TOP5を抽出して、商品名(product_name)でそれぞれ答えてください。なお、商品はproduct_idベースでカウントして、同じ人とはcustomer_idが同じことを意味し、同じ時間とはtime_idが同じことを意味します。なお、これをバスケット分析（同時併売）といい、期間併売で計算することもあります。