# データベースチューニングを語る

## 前置き

- 本トークで出てくる言葉は、あまり信用しないでください。
- それっぽい、あたかも定義されたかのような、美しい言葉が出てきますが、ほとんど私の経験則に基づく言葉です。
- 言葉自体は、私の言葉なので、意味は、信用しないでください。
- 書籍などから正しい言葉などを引用してないので、一般的な言葉では無い可能性ががあります。
- 一応、信用していい部分、悪い分をトークの途中で入れていきながら進めたいと思っています。


## アジェンダ

### 主な内容
- データベースのチューニング方法とその効果に関する、私の経験則に基づく検討結果です。

### 話す順番
1. データベースのチューニング方法の羅列
2. 評価軸の整理
3. 評価軸ごとの特色の検討
4. 方法と評価軸の整理(まとめ)

## データベースチューニング方法の羅列


- プログラム的な対応(カーソルループの廃止など)
- 等価なSQLへの書き換え
- ヒント文の追加
- インデックス
- ビューの実体化(オラクルで言うマテビュー)
- パーティショニング
- リードレプリカ
- パラメータ変更(キャッシュサイズ調整、ファイルの分散配置、パラレル度調整、etc.)
- ハードウェア増強(メモリ、CPU、I/O)



** (順番にはあまり意味はない。なんとなく上のほうがアプリ寄り、下のほうがインフラ寄り) **



## 評価軸の整理

### 私は、基本的には、(直感的な)コスト対効果で、チューニング方法を選定しているようです。

### 効果とは?

処理速度が向上すること、およびその向上度合い(どの程度向上するか)

### コストとは?

まず以下の３点に大別されるように思う。

1. チューナーのコスト
  - 主に、チューナーが調査・検証・効果測定する工数
  - 要するに私が動くコスト
2. **　チューナー以外のコスト => 後述　**
3. 管理コスト(主題から逸れるので無視する)



## チューナー以外のコストとは?

たぶん、さらに以下の３つに分けられるように思います。

1. アプリ変更コスト(概ね、APエンジニアの工数のように思われる)
  - 事前検証作業
  - 設計・実装・テスト作業(単体→結合→システム)
  - 本番リリース作業
  - リリース後の立会、結果報告
  - etc.
2. インフラ増強コスト
  - そもそも増やせるのかの検討確認作業
  - 増やすための設計・実装・テスト作業
  - モノの料金(メモリ、CPU、I/O)
  - コストだけでなく調達のためのリードタイムが必要(クラウドならゼロにできる)
3. **ミドル(DBMS)変更コスト(パラメータ変更やパーティショニングなど)**
  - アプリ変更、インフラ増強の両方を伴いかねない(伴う場合が多い)
  - たとえば
    - パーティショニングするなら、パーティションキーの検討・設計が最低限必要。
      - これは「アプリ視点」でないと、できない(ので、アプリ技術者が動く必要あり) 
      - 場合によってはパーティションをスライドさせるためのアプリが必要
    - パラメータ変更もインフラ担当との連携が必要で、インフラ技術者が動く必要あり


## 評価軸ごとの特色

#### 1.アプリ変更の特色
  - ○アプリ側だけのコストや都合でなんとかなるような気がする。
  - ○その意味では、打つ手としては、比較的、打ちやすい。
  - ×一方で、コストやリードタイムが読みにくい、というリスクがある。
  - ×また対応できる時間が限られている可能性がある
    - プログラムをいじれるパートナーさんの契約期間とか.

#### 2.インフラ増強の特色
  - ○インフラ側だけのコストや都合でなんとかなるような気がする。
  - ○その意味では、打つ手としては、比較的、打ちやすい。
  - ○そもそも、ちゃんとインフラ容量設計をやっていれば、安全率を十分にかけているので、増強の必要性が発生しにくい。
  - ×一方で、リアルな料金が発生する。（増強の費用はたいてい顧客持ちなので、説明できないと行けない)
  - ×調達のためのリードタイムが発生する。(
    - クラウドならゼロにできるが、長い目で見れば料金は高額になる
  


## 評価軸ごとの特色 3つめ

#### 3.ミドル(DBMS)変更コスト
  - アプリ変更、インフラ増強の両方を伴いかねない(伴う場合が多い)
  - だから、できればチューニングでミドル変更はやりたくない
  - **きちんと設計して決めておくことが大事**
  - DBスペシャリスト(DBA,DA)の役割を持つ人が、すべての開発プロジェクトにおいて必要では?
  - 最近のDBMSは「デフォルト設定」で大体なんとかなるくらいに賢い
    - が、**思わぬ落とし穴には気をつけたい**
      - 技術は変化(進化or退化)する


## 方法と評価軸の整理(まとめ)

|title|title|
|:---:|:---:|
|cell1|cell2|
+-----+-----+
3x2

In [1]:
import pandas as pd
import numpy as np

np.__version__
# '1.10.1'

pd.__version__
# u'0.17.1'

np.random.seed(1)

df = pd.DataFrame({'name': list('abcdefg'),
                   'values1': np.random.randn(7), 
                   'values2': np.random.randn(7)})
df

Unnamed: 0,name,values1,values2
0,a,1.624345,-0.761207
1,b,-0.611756,0.319039
2,c,-0.528172,-0.24937
3,d,-1.072969,1.462108
4,e,0.865408,-2.060141
5,f,-2.301539,-0.322417
6,g,1.744812,-0.384054


## パワポに戻る