# 集計 ⚡️

このノートブックではクエリを使ったデータの集計方法について確認します。

## 1. 初期設定

Jupyter Notebook を再起動した場合などはここから実行してください

In [None]:
! pip install ipython-sql pymysql
%load_ext sql

## 2. 接続確認

In [2]:
%%sql mysql+pymysql://hello:world@10.0.1.100/employees
select 'hello' as world

1 rows affected.


world
hello


## 3. COUNT 関数

COUNT 関数を利用することでレコード数を数えることができます。

```sql
COUNT(<式>)
```

In [27]:
%%sql
select count(1)

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


count(1)
1


`NULL` は除外されます

In [28]:
%%sql
select count(null)

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


count(null)
0


以下は `employees` テーブルのレコード数を数えるクエリです

In [8]:
%%sql
select
    count(1)
from
    employees

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


count(1)
300024


ここで `CASE WHEN` 構文を利用すると条件にマッチするときに特定の値を返すことができます

In [30]:
%%sql
select
    emp_no,
    case
        when emp_no = 10001 then 'hello'
    end as hello_case_when
from
    employees
limit 3

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


emp_no,hello_case_when
10001,hello
10002,
10003,


`CASE WHEN` はマッチしないときは `NULL` を返すので `COUNT` 関数と組み合わせることで特定の条件を満たすレコードのみを数えることができます。以下は `employees` テーブルから `hire_date` が `1985-11-21` であるレコードの件数を数えるクエリです。

In [12]:
%%sql
select
    count(case when hire_date = '1985-11-21' then 1 end)
from
    employees

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


count(case when hire_date = '1985-11-21' then 1 end)
119


## 4. GROUP BY 句

`GROUP BY` 句を使うと指定したカラムの値でグループ分けした結果に対して集計を行うことができます（複数のカラムを指定できます）。以下は `titles` テーブルから `title` ごとにレコード数を数えて多い順に並べ替えるクエリです。

In [35]:
%%sql
select
    title,
    count(1) as cnt
from
    titles
group by
    title

order by
    cnt desc

 * mysql+pymysql://hello:***@10.0.1.100/employees
7 rows affected.


title,cnt
Engineer,115003
Staff,107391
Senior Engineer,97750
Senior Staff,92853
Technique Leader,15159
Assistant Engineer,15128
Manager,24


## 5. HAVING 句

HAVING 句に条件を記述することで集計後の結果に対して検索をすることができます。

In [40]:
%%sql
select
    title,
    count(1) as cnt
from
    titles
group by
    title

-- "where cnt < 20000" はエラー
having
    cnt < 20000
    
order by
    cnt desc

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


title,cnt
Technique Leader,15159
Assistant Engineer,15128
Manager,24


## 6. そのほかの集約関数

`COUNT` 関数以外にも合計を求める `SUM` 関数や平均値を求める `AVG` 関数などを GROUP BY 句と併用することができます。

以下の URL に利用できる関数の一覧があります。

https://dev.mysql.com/doc/refman/8.0/en/group-by-functions.html

## 🌱 練習問題

`employees` テーブルについて `gender` が `F` で最もレコード数が多い `first_name` を調べてください

In [None]:
%%sql
select
    first_name,
    gender,
    -- Hint 1. ここで行数を数える関数を呼ぶ
from
    employees
where
    -- Hint 2. gender を絞りこむ
group by
    -- Hint 3. first_name と gender で集約
order by
    -- Hint 4. レコード数が多い順に並べ替える
limit 10

In [None]:
# 実行後、"your answer" の右側に表示される入力ボックスに答えを入力し Enter キーを押してください m(_ _)m
import urllib.request

answer = input('your answer (first_name): ')

url = 'http://10.0.1.100:18080/submit'
data = 'q=q301&a={}'.format(answer.strip()).encode('utf-8')
req = urllib.request.Request(url, data=data, method='POST')
with urllib.request.urlopen(req) as res:
    print(res.read().decode('utf-8'))