# 便利な機能 💰

このノートブックでは文字列操作に関する機能とウィンドウ関数について紹介します。

## 1. 初期設定

Jupyter Notebook を再起動した場合などはここから実行してください。

In [None]:
! pip install ipython-sql pymysql
%load_ext sql

## 2. 接続確認

In [60]:
%%sql mysql+pymysql://hello:world@10.0.1.100/employees
select 'hello' as world

1 rows affected.


world
hello


## 3. LIKE 演算子

LIKE 演算子を使うことで特定のパターンにマッチする文字列を検索することができます。

```sql
<対象文字列> LIKE <パターン文字列>
```

パターン文字列は2種類の特殊文字を持っています。

- `%` （パーセント）
  - 任意の文字列にマッチします
- `_`（アンダースコア）
  - 任意の一文字にマッチします
- ※これらの文字自体をパターンに指定する場合は `\%` のようにエスケープしてください

以下は `employees` テーブルについて `first_name` が `B` で始まるレコードを検索するクエリです。

In [4]:
%%sql
select
    first_name,
    last_name
from
    employees
where
    first_name like 'B%'
limit 3

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


first_name,last_name
Bezalel,Simmel
Berni,Genin
Bojan,Montemayor


`NOT` をつけるとマッチしない文字列を検索できます。

In [8]:
%%sql
select
    first_name,
    last_name
from
    employees
where
    first_name not like 'B%'
limit 3

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


first_name,last_name
Georgi,Facello
Parto,Bamford
Chirstian,Koblick


`_` をパターン文字列に指定すると任意の一文字にマッチする文字列が検索できます。以下は"B"で始まる5文字の `first_name` を検索するクエリです。

In [7]:
%%sql
select
    first_name,
    last_name
from
    employees
where
    first_name like 'B____'
limit 3

 * mysql+pymysql://hello:***@10.0.1.100/employees
3 rows affected.


first_name,last_name
Berni,Genin
Bojan,Montemayor
Bader,Swan


## 4. REGEXP 演算子

`REGEXP` 演算子を使うと正規表現を使って `LIKE` 演算子よりも複雑なパターンを指定することができます。

> MySQL では、POSIX 1003.2 に準拠することを目的とした Henry Spencer 氏による正規表現の実装が使用されます。
> https://dev.mysql.com/doc/refman/5.6/ja/regexp.html

以下は `titles` テーブルから A から E で始まる `title` を検索するクエリです。大文字と小文字が区別されないことに注意しましょう。

In [15]:
%%sql
select
    distinct
    title
from
    titles
where
    title regexp '^[a-e]'
limit 3

 * mysql+pymysql://hello:***@10.0.1.100/employees
2 rows affected.


title
Engineer
Assistant Engineer


## 5. ランキングの集計

ウィンドウ関数（分析関数）は分析クエリでよく使われる強力な機能の一つです。MySQL では長らくサポートされていませんでしたがバージョン 8.0 から利用できるようになりました。

`GROUP BY` 句を使った集約ではレコードを指定したカラムの値でグループ分けし全体に対して集計をかけることができましたが、ウィンドウ関数ではある行について前後関係やグループ内で他の行を考慮した集計を行うことができます。集約は集計結果が一つのレコードにまとまるのに対して、ウィンドウ関数を使った集計では元のレコードがそのまま残る形で集計することができます。

ウィンドウ関数の呼び出しは通常の関数と違って `OVER` 句を指定する必要があり、構文については以下のようになります。

```sql
SELECT
    関数名(<引数>) OVER (PARTITION BY <グループ分けするカラム> ORDER BY <並べ替えるカラム>)
```


ここではウィンドウ関数の一つである `RANK` 関数を使って、`salaries` テーブルについて `salary` が高い社員のランキングを集計してみましょう。

In [27]:
%%sql
select
    rank() over (order by salary desc) as ranking,
    emp_no,
    salary
from
    salaries
where
    to_date = '9999-01-01'
order by
    ranking
limit 10

 * mysql+pymysql://hello:***@10.0.1.100/employees
10 rows affected.


ranking,emp_no,salary
1,43624,158220
2,254466,156286
3,47978,155709
4,253939,155513
5,109334,155190
6,80823,154459
7,493158,154376
8,205000,153715
9,266526,152710
10,237542,152687


## 6. LEAD 関数 / LAG 関数

ウィンドウ関数の LEAD 関数と LAG 関数を使うと、あるレコードについて指定の順序で前後にあるレコードの情報を取得することができます。使用例については日別のログイン履歴などでログインした日付と次にログインした日付を求めることでログインしなかった日数などを求めたりすることができます。行動の前後関係を一つのレコードとして保持できるのでレコメンド処理を行う機械学習モデルの入力データ生成などにも活用することができます。

In [20]:
%%sql
drop table if exists tmp.logins;
create temporary table tmp.logins as
select
    cast('2019-04-01' as date) as date,
    123 as user_id
;

insert into tmp.logins values
    -- user_id=123 のログイン履歴
    ('2019-04-02', 123),
    ('2019-04-04', 123),
    ('2019-04-05', 123),
    ('2019-04-06', 123),
    ('2019-04-07', 123),
    ('2019-04-08', 123),
    
    -- user_id=456 のログイン履歴
    ('2019-04-02', 456),
    ('2019-04-04', 456),
    ('2019-04-05', 456),
    ('2019-04-06', 456),
    ('2019-04-07', 456),
    ('2019-04-08', 456)
;

 * mysql+pymysql://hello:***@10.0.1.100/employees
0 rows affected.
1 rows affected.
12 rows affected.


[]

`LEAD` 関数は `ORDER BY` 句で指定した順序で次に来るレコードの情報を取得します。レコードが存在しないときは `NULL` を返します。

In [21]:
%%sql
select
    date,
    user_id,
    lead(date) over (partition by user_id order by date) as next_login_date
from
    tmp.logins

order by
    user_id,
    date

 * mysql+pymysql://hello:***@10.0.1.100/employees
13 rows affected.


date,user_id,next_login_date
2019-04-01,123,2019-04-02
2019-04-02,123,2019-04-04
2019-04-04,123,2019-04-05
2019-04-05,123,2019-04-06
2019-04-06,123,2019-04-07
2019-04-07,123,2019-04-08
2019-04-08,123,
2019-04-02,456,2019-04-04
2019-04-04,456,2019-04-05
2019-04-05,456,2019-04-06


`LAG` 関数は指定順で前にあるレコードの情報を取得します。対応するレコードが存在しないときは NULL を返します。

In [25]:
%%sql
select
    date,
    user_id,
    lag(date) over (partition by user_id order by date) as prev_login_date
from
    tmp.logins
    
order by
    user_id,
    date

 * mysql+pymysql://hello:***@10.0.1.100/employees
13 rows affected.


date,user_id,prev_login_date
2019-04-01,123,
2019-04-02,123,2019-04-01
2019-04-04,123,2019-04-02
2019-04-05,123,2019-04-04
2019-04-06,123,2019-04-05
2019-04-07,123,2019-04-06
2019-04-08,123,2019-04-07
2019-04-02,456,
2019-04-04,456,2019-04-02
2019-04-05,456,2019-04-04


以下はユーザー別にログインした日付についてログインしていなかった日数を求めるクエリです。MySQL では `DATEDIFF` 関数を使用することで日付の差分を計算することができます。

In [33]:
%%sql
select
    user_id,
    date,
    datediff(date, prev_login_date) - 1 as not_login_days
from
    (select
        date,
        user_id,
        lag(date) over (partition by user_id order by date) as prev_login_date
    from
        tmp.logins
    ) as t1
    
order by
    user_id,
    date

 * mysql+pymysql://hello:***@10.0.1.100/employees
13 rows affected.


user_id,date,not_login_days
123,2019-04-01,
123,2019-04-02,0.0
123,2019-04-04,1.0
123,2019-04-05,0.0
123,2019-04-06,0.0
123,2019-04-07,0.0
123,2019-04-08,0.0
456,2019-04-02,
456,2019-04-04,1.0
456,2019-04-05,0.0


## 🌱 練習問題

`salaries` テーブルについて給料が高い順に `3940` 番目 / `3941` 番目 / `3942` 番目である社員の給料の総和を求めてください。ただし `to_date` カラムが `9999-01-01` であるレコードを対象とするものとします。

In [64]:
%%sql
-- ここにクエリを入力してください
select 42 as your_answer

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


your_answer
42


**TIPS**: MySQL 8.0 から `CTE` (Common Table Expressions) がサポートされており、`WITH` 句を使うことでサブクエリを再利用できる形に落とし込むことができます。サブクエリのネストを回避できるほか、サブクエリがどういう結果を返すのか分かるような名前をつけておくとあとで見返したときにクエリが読みやすくなります。

https://dev.mysql.com/doc/refman/8.0/en/with.html

以下は `WITH` 句の利用例になります。

In [58]:
%%sql
with
    hello_cte as
    (select
        1
    )

select
    *
from
    hello_cte

 * mysql+pymysql://hello:***@10.0.1.100/employees
1 rows affected.


1
1


以下のコードを実行して解答を提出してください。

In [None]:
# 実行後、"your answer" の右側に表示される入力ボックスに答えを入力し Enter キーを押してください m(_ _)m
import urllib.request

answer = input('your answer（給料の和）: ')

url = 'http://10.0.1.100:18080/submit'
data = 'q=q501&a={}'.format(answer.strip()).encode('utf-8')
req = urllib.request.Request(url, data=data, method='POST')
with urllib.request.urlopen(req) as res:
    print(res.read().decode('utf-8'))