# Window関数の紹介

## 概要

Window関数はANSI SQL:2003から搭載された、移動平均や種々の計算に便利な集計関数である。
OVER句を使うのが特徴。

Teradata SQLのWITHおよびWITH BY拡張を使用しても同様の計算が可能であるが、ANSI標準ではなく、使い勝手も悪いので、ここでは紹介しない。~~(どうしてそんなものを作ってしまったのか...)~~

なお、以下の例では、以下のようにして作成した表(に少量のデータをロードしたもの)を使用する。

```sql
CREATE TABLE employee, FALLBACK(
    employee_number INTEGER
    ,manager_employee_number INTEGER
    ,department_number INTEGER
    ,job_code INTEGER
    ,last_name CHAR(20) NOT NULL
    ,first_name VARCHAR(30) NOT NULL
    ,hire_date DATE NOT NULL
    ,birthdate DATE NOT NULL
    ,salary_amount DECIMAL(10,2) NOT NULL
)
UNIQUE PRIMARY INDEX (employee_number);
```

```sql
CREATE MULTISET TABLE CustomerService.salestbl ,NO FALLBACK ,
     NO BEFORE JOURNAL,
     NO AFTER JOURNAL,
     CHECKSUM = DEFAULT,
     DEFAULT MERGEBLOCKRATIO
     (
      storeid INTEGER,
      prodid CHAR(1) CHARACTER SET LATIN NOT CASESPECIFIC,
      sales DECIMAL(9,2))
PRIMARY INDEX (storeid);
```

In [1]:
from sqlalchemy import create_engine
import pandas as pd

engine = create_engine("teradata://suzukiuser:suzukiuser@172.17.0.139:1025/tdsuzuki")

In [2]:
pd.read_sql_query("select * from tdsuzuki.ST_EMPLOYEE sample 5;", engine)

Unnamed: 0,employee_number,manager_employee_number,department_number,job_code,last_name,first_name,hire_date,birthdate,salary_amount
0,1021.0,1025.0,201.0,222101.0,Morrissey,Jim,2008-10-01,1973-04-29,38750.0
1,1012.0,1005.0,403.0,432101.0,Hopkins,Paulene,2007-03-15,1972-02-18,37900.0
2,1025.0,801.0,201.0,211100.0,Short,Michael,2009-05-01,1977-07-07,34700.0
3,1014.0,1011.0,402.0,422101.0,Crane,Robert,2008-01-15,1990-07-04,24500.0
4,1017.0,801.0,501.0,511100.0,Runyon,Irene,2008-05-01,1981-11-10,66000.0


In [3]:
pd.read_sql_query("select count(*) from ST_EMPLOYEE;", engine)

Unnamed: 0,Count(*)
0,26.0


## 順序つきウィンドウ関数

順序つきウィンドウ関数によって、順序を__ORDER BY__句で指定しながら、種々の計算を行うことができる。  
「ウィンドウ関数」というと、このタイプのウィンドウ関数が頭に浮かぶ人も多いと思う。

- __ウィンドウ関数__ではレコード単位でデータを表示できるが、標準の集計関数（__SUM, AVG, COUNT, MIN, MAX__など)ではレコード単位のデータは表示されず、グループ単位のデータ(集計値)のみが表示される。
- __ウィンドウ関数__と標準集計関数は単一のSELECTステートメントに結合する場合は、GROUP BYに、ウィンドウ関数で使用する各列が含まれている必要がある。

### 使用できる関数例

他にもあるが、よく使うのは以下の関数だろう。

|関数名|計算内容|
|--|--|
|count|件数カウント|
|sum|合計|
|avg|平均|
|median|中央値|
|max|最大|
|min|最小|
|corr|相関係数|
|std_samp|不偏標準偏差|
|var_samp|不偏分散|
|rank|順位|
|dense_rank|順位(前詰め)|
|row_number|番号(順位での同列(タイ)がなくなる)|
|percent_rank|ランキング(パーセント表示)|
|regr_slope|線形回帰(単回帰)の係数|
|regr_intercept|線形回帰(単回帰)の切片|
|regr_r2|線形回帰(単回帰)の決定係数|

### グループ型

In [4]:
# 単に全ての売上の合計列を計算しただけだが、ORDER BY sales DESC句によって、中身が降順になっている
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    sum(sales) OVER(ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)
FROM tdsuzuki.ST_salestbl;
""",engine)
# sum(sales) over()　として、その後order byしても同じ

Unnamed: 0,storeid,prodid,sales,Group Sum(sales)
0,1001.0,A,100000.0,610000.0
1,1001.0,C,60000.0,610000.0
2,1001.0,D,35000.0,610000.0
3,1001.0,F,150000.0,610000.0
4,1002.0,A,40000.0,610000.0
5,1002.0,C,35000.0,610000.0
6,1002.0,D,25000.0,610000.0
7,1003.0,A,30000.0,610000.0
8,1003.0,B,65000.0,610000.0
9,1003.0,C,20000.0,610000.0


列名が"Group Sum(sales)"と、頭に__Group__がついており、Group型だということがわかる。

以下のように、__ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING__を書いても良い(書く人はいないと思うが...)

```sql
SELECT storeid,
prodid,
sales,
SUM(sales) OVER (ORDER BY sales DESC ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)
FROM salestbl;
```

In [5]:
# 製品毎に合計して、各製品グループは売上で降順に並び替え
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    SUM(sales) OVER (PARTITION BY prodid ORDER BY sales DESC)
FROM tdsuzuki.ST_salestbl ;
""",engine)
# これも、後でorder byしても同じ

Unnamed: 0,storeid,prodid,sales,Group Sum(sales)
0,1001.0,A,100000.0,170000.0
1,1002.0,A,40000.0,170000.0
2,1003.0,A,30000.0,170000.0
3,1003.0,B,65000.0,65000.0
4,1001.0,C,60000.0,115000.0
5,1002.0,C,35000.0,115000.0
6,1003.0,C,20000.0,115000.0
7,1003.0,D,50000.0,110000.0
8,1001.0,D,35000.0,110000.0
9,1002.0,D,25000.0,110000.0


In [6]:
# MIN関数を使用した場合。グループの最小値を返す。

# 各店舗で最も売上の低い製品の売上高を表示。かつ、各グループは売上で降順に並び替え。
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    MIN(sales) OVER (PARTITION BY storeid ORDER BY sales DESC)
FROM tdsuzuki.ST_salestbl;""",engine)

Unnamed: 0,storeid,prodid,sales,Group Min(sales)
0,1001.0,F,150000.0,35000.0
1,1001.0,A,100000.0,35000.0
2,1001.0,C,60000.0,35000.0
3,1001.0,D,35000.0,35000.0
4,1002.0,A,40000.0,25000.0
5,1002.0,C,35000.0,25000.0
6,1002.0,D,25000.0,25000.0
7,1003.0,B,65000.0,20000.0
8,1003.0,D,50000.0,20000.0
9,1003.0,A,30000.0,20000.0


In [7]:
# MAX関数を使用した場合。各グループの最大値を返す。
# 各店舗で最もパフォーマンスの高い製品の売上高を表示し、各グループ内は売上で降順に並び替え。
pd.read_sql_query(""" 
SELECT 
    storeid, 
    prodid, 
    sales,
    MAX(sales) OVER (PARTITION BY storeid ORDER BY sales DESC)
FROM tdsuzuki.ST_salestbl;""",engine)

Unnamed: 0,storeid,prodid,sales,Group Max(sales)
0,1001.0,F,150000.0,150000.0
1,1001.0,A,100000.0,150000.0
2,1001.0,C,60000.0,150000.0
3,1001.0,D,35000.0,150000.0
4,1002.0,A,40000.0,40000.0
5,1002.0,C,35000.0,40000.0
6,1002.0,D,25000.0,40000.0
7,1003.0,B,65000.0,65000.0
8,1003.0,D,50000.0,65000.0
9,1003.0,A,30000.0,65000.0


*** 

### 累積型

累積型のウィンドウ関数によって、指定されたグループでの累積集計が可能である。グループはPARTITION BY句によって指定するが、この句がない場合は、全ての行を1グループとして集計が行われる。

内部的には、累積機能は__UNBOUNDED PRECEDING__句をつけて、__UNBOUNDED FOLLOWING__句を付けないことで発動する。

In [8]:
# 例：累積SUM
# すべての店舗のすべての製品の売上を累積合計とともに降順で表示

pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    SUM(sales) OVER (ORDER BY sales asc ROWS between UNBOUNDED PRECEDING and 1 preceding)
FROM tdsuzuki.ST_salestbl;""",engine)
# ROWS UNBOUNDED PRECEDINGで、"最初から今の行まで"を合計する。ここではUNBOUNDED FOLLOWINGが無いことに注意。

Unnamed: 0,storeid,prodid,sales,Cumulative Sum(sales)
0,1003.0,C,20000.0,
1,1002.0,D,25000.0,20000.0
2,1003.0,A,30000.0,45000.0
3,1001.0,D,35000.0,75000.0
4,1002.0,C,35000.0,110000.0
5,1002.0,A,40000.0,145000.0
6,1003.0,D,50000.0,185000.0
7,1001.0,C,60000.0,235000.0
8,1003.0,B,65000.0,295000.0
9,1001.0,A,100000.0,360000.0


列のタイトルの頭にCumulativeがついており、これが累積型のウィンドウ関数であることがわかる。

In [9]:
# Example: Cumulative MINIMUM
# すべての店舗のすべての製品の売上を降順で表示し、各店舗の売上の累積最小値を表示します。
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,         
    MIN(sales) OVER (PARTITION BY storeid ORDER BY sales DESC ROWS UNBOUNDED PRECEDING)          
FROM tdsuzuki.ST_salestbl;""",engine)
# order byを売上の降順としているので、現在の行が常に最小(sales列と最後の列が同じ)になっている。

Unnamed: 0,storeid,prodid,sales,Cumulative Min(sales)
0,1001.0,F,150000.0,150000.0
1,1001.0,A,100000.0,100000.0
2,1001.0,C,60000.0,60000.0
3,1001.0,D,35000.0,35000.0
4,1002.0,A,40000.0,40000.0
5,1002.0,C,35000.0,35000.0
6,1002.0,D,25000.0,25000.0
7,1003.0,B,65000.0,65000.0
8,1003.0,D,50000.0,50000.0
9,1003.0,A,30000.0,30000.0


In [10]:
# Example: Cumulative MINIMUM
# すべての店舗のすべての製品の売上を昇順で表示し、各店舗の売上の累積最小値を表示します。
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    MIN(sales) OVER (PARTITION BY storeid ORDER BY sales, prodid ROWS UNBOUNDED PRECEDING)
FROM tdsuzuki.ST_salestbl;""",engine)
# ASCはデフォルト設定なので、なくても良い。

Unnamed: 0,storeid,prodid,sales,Cumulative Min(sales)
0,1001.0,D,35000.0,35000.0
1,1001.0,C,60000.0,35000.0
2,1001.0,A,100000.0,35000.0
3,1001.0,F,150000.0,35000.0
4,1002.0,D,25000.0,25000.0
5,1002.0,C,35000.0,25000.0
6,1002.0,A,40000.0,25000.0
7,1003.0,C,20000.0,20000.0
8,1003.0,A,30000.0,20000.0
9,1003.0,D,50000.0,20000.0


上と同じことを、最大値と最小値を入れ替えて行ってみる。

In [11]:
# Example: Cumulative MAXIMUM
# MAXIMUMウィンドウ関数は、定義されたグループの最大値を報告します。
# 累積最大値を使用して、各店舗で最高のパフォーマンスを発揮する製品の売上高を表示します。

pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    MAX(sales) OVER (PARTITION BY storeid ORDER BY sales DESC ROWS UNBOUNDED PRECEDING)
FROM tdsuzuki.ST_salestbl;""",engine)
# order byを売上の昇順としているので、現在の行が常に最大(sales列と最後の列が同じ)になっている。

Unnamed: 0,storeid,prodid,sales,Cumulative Max(sales)
0,1001.0,F,150000.0,150000.0
1,1001.0,A,100000.0,150000.0
2,1001.0,C,60000.0,150000.0
3,1001.0,D,35000.0,150000.0
4,1002.0,A,40000.0,40000.0
5,1002.0,C,35000.0,40000.0
6,1002.0,D,25000.0,40000.0
7,1003.0,B,65000.0,65000.0
8,1003.0,D,50000.0,65000.0
9,1003.0,A,30000.0,65000.0


### 移動窓型

移動窓型のウィンドウ関数では、窓を移動させながらの集計が可能である。  
なお、移動関数では行の総数よりも少ない行の固定間隔が必要なので注意。  
また、移動窓型では、NULLがあると予期しない計算結果がでることがあるので、事前にCOALESCE等でNULLをfillまたはwhere等で削除することを推奨。

内部的には、移動窓型は__UNBOUNDED__句が無いことで発動する。

In [12]:
# Example: Moving SUM
# すべての店舗のすべての製品の売上高を降順で表示し、前の2つの行を使用して移動合計を表示します。(2件の移動合計)

pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    SUM(sales) OVER (ORDER BY sales DESC ROWS 2 PRECEDING)
FROM tdsuzuki.ST_salestbl ;""",engine)

Unnamed: 0,storeid,prodid,sales,Moving Sum(sales)
0,1001.0,F,150000.0,150000.0
1,1001.0,A,100000.0,250000.0
2,1003.0,B,65000.0,315000.0
3,1001.0,C,60000.0,225000.0
4,1003.0,D,50000.0,175000.0
5,1002.0,A,40000.0,150000.0
6,1001.0,D,35000.0,125000.0
7,1002.0,C,35000.0,110000.0
8,1003.0,A,30000.0,100000.0
9,1002.0,D,25000.0,90000.0


列の頭に Moving がついていることで、移動窓型のウィンドウ関数であることがわかる。

次のクエリでも同じ結果が得られる。すなわち、上のクエリではCURRENT ROWが省略されている。

In [13]:
pd.read_sql_query("""    
SELECT 
    storeid, 
    prodid, 
    sales,
    SUM(sales) OVER (ORDER BY sales DESC ROWS BETWEEN 2 PRECEDING AND CURRENT ROW)
FROM tdsuzuki.ST_salestbl ;""",engine)

Unnamed: 0,storeid,prodid,sales,Moving Sum(sales)
0,1001.0,F,150000.0,150000.0
1,1001.0,A,100000.0,250000.0
2,1003.0,B,65000.0,315000.0
3,1001.0,C,60000.0,225000.0
4,1003.0,D,50000.0,175000.0
5,1002.0,A,40000.0,150000.0
6,1001.0,D,35000.0,125000.0
7,1002.0,C,35000.0,110000.0
8,1003.0,A,30000.0,100000.0
9,1002.0,D,25000.0,90000.0


In [14]:
# Example: Moving SUM with Partitioning
# すべての店舗のすべての製品の売上高を降順で表示し、前の2行を使用して移動合計を行いますが、製品ごとに分割します。
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,         
    SUM(sales) OVER (PARTITION BY prodid, storeid ORDER BY sales DESC ROWS 2 PRECEDING)          
FROM tdsuzuki.ST_salestbl;""", engine)

Unnamed: 0,storeid,prodid,sales,Moving Sum(sales)
0,1001.0,A,100000.0,100000.0
1,1002.0,A,40000.0,40000.0
2,1003.0,A,30000.0,30000.0
3,1003.0,B,65000.0,65000.0
4,1001.0,C,60000.0,60000.0
5,1002.0,C,35000.0,35000.0
6,1003.0,C,20000.0,20000.0
7,1001.0,D,35000.0,35000.0
8,1002.0,D,25000.0,25000.0
9,1003.0,D,50000.0,50000.0


移動合計は、新しい製品が検出されるとリセットされていることがわかる。

In [15]:
# Example: Moving MINIMUM
# すべての店舗のすべての製品の売り上げを降順で表示します。移動する最小値は、先行する2つの行を使用しますが、製品ごとに分割します。
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    MIN(sales) OVER (PARTITION BY prodid ORDER BY sales DESC ROWS BETWEEN 2 PRECEDING AND CURRENT ROW)
FROM tdsuzuki.ST_salestbl;""", engine) 

Unnamed: 0,storeid,prodid,sales,Moving Min(sales)
0,1001.0,A,100000.0,100000.0
1,1002.0,A,40000.0,40000.0
2,1003.0,A,30000.0,30000.0
3,1003.0,B,65000.0,65000.0
4,1001.0,C,60000.0,60000.0
5,1002.0,C,35000.0,35000.0
6,1003.0,C,20000.0,20000.0
7,1003.0,D,50000.0,50000.0
8,1001.0,D,35000.0,35000.0
9,1002.0,D,25000.0,25000.0


- prodidによってパーティション化されているため、新しい製品が検出されると移動最小値がリセットされていることがわかる。
- また、売上を降順にしているため、常に現在の行が最小値となり、3列目と4列目は同じ値になっている。

In [16]:
# Example: Moving MAXIMUM
# 先行する2つの行を使用して、その中での最大値を計算
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    avg(sales) OVER (ORDER BY sales DESC ROWS 4 PRECEDING)
FROM tdsuzuki.ST_salestbl;""", engine)

Unnamed: 0,storeid,prodid,sales,Moving Avg(sales)
0,1001.0,F,150000.0,150000.0
1,1001.0,A,100000.0,125000.0
2,1003.0,B,65000.0,105000.0
3,1001.0,C,60000.0,93750.0
4,1003.0,D,50000.0,85000.0
5,1002.0,A,40000.0,63000.0
6,1001.0,D,35000.0,50000.0
7,1002.0,C,35000.0,44000.0
8,1003.0,A,30000.0,38000.0
9,1002.0,D,25000.0,33000.0


### 残り型

残り型のウィンドウ関数は、指定されたウィンドウの残りのレコード(現在の行 ~ ウィンドウの最後)について集計する。  
累積型の反対のパターンである。  
内部的には、残り型のウィンドウ関数は__UNBOUNDED FOLLOWING__句をつけて、__UNBOUNDED PRECEDING__句を付けないことで発動する。

In [17]:
# Example: Remaining SUM
# すべての店舗のすべての製品の売上を降順に並べ、自分を含む、自分よりも売上の小さいすべての製品の売上合計を表示します。
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    SUM(sales) OVER (ORDER BY sales DESC ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING)
FROM tdsuzuki.ST_salestbl;""", engine)
# 表示順が反対になる。これはTeradataの仕様であり、なぜこうなってしまったのかはわからない...
# 計算はもちろん指定どおりに行われている。

Unnamed: 0,storeid,prodid,sales,Remaining Sum(sales)
0,1003.0,C,20000.0,20000.0
1,1002.0,D,25000.0,45000.0
2,1003.0,A,30000.0,75000.0
3,1001.0,D,35000.0,110000.0
4,1002.0,C,35000.0,145000.0
5,1002.0,A,40000.0,185000.0
6,1003.0,D,50000.0,235000.0
7,1001.0,C,60000.0,295000.0
8,1003.0,B,65000.0,360000.0
9,1001.0,A,100000.0,460000.0


- 列の頭がRemainingとなっており、Remaining関数であることがわかる。

In [18]:
# Example: Remaining MINIMUM
# ストアごとに分割し、売上を降順に並べ、自分を含む、自分より売上の小さな製品のうちでの最小売上を表示
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    MIN(sales) OVER (PARTITION BY storeid ORDER BY sales DESC ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING)
FROM tdsuzuki.ST_salestbl;""", engine)

Unnamed: 0,storeid,prodid,sales,Remaining Min(sales)
0,1001.0,D,35000.0,35000.0
1,1001.0,C,60000.0,35000.0
2,1001.0,A,100000.0,35000.0
3,1001.0,F,150000.0,35000.0
4,1002.0,D,25000.0,25000.0
5,1002.0,C,35000.0,25000.0
6,1002.0,A,40000.0,25000.0
7,1003.0,C,20000.0,20000.0
8,1003.0,A,30000.0,20000.0
9,1003.0,D,50000.0,20000.0


In [19]:
# Example: Remaining MAXIMUM
# ストアごとに分割し、売上を降順に並べ、自分を含む、自分より売上の小さな製品のうちでの最大売上を表示
# (すなわち、自分が常に最大となるため、3列目と4列目は同じになる)
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    MAX(sales) OVER (PARTITION BY storeid ORDER BY sales DESC ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING)
FROM tdsuzuki.ST_salestbl;""", engine)

Unnamed: 0,storeid,prodid,sales,Remaining Max(sales)
0,1001.0,D,35000.0,35000.0
1,1001.0,C,60000.0,60000.0
2,1001.0,A,100000.0,100000.0
3,1001.0,F,150000.0,150000.0
4,1002.0,D,25000.0,25000.0
5,1002.0,C,35000.0,35000.0
6,1002.0,A,40000.0,40000.0
7,1003.0,C,20000.0,20000.0
8,1003.0,A,30000.0,30000.0
9,1003.0,D,50000.0,50000.0


### タイプのまとめ

- グループ型
    - __ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING__によって有効となる。これはデフォルト設定なので、なくてもよい。
- 累積型
    - __UNBOUNDED PRECEDING__を含み、__UNBOUNDED FOLLOWING__を含まないことによって有効となる。
- 移動窓型
    - __UNBOUNDED__を含まないことで有効となる
- 残り型
    - __UNBOUNDED FOLLOWING__を含み、__UNBOUNDED PRECEDING__を含まないことによって有効となる。

### RANKING系

In [20]:
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    rank() OVER (PARTITION BY storeid ORDER BY sales DESC NULLS FIRST),
    percent_rank() OVER (PARTITION BY storeid ORDER BY sales DESC NULLS FIRST)
FROM tdsuzuki.ST_salestbl;""", engine)

Unnamed: 0,storeid,prodid,sales,Rank(sales),Percent_Rank(sales)
0,1001.0,F,150000.0,1.0,0.0
1,1001.0,A,100000.0,2.0,0.333333
2,1001.0,C,60000.0,3.0,0.666667
3,1001.0,D,35000.0,4.0,1.0
4,1002.0,A,40000.0,1.0,0.0
5,1002.0,C,35000.0,2.0,0.5
6,1002.0,D,25000.0,3.0,1.0
7,1003.0,B,65000.0,1.0,0.0
8,1003.0,D,50000.0,2.0,0.333333
9,1003.0,A,30000.0,3.0,0.666667


### NULLの扱い

order by ~~ の後に、__NULLS FIRST__ないし__NULLS LAST__を加えることで、NULLの順番を指定できる。

### QUALIFY

ウィンドウ関数の結果に対して、__QUALIFY__句で結果を絞ることができる。

In [21]:
# 各店舗毎に売上で並び替え、3つの移動平均を取り、平均額が100000以上のレコードのみ抜き出す
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    AVG(sales) OVER (PARTITION BY storeid ORDER BY sales ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING) as MA
FROM tdsuzuki.ST_salestbl
QUALIFY MA >= 100000;""", engine)

Unnamed: 0,storeid,prodid,sales,MA
0,1001.0,A,100000.0,103333.333333
1,1001.0,F,150000.0,125000.0


QUALIFY句の中にウィンドウ関数を含めることもできる

In [22]:
# 各店舗毎に売上で並び替え、3つの移動平均を取り、かつ店舗毎売上が200000以上の店舗のみ抜き出す
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    AVG(sales) OVER (PARTITION BY storeid ORDER BY sales ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING) as MA
FROM tdsuzuki.ST_salestbl
QUALIFY 
    sum(sales) over(partition by storeid) > 200000;""", engine)

Unnamed: 0,storeid,prodid,sales,MA
0,1001.0,D,35000.0,47500.0
1,1001.0,C,60000.0,65000.0
2,1001.0,A,100000.0,103333.333333
3,1001.0,F,150000.0,125000.0


これを応用して、各店舗の上位製品2つを抜き出してみる

In [23]:
# 各店舗毎に売上で並び替え、3つの移動平均を取り、かつ店舗毎売上が200000以上の店舗のみ抜き出す
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales
FROM tdsuzuki.ST_salestbl
QUALIFY 
    rank() over(partition by storeid order by sales desc) <= 2;
    """, engine)

Unnamed: 0,storeid,prodid,sales
0,1001.0,F,150000.0
1,1001.0,A,100000.0
2,1002.0,A,40000.0
3,1002.0,C,35000.0
4,1003.0,B,65000.0
5,1003.0,D,50000.0


### LAG/LEAD関数

LEADとLAGは、グループ内(ウィンドウ内)の中において、指定されたオフセット値を用いて、現在の行の前または後のレコードにアクセスする。  
オフセット値がウィンドウの範囲外の場合は、指定したデフォルト値が返される。

In [24]:
# LEAD関数
# 製品ごとに分割した後、売上でソートし、次の値(一つ売上が大きいレコード)を返す
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    Lead(sales, 1, 0) OVER (PARTITION BY prodid ORDER BY sales)
FROM tdsuzuki.ST_salestbl;""", engine)

Unnamed: 0,storeid,prodid,sales,LEAD (<value expression>)
0,1003.0,A,30000.0,40000.0
1,1002.0,A,40000.0,100000.0
2,1001.0,A,100000.0,0.0
3,1003.0,B,65000.0,0.0
4,1003.0,C,20000.0,35000.0
5,1002.0,C,35000.0,60000.0
6,1001.0,C,60000.0,0.0
7,1002.0,D,25000.0,35000.0
8,1001.0,D,35000.0,50000.0
9,1003.0,D,50000.0,0.0


- 頭にLEADがついており、LEAD関数ということがわかる。  
- ここではオフセットが範囲外のときのデフォルト値を指定していないため、オフセットがウィンドウ範囲外(今回のケースでは、同じ製品で、より売上の大きいレコードがない場合)ではNULLが返される。

In [25]:
# LAG関数
# 製品ごとに分割した後、売上でソートし、前の値(一つ売上が小さいレコード)を返す
pd.read_sql_query("""
SELECT 
    storeid, 
    prodid, 
    sales,
    LAG(sales, 1) OVER (PARTITION BY prodid ORDER BY sales)
FROM tdsuzuki.ST_salestbl;""", engine)

Unnamed: 0,storeid,prodid,sales,LAG (<value expression>)
0,1003.0,A,30000.0,
1,1002.0,A,40000.0,30000.0
2,1001.0,A,100000.0,40000.0
3,1003.0,B,65000.0,
4,1003.0,C,20000.0,
5,1002.0,C,35000.0,20000.0
6,1001.0,C,60000.0,35000.0
7,1002.0,D,25000.0,
8,1001.0,D,35000.0,25000.0
9,1003.0,D,50000.0,35000.0


- 頭にLAGがついており、LAG関数ということがわかる。  
- ここではオフセットが範囲外のときのデフォルト値を0としているため、オフセットがウィンドウ範囲外(今回のケースでは、同じ製品で、より売上の小さいレコードがない場合)では0が返される。

## その他

TeradataはRANGE BETWEENを持たない代わりに、RESET WHENという複雑で読みにくいが自由度が高く強力なSQL拡張をもっている。  
今回は説明しないが、興味のある方は調べてみてほしい。

## 宿題

ここでは、tdsuzuki.CAN_toydataを題材として使う。これはtdsuzuki.CAN_SHUTTLEターブルからtop 100000でレコードを一部抜き出したものである。(ソートした後に抜き出したわけではないので注意)

In [26]:
from sqlalchemy import create_engine
import pandas as pd

engine = create_engine("teradata://suzukiuser:suzukiuser@172.17.0.139:1025/tdsuzuki")

In [27]:
pd.read_sql_query("select count(*) from CAN_toydata", engine)

Unnamed: 0,Count(*)
0,100000.0


featureは以下の45種。

In [28]:
pd.read_sql_query("select distinct(feature) from CAN_toydata", engine)

Unnamed: 0,feature
0,A/C Switch On from Auto A/C
1,Engine Speed
2,Blower Fan Step from Auto AC
3,Yaw Rate 1(learmed data)
4,Driver Door Switch Status
5,Shift Down Switch Status
6,Lateral Sensor Value
7,TM Oil Temperature
8,Acceleration Sensor Value
9,Intake Manifold Absolute Pressure


テーブルはこのような形。

In [29]:
pd.read_sql_query("select top 5 * from CAN_toydata;", engine)

Unnamed: 0,carid,starttime,times,feature,val
0,66,201908051750,52.0,Engine Coolant Temperature,75.0
1,66,201908051750,52.0,Master Cylinder Pressure,28.2375
2,77,201908071345,52.0,Engine Coolant Temperature,90.0
3,66,201908051750,52.0,A/C Compressor Clutch Engaged,1.0
4,66,201908051750,52.0,Brake Pedal Switch Active,1.0


__問題__

1. 各carid, starttime, feature毎に、一つ前のレコードとの値の差分(値の変化値)を計算せよ。最初の20件を抜き出せ

2. 各carid, starttime, feature毎に、一つ前のレコードとの値の差分(値の変化値)が1を超えるものを抜き出せ

3. carid毎に"Yaw Rate 1(learmed data)"の値が大きいレコードを上位10件抜き出せ。

4. "Vehicle Speed"について、carid, starttime毎の平均値が50を超えているものについて、そのレコードを全て抜き出せ

5. 各featureのvalについて、正規化を施せ。ここで正規化は、平均を減じ、標準偏差で割ることを指す。標準偏差が0のfeatureについては除外せよ。

6. 各featureについて、Min-Max正規化を施せ。ここでMin-Max正規化とは、そのfeatureの最小値を減じ、(最大値-最小値)で割ることを指す。結果は最初の20レコードを抜き出せ。

7. 各featureについて、値が大きいレコード上位10件を抜き出せ。

8. 各featureについて、timesの一つ前の次点からの変化幅の中央値を計算せよ。ここで、各featureの値はcarid, starttime毎に分けて計測されていることに留意せよ。