# a-7. ローリングウィンドウ

<b>rolling()</b>は、固定の長さの窓を上から下に行をずらしながら何らかの処理を適用していく処理である。
DataFrameもしくはSeriesのデータに対して、<b>「df.rollling().処理メソッド()」</b>のように指定する。
利用できる処理メソッド一覧は以下の通りである。
列ペアのデータを処理する<b>corr()</b>、<b>cov()</b>、そしてユーザが処理内容を自由に定義できるapply()は、詳細な説明が必要なので別の節をもうけて解説している。

<div align="center"><img  width="40%" height="40%" src="./figures/rolling/rolling_data.png"></div>
<hr style="width:600px; height:2px;">

| <div style="font-size:15pt">メソッド名 </div> | <div style="font-size:15pt">内容</div> |
|:---- |:-----|
|<div style="font-size:14pt">count()</div> | <div style="font-size:14pt">NaNを除く件数を計算する</div>|
|<div style="font-size:14pt">sum()</div>|<div style="font-size:14pt">合計</div>|
|<div style="font-size:14pt">mean()</div>|<div style="font-size:14pt">平均</div>|
|<div style="font-size:14pt">median()</div>|<div style="font-size:14pt">中央値</div>|
|<div style="font-size:14pt">quantile()</div>|<div style="font-size:14pt">四分位数(0-1の間の値を指定したパーセンタイル</div>)|
|<div style="font-size:14pt">var()</div>|<div style="font-size:14pt">分散</div>|
|<div style="font-size:14pt">std()</div>|<div style="font-size:14pt">標準偏差</div>|
|<div style="font-size:14pt">sem()</div>|<div style="font-size:14pt">標準誤差</div>|
|<div style="font-size:14pt">min()</div>|<div style="font-size:14pt">最小値</div>|
|<div style="font-size:14pt">max()</div>|<div style="font-size:14pt">最大値</div>|
|<div style="font-size:14pt">skew()</div>|<div style="font-size:14pt">歪度</div>|
|<div style="font-size:14pt">kurt()</div>|<div style="font-size:14pt">尖度</div>|
|<div style="font-size:14pt">aggregate()</div>|<div style="font-size:14pt">集約メソッド(複数の処理結果を一括して処理する)</div>|
|<div style="font-size:14pt">corr()</div>|<div style="font-size:14pt">相関係数</div>|
|<div style="font-size:14pt">cov()</div>|<div style="font-size:14pt">共分散</div>|
|<div style="font-size:14pt">apply()</div>|<div style="font-size:14pt">ユーザ定義関数による処理</div>|

---
## 1. 基本例
## 2. 列ペアでの計算(corr(), cov())
## 3. apply()メソッド

---
### APIリファレンス
- [DataFrame.rolling](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rolling.html)
- [Series.rolling](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.rolling.html)
---


In [1]:
import numpy as np
import pandas as pd

---
# 1.基本例

### 入力データ

<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
sr = pd.Series([2, 1, 3, 0, 1])
df = pd.DataFrame({"v1":[2, 1, 3, 0, 1], "v2":[1, 3, 2, 0, 2]})
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:35%;">
      <col style="width:45%;">  
      <col style="width:17%;">
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th align="left">入力/出力</th><th>備考</th></tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.rolling(3).sum())
</pre></td>
<td align="center"><img width="60%" src="./figures/rolling/rolling1-1.png"></td>
<td>
3行の窓を1行ずつずらしながら、それぞれの列(v1,v2)を合計する。<br>
窓の最終行に合計された値は出力される。<br>1,2行目は3行そろわないためにNaNが出力されている。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(sr.rolling(3).sum())
</pre></td>
<td align="center"><img width="40%" src="./figures/rolling/rolling1-2.png"></td>
<td>
seriesに適用した例。
</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.rolling(3, min_periods=2).sum())
</pre></td>
<td align="center"><img width="60%" src="./figures/rolling/rolling1-3.png"></td>
<td>
窓の行数(ここでは3行)が揃わない窓でもmin_periods=によって最低必要な行数を指定できる。
</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.rolling(3, center=True).sum())
</pre></td>
<td align="center"><img width="60%" src="./figures/rolling/rolling1-4.png"></td>
<td>
出力行を窓の最終行でなく中央にすることも可能。
</td>
</tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>1-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.rolling(3).aggregate(['sum', 'mean']))
</pre></td>
<td align="center"><img width="90%" src="./figures/rolling/rolling1-5.png"></td>
<td>
aggregate()のような複数の処理が可能な関数は列がマルチラベルで出力される。
</td>
</tr>
    
</tbody>
</table>

In [2]:
print('''
# 入力データ
>>> sr = pd.Series([2, 1, 3, 0, 1])
>>> print(sr)''')
sr = pd.Series([2, 1, 3, 0, 1])
print(sr)

print('''
>>> df = pd.DataFrame({"v1": [2, 1, 3, 0, 1], "v2": [1, 3, 2, 0, 2]})
>>> print(df)''')
df = pd.DataFrame({"v1": [2, 1, 3, 0, 1], "v2": [1, 3, 2, 0, 2]})
print(df)


print('''
# no.1-1
# 3行の窓を1行ずつずらしながら、それぞれの列(v1,v2)を合計する。
# 窓の最終行に合計された値は出力される。
# 1,2行目は3行そろわないためにNaNが出力されている。
>>> print(df.rolling(3))''')
print(df.rolling(3).sum())

print('''
# no.1-2
# seriesに適用した例
>>> print(sr.rolling(3).sum())''')
print(sr.rolling(3).sum())

print('''
# no.1-3
# 窓の行数(ここでは3行)が揃わない窓でもmin_periods=によって最低必要な行数を指定できる。
>>> print(df.rolling(3, min_periods=2).sum())''')
print(df.rolling(3, min_periods=2).sum())

print('''
# no.1-4
# 出力行を窓の最終行でなく中央にすることも可能
>>> print(df.rolling(3, center=True).sum())''')
print(df.rolling(3, center=True).sum())

print('''
# no.1-5
# aggregate()のような複数の処理が可能な関数は列がマルチラベルで出力される。
>>> print(df.rolling(3).aggregate(['sum', 'mean']))''')
print(df.rolling(3).aggregate(['sum', 'mean']))



# 入力データ
>>> sr = pd.Series([2, 1, 3, 0, 1])
>>> print(sr)
0    2
1    1
2    3
3    0
4    1
dtype: int64

>>> df = pd.DataFrame({"v1": [2, 1, 3, 0, 1], "v2": [1, 3, 2, 0, 2]})
>>> print(df)
   v1  v2
0   2   1
1   1   3
2   3   2
3   0   0
4   1   2

# no.1-1
# 3行の窓を1行ずつずらしながら、それぞれの列(v1,v2)を合計する。
# 窓の最終行に合計された値は出力される。
# 1,2行目は3行そろわないためにNaNが出力されている。
>>> print(df.rolling(3))
    v1   v2
0  NaN  NaN
1  NaN  NaN
2  6.0  6.0
3  4.0  5.0
4  4.0  4.0

# no.1-2
# seriesに適用した例
>>> print(sr.rolling(3).sum())
0    NaN
1    NaN
2    6.0
3    4.0
4    4.0
dtype: float64

# no.1-3
# 窓の行数(ここでは3行)が揃わない窓でもmin_periods=によって最低必要な行数を指定できる。
>>> print(df.rolling(3, min_periods=2).sum())
    v1   v2
0  NaN  NaN
1  3.0  4.0
2  6.0  6.0
3  4.0  5.0
4  4.0  4.0

# no.1-4
# 出力行を窓の最終行でなく中央にすることも可能
>>> print(df.rolling(3, center=True).sum())
    v1   v2
0  NaN  NaN
1  6.0  6.0
2  4.0  5.0
3  4.0  4.0
4  NaN  NaN

# no.1-5
# aggregate()のような複数の処理が可能な関数は列がマルチラベルで出力される。
>>> print(df.rolling(3).aggregate(['sum', 'mean

---
# 2. 列ペアでの計算(corr(), cov())
data1.rolling().corr(data2)の書式で、data1とdata2の相関を計算する。
data1,data2にはDataFrameとSeriesを指定でき、data1とdata2の組み合わせ方で多様なペアで相関係数を計算できる。
corr()をcov()に変えれば共分散の計算ができる。

### 入力データ

<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df = pd.DataFrame(
    {
        "A": [1, 2, 3, 4, 5],
        "B": [5, 4, 3, 2, 1],
        "C": [2, 1, 3, 2, 7]
    }
)

df2 = pd.DataFrame(
    {
        "A": [8, 3, 2, 0, 2],
        "B": [2, 1, 3, 2, 7],
        "C": [5, 4, 3, 2, 1],
        "D": [1, 2, 3, 4, 5]
    }
)
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:50%;">  
      <col style="width:17%;">
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th align="left">入力/出力</th><th>備考</th></tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.rolling(window=3).corr(df, pairwise=True))
</pre></td>
<td><img width="90%" src="./figures/rolling/rolling2-1.png"></td>
<td>
dfの3つの列A,B,Cの全ペア(3×3=9)の相関行列を<b>window=3</b>で計算する。<br>
相関行列を計算する時は<b>pairwie=True</b>とする。pairwiseを指定しない例は後述。<br>
行がマルチインデックスになる。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.rolling(window=3).corr(df['A'], pairwise=True))
</pre></td>
<td><img width="90%" src="./figures/rolling/rolling2-2.png"></td>
<td>
A,B,CのそれぞれとAとのペアで相関係数を計算する。<br>
すなわち、(A,A), (B,A), (C,A)の3つのペアの相関係数を求める。<br>
corr()関数にAをSeriesとして渡してやる(df['A']はSeriesとなる)。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-3</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df['A'].rolling(window=3).corr(df, pairwise=True))
</pre></td>
<td><img width="90%" src="./figures/rolling/rolling2-3.png"></td>
<td>
上の例は、SeriesとDataFrameを入れ替えても同じ結果。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-4</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df[['A','B']].rolling(window=3).corr(df[['B','C']], pairwise=True))
</pre></td>
<td><img width="80%" src="./figures/rolling/rolling2-4.png"></td>
<td>
異なるDataFrame同士の相関行列を計算する。A,BとB,Cの全ペア、すなわち(A,B), (A,C), (B,B), (B,C)の相関係数を計算する。
corr()に指定した列が、結果の行になることがわかる。
</td>
</tr>

<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-5</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.rolling(window=3).corr(df[['A','C']]))
</pre></td>
<td><img width="80%" src="./figures/rolling/rolling2-5.png"></td>
<td>
corr()にpairwise=を指定しない例。
相関行列ではなく、同じ列名同士の相関係数を計算することになる。
この例ではcorr()で指定したDataFrameには列Bがないので結果のB列にはNaNが出力される。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>2-6</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
print(df.rolling(window=3).corr(df2))
</pre></td>
<td><img width="100%" src="./figures/rolling/rolling2-6.png"></td>
<td>
corr()に指定したDataFrameに異なる名前の列がある場合、全てNaNで新しい列として出力される。
</td>
</tr>

</tbody>
</table>

In [3]:
print('''
# 入力データ
>>> df = pd.DataFrame(
        {
            "A": [1, 2, 3, 4, 5],
            "B": [5, 4, 3, 2, 1],
            "C": [2, 1, 3, 2, 7]
        }
    )
>>> print(df)''')
df = pd.DataFrame(
    {
        "A": [1, 2, 3, 4, 5],
        "B": [5, 4, 3, 2, 1],
        "C": [2, 1, 3, 2, 7]
    }
)
print(df)
print('''
>>> df2 = pd.DataFrame(
        {
            "A": [8, 3, 2, 0, 2],
            "B": [2, 1, 3, 2, 7],
            "C": [5, 4, 3, 2, 1],
            "D": [1, 2, 3, 4, 5]
        }
    )
>>> print(df2)''')
df2 = pd.DataFrame(
    {
        "A": [8, 3, 2, 0, 2],
        "B": [2, 1, 3, 2, 7],
        "C": [5, 4, 3, 2, 1],
        "D": [1, 2, 3, 4, 5]
    }
)
print(df2)

print('''
# no.2-1
# dfの3つの列A,B,Cの全ペア(3×3=9)の相関行列をwindow=3で計算する。
# 相関行列計算する時はpairwie=Trueとする。pairwiseを指定しない例は後述。
# 行がマルチインデックスになる。
>>> print(df.rolling(window=3).corr(df, pairwise=True))
\n''')
print(df.rolling(window=3).corr(df, pairwise=True))

print('''
# no.2-2
# A,B,CのそれぞれとAとのペアで相関係数を計算する。
# すなわち、(A,A), (B,A), (C,A)の3つのペアの相関係数を求める。
# corr()関数にAをSeriesとして渡してやる(df['A']はSeriesとなる)。
>>> print(df.rolling(window=3).corr(df['A'], pairwise=True))''')
print(df.rolling(window=3).corr(df['A'], pairwise=True))

print('''
# no.2-3
# 上の例は、SeriesとDataFrameを入れ替えても同じ結果。
>>> print(df['A'].rolling(window=3).corr(df, pairwise=True))''')
print(df['A'].rolling(window=3).corr(df, pairwise=True))

print('''
# no.2-4
# 異なるDataFrame同士の相関行列を計算する。
# A,BとB,Cの全ペア、すなわち(A,B), (A,C), (B,B), (B,C)の相関係数を計算する。
# corr()に指定した列が、結果の行になることがわかる。
>>> print(df[['A','B']].rolling(window=3).corr(df[['B','C']], pairwise=True))''')
print(df[['A','B']].rolling(window=3).corr(df[['B','C']], pairwise=True))

print('''
# no.2-5
# corr()にpairwise=を指定しない例。
# 相関行列ではなく、同じ列名同士の相関係数を計算することになる。
# この例ではcorr()で指定したDataFrameには列Bがないので結果のB列にはNaNが出力される。
>>> print(df.rolling(window=3).corr(df[['A','C']]))''')
print(df.rolling(window=3).corr(df[['A','C']]))

print('''
# no.2-6
# corr()に指定したDataFrameに異なる名前の列がある場合、全てNaNで新しい列として出力される。
>>> print(df.rolling(window=3).corr(df2))''')
print(df.rolling(window=3).corr(df2))



# 入力データ
>>> df = pd.DataFrame(
        {
            "A": [1, 2, 3, 4, 5],
            "B": [5, 4, 3, 2, 1],
            "C": [2, 1, 3, 2, 7]
        }
    )
>>> print(df)
   A  B  C
0  1  5  2
1  2  4  1
2  3  3  3
3  4  2  2
4  5  1  7

>>> df2 = pd.DataFrame(
        {
            "A": [8, 3, 2, 0, 2],
            "B": [2, 1, 3, 2, 7],
            "C": [5, 4, 3, 2, 1],
            "D": [1, 2, 3, 4, 5]
        }
    )
>>> print(df2)
   A  B  C  D
0  8  2  5  1
1  3  1  4  2
2  2  3  3  3
3  0  2  2  4
4  2  7  1  5

# no.2-1
# dfの3つの列A,B,Cの全ペア(3×3=9)の相関行列をwindow=3で計算する。
# 相関行列計算する時はpairwie=Trueとする。pairwiseを指定しない例は後述。
# 行がマルチインデックスになる。
>>> print(df.rolling(window=3).corr(df, pairwise=True))


            A         B         C
0 A       NaN       NaN       NaN
  B       NaN       NaN       NaN
  C       NaN       NaN       NaN
1 A       NaN       NaN       NaN
  B       NaN       NaN       NaN
  C       NaN       NaN       NaN
2 A  1.000000 -1.000000  0.500000
  B -1.000000  1.000000 

---
# 3. apply()メソッド

rolling()にapply()メソッドを指定することで、窓のデータに対する処理を自由に関数として記述できる。
apply(func, args=[]) の書式で指定し、funcにユーザが作成した関数名を指定し、argsには、その関数に渡すパラメータを指定できる。
ユーザ関数は、rolling()からある列のある窓のデータをSeriesとして受け取り、そのデータを加工して1つの値として返さなければならない。

### 入力データ

<pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
df = pd.DataFrame({"v1": [1, 2, 3, 4, 5], "v2": [5, 4, 3, 2, 1]})
</pre>

<table border="1" style="table-layout:fixed;width:100%;">
    <colgroup>
      <col style="width:3%;">
      <col style="width:30%;">
      <col style="width:50%;">  
      <col style="width:17%;">
    </colgroup>
<tbody>

<tr><th align="left">no.</th><th align="left">実行コード</th><th align="left">入力/出力</th><th>備考</th></tr>
    
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-1</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
def func1(sr):
    res = sr.sum()
    print(sr)
    print('res:', res, type(res), '\n')
    return res
df.rolling(3).apply(func1)
</pre></td>
<td><img width="95%" src="./figures/rolling/rolling3-1.png"></td>
<td>
apply()で指定した関数func1の入出力を確認する。<br>
func1への入力は、rolling()から、各列の各窓のSeriesデータである<br>
func1へは窓幅のDataFrameが入力されるのではなく、Seriesであることに注意する<br>
func1からの出力は、1つの数値(スカラ)で、Series, numpy.float64, pythonのfloatやintなどが扱える。<br>
そして、rolling()メソッドは、func1からのある列のある窓の数値出力を入力のDataFrameと同じ形式のDataFrameに再構成する。
</td>
</tr>
 
<tr style="background:#fff; border:1px solid #cc0000;">
<td>3-2</td>
<td><pre style="overflow-x:auto;white-space:pre;padding: 1em; border-radius: 5px; background: #eeeeee">
def func2(sr, dat, r):
    print(sr)
    res = (sr.sum() / len(dat)) * r
    return res
print(df.rolling(3).apply(func2, args=(df, 0.5)))
</pre></td>
<td><img width="100%" src="./figures/rolling/rolling3-2.png"></td>
<td>
args=を指定することで、ユーザ関数(func2)に自由にパラメータを渡せる。
</td>
</tr>

</tbody>
</table>

In [4]:
print('''
# 入力データ
>>> df = pd.DataFrame({"v1": [1, 2, 3, 4, 5], "v2": [5, 4, 3, 2, 1]})
''')
df = pd.DataFrame({"v1": [1, 2, 3, 4, 5], "v2": [5, 4, 3, 2, 1]})
print(df)

print('''
# no.3-1
# apply()で指定した関数func1の入出力を確認する。
# func1への入力は、rolling()から、ある列のある窓のSeriesデータである。
# func1へは窓幅のDataFrameが入力されるのではなく、Seriesであることに注意する
# func1からの出力は、1つの数値(スカラ)で、Series, numpy.float64, pythonのfloatやintなどが扱える。
# そして、rolling()メソッドは、func1からのある列のある窓の数値出力を入力のDataFrameと同じ形式のDataFrameに再構成する。

>>> def func1(sr):
>>>     res = sr.sum()
>>>     print(sr)
>>>     print('res:', res, type(res),'\\n' )
>>>     return res
>>> df.rolling(3).apply(func1)
''')
def func1(sr):
    res = sr.sum()
    print(sr)
    print('res:', res, type(res), '\n')
    return res
df.rolling(3).apply(func1)

print('''
# no.3-2
# args=を指定することで、ユーザ関数(func2)に自由にパラメータを渡せる。
# 複数の値を与えることが前提なのでtupleで指定しなければならないことに注意する。
>>> def func2(sr, dat, r):
>>>     res = (sr.sum() / len(dat)) * r  # 計算内容に意味はない
>>>     return res
>>> print(df.rolling(3).apply(func2, args=(df, 0.5)))
''')

def func2(sr, dat, r):
    print(sr)
    res = (sr.sum() / len(dat)) * r
    return res
print(df.rolling(3).apply(func2, args=(df, 0.5)))



# 入力データ
>>> df = pd.DataFrame({"v1": [1, 2, 3, 4, 5], "v2": [5, 4, 3, 2, 1]})

   v1  v2
0   1   5
1   2   4
2   3   3
3   4   2
4   5   1

# no.3-1
# apply()で指定した関数func1の入出力を確認する。
# func1への入力は、rolling()から、ある列のある窓のSeriesデータである。
# func1へは窓幅のDataFrameが入力されるのではなく、Seriesであることに注意する
# func1からの出力は、1つの数値(スカラ)で、Series, numpy.float64, pythonのfloatやintなどが扱える。
# そして、rolling()メソッドは、func1からのある列のある窓の数値出力を入力のDataFrameと同じ形式のDataFrameに再構成する。

>>> def func1(sr):
>>>     res = sr.sum()
>>>     print(sr)
>>>     print('res:', res, type(res),'\n' )
>>>     return res
>>> df.rolling(3).apply(func1)

0    1.0
1    2.0
2    3.0
dtype: float64
res: 6.0 <class 'numpy.float64'> 

1    2.0
2    3.0
3    4.0
dtype: float64
res: 9.0 <class 'numpy.float64'> 

2    3.0
3    4.0
4    5.0
dtype: float64
res: 12.0 <class 'numpy.float64'> 

0    5.0
1    4.0
2    3.0
dtype: float64
res: 12.0 <class 'numpy.float64'> 

1    4.0
2    3.0
3    2.0
dtype: float64
res: 9.0 <class 'numpy.float64'> 

2    3.0
3    2.0
4    1.0
d