#  時系列データに触れてみよう

- **[1.1 時系列分析概要](#1.1-時系列分析概要)**
    - **[1.1.1 時系列データ](#1.1.1-時系列データ)**
    - **[1.1.2 時系列データの表し方](#1.1.2-時系列データの表し方)**
    - **[1.1.3 時系列データの基本](#1.1.3-時系列データの基本)**
    - **[1.1.4 時系列データのモデリング](#1.1.4-時系列データのモデリング)**
<br><br>
- **[1.2 時系列データの種類](#1.2-時系列データの種類)**
    - **[1.2.1 時系列データの変換](#1.2.1-時系列データの変換)**
    - **[1.2.2 対数系列](#1.2.2-対数系列)**
    - **[1.2.3 階差系列](#1.2.3-階差系列)**
    - **[1.2.4 季節調整済み系列](#1.2.4-季節調整済み系列)**
<br><br>
- **[1.3 時系列データにおける統計量](#1.3-時系列データにおける統計量)**
    - **[1.3.1 期待値(平均)](#1.3.1-期待値(平均))**
    - **[1.3.2 分散・標準偏差](#1.3.2-分散・標準偏差)**
    - **[1.3.3 自己共分散・自己相関係数](#1.3.3-自己共分散・自己相関係数)**
    - **[1.3.4 自己相関係数の出力](#1.3.4-自己相関係数の出力)**
<br><br>
- **[1.4 添削問題](#1.4-添削問題)**

## 1.1 時系列分析概要

### 1.1.1 時系列データ

時系列分析では、 **<font color=#AA0000>時系列データ</font>** を扱います。時系列データは **時間の経過とともに変化するデータ** のことをいいます。具体的には東京の毎時間の気温の記録、ある会社の毎月の売上高の記録、ある国のGDPの記録や日経平均株価の記録などは時系列データといえます。

時系列分析は、会社の売り上げや商品の売り上げ予測、さらには来店者数の予測など、ビジネスにおいて非常に重要な分析技術となります。

このコースではPythonの **StatsModels** を用いて時系列データの分析の仕方を学んでいきます。すこし難しいところもありますが順を追ってひとつひとつ学んでいくので一緒に頑張りましょう。最後には **SARIMAモデル** を用いた時系列分析ができるようになります。

#### 問題

- このコースを終えてできるようになることを確認してみましょう
- 次のコードを実行して結果を出力してください

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from pandas import datetime
%matplotlib inline
import numpy as np

# データの読み込みと整理
sales_sparkring = pd.read_csv(filepath_or_buffer = "https://aidemyexcontentsdata.blob.core.windows.net/data/5060_tsa/monthly-australian-wine-sales-th-sparkling.csv")
index = pd.date_range("1980-01-31","1995-07-31",freq="M")
sales_sparkring.index=index
del sales_sparkring["Month"]

# モデルの当てはめ
SARIMA_sparkring_sales = sm.tsa.statespace.SARIMAX(sales_sparkring,order=(0,0, 0),seasonal_order=(0, 1, 1, 12)).fit()

# predに予測データを代入する
pred = SARIMA_sparkring_sales.predict("1994-7-31","1997-12-31")

# preadデータともとの時系列データの可視化
plt.plot(sales_sparkring)
plt.plot(pred,color="r")
plt.show()

#何も書き込まず実行してください

#### ヒント　

- 最終的には、このように時系列データを予測することができます。

#### 解答

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from pandas import datetime
%matplotlib inline
import numpy as np

# データの読み込みと整理
sales_sparkring = pd.read_csv(filepath_or_buffer = "https://aidemyexcontentsdata.blob.core.windows.net/data/5060_tsa/monthly-australian-wine-sales-th-sparkling.csv")

index = pd.date_range("1980-01-31","1995-07-31",freq="M")
sales_sparkring.index=index
del sales_sparkring["Month"]

# モデルの当てはめ
SARIMA_sparkring_sales = sm.tsa.statespace.SARIMAX(sales_sparkring,order=(0,0, 0),seasonal_order=(0, 1, 1, 12)).fit()

# predに予測データを代入する
pred = SARIMA_sparkring_sales.predict("1994-7-31","1997-12-31")

# preadデータともとの時系列データの可視化
plt.plot(sales_sparkring)
plt.plot(pred,color="r")
plt.show()

#何も書き込まず実行してください

### 1.1.2 時系列データの表し方

**時系列分析の第一歩は、時系列データを <font color=#AA0000>視覚化する</font>** ことです。データを視覚化することで様々なことがわかります。
次の問題ではPythonのmatplotlibを用いて、ハワイにあるマウナロア観測所の二酸化炭素濃度について折れ線グラフで表してみましょう。

#### 問題 

- `plt.plot()`を用いてマウナロア観測所の二酸化炭素濃度データを折れ線グラフで出力してください
- ただし、 **x軸は期間を1995年から2000年まで** に、 **y軸は値を355から375まで** に指定しましょう

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
%matplotlib inline
# データの読み込み(StatsModelsのテストデータを用います)
co2_tsdata = sm.datasets.co2.load_pandas().data
# 欠損値の処理
co2_tsdata2 = co2_tsdata.fillna(method="ffill")

# x軸の期間を1995年から2000年までに、y軸は値を355から375までに指定したうえでデータを折れ線グラフで表してください
# グラフのタイトルを定める
plt.title("Mauna Loa Weekly Atmospheric CO2 Data")
# グラフのx軸とy軸の名前設定
plt.xlabel("date")
plt.ylabel("CO2 Concentration ppmv")
# ここに答えを記入してください


plt.show()

#### ヒント

- 期間、値の指定は`plt.xlim("1995", "2000")`、`plt.ylim(355, 375)`でできます。

#### 解答例

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
%matplotlib inline
# データの読み込み(StatsModelsのテストデータを用います)
co2_tsdata = sm.datasets.co2.load_pandas().data
# 欠損値の処理
co2_tsdata2 = co2_tsdata.fillna(method="ffill")

# x軸の期間を1995年から2000年までに、y軸は値を355から375までに指定したうえでデータを折れ線グラフで表してください
# グラフのタイトルを定める
plt.title("Mauna Loa Weekly Atmospheric CO2 Data")
# グラフのx軸とy軸の名前設定
plt.xlabel("date")
plt.ylabel("CO2 Concentration ppmv")
# ここに答えを記入してください
plt.plot(co2_tsdata2)
plt.xlim("1995", "2000")
plt.ylim(355, 375)
plt.show()

### 1.1.3 時系列データの基本

時系列データには **<font color=#AA0000>トレンド</font>** 、 **<font color=#AA0000>周期変動</font>** 、 **<font color=#AA0000>不規則変動</font>** の3つのパターンがあります。

**<font color=#AA0000>トレンド</font>** はデータの長期的な傾向を意味します。時間の経過とともにデータの値が上昇していたり下降していたりする時系列データは「トレンドがある」といい、値が上昇している場合には **正のトレンド** 下降している場合には **負のトレンド** があると言います。

**<font color=#AA0000>周期変動</font>** があるデータは時間の経過に伴ってデータの値が上昇と下降を繰り返します。特に1年間での周期変動を **季節変動** といいます。

**<font color=#AA0000>不規則変動</font>** は時間の経過と関係なくデータの値が変動することをいいます。

実際の時系列データを観測すると、これら3つのパターンが組み合わさっていることが分かります。

#### 問題 

- マウナロア観測所の二酸化炭素濃度の時系列データはトレンド、周期変動、不規則変動のどれを含むでしょうか。次のなかから選んでください。

- トレンド
- 周期変動
- 不規則変動
- 上記のすべて

#### ヒント

- 先ほどのセッションで出力したグラフを確認して見ましょう

#### 解答

- 上記のすべて

### 1.1.4 時系列データのモデリング

時系列データの **<font color=#AA0000>モデリング</font>** とは、時系列データを何かの形で定式化することを言います。

時系列データが持っている様々な特徴を説明できるような **モデルを構築** し、この **時系列モデルに基づいて様々な予測を行ったり、相互の関連を分析していく** ことがこの時系列分析の目的です。

#### 問題

- 次の[ ]の中に入る言葉を答えてください。
- 時系列データを分析するにはまず時系列データの[ ]を構築する必要があります。完成した[ ]によって、時系列データの持つ様々な特徴を説明できる様になります。

1. モデル
1. データ
1. 予測
1. 分析

#### ヒント

- 時系列データが持っている様々な特徴を説明できるような **モデルを構築** し、この **時系列モデルに基づいて様々な予測を行ったり、相互の関連を分析していく** ことがこの時系列分析の目的です。

#### 解答

モデル

## 1.2 時系列データの種類

### 1.2.1 時系列データの変換

なにもされていない時系列データそのものは **<font color=#AA0000>原系列</font>** と呼ばれます。時系列分析の目的はこの **原系列** の性質を探って行くことです。 **原系列** のもつ様々な特徴を明らかにして **モデル** を構築します。そしてその **モデル** をもとにデータの予測を行ったり時系列データ同士の関連性を明らかにしていくのです。

しかし、時系列分析において **原系列** そのものを扱うことはあまりありません。実際には時系列データを加工し新しい系列にして、それを分析して **モデル** を構築していきます。

これから **対数系列** 、 **階差系列** (差分系列)、 **季節調整済み系列** をデータを加工することで実際に作ってみましょう。

慣れない言葉がでてきて大変かもしれませんが、ひとつひとつ説明していくので安心してください。

#### 問題　

- 次の[　]に入る言葉を答えてください(同じ言葉が入ります)
- なにもされていない時系列データそのものは[　]と呼ばれます。実際に時系列分析を行うときは[　]を加工し新しい系列にしてそれを分析することが多いです。

- 対数系列
- 季節調整済み系列
- 原系列
- 階差系列

#### ヒント 

- なにもされていない時系列データそのものは原系列と呼ばれます。

#### 解答

- 原系列

### 1.2.2  対数系列

時系列データの中には、値の変動が大きなデータが多くあります。そのようなデータの変動を穏やかにするのが **<font color=#AA0000>対数変換</font>** です。まずは実際にデータを対数変換してみましょう。ここでは対数変換のためにNumpyの`np.log()`を用います。

`np.log()`の使い方は、
`np.log(PandasのDataframe型)`
というように、引数を一つ指定して使います。

#### 問題

- 次のアメリカの実質GDPのデータを対数変換してその値を見てみましょう。1959年12月31日の対数変換前と対数変換後の値を比べてください。

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
%matplotlib inline
import numpy as np

# データの読み込み(StatsModelsのテストデータを用います)
macrodata = sm.datasets.macrodata.load_pandas().data
macrodata.index = pd.Index(sm.tsa.datetools.dates_from_range("1959q1","2009q3"))

# 読み込んだデータからアメリカの実質GDPの対数変換前の値を表示します。
print(macrodata.realgdp.head())

# 先程の原型列を対数変換して対数系列にします
# ここに解答を記入してください。

# 対数変換後の値を表示します。
print(macrodata_realgdp_log.head())

#### ヒント

- 今回の場合、対数変換後は値がとても小さくなります。
- GDPのデータはmacrodata内のrealgdpカラムに含まれています。

#### 解答例

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
%matplotlib inline
import numpy as np

# データの読み込み(StatsModelsのテストデータを用います)
macrodata = sm.datasets.macrodata.load_pandas().data
macrodata.index = pd.Index(sm.tsa.datetools.dates_from_range("1959q1","2009q3"))

# 読み込んだデータからアメリカの実質GDPの対数変換前の値を表示します。
print(macrodata.realgdp.head())

# 先程の原型列を対数変換して対数系列にします
macrodata_realgdp_log = np.log(macrodata.realgdp)

# 対数変換後の値を表示します。
print(macrodata_realgdp_log.head())

### 1.2.3 階差系列

時系列データを分析する際、ひとつ前の時間との値の差を扱うことも多いです。このようにひとつ前の値との差をとることを **差分をとる** といいます。この様に差分をとった後の系列を **<font color=#AA0000>階差系列</font>** といいます。 <br>
この変換を行うことで原系列の **トレンドを取り除く** ことができます。 <br>
（ **トレンド** とは、それを大局的にみた際に、上昇傾向にあるか、横這い傾向にあるか。下降傾向にあるのかということです。） <br>
トレンドを取り除くことで原系列をあとで説明する **定常過程**（時間がたっても全体で見れば、その時系列の値は変わらないという性質のこと）にすることができる場合があり、このコースでは重要な変換となります。

#### 問題

- 次のマウナロア観測所のCO2濃度の時系列データの階差をとって、階差前のグラフと比べてみましょう。次のコードを実行して出力してください。

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
%matplotlib inline
import numpy as np

# データの読み込み(StatsModelsのテストデータを用います)
co2_tsdata = sm.datasets.co2.load_pandas().data

# 欠損値の処理
co2_tsdata2 = co2_tsdata.fillna(method="ffill")

# データの階差をとります
co2_tsdata2_diff = co2_tsdata2.diff()


plt.subplot(2,1,1)
plt.title("Mauna Loa Weekly Atmospheric CO2 Data")
plt.xlabel("date")
plt.ylabel("CO2 Concentration ppmv")
plt.plot(co2_tsdata2)

plt.subplot(2,1,2)
plt.title("Mauna Loa Weekly Atmospheric CO2 Data DIFF")
plt.xlabel("date")
plt.ylabel("CO2 Concentration ppmv DIFF")
plt.plot(co2_tsdata2_diff)

plt.subplots_adjust(wspace=0, hspace=1.0)

plt.show()

# 何も書き込まずに実行してください

#### ヒント

- 階差をとると、トレンドが取り除かれ右上がりのグラフでなくなります

#### 解答例

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
%matplotlib inline
import numpy as np

# データの読み込み(StatsModelsのテストデータを用います)
co2_tsdata = sm.datasets.co2.load_pandas().data

# 欠損値の処理
co2_tsdata2 = co2_tsdata.fillna(method="ffill")

# データの階差をとります
co2_tsdata2_diff = co2_tsdata2.diff()


plt.subplot(2,1,1)
plt.title("Mauna Loa Weekly Atmospheric CO2 Data")
plt.xlabel("date")
plt.ylabel("CO2 Concentration ppmv")
plt.plot(co2_tsdata2)

plt.subplot(2,1,2)
plt.title("Mauna Loa Weekly Atmospheric CO2 Data DIFF")
plt.xlabel("date")
plt.ylabel("CO2 Concentration ppmv DIFF")
plt.plot(co2_tsdata2_diff)

plt.subplots_adjust(wspace=0, hspace=1.0)

plt.show()

# 何も書き込まずに実行してください

### 1.2.4 季節調整済み系列

もう一度チャプターの初めの方で見た、マウナロア観測所の二酸化炭素の濃度変化のデータを見てみましょう。


このように1年の周期で周期変動をしていくことを **季節変動** と言いました。
しかし、この折れ線グラフではこの季節変動パターンが邪魔をして時系列データのトレンドがわかりにくくなっています。
このような季節変動のあるデータから季節変動以外のデータの動向を探るため、原系列から季節変動を取り除くことが多くあり、そのように季節変動が取り除かれたデータのことを **<font color=#AA0000>季節調整済み系列</font>** といいます。
StatsModelsの`tsa.seasonal_decompose()`を用いることで原系列を **トレンド** 、 **季節変動** 、 **不規則変動(残差)** に分けることができます。

#### 問題

- StatsModelsの`tsa.seasonal_decompose()`によって実際に季節調整されたマウナロア観測所の二酸化炭素濃度のデータからそのトレンドを判断してください。次のコードを実行して出力してください。

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from numpy import nan as na
%matplotlib inline
import numpy as np

# データの読み込み(StatsModelsのテストデータを用います)
co2_tsdata = sm.datasets.co2.load_pandas().data
co2_tsdata2 = co2_tsdata.fillna(method="ffill")
# 季節調整を行い原系列をトレンド、季節変動、残差に分けて出力します
fig = sm.tsa.seasonal_decompose(co2_tsdata2, freq=51).plot()
plt.show()
# 何も書き込まず実行してください

#### ヒント

- 結果のOvserved(一番目)は原系列、Trend(二番目)はトレンド成分、Seasonal(三番目)は季節変動、Residual(四番目)は残差を表します。

#### 解答例

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from numpy import nan as na
%matplotlib inline
import numpy as np

# データの読み込み(StatsModelsのテストデータを用います)
co2_tsdata = sm.datasets.co2.load_pandas().data
co2_tsdata2 = co2_tsdata.fillna(method="ffill")
# 季節調整を行い原系列をトレンド、季節変動、残差に分けて出力します
fig = sm.tsa.seasonal_decompose(co2_tsdata2, freq=51).plot()
plt.show()
# 何も書き込まず実行してください

## 1.3 時系列データにおける統計量

### 1.3.1 期待値(平均)

ここからは少し数学を用いていきます。たくさんの数式がでてきますが、このコースでは数式をきちんと理解する必要はありません。それよりも **各値がどのような意味を持つのか** に注目してください。時系列分析においても基本統計量を用いてデータを記述します。


ここで、

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5060_tsa/01_01.jpg">

と言うデータが観測されたとします。この時例えば3日目のデータを

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5060_tsa/01_02.jpg">

のように表します。

最も基本的な統計量は、 **期待値** あるいは **平均** と言われるもので、

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5060_tsa/01_03.jpg">

のように表され、時系列データの値の平均的な値を示します。ちなみに $E$ とはexpectation(期待値)の略です。 
試しにデータの平均値を求めて見ましょう。  

平均値は`np.mean()`で求めることができます。

#### 問題

- マウナロアの二酸化炭素濃度のデータの平均はいくつでしょうか。次のコードを実行して出力してください

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
%matplotlib inline
import numpy as np

# データの読み込み(StatsModelsのテストデータを用います)
co2_tsdata = sm.datasets.co2.load_pandas().data
# 欠損値の処理
co2_tsdata2 = co2_tsdata.fillna(method="ffill")
# データの平均値を求める
np.mean(co2_tsdata2)

# 何も書き込まずに実行してください

#### ヒント

- 平均値は`np.mean()`で求めることができます。

#### 解答例

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
%matplotlib inline
import numpy as np

# データの読み込み(StatsModelsのテストデータを用います)
co2_tsdata = sm.datasets.co2.load_pandas().data
#欠損値の処理
co2_tsdata2 = co2_tsdata.fillna(method="ffill")
# データの平均値を求める
np.mean(co2_tsdata2)

# 何も書き込まずに実行してください

### 1.3.2 分散・標準偏差

時系列データが期待値からどれほどばらつくのかを表す統計量のひとつが **<font color=#AA0000>分散</font>** です。分散は、期待値を用いて

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5060_tsa/01_04.jpg">

のように表されます。

そして分散の平方根を **<font color=#AA0000>標準偏差</font>** といい

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5060_tsa/01_07.jpg">

で表されます。また、特にファイナンスにおいてこの標準偏差のことを **ボラティリティ** と呼びます。
標準偏差はファイナンスにおけるリスクを計測する重要な指標です。

#### 問題

- 次の文章の[ ]に入る言葉を答えてください。
- 時系列データが期待値からどれくらいばらつくのかを表す統計量のひとつが[ ]です。[ ]の平方根を標準偏差といいます。

- 分散
- 相関係数
- 平均
- 中央値

#### ヒント

- 分散の平方根を標準偏差と言います。

#### 解答

- 分散

### 1.3.3 自己共分散・自己相関係数

次に時系列データに特有の統計量、 **<font color=#AA0000>自己共分散</font>** を紹介します。 **自己共分散** は同じ時系列データでの別々の時点同士での共分散です。 **k時点** 離れた自己共分散を **k次の自己共分散** といい

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5060_tsa/01_08.jpg">


のように表します。
さらに、この自己共分散をkの関数と見たものを **自己共分散関数** といいます。

この自己共分散を様々な値間でも比べられるようにしたのが **<font color=##AA0000>自己相関係数</font>** と言われるもので

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/5060_tsa/01_05.jpg">

のように表します。自己分散と同様に、この自己相関係数をkの関数と見たものを **自己相関関数** といいます。そしてこの **自己相関関数** をグラフで表したものを **コレログラム** といいます。

自己相関係数は簡単に言うと **過去の値とどれほど似ているのか** を表した値になります。

#### 問題

- 自己相関関数をグラフで表したものをなんといいますか。

- ボラティリティ
- モーメント
- モデル
- コレログラム

#### ヒント

- 自己相関関数をグラフで表したものをコレログラムといいます。

#### 解答

- コレログラム

### 1.3.4 自己相関係数の出力

一つ前のチャプターで紹介した自己相関係数を出力・可視化していきます。
**自己相関係数**(ACF:Autocorrelation Function)は、`sm.tsa.stattools.acf()`**第一引数**は**データ**、**第二引数**は**nlags**(デフォルト40、省略可能)で求められ、グラフは、`sm.graphics.tsa.plot_acf()`**第一引数**は**データ**、**第二引数**は**lags**で計算とグラフ作成までできます。
ラグ(lag)とは、日次データの場合、一つズラして自己相関を確認すれば、一日前の値が今日にどれくらい影響しているかが分かります。そのズラしたデータのステップ数をラグ（lag)と呼びます。自己相関係数のラグ0は常に1になります。ラグ0はデータをズラさない、同じ値同士の相関になるためです。
(自己)相関係数の強い・弱いの目安はこのようになります。
<img src="https://aidemyexstorage.blob.core.windows.net/aidemycontents/1533272745692483.png">

#### 問題

- マウナロアの二酸化炭素濃度のデータの自己相関係数はいくつでしょうか。次のコードを実行して出力してください

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
%matplotlib inline
import numpy as np

# データの読み込み(StatsModelsのテストデータを用います)
co2_tsdata = sm.datasets.co2.load_pandas().data

# 欠損値の処理
co2_tsdata2 = co2_tsdata.fillna(method="ffill")

# データの自己相関係数を求める
co2_tsdata2_acf = sm.tsa.stattools.acf(co2_tsdata2, nlags=40)
print(co2_tsdata2_acf)

# 自己相関係数(ACF)のグラフを作成する
sm.graphics.tsa.plot_acf(co2_tsdata2,lags=40)
plt.show()

# 何も書き込まずに実行してください

#### ヒント

- 自己相関係数は`tsa.stattools.acf()`で求めることができ、グラフは`sm.graphics.tsa.plot_acf()`で作成できます。

#### 解答例

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
%matplotlib inline
import numpy as np

# データの読み込み(StatsModelsのテストデータを用います)
co2_tsdata = sm.datasets.co2.load_pandas().data

# 欠損値の処理
co2_tsdata2 = co2_tsdata.fillna(method="ffill")

# データの自己相関係数を求める
co2_tsdata2_acf = sm.tsa.stattools.acf(co2_tsdata2, nlags=40)
print(co2_tsdata2_acf)

# 自己相関係数(ACF)のグラフを作成する
sm.graphics.tsa.plot_acf(co2_tsdata2, lags=40)
plt.show()

# 何も書き込まずに実行してください

## 1.4 添削問題

概要なし(復旧点)

#### 問題

- 次のスパークリングワインの売上データ`sales_sparkring`について次の操作をしてください
- 「データを折れ線グラフで表す」、「データを季節調整してトレンドを調べる」、「データの平均値を求める」、「データの自己相関係数を求める」

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from pandas import datetime
%matplotlib inline

# データの読み込みと整理
sales_sparkring = pd.read_csv("/monthly-australian-wine-sales-th-sparkling.csv")
index = pd.date_range('1980-01-31', '1995-07-31', freq='M')
sales_sparkring.index = index
del sales_sparkring['Month']

# 「データを折れ線グラフで表す」
# ここに書き込んでください

# 「データを季節調整してトレンドを調べる」
# ここに書き込んでください(※ただしfreq=12としてください)

# データの平均値を求める
# ここに書き込んでください

# データの自己相関係数を求める
# ここに書き込んでください


#### ヒント

- 「データの可視化」は`plt.plot`
- 「データの季節調整」は`sm.tsa.seasonal_decompose`
- 「データの平均値」は`np.mean()`
によって求めることができます。
- データの平均値は2402.417です。
- 自己相関係数は`tsa.stattools.acf()`で求めることができます。

#### 解答例

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from pandas import datetime
%matplotlib inline

# データの読み込みと整理
sales_sparkring = pd.read_csv("/monthly-australian-wine-sales-th-sparkling.csv")
index = pd.date_range('1980-01-31', '1995-07-31', freq='M')
sales_sparkring.index=index
del sales_sparkring['Month']

# 「データを折れ線グラフで表す」
# グラフのタイトルを定める
plt.title("monthly-australian-wine-sales-th-sparkling")
# グラフのx軸とy軸の名前設定
plt.xlabel("date")
plt.ylabel("sales")
# グラフで表示
plt.plot(sales_sparkring)

# 「データを季節調整してトレンドを調べる」
sm.tsa.seasonal_decompose(sales_sparkring, freq=12).plot()

# データの平均値を求める
print(np.mean(sales_sparkring))

# データの平均値は2402.417です

# データの自己相関係数を求める
sales_sparkring_acf = sm.tsa.stattools.acf(sales_sparkring, nlags=40)
print(sales_sparkring_acf)


解説なし(復旧点)

***