<a href="https://colab.research.google.com/github/hannari-python/tutorial/blob/master/trade_balance/1_%E8%B2%BF%E6%98%93%E5%8F%8E%E6%94%AF%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E8%A7%A3%E6%9E%90.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

ここでは貿易収支のデータを解析します。
データは
https://www.customs.go.jp/toukei/shinbun/trade-st/timeseries_202005.csv
にあります。


## データの前処理
pandasはデータの読み書きや整形を行うpython packageです。
このpackageを使うには下記を実行します。

In [1]:
import pandas as pd

csvデータをpandasで読むには read_csvという関数を使います。

read_csvの使い方は下記のように調べたいものの前に`?`を書き実行することで調べることができます。

In [8]:
?pd.read_csv

単にcsv fileの在り処だけを指定して実行してみましょう。
左辺のdfは`DataFrame`の省略です。
(pandasの)`DataFrame`はテーブルデータを格納するクラスの名前です。

In [None]:
df = pd.read_csv("https://www.customs.go.jp/toukei/shinbun/trade-st/timeseries_202005.csv")

UnicodeDecodeError: ignored

文字コードに問題があるようです。
`?pd.read_csv` を参考に文字コード指定のオプションを追加してみましょう。

In [9]:
df = pd.read_csv("https://www.customs.go.jp/toukei/shinbun/trade-st/timeseries_202005.csv", encoding="shift_jis")

`encoding="shift_jis"`を指定するとエラーが出なくなりました。
次に読み込んだデータを格納したオブジェクト`df`の内容を確認しましょう。
オブジェクト名`df`を入力し実行します。

In [10]:
df

Unnamed: 0,《季節調整値》　（単位：百万円）,Unnamed: 1,Unnamed: 2
0,Seasonally adjusted data (a million yen),,
1,Years/Months,Exp-Total,Imp-Total
2,,,
3,2010/06,5635901,5238395
4,2010/07,5688985,5187889
...,...,...,...
118,2020/1,5941396,6179581
119,2020/2,6078998,5727298
120,2020/3,5782303,6107656
121,2020/4,5121827,6164967


データを見てみると
- 行インデックス1の行が列名
- 1列目は年/月
- 行インデックス0と2の行は捨ててよい
- 行インデックス3の行からがデータ

であることがわかります。

read_csvにさらにオプションを追加する必要がありそうです。

まず最初の2行を読み飛ばして今の行インデックス1からデータを読み込むようにオプションを追加してみましょう。

In [24]:
df = pd.read_csv("https://www.customs.go.jp/toukei/shinbun/trade-st/timeseries_202005.csv", encoding="shift_jis", skiprows=2)

In [25]:
df

Unnamed: 0,Years/Months,Exp-Total,Imp-Total
0,,,
1,2010/06,5635901.0,5238395.0
2,2010/07,5688985.0,5187889.0
3,2010/08,5643842.0,5176241.0
4,2010/09,5581432.0,5108268.0
...,...,...,...
116,2020/1,5941396.0,6179581.0
117,2020/2,6078998.0,5727298.0
118,2020/3,5782303.0,6107656.0
119,2020/4,5121827.0,6164967.0


`Years/Months	Exp-Total	Imp-Total`が各列の名前になるように`read_csv`できました。

次に1列目を単なる文字列ではなく日付として読み込むオプションを追加してみましょう。


In [34]:
df = pd.read_csv("https://www.customs.go.jp/toukei/shinbun/trade-st/timeseries_202005.csv", encoding="shift_jis", skiprows=2, date_parser=['Years/Months'])

In [35]:
df

Unnamed: 0,Years/Months,Exp-Total,Imp-Total
0,,,
1,2010/06,5635901.0,5238395.0
2,2010/07,5688985.0,5187889.0
3,2010/08,5643842.0,5176241.0
4,2010/09,5581432.0,5108268.0
...,...,...,...
116,2020/1,5941396.0,6179581.0
117,2020/2,6078998.0,5727298.0
118,2020/3,5782303.0,6107656.0
119,2020/4,5121827.0,6164967.0


行インデックス0の行は不要そうです。
これを捨てるにはデータフレームの`drop`というメソッドを使います。

In [36]:
?pd.DataFrame.drop

In [37]:
df.drop(0)

Unnamed: 0,Years/Months,Exp-Total,Imp-Total
1,2010/06,5635901.0,5238395.0
2,2010/07,5688985.0,5187889.0
3,2010/08,5643842.0,5176241.0
4,2010/09,5581432.0,5108268.0
5,2010/10,5748036.0,5138540.0
...,...,...,...
116,2020/1,5941396.0,6179581.0
117,2020/2,6078998.0,5727298.0
118,2020/3,5782303.0,6107656.0
119,2020/4,5121827.0,6164967.0


行インデックス0の行が消えました。
確認のために`df`を実行してみましょう。

In [38]:
df

Unnamed: 0,Years/Months,Exp-Total,Imp-Total
0,,,
1,2010/06,5635901.0,5238395.0
2,2010/07,5688985.0,5187889.0
3,2010/08,5643842.0,5176241.0
4,2010/09,5581432.0,5108268.0
...,...,...,...
116,2020/1,5941396.0,6179581.0
117,2020/2,6078998.0,5727298.0
118,2020/3,5782303.0,6107656.0
119,2020/4,5121827.0,6164967.0


行インデックス0の行が消えていません。
どうやら元のオブジェクト`df`に影響を及ぼさないようです。
元の`df`に影響を及ぼすオプションが dropメソッドにあるか調べてみましょう。

In [39]:
?pd.DataFrame.drop

In [40]:
df.drop(0, inplace=True)

In [41]:
df

Unnamed: 0,Years/Months,Exp-Total,Imp-Total
1,2010/06,5635901.0,5238395.0
2,2010/07,5688985.0,5187889.0
3,2010/08,5643842.0,5176241.0
4,2010/09,5581432.0,5108268.0
5,2010/10,5748036.0,5138540.0
...,...,...,...
116,2020/1,5941396.0,6179581.0
117,2020/2,6078998.0,5727298.0
118,2020/3,5782303.0,6107656.0
119,2020/4,5121827.0,6164967.0


ここの説明はわかってません。FILLME

In [42]:
df.reset_index(inplace=True, drop=True)

In [43]:
df

Unnamed: 0,Years/Months,Exp-Total,Imp-Total
0,2010/06,5635901.0,5238395.0
1,2010/07,5688985.0,5187889.0
2,2010/08,5643842.0,5176241.0
3,2010/09,5581432.0,5108268.0
4,2010/10,5748036.0,5138540.0
...,...,...,...
115,2020/1,5941396.0,6179581.0
116,2020/2,6078998.0,5727298.0
117,2020/3,5782303.0,6107656.0
118,2020/4,5121827.0,6164967.0


## データの可視化
次にplotlyというPython packageを使い、輸出・輸入額の時系列変化を
可視化してみましょう。

In [44]:
import plotly.express as px

In [45]:
px.line(df,x='Years/Months', y=['Exp-Total','Imp-Total'])

ValueError: ignored

## データの機械学習
次にscikit-learnというPython packageを使い、輸出・輸入額の将来を予測してみましょう。