# 第10章　Pandas: 経済データ分析I

## はじめに

In [None]:
%pip install -q japanize-matplotlib py4macro
import japanize_matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import py4macro

## データフレームとシリーズの基本

### データフレームとシリーズについて

### データの読み込み

コード10.2.1

In [None]:
df1 = pd.read_csv("data1.csv")
df1

### データの基本的な操作

コード10.2.2

In [None]:
df1.shape

コード10.2.3

In [None]:
df1["gdp"]

コード10.2.4

In [None]:
df1[["gdp"]]

コード10.2.5

In [None]:
df1[["year", "gdp"]]

### ベクトル化演算

コード10.2.6

In [None]:
np.log( df1["gdp"] )

コード10.2.7

In [None]:
df1["consumption"] / df1["gdp"]

### 列の追加

コード10.2.8

In [None]:
df1["con/gdp"] = df1["consumption"] / df1["gdp"]

## 簡単なデータ分析

### 一人当たりGDP

コード10.3.1

In [None]:
df2 = pd.read_csv("data2.csv")

print(f"行：{df2.shape[0]}")
print(f"列：{df2.shape[1]}")

df2.head(3)

コード10.3.2

In [None]:
df2["gdppc"] = df2["gdp"] / df2["pop"]
df2["gdppc_log"] = np.log( df2["gdppc"] )
df2.tail(3)

コード10.3.3

In [None]:
plt.plot("year", "gdppc",
         data=df2,
         color="black",
         marker=".")
plt.title("一人当たりGDP")
plt.show()

コード10.3.4

In [None]:
plt.plot("year", "gdppc_log",
         data=df2,
         color="black",
         marker=".")
plt.title("一人当たりGDP（対数）")
plt.show()

### 成長率

コード10.3.5

In [None]:
df2["growth"] = 100 * df2[["gdppc_log"]].diff()
df2[["gdppc_log", "growth"]].head()

コード10.3.6

In [None]:
plt.plot("year", "growth",
         data=df2,
         color="black")
plt.title(
    "一人当たりGDPの成長率（％）"
    )
plt.grid()
plt.show()

コード10.3.7

In [None]:
print( df2["growth"].max() )
print( df2["growth"].min() )

### 平均成長率

コード10.3.8

In [None]:
df2["gdppc"].pct_change()

コード10.3.9

In [None]:
print( df2["growth"].mean() )

### GDPの構成要素

コード10.3.10

In [None]:
df3 = pd.read_csv("data3.csv")
df3.columns

コード10.3.11

In [None]:
print(f"行：{df3.shape[0]}")
print(f"列：{df3.shape[1]}")

コード10.3.12

In [None]:
df3["netx"] = (df3["exports"] -
               df3["imports"])

コード10.3.13

In [None]:
cols = ["consumption", "investment", "government", "netx"]
ratios = ["con/gdp", "inv/gdp", "gov/gdp", "nx/gdp"]

for ratio, col  in zip(ratios, cols):
    df3[ratio] = df3[col] / df3["gdp"]

df3.columns

コード10.3.14

In [None]:
plt.plot("year",
         "con/gdp",
         data=df3,
         color="black",
         linestyle="--",
         label="消費")
plt.legend()
plt.show()

コード10.3.15

In [None]:
labels = ["消費", "投資",
          "政府支出", "純輸出"]
styles = ["--", "-", "-.", ":"]

for ratio, label, style in zip(
    ratios, labels, styles):

    plt.plot("year",
             ratio,
             data=df3,
             color="black",
             linestyle=style,
             label=label)
plt.legend()
plt.title("支出要素の対GDP比",
          size=15)
plt.show()

上のコードでは凡例と消費の消費の線が重なっています。本の中では説明しませんでしたが，次のコードを使ったプロットを本の中で使っています。
違いがある行に「引数が追加されている」とコメントしています。引数の説明：
* `loc='upper right'`
    * 凡例枠の右上の角を基準点に設定します。つまり，凡例の「右上の角」をどこに置くかを決めるための基準です。
* `bbox_to_anchor=(1.0, 0.87)`
    * 凡例を配置する位置を座標で指定します。
    * ここでは2要素`(1.0, 0.87)`が座標に使われています。
    * 図の左下が座標`(0,0)`，右上が座標`(1,1)`として解釈されます。

In [None]:
labels = ["消費", "投資",
          "政府支出", "純輸出"]
styles = ["--", "-", "-.", ":"]

for ratio, label, style in zip(
    ratios, labels, styles):

    plt.plot("year",
             ratio,
             data=df3,
             color="black",
             linestyle=style,
             label=label)
plt.legend(loc='upper right', bbox_to_anchor=(1.0, 0.87))  # 引数が追加されている
plt.title("支出要素の対GDP比",
          size=15)
plt.show()

コード10.3.16

In [None]:
print("各支出要素の平均対GDP比")
print("-"*20)
for ratio in ratios:
    res = df3[ratio].mean()
    print(f"{ratio}：　{res:.3f}")

コード10.3.17

In [None]:
for col in ["exports", "imports"]:
    res = ( df3[col]/df3["gdp"] ).mean()
    print(f"{col}： {res:.3f}")

コード10.3.8

In [None]:
print("各支出要素の対GDP比\nの標準偏差")
print("-"*18)

for ratio in ratios:
    res = df3[ratio].std()
    print(f"{ratio}：　{res:.4f}")