# 簡単なデータ分析：`pandas`

In [3]:
import numpy as np
import pandas as pd

## `pandas`について

`DataFrame`（データ・フレーム）：Excelのスプレッドシートのイメージ

データ・フレームの構造
* `X`，`Y`，`Z`は列ラベル
    * アルファベットや記号など
* `0`，`1`，`2`は行番号
* その他の数字はデータ

|   | X  | Y    | Z   |
|---|----|------|-----|
| 0 | 10 |  5.0 | 3.0 |
| 1 | 20 | 30.0 | 2.0 |
| 2 | 30 | 15.0 | 5.0 |

通常`pd`という名前で読み込む。
```
    import pandas as pd
```

## データの読み込みとデータのチェック

様々なデータを読み込むことが可能だが，ここでは`read_csv()`関数を使って`.csv`ファイルを読み込むことにする。（`csv`はcomma separated valuesの略称であり、.csvファイルについては[この検索結果](https://www.google.com/search?q=csv%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%81%A8%E3%81%AF)を参照）ここでは`data2.csv`を使う。

In [4]:
# データの読み込み
df = pd.read_csv('./data/data2.csv')

何も表示されないが、`df`にデータが割り当てられている。。`df`を実行すると全てが表示される。

In [5]:
df

Unnamed: 0,year,gdp,con,inv,gov,net_ex
0,2012,517928.4,295751.75,98682.2,127135.975,-3941.775
1,2013,528522.025,303606.6,100590.05,129984.1,-6006.85
2,2014,529656.425,300593.375,103200.725,131434.275,-5477.075
3,2015,538098.75,300107.925,108697.0,132249.45,-2955.575
4,2016,541964.6,298675.925,109195.975,134433.625,-340.55
5,2017,551205.775,301894.65,111970.275,134762.325,2800.425
6,2018,554349.275,302496.325,113151.35,136011.05,2901.725
7,2019,553019.775,300927.225,113488.75,138450.375,281.825
8,2020,527946.3,285155.35,104932.325,142151.4,-4601.625
9,2021,536811.775,288895.2,103434.9,143454.975,1222.325


数値は日本の四半期データを年平均（単位：`10`億円）にしている。
* `year`：年
* `gdp`：国内総生産（Gross Domestic Product）
* `con`：消費（consumption）
* `inv`：投資（investment）
* `gov`：政府支出（government expenditure）
* `net_ex`：純輸出（net exports）

最初の5行だけを表示するためには、次のコードを実行します。
```
df.head()
```
コードを実行しましょう。

In [7]:
df.head()

Unnamed: 0,year,gdp,con,inv,gov,net_ex
0,2012,517928.4,295751.75,98682.2,127135.975,-3941.775
1,2013,528522.025,303606.6,100590.05,129984.1,-6006.85
2,2014,529656.425,300593.375,103200.725,131434.275,-5477.075
3,2015,538098.75,300107.925,108697.0,132249.45,-2955.575
4,2016,541964.6,298675.925,109195.975,134433.625,-340.55


## 列の抽出

列`gdp`だけを抽出するためには、次のコードを使う。
```
df["gdp"]
```
列ラベルは文字列として指定している。実行してみましょう（クォート`"`で列の名前を囲むことを忘れずに！）。

In [10]:
df["gdp"]

0    517928.400
1    528522.025
2    529656.425
3    538098.750
4    541964.600
5    551205.775
6    554349.275
7    553019.775
8    527946.300
9    536811.775
Name: gdp, dtype: float64

同様に列`con`を抽出してみましょう。（クォート`"`で列の名前を囲むことを忘れずに！）

In [13]:
df["con"]

0    295751.750
1    303606.600
2    300593.375
3    300107.925
4    298675.925
5    301894.650
6    302496.325
7    300927.225
8    285155.350
9    288895.200
Name: con, dtype: float64

## 列を使った計算

列`con`を列`gdp`で割ることにより、GDPにおける消費の割合を計算することができます。（クォート`"`で列の名前を囲むことを忘れずに！）

In [14]:
df["con"] / df["gdp"]

0    0.571028
1    0.574445
2    0.567525
3    0.557719
4    0.551099
5    0.547699
6    0.545678
7    0.544153
8    0.540122
9    0.538169
dtype: float64

## 新たな列の追加

次に、消費の割合を`df`の新たな列として追加する。列の名前は`con2gdp`（consumption to gdp ratioの略）とし、次のコードで追加することができます。
```
df["con2gdp"] = df["con"] / df["gdp"]
```
実行しよう。（クォート`"`で列の名前を囲むことを忘れずに！）

In [15]:
df["con2gdp"] = df["con"] / df["gdp"]

`df.head()`を実行して最初の5行を表示し、新たな列が追加されているか確認しよう。

In [16]:
df.head()

Unnamed: 0,year,gdp,con,inv,gov,net_ex,con2gdp
0,2012,517928.4,295751.75,98682.2,127135.975,-3941.775,0.571028
1,2013,528522.025,303606.6,100590.05,129984.1,-6006.85,0.574445
2,2014,529656.425,300593.375,103200.725,131434.275,-5477.075,0.567525
3,2015,538098.75,300107.925,108697.0,132249.45,-2955.575,0.557719
4,2016,541964.6,298675.925,109195.975,134433.625,-340.55,0.551099


## `numpy`の関数を使う

`numpy`の関数の関数を使うと、列の値全てを関数を使った計算結果に変換できる。例えば、自然対数関数を使ってみよう。

In [20]:
np.log( df['gdp'] )

0    13.157592
1    13.177840
2    13.179984
3    13.195797
4    13.202956
5    13.219863
6    13.225550
7    13.223149
8    13.176750
9    13.193403
Name: gdp, dtype: float64