# `Pandas`：データ分析

In [1]:
import numpy as np
import pandas as pd

## 説明

* `DataFrame`（データ・フレーム）：Excelのスプレッドシートのイメージ
* `Series`（シリーズ）：Excelの１列もしくは１行のスプレッドシートのイメージ

データ・フレームの構造
* 列
    * `X`，`Y`，`Z`は「列ラベル」（アルファベットや記号など）
    * 列インデックス（列番号）で数えることも可
        * `X`は`0`番目の列，`Y`は`1`番目の列，`Z`は`2`番目の列
* 行
    * `0`，`1`，`2`は行インデックス（行番号）
    * 「行ラベル」（アルファベットや記号など）に設定することも可能
* その他の数字はデータ

|   | X  | Y    | Z   |
|---|----|------|-----|
| 0 | 10 |  5.0 | 3.0 |
| 1 | 20 | 30.0 | 2.0 |
| 2 | 30 | 15.0 | 5.0 |

通常`pd`という名前で読み込む。
```
    import pandas as pd
```

## データの読み込みとデータのチェック

以下を実行しよう。

In [2]:
# CELL PROVIDED

df = pd.read_csv("./data/data1.csv")

`df`にデータが割り当てられている。全体を表示させる。

In [3]:
df

Unnamed: 0,country,gdp,con,inv,pop,continent
0,China,20118,7796.0,9137.0,1434,Asia
1,France,2950,1598.0,806.0,67,Europe
2,Germany,4274,2294.0,971.0,84,Europe
3,India,9142,5936.0,2471.0,1366,Asia
4,Italy,2463,1423.0,614.0,61,Europe
5,Japan,5032,2675.0,1238.0,127,Asia
6,Korea,2157,942.0,705.0,51,Asia
7,Singapore,477,176.0,135.0,6,Asia
8,Taiwan,1100,607.0,,24,Asia
9,UK,2994,,,68,Europe


* 行番号になっている。

列`country`を**行ラベル**に設定して`Pandas`の使い方について説明する
* `set_index()`：選択された列を行ラベルにするメソッド

In [4]:
df = df.set_index('country')
df

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
China,20118,7796.0,9137.0,1434,Asia
France,2950,1598.0,806.0,67,Europe
Germany,4274,2294.0,971.0,84,Europe
India,9142,5936.0,2471.0,1366,Asia
Italy,2463,1423.0,614.0,61,Europe
Japan,5032,2675.0,1238.0,127,Asia
Korea,2157,942.0,705.0,51,Asia
Singapore,477,176.0,135.0,6,Asia
Taiwan,1100,607.0,,24,Asia
UK,2994,,,68,Europe


* `=`を使って`df`に再度割り当て（「上書き」）
* `NaN`（Not a Number）は欠損値
* 行ラベルに`country`という列名が残っている。

`df`の最初の５行を表示させる。

In [5]:
df.head()

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
China,20118,7796.0,9137.0,1434,Asia
France,2950,1598.0,806.0,67,Europe
Germany,4274,2294.0,971.0,84,Europe
India,9142,5936.0,2471.0,1366,Asia
Italy,2463,1423.0,614.0,61,Europe


最後の5行を表示させる。

In [6]:
df.tail()

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Japan,5032,2675.0,1238.0,127,Asia
Korea,2157,942.0,705.0,51,Asia
Singapore,477,176.0,135.0,6,Asia
Taiwan,1100,607.0,,24,Asia
UK,2994,,,68,Europe


`df`の情報を確認する。

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, China to UK
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   gdp        10 non-null     int64  
 1   con        9 non-null      float64
 2   inv        8 non-null      float64
 3   pop        10 non-null     int64  
 4   continent  10 non-null     object 
dtypes: float64(2), int64(2), object(1)
memory usage: 480.0+ bytes


* 2行目の`10 entries`　→　行数が`10`
* `non-null`：非欠損値
* データ列の数
    * `int64`：整数型
    * `float64`：浮動小数点型
    * `object`：文字列など

記述統計

In [8]:
df.describe()

Unnamed: 0,gdp,con,inv,pop
count,10.0,9.0,8.0,10.0
mean,5070.7,2605.222222,2009.625,328.8
std,5817.610106,2579.061107,2959.228564,565.729578
min,477.0,176.0,135.0,6.0
25%,2233.5,942.0,682.25,53.5
50%,2972.0,1598.0,888.5,67.5
75%,4842.5,2675.0,1546.25,116.25
max,20118.0,7796.0,9137.0,1434.0


* `count`：観測値の数
* `mean`：平均
* `std`：標準偏差
* `min`：最小値
* `max`：最大値
* `25%`：第１四分位数
* `50%`：第２四分位数（中央値）
* `75%`：第３四分位数
* `max`：最大値

次のデータ属性`shape`を使って`(行の数，列の数)`を表示

In [9]:
df.shape

(10, 5)

タプルなので行数は次のコードで取得できる。

In [10]:
df.shape[0]

10

`len()`関数を使い行数を示すことができる。

In [11]:
len(df)

10

## `DataFrame`の構成要素

* データ：`.to_numpy()`もしくは`.values`で抽出できる。
* 列ラベル：`.columns`で抽出できる。
* 行ラベル：`.index`で抽出できる。

In [12]:
df.to_numpy()

array([[20118, 7796.0, 9137.0, 1434, 'Asia'],
       [2950, 1598.0, 806.0, 67, 'Europe'],
       [4274, 2294.0, 971.0, 84, 'Europe'],
       [9142, 5936.0, 2471.0, 1366, 'Asia'],
       [2463, 1423.0, 614.0, 61, 'Europe'],
       [5032, 2675.0, 1238.0, 127, 'Asia'],
       [2157, 942.0, 705.0, 51, 'Asia'],
       [477, 176.0, 135.0, 6, 'Asia'],
       [1100, 607.0, nan, 24, 'Asia'],
       [2994, nan, nan, 68, 'Europe']], dtype=object)

In [13]:
df.columns

Index(['gdp', 'con', 'inv', 'pop', 'continent'], dtype='object')

In [14]:
df.index

Index(['China', 'France', 'Germany', 'India', 'Italy', 'Japan', 'Korea',
       'Singapore', 'Taiwan', 'UK'],
      dtype='object', name='country')

## 列の抽出

まず、１つの列を抽出する場合を考える。
* `Series`として抽出する場合
    * `[]`の中に列ラベルを書く
```
df["列ラベル"]
```
* `DataFrame`として抽出する場合
    * `[]`の中にリストとして列ラベルを書く
```
df[["列ラベル"]]
```

次に、複数の列を抽出する場合を考えよう。
* `[]`の中にリストとして列ラベルを書く
```
df[["ラベル１", "ラベル２", "ラベル３"]]
```


`gdp`を`Series`として抽出

In [15]:
df["gdp"]

country
China        20118
France        2950
Germany       4274
India         9142
Italy         2463
Japan         5032
Korea         2157
Singapore      477
Taiwan        1100
UK            2994
Name: gdp, dtype: int64

`gdp`を`DataFrame`として抽出

In [16]:
df[["gdp"]]

Unnamed: 0_level_0,gdp
country,Unnamed: 1_level_1
China,20118
France,2950
Germany,4274
India,9142
Italy,2463
Japan,5032
Korea,2157
Singapore,477
Taiwan,1100
UK,2994


`gdp`、`con`、`inv`を抽出

In [17]:
cols = ['gdp', 'con', 'inv']
df[cols]

Unnamed: 0_level_0,gdp,con,inv
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
China,20118,7796.0,9137.0
France,2950,1598.0,806.0
Germany,4274,2294.0,971.0
India,9142,5936.0,2471.0
Italy,2463,1423.0,614.0
Japan,5032,2675.0,1238.0
Korea,2157,942.0,705.0
Singapore,477,176.0,135.0
Taiwan,1100,607.0,
UK,2994,,


## 要素の抽出

### `DataFrame`のメソッド`.loc[]`

**＜一つのデータの抽出＞**
* ラベルを使う方法：`.loc[,]`
    * `loc`ationと覚えよう
    * `,`の左に行ラベル，右に列ラベルを入力する。
```
例：　df.loc['Japan', 'gdp']
```
* インデックス（番号）を使う方法：`.iloc[,]`
    * `i`はインデックス（index、番号）の`i`であり，`i`ndex `loc`ationという意味
    * `,`の左に行番号，右に列番号を入力する。
```
例：　df.iloc[5, 0]
```

**＜連続するデータの抽出＞**
行または列を連続選択する（**スライシング**）場合を考えよう。
```
    .loc[ start:end, start:end ]
```
* `:`の左を省略すると「最初から」という意味になる。
* `:`の右を省略すると「最後まで」という意味になる。
* `,`の左または右が`:`のみの場合，「全て」という意味になる。

＜注意＞
* `.loc[,]`の場合，`end`を含む。（要注意！）
* `.iloc[,]`の場合，`end`は含まれず，その１つ前のインデックスまでが含まれる（`numpy`の`array`と同じ）。

**＜次のルールで説明する＞**
1. `.loc[,]`内の`,`を省略可能な場合であっても省略しない。
2. `.loc[,]`内の`,`の左または右を省略できる場合であっても省略しない。


**＜ヒント１＞**
* 列の抽出の場合、次の(1)と(2)は同じ`Series`を返す。
```
(1) `df["列ラベル"]`
(2) `df.loc[:,"列ラベル"]`
```

**＜ヒント２＞**
* 列の抽出の場合、次の(3)と(4)は同じ`DataFrame`を返す。
```
(3) `df[["列ラベル"]]`
(4) `df.loc[:,["列ラベル"]]`
```

### `.loc[,]`（ラベル使用）

**１つの列を`Series`として抽出**

In [15]:
df.loc[:,'gdp']

country
China        20118
France        2950
Germany       4274
India         9142
Italy         2463
Japan         5032
Korea         2157
Singapore      477
Taiwan        1100
UK            2994
Name: gdp, dtype: int64

次のコードでもOK
```
df['gdp']
```

**１つの列を`DataFrame`として抽出**

In [16]:
df.loc[:,['gdp']]

Unnamed: 0_level_0,gdp
country,Unnamed: 1_level_1
China,20118
France,2950
Germany,4274
India,9142
Italy,2463
Japan,5032
Korea,2157
Singapore,477
Taiwan,1100
UK,2994


次のコードでもOK
```
df[['gdp']]
```

**複数列を抽出**

In [17]:
df.loc[:,['gdp','pop']]

Unnamed: 0_level_0,gdp,pop
country,Unnamed: 1_level_1,Unnamed: 2_level_1
China,20118,1434
France,2950,67
Germany,4274,84
India,9142,1366
Italy,2463,61
Japan,5032,127
Korea,2157,51
Singapore,477,6
Taiwan,1100,24
UK,2994,68


次のコードでもOK
```
df[['gdp','pop']]
```

**複数列を連続抽出（slicing）**

In [18]:
df.loc[:,'con':'pop']

Unnamed: 0_level_0,con,inv,pop
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
China,7796.0,9137.0,1434
France,1598.0,806.0,67
Germany,2294.0,971.0,84
India,5936.0,2471.0,1366
Italy,1423.0,614.0,61
Japan,2675.0,1238.0,127
Korea,942.0,705.0,51
Singapore,176.0,135.0,6
Taiwan,607.0,,24
UK,,,68


**１つの行を`Series`として抽出** (＊＊)

In [19]:
df.loc['Japan',:]

gdp            5032
con          2675.0
inv          1238.0
pop             127
continent      Asia
Name: Japan, dtype: object

**１つの行を`DataFrame`として抽出** (＊＊)

In [20]:
df.loc[['Japan'],:]

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Japan,5032,2675.0,1238.0,127,Asia


**複数行を抽出** (＊＊)

In [21]:
df.loc[['France', 'Japan'],:]

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
France,2950,1598.0,806.0,67,Europe
Japan,5032,2675.0,1238.0,127,Asia


**複数行を連続抽出（slicing）**

In [22]:
df.loc['France':'Japan',:]

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
France,2950,1598.0,806.0,67,Europe
Germany,4274,2294.0,971.0,84,Europe
India,9142,5936.0,2471.0,1366,Asia
Italy,2463,1423.0,614.0,61,Europe
Japan,5032,2675.0,1238.0,127,Asia


### `.iloc[]`（位置番号使用）

**１つの列を`Series`として抽出**

In [23]:
df.iloc[:,1]

country
China        7796.0
France       1598.0
Germany      2294.0
India        5936.0
Italy        1423.0
Japan        2675.0
Korea         942.0
Singapore     176.0
Taiwan        607.0
UK              NaN
Name: con, dtype: float64

**１つの列を`DataFrame`として抽出**

In [24]:
df.iloc[:,[1]]

Unnamed: 0_level_0,con
country,Unnamed: 1_level_1
China,7796.0
France,1598.0
Germany,2294.0
India,5936.0
Italy,1423.0
Japan,2675.0
Korea,942.0
Singapore,176.0
Taiwan,607.0
UK,


**複数列を選択**

In [25]:
df.iloc[:,[1,3]]

Unnamed: 0_level_0,con,pop
country,Unnamed: 1_level_1,Unnamed: 2_level_1
China,7796.0,1434
France,1598.0,67
Germany,2294.0,84
India,5936.0,1366
Italy,1423.0,61
Japan,2675.0,127
Korea,942.0,51
Singapore,176.0,6
Taiwan,607.0,24
UK,,68


**複数列を連続抽出（slicing）**

In [26]:
df.iloc[:,1:4]

Unnamed: 0_level_0,con,inv,pop
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
China,7796.0,9137.0,1434
France,1598.0,806.0,67
Germany,2294.0,971.0,84
India,5936.0,2471.0,1366
Italy,1423.0,614.0,61
Japan,2675.0,1238.0,127
Korea,942.0,705.0,51
Singapore,176.0,135.0,6
Taiwan,607.0,,24
UK,,,68


**１つの行を`Series`として抽出**

In [27]:
df.iloc[1,:]

gdp            2950
con          1598.0
inv           806.0
pop              67
continent    Europe
Name: France, dtype: object

**複数行を抽出**（**）

In [28]:
df.iloc[[1,4],:]

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
France,2950,1598.0,806.0,67,Europe
Italy,2463,1423.0,614.0,61,Europe


**複数行を連続抽出（slicing）**（**）

In [29]:
df.iloc[1:4,:]

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
France,2950,1598.0,806.0,67,Europe
Germany,4274,2294.0,971.0,84,Europe
India,9142,5936.0,2471.0,1366,Asia


## ある条件の下で行の抽出

### １つの条件の場合

#### 例１：GDPが100未満の行の抽出

まず条件を作る。

In [30]:
df.loc[:,'gdp'] < 2000

country
China        False
France       False
Germany      False
India        False
Italy        False
Japan        False
Korea        False
Singapore     True
Taiwan        True
UK           False
Name: gdp, dtype: bool

この条件を変数に割り当てる。

In [31]:
cond = (df.loc[:,'gdp'] < 2000)

* `cond`を`.loc[,]`の引数とすることにより，`True`の行だけを抽出できる。
* **行**を抽出しようとしているので`,`の左側に書く。

In [32]:
df.loc[cond,:]

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Singapore,477,176.0,135.0,6,Asia
Taiwan,1100,607.0,,24,Asia


#### 例２：`continent`が`Asia`の行を抽出

In [33]:
cond = ( df.loc[:,'continent']=='Asia' )
df.loc[cond,:]

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
China,20118,7796.0,9137.0,1434,Asia
India,9142,5936.0,2471.0,1366,Asia
Japan,5032,2675.0,1238.0,127,Asia
Korea,2157,942.0,705.0,51,Asia
Singapore,477,176.0,135.0,6,Asia
Taiwan,1100,607.0,,24,Asia


### 複数条件の場合

#### 例３

以下の条件の**両方**が満たされる場合：

* `gdp`が`3000`以上
* `poop`が`1000`以下

In [34]:
cond1 = (df.loc[:,'gdp'] >= 3000)
cond2 = (df.loc[:,'pop'] <= 1000)

２つの条件が同時に満たされる条件を作成する。

In [35]:
cond = (cond1 & cond2)

`cond`を引数に使い行を抽出する。

In [36]:
df.loc[cond, :]

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Germany,4274,2294.0,971.0,84,Europe
Japan,5032,2675.0,1238.0,127,Asia


#### 例４

以下の条件の**どちらか**が満たされる場合：
* `gdp`は`3000`以上
* `pop`は`50`以下

In [37]:
cond1 = (df.loc[:,'gdp'] <= 3_000)
cond2 = (df.loc[:,'pop'] <= 50)
cond = (cond1 | cond2)

df.loc[cond, :]

Unnamed: 0_level_0,gdp,con,inv,pop,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
France,2950,1598.0,806.0,67,Europe
Italy,2463,1423.0,614.0,61,Europe
Korea,2157,942.0,705.0,51,Asia
Singapore,477,176.0,135.0,6,Asia
Taiwan,1100,607.0,,24,Asia
UK,2994,,,68,Europe


## 列の追加

> 新たな列を「抽出」するコードを`=`の左辺に、右辺には新たな列の内容を書く。


例として、１人当たりGDPの計算を計算し，それを変数`gdp_pc`に割り当てる。

In [14]:
gdp_pc = df['gdp'] / df['pop']

df['gdp_pc'] = gdp_pc
df.head()

Unnamed: 0_level_0,gdp,con,inv,pop,continent,gdp_pc
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
China,20118,7796.0,9137.0,1434,Asia,14.029289
France,2950,1598.0,806.0,67,Europe,44.029851
Germany,4274,2294.0,971.0,84,Europe,50.880952
India,9142,5936.0,2471.0,1366,Asia,6.692533
Italy,2463,1423.0,614.0,61,Europe,40.377049


## 欠損値の扱い

欠損値は次のように呼ばれる。
* `NaN`（Not a Number）
* `na`または`NA`（「エヌエイ」、not applicable/available）
* `null`（「ナル」と読み「空」という意味）

### 欠損値がある全ての行を削除する。

In [39]:
df.dropna()

Unnamed: 0_level_0,gdp,con,inv,pop,continent,gdp_pc
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
China,20118,7796.0,9137.0,1434,Asia,14.029289
France,2950,1598.0,806.0,67,Europe,44.029851
Germany,4274,2294.0,971.0,84,Europe,50.880952
India,9142,5936.0,2471.0,1366,Asia,6.692533
Italy,2463,1423.0,614.0,61,Europe,40.377049
Japan,5032,2675.0,1238.0,127,Asia,39.622047
Korea,2157,942.0,705.0,51,Asia,42.294118
Singapore,477,176.0,135.0,6,Asia,79.5


`df`自体を変更するには、削除後の`df`を`df`自体に再割り当てする。
```
df = df.dropna()
```

### ある列で`NaN`がある行のみを削除（＊＊）

引数`subset`を使う。

In [40]:
df.dropna(subset=['inv'])

Unnamed: 0_level_0,gdp,con,inv,pop,continent,gdp_pc
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
China,20118,7796.0,9137.0,1434,Asia,14.029289
France,2950,1598.0,806.0,67,Europe,44.029851
Germany,4274,2294.0,971.0,84,Europe,50.880952
India,9142,5936.0,2471.0,1366,Asia,6.692533
Italy,2463,1423.0,614.0,61,Europe,40.377049
Japan,5032,2675.0,1238.0,127,Asia,39.622047
Korea,2157,942.0,705.0,51,Asia,42.294118
Singapore,477,176.0,135.0,6,Asia,79.5


（注意）引数`subset=`には削除する列が１つであってもリスト`[]`で指定する。

## よく使うメソッド

`DataFrame`には様々なメソッドが用意されており，ここでは頻繁に用いるメソッド幾つか紹介しよう。

### `.reset_index()`

行ラベルを設定した後に，行インデックスに戻したい場合もあるだろう。
その場合には，メソッド`.reset_index()`を使うと，行のインデックスを0,1,2,..と振り直すことができる。

In [44]:
df.reset_index()

Unnamed: 0,country,gdp,con,inv,pop,continent,gdppc
0,China,20118,7796.0,9137.0,1434,Asia,14.029289
1,France,2950,1598.0,806.0,67,Europe,44.029851
2,Germany,4274,2294.0,971.0,84,Europe,50.880952
3,India,9142,5936.0,2471.0,1366,Asia,6.692533
4,Italy,2463,1423.0,614.0,61,Europe,40.377049
5,Japan,5032,2675.0,1238.0,127,Asia,39.622047
6,Korea,2157,942.0,705.0,51,Asia,42.294118
7,Singapore,477,176.0,135.0,6,Asia,79.5
8,Taiwan,1100,607.0,,24,Asia,45.833333
9,UK,2994,,,68,Europe,44.029412


ここでは行のインデックスが`country`として新たな列として追加されているが、`reset_index()`に引数`drop=True`を加えると，列`country`が自動的に削除されることになる。

最初に説明したが、次のコードで`country`を行ラベルに設定することができる。
```
df.set_index("country")
```

### `.sort_values()`

`gdp`の昇順に並び替える。

In [45]:
df.sort_values('gdp').head()

Unnamed: 0_level_0,gdp,con,inv,pop,continent,gdppc
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Singapore,477,176.0,135.0,6,Asia,79.5
Taiwan,1100,607.0,,24,Asia,45.833333
Korea,2157,942.0,705.0,51,Asia,42.294118
Italy,2463,1423.0,614.0,61,Europe,40.377049
France,2950,1598.0,806.0,67,Europe,44.029851


降順の場合

In [46]:
df.sort_values('gdp', ascending=False).head()

Unnamed: 0_level_0,gdp,con,inv,pop,continent,gdppc
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
China,20118,7796.0,9137.0,1434,Asia,14.029289
India,9142,5936.0,2471.0,1366,Asia,6.692533
Japan,5032,2675.0,1238.0,127,Asia,39.622047
Germany,4274,2294.0,971.0,84,Europe,50.880952
UK,2994,,,68,Europe,44.029412


### `.unique()`と`nunique()`

メソッド`.unique()`を使うと，選択した列に重複したデータがある場合，ユニークなものだけを抽出できる。

In [47]:
df['continent'].unique()

array(['Asia', 'Europe'], dtype=object)

まな類似するメソッドに`.nunique()`があり，カテゴリー数を返す。

In [48]:
df['continent'].nunique()

2

### `.value_counts()`

関連するメソッドに`.value_counts()`がある。これを使うとカテゴリーの内訳を確認するすることができる。カテゴリーの行数を表示するには

In [49]:
df.loc[:,'continent'].value_counts()

continent
Asia      6
Europe    4
Name: count, dtype: int64

とする。引数`normalize=True`を追加すると，頻度（パーセント）として表示できる。

In [50]:
df.loc[:,'continent'].value_counts(normalize=True)

continent
Asia      0.6
Europe    0.4
Name: proportion, dtype: float64

### 列ラベルの変更（メソッドではない）

`df`の列ラベルに新たなラベルのリストを割り当てることにより、列ラベルを変更できる。

In [17]:
df.columns = ['gdp','con','inv','pop','continent', 'gdpPC']

In [18]:
df.head(2)

Unnamed: 0_level_0,gdp,con,inv,pop,continent,gdpPC
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
China,20118,7796.0,9137.0,1434,Asia,14.029289
France,2950,1598.0,806.0,67,Europe,44.029851


## 統計関連のメソッド

時系列のデータを`ts`（time series）として読み込むことにする。

In [51]:
ts = pd.read_csv("./data/data2.csv")
ts

Unnamed: 0,year,gdp,con,inv,gov,net_ex
0,2012,517928.4,295751.75,98682.2,127135.975,-3941.775
1,2013,528522.025,303606.6,100590.05,129984.1,-6006.85
2,2014,529656.425,300593.375,103200.725,131434.275,-5477.075
3,2015,538098.75,300107.925,108697.0,132249.45,-2955.575
4,2016,541964.6,298675.925,109195.975,134433.625,-340.55
5,2017,551205.775,301894.65,111970.275,134762.325,2800.425
6,2018,554349.275,302496.325,113151.35,136011.05,2901.725
7,2019,553019.775,300927.225,113488.75,138450.375,281.825
8,2020,527946.3,285155.35,104932.325,142151.4,-4601.625
9,2021,536811.775,288895.2,103434.9,143454.975,1222.325


`year`を行ラベルに設定しよう。

In [52]:
ts = ts.set_index("year")

* `.sum()`は各列の合計を返す（`axis='rows'`がデフォルト）。欠損値は無視される。

＜注意＞ 合計を計算して意味のある列のみを選択すること。

In [53]:
ts.sum()

gdp       5379503.100
con       2978104.325
inv       1067343.550
gov       1350067.550
net_ex     -16117.150
dtype: float64

同じ使い方で次のメソッドが利用できる（`Series`と`DataFrame`共通）。
* `.sum(axis='columns')`もしくは`.sum(axis=1)`：各行の合計
* `.max()`：最大値
* `.min()`：最小値
* `.mean()`：（算術）平均
* `.var()`：不偏分散（`ddof=1`がデフォルト）
* `.std()`：標準偏差（不偏分散の平方根）


次の２つも便利である。計算する際，欠損値は無視され，結果は`DataFrame`として返される。
* `.cov()`：分散共分散行列
* `.corr()`：相関係数

`Series`のメソッド
* `.autocorr()`：自己相関係数

＜注意＞ 計算して意味がある列だけを使うように！

例えば，`.cov()`を計算してみよう。

In [54]:
ts.cov()

Unnamed: 0,gdp,con,inv,gov,net_ex
gdp,149754800.0,31334120.0,61870680.0,23988000.0,34752530.0
con,31334120.0,37732370.0,11388390.0,-20108310.0,2691150.0
inv,61870680.0,11388390.0,28148450.0,9745975.0,13423180.0
gov,23988000.0,-20108310.0,9745975.0,27023920.0,7750688.0
net_ex,34752530.0,2691150.0,13423180.0,7750688.0,11500460.0


対角成分は分散であり，その他は行と列のラベルに対応する共分散となる。`.corr()`も同じ位置関係となる。

また変数の変化率（成長率）を計算するには`.pct_change()`が便利である（percent changeの略）。

In [55]:
ts.pct_change()

Unnamed: 0_level_0,gdp,con,inv,gov,net_ex
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2012,,,,,
2013,0.020454,0.026559,0.019333,0.022402,0.523895
2014,0.002146,-0.009925,0.025954,0.011157,-0.088195
2015,0.015939,-0.001615,0.053258,0.006202,-0.460373
2016,0.007184,-0.004772,0.004591,0.016516,-0.884777
2017,0.017051,0.010777,0.025407,0.002445,-9.223242
2018,0.005703,0.001993,0.010548,0.009266,0.036173
2019,-0.002398,-0.005187,0.002982,0.017935,-0.902877
2020,-0.045339,-0.052411,-0.075394,0.026732,-17.327952
2021,0.016792,0.013115,-0.01427,0.00917,-1.265629


`2011`年が無いため，`2012`年の成長率は欠損値となっている。`.pct_change()`と`.mean()`を続けて書くと簡単に成長率の**算術平均**を計算することができる。

＜注意＞ **幾何平均**とは異なる。

In [56]:
ts.pct_change().mean()

gdp       0.004170
con      -0.002385
inv       0.005823
gov       0.013536
net_ex   -3.288109
dtype: float64

## `Series`について

`df`から`gdp`を`Series`として抽出し、変数`s`に割り当てる。

In [19]:
s = df['gdp']
s

country
China        20118
France        2950
Germany       4274
India         9142
Italy         2463
Japan         5032
Korea         2157
Singapore      477
Taiwan        1100
UK            2994
Name: gdp, dtype: int64

### 要素の抽出

ラベルを使う要素のアクセス方法を考える。この場合は辞書と同じ形になる。（`.loc[]`を使っても良い）

In [20]:
s["Japan"]

5032

In [21]:
s[["Japan", "UK"]]

country
Japan    5032
UK       2994
Name: gdp, dtype: int64

In [22]:
s["Japan":]

country
Japan        5032
Korea        2157
Singapore     477
Taiwan       1100
UK           2994
Name: gdp, dtype: int64

インデックスを使い要素を抽出する場合は、必ず`.iloc[]`を使う。

In [23]:
s.iloc[5]

5032

複数のインデックスを使うことも可能である。

In [24]:
s.iloc[[1,3,5]]

country
France    2950
India     9142
Japan     5032
Name: gdp, dtype: int64

またスライシングも同様にできる。

In [25]:
s.iloc[5:-2]

country
Japan        5032
Korea        2157
Singapore     477
Name: gdp, dtype: int64

### 統計学関連メソッド

`DataFrame`の説明を参照