# Pandas

`Pandas`は`NumPy`の`array`のようにデータを扱うパッケージだが，Pandas特有のデータ構造を提供し複雑なデータを扱いやすくしている。例えば，行列にはラベルを使うことにより，インデックス番号だけではなくラベル名（例えば，GDP）を使って操作することが可能となる。Pandasには`DataFrame`（データフレーム）と`Series`（シリーズ）と呼ばれるオブジェクトがある。前者はエクセルのスプレッド・シートをイメージすれば良いだろう。後者は，スプレッド・シートから１つの行または列を取り出したようなデータと思えば良い。また，`Pandas`は`NumPy`に基づいているため，ベクトル演算（ブロードキャスティング）の機能が使える。

ここで説明できない他の使い方については[このサイト](https://github.com/ysdyt/pandas_tutorial)と[このサイト](https://note.nkmk.me/python-pandas-post-summary/)が参考になる。

通常`pd`という名前で読み込む。

In [1]:
import pandas as pd

## データの読み込みとデータのチェック

様々なデータを読み込むことが可能だが，ここでは`read_csv()`関数を使ってインターネット上の`.csv`ファイルを読み込む。

In [2]:
# url の設定
url = 'https://raw.githubusercontent.com/Haruyama-KobeU/Haruyama-KobeU.github.io/master/data/data1.csv'

# 読み込み
df = pd.read_csv(url)

`df`全体を表示させる。

In [3]:
df

Unnamed: 0,year,gdp,inv,con,pop,id
0,2000,100,20.0,80.0,8,a
1,2001,95,25.0,70.0,9,b
2,2002,93,21.0,72.0,10,a
3,2003,100,30.0,70.0,11,b
4,2004,110,39.0,71.0,12,a
5,2005,115,55.0,60.0,14,b
6,2006,113,50.0,63.0,15,a
7,2007,118,53.0,65.0,17,b
8,2008,119,60.0,59.0,18,a
9,2009,200,62.0,,20,b


行ラベルがインデックス（番号）のままなので，列`year`を行ラベルに設定する。

* `set_index()`：選択された列を行ラベルにするメソッド

In [4]:
df = df.set_index('year')
df

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000,100,20.0,80.0,8,a
2001,95,25.0,70.0,9,b
2002,93,21.0,72.0,10,a
2003,100,30.0,70.0,11,b
2004,110,39.0,71.0,12,a
2005,115,55.0,60.0,14,b
2006,113,50.0,63.0,15,a
2007,118,53.0,65.0,17,b
2008,119,60.0,59.0,18,a
2009,200,62.0,,20,b


```{tip}
* `df.set_index('year')`は直接`df`に影響を与えない。単に，書き換えるとどうなるかを表示している。ここでは`df`に再度割り当てることにより`df`自体を上書きしている。
* 出力にある`NaN`（Not a Number）は欠損値を示す。
* 行ラベルに`year`という列名が残るが，それを消すにはメソッド`.rename_axis('')`を使う。ここで`''`は空の文字列である。
```

行数が大きい場合（例えば，10000），全てを表示してもあまり意味がない。そこでよく使うメソッドに最初や最後の数行だけを表示すものがある。

`df`の最初の５行を表示させる。

In [5]:
df.head()

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000,100,20.0,80.0,8,a
2001,95,25.0,70.0,9,b
2002,93,21.0,72.0,10,a
2003,100,30.0,70.0,11,b
2004,110,39.0,71.0,12,a


引数に3を指定すると最初の3行のみ表示される。

In [6]:
df.head(2)

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000,100,20.0,80.0,8,a
2001,95,25.0,70.0,9,b


最後の5行を表示させる。引数に整数を入れて表示行数を指定することも可能。

In [7]:
df.tail()

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2006,113,50.0,63.0,15,a
2007,118,53.0,65.0,17,b
2008,119,60.0,59.0,18,a
2009,200,62.0,,20,b
2010,210,,,21,a


`df`の情報を確認する。

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 11 entries, 2000 to 2010
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   gdp     11 non-null     int64  
 1   inv     10 non-null     float64
 2   con     9 non-null      float64
 3   pop     11 non-null     int64  
 4   id      11 non-null     object 
dtypes: float64(2), int64(2), object(1)
memory usage: 528.0+ bytes


**説明**：
* `<class 'pandas.core.frame.DataFrame'>`
    * クラス名
    * `type(1)`とすると`int`というデータ型が表示するが，これはクラス名でもある。`print(type(1))`とすると`<class 'int'>`と表示される。
* `Int64Index: 11 entries, 2000 to 2010`
    * 行のインデックスの情報
    * データ型は`Int64`(整数）（データ型には`64`や`32`という数字がついている場合がある。それらは数字をコンピュータのメモリに記憶させる際，何ビット必要かを示している。より重要なのは`Int`（整数）の部分である。）
    * 11個のデータで2000から2010
* `Data columns (total 5 columns):`
    * データ列の数（5つ）
* `gdp  11 non-null int64`
    * データ型は`int64`
    * 11のデータがあり，欠損値なし（`non-null`とは欠損値ではないデータ）
* `inv  10 non-null float64`
    * データ型は`float64`
    * 10のデータがあり，欠損値数は1（＝11-10）
* `con  9 non-null float64`
    * データ型は`float64`
    * 9のデータがあり，欠損値数は2（＝11-9）
* `pop  11 non-null int64`
    * データ型は`int64`
    * 11のデータがあり，欠損値数なし
* `id   11 non-null object`
    * データ型は`object`（文字列などの場合）
    * 11のデータがあり，欠損値数なし
* `dtypes: float64(2), int64(2), object(1)`
    * `df`の列にどのようなのデータ型かを示す
    * `float64`と`int64`が2列つずつ，文字列は１列
* `memory usage: 528.0+ bytes`
    * メモリー使用量は約528.0バイト

データを読み込んだら必ず`info()`を使って欠損値の数や列のデータ型を確認すること。

また，データの統計的な特徴は次のメソッドでチェックできる。

In [9]:
df.describe()

Unnamed: 0,gdp,inv,con,pop
count,11.0,10.0,9.0,11.0
mean,124.818182,41.5,67.777778,14.090909
std,40.715644,16.473885,6.666667,4.482288
min,93.0,20.0,59.0,8.0
25%,100.0,26.25,63.0,10.5
50%,113.0,44.5,70.0,14.0
75%,118.5,54.5,71.0,17.5
max,210.0,62.0,80.0,21.0


* `count`：観測値の数
* `mean`：平均
* `std`：標準偏差
* `min`：最小値
* `max`：最大値
* `25%`：第１四分位数
* `50%`：第２四分位数（中央値）
* `75%`：第３四分位数
* `max`：最大値


次のデータ属性を使って`df`の行と列の長さを確認することができる。返値はタプルで，`(行の数，列の数)`と解釈する。

In [10]:
df.shape

(11, 5)

返値はタプルなので，行数は以下で取得できる。

In [11]:
df.shape[0]

11

以下でも行数を示すことができる。

In [12]:
len(df)

11

## DataFrameの構成要素

`DataFrame`には様々な属性があるが，ここでは以下の３点について説明する。

* データ（`df.values`）
* 列ラベル（`df.columns`）
* 行ラベル（`df.index`）

まずデータ自体を抽出する。

In [13]:
df.values

array([[100, 20.0, 80.0, 8, 'a'],
       [95, 25.0, 70.0, 9, 'b'],
       [93, 21.0, 72.0, 10, 'a'],
       [100, 30.0, 70.0, 11, 'b'],
       [110, 39.0, 71.0, 12, 'a'],
       [115, 55.0, 60.0, 14, 'b'],
       [113, 50.0, 63.0, 15, 'a'],
       [118, 53.0, 65.0, 17, 'b'],
       [119, 60.0, 59.0, 18, 'a'],
       [200, 62.0, nan, 20, 'b'],
       [210, nan, nan, 21, 'a']], dtype=object)

In [14]:
type(df.values)

numpy.ndarray

これで分かることは，メインのデータの部分は`NumPy`の`ndarray`（`n`次元`array`）であることが分かる。即ち，`Pandas`は`NumPy`に基づいて構築されており，データ値の計算などは`array`が裏で動いているということである。また行と列のラベルを追加し，より直感的に使えるように拡張しているのである。

次に列ラベルを取り出してみる。

In [15]:
df.columns

Index(['gdp', 'inv', 'con', 'pop', 'id'], dtype='object')

`dtype='object'`から列ラベルに使われているデータ型（`dtype`）はオブジェクト型（`object`）だとわかる。

* オブジェクト型とは文字型を含む「その他」のデータ型と理解すれば良いだろう。
* `dtype='object'`と`dtype=object`は同じ意味。

列ラベル自体のクラスは次のコードで調べることができる。

In [16]:
type(df.columns)

pandas.core.indexes.base.Index

`dir()`もしくは`see()`で調べると多くのメソッドや属性が確認できるが，その中に`.tolist()`が含まれており，これを使うことにより列ラベルをリストに変換することができる。

In [17]:
df_columns = df.columns.tolist()
df_columns

['gdp', 'inv', 'con', 'pop', 'id']

行ラベルについても同じことができる。

In [18]:
df.index

Int64Index([2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010], dtype='int64', name='year')

行ラベルのデータ型`dtype`は整数である`int64`。列`year`を行ラベルに指定したため，`name='year'`はその列ラベルを表示している。行ラベルのデータ型（クラス）は

In [19]:
type(df.index)

pandas.core.indexes.numeric.Int64Index

であり，ラベルをリストとして抽出することもできる。

In [20]:
df_index = df.index.tolist()
df_index

[2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010]

## 要素の抽出

`NumPy`の`array`の場合，`[,]`を使い要素を抽出した。`Pandas`の場合，様々な抽出方法があるが，覚えやすく少しでも間違いの可能性を減らすために，そして可読性向上のために`array`に対応する以下の２つの方法を使うことにする。

* ラベルを使う方法：`.loc[,]`
* インデックスを使う方法：`.iloc[,]`（これは`array`の`[ ]`と同じと考えて良い）

１つ目の`loc`はラベルのlocationと覚えよう。２つ目はの`iloc`の`i`はインデックス（index）の`i`であり，index locationという意味である。使い方は`array`の場合と基本的に同じである。

* `,`の左は行，右は列を表す。
* 行または列を連続して選択する（slicing）場合は`:`を使う。（`start:end`）
    * `:`の左右を省略する場合は，「全て」という意味になる。
    * `:`の左を省略すると「最初から」という意味になる。
    * `:`の右を省略すると「最後まで」という意味になる。
    * `.loc[,]`の場合，`end`を含む。（要注意！）
    * `.iloc[,]`の場合，`end`は含まず，その１つ前のインデックスまでが含まれる。
* `,`の右に書く`:`は省略可能であるが省略しないことを推奨する。

「特例」として`.loc[,]`と`.iloc[,]`以外に
* ラベルと`[]`だけを使い列を選択する方法

も説明する。

```{warning}
* `.loc[,]`の場合，`end`を含む。（要注意！）
* `.iloc[,]`の場合，`end`は含まず，その１つ前のインデックスまでが含まれる。
```

### `.loc[,]`（ラベル使用）

**１つの行を`Series`として抽出**

In [21]:
df.loc[2005,:]

gdp    115
inv     55
con     60
pop     14
id       b
Name: 2005, dtype: object

**１つの行を`DataFrame`として抽出**

In [22]:
df.loc[[2005],:]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2005,115,55.0,60.0,14,b


**複数行を抽出**

In [23]:
df.loc[[2005, 2010],:]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2005,115,55.0,60.0,14,b
2010,210,,,21,a


**複数行を連続抽出（slicing）**

In [24]:
df.loc[2005:2008,:]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2005,115,55.0,60.0,14,b
2006,113,50.0,63.0,15,a
2007,118,53.0,65.0,17,b
2008,119,60.0,59.0,18,a


**１つの列を`Series`として抽出**

In [25]:
df.loc[:,'gdp']

year
2000    100
2001     95
2002     93
2003    100
2004    110
2005    115
2006    113
2007    118
2008    119
2009    200
2010    210
Name: gdp, dtype: int64

**複数列を抽出**

In [26]:
df.loc[:,['gdp','pop']]

Unnamed: 0_level_0,gdp,pop
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,100,8
2001,95,9
2002,93,10
2003,100,11
2004,110,12
2005,115,14
2006,113,15
2007,118,17
2008,119,18
2009,200,20


**複数列を連続抽出（slicing）**

In [27]:
df.loc[:,'inv':'pop']

Unnamed: 0_level_0,inv,con,pop
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,20.0,80.0,8
2001,25.0,70.0,9
2002,21.0,72.0,10
2003,30.0,70.0,11
2004,39.0,71.0,12
2005,55.0,60.0,14
2006,50.0,63.0,15
2007,53.0,65.0,17
2008,60.0,59.0,18
2009,62.0,,20


### `.iloc[]`（インデックス使用）

**１つの行を`Series`として抽出**

In [28]:
df.iloc[1,:]

gdp    95
inv    25
con    70
pop     9
id      b
Name: 2001, dtype: object

**複数行を抽出**

In [29]:
df.iloc[[1,4],:]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2001,95,25.0,70.0,9,b
2004,110,39.0,71.0,12,a


**複数行を連続抽出（slicing）**

In [30]:
df.iloc[1:4,:]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2001,95,25.0,70.0,9,b
2002,93,21.0,72.0,10,a
2003,100,30.0,70.0,11,b


**１つの列を`Series`として抽出**

In [31]:
df.iloc[:,1]

year
2000    20.0
2001    25.0
2002    21.0
2003    30.0
2004    39.0
2005    55.0
2006    50.0
2007    53.0
2008    60.0
2009    62.0
2010     NaN
Name: inv, dtype: float64

**１つの列を`DataFrame`として抽出**

In [32]:
df.iloc[:,[1]]

Unnamed: 0_level_0,inv
year,Unnamed: 1_level_1
2000,20.0
2001,25.0
2002,21.0
2003,30.0
2004,39.0
2005,55.0
2006,50.0
2007,53.0
2008,60.0
2009,62.0


**複数列を選択**

In [33]:
df.iloc[:,[1,3]]

Unnamed: 0_level_0,inv,pop
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,20.0,8
2001,25.0,9
2002,21.0,10
2003,30.0,11
2004,39.0,12
2005,55.0,14
2006,50.0,15
2007,53.0,17
2008,60.0,18
2009,62.0,20


**複数列を連続抽出（slicing）**

In [34]:
df.iloc[:,1:3]

Unnamed: 0_level_0,inv,con
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,20.0,80.0
2001,25.0,70.0
2002,21.0,72.0
2003,30.0,70.0
2004,39.0,71.0
2005,55.0,60.0
2006,50.0,63.0
2007,53.0,65.0
2008,60.0,59.0
2009,62.0,


### `[]`で列の選択（ラベル使用）

**１つの列を`Series`として抽出**

In [35]:
df['gdp']

year
2000    100
2001     95
2002     93
2003    100
2004    110
2005    115
2006    113
2007    118
2008    119
2009    200
2010    210
Name: gdp, dtype: int64

**１つの列を`DataFrame`として抽出**

In [36]:
df[['gdp']]

Unnamed: 0_level_0,gdp
year,Unnamed: 1_level_1
2000,100
2001,95
2002,93
2003,100
2004,110
2005,115
2006,113
2007,118
2008,119
2009,200


**複数列を選択**

In [37]:
df[['gdp','pop']]

Unnamed: 0_level_0,gdp,pop
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,100,8
2001,95,9
2002,93,10
2003,100,11
2004,110,12
2005,115,14
2006,113,15
2007,118,17
2008,119,18
2009,200,20


## ある条件の下で行の抽出

### １つの条件の場合

#### 例１：GDPが100未満の行の抽出

まず条件を作る。

In [38]:
df['gdp'] < 100

year
2000    False
2001     True
2002     True
2003    False
2004    False
2005    False
2006    False
2007    False
2008    False
2009    False
2010    False
Name: gdp, dtype: bool

この条件では，GDPが100未満の行は`True`，以上の行は`False`となる。この条件を`cond`というの変数に割り当てる。`()`を省いても良いが，ある方が分かりやすいだろう。

In [39]:
cond = (df['gdp'] < 100)

`cond`を`.loc[,]`の引数とすることにより，`True`の行だけを抽出できる。（注意：`cond`を使って**行**を抽出しようとしているので`,`の左側に書く。）

In [40]:
df.loc[cond,:]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2001,95,25.0,70.0,9,b
2002,93,21.0,72.0,10,a


この条件の下で$inv$だけを抽出したい場合

* `df.loc[cond,'inv']`

とする。

```{warning}
以下のように抽出を連続ですることも可能だが，避けるように！
* `df.loc[cond,:]['inv']`
* `df.loc[cond,:].loc[:,'inv']`
```

#### 例２：`id`が`a`の行を抽出

In [41]:
cond = (df.loc[:,'id'] == 'a')
df.loc[cond,:]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000,100,20.0,80.0,8,a
2002,93,21.0,72.0,10,a
2004,110,39.0,71.0,12,a
2006,113,50.0,63.0,15,a
2008,119,60.0,59.0,18,a
2010,210,,,21,a


### 複数条件の場合

#### 例３

以下の条件の**両方**が満たされる場合：

* `gdp`が100以上
* `inv`が30以下

それぞれの条件を作成する。

In [42]:
cond1 = (df['gdp'] >= 100)
cond2 = (df['inv'] <= 30)

２つの条件が同時に満たされる条件を作成する。

In [43]:
cond = (cond1 & cond2)

`cond`を引数に使い行を抽出する。

In [44]:
df.loc[cond, :]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000,100,20.0,80.0,8,a
2003,100,30.0,70.0,11,b


#### 例４

以下の条件の**どちらか**が満たされる場合：
* `gdp`は200以上
* `con`は60以下

In [45]:
cond1 = (df['gdp'] >= 200)
cond2 = (df['con'] <= 60)
cond = (cond1 | cond2)

df.loc[cond, :]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2005,115,55.0,60.0,14,b
2008,119,60.0,59.0,18,a
2009,200,62.0,,20,b
2010,210,,,21,a


#### 例５

以下の条件の**どちらか**が満たされ
* `gdp`は200以上
* `con`は60以下

かつ以下の条件も**同時に**満たされる場合：
* `id`が`a`と等しい

In [46]:
cond1 = (df['gdp'] >= 200)
cond2 = (df['con'] <= 60)
cond3 = (df['id'] == 'a')
cond = ((cond1 | cond2) & cond3)

df.loc[cond, :]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2008,119,60.0,59.0,18,a
2010,210,,,21,a


### `query()`

`query()`というメソッドでは文字列を使い行の抽出コードを書くことができる。これにより直感的なコード書くことが可能である。

#### 例１の場合：

In [47]:
df.query('gdp < 100')

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2001,95,25.0,70.0,9,b
2002,93,21.0,72.0,10,a


#### 例２の場合

In [48]:
df.query('id == "a"')

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000,100,20.0,80.0,8,a
2002,93,21.0,72.0,10,a
2004,110,39.0,71.0,12,a
2006,113,50.0,63.0,15,a
2008,119,60.0,59.0,18,a
2010,210,,,21,a


#### 例３の場合

In [49]:
df.query('(gdp >= 100) & (inv <= 30)')

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000,100,20.0,80.0,8,a
2003,100,30.0,70.0,11,b


#### 例４の場合

In [50]:
df.query('(gdp >= 200) | (con <= 60)')

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2005,115,55.0,60.0,14,b
2008,119,60.0,59.0,18,a
2009,200,62.0,,20,b
2010,210,,,21,a


#### 例５の場合

In [51]:
df.query('(gdp >= 200 | con <= 60) & (id == "a")')

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2008,119,60.0,59.0,18,a
2010,210,,,21,a


````{tip}
`df`にない変数で条件を設定する場合`@`が必要になる。例えば，変数`z`という変数があるとしよう。

```python
z = 100
```

変数`z`の値に基づいて行の抽出をする場合は次のようにする。

```python
df.query('gdp < @z')
```

{glue:}`glue0_txt`
````

In [88]:
from myst_nb import glue
z = 100
glue0 = df.query('gdp < @z')
glue("glue0_txt", glue0)

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2001,95.0,25.0,70.0,9.0,b
2002,93.0,21.0,72.0,10.0,a


## 列と行の追加と削除

### 列の追加 `[ ]`

`[]`は列の抽出に使うことができるが，追加にも使える。定数を設定すると自動的に行数分作成することができる。

In [53]:
df['Intercept'] = 1

In [54]:
df.head(2)

Unnamed: 0_level_0,gdp,inv,con,pop,id,Intercept
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2000,100,20.0,80.0,8,a,1
2001,95,25.0,70.0,9,b,1


既存の列から新たな列を作成する。

In [55]:
# １人当たりGDPの計算
gdp_pc = df['gdp']/df['pop']

# GDPpc を追加
df['gdp_pc'] = gdp_pc

In [56]:
df.head(2)

Unnamed: 0_level_0,gdp,inv,con,pop,id,Intercept,gdp_pc
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2000,100,20.0,80.0,8,a,1,12.5
2001,95,25.0,70.0,9,b,1,10.555556


### 列の追加 `.loc[,]`

行と列の抽出に使ったが，追加にも使える。定数を設定すると自動的に行数分作成することができる。

In [57]:
df.loc[:,'2pop'] = 2*df['pop']

### 列の削除 `[ ]`

In [58]:
del df['2pop']

### 列の削除 `drop()`

* オプション`axis=`の値を`columns`の代わりに`１`でも可
* コピーを作るだけなので，元のdfを書き換えたい場合は以下のどちらかが必要
    * `df`に代入する
    * オプション`inplace=True`（デフォルトは`False`）を追加する。

In [59]:
df = df.drop(['Intercept','gdp_pc'], axis='columns')

# df.drop('Intercept', axis='columns', inplace=True)

### 行の追加 `.loc[,]`

行と列の抽出に使ったが，行の追加にも使える。

In [60]:
df.loc[2011,:] = [215, 100, 115, 22, 'b']

In [61]:
df.tail(3)

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2009,200.0,62.0,,20.0,b
2010,210.0,,,21.0,a
2011,215.0,100.0,115.0,22.0,b


### 行の削除 `drop()`

* オプション`axis=`の値を`rows`の代わりに`0`でも可
* コピーを作るだけなので，元のdfを書き換えたい場合は以下のどちらかが必要
    * `df`に代入する
    * オプション`inplace=True`（デフォルトは`False`）を追加する。

In [62]:
df = df.drop(2011, axis='rows')

# df.drop(2011, axis=0, inplace=True)

## 欠損値の扱い

`Pandas`では欠損値は`NaN`と表示されるが，`na`もしくは`null`と呼んだりもする。

### 欠損値の確認

欠損値があるかどうかの確認は，`df.info()`でもできるが，以下のメソッドを組み合わせることでも可能である。

* `isna()`：それぞれの要素について`NaN`の場合`True`を，そうでない場合は`False`を返す。（`DataFrame`の全ての要素が`True/False`となる。）
* `sum(axis='rows')`：`df`の上から下に**行**（rows）を縦断して，それぞれの列の中にある`True`数える。
    * `rows`は複数！（`0`でも可）
* `sum(axis='columns')`：`df`の左から右に**列**（columns）を横断して，それぞれの行の中にある`True`を数える。
    * `columns`は複数！（`1`でも可）
    
（注意）`sum()`の`axis`は「行を縦断」か「列を横断」かを指定する。

In [63]:
df.isna().sum(axis='rows')

gdp    0
inv    1
con    2
pop    0
id     0
dtype: int64

`inv`と`con`に`NaN`があることがわかる。

---
`NaN`がある行を抽出する場合はメソッド`any()`が役に立つ。

* `any(axis='rows')`：`df`の上から下に行（`rows`）を縦断して，それぞれの列の中で一つ以上`True`がある場合には`True`を，一つもない場合は`False`を返す。
    * `rows`は複数！（0でも可）
* `any(axis='columns')`：dfの左から右に列（`columns`）を横断して，それぞれの行の中で一つ以上`True`がある場合には`True`を，一つもない場合は`False`を返す。
    * `columns`は複数！（1でも可）

（注意）`any()`の`axis`は「行を縦断」か「列を横断」かを指定する。

In [64]:
filter = df.isna().any(axis='columns')
df.loc[filter,:]

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2009,200.0,62.0,,20.0,b
2010,210.0,,,21.0,a


これで`NaN`がある行を抽出することができる。

### 欠損値がある行の削除

欠損値がある全ての行を削除する。

In [65]:
df.dropna()

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000,100.0,20.0,80.0,8.0,a
2001,95.0,25.0,70.0,9.0,b
2002,93.0,21.0,72.0,10.0,a
2003,100.0,30.0,70.0,11.0,b
2004,110.0,39.0,71.0,12.0,a
2005,115.0,55.0,60.0,14.0,b
2006,113.0,50.0,63.0,15.0,a
2007,118.0,53.0,65.0,17.0,b
2008,119.0,60.0,59.0,18.0,a


このメソッドは，欠損値を削除するとどうなるかを示すだけであり`df`自体は影響は受けない。`df`自体から`NaN`がある行を削除する場合は`inplace=True`のオプション（デフォルトでは`False`になっている）を加えて
```
df.dropna(inplace=True)
```
とするか，削除後の`df`を`df`自体に代入する。
```
df = df.dropna()
```

ある列で`NaN`がある場合のみ行を削除する。

In [66]:
df.dropna(subset=['inv'])

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000,100.0,20.0,80.0,8.0,a
2001,95.0,25.0,70.0,9.0,b
2002,93.0,21.0,72.0,10.0,a
2003,100.0,30.0,70.0,11.0,b
2004,110.0,39.0,71.0,12.0,a
2005,115.0,55.0,60.0,14.0,b
2006,113.0,50.0,63.0,15.0,a
2007,118.0,53.0,65.0,17.0,b
2008,119.0,60.0,59.0,18.0,a
2009,200.0,62.0,,20.0,b


（注意）オプション`subset=`には削除する列が１つであってもリスト`[]`で指定する。

## 並び替え

`df`を`gdp`の昇順に並び替える。

In [67]:
df.sort_values('gdp').head()

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2002,93.0,21.0,72.0,10.0,a
2001,95.0,25.0,70.0,9.0,b
2000,100.0,20.0,80.0,8.0,a
2003,100.0,30.0,70.0,11.0,b
2004,110.0,39.0,71.0,12.0,a


降順の場合

In [68]:
df.sort_values('gdp', ascending=False).head()

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2010,210.0,,,21.0,a
2009,200.0,62.0,,20.0,b
2008,119.0,60.0,59.0,18.0,a
2007,118.0,53.0,65.0,17.0,b
2005,115.0,55.0,60.0,14.0,b


複数の列を指定する場合

In [69]:
df.sort_values(['id','gdp'], ascending=['True','False']).head()

Unnamed: 0_level_0,gdp,inv,con,pop,id
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2002,93.0,21.0,72.0,10.0,a
2000,100.0,20.0,80.0,8.0,a
2004,110.0,39.0,71.0,12.0,a
2006,113.0,50.0,63.0,15.0,a
2008,119.0,60.0,59.0,18.0,a


ここでは`id`に従って先に並び替えられ，その後に`gdp`に従って並び替えられている。`ascending`は昇順（`True`）か降順（`False`）かを指定する引数であり，`['id','gdp']`と`ascending=['True','False']`の順番が対応している。

## DataFrameの結合

In [70]:
url = 'https://raw.githubusercontent.com/Haruyama-KobeU/Haruyama-KobeU.github.io/master/data/'
df1 = pd.read_csv(url+'data1.csv')
df2 = pd.read_csv(url+'data2.csv')
df3 = pd.read_csv(url+'data3.csv')

In [71]:
df1

Unnamed: 0,year,gdp,inv,con,pop,id
0,2000,100,20.0,80.0,8,a
1,2001,95,25.0,70.0,9,b
2,2002,93,21.0,72.0,10,a
3,2003,100,30.0,70.0,11,b
4,2004,110,39.0,71.0,12,a
5,2005,115,55.0,60.0,14,b
6,2006,113,50.0,63.0,15,a
7,2007,118,53.0,65.0,17,b
8,2008,119,60.0,59.0,18,a
9,2009,200,62.0,,20,b


In [72]:
df2

Unnamed: 0,year,gnp,id2
0,1995,101,1
1,1996,97,1
2,1997,96,1
3,2000,103,1
4,2001,103,0
5,2002,102,0
6,2003,105,0
7,2004,110,0


In [73]:
df3

Unnamed: 0,year,gdp,inv,con,pop,id
0,2011,212,70,142,22,b
1,2012,215,72,143,23,a
2,2015,220,80,140,24,b


### 横結合：`merge()`

`merge()`以外にも結合に使える関数はあるが，ここでは`merge()`のみを考える。

`df1`を「左」，`df2`を「右」に横結合する。
```
pd.merge(df1, df2, on=None, how='inner')
```
* `on`はどの列を基準にして結合するかを指定（ここでは「基準列」呼ぼう）
    * 例えば，`df1`と`df2`の両方に`year`の列がある場合，`on='year'`とすると列`year`が基準列となる。
        * `df1`と`df2`の別々の列を指定する場合は`left_index=`と`right_index=`を使う。
    * 基準列に基づいて残す行を決める（`how`で説明する）
    * 基準列にある要素の順番が合ってなくても，自動でマッチさせる。
    * 複数指定も可
    * デフォルトは`None`
* `how`は`on`で指定した基準列に基づいてどのように結合するかを指定
    * `inner`：`df1`と`df2`の両方の基準列ある行だけを残す（デフォルト）。
    * `left`：`df1`の行は全て残し，`df2`にマッチする行がない場合は`NaN`を入れる。
    * `right`：`df2`の行は全て残し，`df1`にマッチする行がない場合は`NaN`を入れる。
    * `outer`：`df1`と`df2`の両方の行を残し，マッチする行がない場合は`NaN`を入れる。


（コメント）
この他に様々な引数があるので[このサイト](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)を参照。例えば，場合によっては次の引数を使う必要があるかも知れないので確認しよう。
* `left_index`と`right_index`
* `suffixes`

In [74]:
pd.merge(df1, df2, on='year', how='inner')

Unnamed: 0,year,gdp,inv,con,pop,id,gnp,id2
0,2000,100,20.0,80.0,8,a,103,1
1,2001,95,25.0,70.0,9,b,103,0
2,2002,93,21.0,72.0,10,a,102,0
3,2003,100,30.0,70.0,11,b,105,0
4,2004,110,39.0,71.0,12,a,110,0


In [75]:
pd.merge(df1, df2, on='year', how='left')

Unnamed: 0,year,gdp,inv,con,pop,id,gnp,id2
0,2000,100,20.0,80.0,8,a,103.0,1.0
1,2001,95,25.0,70.0,9,b,103.0,0.0
2,2002,93,21.0,72.0,10,a,102.0,0.0
3,2003,100,30.0,70.0,11,b,105.0,0.0
4,2004,110,39.0,71.0,12,a,110.0,0.0
5,2005,115,55.0,60.0,14,b,,
6,2006,113,50.0,63.0,15,a,,
7,2007,118,53.0,65.0,17,b,,
8,2008,119,60.0,59.0,18,a,,
9,2009,200,62.0,,20,b,,


In [76]:
pd.merge(df1, df2, on='year', how='right')

Unnamed: 0,year,gdp,inv,con,pop,id,gnp,id2
0,2000,100.0,20.0,80.0,8.0,a,103,1
1,2001,95.0,25.0,70.0,9.0,b,103,0
2,2002,93.0,21.0,72.0,10.0,a,102,0
3,2003,100.0,30.0,70.0,11.0,b,105,0
4,2004,110.0,39.0,71.0,12.0,a,110,0
5,1995,,,,,,101,1
6,1996,,,,,,97,1
7,1997,,,,,,96,1


In [77]:
pd.merge(df1, df2, on='year', how='outer')

Unnamed: 0,year,gdp,inv,con,pop,id,gnp,id2
0,2000,100.0,20.0,80.0,8.0,a,103.0,1.0
1,2001,95.0,25.0,70.0,9.0,b,103.0,0.0
2,2002,93.0,21.0,72.0,10.0,a,102.0,0.0
3,2003,100.0,30.0,70.0,11.0,b,105.0,0.0
4,2004,110.0,39.0,71.0,12.0,a,110.0,0.0
5,2005,115.0,55.0,60.0,14.0,b,,
6,2006,113.0,50.0,63.0,15.0,a,,
7,2007,118.0,53.0,65.0,17.0,b,,
8,2008,119.0,60.0,59.0,18.0,a,,
9,2009,200.0,62.0,,20.0,b,,


### 縦結合

`concat()`は横結合にも使えるが，縦結合のみ考える。

引数には複数の`DataFrame`をリストとして書く。

In [78]:
df13 = pd.concat([df1,df3])

In [79]:
df13.tail()

Unnamed: 0,year,gdp,inv,con,pop,id
9,2009,200,62.0,,20,b
10,2010,210,,,21,a
0,2011,212,70.0,142.0,22,b
1,2012,215,72.0,143.0,23,a
2,2015,220,80.0,140.0,24,b


## その他

### インデックスを振り直す

メソッド`.reset_index()`を使うと，行のインデックスを0,1,2,..と振り直すことができる。`df13`を使い説明する。

In [80]:
df13.reset_index()

Unnamed: 0,index,year,gdp,inv,con,pop,id
0,0,2000,100,20.0,80.0,8,a
1,1,2001,95,25.0,70.0,9,b
2,2,2002,93,21.0,72.0,10,a
3,3,2003,100,30.0,70.0,11,b
4,4,2004,110,39.0,71.0,12,a
5,5,2005,115,55.0,60.0,14,b
6,6,2006,113,50.0,63.0,15,a
7,7,2007,118,53.0,65.0,17,b
8,8,2008,119,60.0,59.0,18,a
9,9,2009,200,62.0,,20,b


`reset_index()`に引数`drop=True`を加えると，列`index`が自動的に削除される。

In [81]:
df13.reset_index(drop=True).head()

Unnamed: 0,year,gdp,inv,con,pop,id
0,2000,100,20.0,80.0,8,a
1,2001,95,25.0,70.0,9,b
2,2002,93,21.0,72.0,10,a
3,2003,100,30.0,70.0,11,b
4,2004,110,39.0,71.0,12,a


### 列のラベルの変更

メソッド`.rename()`を使い列のラベルを変更する。引数は次の形で設定する。

$$\text{.rename}\left(\text{columns=}辞書\right)$$

ここで「辞書」は次のルールで指定する。
* `key`:元のラベル
* `value`：新しいラベル

下のコードでは，`df13`を使い新しいラベルとして`pop_new`と`id_new`を使っている。

In [82]:
df13.rename(columns={'pop':'pop_new','id':'id_new'}).head()

Unnamed: 0,year,gdp,inv,con,pop_new,id_new
0,2000,100,20.0,80.0,8,a
1,2001,95,25.0,70.0,9,b
2,2002,93,21.0,72.0,10,a
3,2003,100,30.0,70.0,11,b
4,2004,110,39.0,71.0,12,a


### 列の並び替え

#### アルファベット順

メソッド`.sort_index()`を使い，引数には`axis='columns'`もしくは`axis=1`を指定する。

（コメント）引数が`axis='rows'`もしくは`axis=0`の場合，行が並び替えられる。

In [83]:
df13.sort_index(axis='columns').head()

Unnamed: 0,con,gdp,id,inv,pop,year
0,80.0,100,a,20.0,8,2000
1,70.0,95,b,25.0,9,2001
2,72.0,93,a,21.0,10,2002
3,70.0,100,b,30.0,11,2003
4,71.0,110,a,39.0,12,2004


#### 順番を指定する

##### 方法１

列を選択する方法を使い並び替える。

In [84]:
var = ['id','year','gdp','con','inv','pop']

df13.loc[:,var].head()

Unnamed: 0,id,year,gdp,con,inv,pop
0,a,2000,100,80.0,20.0,8
1,b,2001,95,70.0,25.0,9
2,a,2002,93,72.0,21.0,10
3,b,2003,100,70.0,30.0,11
4,a,2004,110,71.0,39.0,12


##### 方法２

もちろん次の方法も可。

In [85]:
df13[var].head()

Unnamed: 0,id,year,gdp,con,inv,pop
0,a,2000,100,80.0,20.0,8
1,b,2001,95,70.0,25.0,9
2,a,2002,93,72.0,21.0,10
3,b,2003,100,70.0,30.0,11
4,a,2004,110,71.0,39.0,12


##### 方法３

メソッド`.reindex()`を使う。引数は`columns=[]`。

In [86]:
df13.reindex(columns=['id','year','gdp','con','inv','pop']).head()

Unnamed: 0,id,year,gdp,con,inv,pop
0,a,2000,100,80.0,20.0,8
1,b,2001,95,70.0,25.0,9
2,a,2002,93,72.0,21.0,10
3,b,2003,100,70.0,30.0,11
4,a,2004,110,71.0,39.0,12


##### 方法３の応用

最後の行を最初に移動する。
* `.columns.tolist()`：コラムのラベルを取得し，それをリストに変換
* `[col[-1]]+col[0:-2]`の分解
    * `[col[-1]]`：`col`の最後の要素を抽出するが，文字列として返されるので（外側の）`[ ]`を使ってリストに変換
    * `col[0:-2]`：`col`の最初から最後から二番目の要素をリストとして取得
    * `+`：リストの結合

In [87]:
col = df13.columns.tolist()

new_col = [col[-1]]+col[0:-2]

df.reindex(columns=new_col).head()

Unnamed: 0_level_0,id,year,gdp,inv,con
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2000,a,,100.0,20.0,80.0
2001,b,,95.0,25.0,70.0
2002,a,,93.0,21.0,72.0
2003,b,,100.0,30.0,70.0
2004,a,,110.0,39.0,71.0
