# 7-1. pandasライブラリ

pandasライブラリについて説明します。

参考

- http://pandas.pydata.org/pandas-docs/stable/getting_started/index.html
- http://pandas.pydata.org/pandas-docs/stable/

**pandas**ライブラリにはデータ分析作業を支援するためのモジュールが含まれています。以下では、pandasライブラリのモジュールの基本的な使い方について説明します。

pandasライブラリを使用するには、まず `pandas` モジュールをインポートします。慣例として、同モジュールを `pd` と別名をつけてコードの中で使用します。データの生成に用いるため、ここでは `numpy` モジュールも併せてインポートします。


In [None]:
import pandas as pd
import numpy as np

## シリーズとデータフレーム
`pandas` モジュールは、リスト、配列や辞書などのデータを**シリーズ** (**`Series`**) あるいは**データフレーム** (**`DataFrame`**) のオブジェクトとして保持します。シリーズは列、データフレームは複数の列で構成されます。シリーズやデータフレームの行は**インデックス** `index` で管理され、インデックスには `0` から始まる番号、または任意のラベルが付けられています。インデックスが番号の場合は、シリーズやデータフレームはそれぞれNumPyの配列、2次元配列とみなすことができます。また、インデックスがラベルの場合は、ラベルをキー、各行を値とした辞書としてシリーズやデータフレームをみなすことができます。

## シリーズ (`Series`) の作成
シリーズのオブジェクトは、以下のように、リスト、配列や辞書から作成することができます。

In [None]:
# リストからシリーズの作成
s1 = pd.Series([0,1,2])
print(s1)

# 配列からシリーズの作成
s2 = pd.Series(np.random.rand(3))
print(s2)

# 辞書からシリーズの作成
s3 = pd.Series({0:'boo',1:'foo',2:'woo'})
print(s3)

以下では、シリーズ（列）より一般的なデータフレームの操作と機能について説明していきますが、データフレームオブジェクトの多くの操作や機能はシリーズオブジェクトにも適用できます。

## データフレーム (`DataFrame`) の作成
データフレームのオブジェクトは、以下のように、リスト、配列や辞書から作成することができます。行のラベルは、`DataFrame` の `index` 引数で指定できますが、以下のデータフレーム作成の例、`d2`, `d3`、 では同インデックスを省略しているため、`0` から始まるインデックス番号がラベルとして行に自動的に付けられます。列のラベルは `columns` 引数で指定します。辞書からデータフレームを作成する際は、`columns` 引数で列の順番を指定することになります。

In [None]:
# 多次元リストからデータフレームの作成
d1 = pd.DataFrame([[0,1,2],[3,4,5],[6,7,8],[9,10,11]], index=[10,11,12,13], columns=['c1','c2','c3'])
print(d1)

# 多次元配列からデータフレームの作成
d2 = pd.DataFrame(np.random.rand(12).reshape(4,3), columns=['c1','c2','c3'])
print(d2)

# 辞書からデータフレームの作成
d3 = pd.DataFrame({'Initial':['B','F','W'], 'Name':['boo', 'foo', 'woo']}, columns=['Name','Initial'])
print(d3)

## CSVファイルからのデータフレームの作成
`pandas` モジュールの **`read_csv()`** 関数を用いて、以下のように**CSVファイル**を読み込んで、データフレームのオブジェクトを作成することができます。`read_csv()` 関数の `encoding` 引数にはファイルの文字コードを指定します。CSVファイル `iris.csv` には、以下のようにアヤメの種類 (species) と花弁 (petal)・がく片 (sepal) の長さ (length) と幅 (width) のデータが含まれています。
```Python
sepal_length, sepal_width, petal_length, petal_width, species
5.1, 3.5, 1.4, 0.2, setosa
4.9, 3.0, 1.4, 0.2, setosa
4.7, 3.2, 1.3, 0.2, setosa
...
```
**`head()`** メソッドを使うとデータフレームの先頭の複数行を表示させることができます。引数には表示させたい行数を指定し、行数を指定しない場合は、5行分のデータが表示されます。

In [None]:
# CSVファイルの読み込み
iris_d = pd.read_csv('iris.csv')

# 先頭10行のデータを表示
iris_d.head(10)

データフレームオブジェクトの **`index`** 属性により、データフレームのインデックスの情報が確認できます。`len()` 関数を用いると、データフレームの行数が取得できます。

In [None]:
print(iris_d.index) #インデックスの情報
len(iris_d.index) #インデックスの長さ

## データの参照
シリーズやデータフレームでは、行の位置（行は `0` から始まります）を**スライス**として指定することで任意の行を抽出することができます。

In [None]:
# データフレームの先頭5行のデータ
iris_d[:5]

In [None]:
# データフレームの終端5行のデータ
iris_d[-5:]

データフレームから任意の列を抽出するには、`DataFrame.列名` のように、データフレームオブジェクトに `.` で列名をつなげることで、その列を指定してシリーズオブジェクトとして抽出することができます。なお、列名を文字列として、`DataFrame['列名']` のように添字指定しても同様です。

In [None]:
# データフレームの'species'の列の先頭10行のデータ
iris_d['species'].head(10)

データフレームの添字として、列名のリストを指定すると複数の列をデータフレームオブジェクトとして抽出することができます。

In [None]:
# データフレームの'sepal_length'とspecies'の列の先頭10行のデータ
iris_d[['sepal_length','species']].head(10)

### `iloc` と `loc`
データフレームオブジェクトの **`iloc`** 属性を用いると、NumPyの多次元配列のスライスと同様に、行と列の位置を指定して任意の行と列を抽出することができます。

In [None]:
# データフレームの2行のデータ
iris_d.iloc[1]

In [None]:
# データフレームの2行,2列目のデータ
iris_d.iloc[1, 1]

In [None]:
# データフレームの1から5行目と1から2列目のデータ
iris_d.iloc[0:5, 0:2]

データフレームオブジェクトの **`loc`** 属性を用いると、抽出したい行のインデックス・ラベルや列のラベルを指定して任意の行と列を抽出することができます。複数のラベルはリストで指定します。行のインデックスは各行に割り当てられた番号で、`iloc` で指定する行の位置とは必ずしも一致しないことに注意してください。

In [None]:
# データフレームの行インデックス5のデータ
iris_d.loc[5]

In [None]:
# データフレームの行インデックス5と'sepal_length'と列のデータ
iris_d.loc[5, 'sepal_length']

In [None]:
# データフレームの行インデックス1から5と'sepal_length'とspecies'の列のデータ
iris_d.loc[1:5, ['sepal_length','species']]

## データの条件取り出し
データフレームの列の指定と併せて条件を指定することで、条件にあった行からなるデータフレームを抽出することができます。NumPyの多次元配列の**真理値配列によるインデックスアクセス**と同様に、条件式のブール演算では、`and`, `or`, `not` の代わりに `&`, `|`, `~` を用います。

In [None]:
# データフレームの'sepal_length'列の値が7より大きく、'species'列の値が3より小さいデータ
iris_d[(iris_d['sepal_length'] > 7.0) & (iris_d['sepal_width'] < 3.0)]

## 列の追加と削除
データフレームに列を追加する場合は、以下のように、追加したい新たな列名を指定し、値を代入すると新たな列を追加できます。

In [None]:
# データフレームに'mycolumn'という列を追加
iris_d['mycolumn']=np.random.rand(len(iris_d.index))
iris_d.head(10)

**`del`** 文を用いると、以下のようにデータフレームから任意の列を削除できます。

In [None]:
# データフレームから'mycolumn'という列を削除
del iris_d['mycolumn']
iris_d.head(10)

**`assign()`** メソッドを用いると、追加したい列名とその値を指定することで、以下のように新たな列を追加したデータフレームを新たに作成することができます。この際、元のデータフレームは変更されないことに注意してください。

In [None]:
# データフレームに'mycolumn'という列を追加し新しいデータフレームを作成
myiris1 = iris_d.assign(mycolumn=np.random.rand(len(iris_d.index)))
myiris1.head(5)

**`drop()`** メソッドを用いると、削除したい列名を指定することで、以下のように任意の列を削除したデータフレームを新たに作成することができます。列を削除する場合は、**`axis`** 引数に `1` を指定します。この際、元のデータフレームは変更されないことに注意してください。

In [None]:
# データフレームから'mycolumn'という列を削除し、新しいデータフレームを作成
myiris2 = myiris1.drop('mycolumn',axis=1)
myiris2.head(5)

## 行の追加と削除
`pandas` モジュールの **`append()`** メソッドを用いると、データフレームに新たな行を追加することができます。以下では、`iris_d` データフレームの最終行に新たな行を追加しています。`ignore_index` 引数を `True` にすると追加した行に新たなインデックス番号がつけられます。

In [None]:
# 追加する行のデータフレーム
row = pd.DataFrame([[1,1,1,1, 'setosa']], columns=iris_d.columns)

# データフレームに行を追加し新しいデータフレームを作成
myiris4 = iris_d.append(row, ignore_index=True)
myiris4[-2:]

**`drop()`** メソッドを用いると、行のインデックスまたはラベルを指定することで行を削除することもできます。このときに、`axis` 引数は省略することができます。

In [None]:
# データフレームから行インデックス150の行を削除し、新しいデータフレームを作成
myiris4 = myiris4.drop(150)
myiris4[-2:]

## データの並び替え
データフレームオブジェクトの **`sort_index()`** メソッドで、データフレームのインデックスに基づくソートができます。また、**`sort_values()`** メソッドで、任意の列の値によるソートができます。列は複数指定することもできます。いずれのメソッドでも、**`inplace`** 引数により、ソートにより新しいデータフレームを作成する (`False`) か、元のデータフレームを更新する (`True`) を指定できます。デフォルトは `inplace` は `False` になっており、これらのメソッドは新しいデータフレームを作成します。

In [None]:
# iris_dデータフレームの4つ列の値に基づいて昇順にソート
sorted_iris = iris_d.sort_values(['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])
sorted_iris.head(10)

列の値で降順にソートする場合は、`sort_values()` メソッドの **`ascending`** 引数を `False` にしてください。

In [None]:
# iris_dデータフレームの4つ列の値に基づいて降順にソート
sorted_iris = iris_d.sort_values(['sepal_length', 'sepal_width', 'petal_length', 'petal_width'],ascending=False)
sorted_iris.head(10)

## データの統計量
データフレームオブジェクトの **`describe()`** メソッドで、データフレームの各列の要約統計量を求めることができます。要約統計量には平均、標準偏差、最大値、最小値などが含まれます。その他の統計量を求める `pandas` モジュールのメソッドは以下を参照してください。

[pandasでの統計量計算](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#computations-descriptive-stats)

In [None]:
# iris_dデータフレームの各数値列の要約統計量を表示
iris_d.describe()

## ▲データの連結
`pandas` モジュールの **`concat()`** 関数を用いると、データフレームを連結して新たなデータフレームを作成することができます。以下では、`iris_d` データフレームの先頭5行と最終5行を連結して、新しいデータフレームを作成しています。

In [None]:
# iris_dデータフレームの先頭5行と最終5行を連結
concat_iris = pd.concat([iris_d[:5],iris_d[-5:]])
concat_iris

`concat()` 関数の `axis` 引数に `1` を指定すると、以下のように、データフレームを列方向に連結することができます。

In [None]:
# iris_dデータフレームの'sepal_length'列と'species'列を連結
sepal_len = pd.concat([iris_d.loc[:, ['sepal_length']],iris_d.loc[:, ['species']]], axis=1)
sepal_len.head(10)

## ▲データの結合
`pandas` モジュールの **`merge()`** 関数を用いると、任意の列の値をキーとして異なるデータフレームを結合することができます。結合のキーとする列名は **`on`** 引数で指定します。以下では、`species` の列の値をキーに、2つのデータフレーム、`sepal_len`, `sepal_wid`、を結合して新しいデータフレーム `sepal` を作成しています。

In [None]:
# 'sepal_length'と'species'列からなる3行のデータ
sepal_len = pd.concat([iris_d.loc[[0,51,101],['sepal_length']],iris_d.loc[[0,51,101], ['species']]], axis=1)
# 'sepal_width'と'species'列からなる3行のデータ
sepal_wid = pd.concat([iris_d.loc[[0,51,101],['sepal_width']],iris_d.loc[[0,51,101], ['species']]], axis=1)

# sepal_lenとsepal_widを'species'をキーにして結合
sepal = pd.merge(sepal_len, sepal_wid, on='species')
sepal

## ▲データのグループ化
データフレームオブジェクトの **`groupby()`** メソッドを使うと、データフレームの任意の列の値に基づいて、同じ値を持つ行をグループにまとめることができます。列は複数指定することもできます。`groupby()` メソッドを適用するとグループ化オブジェクト (`DataFrameGroupBy`) が作成されますが、データフレームと同様の操作を多く適用することができます。

In [None]:
# iris_dデータフレームの'species'の値で行をグループ化
iris_d.groupby('species')

In [None]:
# グループごとの先頭5行を表示
iris_d.groupby('species').head(5)

In [None]:
# グループごとの'sepal_length'列,'sepal_width'列の値の平均を表示
iris_d.groupby('species')[['sepal_length','sepal_width']].mean()

## ▲欠損値、時系列データの処理
pandasでは、データ分析における欠損値、時系列データの処理を支援するための便利な機能が提供されています。詳細は以下を参照してください。

[欠損値の処理](https://pandas.pydata.org/pandas-docs/stable/missing_data.html#missing-data)

[時系列データの処理](https://pandas.pydata.org/pandas-docs/stable/timeseries.html)