# pandas

https://pandas.pydata.org
- pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language.

2次元表形式のデータを操作するためのライブラリ（パッケージ）

In [None]:
# pandas, numpy パッケージを使用
import numpy as np
import pandas as pd

In [None]:
# リストで元データを作成
data = [
    [5, 3, 4, 4],
    [3, 1, 2, 3, 3],
    [4, 3, 4, 3, 5],
    [3, 3, 1, 5, 4],
    [1, 5, 5, 2, 1]
]

### pandas DataFrame の作成

DataFrame は2次元表形式のデータ構造。
- 列ラベル、行ラベルを設定し、ラベルを指定して値を参照可能
- その他、様々なデータ処理・操作が可能

使いこなすことで、プログラムの行数は短縮可能。

In [None]:
# pandas DataFrame を上記の data から作成
# - columns: 列ラベルの指定
# - index: 行ラベルの指定
df = pd.DataFrame(data,
                  columns=['Item1', 'Item2', 'Item3', 'Item4', 'Item5'],
                  index=['You', 'User1', 'User2', 'User3', 'User4'])

# 確認
# - 'You', 'Item5' は値が無いため NaN (np.nan) 
# - 'Item5' 列は 'You' が NaN（浮動小数点数）のため、他の値も浮動小数点数
df

### 列・行ラベル

In [None]:
# 列ラベル
df.columns

In [None]:
# 行ラベル
df.index

### データの取り出し

- 列ラベルを指定
- 行ラベルを指定
- 列ラベル、行ラベルの両方を指定
- 列番号を指定
- 行番号を指定
- 列番号と行番号の両方を指定

In [None]:
# 列ラベルを指定して列データを取り出す
df['Item1']

In [None]:
# 列ラベルを指定して列データを取り出す (2)
df.Item1

In [None]:
# 列ラベルを指定して列データを取り出す (3)
item = 'Item1'
df[item]

In [None]:
# 行ラベルを指定して行データを取り出す
df.loc['You']

In [None]:
# 列ラベル、行ラベルの両方を指定してデータを取り出す
df.at['You', 'Item1']

In [None]:
# 列番号を指定して列データを取り出す
df.iloc[:, 0]

In [None]:
# 行番号を指定して行データを取り出す
df.iloc[0]

In [None]:
# 列番号、行番号の両方を指定してデータを取り出す
df.iloc[0, 0]

### データの取り出し (2)

- 複数の列ラベルを指定
- 複数の行ラベルを指定
- 複数の列ラベル、複数の行ラベルを指定

複数のラベルを指定する際には、ラベルのリストにより指定する。

In [None]:
# 複数の列ラベルを指定してデータを取り出す
df[['Item1', 'Item4']]

In [None]:
# 複数行を指定してデータを取り出す
df.loc[['You', 'User2']]

In [None]:
# 複数行と列を指定してデータを取り出す
df.loc[['You', 'User2'], ['Item1', 'Item4']]

### 条件を指定したデータの取り出し

- 条件に合う列の取り出し

In [None]:
df.query('Item1 > 3')

In [None]:
df[df['Item1'] > 3]

In [None]:
label = 'Item1'
n = 3
df[df[label] > n]

In [None]:
df.query('{} > {}'.format(label, n))

### 列・行の削除

In [None]:
# 列の削除
df.drop('Item5', axis=1)

In [None]:
# 行の削除
df.drop('User1')

### 欠損値の削除

In [None]:
# 列の削除
df.dropna(axis=1)

In [None]:
# 行の削除
df.dropna()

### DataFrame の部分表示

- 先頭行
- 末尾行

In [None]:
# 先頭を1行表示
df.head(1)

In [None]:
# 末尾を1行表示
df.tail(2)

### DataFrame の統計値

- 平均値
- 最大値
- 最小値
- 要約統計量

In [None]:
df.mean()

In [None]:
df.mean(axis=1)

In [None]:
df.max()

In [None]:
df.min()

In [None]:
df.describe()

### 行・列の追加

- 列の追加
- 行の追加

In [None]:
df['mean'] = df.mean(axis=1)
# 確認
df

In [None]:
df.loc['mean'] = df.mean()
# 確認
df

### 条件を指定したデータの取り出し (2)

- 列の間の条件を指定したデータの取り出し

In [None]:
df.query('Item1 > mean')

In [None]:
df[df['Item1'] > df['mean']]