# 第３章 pandasでデータを処理しよう
## pandasの特徴
* 欠損値の取り扱い
* ラベル位置を自動的・明示的に揃えたデータの作成
* データ集約
* 高度なラベルベースのスライシング、抽出、大きなデータセットのサブセット化
* 直観的なデータセットの結合
* データセットの柔軟な変換および変形
* 軸の階層的なラベル付け
* さまざまなデータ形式に対応した強力なI/O
* 時系列データ固有の処理

## Series
Seriesはインデックスと呼ばれるラベルを持った同一のデータ型を持つ1次元のデータ。
* インデックス（ラベル）を持つ1次元のデータである
* インデックスは重複できる
* ラベルまたはデータの位置を指定した抽出ができる。インデックスに対してのスライスができる
* 算術演算ができる。統計量を算出するメソッドを持っている

In [6]:
import pandas as pd

ser = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [11]:
# indexを省略した場合は、0から順番に整数が割り当てられる
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

In [12]:
# ラベルを使ってデータを選択する
ser.loc['b']

2

In [13]:
# locを利用しない書き方
ser['b']

2

In [14]:
# ラベルの範囲を指定
## ラベルの範囲を指定してスライスする
ser.loc['b':'c']

b    2
c    3
dtype: int64

In [15]:
# 位置を指定してデータを選択する
ser.iloc[1]

2

In [16]:
# 位置をスライスで指定
ser.iloc[1:3]

b    2
c    3
dtype: int64

## NOTE
ラベルによるスライスは、ラベルの開始位置と終了位置を含む。
Pythonのリストやタプルに対するスライスとは挙動が異なることに注意。

In [18]:
# 真偽値を使ってデータを選択する
ser.loc[[True, False, True]]

a    1
c    3
dtype: int64

In [19]:
# Seriesに対して比較演算をすることで真偽値が返る
ser != 2

a     True
b    False
c     True
dtype: bool

In [20]:
ser.loc[ser != 2]

a    1
c    3
dtype: int64

## DataFrame
DataFrameは行と列にラベルを持った2次元のデータ。
データは列ごとに異なる方を持つことができる。
1次元のデータであるSeriesの集まりととらえることもできる。

Seriesの特徴に加え、DataFrameには次の特徴がある。
* 行と列にラベルを持った2次元のでーたである
* 列ごとに異なる型を持つことができる
* テーブル型のデータに対して読み込み、書き込みができる
* DataFrame同士に対してさまざまな条件を用いた結合処理ができる
* クロス集計ができる

In [21]:
import pandas as pd

df = pd.DataFrame(
    [[1, 10, 100], [2, 20, 200], [3, 30, 300]],
    index=['r1', 'r2', 'r3'],
    columns=['c1', 'c2', 'c3'])

df

Unnamed: 0,c1,c2,c3
r1,1,10,100
r2,2,20,200
r3,3,30,300


In [22]:
# ラベルを使ってデータを選択する
df.loc['r2', 'c2']

20

In [23]:
# すべての行（列）を指定する場合
# すべての列を指定する場合、要素に「:」を渡す
df.loc['r2', :]

c1      2
c2     20
c3    200
Name: r2, dtype: int64

In [24]:
# すべての行を指定する場合も同様
df.loc[:, 'c2']

r1    10
r2    20
r3    30
Name: c2, dtype: int64

## NOTE
行のデータ数が1で列のデータ数が複数、または行のデータ数が複数で列のデータ数が1の場合、返されるデータ型はSeriesになる。

In [25]:
# スライスやリストの渡し方
# スライスやリストの渡し方はSeriesと同じ方法。
df.loc[['r1', 'r3'], 'c2':'c3']

Unnamed: 0,c2,c3
r1,10,100
r3,30,300


In [26]:
# ilocを使ってデータを選択する
df.iloc[1:3, [0, 2]]

Unnamed: 0,c1,c3
r2,2,200
r3,3,300


In [27]:
# 列名を指定してデータを選択する
df['c2']

r1    10
r2    20
r3    30
Name: c2, dtype: int64

In [28]:
# 真偽値を使ってデータを選択する
df > 10

Unnamed: 0,c1,c2,c3
r1,False,False,True
r2,False,True,True
r3,False,True,True


In [29]:
# DataFrameからSeriesを取り出し、比較演算をすることでデータを抽出できる
# c2列の値が10より大きいデータ
df.loc[df['c2'] > 10]

Unnamed: 0,c1,c2,c3
r2,2,20,200
r3,3,30,300


In [30]:
# 2つ以上の条件を組み合わせる場合
# &: and 条件
# |: or 条件

# c1列が1より大きく、かつc3列が300より小さいデータ
df.loc[(df['c1'] > 1) & (df['c3'] < 300)]

Unnamed: 0,c1,c2,c3
r2,2,20,200
