# 第３章 pandasでデータを処理しよう
## pandasの特徴
* 欠損値の取り扱い
* ラベル位置を自動的・明示的に揃えたデータの作成
* データ集約
* 高度なラベルベースのスライシング、抽出、大きなデータセットのサブセット化
* 直観的なデータセットの結合
* データセットの柔軟な変換および変形
* 軸の階層的なラベル付け
* さまざまなデータ形式に対応した強力なI/O
* 時系列データ固有の処理

## Series
Seriesはインデックスと呼ばれるラベルを持った同一のデータ型を持つ1次元のデータ。
* インデックス（ラベル）を持つ1次元のデータである
* インデックスは重複できる
* ラベルまたはデータの位置を指定した抽出ができる。インデックスに対してのスライスができる
* 算術演算ができる。統計量を算出するメソッドを持っている

In [6]:
import pandas as pd

ser = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [11]:
# indexを省略した場合は、0から順番に整数が割り当てられる
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

In [12]:
# ラベルを使ってデータを選択する
ser.loc['b']

2

In [13]:
# locを利用しない書き方
ser['b']

2

In [14]:
# ラベルの範囲を指定
## ラベルの範囲を指定してスライスする
ser.loc['b':'c']

b    2
c    3
dtype: int64

In [15]:
# 位置を指定してデータを選択する
ser.iloc[1]

2

In [16]:
# 位置をスライスで指定
ser.iloc[1:3]

b    2
c    3
dtype: int64

## NOTE
ラベルによるスライスは、ラベルの開始位置と終了位置を含む。
Pythonのリストやタプルに対するスライスとは挙動が異なることに注意。

In [18]:
# 真偽値を使ってデータを選択する
ser.loc[[True, False, True]]

a    1
c    3
dtype: int64

In [19]:
# Seriesに対して比較演算をすることで真偽値が返る
ser != 2

a     True
b    False
c     True
dtype: bool

In [20]:
ser.loc[ser != 2]

a    1
c    3
dtype: int64