# 5章　pandas入門
- pandasはテーブル形式や不均衡なデータを扱うのに適している（一方NumPyは均一な数値データに適す）


In [12]:
import pandas as pd
import numpy as np

## 5.1 pandasのデータ構造
- シリーズ（Series）とデータフレーム（DataFrame）

### 5.1.1 シリーズ（Series）
- シリーズは1次元の配列のようなオブジェクト
- `pandas.Series()`に配列を渡して初期化
- 値とそのインデックスの配列
- values属性とindex属性で値とインデックスを取得できる
- 初期化時の`index`キーワード引数に配列を渡してインデックスを指定できる
- インデックスを使って値を参照できる（複数の場合はインデックスのリストを渡す）
- 条件指定フィルタリングや要素に対する演算、NumPyの関数を適用できる
- インデックスと値がマッピングされた固定長の順序付きディクショナリとみなせるので、ディクショナリの代わりになる
- Pythonのディクショナリで初期化も可能（インデックスはソートされたキー）
  - キーの順のリストを`index`キーワード引数に渡すと上書きできる
- インデックスを指定したとき値が存在しないとNan（Not a number）=欠損値となる
- `isnull`や`notnull`で欠損値を判定できる
- シリーズ同士の演算で自動で同じインデックス同士が結び付けられ整形される
- シリーズオブジェクト自身と、インデックスはname属性を持つ
- シリーズのインデックスは代入で上書きできる

### 5.1.2 データフレーム
- テーブル形式のデータ構造
- 行と列にインデックスを持つ
- シリーズを値に持つディクショナリとみなすことができる（各シリーズのインデックスを全体で共有しているイメージ）
- 

In [4]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
print(obj.values)
print(obj.index) # 特に指定しなければrange(4)と同じ

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [6]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [9]:
print(obj2['a'])
obj2['d'] = 6
print(obj2[['c', 'a', 'd']])

-5
c    3
a   -5
d    6
dtype: int64


In [10]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [11]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [13]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [14]:
'b' in obj2

True

In [15]:
'e' in obj2

False

In [16]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [17]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [18]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [19]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [20]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [21]:
obj3, obj4

(Ohio      35000
 Texas     71000
 Oregon    16000
 Utah       5000
 dtype: int64,
 California        NaN
 Ohio          35000.0
 Oregon        16000.0
 Texas         71000.0
 dtype: float64)

In [22]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [23]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [24]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64