# Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

## Chapter 5
- スムーズに理解できなかったり、疑問に思って手で試してみた部分を残してみる

In [28]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

### 複数indexで絞り込み

In [16]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [17]:
# obj2['c', 'a', 'd']はエラーになる
obj2[['c', 'a', 'd']]

c    3
a   -5
d    4
dtype: int64

### 再index付け

In [18]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [19]:
# method='ffill'で一つ前の値と同じものを採用して埋める
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [20]:
# obj3自体を書き換えるわけではない
obj3

0      blue
2    purple
4    yellow
dtype: object

In [25]:
# 代入すると書き換わった状態を保持できる
obj4 = obj3.reindex(range(6), method='ffill')
obj4

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [26]:
# obj3は変わらない
obj3

0      blue
2    purple
4    yellow
dtype: object

In [30]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [33]:
# どんどん代入していかないと書き換わらない
states = ['Texas', 'Utah', 'California']
frame = frame.loc[['a', 'b', 'c', 'd'], states]

In [34]:
frame

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


### インデックス参照

In [35]:
# ラべルスライシングは終点を含むので要注意
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [36]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [38]:
data['three'] > 5

Ohio        False
Colorado     True
Utah         True
New York     True
Name: three, dtype: bool

In [39]:
# 添字にboolのSeriesとかリストとか渡せばフィルタリングされる
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### 整数でindex付けされている場合は積極的にloc,ilocを使っていく

In [41]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [43]:
# 最後から1番目について参照しようとして、ser[-1]と書くと、エラーとなる。
# -> これがインデックスラベルの指定を誤っているだけなのか、最後から1番目についてのインデックス位置の指定なのか判別不能だから
# -> インデックスが整数の場合は、添字にはインデックスラベルでの指定しかできないという決まりになっている(ser[0]とかser[1]ならOK)

# インデックスが整数の場合は、インデックスラベルの指定を明示的に使うlocと、インデックス位置の指定を明示的に使うilocを積極的に使うことが求められる
# ただ、以下の2つはややこしいので注意(ラべルスライシングは終点を含む)
ser.loc[:1]

0    0.0
1    1.0
dtype: float64

In [44]:
ser.iloc[:1]

0    0.0
dtype: float64