# [WIP] Pandasによるデータ加工

ここではpandasの解説をします。
pandasには色んな機能がありますが、ここではデータを加工するために知っておくと便利なことを紹介します。

## Pandasのデータ構造

* Series
* DataFrame
* panel

## DataFrameの操作

## Series

In [1]:
%matplotlib inline

import numpy as np
import pandas as pd

In [5]:
series = pd.Series(np.arange(6))
series

0    0
1    1
2    2
3    3
4    4
5    5
dtype: int64

In [6]:
series.describe()

count    6.000000
mean     2.500000
std      1.870829
min      0.000000
25%      1.250000
50%      2.500000
75%      3.750000
max      5.000000
dtype: float64

In [7]:
series[0:3]

0    0
1    1
2    2
dtype: int64

## DataFrame

In [54]:
df = pd.DataFrame(np.arange(18).reshape(6, 3), columns=['x', 'y', 'z'])
df

Unnamed: 0,x,y,z
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14
5,15,16,17


In [34]:
df.describe()

Unnamed: 0,x,y,z
count,6.0,6.0,6.0
mean,7.5,8.5,9.5
std,5.612486,5.612486,5.612486
min,0.0,1.0,2.0
25%,3.75,4.75,5.75
50%,7.5,8.5,9.5
75%,11.25,12.25,13.25
max,15.0,16.0,17.0


## DataFrameの選択処理

それなりに罠があるので、それも解説していきます。

インデックスによる選択

In [59]:
df.index

Int64Index([0, 1, 2, 3, 4, 5], dtype='int64')

In [35]:
df.ix[0]

x    0
y    1
z    2
Name: 0, dtype: int64

columnによる選択

In [61]:
df.columns

Index(['x', 'y', 'z', 'a'], dtype='object')

In [64]:
df[df.columns[0:2]]

Unnamed: 0,x,y
0,0,1
1,3,4
2,6,7
3,9,10
4,12,13
5,15,16


### df.ix[]

In [36]:
df.ix[:3]  # 0-2ではないことに注意

Unnamed: 0,x,y,z
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [37]:
df.ix[-3:]  # negative indexは使えない

Unnamed: 0,x,y,z
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14
5,15,16,17


In [38]:
df.ix[:2, ['x', 'y']]

Unnamed: 0,x,y
0,0,1
1,3,4
2,6,7


`df.ix[]` はlabel-basedな選択

### df.iloc[]

こちらはposition-basedな選択

In [25]:
df.iloc[-3:]  # negative indexによる選択も可能

Unnamed: 0,x,y
5,10,11
6,12,13
7,14,15


In [26]:
df.iloc[-3:, 0]

5    10
6    12
7    14
Name: x, dtype: int64

In [32]:
df.iloc[-3:, 0:1]

Unnamed: 0,x
5,10
6,12
7,14


### df[]

In [42]:
df['x']  # columnが選択される

0     0
1     3
2     6
3     9
4    12
5    15
Name: x, dtype: int64

In [41]:
df[0:3]  # スライスを使うとindexがスライスされる

Unnamed: 0,x,y,z
0,0,1,2
1,3,4,5
2,6,7,8


In [44]:
df[['x', 'y']]

Unnamed: 0,x,y
0,0,1
1,3,4
2,6,7
3,9,10
4,12,13
5,15,16


In [48]:
df[[0, 1]]

Unnamed: 0,x,y
0,0,1
1,3,4
2,6,7
3,9,10
4,12,13
5,15,16


pandasは同じことを色んな方法で実現できてしまっている。
ixの範囲選択のように似たようなことが似たように出来てしまうものの、結果だけが変わったりExceptionをraiseしてくれなかったりするので注意が必要。

## DataFrameの結合

In [53]:
df['x']  # これはSeriesオブジェクトになる

0     0
1     3
2     6
3   NaN
4    12
5    15
Name: x, dtype: float64

In [55]:
df['a'] = pd.Series(np.arange(8))
df

Unnamed: 0,x,y,z,a
0,0,1,2,0
1,3,4,5,1
2,6,7,8,2
3,9,10,11,3
4,12,13,14,4
5,15,16,17,5


DataFrameはSeriesオブジェクトの塊のような感じ

In [65]:
df1 = pd.DataFrame(np.arange(15).reshape(5, 3))
df2 = pd.DataFrame(np.arange(9).reshape(3, 3))

df1.append(df2)

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14
0,0,1,2
1,3,4,5
2,6,7,8


インデックスに注意！

In [69]:
x = df1.append(df2)
x.ix[0]

Unnamed: 0,0,1,2
0,0,1,2
0,0,1,2


In [75]:
len(x)

8

In [78]:
x = df1.append(df2)
x.index = index=list(range(len(x)))
x

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14
5,0,1,2
6,3,4,5
7,6,7,8


In [80]:
x = df1.append(df2)
x.reindex()

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14
0,0,1,2
1,3,4,5
2,6,7,8


## 様々な形式のファイルを読み込む

* CSV
* Excel
* JSON

In [57]:
cars_df = pd.read_csv('cars.csv')
cars_df[:4]

Unnamed: 0.1,Unnamed: 0,speed,dist
0,1,4,2
1,2,4,10
2,3,7,4
3,4,7,22


In [58]:
cards_df = pd.read_csv('cars.csv', index=False)
cards_df[:4]

TypeError: parser_f() got an unexpected keyword argument 'index'

# 欠損値のハンドリング

In [50]:
df.ix[3, 'x'] = None
df

Unnamed: 0,x,y,z
0,0.0,1,2
1,3.0,4,5
2,6.0,7,8
3,,10,11
4,12.0,13,14
5,15.0,16,17


In [51]:
df.fillna(100)

Unnamed: 0,x,y,z
0,0,1,2
1,3,4,5
2,6,7,8
3,100,10,11
4,12,13,14
5,15,16,17


`df = df.fillna(100)` すること