In [1]:
# pandas
# テーブル形式のデータを扱う
import pandas as pd
import numpy as np

In [2]:
# シリーズ
# インデックス情報を持った配列データ
#
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [6]:
# Seriesの値
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [8]:
# Seriesのインデックス
obj.index

RangeIndex(start=0, stop=4, step=1)

In [11]:
# インデックス設定
obj2 =pd.Series([4,7,-5,3], index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [12]:
# インデックス指定で値取得
obj2['a']

-5

In [14]:
# インデックス指定（配列）で値取得
obj2[['c','a','d']]

c    3
a   -5
d    4
dtype: int64

In [16]:
# 条件指定
obj2[obj2 > 0]

d    4
b    7
c    3
dtype: int64

In [20]:
# 辞書データからシリーズ生成
sdata = {'東京': 10000,'大阪': 8000,'名古屋': 7000,'福岡': 6000, '札幌': 5000}
obj3 = pd.Series(sdata)
obj3

東京     10000
大阪      8000
名古屋     7000
福岡      6000
札幌      5000
dtype: int64

In [23]:
# シリーズにインデックスを指定
prefs = ['東京','大阪','名古屋','福岡','札幌','京都']
obj4 = pd.Series(sdata, index=prefs)
obj4

東京     10000.0
大阪      8000.0
名古屋     7000.0
福岡      6000.0
札幌      5000.0
京都         NaN
dtype: float64

In [25]:
# NaN(not a number)チェック
obj4.isnull()

東京     False
大阪     False
名古屋    False
福岡     False
札幌     False
京都      True
dtype: bool

In [3]:
# DataFrame
# テーブル形式の構造を持つデータ
# 行と列の両方にインデックスを持つ

# データフレーム生成
# リストデータを値に持つ辞書データから生成
data = {'prefs': ['東京','大阪','名古屋','福岡'],
        'population': [1000, 600,400,300],
        'gnp': [15,7,6,5]
       }
frame1 = pd.DataFrame(data)
frame1

Unnamed: 0,prefs,population,gnp
0,東京,1000,15
1,大阪,600,7
2,名古屋,400,6
3,福岡,300,5


In [6]:
# 行列ラベル指定
frame2 = pd.DataFrame(data, columns=['prefs','population','gnp','area'],
                     index=['one','two','three','four'])
frame2

Unnamed: 0,prefs,population,gnp,area
one,東京,1000,15,
two,大阪,600,7,
three,名古屋,400,6,
four,福岡,300,5,


In [7]:
# データフレーム列の取得
frame2['population']

one      1000
two       600
three     400
four      300
Name: population, dtype: int64

In [8]:
# 真偽値を使って行を選択
frame2[frame2['population'] > 500]

Unnamed: 0,prefs,population,gnp,area
one,東京,1000,15,
two,大阪,600,7,


In [9]:
# データフレーム行を名前で取得
frame2.loc['two']

prefs          大阪
population    600
gnp             7
area          NaN
Name: two, dtype: object

In [10]:
#　データフレーム行を位置で取得
frame2.iloc[0]

prefs           東京
population    1000
gnp             15
area           NaN
Name: one, dtype: object

In [11]:
# 軸を指定してデータフレームの一部を取得
frame2.iloc[[1,2],[3,0,1]]

Unnamed: 0,area,prefs,population
two,,大阪,600
three,,名古屋,400


In [12]:
# データフレームにシリーズを設定
area_val = pd.Series([5000,3000,1500,1000], index=['one','two','three','four'])
frame2['area'] = area_val
frame2

Unnamed: 0,prefs,population,gnp,area
one,東京,1000,15,5000
two,大阪,600,7,3000
three,名古屋,400,6,1500
four,福岡,300,5,1000


In [12]:
# ネストした辞書データからデータフレームを生成
# 辞書データの外側のキーを列インデックスに、内側のキーを行インデックスに使う
nest_data = {'東京':{2010: 2.4, 2011: 3.1,2013: 4.4},
              '大阪':{2010: 1.5, 2011: 2.1, 2013: 2.9}}
frame3 = pd.DataFrame(nest_data)
frame3

Unnamed: 0,東京,大阪
2010,2.4,1.5
2011,3.1,2.1
2013,4.4,2.9


In [13]:
# データフレームの転置
frame3.T

Unnamed: 0,2010,2011,2013
東京,2.4,3.1,4.4
大阪,1.5,2.1,2.9


In [17]:
# シリーズを持つ辞書データからデータフレームを生成
d_data = {'大阪': frame3['大阪'][:-1],
          '東京': frame3['東京'][:2]}
pd.DataFrame(d_data)

Unnamed: 0,大阪,東京
2010,1.5,2.4
2011,2.1,3.1


In [6]:
# データフレームのデータを2次元のndarrayとして取得 
frame3.values

array([[2.4, 1.5],
       [3.1, 2.1],
       [4.4, 2.9]])

In [9]:
# インデックスオブジェクト
# 軸のラベルやメタデータを保持する
# インデックスオブジェクトは変更できない
labels = pd.Index(['alpha','beta','gamma'])
labels

Index(['alpha', 'beta', 'gamma'], dtype='object')

In [11]:
obj2 = pd.Series([1.5, -2.5, 0],index=labels)
obj2

alpha    1.5
beta    -2.5
gamma    0.0
dtype: float64

In [14]:
frame3.columns

Index(['東京', '大阪'], dtype='object')

In [17]:
# 再インデックス
obj = pd.Series([1.1,3.4,6.2,8.1], index=['d','b','a','c'])
obj

d    1.1
b    3.4
a    6.2
c    8.1
dtype: float64

In [19]:
obj2 = obj.reindex(['a','b','c','d','e'])
obj2

a    6.2
b    3.4
c    8.1
d    1.1
e    NaN
dtype: float64

In [23]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)),
                     index=['a','c','d'],
                     columns=['東京','大阪','名古屋'])
frame

Unnamed: 0,東京,大阪,名古屋
a,0,1,2
c,3,4,5
d,6,7,8


In [25]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,東京,大阪,名古屋
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [27]:
cities = ['名古屋','東京','福岡','大阪']
frame.reindex(columns=cities)

Unnamed: 0,名古屋,東京,福岡,大阪
a,2,0,,1
c,5,3,,4
d,8,6,,7


In [30]:
# インデックス要素の削除
frame.drop(['a','d'])

Unnamed: 0,東京,大阪,名古屋
c,3,4,5


In [26]:
# 整数でのインデックス指定
# ラベルをインデックスにすることにより、-1をインデックス位置指定であると認識する
ser1 = pd.Series(np.arange(3.) ,index=['a','b','c'])
ser1[-1]

2.0

In [3]:
# ラベルインデックスはlocを、位置インデックスはilocを使うほうが曖昧さはない
ser2 = pd.Series(np.arange(3.))
ser2.iloc[-1]

2.0

In [5]:
# シリーズ同士の計算
# 両方のオブジェクトにある要素のみ計算される
s1 = pd.Series([1.2,3.4,5.3,6.3], index=['a','c','d','e'])
s2 = pd.Series([0.4,2.6,3.0,4.1], index=['a','d','f','g'])
s1 + s2

a    1.6
c    NaN
d    7.9
e    NaN
f    NaN
g    NaN
dtype: float64

In [13]:
# データフレーム同士の計算
df1 = pd.DataFrame(np.arange(9.).reshape((3,3)),columns=list('bcd'),
                   index=['東京','大阪','名古屋'])
df2 = pd.DataFrame(np.arange(12.).reshape((4,3)),columns=list('bde'),
                  index=['東京','名古屋','福岡','札幌'])
df1

Unnamed: 0,b,c,d
東京,0.0,1.0,2.0
大阪,3.0,4.0,5.0
名古屋,6.0,7.0,8.0


In [14]:
df2

Unnamed: 0,b,d,e
東京,0.0,1.0,2.0
名古屋,3.0,4.0,5.0
福岡,6.0,7.0,8.0
札幌,9.0,10.0,11.0


In [16]:
# df1とdf2の和集合
df1 + df2

Unnamed: 0,b,c,d,e
名古屋,9.0,,12.0,
大阪,,,,
札幌,,,,
東京,0.0,,3.0,
福岡,,,,


In [22]:
# NaNを０に変える
df1.add(df2).fillna(0)

Unnamed: 0,b,c,d,e
名古屋,9.0,0.0,12.0,0.0
大阪,0.0,0.0,0.0,0.0
札幌,0.0,0.0,0.0,0.0
東京,0.0,0.0,3.0,0.0
福岡,0.0,0.0,0.0,0.0


In [23]:
# 算術メソッド
#
# add,radd  加算
# sub,rsub  減算
# mul,rmul  乗算
# div,rdiv  除算
# pow,rpow  累乗

In [25]:
# シリーズとデータフレームの演算
# データフレーム生成
arr = np.arange(12.).reshape((3,4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [27]:
# データフレーム１行目のシリーズ
arr[0]

array([0., 1., 2., 3.])

In [29]:
# データフレーム - シリーズ
arr-arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [4]:
# 列が違うデータフレームとシリーズの演算
# データフレームとシリーズの和集合を出力
frame = pd.DataFrame(np.arange(12.).reshape((4,3)),
                    columns=list('bde'))
series = pd.Series(range(3), index=['b','e','f']) 
frame + series

Unnamed: 0,b,d,e,f
0,0.0,,3.0,
1,3.0,,6.0,
2,6.0,,9.0,
3,9.0,,12.0,


In [6]:
# 関数の適用
frame = pd.DataFrame(np.random.randn(4,3), columns=list('bde'),
                    index=['東京','大阪','名古屋','札幌'])
frame

Unnamed: 0,b,d,e
東京,-0.289204,0.59753,0.570016
大阪,-0.631754,-0.946009,0.71851
名古屋,2.342323,-0.443206,-0.745535
札幌,1.609665,0.361799,-0.108369


In [8]:
frame.abs()

Unnamed: 0,b,d,e
東京,0.289204,0.59753,0.570016
大阪,0.631754,0.946009,0.71851
名古屋,2.342323,0.443206,0.745535
札幌,1.609665,0.361799,0.108369


In [10]:
# applyは列ごとに適用して集約
f = lambda x: x.max() - x.min()
frame.apply(f)

b    2.974077
d    1.543539
e    1.464045
dtype: float64

In [13]:
#　行ごとに関数を適用
frame.apply(f, axis='columns')

東京     0.886733
大阪     1.664519
名古屋    3.087858
札幌     1.718034
dtype: float64

In [15]:
# 関数は複数の値を返すタイプのものも適用できる
def f(x):
    return pd.Series([x.min(), x.max()], index=['min','max'])

frame.apply(f)

Unnamed: 0,b,d,e
min,-0.631754,-0.946009,-0.745535
max,2.342323,0.59753,0.71851


In [17]:
# 行の軸のインデックスをソート
frame = pd.DataFrame(np.arange(8).reshape((2,4)),
                    index=['three','one'],
                    columns=['d','a','b','c'])
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [20]:
# 列の軸のインデックスをソート
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [22]:
# 降順に列軸のインデックスをソート
frame.sort_index(axis=1,ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [24]:
# 値によるソートはsort_values
obj = pd.Series([5,2,-1,9])
obj.sort_values()

2   -1
1    2
0    5
3    9
dtype: int64

In [29]:
# 欠損値は末尾にソート
obj = pd.Series([5,np.nan,2,-1,np.nan,9])
obj.sort_values()

3   -1.0
2    2.0
0    5.0
5    9.0
1    NaN
4    NaN
dtype: float64

In [33]:
# データフレームの複数の列をソートキーに指定
frame = pd.DataFrame({'a':[0,1,0,1],'b':[4,7,-3,2]})
frame

Unnamed: 0,a,b
0,0,4
1,1,7
2,0,-3
3,1,2


In [34]:
frame.sort_values(by=['a','b'])

Unnamed: 0,a,b
2,0,-3
0,0,4
3,1,2
1,1,7


In [37]:
# 階層型インデックス
# 複数のインデックス階層を軸に持たせることができる
data = pd.Series(np.random.randn(9),
                index=[['a','a','a','b','b','c','c','d','d'],
                      [1,2,3,1,3,1,2,2,3]])
data

a  1   -0.360923
   2    0.708940
   3    1.569237
b  1    1.447664
   3    0.486010
c  1   -1.095139
   2    0.872314
d  2    1.408383
   3   -0.550852
dtype: float64

In [39]:
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

In [41]:
# 部分インデックス参照
data['b']

1    1.447664
3    0.486010
dtype: float64

In [43]:
data['c':'d']

c  1   -1.095139
   2    0.872314
d  2    1.408383
   3   -0.550852
dtype: float64

In [45]:
data.loc[['b','d']]

b  1    1.447664
   3    0.486010
d  2    1.408383
   3   -0.550852
dtype: float64

In [47]:
# 内側の階層を指定
data.loc[:,2]

a    0.708940
c    0.872314
d    1.408383
dtype: float64

In [49]:
# 階層型データをデータフレームに変換
data.unstack()

Unnamed: 0,1,2,3
a,-0.360923,0.70894,1.569237
b,1.447664,,0.48601
c,-1.095139,0.872314,
d,,1.408383,-0.550852


In [30]:
# データフレームの両軸に階層インデックスを持たせる
frame = pd.DataFrame(np.arange(12).reshape((4,3)),
                     index=[['a','a','b','b'],[1,2,1,2]],
                     columns=[['東京','東京','大阪'],['A','B','A']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,東京,東京,大阪
Unnamed: 0_level_1,Unnamed: 1_level_1,A,B,A
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [58]:
# 階層に名前をつける
frame.index.names = ['key1','key2']
frame.columns.names = ['prefs','items']
frame

Unnamed: 0_level_0,prefs,東京,東京,大阪
Unnamed: 0_level_1,items,A,B,A
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [60]:
# 階層の順序変更
frame.swaplevel('key1','key2')

Unnamed: 0_level_0,prefs,東京,東京,大阪
Unnamed: 0_level_1,items,A,B,A
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [66]:
# 1つの階層の値だけでデータをソート
frame.sort_index(level=0)

Unnamed: 0_level_0,prefs,東京,東京,大阪
Unnamed: 0_level_1,items,A,B,A
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [4]:
# データフレームの結合
# 1:N 内部結合
df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                   'data1':range(7)})
df2 = pd.DataFrame({'key':['a','b','d'],
                   'data2':range(3)})
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [5]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [6]:
pd.merge(df1, df2, on='key')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


In [9]:
# 1:N 外部結合
pd.merge(df1, df2, how='outer')

Unnamed: 0,key,data1,data2
0,b,0.0,1.0
1,b,1.0,1.0
2,b,6.0,1.0
3,a,2.0,0.0
4,a,4.0,0.0
5,a,5.0,0.0
6,c,3.0,
7,d,,2.0


In [10]:
# 結合の種類(how)
# inner 両方のテーブルに含まれるキーのみで結合 (デフォルト)
# outer 一方のテーブルに含まれるキーを全て使って結合
# left  左のテーブルのキーを使って結合
# right 右のテーブルのキーを使って結合

In [14]:
# N:N 結合
# 両テーブルのデータの直積になる
df1 = pd.DataFrame({'key':['b','b','a','c','a','b'],
                   'data1': range(6)})
df2 = pd.DataFrame({'key':['a','b','a','b','d'],
                   'data2': range(5)})
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [16]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,a,2
3,b,3
4,d,4


In [19]:
pd.merge(df1, df2, on='key', how='left')

Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,0,3.0
2,b,1,1.0
3,b,1,3.0
4,a,2,0.0
5,a,2,2.0
6,c,3,
7,a,4,0.0
8,a,4,2.0
9,b,5,1.0


In [21]:
# 内部結合の場合は、両方のデータフレームに含まれるキーのデータのみが出力される。
# (キーcのデータは出力されない)
pd.merge(df1, df2, on='key', how='inner')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,b,5,1
5,b,5,3
6,a,2,0
7,a,2,2
8,a,4,0
9,a,4,2


In [26]:
# インデックスをキーとして使う
frame1 = pd.DataFrame({'key': ['a','b','a','a','b','c'],
                      'value': range(6)})
frame2 = pd.DataFrame({'group_val': [3.5,7]}, index=['a','b'])
frame1

Unnamed: 0,key,value
0,a,0
1,b,1
2,a,2
3,a,3
4,b,4
5,c,5


In [28]:
frame2

Unnamed: 0,group_val
a,3.5
b,7.0


In [29]:
# left_on: 左のデータフレームで結合キーとして使う列名を指定
# right_on: 右のデータフレームのインデックスを結合キーとして指定するフラグ
pd.merge(frame1, frame2, left_on='key', right_index=True)

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0
