In [1]:
import numpy as np
import pandas as pd
from pandas import  DataFrame

In [3]:
#  サンプルになるDataFrameを作ります。
# 辞書で作る
dframe1 = DataFrame({'key':['X','Z','Y','Z','X','X'],'data_set_1': np.arange(6)})
dframe1

Unnamed: 0,data_set_1,key
0,0,X
1,1,Z
2,2,Y
3,3,Z
4,4,X
5,5,X


In [4]:
# もう一つ別のDataFrameを作ります。
dframe2 = DataFrame({'key':['Q','Y','Z'],'data_set_2':[1,2,3]})
dframe2

Unnamed: 0,data_set_2,key
0,1,Q
1,2,Y
2,3,Z


In [6]:
#mergeメソッドを使います。これは、多対一
pd.merge(dframe1,dframe2)
# 何も指定しないと共通の部分だけしか残らない （keyのYとZの行のみ残っている）

Unnamed: 0,data_set_1,key,data_set_2
0,1,Z,3
1,3,Z,3
2,2,Y,2


In [8]:
# 自動でマージするkeyを設定されるのではなく
# 自分でどのkeyにするかを（列名）を指定できます。（この場合結果は同じ）
pd.merge(dframe1,dframe2,on='key')

Unnamed: 0,data_set_1,key,data_set_2
0,1,Z,3
1,3,Z,3
2,2,Y,2


In [11]:
# 列名を指定して、どのようにマージするかも選べます。
# howでどっちを基準にするかleft = dframe1のこと
# ・足りないものはNaNで補われる
# ・right側に多いものは削除される（Qのこと）
pd.merge(dframe1,dframe2,on='key',how='left')

Unnamed: 0,data_set_1,key,data_set_2
0,0,X,
1,1,Z,3.0
2,2,Y,2.0
3,3,Z,3.0
4,4,X,
5,5,X,


In [12]:
# howの引数を変えてみましょう。
pd.merge(dframe1,dframe2,on='key',how='right')

Unnamed: 0,data_set_1,key,data_set_2
0,1.0,Z,3
1,3.0,Z,3
2,2.0,Y,2
3,,Q,1


In [13]:
# keyに関して両方のDataFrameのデータを使いたい場合
pd.merge(dframe1,dframe2,on='key',how='outer')

Unnamed: 0,data_set_1,key,data_set_2
0,0.0,X,
1,4.0,X,
2,5.0,X,
3,1.0,Z,3.0
4,3.0,Z,3.0
5,2.0,Y,2.0
6,,Q,1.0


In [14]:
# 今度は多対多
# 両方のDataFrameで、keyに関して複数の行がある。
dframe3 = DataFrame({'key': ['X', 'X', 'X', 'Y', 'Z', 'Z'],
                 'data_set_3': range(6)})
dframe4 = DataFrame({'key': ['Y', 'Y', 'X', 'X', 'Z'],
                 'data_set_4': range(5)})

In [15]:
dframe3

Unnamed: 0,data_set_3,key
0,0,X
1,1,X
2,2,X
3,3,Y
4,4,Z
5,5,Z


In [16]:
dframe4

Unnamed: 0,data_set_4,key
0,0,Y
1,1,Y
2,2,X
3,3,X
4,4,Z


In [17]:
#Show the merge
pd.merge(dframe3, dframe4)

Unnamed: 0,data_set_3,key,data_set_4
0,0,X,2
1,0,X,3
2,1,X,2
3,1,X,3
4,2,X,2
5,2,X,3
6,3,Y,0
7,3,Y,1
8,4,Z,4
9,5,Z,4


In [18]:

# 複数の列名に関して、mergeを使うこともできます。
df_left = DataFrame({'key1': ['SF', 'SF', 'LA'],
                  'key2': ['one', 'two', 'one'],
                  'left_data': [10,20,30]})
df_right = DataFrame({'key1': ['SF', 'SF', 'LA', 'LA'],
                   'key2': ['one', 'one', 'one', 'two'],
                   'right_data': [40,50,60,70]})

In [20]:
df_left

Unnamed: 0,key1,key2,left_data
0,SF,one,10
1,SF,two,20
2,LA,one,30


In [21]:
df_right

Unnamed: 0,key1,key2,right_data
0,SF,one,40
1,SF,one,50
2,LA,one,60
3,LA,two,70


In [22]:
pd.merge(df_left, df_right, on=['key1', 'key2'], how='outer')

Unnamed: 0,key1,key2,left_data,right_data
0,SF,one,10.0,40.0
1,SF,one,10.0,50.0
2,SF,two,20.0,
3,LA,one,30.0,60.0
4,LA,two,,70.0


In [23]:
# 列名が重複している場合は、自動的にsuffix（接尾辞）を付けてくる
pd.merge(df_left,df_right,on='key1')

Unnamed: 0,key1,key2_x,left_data,key2_y,right_data
0,SF,one,10,one,40
1,SF,one,10,one,50
2,SF,two,20,one,40
3,SF,two,20,one,50
4,LA,one,30,one,60
5,LA,one,30,two,70


In [24]:
# 追加する文字列を指定することも可能です。
pd.merge(df_left,df_right, on='key1',suffixes=('_lefty','_righty'))

Unnamed: 0,key1,key2_lefty,left_data,key2_righty,right_data
0,SF,one,10,one,40
1,SF,one,10,one,50
2,SF,two,20,one,40
3,SF,two,20,one,50
4,LA,one,30,one,60
5,LA,one,30,two,70


In [25]:
# まとめ　カラム（列）を元にマージ


# 多対１
# dframe1 = DataFrame({'key':['X','Z','Y','Z','X','X'],'data_set_1': np.arange(6)})
# dframe2 = DataFrame({'key':['Q','Y','Z'],'data_set_2':[1,2,3]})

# pd.merge(dframe1,dframe2)
# pd.merge(dframe1,dframe2,on='key')
# pd.merge(dframe1,dframe2,on='key',how='left')
# pd.merge(dframe1,dframe2,on='key',how='right')
# pd.merge(dframe1,dframe2,on='key',how='outer')



# 多対多（マージは全組み合わせとなる）
# dframe3 = DataFrame({'key': ['X', 'X', 'X', 'Y', 'Z', 'Z'],
#                  'data_set_3': range(6)})
# dframe4 = DataFrame({'key': ['Y', 'Y', 'X', 'X', 'Z'],
#                  'data_set_4': range(5)})
# pd.merge(dframe3, dframe4)



# 複数のキー設定も可
# df_left = DataFrame({'key1': ['SF', 'SF', 'LA'],
#                   'key2': ['one', 'two', 'one'],
#                   'left_data': [10,20,30]})
# df_right = DataFrame({'key1': ['SF', 'SF', 'LA', 'LA'],
#                    'key2': ['one', 'one', 'one', 'two'],
#                    'right_data': [40,50,60,70]})
# pd.merge(df_left, df_right, on=['key1', 'key2'], how='outer')
# pd.merge(df_left,df_right,on='key1')
# pd.merge(df_left,df_right, on='key1',suffixes=('_lefty','_righty'))


# 公式ドキュメントはこちら
# url = 'http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.merge.html'

In [26]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np

In [27]:

# DataFrameを2つ用意します。
df_left = DataFrame({'key': ['X','Y','Z','X','Y'],
                  'data': range(5)})
df_right = DataFrame({'group_data': [10, 20]}, index=['X', 'Y'])

In [28]:
df_left

Unnamed: 0,data,key
0,0,X
1,1,Y
2,2,Z
3,3,X
4,4,Y


In [29]:
df_right

Unnamed: 0,group_data
X,10
Y,20


In [30]:
# key列とindexを使ったマージができます。
pd.merge(df_left,df_right,left_on='key',right_index=True)

Unnamed: 0,data,key,group_data
0,0,X,10
3,3,X,10
1,1,Y,20
4,4,Y,20


In [31]:
# outerも使えます。
pd.merge(df_left,df_right,left_on='key',right_index=True,how='outer')

Unnamed: 0,data,key,group_data
0,0,X,10.0
3,3,X,10.0
1,1,Y,20.0
4,4,Y,20.0
2,2,Z,


In [32]:

# 階層的なindexの場合
df_left_hr = DataFrame({'key1': ['SF','SF','SF','LA','LA'],
                   'key2': [10, 20, 30, 20, 30],
                   'data_set': np.arange(5.)})
df_right_hr = DataFrame(np.arange(10).reshape((5, 2)),
                   index=[['LA','LA','SF','SF','SF'],
                          [20, 10, 10, 10, 20]],
                   columns=['col_1', 'col_2'])

In [33]:
df_left_hr

Unnamed: 0,data_set,key1,key2
0,0.0,SF,10
1,1.0,SF,20
2,2.0,SF,30
3,3.0,LA,20
4,4.0,LA,30


In [34]:
# 階層的なindexの例
df_right_hr

Unnamed: 0,Unnamed: 1,col_1,col_2
LA,20,0,1
LA,10,2,3
SF,10,4,5
SF,10,6,7
SF,20,8,9


In [35]:
# leftは列名で、rightはindexでマージします。
pd.merge(df_left_hr,df_right_hr,left_on=['key1','key2'],right_index=True)

Unnamed: 0,data_set,key1,key2,col_1,col_2
0,0.0,SF,10,4,5
0,0.0,SF,10,6,7
1,1.0,SF,20,8,9
3,3.0,LA,20,0,1


In [36]:
# outer
pd.merge(df_left_hr,df_right_hr,left_on=['key1','key2'],right_index=True,how='outer')

Unnamed: 0,data_set,key1,key2,col_1,col_2
0,0.0,SF,10,4.0,5.0
0,0.0,SF,10,6.0,7.0
1,1.0,SF,20,8.0,9.0
2,2.0,SF,30,,
3,3.0,LA,20,0.0,1.0
4,4.0,LA,30,,
4,,LA,10,2.0,3.0


In [37]:
# joinというメソッドもあります
df_left.join(df_right)

Unnamed: 0,data,key,group_data
0,0,X,
1,1,Y,
2,2,Z,
3,3,X,
4,4,Y,


In [38]:
# まとめ　カラム(列)とインデックス（行）でマージする

# df_left = DataFrame({'key': ['X','Y','Z','X','Y'],
#                   'data': range(5)})
# df_right = DataFrame({'group_data': [10, 20]}, index=['X', 'Y'])
# pd.merge(df_left,df_right,left_on='key',right_index=True)
# pd.merge(df_left,df_right,left_on='key',right_index=True,how='outer')


# # 階層的なindexの場合
# df_left_hr = DataFrame({'key1': ['SF','SF','SF','LA','LA'],
#                    'key2': [10, 20, 30, 20, 30],
#                    'data_set': np.arange(5.)})
# df_right_hr = DataFrame(np.arange(10).reshape((5, 2)),
#                    index=[['LA','LA','SF','SF','SF'],
#                           [20, 10, 10, 10, 20]],
#                    columns=['col_1', 'col_2'])
# pd.merge(df_left_hr,df_right_hr,left_on=['key1','key2'],right_index=True)
# pd.merge(df_left_hr,df_right_hr,left_on=['key1','key2'],right_index=True,how='outer')


# df_left.join(df_right)

In [39]:

# 単純なアレイを用意します。
arr1 = np.arange(9).reshape((3,3))

In [40]:
arr1

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [41]:
# 2つのアレイを列方向（axis=1）に連結します
np.concatenate([arr1,arr1],axis=1)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [6, 7, 8, 6, 7, 8]])

In [42]:
# 行方向（axis=0）に
np.concatenate([arr1,arr1],axis=0)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8],
       [0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [43]:
#  pandas.Seriesでやってみます。
ser1 =  Series([0,1,2],index=['T','U','V'])
ser2 = Series([3,4],index=['X','Y'])

In [44]:
ser1

T    0
U    1
V    2
dtype: int64

In [45]:
ser2

X    3
Y    4
dtype: int64

In [46]:
# concatで、デフォルトは axis=0
pd.concat([ser1,ser2,ser1])

T    0
U    1
V    2
X    3
Y    4
T    0
U    1
V    2
dtype: int64

In [47]:

# 列方向に連結すると、DataFrameが出来ます。
pd.concat([ser1,ser2],axis=1)

Unnamed: 0,0,1
T,0.0,
U,1.0,
V,2.0,
X,,3.0
Y,,4.0


In [48]:

# 階層的なindexを付けてSeriesを連結することもできます。
pd.concat([ser1,ser2],keys=['cat1','cat2'])

cat1  T    0
      U    1
      V    2
cat2  X    3
      Y    4
dtype: int64

In [49]:

# 列方向に連結すると、列の名前になります。
pd.concat([ser1,ser2],axis=1,keys=['cat1','cat2'])

Unnamed: 0,cat1,cat2
T,0.0,
U,1.0,
V,2.0,
X,,3.0
Y,,4.0


In [50]:
# DataFrameでも同じ事ができます。
dframe1 = DataFrame(np.random.randn(4,3), columns=['X', 'Y', 'Z'])
dframe2 = DataFrame(np.random.randn(3, 3), columns=['Y', 'Q', 'X'])

In [51]:
dframe1

Unnamed: 0,X,Y,Z
0,0.059377,0.982454,1.463666
1,2.006227,2.242621,1.545452
2,0.643888,-0.192264,0.691525
3,0.960473,1.692892,-0.787081


In [52]:
dframe2

Unnamed: 0,Y,Q,X
0,1.460716,-0.990927,-0.932073
1,-0.015901,-0.782921,-0.194315
2,1.660561,-0.703723,0.842846


In [53]:
# DataFrameを連結します。
pd.concat([dframe1,dframe2])

Unnamed: 0,Q,X,Y,Z
0,,0.059377,0.982454,1.463666
1,,2.006227,2.242621,1.545452
2,,0.643888,-0.192264,0.691525
3,,0.960473,1.692892,-0.787081
0,-0.990927,-0.932073,1.460716,
1,-0.782921,-0.194315,-0.015901,
2,-0.703723,0.842846,1.660561,


In [54]:
# もとのindexを無視することもできます。
pd.concat([dframe1,dframe2],ignore_index=True)

Unnamed: 0,Q,X,Y,Z
0,,0.059377,0.982454,1.463666
1,,2.006227,2.242621,1.545452
2,,0.643888,-0.192264,0.691525
3,,0.960473,1.692892,-0.787081
4,-0.990927,-0.932073,1.460716,
5,-0.782921,-0.194315,-0.015901,
6,-0.703723,0.842846,1.660561,


In [55]:
# We can specify which specific axes to be used
pd.concat([ser1,ser2],axis=1,join_axes=[['U','V','Y']])

Unnamed: 0,0,1
U,1.0,
V,2.0,
Y,,4.0


In [56]:
# まとめ　マージではなく単純なデータの連結

# # 配列でやってみる
# arr1 = np.arange(9).reshape((3,3))
# np.concatenate([arr1,arr1],axis=1)
# np.concatenate([arr1,arr1],axis=0)


# #  pandas.Seriesでやってみます。
# ser1 =  Series([0,1,2],index=['T','U','V'])
# ser2 = Series([3,4],index=['X','Y'])
# pd.concat([ser1,ser2])
# pd.concat([ser1,ser2,ser1])
# pd.concat([ser1,ser2],axis=1)
# pd.concat([ser1,ser2],keys=['cat1','cat2'])
# pd.concat([ser1,ser2],axis=1,keys=['cat1','cat2'])


# # DataFrameでも同じ事ができます。
# dframe1 = DataFrame(np.random.randn(4,3), columns=['X', 'Y', 'Z'])
# dframe2 = DataFrame(np.random.randn(3, 3), columns=['Y', 'Q', 'X'])
# pd.concat([dframe1,dframe2])
# pd.concat([dframe1,dframe2],ignore_index=True)



# pd.concat([ser1,ser2],axis=1,join_axes=[['U','V','Y']])


# # 公式ドキュメントはこちらです。
# url='http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html'

In [57]:
# いくつかサンプルになるデータを作ります。
ser1 = Series([2,np.nan,4,np.nan,6,np.nan],
           index=['Q','R','S','T','U','V'])

# 長さを同じにします。
ser2 = Series(np.arange(len(ser1), dtype=np.float64),
           index=['Q','R','S','T','U','V'])

In [58]:
ser1

Q    2.0
R    NaN
S    4.0
T    NaN
U    6.0
V    NaN
dtype: float64

In [59]:
ser2

Q    0.0
R    1.0
S    2.0
T    3.0
U    4.0
V    5.0
dtype: float64

In [61]:
np.where(pd.isnull(ser1))
# nanのR,T,Vの位置をもとに配列をwhereは作る

(array([1, 3, 5], dtype=int64),)

In [64]:
np.where(pd.isnull(ser1),ser2,ser1)
# ser1で、isnullでnanの部分にはser2の値が入る nanでないところはser1の値となる

array([2., 1., 4., 3., 6., 5.])

In [65]:
Series(np.where(pd.isnull(ser1),ser2,ser1),index=ser1.index)

Q    2.0
R    1.0
S    4.0
T    3.0
U    6.0
V    5.0
dtype: float64

In [66]:
# 同じ事を、Seriesが持つメソッドで実現できます。
ser1.combine_first(ser2)
# ser1がNaNであれば、ser2の値を使う。

Q    2.0
R    1.0
S    4.0
T    3.0
U    6.0
V    5.0
dtype: float64

In [67]:
# 奇数と偶数からなるDataFrameを作ります。
dframe_odds = DataFrame({'X': [1., np.nan, 3., np.nan],
                     'Y': [np.nan, 5., np.nan, 7.],
                     'Z': [np.nan, 9., np.nan, 11.]})
dframe_evens = DataFrame({'X': [2., 4., np.nan, 6., 8.],
                     'Y': [np.nan, 10., 12., 14., 16.]})

In [68]:
dframe_odds

Unnamed: 0,X,Y,Z
0,1.0,,
1,,5.0,9.0
2,3.0,,
3,,7.0,11.0


In [70]:
dframe_evens

Unnamed: 0,X,Y
0,2.0,
1,4.0,10.0
2,,12.0
3,6.0,14.0
4,8.0,16.0


In [71]:
# 先に奇数のDataFrame、NaNなら、偶数の方をとって、2つのDataFrameをつなげてみます。
dframe_odds.combine_first(dframe_evens)

Unnamed: 0,X,Y,Z
0,1.0,,
1,4.0,5.0,9.0
2,3.0,12.0,
3,6.0,7.0,11.0
4,8.0,16.0,


In [72]:
# まとめ　同じような構造のデータを重ねる(NaN値を消したりできる)

# # いくつかサンプルになるデータを作ります。
# ser1 = Series([2,np.nan,4,np.nan,6,np.nan],
#            index=['Q','R','S','T','U','V'])

# # 長さを同じにします。
# ser2 = Series(np.arange(len(ser1), dtype=np.float64),
#            index=['Q','R','S','T','U','V'])
# Series(np.where(pd.isnull(ser1),ser2,ser1),index=ser1.index)
# # 同じ事を、Seriesが持つメソッドで実現できます。
# ser1.combine_first(ser2)
# # ser1がNaNであれば、ser2の値を使う。

# # 奇数と偶数からなるDataFrameを作ります。
# dframe_odds = DataFrame({'X': [1., np.nan, 3., np.nan],
#                      'Y': [np.nan, 5., np.nan, 7.],
#                      'Z': [np.nan, 9., np.nan, 11.]})
# dframe_evens = DataFrame({'X': [2., 4., np.nan, 6., 8.],
#                      'Y': [np.nan, 10., 12., 14., 16.]})
# # 先に奇数のDataFrame、NaNなら、偶数の方をとって、2つのDataFrameをつなげてみます。
# dframe_odds.combine_first(dframe_evens)


In [73]:

# サンプルを作ります。
dframe1 = DataFrame(np.arange(8).reshape((2, 4)),
                 index=pd.Index(['LA', 'SF'], name='city'),
                 columns=pd.Index(['A', 'B', 'C','D'], name='letter'))
dframe1

letter,A,B,C,D
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
LA,0,1,2,3
SF,4,5,6,7


In [74]:
# stackを使うと、列名をindexにしてSeriesが作れます。
dframe1.stack()

city  letter
LA    A         0
      B         1
      C         2
      D         3
SF    A         4
      B         5
      C         6
      D         7
dtype: int32

In [75]:
# stackを使うと、列名をindexにしてSeriesが作れます。
dframe_st = dframe1.stack()
type(dframe_st)

pandas.core.series.Series

In [77]:
# unstackを使うと、元にもどります。
dframe_st.unstack()

letter,A,B,C,D
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
LA,0,1,2,3
SF,4,5,6,7


In [78]:
#レベルを選べます。
dframe_st.unstack(0)

city,LA,SF
letter,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,4
B,1,5
C,2,6
D,3,7


In [79]:
# 名前の指定も可能です。
dframe_st.unstack('letter')

letter,A,B,C,D
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
LA,0,1,2,3
SF,4,5,6,7


In [80]:
dframe_st.unstack('city')

city,LA,SF
letter,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,4
B,1,5
C,2,6
D,3,7


In [81]:
# NaNの扱い
ser1 = Series([0, 1, 2], index=['Q', 'X', 'Y'])
ser2 = Series([4, 5, 6], index=['X', 'Y', 'Z'])

dframe = pd.concat([ser1, ser2], keys=['Alpha', 'Beta'])
dframe

Alpha  Q    0
       X    1
       Y    2
Beta   X    4
       Y    5
       Z    6
dtype: int64

In [82]:
# unstackでDataFrameができます。
dframe.unstack()

Unnamed: 0,Q,X,Y,Z
Alpha,0.0,1.0,2.0,
Beta,,4.0,5.0,6.0


In [83]:
# stackは、デフォルトでNaNを取り除きます。
dframe.unstack().stack()

Alpha  Q    0.0
       X    1.0
       Y    2.0
Beta   X    4.0
       Y    5.0
       Z    6.0
dtype: float64

In [84]:
# この動きを抑制することもできます。
dframe.unstack().stack(dropna=False)

Alpha  Q    0.0
       X    1.0
       Y    2.0
       Z    NaN
Beta   Q    NaN
       X    4.0
       Y    5.0
       Z    6.0
dtype: float64

In [85]:
# まとめ　SeriesとDataFrameの相互変換
#   unstack  → Seriesに
#   stack     → DataFrameに


# dframe1 = DataFrame(np.arange(8).reshape((2, 4)),
#                  index=pd.Index(['LA', 'SF'], name='city'),
#                  columns=pd.Index(['A', 'B', 'C','D'], name='letter'))
# dframe_st = dframe1.stack()
# type(dframe_st)
# dframe_st.unstack()
# dframe_st.unstack(0)
# dframe_st.unstack('letter')
# dframe_st.unstack('city')


# ser1 = Series([0, 1, 2], index=['Q', 'X', 'Y'])
# ser2 = Series([4, 5, 6], index=['X', 'Y', 'Z'])
# dframe = pd.concat([ser1, ser2], keys=['Alpha', 'Beta'])
# dframe
# dframe.unstack()


# dframe.unstack().stack()
# dframe.unstack().stack(dropna=False)

In [86]:
# このセルの内容は、理解できなくても大丈夫です。
# ただサンプルになるデータを作りたいだけですので、出来たデータをどのような加工するかに注目してください。

import pandas.util.testing as tm
tm.N = 3

# ちょっとした関数を作ります。
def unpivot(frame):
    N, K = frame.shape
    data = {'value' : frame.values.ravel('F'),
            'variable' : np.asarray(frame.columns).repeat(N),
            'date' : np.tile(np.asarray(frame.index), K)}
    return DataFrame(data, columns=['date', 'variable', 'value'])

# DataFrameを作ります。
dframe = unpivot(tm.makeTimeDataFrame())

In [87]:
# 入れ子に重なったデータができます。
dframe

Unnamed: 0,date,variable,value
0,2000-01-03,A,-0.72929
1,2000-01-04,A,0.549964
2,2000-01-05,A,1.628707
3,2000-01-03,B,-0.55918
4,2000-01-04,B,1.702195
5,2000-01-05,B,-0.6977
6,2000-01-03,C,1.365162
7,2000-01-04,C,-1.236748
8,2000-01-05,C,1.465182
9,2000-01-03,D,-1.364809


In [88]:
# 行にdate, 列にvariable、これをvalueで埋めます。
dframe_piv = dframe.pivot('date','variable','value')
dframe_piv

variable,A,B,C,D
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000-01-03,-0.72929,-0.55918,1.365162,-1.364809
2000-01-04,0.549964,1.702195,-1.236748,-0.392436
2000-01-05,1.628707,-0.6977,1.465182,-0.472525


In [89]:
# まとめ　ピボットテーブル
# どのようなピボットテーブルを作るかは、どのよなデータが欲しいかによります。

In [90]:
# 重複したデータを含むDataFrame
dframe = DataFrame({'key1': ['A'] * 2 + ['B'] * 3,
                  'key2': [2, 2, 2, 3, 3]})
dframe

Unnamed: 0,key1,key2
0,A,2
1,A,2
2,B,2
3,B,3
4,B,3


In [91]:
# 重複したデータがあるかどうかがわかります。
dframe.duplicated()

0    False
1     True
2    False
3    False
4     True
dtype: bool

In [92]:
# 重複した行を削除できます。
dframe.drop_duplicates()

Unnamed: 0,key1,key2
0,A,2
2,B,2
3,B,3


In [93]:
# 1つの列に注目して、重複を削除できます。
dframe.drop_duplicates(['key1'])

Unnamed: 0,key1,key2
0,A,2
2,B,2


In [94]:
# 元のデータです。
dframe

Unnamed: 0,key1,key2
0,A,2
1,A,2
2,B,2
3,B,3
4,B,3


In [97]:
# 最初の重複ではなく、最後のデータを残す事もできます。
dframe.drop_duplicates(['key1'],keep='last')

Unnamed: 0,key1,key2
1,A,2
4,B,3


In [98]:
# まとめ　重複データの削除処理


# dframe = DataFrame({'key1': ['A'] * 2 + ['B'] * 3,
#                   'key2': [2, 2, 2, 3, 3]})
# dframe.duplicated()
# dframe.drop_duplicates()
# dframe.drop_duplicates(['key1'])
# dframe.drop_duplicates(['key1'],keep='last')

In [99]:
from pandas import DataFrame

In [100]:

# 簡単なDataFrameを作ります。
dframe = DataFrame({'city':['Alma','Brian Head','Fox Park'],
                    'altitude':[3158,3000,2762]})
dframe

Unnamed: 0,altitude,city
0,3158,Alma
1,3000,Brian Head
2,2762,Fox Park


In [102]:
# マッピングを使うと、簡単に列を追加できます。
state_map={'Alma':'Colorado','Brian Head':'Utah','Fox Park':'Wyoming'}

In [103]:
# mapメソッドを使います。
dframe['state'] = dframe['city'].map(state_map)

In [105]:
dframe

Unnamed: 0,altitude,city,state
0,3158,Alma,Colorado
1,3000,Brian Head,Utah
2,2762,Fox Park,Wyoming


In [106]:
dframe['key1'] = [0,1,2]

In [107]:
dframe

Unnamed: 0,altitude,city,state,key1
0,3158,Alma,Colorado,0
1,3000,Brian Head,Utah,1
2,2762,Fox Park,Wyoming,2


In [108]:
# まとめ　マッピングを使ったキーを元にした簡単な列の追加

# dframe = DataFrame({'city':['Alma','Brian Head','Fox Park'],
#                     'altitude':[3158,3000,2762]})
# state_map={'Alma':'Colorado','Brian Head':'Utah','Fox Park':'Wyoming'}
# dframe['state'] = dframe['city'].map(state_map)

In [109]:
import numpy as np
from pandas import Series

In [110]:
ser1 = Series([1,2,3,4,1,2,3,4])
ser1

0    1
1    2
2    3
3    4
4    1
5    2
6    3
7    4
dtype: int64

In [112]:
# replaceを使って、データを置換できます。
ser1.replace(1,np.nan)
# 多言語と違い最初のものだけでなくすべてに適用される

0    NaN
1    2.0
2    3.0
3    4.0
4    NaN
5    2.0
6    3.0
7    4.0
dtype: float64

In [113]:
# いくつかの置換を一度に指定することも可能です。
ser1.replace([1,4],[100,400])

0    100
1      2
2      3
3    400
4    100
5      2
6      3
7    400
dtype: int64

In [114]:
# 辞書型で渡すことも可能です。
ser1.replace({4:np.nan})

0    1.0
1    2.0
2    3.0
3    NaN
4    1.0
5    2.0
6    3.0
7    NaN
dtype: float64

In [115]:
# まとめ　データの置換replace

# ser1 = Series([1,2,3,4,1,2,3,4])
# ser1.replace(1, np.nan)
# ser1.replace([1,4], [100,400])
# ser1.replace({4: np.nan})

In [116]:
import numpy as np
from pandas import DataFrame

In [117]:
# DataFrameを作ります。
dframe= DataFrame(np.arange(12).reshape((3, 4)),
                 index=['NY', 'LA', 'SF'],
                 columns=['A', 'B', 'C', 'D'])
dframe

Unnamed: 0,A,B,C,D
NY,0,1,2,3
LA,4,5,6,7
SF,8,9,10,11


In [118]:
str.lower('A')

'a'

In [119]:
# indexにmapメソッドがあります。
dframe.index.map(str.lower)

Index(['ny', 'la', 'sf'], dtype='object')

In [121]:
# これをそのまま、もとのindexに代入できます。
dframe.index = dframe.index.map(str.lower)
dframe

Unnamed: 0,A,B,C,D
ny,0,1,2,3
la,4,5,6,7
sf,8,9,10,11


In [122]:
str.title('udemy is good')

'Udemy Is Good'

In [123]:
#DataFrameにrenameというメソッドがあります。
dframe.rename(index=str.title, columns=str.lower)

Unnamed: 0,a,b,c,d
Ny,0,1,2,3
La,4,5,6,7
Sf,8,9,10,11


In [124]:
dframe

Unnamed: 0,A,B,C,D
ny,0,1,2,3
la,4,5,6,7
sf,8,9,10,11


In [125]:
# renameに辞書型を渡す事も可能です。
dframe.rename(index={'ny': 'NEW YORK'},
            columns={'A': 'ALPHA'})

Unnamed: 0,ALPHA,B,C,D
NEW YORK,0,1,2,3
la,4,5,6,7
sf,8,9,10,11


In [126]:
# 元のデータ自体を変更したいときは、inplace=Trueにします。
dframe.rename(index={'ny': 'NEW YORK'}, inplace=True)

In [127]:
dframe

Unnamed: 0,A,B,C,D
NEW YORK,0,1,2,3
la,4,5,6,7
sf,8,9,10,11


In [128]:
# まとめ　インデックスとカラムの名前の変更方法

# dframe= DataFrame(np.arange(12).reshape((3, 4)),
#                  index=['NY', 'LA', 'SF'],
#                  columns=['A', 'B', 'C', 'D'])
# str.lower('A')
# dframe.index.map(str.lower)
# dframe.index = dframe.index.map(str.lower)


# str.title('udemy is good')
# dframe.rename(index=str.title, columns=str.lower)
# dframe.rename(index={'ny': 'NEW YORK'},
#             columns={'A': 'ALPHA'})
# dframe.rename(index={'ny': 'NEW YORK'}, inplace=True)

In [129]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [130]:
years = [1990,1991,1992,2008,2012,2015,1987,1969,2013,2008,1999]

In [131]:
# これを10年ごとにまとめてみます。
decade_bins = [1960,1970,1980,1990,2000,2010,2020]

In [134]:
# カテゴリー分けができます。
# 引数一つ目に分割するデータ、引数二つ目にカテゴリデータ
decade_cat = pd.cut(years,decade_bins)

In [135]:
decade_cat

[(1980, 1990], (1990, 2000], (1990, 2000], (2000, 2010], (2010, 2020], ..., (1980, 1990], (1960, 1970], (2010, 2020], (2000, 2010], (1990, 2000]]
Length: 11
Categories (6, interval[int64]): [(1960, 1970] < (1970, 1980] < (1980, 1990] < (1990, 2000] < (2000, 2010] < (2010, 2020]]

In [136]:
# カテゴリーを表示します。
decade_cat.categories

IntervalIndex([(1960, 1970], (1970, 1980], (1980, 1990], (1990, 2000], (2000, 2010], (2010, 2020]]
              closed='right',
              dtype='interval[int64]')

In [137]:
# カテゴリーをチェックできます。
pd.value_counts(decade_cat)

(2010, 2020]    3
(1990, 2000]    3
(2000, 2010]    2
(1980, 1990]    2
(1960, 1970]    1
(1970, 1980]    0
dtype: int64

In [138]:

# グループの数だけを指定することもできます。
pd.cut(years,2)

[(1968.954, 1992.0], (1968.954, 1992.0], (1968.954, 1992.0], (1992.0, 2015.0], (1992.0, 2015.0], ..., (1968.954, 1992.0], (1968.954, 1992.0], (1992.0, 2015.0], (1992.0, 2015.0], (1992.0, 2015.0]]
Length: 11
Categories (2, interval[float64]): [(1968.954, 1992.0] < (1992.0, 2015.0]]

In [139]:
# まとめ　ビニング(Binning) ヒストグラムを作る感じのもの

# years = [1990,1991,1992,2008,2012,2015,1987,1969,2013,2008,1999]
# decade_bins = [1960,1970,1980,1990,2000,2010,2020]
# decade_cat = pd.cut(years,decade_bins)

# decade_cat.categories
# pd.value_counts(decade_cat)
# pd.cut(years,2)

In [140]:
import numpy as np
from pandas import DataFrame

In [141]:
# 乱数列の種を与えます。
np.random.seed(12345)

In [142]:
dframe = DataFrame(np.random.randn(1000,4))
dframe.head()

Unnamed: 0,0,1,2,3
0,-0.204708,0.478943,-0.519439,-0.55573
1,1.965781,1.393406,0.092908,0.281746
2,0.769023,1.246435,1.007189,-1.296221
3,0.274992,0.228913,1.352917,0.886429
4,-2.001637,-0.371843,1.669025,-0.43857


In [143]:
dframe.tail()

Unnamed: 0,0,1,2,3
995,1.089085,0.251232,-1.451985,1.653126
996,-0.478509,-0.010663,-1.060881,-1.50287
997,-1.946267,1.013592,0.037333,0.133304
998,-1.293122,-0.322542,-0.78296,-0.30334
999,0.089987,0.292291,1.177706,0.882755


In [144]:
dframe.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.067684,0.067924,0.025598,-0.002298
std,0.998035,0.992106,1.006835,0.996794
min,-3.428254,-3.548824,-3.184377,-3.745356
25%,-0.77489,-0.591841,-0.641675,-0.644144
50%,-0.116401,0.101143,0.002073,-0.013611
75%,0.616366,0.780282,0.680391,0.654328
max,3.366626,2.653656,3.260383,3.927528


In [145]:
# 最初の列
col = dframe[0]

In [146]:
col.head()

0   -0.204708
1    1.965781
2    0.769023
3    0.274992
4   -2.001637
Name: 0, dtype: float64

In [149]:
# 3より大きい要素を取り出します。
col[np.abs(col)>3]

523   -3.428254
900    3.366626
Name: 0, dtype: float64

In [150]:
np.abs(dframe)>3

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,False,True,False
6,False,False,False,False
7,False,False,False,False
8,False,False,False,False
9,False,False,False,False


In [152]:
# DataFrameの全列に対して同じ演算をします。
dframe[(np.abs(dframe)>3).any(1)]
# any(1)でどこかの列に該当するものがあるか

Unnamed: 0,0,1,2,3
5,-0.539741,0.476985,3.248944,-1.021228
97,-0.774363,0.552936,0.106061,3.927528
102,-0.655054,-0.56523,3.176873,0.959533
305,-2.315555,0.457246,-0.025907,-3.399312
324,0.050188,1.951312,3.260383,0.963301
400,0.146326,0.508391,-0.196713,-3.745356
499,-0.293333,-0.242459,-3.05699,1.918403
523,-3.428254,-0.296336,-0.439938,-0.867165
586,0.275144,1.179227,-3.184377,1.369891
808,-0.362528,-3.548824,1.553205,-2.186301


In [153]:
np.sign(dframe)

Unnamed: 0,0,1,2,3
0,-1.0,1.0,-1.0,-1.0
1,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,-1.0
3,1.0,1.0,1.0,1.0
4,-1.0,-1.0,1.0,-1.0
5,-1.0,1.0,1.0,-1.0
6,-1.0,1.0,1.0,1.0
7,1.0,1.0,-1.0,-1.0
8,-1.0,-1.0,-1.0,1.0
9,-1.0,1.0,-1.0,1.0


In [154]:
# 絶対値の上限が3になるようにします。
dframe[np.abs(dframe)>3] = np.sign(dframe) *3

In [155]:
dframe.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.067623,0.068473,0.025153,-0.002081
std,0.995485,0.990253,1.003977,0.989736
min,-3.0,-3.0,-3.0,-3.0
25%,-0.77489,-0.591841,-0.641675,-0.644144
50%,-0.116401,0.101143,0.002073,-0.013611
75%,0.616366,0.780282,0.680391,0.654328
max,3.0,2.653656,3.0,3.0


In [157]:
# まとめ　外れ値を上限下限決めて数値を合わせる方法

# dframe = DataFrame(np.random.randn(1000,4))
# dframe.head()
# dframe.tail()
# dframe.describe()

# col = dframe[0]
# col.head()
# col[np.abs(col)>3]
# np.abs(dframe)>3
# dframe[(np.abs(dframe)>3).any(1)]

# np.sign(dframe)
# dframe[np.abs(dframe)>3] = np.sign(dframe) *3
# dframe.describe()

In [158]:
dframe = DataFrame(np.arange(4 * 4).reshape((4, 4)))
# 0,1,2,3をpermutateしたarrayを取得します。
blender = np.random.permutation(4)

In [159]:
dframe

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [160]:
blender

array([1, 3, 2, 0])

In [161]:

# blenderをベースにして、行を入れ替えます
dframe.take(blender)

Unnamed: 0,0,1,2,3
1,4,5,6,7
3,12,13,14,15
2,8,9,10,11
0,0,1,2,3


In [162]:
# データを採りだして逐一戻す場合を考えてみましょう。

In [163]:
# 箱の中に、A,B,C というラベルの付いたビー玉があるとします。
box = np.array(['A','B','C'])
# ランダムにビー玉を取り出す操作を10回やってみましょう。
shaker = np.random.randint(0, len(box), size=10)

In [164]:
box

array(['A', 'B', 'C'], dtype='<U1')

In [165]:
shaker

array([2, 0, 2, 0, 2, 0, 2, 0, 2, 2])

In [166]:
# 実際にはこのように使えます。
hand_grabs = box.take(shaker)
hand_grabs

array(['C', 'A', 'C', 'A', 'C', 'A', 'C', 'A', 'C', 'C'], dtype='<U1')

In [167]:
# まとめ　ランダムにデータを取り出す(取り出したデータは元に戻す)　順列　パーミュテーションpermutation

# dframe = DataFrame(np.arange(4 * 4).reshape((4, 4)))
# blender = np.random.permutation(4)
# dframe.take(blender)


# box = np.array(['A','B','C'])
# shaker = np.random.randint(0, len(box), size=10)
# hand_grabs = box.take(shaker)