In [5]:
import pandas as pd
from pandas import Series # データ列

In [3]:
obj = Series([3,6,9,12])
# Series は配列と違ってインデックスがついている

In [4]:
obj

0     3
1     6
2     9
3    12
dtype: int64

In [7]:
obj.values
# データだけ(インデックスなし)

array([ 3,  6,  9, 12], dtype=int64)

In [8]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
#index付きのデータを作る
#第二次世界大戦の死傷者
ww2_cas = Series([8700000,4300000,3000000,2100000,400000],index=['USSR','Germany','China','Japan','USA'])
ww2_cas

USSR       8700000
Germany    4300000
China      3000000
Japan      2100000
USA         400000
dtype: int64

In [10]:
ww2_cas.index

Index(['USSR', 'Germany', 'China', 'Japan', 'USA'], dtype='object')

In [11]:
obj[0]

3

In [12]:
# 文字列のindexでアクセスできる。
ww2_cas['USA']

400000

In [13]:
# 400万人以上の死傷者を出したのは？
ww2_cas[ww2_cas>4000000]

USSR       8700000
Germany    4300000
dtype: int64

In [14]:
ww2_cas>4000000

USSR        True
Germany     True
China      False
Japan      False
USA        False
dtype: bool

In [15]:
# 普通の辞書のように扱えます。
# USSR があるか？
'USSR' in ww2_cas

True

In [16]:
# 辞書型に変換できます。
ww2_dict = ww2_cas.to_dict()
ww2_dict

{'China': 3000000,
 'Germany': 4300000,
 'Japan': 2100000,
 'USA': 400000,
 'USSR': 8700000}

In [17]:
# 辞書をもとに、Seriesを作ることができます。
WW2_Series = Series(ww2_dict)
WW2_Series

China      3000000
Germany    4300000
Japan      2100000
USA         400000
USSR       8700000
dtype: int64

In [18]:
# indexを明示的に与えることができます。たとえば・・・
countries = ['China','Germany','Japan','USA','USSR','Argentina']

In [19]:
# 別のSeriesを作ります
obj2 = Series(ww2_dict,index=countries)

In [21]:
obj2

China        3000000.0
Germany      4300000.0
Japan        2100000.0
USA           400000.0
USSR         8700000.0
Argentina          NaN
dtype: float64

In [22]:
# nullデータがあるかどうかを確認できます
pd.isnull(obj2)

China        False
Germany      False
Japan        False
USA          False
USSR         False
Argentina     True
dtype: bool

In [23]:
# 逆のこともできます。
pd.notnull(obj2)

China         True
Germany       True
Japan         True
USA           True
USSR          True
Argentina    False
dtype: bool

In [25]:
# もとのデータに戻りましょう。
WW2_Series

China      3000000
Germany    4300000
Japan      2100000
USA         400000
USSR       8700000
dtype: int64

In [26]:
obj2

China        3000000.0
Germany      4300000.0
Japan        2100000.0
USA           400000.0
USSR         8700000.0
Argentina          NaN
dtype: float64

In [27]:
# 両方のデータを足すと、pandasが自動的に、indexでまとめてくれます。
WW2_Series + obj2

Argentina           NaN
China         6000000.0
Germany       8600000.0
Japan         4200000.0
USA            800000.0
USSR         17400000.0
dtype: float64

In [29]:
# Seriesに名前を付けられます。
obj2.name = '第二次世界大戦の死傷者'
obj2

China        3000000.0
Germany      4300000.0
Japan        2100000.0
USA           400000.0
USSR         8700000.0
Argentina          NaN
Name: 第二次世界大戦の死傷者, dtype: float64

In [30]:
# indexに名前を付けることも可能
obj2.index.name = 'Countries'
obj2

Countries
China        3000000.0
Germany      4300000.0
Japan        2100000.0
USA           400000.0
USSR         8700000.0
Argentina          NaN
Name: 第二次世界大戦の死傷者, dtype: float64

In [32]:
obj2.index

Index(['China', 'Germany', 'Japan', 'USA', 'USSR', 'Argentina'], dtype='object', name='Countries')

In [33]:
# まとめ１

# import pandas as pd
# from pandas import Series # データ列

# obj = Series([3,6,9,12])
# obj.values
# obj.index
# obj[1]

# Series([8700000,4300000,3000000,2100000,400000],index=['USSR','Germany','China','Japan','USA'])
# ww2_cas['USA']
# ww2_cas[ww2_cas>4000000]
# ww2_cas>4000000

# 'USSR' in ww2_cas

# ww2_dict = ww2_cas.to_dict()
# WW2_Series = Series(ww2_dict)

# countries = ['China','Germany','Japan','USA','USSR','Argentina']
# obj2 = Series(ww2_dict,index=countries)

# pd.isnull(obj2)
# pd.notnull(obj2)

# WW2_Series + obj2

# obj2.name = '第二次世界大戦の死傷者'
# obj2.index.name = 'Countries'

In [1]:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd

In [2]:
# NFLのデータをサンプルとして使います。
import webbrowser
website = 'http://en.wikipedia.org/wiki/NFL_win-loss_records'
webbrowser.open(website)

True

In [11]:
nfl_frame = pd.read_clipboard()
# pd.read_clipboard()　で　クリップボードにコピーした表を読み込む

In [12]:
nfl_frame

Unnamed: 0,Rank,Team,GP,Won,Lost,Tied,Pct.,First NFL Season,Division
0,1,Dallas Cowboys,898,512,380,6,0.573,1960,NFC East
1,2,Chicago Bears,1386,761,583,42,0.564,1920,NFC North
2,3,Green Bay Packers,1352,743,571,38,0.564,1921,NFC North
3,4,New England Patriots[b],900,500,391,9,0.561,1960,AFC East
4,5,Miami Dolphins,816,452,360,4,0.556,1966,AFC East
5,6,Minnesota Vikings,886,478,397,11,0.546,1961,NFC North


In [13]:
nfl_frame.columns

Index(['Rank', 'Team', 'GP', 'Won', 'Lost', 'Tied', 'Pct.', 'First NFL Season',
       'Division'],
      dtype='object')

In [15]:
nfl_frame['Division']
# 特定のカラム列だけを取得

0     NFC East
1    NFC North
2    NFC North
3     AFC East
4     AFC East
5    NFC North
Name: Division, dtype: object

In [21]:
nfl_frame.Team
# ['カラム名']　か
# .カラム名　　でアクセス

0             Dallas Cowboys
1              Chicago Bears
2          Green Bay Packers
3    New England Patriots[b]
4             Miami Dolphins
5          Minnesota Vikings
Name: Team, dtype: object

In [24]:
nfl_frame[['Team','Division']]
# []内に[]で複数のカラム列を取ってこれる

Unnamed: 0,Team,Division
0,Dallas Cowboys,NFC East
1,Chicago Bears,NFC North
2,Green Bay Packers,NFC North
3,New England Patriots[b],AFC East
4,Miami Dolphins,AFC East
5,Minnesota Vikings,NFC North


In [25]:
# 特定のカラムで新しいDataFrameを作る
DataFrame(nfl_frame, columns=['Team','Division'])

Unnamed: 0,Team,Division
0,Dallas Cowboys,NFC East
1,Chicago Bears,NFC North
2,Green Bay Packers,NFC North
3,New England Patriots[b],AFC East
4,Miami Dolphins,AFC East
5,Minnesota Vikings,NFC North


In [26]:
DataFrame(nfl_frame, columns=['Team', 'Division', 'aaaaaa'])
# 存在しないカラムを指定するとNaNが入る

Unnamed: 0,Team,Division,aaaaaa
0,Dallas Cowboys,NFC East,
1,Chicago Bears,NFC North,
2,Green Bay Packers,NFC North,
3,New England Patriots[b],AFC East,
4,Miami Dolphins,AFC East,
5,Minnesota Vikings,NFC North,


In [27]:
nfl_frame.head(3)
# 上から3行取り出す

Unnamed: 0,Rank,Team,GP,Won,Lost,Tied,Pct.,First NFL Season,Division
0,1,Dallas Cowboys,898,512,380,6,0.573,1960,NFC East
1,2,Chicago Bears,1386,761,583,42,0.564,1920,NFC North
2,3,Green Bay Packers,1352,743,571,38,0.564,1921,NFC North


In [28]:
nfl_frame.tail(4)
# ↓から3行取り出す

Unnamed: 0,Rank,Team,GP,Won,Lost,Tied,Pct.,First NFL Season,Division
2,3,Green Bay Packers,1352,743,571,38,0.564,1921,NFC North
3,4,New England Patriots[b],900,500,391,9,0.561,1960,AFC East
4,5,Miami Dolphins,816,452,360,4,0.556,1966,AFC East
5,6,Minnesota Vikings,886,478,397,11,0.546,1961,NFC North


In [30]:
# indexを使って、行を取り出せる
nfl_frame.iloc[3]

Rank                                      4
Team                New England Patriots[b]
GP                                      900
Won                                     500
Lost                                    391
Tied                                      9
Pct.                                  0.561
First NFL Season                       1960
Division                           AFC East
Name: 3, dtype: object

In [31]:
nfl_frame['Stadium'] = "Levis's Stadium"
# 存在しないカラムに追加すると

In [34]:
# 全部に同じものが挿入される（列全体に値を代入）
nfl_frame

Unnamed: 0,Rank,Team,GP,Won,Lost,Tied,Pct.,First NFL Season,Division,Stadium
0,1,Dallas Cowboys,898,512,380,6,0.573,1960,NFC East,Levis's Stadium
1,2,Chicago Bears,1386,761,583,42,0.564,1920,NFC North,Levis's Stadium
2,3,Green Bay Packers,1352,743,571,38,0.564,1921,NFC North,Levis's Stadium
3,4,New England Patriots[b],900,500,391,9,0.561,1960,AFC East,Levis's Stadium
4,5,Miami Dolphins,816,452,360,4,0.556,1966,AFC East,Levis's Stadium
5,6,Minnesota Vikings,886,478,397,11,0.546,1961,NFC North,Levis's Stadium


In [40]:
# 長さが合っていれば、列への代入が可能。
nfl_frame["Stadium"] = np.arange(6)
nfl_frame

Unnamed: 0,Rank,Team,GP,Won,Lost,Tied,Pct.,First NFL Season,Division,Stadium
0,1,Dallas Cowboys,898,512,380,6,0.573,1960,NFC East,0
1,2,Chicago Bears,1386,761,583,42,0.564,1920,NFC North,1
2,3,Green Bay Packers,1352,743,571,38,0.564,1921,NFC North,2
3,4,New England Patriots[b],900,500,391,9,0.561,1960,AFC East,3
4,5,Miami Dolphins,816,452,360,4,0.556,1966,AFC East,4
5,6,Minnesota Vikings,886,478,397,11,0.546,1961,NFC North,5


In [41]:
# SeriesをDataFrameに追加する
# 準備
stadiums = Series(["Levi's Stadium","AT&T Stadium"],index=[4,0])
stadiums

4    Levi's Stadium
0      AT&T Stadium
dtype: object

In [42]:
#追加
nfl_frame['Stadium']=stadiums
nfl_frame
# 対応したインデックスの行にのみ追加される

Unnamed: 0,Rank,Team,GP,Won,Lost,Tied,Pct.,First NFL Season,Division,Stadium
0,1,Dallas Cowboys,898,512,380,6,0.573,1960,NFC East,AT&T Stadium
1,2,Chicago Bears,1386,761,583,42,0.564,1920,NFC North,
2,3,Green Bay Packers,1352,743,571,38,0.564,1921,NFC North,
3,4,New England Patriots[b],900,500,391,9,0.561,1960,AFC East,
4,5,Miami Dolphins,816,452,360,4,0.556,1966,AFC East,Levi's Stadium
5,6,Minnesota Vikings,886,478,397,11,0.546,1961,NFC North,


In [43]:
# 列を消すことも可能
del nfl_frame['Stadium']
nfl_frame

Unnamed: 0,Rank,Team,GP,Won,Lost,Tied,Pct.,First NFL Season,Division
0,1,Dallas Cowboys,898,512,380,6,0.573,1960,NFC East
1,2,Chicago Bears,1386,761,583,42,0.564,1920,NFC North
2,3,Green Bay Packers,1352,743,571,38,0.564,1921,NFC North
3,4,New England Patriots[b],900,500,391,9,0.561,1960,AFC East
4,5,Miami Dolphins,816,452,360,4,0.556,1966,AFC East
5,6,Minnesota Vikings,886,478,397,11,0.546,1961,NFC North


In [44]:
# 辞書からDataFramesを作ることもできます。
data = { 'City' : ['SF', 'LA', 'NYC'],
             'Population' : [837000, 3880000, 8400000]}

city_frame = DataFrame(data)

#Show
city_frame

Unnamed: 0,City,Population
0,SF,837000
1,LA,3880000
2,NYC,8400000


In [45]:
# まとめ

# データフレーム（テーブル）を使う
# import numpy as np
# from pandas import Series, DataFrame
# import pandas as pd

# クリップボードから作れる
# nfl_frame = pd.read_clipboard()

# カラム(列)関係
# nfl_frame.columns
# nfl_frame['Division']
# nfl_frame.division

# インデックス(行)関係
# nfl_frame.iloc[3]

# データフレーム作成
# ・DataFrame(取得するデータフレームの変数, 引き出すカラム指定)
# DataFrame(nfl_frame, columns=['Team', 'Division', 'aaaaaa'])　aaaaaaは存在しないカラム


# nfl_frame.head(3)
# nfl_frame.tail(4)


# 存在しないカラムに新しく追加できる
# nfl_frame['Stadium'] = "Levis's Stadium"
# nfl_frame["Stadium"] = np.arange(6)

# Seriesをカラムとして追加できる
# stadiums = Series(["Levi's Stadium","AT&T Stadium"],index=[4,0])
# nfl_frame['Stadium']=stadiums

# del nfl_frame['Stadium']

# 辞書からDataFramesを作れる。
# data = { 'City' : ['SF', 'LA', 'NYC'],
#              'Population' : [837000, 3880000, 8400000]}

# city_frame = DataFrame(data)

In [46]:
#indexについて学んでいきます。
my_ser = Series([1,2,3,4],index=['A','B','C','D'])
# indexだけを取り出します。
my_index = my_ser.index

In [47]:
my_ser

A    1
B    2
C    3
D    4
dtype: int64

In [48]:
my_index

Index(['A', 'B', 'C', 'D'], dtype='object')

In [49]:
my_index[2]

'C'

In [50]:
my_index[1:]

Index(['B', 'C', 'D'], dtype='object')

In [51]:
# indexの値を変えることができるでしょうか？
my_index[0] = 'Z'

TypeError: Index does not support mutable operations

In [53]:
ser1 = Series([1,2,3,4],index=['A','B','C','D'])


#  reindexを使って、indexを変えられます。
ser2 = ser1.reindex(['A','B','C','D','E','F'])

In [55]:
ser2
# 自動的に、nullが入ります。

A    1.0
B    2.0
C    3.0
D    4.0
E    NaN
F    NaN
dtype: float64

In [56]:
# 新しいindexの値を埋めることもできます。
ser2.reindex(['A','B','C','D','E','F','G'], fill_value=0)

A    1.0
B    2.0
C    3.0
D    4.0
E    NaN
F    NaN
G    0.0
dtype: float64

In [57]:
ser3 = Series(['USA','Mexico','Canada'],index=[0,5,10])

ser3

0        USA
5     Mexico
10    Canada
dtype: object

In [58]:
# ffillは、forward fillの略です。
ser3.reindex(range(15),method='ffill')

0        USA
1        USA
2        USA
3        USA
4        USA
5     Mexico
6     Mexico
7     Mexico
8     Mexico
9     Mexico
10    Canada
11    Canada
12    Canada
13    Canada
14    Canada
dtype: object

In [61]:
from numpy.random import randn

# 行と列の両方について、Reindexを考えます。
# reshapeを使ってDataFrameを作ってみます。
dframe = DataFrame(randn(25).reshape((5,5)),index=['A','B','D','E','F'],columns=['col1','col2','col3','col4','col5'])
dframe

Unnamed: 0,col1,col2,col3,col4,col5
A,-1.102609,-0.413753,-1.313092,-0.754923,0.765437
B,-2.326685,0.749097,0.029486,-0.06514,-1.730567
D,1.673955,1.24396,-1.030355,-1.365869,-0.047287
E,0.828629,0.854674,1.175296,-1.614783,0.436049
F,1.062913,-0.78671,-0.835324,1.099476,-0.48078


In [62]:
# Cを忘れたので変更する
new_index = ['A','B','C','D','E','F']
dframe2 = dframe.reindex(new_index)
dframe2

Unnamed: 0,col1,col2,col3,col4,col5
A,-1.102609,-0.413753,-1.313092,-0.754923,0.765437
B,-2.326685,0.749097,0.029486,-0.06514,-1.730567
C,,,,,
D,1.673955,1.24396,-1.030355,-1.365869,-0.047287
E,0.828629,0.854674,1.175296,-1.614783,0.436049
F,1.062913,-0.78671,-0.835324,1.099476,-0.48078


In [63]:
#列にも同じような操作ができます。
new_columns = ['col1','col2','col3','col4','col5','col6']

dframe2.reindex(columns=new_columns)

Unnamed: 0,col1,col2,col3,col4,col5,col6
A,-1.102609,-0.413753,-1.313092,-0.754923,0.765437,
B,-2.326685,0.749097,0.029486,-0.06514,-1.730567,
C,,,,,,
D,1.673955,1.24396,-1.030355,-1.365869,-0.047287,
E,0.828629,0.854674,1.175296,-1.614783,0.436049,
F,1.062913,-0.78671,-0.835324,1.099476,-0.48078,


In [64]:
dframe

Unnamed: 0,col1,col2,col3,col4,col5
A,-1.102609,-0.413753,-1.313092,-0.754923,0.765437
B,-2.326685,0.749097,0.029486,-0.06514,-1.730567
D,1.673955,1.24396,-1.030355,-1.365869,-0.047287
E,0.828629,0.854674,1.175296,-1.614783,0.436049
F,1.062913,-0.78671,-0.835324,1.099476,-0.48078


In [69]:

# ixを使うと、素早くReindexが可能です。
dframe.ix[new_index, new_columns]

Unnamed: 0,col1,col2,col3,col4,col5,col6
A,-1.102609,-0.413753,-1.313092,-0.754923,0.765437,
B,-2.326685,0.749097,0.029486,-0.06514,-1.730567,
C,,,,,,
D,1.673955,1.24396,-1.030355,-1.365869,-0.047287,
E,0.828629,0.854674,1.175296,-1.614783,0.436049,
F,1.062913,-0.78671,-0.835324,1.099476,-0.48078,


In [70]:
# まとめ　インデックス・カラム

# my_ser = Series([1,2,3,4],index=['A','B','C','D'])
# my_index = my_ser.index

# アクセス
# my_index[2]
# my_index[1:]

# インデックスの変更・追加
# my_index[0] = 'Z'　←できないエラーになる

# ser1 = Series([1,2,3,4],index=['A','B','C','D'])
# ser2 = ser1.reindex(['A','B','C','D','E','F'])
# ser2.reindex(['A','B','C','D','E','F','G'], fill_value=0)
# ser3 = Series(['USA','Mexico','Canada'],index=[0,5,10])
# ser3.reindex(range(15),method='ffill')


# dframe = DataFrame(randn(25).reshape((5,5)),index=['A','B','D','E','F'],columns=['col1','col2','col3','col4','col5'])

# new_index = ['A','B','C','D','E','F']
# dframe2 = dframe.reindex(new_index)
# new_columns = ['col1','col2','col3','col4','col5','col6']
# dframe2.reindex(columns=new_columns)

# dframe.ix[new_index, new_columns]

In [71]:
ser1 = Series(np.arange(3),index=['a','b','c'])
ser1

a    0
b    1
c    2
dtype: int32

In [72]:
# indexを消すにはdropを使う
ser1.drop('b')

a    0
c    2
dtype: int32

In [73]:
# DataFrameの場合
dframe1 = DataFrame(np.arange(9).reshape((3,3)),index=['SF','LA','NY'],columns=['pop','size','year'])
dframe1

Unnamed: 0,pop,size,year
SF,0,1,2
LA,3,4,5
NY,6,7,8


In [74]:

# indexを指定して、行を削除
dframe1.drop('LA') #, axis=0が省略されている

Unnamed: 0,pop,size,year
SF,0,1,2
NY,6,7,8


In [75]:

# 列（カラム）を削除することも可能です。
# その場合、列の軸を示す、axis=1が必要
dframe1.drop('year',axis=1)

Unnamed: 0,pop,size
SF,0,1
LA,3,4
NY,6,7


In [76]:
ser1 = Series(np.arange(3),index=['A','B','C'])
# 各要素を２倍します。
ser1 = 2*ser1
ser1 

A    0
B    2
C    4
dtype: int32

In [77]:
ser1['B']

2

In [79]:
# 数字の添え字でもアクセスできます。
ser1[1]

2

In [80]:
# 数字の添え字で範囲も指定できます。
ser1[0:3]

A    0
B    2
C    4
dtype: int32

In [81]:
# 文字列のindexをリストで与えることも可能です。
ser1[['A','B','C']]

A    0
B    2
C    4
dtype: int32

In [82]:

# 論理式を与えることもできます。
ser1[ser1>3]

C    4
dtype: int32

In [83]:
# 条件に合った場所の値を変更できます。
ser1[ser1>3] = 10
ser1

A     0
B     2
C    10
dtype: int32

In [84]:

# DataFrameの場合
dframe = DataFrame(np.arange(25).reshape((5,5)),index=['NYC','LA','SF','DC','Chi'],columns=['A','B','C','D','E'])
dframe

Unnamed: 0,A,B,C,D,E
NYC,0,1,2,3,4
LA,5,6,7,8,9
SF,10,11,12,13,14
DC,15,16,17,18,19
Chi,20,21,22,23,24


In [85]:
# 列（カラム）の名前で選択
dframe['B']

NYC     1
LA      6
SF     11
DC     16
Chi    21
Name: B, dtype: int32

In [86]:
# リストで、複数のカラムを選択できます。
dframe[['B','E']]

Unnamed: 0,B,E
NYC,1,4
LA,6,9
SF,11,14
DC,16,19
Chi,21,24


In [87]:
# 論理式を与えることも可能
dframe[dframe['C']>8]

Unnamed: 0,A,B,C,D,E
SF,10,11,12,13,14
DC,15,16,17,18,19
Chi,20,21,22,23,24


In [88]:
# 真偽値（ブーリアン）をそのまま表示することも可能です。
dframe> 10

Unnamed: 0,A,B,C,D,E
NYC,False,False,False,False,False
LA,False,False,False,False,False
SF,False,True,True,True,True
DC,True,True,True,True,True
Chi,True,True,True,True,True


In [92]:
# すでに出てきていますが、ixを使うと、行を選択できます。
dframe.loc['LA']

A    5
B    6
C    7
D    8
E    9
Name: LA, dtype: int32

In [94]:
# ixには、数字の添え字も渡せます。
dframe.ix[1]

A    5
B    6
C    7
D    8
E    9
Name: LA, dtype: int32

In [95]:
dframe

Unnamed: 0,A,B,C,D,E
NYC,0,1,2,3,4
LA,5,6,7,8,9
SF,10,11,12,13,14
DC,15,16,17,18,19
Chi,20,21,22,23,24


In [96]:
# まとめ　データの削除・取り出し


# 削除
# ser1 = Series(np.arange(3),index=['a','b','c'])
# ser1.drop('b')

# dframe1 = DataFrame(np.arange(9).reshape((3,3)),index=['SF','LA','NY'],columns=['pop','size','year'])
# dframe1.drop('LA') #, axis=0が省略されている
# dframe1.drop('year',axis=1)


# アクセス
# ser1 = Series(np.arange(3),index=['A','B','C'])
# ser1['B']
# ser1[1]
# ser1[0:3]
# ser1[['A','B','C']]
# ser1[ser1>3]
# ser1[ser1>3] = 10　代入できる

# dframe = DataFrame(np.arange(25).reshape((5,5)),index=['NYC','LA','SF','DC','Chi'],columns=['A','B','C','D','E'])
# dframe['B']
# dframe[['B','E']]
# dframe[dframe['C']>8]
# dframe> 10
# dframe.loc['LA']
# dframe.ix[1]

In [98]:
# Seriesを2つ作ります
ser1 = Series([0,1,2],index=['A','B','C'])

ser2 = Series([3,4,5,6],index=['A','B','C','D'])

In [99]:
# 足し合わせてみる
ser1 + ser2
# NaNが自動的に追加されます。

A    3.0
B    5.0
C    7.0
D    NaN
dtype: float64

In [100]:
# DataFrameの場合。
dframe1 = DataFrame(np.arange(4).reshape(2,2),columns=list('AB'),index=['NYC','LA'])
dframe1

Unnamed: 0,A,B
NYC,0,1
LA,2,3


In [101]:
dframe2 = DataFrame(np.arange(9).reshape(3,3),columns=list('ADC'),index=['NYC','SF','LA'])
dframe2

Unnamed: 0,A,D,C
NYC,0,1,2
SF,3,4,5
LA,6,7,8


In [102]:
# 足し合わせるとどうなるでしょうか？
dframe1 + dframe2

Unnamed: 0,A,B,C,D
LA,8.0,,,
NYC,0.0,,,
SF,,,,


In [104]:
# addというメソッドを使うと、NaNを置き換えられます。
dframe1.add(dframe2,fill_value=0)

# SF-Bだけ元々存在しないので、置き換わりようがありません。

Unnamed: 0,A,B,C,D
LA,8.0,3.0,8.0,7.0
NYC,0.0,1.0,2.0,1.0
SF,3.0,,5.0,4.0


In [105]:
# DataFrameとSeriesの計算もできます。

In [106]:
dframe2

Unnamed: 0,A,D,C
NYC,0,1,2
SF,3,4,5
LA,6,7,8


In [108]:
# 最初の行で、Seriesを作ります。
ser3 = dframe2.iloc[0]
ser3

A    0
D    1
C    2
Name: NYC, dtype: int32

In [109]:
# 行ごとに引き算されているのがわかります。
dframe2-ser3



Unnamed: 0,A,D,C
NYC,0,0,0
SF,3,3,3
LA,6,6,6


In [110]:
# まとめ　加法

# dframe1 = DataFrame(np.arange(4).reshape(2,2),columns=list('AB'),index=['NYC','LA'])
# dframe2 = DataFrame(np.arange(9).reshape(3,3),columns=list('ADC'),index=['NYC','SF','LA'])

# dframe1 + dframe2
# dframe1.add(dframe2,fill_value=0)

# DataFrameとSeriesの計算。
# ser3 = dframe2.iloc[0]
# # 行ごとに引き算されているのがわかります。
# dframe2-ser3


In [111]:
ser1 = Series(range(3),index=['C','A','B'])
ser1

C    0
A    1
B    2
dtype: int64

In [112]:
# indexで並べ替え(インデックスの早い順)
ser1.sort_index()

A    1
B    2
C    0
dtype: int64

In [113]:
ser1

C    0
A    1
B    2
dtype: int64

In [116]:
# 値で並べ替えももちろんできます。
ser1.sort_values()

C    0
A    1
B    2
dtype: int64

In [117]:
from numpy.random import randn
ser2 = Series(randn(10))
ser2

0    0.801069
1    0.711543
2    2.502918
3   -1.499351
4    2.069741
5    0.331504
6    1.196575
7   -0.357320
8    1.098409
9    0.074068
dtype: float64

In [118]:
# 何番目に来るかを出せる。
ser2.rank()

0     6.0
1     5.0
2    10.0
3     1.0
4     9.0
5     4.0
6     8.0
7     2.0
8     7.0
9     3.0
dtype: float64

In [121]:
ser3 = ser2.sort_values()
ser3

3   -1.499351
7   -0.357320
9    0.074068
5    0.331504
1    0.711543
0    0.801069
8    1.098409
6    1.196575
4    2.069741
2    2.502918
dtype: float64

In [122]:
ser3.rank()

3     1.0
7     2.0
9     3.0
5     4.0
1     5.0
0     6.0
8     7.0
6     8.0
4     9.0
2    10.0
dtype: float64

In [None]:
# まとめ ソートとランク

# ser1.sort_index()
# ser1.sort_values()
# ser1.rank()

# from numpy.random import randn
# ser2 = Series(randn(10))
# ser2
# ser3 = ser2.sort_values()

In [124]:
arr = np.array([[1,2,np.nan],[np.nan,3,4]])
arr

array([[ 1.,  2., nan],
       [nan,  3.,  4.]])

In [125]:
dframe1 = DataFrame(arr,index=['A','B'],columns = ['One','Two','Three'])
dframe1

Unnamed: 0,One,Two,Three
A,1.0,2.0,
B,,3.0,4.0


In [126]:
# 合計を求めるsum
#行方向に計算が進むので、列の合計が見られます。
# axis=0が省略されている
# NaNは無視される
dframe1.sum()

One      1.0
Two      5.0
Three    4.0
dtype: float64

In [127]:
#行の合計を求めたいときは、列方向（axis=1）で計算
dframe1.sum(axis=1)

A    3.0
B    7.0
dtype: float64

In [128]:
# 最小値を求める。
dframe1.min()

One      1.0
Two      2.0
Three    4.0
dtype: float64

In [129]:
# 最大値を求める。
dframe1.max()

One      1.0
Two      3.0
Three    4.0
dtype: float64

In [130]:
# 最小値を保持しているindexを調べられます。
dframe1.idxmin()

One      A
Two      A
Three    B
dtype: object

In [131]:
dframe1

Unnamed: 0,One,Two,Three
A,1.0,2.0,
B,,3.0,4.0


In [132]:
# 累積を求めることができます。(足しこんでいくこと)（列方向）
dframe1.cumsum()

Unnamed: 0,One,Two,Three
A,1.0,2.0,
B,,5.0,4.0


In [133]:

# DataFrameの全体像を簡単に見ることができます。
dframe1.describe()

Unnamed: 0,One,Two,Three
count,1.0,2.0,1.0
mean,1.0,2.5,4.0
std,,0.707107,
min,1.0,2.0,4.0
25%,1.0,2.25,4.0
50%,1.0,2.5,4.0
75%,1.0,2.75,4.0
max,1.0,3.0,4.0


In [151]:

# 株価のデータを使って、共分散と相関をみていきましょう。
# PandasはWebからデータをとってくることも可能です。
import pandas_datareader as pdr
# 日付を扱うために、datetimeをimportします。
import datetime
# 米国のYahooのサービスを使って、株価を取得します。
# すべて石油関連会社
# CVX シェブロン、XOM エクソンモービル、BP 英BP
prices = pdr.DataReader(['CVX','XOM','BP'],'iex',
                                            start=datetime.datetime(2018, 1, 1),
                                            end=datetime.datetime(2019, 1, 1))
prices

2y


{'BP':                open     high      low    close    volume
 date                                                    
 2018-01-02  39.1908  39.5355  38.9578  39.4889   4204919
 2018-01-03  39.5355  39.9641  39.4889  39.9455   4753619
 2018-01-04  40.0760  40.2250  39.9735  40.1039   6113799
 2018-01-05  40.1132  40.2064  39.8989  40.1598   3846437
 2018-01-08  40.0573  40.1785  39.9408  40.1412   3156186
 2018-01-09  39.9735  40.0666  39.7638  39.9455   3450808
 2018-01-10  40.0946  40.1785  39.9735  39.9735   2743226
 2018-01-11  40.0573  40.5791  39.9921  40.3182   7676587
 2018-01-12  40.7562  40.9880  40.6537  40.9146   5649809
 2018-01-16  39.9548  39.9981  39.5204  39.5635   8618371
 2018-01-17  39.7964  40.1412  39.5170  39.9548   4337214
 2018-01-18  39.8803  40.1598  39.8057  39.9735   5004543
 2018-01-19  39.5914  39.6380  39.3221  39.5076   5493967
 2018-01-22  39.9828  40.4300  39.9735  40.4300  10260864
 2018-01-23  40.3462  40.4631  40.1319  40.2903   6382641
 2018-01

In [152]:
# まとめ

# dframe1 = DataFrame(arr,index=['A','B'],columns = ['One','Two','Three'])
# dframe1

# dframe1.sum()
# dframe1.sum(axis=1)
# dframe1.min()
# dframe1.max()
# dframe1.idxmin()
# dframe1.cumsum()
# dframe1.describe()


In [155]:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd

from numpy import nan #NaNのこと

In [158]:
data = Series(['one', 'two', nan, 'four'])
data

0     one
1     two
2     NaN
3    four
dtype: object

In [160]:
data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [161]:
data.dropna()

0     one
1     two
3    four
dtype: object

In [163]:
dframe = DataFrame([[1,2,3],[nan,5,6],[7,nan,9],[nan,nan,nan]])

In [164]:
dframe

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0
3,,,


In [165]:
dframe.dropna()
# 欠損値がある行が全て消えている

Unnamed: 0,0,1,2
0,1.0,2.0,3.0


In [166]:
dframe.dropna(how='all')
# 消し方の指定　all行のすべてが欠損値なら削除する

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0


In [167]:
dframe.dropna(axis=1)
# 列方向　欠損値ある列全て消す

0
1
2
3


In [169]:
dframe2 = DataFrame([[1,2,3,nan], [2,nan,5,6], [nan,7,nan,9], [1,nan,nan,nan]])
dframe2

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0
2,,7.0,,9.0
3,1.0,,,


In [171]:
dframe2.dropna(thresh=2)
# スレッシュホールド（閾値）２
# 欠損値でないデータが2個以上

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0
2,,7.0,,9.0


In [172]:
dframe2.dropna(thresh=3)

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0


In [174]:
dframe2.fillna(1)
# NaNに1を埋める

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,1.0
1,2.0,1.0,5.0,6.0
2,1.0,7.0,1.0,9.0
3,1.0,1.0,1.0,1.0


In [175]:
dframe2.fillna({0:0, 1:1, 2:2, 3:3})
# {列:埋める値, 列:埋める値, ...}
# とすることもできる

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,3.0
1,2.0,1.0,5.0,6.0
2,0.0,7.0,2.0,9.0
3,1.0,1.0,2.0,3.0


In [178]:
dframe2.fillna(0, inplace=True)
# inplaceで直接書き換えが行える

In [177]:
dframe2

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,0.0
1,2.0,0.0,5.0,6.0
2,0.0,7.0,0.0,9.0
3,1.0,0.0,0.0,0.0


In [179]:
# まとめ　欠損値の扱い

# import numpy as np
# from pandas import Series, DataFrame
# import pandas as pd

# from numpy import nan #NaNのこと


# data = Series(['one', 'two', nan, 'four'])
# data.isnull()
# data.dropna()


# dframe = DataFrame([[1,2,3],[nan,5,6],[7,nan,9],[nan,nan,nan]])
# dframe.dropna()
# dframe.dropna(how='all')
# dframe.dropna(axis=1)


# dframe2 = DataFrame([[1,2,3,nan], [2,nan,5,6], [nan,7,nan,9], [1,nan,nan,nan]])
# dframe2.dropna(thresh=2)
# dframe2.dropna(thresh=3)
# dframe2.fillna(1)
# dframe2.fillna({0:0, 1:1, 2:2, 3:3})
# dframe2.fillna(0, inplace=True)


In [180]:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd

from numpy.random import randn

In [185]:
ser = Series(np.random.randn(6), index=[[1,1,1,2,2,2],['a','b','c','a','b','c']])
ser

1  a    0.801966
   b    0.278408
   c   -0.729523
2  a    0.482146
   b   -0.077577
   c    0.499550
dtype: float64

In [186]:
ser.index

MultiIndex(levels=[[1, 2], ['a', 'b', 'c']],
           labels=[[0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]])

In [187]:
ser[1]

a    0.801966
b    0.278408
c   -0.729523
dtype: float64

In [189]:
ser[2]

a    0.482146
b   -0.077577
c    0.499550
dtype: float64

In [190]:
ser

1  a    0.801966
   b    0.278408
   c   -0.729523
2  a    0.482146
   b   -0.077577
   c    0.499550
dtype: float64

In [192]:
ser[:,'a']

1    0.801966
2    0.482146
dtype: float64

In [194]:
dframe = ser.unstack()
# データフレームにする
dframe

Unnamed: 0,a,b,c
1,0.801966,0.278408,-0.729523
2,0.482146,-0.077577,0.49955


In [195]:
dframe.unstack()

a  1    0.801966
   2    0.482146
b  1    0.278408
   2   -0.077577
c  1   -0.729523
   2    0.499550
dtype: float64

In [196]:
# 逆もできます。
dframe.T.unstack()

1  a    0.801966
   b    0.278408
   c   -0.729523
2  a    0.482146
   b   -0.077577
   c    0.499550
dtype: float64

In [197]:

#  DataFrameにも階層的なindexを作れます。
dframe2 = DataFrame(np.arange(16).reshape(4,4),
                    index=[['a','a','b','b'],[1,2,1,2]],
                    columns=[['NY','NY','LA','SF'],['cold','hot','hot','cold']])
dframe2                     

Unnamed: 0_level_0,Unnamed: 1_level_0,NY,NY,LA,SF
Unnamed: 0_level_1,Unnamed: 1_level_1,cold,hot,hot,cold
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


In [199]:
#階層的なindexに名前を付けられます。
# 行方向の名前
dframe2.index.names = ['INDEX_1','INDEX_2']
# 列方向の名前
dframe2.columns.names = ['Cities','Temp']
dframe2

Unnamed: 0_level_0,Cities,NY,NY,LA,SF
Unnamed: 0_level_1,Temp,cold,hot,hot,cold
INDEX_1,INDEX_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


In [200]:
# 階層構造を逆にすることができます。今回は列方向で試します。
dframe2.swaplevel('Cities','Temp',axis=1)

Unnamed: 0_level_0,Temp,cold,hot,hot,cold
Unnamed: 0_level_1,Cities,NY,NY,LA,SF
INDEX_1,INDEX_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


In [203]:
dframe2.sort_index(level=1)
# INDEX_1 がlevel=0 INDEX_2がlevel=1にあたる左からレベルは大きくなる

Unnamed: 0_level_0,Cities,NY,NY,LA,SF
Unnamed: 0_level_1,Temp,cold,hot,hot,cold
INDEX_1,INDEX_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
b,1,8,9,10,11
a,2,4,5,6,7
b,2,12,13,14,15


In [205]:
dframe2.sort_index(level=1).sort_index(level=0)
# 元に戻る

Unnamed: 0_level_0,Cities,NY,NY,LA,SF
Unnamed: 0_level_1,Temp,cold,hot,hot,cold
INDEX_1,INDEX_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


In [206]:
#レベルに応じて計算も出来ます。
dframe2.sum(level='Temp',axis=1)

Unnamed: 0_level_0,Temp,cold,hot
INDEX_1,INDEX_2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,3,3
a,2,11,11
b,1,19,19
b,2,27,27


In [None]:
# まとめ　indexの階層構造　(レベルの概念)

# import numpy as np
# from pandas import Series, DataFrame
# import pandas as pd

# from numpy.random import randn


# ser = Series(np.random.randn(6), index=[[1,1,1,2,2,2],['a','b','c','a','b','c']])
# ser.index
# ser[1]
# ser[2]
# ser[:,'a']


# dframe = ser.unstack()
# dframe.unstack()
# dframe.T.unstack()


# dframe2 = DataFrame(np.arange(16).reshape(4,4),
#                     index=[['a','a','b','b'],[1,2,1,2]],
#                     columns=[['NY','NY','LA','SF'],['cold','hot','hot','cold']])
# dframe2.index.names = ['INDEX_1','INDEX_2']
# dframe2.columns.names = ['Cities','Temp']
# dframe2.swaplevel('Cities','Temp',axis=1)
# dframe2.sort_index(level=1)
# dframe2.sort_index(level=1).sort_index(level=0)
# dframe2.sum(level='Temp',axis=1)

