# Lec14_Series（１次元のデータ列）

In [1]:
import numpy as np
import pandas as pd
from pandas import Series

### Array(NumPy) と Series(Pandas) の違い … SeriesはIndexを持つ

In [2]:
obj = Series([3,6,9,12])
obj

0     3
1     6
2     9
3    12
dtype: int64

In [3]:
# Arrayで値を返す
obj.values

array([ 3,  6,  9, 12])

In [4]:
# indexを表示する
obj.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
# index付きでデータを作る
# 第二次世界対戦の死傷者数
ww2_cas = Series([8700000,4300000,3000000,2100000,4000000],index=['USSR','Germany','China','Japan','USA'])
ww2_cas

USSR       8700000
Germany    4300000
China      3000000
Japan      2100000
USA        4000000
dtype: int64

In [6]:
# index(文字列)で参照する
ww2_cas['Japan']

2100000

In [7]:
# 4million以上の死傷者を出した国を参照
ww2_cas[ww2_cas > 4000000]

USSR       8700000
Germany    4300000
dtype: int64

In [8]:
# 辞書型と同様に扱うことができる。USSRの死傷者数データはあるか
'USSR' in ww2_cas

True

In [9]:
# Seriesを辞書型に変換
ww2_dict = ww2_cas.to_dict()
ww2_dict

{'China': 3000000,
 'Germany': 4300000,
 'Japan': 2100000,
 'USA': 4000000,
 'USSR': 8700000}

In [10]:
# 辞書型をSeriesに変換
ww2_Series = Series(ww2_dict)
ww2_Series

China      3000000
Germany    4300000
Japan      2100000
USA        4000000
USSR       8700000
dtype: int64

In [11]:
# Indexを明示的に与えて、別のSeriesを作る
countries = ['Japan','Germany','USA','USSR','Algentina','China']
obj2 = Series(ww2_dict, index=countries)
obj2

Japan        2100000.0
Germany      4300000.0
USA          4000000.0
USSR         8700000.0
Algentina          NaN
China        3000000.0
dtype: float64

In [12]:
# Seriesの要素にnullがあるかを確認
pd.isnull(obj2)

Japan        False
Germany      False
USA          False
USSR         False
Algentina     True
China        False
dtype: bool

In [13]:
# Seriesのnullでない要素を確認
pd.notnull(obj2)

Japan         True
Germany       True
USA           True
USSR          True
Algentina    False
China         True
dtype: bool

In [14]:
ww2_Series

China      3000000
Germany    4300000
Japan      2100000
USA        4000000
USSR       8700000
dtype: int64

In [15]:
obj2

Japan        2100000.0
Germany      4300000.0
USA          4000000.0
USSR         8700000.0
Algentina          NaN
China        3000000.0
dtype: float64

In [16]:
# Series同士の足し算では、indexごとに合算される
ww2_Series + obj2

Algentina           NaN
China         6000000.0
Germany       8600000.0
Japan         4200000.0
USA           8000000.0
USSR         17400000.0
dtype: float64

In [17]:
# Seriesに名前をつける
obj2.name = 'World War II casualties'
obj2

Japan        2100000.0
Germany      4300000.0
USA          4000000.0
USSR         8700000.0
Algentina          NaN
China        3000000.0
Name: World War II casualties, dtype: float64

In [18]:
# Seriesのindexに名前をつける
obj2.index.name = 'Countries'
obj2

Countries
Japan        2100000.0
Germany      4300000.0
USA          4000000.0
USSR         8700000.0
Algentina          NaN
China        3000000.0
Name: World War II casualties, dtype: float64

## データ列に名前はつけられないのか？

# Lec15_DataFrame

In [19]:
import numpy as np
import pandas as pd
from pandas import DataFrame

In [20]:
# NPB AllPacificの2000年年間成績データを使用
import webbrowser
website = 'https://ja.wikipedia.org/wiki/2000%E5%B9%B4%E3%81%AE%E9%87%8E%E7%90%83#.E3.83.9A.E3.83.8A.E3.83.B3.E3.83.88.E3.83.AC.E3.83.BC.E3.82.B9'
webbrowser.open(website)

True

In [21]:
# ClipBoardから読込み
NPB_P = pd.read_clipboard()
NPB_P

Unnamed: 0,順位,球団,勝,敗,分,勝率,差
0,優勝,福岡ダイエーホークス,73,60,2,0.549,-
1,2位,西武ライオンズ,69,61,5,0.531,2.5
2,3位,日本ハムファイターズ,69,65,1,0.515,4.5
3,4位,オリックス・ブルーウェーブ,64,67,4,0.489,8.0
4,5位,千葉ロッテマリーンズ,62,67,6,0.481,9.0
5,6位,大阪近鉄バファローズ,58,75,2,0.436,15.0


In [22]:
# 列の名称を参照
NPB_P.columns

Index(['順位', '球団', '勝', '敗', '分', '勝率', '差'], dtype='object')

In [23]:
# 列の要素を参照
NPB_P['球団']

0       福岡ダイエーホークス
1          西武ライオンズ
2       日本ハムファイターズ
3    オリックス・ブルーウェーブ
4       千葉ロッテマリーンズ
5       大阪近鉄バファローズ
Name: 球団, dtype: object

In [24]:
# Pythonのオブジェクト属性(?)でも参照可能
NPB_P.球団

0       福岡ダイエーホークス
1          西武ライオンズ
2       日本ハムファイターズ
3    オリックス・ブルーウェーブ
4       千葉ロッテマリーンズ
5       大阪近鉄バファローズ
Name: 球団, dtype: object

In [25]:
# 先頭５行を表示
NPB_P.head()

Unnamed: 0,順位,球団,勝,敗,分,勝率,差
0,優勝,福岡ダイエーホークス,73,60,2,0.549,-
1,2位,西武ライオンズ,69,61,5,0.531,2.5
2,3位,日本ハムファイターズ,69,65,1,0.515,4.5
3,4位,オリックス・ブルーウェーブ,64,67,4,0.489,8.0
4,5位,千葉ロッテマリーンズ,62,67,6,0.481,9.0


In [26]:
# 最後２行を表示
NPB_P.tail(2)

Unnamed: 0,順位,球団,勝,敗,分,勝率,差
4,5位,千葉ロッテマリーンズ,62,67,6,0.481,9.0
5,6位,大阪近鉄バファローズ,58,75,2,0.436,15.0


In [27]:
# indexを使って、行を参照する
NPB_P.ix[0]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  


順位            優勝
球団    福岡ダイエーホークス
勝             73
敗             60
分              2
勝率         0.549
差              -
Name: 0, dtype: object

# 列を絞って新しいDataFrameを作る

In [30]:
# 新しい列を追加してDataFrameを作る
DataFrame(NPB_P, columns=['順位','球団','勝率','球場'])

Unnamed: 0,順位,球団,勝率,球場
0,優勝,福岡ダイエーホークス,0.549,
1,2位,西武ライオンズ,0.531,
2,3位,日本ハムファイターズ,0.515,
3,4位,オリックス・ブルーウェーブ,0.489,
4,5位,千葉ロッテマリーンズ,0.481,
5,6位,大阪近鉄バファローズ,0.436,


In [31]:
# 列全体に値を代入する
NPB_P['球場']='福岡ヤフオク！ドーム'
NPB_P

Unnamed: 0,順位,球団,勝,敗,分,勝率,差,球場
0,優勝,福岡ダイエーホークス,73,60,2,0.549,-,福岡ヤフオク！ドーム
1,2位,西武ライオンズ,69,61,5,0.531,2.5,福岡ヤフオク！ドーム
2,3位,日本ハムファイターズ,69,65,1,0.515,4.5,福岡ヤフオク！ドーム
3,4位,オリックス・ブルーウェーブ,64,67,4,0.489,8.0,福岡ヤフオク！ドーム
4,5位,千葉ロッテマリーンズ,62,67,6,0.481,9.0,福岡ヤフオク！ドーム
5,6位,大阪近鉄バファローズ,58,75,2,0.436,15.0,福岡ヤフオク！ドーム


In [32]:
# 行数と一致していれば、列への数値代入が可能
NPB_P['球場']= np.arange(6)
NPB_P

Unnamed: 0,順位,球団,勝,敗,分,勝率,差,球場
0,優勝,福岡ダイエーホークス,73,60,2,0.549,-,0
1,2位,西武ライオンズ,69,61,5,0.531,2.5,1
2,3位,日本ハムファイターズ,69,65,1,0.515,4.5,2
3,4位,オリックス・ブルーウェーブ,64,67,4,0.489,8.0,3
4,5位,千葉ロッテマリーンズ,62,67,6,0.481,9.0,4
5,6位,大阪近鉄バファローズ,58,75,2,0.436,15.0,5


In [33]:
# SeriesをDataFrameに追加する
stadiums = Series(['福岡ドーム', '大阪ドーム'], index=[0,5])
stadiums

0    福岡ドーム
5    大阪ドーム
dtype: object

## ここはもう少し遊んでみる

In [34]:
NPB_P['球場'] = stadiums
NPB_P

Unnamed: 0,順位,球団,勝,敗,分,勝率,差,球場
0,優勝,福岡ダイエーホークス,73,60,2,0.549,-,福岡ドーム
1,2位,西武ライオンズ,69,61,5,0.531,2.5,
2,3位,日本ハムファイターズ,69,65,1,0.515,4.5,
3,4位,オリックス・ブルーウェーブ,64,67,4,0.489,8.0,
4,5位,千葉ロッテマリーンズ,62,67,6,0.481,9.0,
5,6位,大阪近鉄バファローズ,58,75,2,0.436,15.0,大阪ドーム


In [35]:
# 列を削除する
del NPB_P['球場']
NPB_P

Unnamed: 0,順位,球団,勝,敗,分,勝率,差
0,優勝,福岡ダイエーホークス,73,60,2,0.549,-
1,2位,西武ライオンズ,69,61,5,0.531,2.5
2,3位,日本ハムファイターズ,69,65,1,0.515,4.5
3,4位,オリックス・ブルーウェーブ,64,67,4,0.489,8.0
4,5位,千葉ロッテマリーンズ,62,67,6,0.481,9.0
5,6位,大阪近鉄バファローズ,58,75,2,0.436,15.0


In [36]:
# 辞書型からDataFrameを作ることも可能
data = {'都市':['福岡','神戸','大阪'],'人口':[1341470,1493398,2598774]}
data

{'人口': [1341470, 1493398, 2598774], '都市': ['福岡', '神戸', '大阪']}

In [37]:
city_pop = DataFrame(data)
city_pop

Unnamed: 0,人口,都市
0,1341470,福岡
1,1493398,神戸
2,2598774,大阪


In [38]:
# pandas.DataFrameの機能の全体は、ドキュメントを参照
website = 'http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.html'
webbrowser.open(website)

True

# Lec16_Indexの基本

In [39]:
import numpy as np
import pandas as pd
from pandas import Series

In [40]:
# SeriesからIndexだけ取り出す
series = Series([1,2,3,4], index=['A','B','C','D'])
Index = series.index
Index

Index(['A', 'B', 'C', 'D'], dtype='object')

In [41]:
Index[2]

'C'

In [42]:
# スライス
Index[2:]

Index(['C', 'D'], dtype='object')

In [43]:
# Indexの値は変えられない
Index[0] = 'X'

TypeError: Index does not support mutable operations

# Lec17_Indexを変える

In [44]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
from numpy.random import randn

In [45]:
ser1 = Series([1,2,3,4], index=['A','B','C','D'])
ser1

A    1
B    2
C    3
D    4
dtype: int64

In [46]:
# indexを変える
ser2 = ser1.reindex(['A','B','C','D','E','F'])
ser2

A    1.0
B    2.0
C    3.0
D    4.0
E    NaN
F    NaN
dtype: float64

In [47]:
# 新しいIndexの値を指定した値で埋める
ser2.reindex(['A','B','C','D','E','F','G'], fill_value=2)

A    1.0
B    2.0
C    3.0
D    4.0
E    NaN
F    NaN
G    2.0
dtype: float64

In [48]:
ser3 = Series(['Japan','USA','Italia','Scotland'], index=[0,3,5,7])
ser3

0       Japan
3         USA
5      Italia
7    Scotland
dtype: object

In [49]:
# 次のIndexまで同じ値で埋める
ser3.reindex(range(12), method='ffill')

0        Japan
1        Japan
2        Japan
3          USA
4          USA
5       Italia
6       Italia
7     Scotland
8     Scotland
9     Scotland
10    Scotland
11    Scotland
dtype: object

In [50]:
# DataFrameの行列のIndexを変える
dframe = DataFrame(randn(25).reshape((5,5)), index=['A','B','D','E','F'], columns=['col1','col2','col3','col4','col5'])
dframe

Unnamed: 0,col1,col2,col3,col4,col5
A,-0.053099,0.030202,-2.252611,1.025765,0.834323
B,0.809982,0.956379,-0.958995,-0.974383,0.70341
D,-2.247754,1.294941,1.315007,-0.073153,0.903285
E,0.268186,0.844801,-0.999804,0.236284,1.279595
F,0.827391,-0.033572,-0.50253,-1.011869,1.655667


In [51]:
# Index'C'の行を追加
new_index = ['A','B','C','D','E','F']
dframe2 = dframe.reindex(new_index)
dframe2

Unnamed: 0,col1,col2,col3,col4,col5
A,-0.053099,0.030202,-2.252611,1.025765,0.834323
B,0.809982,0.956379,-0.958995,-0.974383,0.70341
C,,,,,
D,-2.247754,1.294941,1.315007,-0.073153,0.903285
E,0.268186,0.844801,-0.999804,0.236284,1.279595
F,0.827391,-0.033572,-0.50253,-1.011869,1.655667


In [52]:
# 'col6'の列を追加
new_columns = ['col1','col2','col3','col4','col5','col6']
dframe2.reindex(columns=new_columns)

Unnamed: 0,col1,col2,col3,col4,col5,col6
A,-0.053099,0.030202,-2.252611,1.025765,0.834323,
B,0.809982,0.956379,-0.958995,-0.974383,0.70341,
C,,,,,,
D,-2.247754,1.294941,1.315007,-0.073153,0.903285,
E,0.268186,0.844801,-0.999804,0.236284,1.279595,
F,0.827391,-0.033572,-0.50253,-1.011869,1.655667,


In [53]:
# ixを使って参照する
dframe.ix[new_index, new_columns]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  


Unnamed: 0,col1,col2,col3,col4,col5,col6
A,-0.053099,0.030202,-2.252611,1.025765,0.834323,
B,0.809982,0.956379,-0.958995,-0.974383,0.70341,
C,,,,,,
D,-2.247754,1.294941,1.315007,-0.073153,0.903285,
E,0.268186,0.844801,-0.999804,0.236284,1.279595,
F,0.827391,-0.033572,-0.50253,-1.011869,1.655667,


# Lec18_行や列を削除する

In [54]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [55]:
# Seriesの行を消す
ser1 = Series(np.arange(3), index=['a','b','c'])
ser1

a    0
b    1
c    2
dtype: int64

In [56]:
ser1.drop('b')

a    0
c    2
dtype: int64

In [57]:
# DataFrameの行を消す
dframe1 = DataFrame(np.arange(9).reshape((3,3)), index=['SF','LA','NY'], columns=['pop','size','year'])
dframe1

Unnamed: 0,pop,size,year
SF,0,1,2
LA,3,4,5
NY,6,7,8


In [58]:
dframe1.drop('LA', axis=0)

Unnamed: 0,pop,size,year
SF,0,1,2
NY,6,7,8


In [59]:
# DataFrameの列を消す
dframe1.drop('year', axis=1)

Unnamed: 0,pop,size
SF,0,1
LA,3,4
NY,6,7


# Lec19_データを取り出す

In [60]:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd

## Series の場合

In [61]:
ser1 = Series(np.arange(5), index=['A','B','C','D','E'])
ser1

A    0
B    1
C    2
D    3
E    4
dtype: int64

In [62]:
# Seriesの各要素を２倍する
ser1 * 2

A    0
B    2
C    4
D    6
E    8
dtype: int64

In [63]:
# 添え字でSeriesの要素を参照
ser1[1]

1

In [64]:
# スライスでSeriesの要素を参照
ser1[1:3]

B    1
C    2
dtype: int64

In [65]:
# 論理式でSeriesの要素を参照
ser1[ser1 > 2]

D    3
E    4
dtype: int64

In [66]:
# 論理式の条件にあった要素の値を更新する
ser1[ser1 >2]=12
ser1

A     0
B     1
C     2
D    12
E    12
dtype: int64

## DataFrameの場合

In [67]:
dframe = DataFrame(np.arange(25).reshape((5,5)), index=['NYC','LA','SF','DC','CHI'], columns=['A','B','C','D','E'])
dframe

Unnamed: 0,A,B,C,D,E
NYC,0,1,2,3,4
LA,5,6,7,8,9
SF,10,11,12,13,14
DC,15,16,17,18,19
CHI,20,21,22,23,24


In [68]:
# カラム名称で参照
dframe['B']

NYC     1
LA      6
SF     11
DC     16
CHI    21
Name: B, dtype: int64

In [69]:
# リストで複数の列を参照
dframe[['B','E']]

Unnamed: 0,B,E
NYC,1,4
LA,6,9
SF,11,14
DC,16,19
CHI,21,24


In [70]:
# 論理式で参照
dframe[dframe['C']>8]

Unnamed: 0,A,B,C,D,E
SF,10,11,12,13,14
DC,15,16,17,18,19
CHI,20,21,22,23,24


In [71]:
# 論理式の真偽値を返す
dframe > 10

Unnamed: 0,A,B,C,D,E
NYC,False,False,False,False,False
LA,False,False,False,False,False
SF,False,True,True,True,True
DC,True,True,True,True,True
CHI,True,True,True,True,True


In [72]:
# ix行を参照
dframe.ix['LA']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  


A    5
B    6
C    7
D    8
E    9
Name: LA, dtype: int64

In [73]:
# ixは数字の添え字でも参照可能
dframe.ix[1]

A    5
B    6
C    7
D    8
E    9
Name: LA, dtype: int64

# Lec20_形の違うデータの計算

In [74]:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd

## Seriesの場合

In [75]:
ser1 = Series([0,1,2],index=['A','B','C'])
ser1

A    0
B    1
C    2
dtype: int64

In [76]:
ser2 = Series([3,4,5,6],index=['A','B','C','D'])
ser2

A    3
B    4
C    5
D    6
dtype: int64

In [77]:
# Seriesの合算
ser1 + ser2

# 片側にしか存在しない要素はnull値になる

A    3.0
B    5.0
C    7.0
D    NaN
dtype: float64

## DataFrameの場合

In [78]:
dframe1 = DataFrame(np.arange(4).reshape(2,2),columns=list('AB'),index=['NYC','LA'])
dframe1

Unnamed: 0,A,B
NYC,0,1
LA,2,3


In [79]:
dframe2 = DataFrame(np.arange(9).reshape(3,3),columns=list('ADC'),index=['NYC','SF','LA'])
dframe2

Unnamed: 0,A,D,C
NYC,0,1,2
SF,3,4,5
LA,6,7,8


In [80]:
# DataFrameの合算
dframe1 + dframe2

# 片側にしか存在しない要素はnullになる

Unnamed: 0,A,B,C,D
LA,8.0,,,
NYC,0.0,,,
SF,,,,


In [81]:
# addメソッドを使うと、それぞれの要素を保持して合算する
dframe1.add(dframe2,fill_value=0)

# dframe2のnull値を'0'で埋めて合算しているイメージ

Unnamed: 0,A,B,C,D
LA,8.0,3.0,8.0,7.0
NYC,0.0,1.0,2.0,1.0
SF,3.0,,5.0,4.0


# DataFrame と Series の計算

In [82]:
dframe2

Unnamed: 0,A,D,C
NYC,0,1,2
SF,3,4,5
LA,6,7,8


In [83]:
# DataFrameの１行目でSeriesを作る
ser3 = dframe2.ix[0]
ser3

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  


A    0
D    1
C    2
Name: NYC, dtype: int64

In [84]:
# DataFrameからSeriesを引く
dframe2 - ser3

# 全ての列に対して引き算をする

Unnamed: 0,A,D,C
NYC,0,0,0
SF,3,3,3
LA,6,6,6


# Lec21_データの並べ替えと順番

In [85]:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd

In [86]:
ser1 = Series(range(3),index=['C','A','B'])
ser1

C    0
A    1
B    2
dtype: int64

In [87]:
# indexでsort
ser1.sort_index()

A    1
B    2
C    0
dtype: int64

In [88]:
# 要素の値でsort
ser1.sort_values()

# 要素の値が'0'だと弾かれる

C    0
A    1
B    2
dtype: int64

In [89]:
from numpy.random import randn
ser2 = Series(randn(10))
ser2

0    0.573747
1    0.019021
2    0.538643
3   -0.567928
4   -0.023501
5    1.068855
6   -0.638322
7   -0.285549
8   -0.846226
9   -0.494026
dtype: float64

In [90]:
# RANK関数
ser2.rank()

0     9.0
1     7.0
2     8.0
3     3.0
4     6.0
5    10.0
6     2.0
7     5.0
8     1.0
9     4.0
dtype: float64

In [91]:
# sortしてRANK順にする
ser2.sort_values()
ser2.rank()

0     9.0
1     7.0
2     8.0
3     3.0
4     6.0
5    10.0
6     2.0
7     5.0
8     1.0
9     4.0
dtype: float64

# Lec22_データと統計量

In [92]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [93]:
arr = np.array([[1,2,np.nan],[np.nan,3,4]])
dframe1 = DataFrame(arr, index=['A','B'], columns = ['One','Two','Three'])
dframe1

Unnamed: 0,One,Two,Three
A,1.0,2.0,
B,,3.0,4.0


In [94]:
# 行ごとの合計値を算出
dframe1.sum()

One      1.0
Two      5.0
Three    4.0
dtype: float64

In [95]:
# 列ごとの合計値を算出
dframe1.sum(axis=1)

A    3.0
B    7.0
dtype: float64

In [96]:
# 列ごとの最小値
dframe1.min()

One      1.0
Two      2.0
Three    4.0
dtype: float64

In [97]:
# 最小値を保持している行のindexを調べる
dframe1.idxmin()

One      A
Two      A
Three    B
dtype: object

In [98]:
# 列ごとの最大値
dframe1.max()

One      1.0
Two      3.0
Three    4.0
dtype: float64

In [99]:
# 最大値を保持している行のindex
dframe1.idxmax()

One      A
Two      B
Three    B
dtype: object

In [100]:
dframe1

Unnamed: 0,One,Two,Three
A,1.0,2.0,
B,,3.0,4.0


In [101]:
# 列ごとの累積
dframe1.cumsum()

Unnamed: 0,One,Two,Three
A,1.0,2.0,
B,,5.0,4.0


### sortとか絡めると、累積ってどうなるのか。もう少し値を増やして計算

In [102]:
# DataFrameの全体像を把握する
dframe1.describe()

Unnamed: 0,One,Two,Three
count,1.0,2.0,1.0
mean,1.0,2.5,4.0
std,,0.707107,
min,1.0,2.0,4.0
25%,1.0,2.25,4.0
50%,1.0,2.5,4.0
75%,1.0,2.75,4.0
max,1.0,3.0,4.0


In [103]:
# Pandasを使って、Webからデータを取得する
from pandas_datareader import data as pdweb

ImportError: cannot import name 'PandasError'

In [104]:
# 日付を扱うためのライブラリ
import datetime

In [105]:
# アメリカのYahoo!を使って、株価を取得する
start = datetime.datetime(2015, 1, 1)
end = datetime.datetime(2017, 1, 1)
prices = pdweb.get_data_yahoo(['AAPL','GOOG','AMZN'],
        start,end)['Adj Close']
prices.head()

NameError: name 'pdweb' is not defined

## Yahoo!のAPIに問題あり？？？後日再実行

# Lec23_欠損値の扱い

In [106]:
import numpy as np
from numpy import nan
import pandas as pd
from pandas import Series, DataFrame

In [107]:
# Seriesの場合
data = Series(['one', 'two', np.nan, 'four', 'five'])
data

0     one
1     two
2     NaN
3    four
4    five
dtype: object

In [108]:
# null値を真偽値で返す
data.isnull()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [109]:
# null値を除外する
data.dropna()

0     one
1     two
3    four
4    five
dtype: object

In [110]:
# DataFrameの場合
dframe = DataFrame([[1,2,3], [np.nan,5,6], [7,np.nan,9], [np.nan,np.nan,np.nan], [10,11,12]])
dframe

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0
3,,,
4,10.0,11.0,12.0


In [111]:
# null値のある行を除外する
clean_dframe = dframe.dropna()
clean_dframe

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
4,10.0,11.0,12.0


In [112]:
# 全てnull値の行だけを除外する
dframe.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0
4,10.0,11.0,12.0


In [113]:
# null値のある列を除外する
dframe.dropna(axis=1)

0
1
2
3
4


In [114]:
dframe2 = DataFrame([[1,2,3,nan],[2,nan,5,6,],[nan,7,nan,9],[1,nan,nan,nan]])
dframe2

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0
2,,7.0,,9.0
3,1.0,,,


In [115]:
# null値以外が２個以上の行を残す
dframe2.dropna(thresh=2)

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0
2,,7.0,,9.0


In [116]:
# null値を埋める
dframe2.fillna(1)

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,1.0
1,2.0,1.0,5.0,6.0
2,1.0,7.0,1.0,9.0
3,1.0,1.0,1.0,1.0


In [117]:
# 辞書型で列ごとに埋める値を変える
dframe2.fillna({0:0,1:1,2:2,3:3})

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,3.0
1,2.0,1.0,5.0,6.0
2,0.0,7.0,2.0,9.0
3,1.0,1.0,2.0,3.0


In [118]:
# 代入せずにnull値を埋める
dframe2.fillna(0, inplace=True)
dframe2

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,0.0
1,2.0,0.0,5.0,6.0
2,0.0,7.0,0.0,9.0
3,1.0,0.0,0.0,0.0


# Lec24_Indexの階層構造

In [119]:
import numpy as np
from numpy.random import randn
import pandas as pd
from pandas import Series, DataFrame

## Seriesの場合

In [120]:
# Indexに階層構造を持たせる
ser = Series(np.random.randn(6),index=[[1,1,1,2,2,2],['a','b','c','a','b','c']])
ser

1  a    1.940700
   b   -0.525241
   c   -0.300147
2  a    0.967884
   b   -0.310310
   c   -0.915318
dtype: float64

In [121]:
# indexを表示
ser.index

MultiIndex(levels=[[1, 2], ['a', 'b', 'c']],
           labels=[[0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]])

In [122]:
# 第一階層のindexで参照
ser[1]

a    1.940700
b   -0.525241
c   -0.300147
dtype: float64

In [123]:
ser[2]

a    0.967884
b   -0.310310
c   -0.915318
dtype: float64

In [124]:
# 第二階層のindexで参照
ser[:,'a']

1    1.940700
2    0.967884
dtype: float64

In [125]:
# ２階層を合わせて指定
ser[1,'a']

1.9406998899374268

In [126]:
# ２階層のindexを持つSeriesからDaraFrameを作成
dframe = ser.unstack()
dframe

Unnamed: 0,a,b,c
1,1.9407,-0.525241,-0.300147
2,0.967884,-0.31031,-0.915318


In [127]:
# DataFrameからSeriesを作成する
dframe.T.unstack()

1  a    1.940700
   b   -0.525241
   c   -0.300147
2  a    0.967884
   b   -0.310310
   c   -0.915318
dtype: float64

## DataFrameの場合

In [128]:
# Indexに階層を持たせる
dframe2 = DataFrame(np.arange(16).reshape(4,4),
                    index=[['a','a','b','b'],[1,2,1,2]],
                    columns=[['NY','NY','LA','SF'],['cold','hot','hot','cold']])
dframe2

Unnamed: 0_level_0,Unnamed: 1_level_0,NY,NY,LA,SF
Unnamed: 0_level_1,Unnamed: 1_level_1,cold,hot,hot,cold
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


In [129]:
# indexに名前をつける
# 行の名前
dframe2.index.names = ['INDEX1','INDEX2']
# 列の名前
dframe2.columns.names = ['Cities','Temp']
dframe2

Unnamed: 0_level_0,Cities,NY,NY,LA,SF
Unnamed: 0_level_1,Temp,cold,hot,hot,cold
INDEX1,INDEX2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


In [130]:
# 列の階層を入れ替える
dframe2.swaplevel('Cities','Temp',axis=1)

Unnamed: 0_level_0,Temp,cold,hot,hot,cold
Unnamed: 0_level_1,Cities,NY,NY,LA,SF
INDEX1,INDEX2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


In [131]:
# 行の階層を入れ替える
dframe2.swaplevel('INDEX1','INDEX2',axis=0)

Unnamed: 0_level_0,Cities,NY,NY,LA,SF
Unnamed: 0_level_1,Temp,cold,hot,hot,cold
INDEX2,INDEX1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,a,0,1,2,3
2,a,4,5,6,7
1,b,8,9,10,11
2,b,12,13,14,15


In [132]:
# indexでsortする
dframe2.sortlevel(1)

  


Unnamed: 0_level_0,Cities,NY,NY,LA,SF
Unnamed: 0_level_1,Temp,cold,hot,hot,cold
INDEX1,INDEX2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
b,1,8,9,10,11
a,2,4,5,6,7
b,2,12,13,14,15


In [133]:
dframe2.sortlevel(1).sortlevel(0)

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Cities,NY,NY,LA,SF
Unnamed: 0_level_1,Temp,cold,hot,hot,cold
INDEX1,INDEX2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,1,0,1,2,3
a,2,4,5,6,7
b,1,8,9,10,11
b,2,12,13,14,15


In [134]:
# 階層を指定して計算も可能
dframe2.sum(level='Temp',axis=1)

Unnamed: 0_level_0,Temp,cold,hot
INDEX1,INDEX2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,3,3
a,2,11,11
b,1,19,19
b,2,27,27
