In [1]:
import pandas as pd
import numpy as np

In [2]:
# 要約統計量について
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [3]:
# axis0の方向に合計
df.sum()

one    9.25
two   -5.80
dtype: float64

In [4]:
# axis1の方向に合計
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [5]:
# NAを無視しない場合はskipnaをFalseにする
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [6]:
# カラム毎の最大値をindexで返す
df.idxmax()

one    b
two    d
dtype: object

In [7]:
# 累積和
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [8]:
# describeでようやく統計量を一覧で吐く
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [9]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [10]:
# 数値データでない場合のようやく統計量
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [16]:
# 株価データ
price = pd.read_pickle('yahoo_price.pkl')
# 出来高データ
volume = pd.read_pickle('yahoo_volume.pkl')

In [17]:
# 株価のパーセント変化を求める
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,-0.00068,0.001837,0.002072,-0.003483
2016-10-18,-0.000681,0.019616,-0.026168,0.00769
2016-10-19,-0.002979,0.007846,0.003583,-0.002255
2016-10-20,-0.000512,-0.005652,0.001719,-0.004867
2016-10-21,-0.00393,0.003011,-0.012474,0.042096


In [18]:
# MSFTとIBMの相関を調べる
returns.MSFT.corr(returns.IBM)

0.49976361144151082

In [20]:
# MSFTとIBMの共分散を調べる
# ただし共分散を規格化した相関係数があるので実務で使うシーンは少ないことに注意
returns.MSFT.cov(returns.IBM)

8.8706554797035326e-05

In [21]:
# データフレームの全てに対して相関係数を算出
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.407919,0.386817,0.389695
GOOG,0.407919,1.0,0.405099,0.465919
IBM,0.386817,0.405099,1.0,0.499764
MSFT,0.389695,0.465919,0.499764,1.0


In [22]:
# 共分散も同様
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,0.000277,0.000107,7.8e-05,9.5e-05
GOOG,0.000107,0.000251,7.8e-05,0.000108
IBM,7.8e-05,7.8e-05,0.000146,8.9e-05
MSFT,9.5e-05,0.000108,8.9e-05,0.000215


In [23]:
# corrwithメソッドを使うと、データフレームの特定の行や列と、別のSeries/DataFrameに対する相関を得られる
returns.corrwith(returns.IBM)

AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64

In [24]:
# corrwithメソッドの引数にデータフレームを渡した場合は、一致した列名に対応する相関が吐かれる
# この場合、株価の変化率と出来高の相関が得られる
returns.corrwith(volume)

AAPL   -0.075565
GOOG   -0.007067
IBM    -0.204849
MSFT   -0.092950
dtype: float64

In [26]:
# Seriesを一意なnumpy配列にする
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
unique = obj.unique()
unique

array(['c', 'a', 'd', 'b'], dtype=object)

In [28]:
# Seriesに含まれる値の頻度を調べる
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [29]:
# pdのクラスメソッドからも呼べる
# numpy配列などからも計算できる
pd.value_counts(obj.values, sort=False)

a    3
d    1
b    2
c    3
dtype: int64

In [31]:
# マスク用のSeriesも作れる
# SeriesやDataFrameのフィルタリングに便利
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [32]:
# Seriesをマスクでフィルタリング
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [33]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4], 'Qu2': [2, 3, 1, 2, 3], 'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [34]:
# pandas.value_countsメソッドをデータフレームのapplyメソッドに適用する
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
