# 판다스기반 기초 통계량 분석

In [1]:
import pandas as pd

In [2]:
from pandas import Series, DataFrame

In [3]:
import numpy as np
import matplotlib.pyplot as plt

## 기술통계 계산과 요약

In [4]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [5]:
#각 컬럼의 합을 담은 Series를 반환
df.sum()

one    9.25
two   -5.80
dtype: float64

- 각 행의 합을 반환하고 싶으면?

In [6]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [7]:
df.sum(axis='columns')

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

- 전체 행이나 컬럼의 값이 NA가 아니라면 계산과정에서 NA값은 제외시키고 계산된다. 이는 skipna옵션을 통해 조정할 수 있다.
- skipna : 누락된 값을 제외할 것인지 정하는 옵션, 기본값은 true이다. 

In [8]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

- 최소 혹은 최대값을 가지고 있는 색인 값 같은 간접 통계를 반환함

In [9]:
df.idxmax()

one    b
two    d
dtype: object

In [10]:
#누산
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


- 한번에 통계결과를 여러개 만들어 내려면?

In [11]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [12]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [13]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

### 상관관계와 공분산

conda install pandas-datareader

- 야후 금융사이트에서 구한 주식가격과 시가 총액을 담고 있는 데이터

In [18]:
price = pd.read_pickle('data/yahoo_price.pkl')
volume = pd.read_pickle('data/yahoo_volume.pkl')

import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker)
            for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close']
                     for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
                      for ticker, data in all_data.items()})

In [19]:
price.head(10)

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,27.990226,313.062468,113.304536,25.884104
2010-01-05,28.038618,311.683844,111.935822,25.892466
2010-01-06,27.592626,303.826685,111.208683,25.733566
2010-01-07,27.541619,296.753749,110.823732,25.465944
2010-01-08,27.724725,300.709808,111.935822,25.641571
2010-01-11,27.480148,300.255255,110.763844,25.315406
2010-01-12,27.167562,294.945572,111.644958,25.148142
2010-01-13,27.550775,293.252243,111.405433,25.382312
2010-01-14,27.391211,294.630868,113.184773,25.892466
2010-01-15,26.933449,289.710772,112.731385,25.808835


In [20]:
volume.head(10)

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,123432400,3927000,6155300,38409100
2010-01-05,150476200,6031900,6841400,49749600
2010-01-06,138040000,7987100,5605300,58182400
2010-01-07,119282800,12876600,5840600,50559700
2010-01-08,111902700,9483900,4197200,51197400
2010-01-11,115557400,14479800,5730400,68754700
2010-01-12,148614900,9742900,8081500,65912100
2010-01-13,151473000,13041800,6455400,51863500
2010-01-14,108223500,8511900,7111800,63228100
2010-01-15,148516900,10909600,8494400,79913200


In [21]:
#각 주식의 퍼센트 변화율
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,-0.00068,0.001837,0.002072,-0.003483
2016-10-18,-0.000681,0.019616,-0.026168,0.00769
2016-10-19,-0.002979,0.007846,0.003583,-0.002255
2016-10-20,-0.000512,-0.005652,0.001719,-0.004867
2016-10-21,-0.00393,0.003011,-0.012474,0.042096


In [22]:
# Corr : 두 Series에 대해 상관관계를 계산
returns['MSFT'].corr(returns['IBM'])

0.49976361144151155

In [23]:
# Cov: 공분산을 계산
returns['MSFT'].cov(returns['IBM'])

8.870655479703546e-05

- DataFrame에서 corr과 cov메서드는 DataFrame 행렬상에서 상관관계와 공분산을 계산함

In [24]:
returns.corr()


Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.407919,0.386817,0.389695
GOOG,0.407919,1.0,0.405099,0.465919
IBM,0.386817,0.405099,1.0,0.499764
MSFT,0.389695,0.465919,0.499764,1.0


In [25]:
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,0.000277,0.000107,7.8e-05,9.5e-05
GOOG,0.000107,0.000251,7.8e-05,0.000108
IBM,7.8e-05,7.8e-05,0.000146,8.9e-05
MSFT,9.5e-05,0.000108,8.9e-05,0.000215


- DataFrame의 corrwith메서드를 사용하면 다른 Series나 DataFrame과의 상관관계를 계산
- 아래와 같이 Series를 넘기면 각 칼럼에 대해 계산한 상관관계를 담고 있는 Series를 반환한다

In [26]:
returns.corrwith(returns.IBM)

AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64

- 아래와 같이 DataFrame을 넘기면 맞아떨어지는 칼럼의 이름에 대한 상관관계를 계산함
- 여기서는 시가 총액의 퍼센트 변화율에 대한 상관관계를 계산한 것임

In [27]:
returns.corrwith(volume)

AAPL   -0.075565
GOOG   -0.007067
IBM    -0.204849
MSFT   -0.092950
dtype: float64

### 유일값, Count, 빈값채우기

In [28]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [29]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [30]:
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [31]:
pd.value_counts(obj.values, sort=True)

a    3
c    3
b    2
d    1
dtype: int64

- isin()메서드는 어떤 값이 Series에 있는지 나타내는 불리언 벡터를 반환하는데,
- Series나 DataFrame의 칼럼에서 값을 골라내고 싶을때 유용하게 사용함

In [32]:
obj
mask = obj.isin(['b', 'c'])
mask
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

- 여러행에 대해서 히스토그램을 구해야 하는경우


In [33]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


- pandas.value_counts를 넘기면 아래와 같은 결과를 얻을 수 있음
- value_counts메서드 결과가 DataFrame의 컬럼 크기보다 작을 수 있기 때문에 fillna(0)함수를 이용해서 비어있는 값은 0으로 채워줌

In [34]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
