In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame([
    [1.4, np.nan],
    [7.1, -4.5],
    [np.nan, np.nan],
    [0.75, -1.3]
], index=['a', 'b', 'c', 'd'],
columns=['one', 'two'])

In [3]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


pandas 메서드는 처음부터 누락된 데이터를 제외하도록 설계되었다.   
따라서, sum 메서드를 사용할 경우 NaN 값은 무시된다.

In [4]:
df.sum()

one    9.25
two   -5.80
dtype: float64

axis=1 옵션은 Row 의합을 반환한다. 여기서 one, two 칼럼에 대해 'c' 인덱스 로우는 모두 NaN 값을 가진다.  
그러나 마치 0을 합산한 것처럼 간주한다. skipna 설정을 Flase로 둘 경우 NaN이 반영된다.

In [5]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [6]:
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

idxmax 의 값은 각 칼럼에서 max 인 값의 인덱스를 출력한다.   
즉, 아래의 결과에서 one 칼럼의 최대값을 가진 인덱스는 'b' 이고 two 칼럼에서는 'd' 이다.

In [7]:
df.idxmax()

one    b
two    d
dtype: object

In [8]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [9]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


만약 수치 통계가 아니라면 요약 통계를 생성한다.  
즉, 문자열 데이터의 중복을 제외한 카운트가 몇개이며 문자열의 갯수가 얼마인지 등을 표현한다.

In [10]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

In [11]:
from pandas_datareader import data

In [13]:
all_data = {}
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = data.DataReader(ticker, 'yahoo', '2015-01-01', '2016-01-01')

price = pd.DataFrame({tic: data['Close'] for tic, data in all_data.items()})
volume = pd.DataFrame({tic: data['Volume'] for tic, data in all_data.items()})

In [18]:
returns = price.pct_change()

In [20]:
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-12-24,-0.00534,-0.002093,-0.002687,-0.002546
2015-12-28,-0.011201,-0.004629,0.00503,0.018854
2015-12-29,0.017974,0.015769,0.010724,0.018478
2015-12-30,-0.013059,-0.003148,-0.004244,-0.007211
2015-12-31,-0.019195,-0.012344,-0.01474,-0.01572


In [22]:
price.tail()


Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-12-24,108.029999,138.25,55.669998,748.400024
2015-12-28,106.82,137.610001,55.950001,762.51001
2015-12-29,108.739998,139.779999,56.549999,776.599976
2015-12-30,107.32,139.339996,56.310001,771.0
2015-12-31,105.260002,137.619995,55.48,758.880005


상관 분석의 내용 중 p 값을 해석하는 부분을 발췌하였음 (위키백과)
> 이때 상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관이라고 한다. 하지만 0인 경우 상관이 없다는 것이 아니라 선형의 상관관계가 아니라는 것이다. 

In [25]:
returns.MSFT.corr(returns.IBM)

0.5501734168185448

2개의 확률변수의 상관정도를 나타내는 값이다.(1개의 변수의 이산정도를 나타내는 분산과는 별개임) 

**만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면, 공분산의 값은 양수가 될 것이다. 반대로 2개의 변수중 하 나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 된다.** 
   
이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 **2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.**

상당히 좋은 글
- [공분산과 상관계수](https://destrudo.tistory.com/15)


In [27]:
returns.MSFT.cov(returns.IBM)

0.0001312719700990277

Pandas 는 두 변수의 상관관계와 공분산을 계산하기 위한 메서드를 제공한다.   
상관관계 혹은 공분산을 계산하기 위해서는 하나의 인자가 더 필요하다. 즉, 변수 X 외에도 변수 Y가 있어야 계산되는 값이다.
   
- Series 와 Series 간의 계산 (Series.corr(Series))
- DataFrame 의 칼럼 간의 계산 (DataFrame.corr())
- DataFrame 과 Series 의 계산 (DataFrame.corrwith(Series))

In [28]:
# DataFrame 의 칼럼 내에서의 공분산과 상관관계 계산
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.513448,0.52207,0.380192
IBM,0.513448,1.0,0.550173,0.449781
MSFT,0.52207,0.550173,1.0,0.521194
GOOG,0.380192,0.449781,0.521194,1.0


In [30]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000284,0.000116,0.000157,0.000119
IBM,0.000116,0.00018,0.000131,0.000112
MSFT,0.000157,0.000131,0.000317,0.000172
GOOG,0.000119,0.000112,0.000172,0.000345


In [31]:
# DataFrame 과 Series 의 상관관계 계산
returns.corrwith(returns.IBM)

AAPL    0.513448
IBM     1.000000
MSFT    0.550173
GOOG    0.449781
dtype: float64

In [34]:
returns.corrwith(volume)

AAPL   -0.118379
IBM    -0.290693
MSFT   -0.001992
GOOG    0.405849
dtype: float64

유일 값, 값 세기, 멤버십 계산하기

In [35]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [37]:
# 유일 값 출력
obj.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

In [40]:
# 값 세기 (counting)
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [42]:
# value_counts 는 pandas 의 최상위 메서드이다.
## 배열 혹은 순차 자료 구조에서도 사용 가능하다.
pd.value_counts(obj.values, sort=False)

c    3
d    1
a    3
b    2
dtype: int64

In [43]:
mask = obj.isin(['b', 'c'])

In [44]:
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [46]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

In [48]:
data = pd.DataFrame({'Qu1': [1,3,4,3,4],
                 'Qu2': [2,3,1,2,3],
                 'Qu3': [1,5,2,4,4]})

In [50]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


DataFrame 의 apply 함수에 pd.value_counts 를 넘길 수 있다. 그 결과는 각 행에 대한 값의 카운팅 결과이다.   
히스토그램을 표현할 때 유용하다(?)

In [51]:
data.apply(pd.value_counts)


Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0
