## 15. 통계(심화)


## 참고자료
* [Python 완전정복 시리즈] 2편 : Pandas DataFrame 완전정복 : https://wikidocs.net/book/7188

In [1]:
import pandas as pd
import numpy as np

##  공분산 (cov)

In [2]:
col = ['X','Y']
data1 = [[-6,-3],[-4,-1],[-2,-3],[0,1],[2,2]]
data2 = [[7,-4],[4,-1],[2,0],[-1,3],[-4,9]]
data3 = [[3,-4],[3,-1],[3,0],[3,3],[3,9]]
df1 = pd.DataFrame(data=data1, columns=col)
df2 = pd.DataFrame(data=data2, columns=col)
df3 = pd.DataFrame(data=data3, columns=col)

In [3]:
df1.cov()

# 양의 상관관계

Unnamed: 0,X,Y
X,10.0,6.0
Y,6.0,5.2


In [4]:
df2.cov()

# 음의 상관관계

Unnamed: 0,X,Y
X,18.3,-20.55
Y,-20.55,24.3


In [5]:
df3.cov()

# x와 y가 상관없을 때 공분산 값 0

Unnamed: 0,X,Y
X,0.0,0.0
Y,0.0,24.3


In [6]:
df3.cov(min_periods=6)

# 공분산에 이용될 요소의 최소 갯수 제한, min_periods보다 요소의 수가 적어 NaN 반환

Unnamed: 0,X,Y
X,,
Y,,


## 첨도 (kurt / kurtosis)

In [7]:
# 데이터의 확률분포가 얼마나 뾰족한지

l = [-9,-5,-1,-1,0,0,0,0,0,1,1,5,9] # leptokurtic
m = np.random.normal(0,1,13) # mesokurtic
p = [-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6] # Platykurtic
data = {"col1":l,"col2":m,"col3":p}
df = pd.DataFrame(data)
df

Unnamed: 0,col1,col2,col3
0,-9,1.070363,-6
1,-5,-1.790487,-5
2,-1,-1.117158,-4
3,-1,0.659919,-3
4,0,0.277755,-2
5,0,1.358861,-1
6,0,-1.428646,0
7,0,-0.354632,1
8,0,-0.364345,2
9,1,0.3008,3


In [8]:
df.kurt()

# 정규분포보다 뾰족한 경우 m>0, 완만한 경우 m<0

col1    2.190460
col2   -1.065314
col3   -1.200000
dtype: float64

## 표준오차 (sem)

In [9]:
a = [1,1,1,1,1]
b = [1,2,3,4,5]
c = [20,40,60,80,100]
data = {"col1":a,"col2":b,"col3":c}
df = pd.DataFrame(data)
df

Unnamed: 0,col1,col2,col3
0,1,1,20
1,1,2,40
2,1,3,60
3,1,4,80
4,1,5,100


In [10]:
df.sem()

col1     0.000000
col2     0.707107
col3    14.142136
dtype: float64

## 왜도[비대칭도] (skew)

In [12]:
# 평균에 대해 최빈값이 얼마나 치우쳐 있는지 나타냄
# 왜도는 우측으로 치우칠수록 음의 값, 좌측으로 치우칠수록 양의 값

a = [-5,-4,-3,-3,-2,-2,-1,-1,-1,0,0,0,0,0,1,1,1,2]
b = [-3,-2,-1,-1,-1,-1,0,0,0,0,0,0,1,1,1,1,2,3]
c = [-2,-1,-1,-1,0,0,0,0,0,1,1,1,2,2,3,3,4,5,]
data = {"col1":a,"col2":b,"col3":c}
df = pd.DataFrame(data)

In [13]:
df.skew()

col1   -0.615774
col2    0.000000
col3    0.615774
dtype: float64

## 상관계수 (corr / corrwith)

In [14]:
# 각 열의 상관계수를 반환하는 메서드

col1 = [1,2,3,4,5,6]
col2 = [1,4,2,8,16,32]
col3 = [6,5,4,3,2,1]
data = {"col1":col1,"col2":col2,"col3":col3}
df = pd.DataFrame(data)
df

Unnamed: 0,col1,col2,col3
0,1,1,6
1,2,4,5
2,3,2,4
3,4,8,3
4,5,16,2
5,6,32,1


In [15]:
# 피어슨 상관계수, 두 변수의 선형 상관계수 의미

df.corr(method='pearson')

Unnamed: 0,col1,col2,col3
col1,1.0,0.887739,-1.0
col2,0.887739,1.0,-0.887739
col3,-1.0,-0.887739,1.0


In [16]:
# 켄달-타우 상관계수, 두 순위간의 상관계수 의미

df.corr(method='kendall')

Unnamed: 0,col1,col2,col3
col1,1.0,0.866667,-1.0
col2,0.866667,1.0,-0.866667
col3,-1.0,-0.866667,1.0


In [18]:
# 스피어먼 상관계수, 두 변수의 순위의 피어슨 상관계수

df.corr(method='spearman')

# col1의 변수들의 순위는 col2의 변수들의 순위와 대체로 일치 하기에 두 변수의 순위의 피어슨 상관계수는 0<p<1의 값을 가지며,
# col1의 변수들의 순위는 col3의 변수들의 순위와 완벽히 반대이기 때문에 두 변수의 순위의 피어슨 상관계수는p=-1의 값을 가집니다

Unnamed: 0,col1,col2,col3
col1,1.0,0.942857,-1.0
col2,0.942857,1.0,-0.942857
col3,-1.0,-0.942857,1.0


In [19]:
data1 = {"col1":[1,2,3,4,5,6],"col2":[1,4,2,8,16,32]}
data2 = {"col1":[6,5,4,3,2,1],"col3":[3,6,1,2,5,9]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [20]:
df1.corrwith(other=df2, method='pearson')

col1   -1.0
col2    NaN
col3    NaN
dtype: float64

In [None]:
df1.corrwith(other)