In [1]:
import numpy as np
from scipy.stats import *
import pandas as pd

# 산포 통계량
---

![image](https://user-images.githubusercontent.com/74717033/133627034-c28962c7-7b55-4acc-9f7e-30d7ecdabf75.png)
(확률 밀도함수로 그린 데이터 산포도)

- 산포 : 데이터가 얼마나 퍼져있는지를 의미
- 산포 통계량 : 데이터의 산포를 타나내는 통계량

# 분산

- 편차 : 한 샘플 데이터가 평균으로부터 떨어진 거리
- 분산 : 편차의 제곱의 평균

![image](https://user-images.githubusercontent.com/74717033/133628609-fc48b2db-93c9-4bb8-bfa5-0687fac44e7c.png)

- 편차의 합은 항상 0이 된다 = 제곱을 사용한 이유 = 절대적인 거리를 반영하기 위함
- 자유도가 0 (모분산) 이면 n-1로 나누지 않고, n으로 나눈다.

## 분산 구현 코드 

- numpy.var(x, ddof)

- numpy.array(x).var(ddof)

- Series(X).var(ddof)

- ddof : 통계량의 자유도
    - ddof가 1이면, n-1로 나눈다.
    - ddof가 0이면, n으로 나눈다.
    - 기본값은 1이다.

In [2]:
x = [1, 2, 3, 4, 5]
print(np.var(x, ddof = 1)) # 분모 = n - 1 ( 5 - 1)
print(np.array(x).var()) # 분모 = n
print(pd.Series(x).var(ddof = 0)) # 분모 = n

2.5
2.0
2.0


## 표준편차

- 표준편차 : 분산에 루트를 씌운 것
---
![image](https://user-images.githubusercontent.com/74717033/133629102-bfab9759-d274-4970-a041-674726010e68.png)

- 분산에서 제곱한 것에 대한 영향을 줄이기 위해 사용한다.
- 특수한 경우를 제외하고는 보통 편차 보다는 표준편차를 일반적으로 사용한다.

## 표준편차 구현 코드

- numpy.std(x, ddof)
- numpy.array(x, ddof).std()
- Series.std(x, ddof)

In [3]:
x = [1, 2, 3, 4, 5]

# 표준편차 구하기
print(np.std(x, ddof = 1))
print(np.array(x).std())
print(pd.Series(x).std(ddof = 1))

1.5811388300841898
1.4142135623730951
1.5811388300841898


# 변동 계수

- 분산, 표준편차모두 값의 스케일에 크게 영향을 받는다.
- 이로 인해 데이터의 상대적인 산포를 보여주기에는 적합하지 않다.

In [4]:
x1 = np.array([1, 2, 3, 4, 5])
x2 = x1 * 10 # [10,20,30,40,50]

# 표준편차 계산
print(np.std(x1, ddof = 1))
print(np.std(x2, ddof = 1))

1.5811388300841898
15.811388300841896


- 위의 경우 값의 스케일만 1단위(x1)에서 10단위(x2)로 커졌을 뿐이지 각 데이터간의 분포는 동일하다.
- 이 경우 x1과 x2 의 상대적 산포는 같음에도 불구하고 다른 것으로 보여진다.
- 이를 극복하기 위해서는 
    - 1) 변수를 스케일링(동일 단위로 통일 시켜주는 작업) 한뒤,
    - 2) 분산 또는 표준편차를 구한다.
    
    
- If, 모든 데이터가 양수(+) 인 경우에는 변동계수 (상대 표준 편차) 를 사용할 수 있다.
    - 변동 계수 = 표준편차 / 평균
    - x1의 평균은 3, x2의 평균은 30이다.
    - 기본적으로 평균값에 애초에 스케일이 반영이 되어있다. 따라서 평균으로 표준편차를 나누면 상대적 산포를 알 수 있다.
    - 이 경우 하나의 값이라도 음수가 껴있으면 평균값이 작아질 수 있고, 평균이 0인 경우도 변동계수를 쓰는 의미가 없다.
    - 이러한 문제들로 인해 변동 계수는 모든 데이터가 양수일때만 사용한다.
    
    
- **즉, 실질적으로는 모든 데이터가 양수인 경우를 제외하고 변동계수를 사용하는 케이스는 드물다.**
    - 하지만, 해당 경우에는 반드시 변동계수를 사용해야 하기 때문에 알아둬야 한다.

## 변동 계수 구현코드

- numpy.std(x, ddof) / numpy.mean(x)
- scipy.stats.variation(x)

In [5]:
print(variation(x1)) # 변동 계수
print(variation(x2))

0.47140452079103173
0.4714045207910317


In [6]:
print(np.std(x1, ddof = 1) / np.mean(x1))
print(np.std(x2, ddof = 1) / np.mean(x2))

0.5270462766947299
0.5270462766947299


# 스케일링
---

- 둘 이상의 변수의 값을 상대적으로 비교하고자 할때 사용
- e.g) 수학점수 90점인 학생 vs 과학점수 80점인 학생 누가 더 잘 한걸까?
    - 수학평균이 95점이고, 과학 평균이 30점이라면 과학점수가 80인 학생이 더 잘한 것이 된다.
    
- 스케일링의 point는 각 데이터에 있는 값을 비교하기 위해서 '상대적인 값'으로 변환하는 과정을 거친다는 것이다.
- 스케일링에는 Standard Scaling과 Min-Max Scaling 2가지 방법이 대표적이다.

![image](https://user-images.githubusercontent.com/74717033/133634360-3d6cac88-9702-4336-ae25-4874d2c5aa69.png)

- Standard Scaling은 -무한대 ~ 무한대 사이의 값을 가진다.
- Min-Max Scaling은 항상 최소값이 0이고 최대값이 1이다. 즉 0 ~ 1 사이의 값으로 치환된다.

## Standard Scaling 구현 코드

- 기본적으로 sklearn에서 제공되는 패키지를 많이 사용하지만, 단순 코딩으로도 구현가능하다.

- (x - x.mean()) / x.std() (x 는 ndarray) 
- sklearn.preprocessing.StandardScaler

In [7]:
x1

array([1, 2, 3, 4, 5])

In [8]:
x2

array([10, 20, 30, 40, 50])

### hard coding

In [9]:
# (원래 값 - 평균) / 표준편차 
z1 = (x1 - x1.mean()) / x1.std()
z2 = (x2 - x2.mean()) / x2.std()

print(z1)
print(z2)

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]
[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


### sklearn 사용

In [10]:
# sklearn을 이용한 스케일링
X = pd.DataFrame({"X1":[1, 2, 3, 4, 5],
    "X2": [10, 20, 30, 40, 50]})

X

Unnamed: 0,X1,X2
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


In [11]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler() # 인스턴스화
Z = scaler.fit_transform(X) # fit_transform => ndarray
pd.DataFrame(Z)

Unnamed: 0,0,1
0,-1.414214,-1.414214
1,-0.707107,-0.707107
2,0.0,0.0
3,0.707107,0.707107
4,1.414214,1.414214


## Min - Max Scaling 구현 코드

### hard coding

In [12]:
z1 = (x1 - x1.min()) / (x1.max() - x1.min())
z2 = (x2 - x2.min()) / (x2.max() - x2.min())

print(z1)
print(z2)

[0.   0.25 0.5  0.75 1.  ]
[0.   0.25 0.5  0.75 1.  ]


In [13]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler() # 인스턴스화
Z = scaler.fit_transform(X) # fit_transform => ndarray
pd.DataFrame(Z)

Unnamed: 0,0,1
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


# 범위와 사분위 범위 계산 
---

- 산포를 가장 직관적으로 표현할 수 있는 지표
- 범위 : 최대값 - 최소값
- 사분위 범위 : 3tkqnsdnltn - 1사분위수
- 사분위 범위를 IQR(InterQuartileRange) 라고 표현하며, 이상치를 탐색할때 많이 사용된다. (feat. IQR Rule)
- 범위는 직관적이지만 이상치에 영향을 받는 단점이 있다.
- 사분위 범위는 이상치 영향은 받지 않지만 직관적이지 않다는 단점이 있다.

![image](https://user-images.githubusercontent.com/74717033/133636017-256acf22-0873-46c1-b5fc-d729809c7031.png)


[IQR Rule]
- 변수별로 IQR 규칙을 만족하지 않는 샘플들을 판단하여 삭제하는 방법으로 이상치제거에 사용된다.
- IQR값(Q3-Q1)을 계산한뒤 좌측으론 최소값 이하, 우측으론 최대값 이상의 값들을 이상치로 판단하여 제거하는 방식이다.

## 범위 & 사분위 범위 구현 코드

In [14]:
# 1000개의 관측값이 있는 데이터를 
x = np.random.normal(100, 20, size = 1000)
x

array([123.43239217,  77.49549336, 134.63403735,  30.70274816,
       115.19747099, 110.49904196,  92.54674754,  93.78936135,
        68.64297167,  85.21306857, 131.00846472, 127.46874789,
       117.32983324, 109.80500999,  99.11931133, 134.90794416,
       109.7492398 ,  74.37810872,  93.06518377,  49.62999748,
       120.5175959 ,  92.45430767, 117.2381387 ,  78.56207073,
       119.13834527, 107.73581867, 117.11519201, 125.73216577,
       112.25650779,  84.34406745,  58.35074311,  93.37622324,
       120.18388801,  87.79994969, 126.86976375,  73.06980435,
        92.12484685, 136.63607976,  62.32690097, 104.47683405,
       143.88588604, 154.67644942, 103.62878331, 113.82531942,
        74.2487655 , 111.60783591, 112.00409835, 153.47666604,
        87.95322968,  94.23936222, 100.87590647, 103.43724038,
        93.23905112, 110.95831573,  93.49630177,  84.04529886,
        76.81167371, 101.58267405, 127.16972718,  90.53677419,
       142.34965228, 117.92490279,  80.51208512, 121.39

## 범위

- numpy.ptp(x)
- numpy.max(x) - numpy.min(x)

In [15]:
print(np.ptp(x))
print(np.max(x) - np.min(x))

132.21159782042162
132.21159782042162


## 사분위 범위

- numpy.quantile(x,0.75) - numpy.quantile(x,0.25)
- scipy.stats.iqr(x)

In [16]:
print(np.quantile(x, 0.75) - np.quantile(x, 0.25))
print(iqr(x))

26.13690791913217
26.13690791913217
