# 산포통계

In [1]:
import numpy as np
from scipy import stats
import pandas as pd

### 분산 계산

In [4]:
x = [1,2,3,4,5]
print(np.var(x,ddof = 0)) #해석 : 분산을 계산(var) 그냥하거나 ddof를 0으로 주면 모집단 계산
print(np.var(x,ddof = 1))  #표본 데이터의 분산을 계산할 때 분모(n-1) / 모집단이 아닌 표본
print(np.array(x).var())
print(pd.Series(x).var(ddof = 0)) #numpy가 아닌 pandas series에도 있다

2.0
2.5
2.0
2.0


#### 분산 계산식

* sum(x_i - 평균)**2 / n < 모집단 데이터의 분산 계산식
* sum(x_1 - 평균)**2 / (n-1) < 표본 데이터의 분산 계산식
* ddof : 자유도 : 데이터의 산포도를 나타내는 지표
  * ddof=1(기본값) = 자유도 n-1 : 표본 평균을 사용한 분산이 모분산을 편향 없이 추정하도록 보정함.
  * ddof=0 = 자유도 n : 표본 전체를 모집단처럼 취급하여 표준편차를 계산, 모평균을 아는 경우에 사용하며 편향이 발생할 수 있음.
  * 편향이 발생할 수 있다/없다 = 결과값이 실제 표준편차보다 작게(과소평가) 나오는 경향이 있다
     1. 표본 분산 공식은, 표본의 각 데이터(x_i)와 표본 평균의 차이를 사용
     2. 데이터와 데이터 자체의 평균 간의 거리는 데이터와 '다른' 평균(모집단 평균) 간의 거리보다 항상 작거나 같습니다.
     3. 결과적으로 계산된 표준 분산은 실제 모집단 분산보다 항상 작게 나오려는 경향이 있음. **통계는 일반적으로 표본을 통해 모집단의 특성을 추론하는 방법론이기 때문**

### 표준편차 계산

In [6]:
x = [1, 2, 3, 4, 5]
print(np.std(x, ddof = 1))
print(np.array(x).std(ddof = 0))
print(pd.Series(x).std(ddof = 1))

1.5811388300841898
1.4142135623730951
1.5811388300841898


### 변동계수의 필요성
* 분산과 표준편차 모두 값의 스케일에 크게 영향을 받아 상대적인 산포를 보여주는데 부작합함.
* 변동 계수 = 표준편차 / 평균

In [7]:
x1 = np.array([1, 2, 3, 4, 5])
x2 = x1 * 10

print(np.std(x1, ddof = 1))
print(np.std(x2, ddof = 1))

1.5811388300841898
15.811388300841896


In [8]:
print(stats.variation(x1)) # 변동 계수
print(stats.variation(x2))

0.47140452079103173
0.4714045207910317


In [9]:
print(np.std(x1, ddof = 1) / np.mean(x1))
print(np.std(x2, ddof = 1) / np.mean(x2))

0.5270462766947299
0.5270462766947299


### 스케일링
* 둘 이상의 변수의 값을 상대적으로 비교할 때 사용

In [10]:
import numpy as np
import pandas as pd


In [11]:
x1 = np.array([1, 2, 3, 4, 5])
x2 = x1 * 10

In [12]:
x1

array([1, 2, 3, 4, 5])

In [13]:
x2

array([10, 20, 30, 40, 50])

In [17]:
# Standard Scaling
z1 = (x1 - x1.mean()) / x1.std()
z2 = (x2 - x2.mean()) / x2.std()

print(z1)
print(z2)

#결과 해석 : 가운데 0을 기준으로 좌우로 얼마나 떨어져있는지를 보여주는 것.
#결과는 각자 1, 2, 3, 4, 5가 스케일링 된 값이다.

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]
[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


In [15]:
# Min-max Scaling
z1 = (x1 - x1.min()) / (x1.max() - x1.min())
z2 = (x2 - x2.min()) / (x2.max() - x2.min())

#결과 해석 : 0과 1사이 값으로 수준이 맞춰진다.

print(z1)
print(z2)

[0.   0.25 0.5  0.75 1.  ]
[0.   0.25 0.5  0.75 1.  ]


In [16]:
# sklearn을 이용한 스케일링을 위한 데이터 준비
X = pd.DataFrame({"X1":[1, 2, 3, 4, 5],
    "X2": [10, 20, 30, 40, 50]})

X

Unnamed: 0,X1,X2
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


아래 열을 수행하기 전에, 미리 anaconda prompt로 아래 사항을 install해주어야 한다.
* pip install scikit-learn

In [19]:
# scikit learn 의 MinMaxScaler 적용
# 0 ~ 1 데이터 스크케일링함
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler() # 인스턴스화
Z = scaler.fit_transform(X) # fit_transform => ndarray
pd.DataFrame(Z, columns=['X1', 'X2'])

Unnamed: 0,X1,X2
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


In [20]:
# 표준 정규분포에 따라서 데이터의 수준을 맞춤
# 표준 정규분포 : 
from sklearn.preprocessing import StandardScaler

In [21]:
ss_scaler = StandardScaler() # 인스턴스화
Z = ss_scaler.fit_transform(X) # fit_transform => ndarray
pd.DataFrame(Z, columns=['X1', 'X2'])

Unnamed: 0,X1,X2
0,-1.414214,-1.414214
1,-0.707107,-0.707107
2,0.0,0.0
3,0.707107,0.707107
4,1.414214,1.414214


# 데이터 표준화 하기

데이터 프레임 만들기

In [18]:
import pandas as pd #왜 오류 나는 지 모르겠음

In [None]:
pd.DataFrame(
    {
        "X1" : {1,2,3,4,5},
         "X2" : {10,20,30,40,50}
    }
            )  ##해당 셀 실행 안함

In [19]:
# 표준 정규분포에 따라서 데이터의 수준을 맞춤
# 표준 정규분포 : 
from sklearn.preprocessing import StandardScaler

In [20]:
# Standard scaling
from sklearn.preprocessing import StandardScaler

ss_scaler = StandardScaler() # 인스턴스화
S = ss_scaler.fit_transform(X) # fit_transform => ndarray
pd.DataFrame(S, columns=['X1', 'X2'])

NameError: name 'X' is not defined

# 범위와 사분위 범위 계산

In [22]:
# np.random.normal(평균, 편차, size = 갯수)
x = np.random.normal(100, 20, size = 1000)
x

array([109.77467369,  75.19552425,  99.47557443,  96.89736055,
        73.56259603,  62.60203093, 109.04785886, 107.47356557,
        88.30756552,  94.11403563, 116.35085577, 110.84755522,
       117.87041515, 130.08363606, 103.44050336, 127.31475261,
        98.86259292,  96.70007545, 114.12604639,  60.28922533,
        68.66616337, 118.93378838, 104.47393358,  81.2026178 ,
       112.92773634,  91.84805985, 104.35936714, 148.28886207,
        67.98598142, 107.28351364,  84.78196359,  68.61236124,
        84.40824284, 110.95823694,  60.36584613, 158.65180132,
        73.39001935,  79.05928426, 110.49369409,  94.58489428,
       111.80064648,  89.83156743,  85.120574  , 115.42111878,
       121.12638383,  95.21801224, 117.6511501 ,  75.51301242,
       100.65254135,  78.00435059,  89.79773208,  57.67880386,
       104.90894139,  87.91649303, 106.71830301, 123.67755103,
        95.6785693 ,  96.50848696, 108.45488917,  86.7529379 ,
        92.80210704,  81.55187533, 105.55058684, 117.57

In [23]:
print(np.ptp(x))
print(np.max(x) - np.min(x))

125.14544037680966
125.14544037680966


In [24]:
print(np.quantile(x, 0.75) - np.quantile(x, 0.25))
print(stats.iqr(x))

25.1688811884585
25.1688811884585
