# 🎈 변이 통계량

In [1]:
import numpy as np
import pandas as pd
import math
from scipy.stats import *
import scipy as sp

# Jupyter Notebook의 출력을 소수점 이하 3자리로 제한
%precision 3

# Dataframe의 출력을 소수점 이하 3자리로 제한
pd.set_option('precision', 3)

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

## ✔ 범위 (range)

In [2]:
# 범위(R) = 최대값 - 최소값

np.random.seed(123)
data = np.random.normal(100,20,1000)
data[:10]

array([ 78.287, 119.947, 105.66 ,  69.874,  88.428, 133.029,  51.466,
        91.422, 125.319,  82.665])

In [3]:
np.min(data), np.max(data)

(35.37889984161376, 171.43158436052622)

In [5]:
R = np.max(data) - np.min(data)
R

136.05268451891246

In [6]:
np.ptp(data)

136.05268451891246

## ✔ 중간 범위

In [7]:
# 중간 범위 계산
(np.max(data) + np.min(data))/2

103.40524210106999

## ✔ 사분위간 범위

In [9]:
np.quantile(data, 0.75) - np.quantile(data, 0.25)

27.06844676167337

In [10]:
iqr(data)

27.06844676167337

## ✔ 사분위수 편차

In [11]:
(np.quantile(data, 0.75) - np.quantile(data, 0.25))/2

13.534223380836686

In [12]:
iqr(data)/2

13.534223380836686

## ✔ 편차 (deviation)
* 자료값과 평균과의 차이
* xi-mean()

In [14]:
data - np.mean(data)

array([-2.092e+01,  2.074e+01,  6.451e+00, -2.933e+01, -1.078e+01,
        3.382e+01, -4.774e+01, -7.787e+00,  2.611e+01, -1.654e+01,
       -1.279e+01, -1.103e+00,  3.062e+01, -1.199e+01, -8.088e+00,
       -7.896e+00,  4.491e+01,  4.453e+01,  2.087e+01,  8.515e+00,
        1.554e+01,  3.061e+01, -1.793e+01,  2.431e+01, -2.429e+01,
       -1.196e+01,  1.893e+01, -2.778e+01, -2.010e+00, -1.644e+01,
       -4.321e+00, -5.518e+01, -3.464e+01, -1.321e+01,  1.934e+01,
       -2.681e+00,  8.482e-01,  1.456e+01, -1.680e+01,  6.464e+00,
       -1.532e+01, -3.376e+01, -7.027e+00,  1.227e+01,  7.563e+00,
        5.547e-01,  4.864e+01,  9.050e+00,  2.037e+01,  4.555e+01,
       -2.509e+01, -1.998e+01,  3.567e+01, -1.517e+01,  1.385e+00,
        2.218e+01,  1.861e+01,  3.589e+01,  3.070e+01,  2.218e+01,
       -1.466e+01,  1.669e+01,  7.077e+00, -2.573e+01,  2.914e+01,
        1.694e+01,  1.701e+00, -3.871e+00, -2.317e+01,  4.782e+00,
        1.016e+01, -1.583e+01,  2.404e+01, -2.115e+01, -4.167e

## ✔ 분산(variance)
* 평균을 중심으로 데이터가 퍼져 있는 정도의 측도
* 각 데이터와 평균과의 차이를 제곱하여 합한 값의 평균

### ✏ 분산 계산 : var(a, ddof=0)
* ddof 기본 값은 0 => 모집단 분산을 의미
* 표본 분산의 경우 1로 설정

In [20]:
x = [1, 2, 3, 4, 5]

# 표본분산
np.var(x, ddof=1)

# 모분산
np.var(x)

# 모분산2
np.array(x).var()

# 모분산3
pd.Series(x).var(ddof=0)

2.5

2.0

2.0

2.000

## ✔ 표준편차(standard deviation)

### ✏ 표준편차 계산 : std(a, ddof=0)함수 사용

In [22]:
x = [1, 2, 3, 4, 5]

# 표본 표준편차(S)
np.std(x, ddof=1)

# 모표준편차(sigma)
np.std(x)

# 모표준편차2
np.array(x).std()

# 모표준편차3
pd.Series(x).std(ddof=0)

1.5811388300841898

1.4142135623730951

1.4142135623730951

1.414

## ✔ 변동계수(CV : Coefficienf of Variable)
* 표본 표준편차를 표본평균으로 나눈 값 또는 그 값에 100을 곱한 값
* 상대 표준편차
* 서로 다른 평균과 표준편차를 갖는 여러 데이터의 흩어진 정도를 비교할 때 사용

### ✏ 변동계수 계산

In [23]:
men = [72,74,77,68,66,75]
women=[45,48,52,53,46,50]

# 평균
np.mean(men)
np.mean(women)
print('--------------------------------')

# 표본 표준편차
np.std(men,ddof=1)
np.std(women,ddof=1)

72.0

49.0

--------------------------------


4.242640687119285

3.22490309931942

In [24]:
# 남자의 변동 계수
np.std(men, ddof=1)/np.mean(men)

# 여자의 변동 계수
np.std(women, ddof=1)/np.mean(women)

0.05892556509887895

0.06581434896570246

In [25]:
# 남자의 변동 계수
variation(men)

# 여자의 변동 계수
variation(women)

0.053791435363991905

0.06008000589338671

## ✔ 데이터의 정규화 : scaling(표준화)
* 각 값들을 상대적인 값으로 변화시키는 방법
* ex. 국어 평균 95점, 수학 평균 30점인 경우, 
    * 취득점수 국어90, 수학 80이라면 어떤 과목을 더 잘한 것인가?

In [29]:
df = pd.read_csv('c:/data/ch2_scores_em.csv', index_col = 'student number')
df.head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [30]:
df['english'].describe()

count    50.00
mean     58.38
std       9.80
min      37.00
25%      54.00
50%      57.50
75%      65.00
max      79.00
Name: english, dtype: float64

In [33]:
df['mathematics'].describe()

count    50.000
mean     78.880
std       8.414
min      57.000
25%      76.000
50%      80.000
75%      84.000
max      94.000
Name: mathematics, dtype: float64

In [34]:
df.describe()

Unnamed: 0,english,mathematics
count,50.0,50.0
mean,58.38,78.88
std,9.8,8.414
min,37.0,57.0
25%,54.0,76.0
50%,57.5,80.0
75%,65.0,84.0
max,79.0,94.0


### ✏ Z-scaling

In [35]:
z1 = (df['english']-df['english'].mean())/df['english'].std()
z2 = (df['mathematics']-df['mathematics'].mean())/df['mathematics'].std()

print(z1.min(), z1.max())
print(z2.min(), z2.max())

-2.1816743772942324 2.104121873704727
-2.600313324789425 1.796925844187209


In [36]:
z1.mean(), z1.std()

(-0.000, 1.000)

### ✏ min-max scaling

In [37]:
s1 = (df['english']-df['english'].min())/df['english'].max()-df['english'].min()
s2 = (df['mathematics']-df['mathematics'].min())/df['mathematics'].max()-df['mathematics'].min()

print('eng : ', s1.min(), s1.max())
print('math : ', s2.min(), s2.max())

eng :  -37.0 -36.46835443037975
math :  -57.0 -56.6063829787234


### ✏ sklearn.preprocessing.MinMaxScaler을 이용한 스케일링
* 머신러닝을 위해 쓰는 경우가 대부분
* df의 각 열에 대해서 스케일링하는데 적합함

In [39]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

S = scaler.fit_transform(df)

pd.DataFrame(S, index = df.index, columns=df.columns).head()

Unnamed: 0_level_0,english,mathematics
student number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.119,0.216
2,0.762,0.622
3,0.452,0.162
4,0.095,0.162
5,0.476,0.514
