# 산포통계

## 분산 표준편차 구하기

In [1]:
import numpy as np
from scipy import stats 
import pandas as pd

In [2]:
# 분산계산
x = [1,2,3,4,5] #데이터 가정
print(np.var(x, ddof =1)) #분모 = n-1 (5-1), 표본
print(np.array(x).var()) #분모 = n
# 분모 = n, 자유도(ddof) 0 : 모분산인경우, 표본분산
print(pd.Series(x).var(ddof = 0))


2.5
2.0
2.0


In [3]:
# 표준편차 계산
x = [1,2,3,4,5]
print(np.std(x, ddof = 1))
print(np.array(x).std(ddof = 0))
print(pd.Series(x).std(ddof = 1))

1.5811388300841898
1.4142135623730951
1.5811388300841898


In [5]:
# 분산 계산식
# sum(x_i - 평균)**2 / n <- 모집단 데이터의 분산 계산식
# sum(x_i - 평균)**2 / (n-1) <- 표본데이터의 분산 계산식

# 변동계수의 필요성
- 분산과 표준편차 모두 값의 스케일에 크게 영향을 받아 상대적인 산포를 보여주는데 부적합함.
- 변동 계수 = 표준편차 / 평균

In [6]:
x1 = np.array([1,2,3,4,5])
x2 = x1 * 10

print(np.std(x1, ddof = 1))
print(np.std(x2, ddof = 1))

1.5811388300841898
15.811388300841896


In [7]:
print(stats.variation(x1)) #변동계수
print(stats.variation(x2))

0.47140452079103173
0.4714045207910317


In [9]:
print(np.std(x1, ddof = 1)/ np.mean(x1))
print(np.std(x2, ddof = 1)/ np.mean(x2))

0.5270462766947299
0.5270462766947299


# 스케일링
- 둘 이상의 변수의 값을 상대적으로 비교할 때 사용

In [10]:
import numpy as np
import pandas as pd

In [11]:
x1 = np.array([1,2,3,4,5])
x2 = x1 * 10

In [12]:
x1

array([1, 2, 3, 4, 5])

In [13]:
x2

array([10, 20, 30, 40, 50])

In [15]:
# standard Scaling
z1 = (x1 - x1.mean()) / x1.std()
z2 = (x2 - x2.mean()) / x2.std()

print(z1)
print(z2)

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]
[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


In [16]:
#Min-max Scaling
z1 = (x1 - x1.min()) / (x1.max() - x1.min())
z2 = (x2 - x2.min()) / (x2.max() - x2.min())

print(z1)
print(z2)

[0.   0.25 0.5  0.75 1.  ]
[0.   0.25 0.5  0.75 1.  ]


# 데이터 프레임 만들기

In [14]:
# sklearn을 이용한 스케일링을 위한 데이터 준비
import pandas as pd
x= pd.DataFrame({"X1":[1,2,3,4,5], "X2":[10,20,30,40,50]})
x


Unnamed: 0,X1,X2
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


### scikit learn 을 활요한 데이터 표준화하기

In [15]:
!pip install scikit-learn



In [16]:
dir

<function dir>

In [17]:
#MinMaxScaler 메모리에 로딩
from sklearn.preprocessing import MinMaxScaler

In [18]:
# MinMaxScaler 객체 생성
scaler =MinMaxScaler()
scaled = scaler.fit_transform(x)


In [19]:
scaled

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [0.75, 0.75],
       [1.  , 1.  ]])

In [21]:
pd.DataFrame(scaled, columns=['x1', 'x2'])

Unnamed: 0,x1,x2
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


## StandardScaler 로 표준화 하기

In [23]:
from sklearn.preprocessing import StandardScaler

In [25]:
ss_scaler = StandardScaler()
scaled = ss_scaler.fit_transform(x)
pd.DataFrame(scaled, columns=['x1','x2'])

Unnamed: 0,x1,x2
0,-1.414214,-1.414214
1,-0.707107,-0.707107
2,0.0,0.0
3,0.707107,0.707107
4,1.414214,1.414214


## 범위와 사분위 범위 계산하기

In [26]:
import numpy as np

In [27]:
x = np.random.normal(100, 20, size = 1000)

In [28]:
# x(소문자) : 걸림이 1개일경우
#X(대문자) : 걸림이 2개이상일 경우

## 범위 계산

- m : 문자 셀로 변환
- y : 코드셀로 변환

In [30]:
print(np.ptp(x))
print(np.max(x) - np.min(x))

126.86180318311222
126.86180318311222


In [39]:
print(np.quantile(x, 0.75) - np.quantile(x, 0.25))


24.89198469431699


In [40]:
import scipy import stats as st
print(st.iqr(x))

SyntaxError: invalid syntax (249528493.py, line 1)