In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

g = np.random.default_rng(0)
s = Series(g.normal(0, 100, 100_000)) 
#평균이 0이고, 표준편차가 100인 정규분포를 따르는 난수 100,000개로 Series 생성
s

0         12.573022
1        -13.210486
2         64.042265
3         10.490012
4        -53.566937
            ...    
99995    -91.667135
99996   -231.480500
99997     -0.028179
99998   -109.645051
99999    -49.541294
Length: 100000, dtype: float64

# Beyond 1

Demonstrate that 68%, 95%, and 99.7% of the values in `s` are indeed within 1, 2, and 3 standard distributions of the mean.

s의 값들 중에서 평균으로부터 각각 1, 2, 3 표준편차 이내에 속하는 값들의 비율이 실제로 68%, 95%, 99.7%임을 보여라.


1 표준편차 이내
→ 구간 [μ - σ, μ + σ]
→ 데이터가 평균에서 표준편차 1만큼 떨어진 구간 안에 있는지 확인

2 표준편차 이내
→ 구간 [μ - 2σ, μ + 2σ]

3 표준편차 이내
→ 구간 [μ - 3σ, μ + 3σ]


1,2,3 표준편차 이내의 값을 구하는 이유
1. 정규분포의 특징을 검증하기 위해
데이터가 정규분포를 따르면 68,95,99.7 법칙이 성립함. (경험적 법칙)
2. 데이터 분포를 직관적으로 이해하기 위해.
대부분의 값이 1표준편차 이내에 있다면 값들이 평균 주변에 모여있음.
3표준편차를 벗어나는 값이 많으면 극단값들이 많다는 신호. (이상치 확인에도 사용)

In [3]:
# within one standard deviation
s[(s > s.mean() - s.std()) &
  (s < s.mean() + s.std())].count() / s.count()
#s의 값이 평균에서 표준편차를 뺀 값보다 크고, 평균에서 표준편차를 더한 값보다 작은 것들의 개수를 전체 개수로 나눈 값 --> 1표준편차 내의 비율
#해당 조건을 만족하는 값들을 구한 뒤, s의 전체 개수로 나누어 비율을 구함

np.float64(0.68396)

In [9]:
# within two standard deviations
s[(s > s.mean() - 2*s.std()) &
  (s < s.mean() + 2*s.std())].count() / s.count()
#이는 2 표준편차 범위 내에 있는 값들의 비율을 계산한 것

np.float64(0.95461)

In [5]:
# within three standard deviations
s[(s > s.mean() - 3*s.std()) &
  (s < s.mean() + 3*s.std())].count() / s.count()
#이는 3 표준편차 범위 내에 있는 값들의 비율을 계산한 것

np.float64(0.99708)

# Beyond 2

 Calculate the mean of numbers greater than `s.mean()`. Then calculate the mean of numbers less than `s.mean()`. Is the average of these two numbers the same as `s.mean()`?


 s.mean()보다 큰 값들의 평균을 계산하세요.
그 다음, s.mean()보다 작은 값들의 평균을 계산하세요.
이 두 평균의 평균값은 s.mean()과 같을까요?

In [6]:
(s[s < s.mean()].mean() + s[s > s.mean()].mean() ) / 2
# s의 값이 평균보다 작은 값들의 평균과, 평균보다 큰 값들의 평균을 각각 구한 뒤, 이 두 값을 더하고, 이 두값에 대한 평균을 /2를 통해 구함.

# s[s<s.mean()].mean() # -79.66763213378562
# s[s>s.mean()].mean() # 79.92646167808225

np.float64(0.12941477214831565)

In [7]:
# They're pretty close!
s.mean()

#위의 두 값이 평균과 거의 같다는 것을 확인할 수 있음
#그 이유는 처음에 s를 구할 때 평균 0, 표준편차 100인 정규분포에서 뽑았기 때문에
#표준편차 100에 비하면 0.22는 매우 작은 값이기에 거의 같다고 할 수 있음
#표준편차가 100이라는 것은 데이터가 0을 기준으로 100 단위로 퍼져있다는 의미

#📌 설명

# Δ = 비교하고 싶은 두 값의 차이 = 0.22
# σ = 표준편차 = 100
# Δ / σ → 값의 차이를 표준편차 단위로 나타낸 것
# 즉, “0.22라는 값이 σ=100에 비하면 얼마나 작은가?”를 계산한 식

# 차이 (σ 단위)=Δ/σ​=0.22/100​=0.0022 매우 작음

np.float64(-0.09082507731206121)

# Beyond 3

What is the mean of the numbers beyond 3 standard deviations?

3 표준편차를 벗어난 값들의 평균(mean)은 얼마인가?

In [8]:
# A pretty complex combination of mask indexes,
# but the result is still a series, on which we can run mean()
s[(s < s.mean() - 3*s.std()) | 
  (s > s.mean() + 3*s.std()) ].mean()

#3표준편차보다 크거나, 작은 값들의 평균을 구함
#이 값은 평균에서 크게 벗어난 값들의 평균을 구하는 것이기에, 평균보다 훨씬 더 큰 음수 혹은 양수가 나올 것

# 작은 값 평균 + 큰 값 평균
# 여기서 주의: 개수에 따른 가중치(weight)가 고려되지 않음
# 즉, 실제 모든 3σ 밖 값들의 평균과는 같지 않을 수 있음
#따라서 위의 식 s[(s < s.mean() - 3*s.std()) | (s > s.mean() + 3*s.std()) ].mean() 으로 계산해야함.
# s[(s < s.mean() - 3*s.std())].mean() #3표준편차보다 작은 값들의 평균 : -326.17509911104133
# s[(s > s.mean() + 3*s.std())].mean() #3표준편차보다 큰 값들의 평균 : 329.9260807311315
# s[(s < s.mean() - 3*s.std())].mean() + s[(s > s.mean() + 3*s.std())].mean()

np.float64(-11.606040282602287)