In [1]:
import numpy as np
import pandas as pd
from scipy.stats import norm

In [None]:
# 1. 정규분포 데이터 생성하기
# 평균, 표준편차, 데이터개수
# np.random.normal(평균, 표준편차, 데이터개수)
mu, sigma, size = 50, 10, 1000
data = np.random.normal(loc=mu, scale=sigma, size=1000)

In [3]:
# 2. 데이터를 dataframe으로 변환하기
# pandas를 이용하기
df = pd.DataFrame( {"value": data })
df

Unnamed: 0,value
0,48.688274
1,44.246489
2,36.170117
3,46.549568
4,50.579114
...,...
995,46.540167
996,33.616107
997,57.739970
998,40.561117


In [4]:
# 3. 전체 데이터의 기본 통계량 확인 - describe함수
summary_stats = df["value"].describe()

In [5]:
summary_stats

count    1000.000000
mean       50.609642
std         9.867444
min        22.234616
25%        44.142775
50%        50.815892
75%        57.197075
max        77.888373
Name: value, dtype: float64

In [6]:
# 4. 정규분포의 이론적 기댓값과 비교

# (1) 평균과 표준편차를 계산하자
mean_value = df["value"].mean()
std_value = df["value"].std()


# (2) 68 - 95 - 99.7 의 법칙을 사용하자
# - 정규분포에서는 평균을 기준으로 데이터가 특정 범위 내에 포함되는 비율이 정해져 있음
# - 평균 ±1 표준편차 내에 약 68%의 데이터가 존재해야 함
# - 평균 ±2 표준편차 내에 약 95%의 데이터가 존재해야 함
# - 평균 ±3 표준편차 내에 약 99.7%의 데이터가 존재해야 함
within_1_sigma = np.sum( (df["value"] >= mean_value - std_value) & (df["value"] <= mean_value + std_value)) / size*100
within_2_sigma = np.sum( (df["value"] >= mean_value - 2*std_value) & (df["value"] <= mean_value + 2*std_value)) / size*100
within_3_sigma = np.sum( (df["value"] >= mean_value - 3*std_value) & (df["value"] <= mean_value + 3*std_value)) / size*100

In [7]:
# 5. 정규분포 검정 수행
#평균과 표준편차가 정규분포의 이론적인 값과 얼마나 유사한지 확인하자
#특정값(예:평균)에서의 확률밀도함수(pdf)값을 계산하여 정규값을 검토하자

sample_value = mu
pdf_value = norm.pdf(sample_value, loc=mean_value, scale = std_value )

In [8]:
# 6. 결과 출력
print("전체 데이터의 기본 통계량:")
print(summary_stats)

print("\n68-95-99.7 법칙 적용 결과:")
print(f"68% 범위 내 데이터 비율: {within_1_sigma:.2f}%")
print(f"95% 범위 내 데이터 비율: {within_2_sigma:.2f}%")
print(f"99.7% 범위 내 데이터 비율: {within_3_sigma:.2f}%")

print("\n정규분포 검정 결과:")
print(f"샘플 평균: {mean_value:.2f}, 샘플 표준편차: {std_value:.2f}")
print(f"이론적 정규분포의 평균: {mu}, 표준편차: {sigma}")
print(f"평균 값({sample_value})에서의 이론적 확률밀도함수(PDF) 값: {pdf_value:.6f}")


전체 데이터의 기본 통계량:
count    1000.000000
mean       50.609642
std         9.867444
min        22.234616
25%        44.142775
50%        50.815892
75%        57.197075
max        77.888373
Name: value, dtype: float64

68-95-99.7 법칙 적용 결과:
68% 범위 내 데이터 비율: 68.90%
95% 범위 내 데이터 비율: 94.90%
99.7% 범위 내 데이터 비율: 100.00%

정규분포 검정 결과:
샘플 평균: 50.61, 샘플 표준편차: 9.87
이론적 정규분포의 평균: 50, 표준편차: 10
평균 값(50)에서의 이론적 확률밀도함수(PDF) 값: 0.040353


결론 해석
- 생성된 데이터가 평균 50, 표준편차 10을 따르는 정규분포에 가깝다는 것을 확인
- 68-95-99.7 법칙을 적용한 결과, 실제 데이터가 이론적 정규 분포와 유사한 분포를 보임
- 샘플 데이터의 평균과 표준편차가 정규분포의 이론적 값과 거의 동일함
- 추가적인 정규성 검정(QQ-plot, 샤피로-월크 검정 등)을 수행하면 보다 정확한 분석이 가능하다.