# < 커리큘럼 >
- 이부일 쎄오님 010-3420-8736

In [None]:
# 패키지(Package) 로딩(Loading) 하기 : 로딩 = (패키지를 램에 올리는 기능)

import scipy.stats as stats # 통계와 관련된 (science ipy)
import pandas      as pd    # 데이터 읽어오기, 핸들링, 분석 등 등
import seaborn     as sns   # 데이터 시각화

#### 1. 정규분포에서 확률 구하기

In [None]:
# 문제 : 모집단이 평균 170, 표준 편차 10인 정규 분포를 따를때

# 1. 170 이하의 면적은? loc = 평균, scale = 표준편차
stats.norm.cdf(170, loc = 170, scale = 10) # cdf : cumulative density function : 누적 확률 밀도함수 사진

In [None]:
# 2. 190 이하의 면적은?
1 - stats.norm.cdf(190, loc = 170, scale = 10)

In [None]:
# 3. 140 에서 200 사이의 면적은?
stats.norm.cdf(200, loc = 170, scale = 10) - stats.norm.cdf(140, loc = 170, scale = 10)

#### 2. 일표본 검정 (One sample test)
- 정규성 가정을 만족하면: 일표본 t 검정 (One sample t-test)
- 정규성 가정을 만족안함: 윌콕슨의 부호 순위 검정 (wilcoxon's signed rank test)

In [None]:
# 1. 가설 검정 첫번째
# 귀무 가설: 성인들의 용돈의 평균은 50만원이다.
# 대립 가설: 성인들의 용돈의 평균은 50만원 보다 많다.

# 엑셀 데이라 읽어오기
income = pd.read_excel(io         = "income.xlsx",
                       sheet_name = 0,
                       header     = 0)
income

In [None]:
# 1단계 : 정규성 검정(Normality Test)
# 귀무 가설 : 성인들의 용돈은 정규 분포를 따른다. H_0
# 대립 가설 : 성인들의 용돈은 정규 분포를 따르지 않는다. H_1

# n(표본의 데이터 수) < 5000 : Shapiro-wilk
# n(표본의 데이터 수) >= 5000 : Anderson-darling

# n = 19 < 5000 : Shapiro-wilk
stats.shapiro(income["money"])

In [None]:
# statistic=0.975 : 검정 통계랑 W
# pvalue=0.866    : 유의 확률

# 결론
# p-value 가 (0.866) > 유의수준 0.05 : 귀무가설
# 성인들의 용돈은 정규분포를 따른다. ->>>>> 원샘플 T 테스트를 한다.

In [None]:
# 2단계 : 일표본 t검정 (one sample t-test)
stats.ttest_1samp(income["money"],
                  popmean     = 50,
                  alternative = "greater")

# income["money"] : 검정 변수
# popmean         : 귀무가설의 모평균
# alternative     : 대립가설 : "greater", "less", "two-sided."

In [None]:
# statistic = 6.381         : t: 검정 통계 량
# p - value = 0.000         : 유의수준 (0.05)
# df        = 18            : 자유도 = n-1

#결론
#p-val (0.000) < 유의수준(0.05) : 대립가설
# 성인들의 용돈은 평균은 50만원 보다 많다.

In [None]:
# 가설검정 2
# 귀무가설 : 다이아몬드의 가격의 평균은 5000 달러이다.
# 대립가설 : 다이아몬드의 가격의 평균은 5000 달러보다 작다.

In [None]:
diamonds = sns.load_dataset("diamonds")
diamonds.head()

In [None]:
# n = 53940 > 5000 : Anderson-Darling

In [None]:
# 1단계: 정규성 검정 : Anderson-Darling
# 귀무가설 : 다이아몬드 가격은 정규분포를 따른다.
# 대립가설 : 다이아몬드 가격은 정규분포를 따르지 않는다.

In [None]:
stats.anderson(diamonds["price"],
               dist = "norm")

# dist : distribution
# "norm" : Normal distribution

In [None]:
# statistic = 3474.016 : 검정통계랑
# critical_values      : 임계값              =>, 유의 수준(0.05, 5%) : 5.: 0.787
# significance_level   : 유의 수준(0.05, 5%) : 5.

# 검정 통계량 > 임계값 : 대립가설로 간다.
# 다이아 몬드 가격은 정규분포를 따르지 않는다.
# 정규성 가정이 깨짐

In [None]:
# 2단계 : 윌콬슨 부호 순위 검정 (wilcoxon's singend rank test)
stats.wilcoxon(diamonds["price"] - 5000, # 이 함수는 뮤값을 0으로 지정하기 때문에 diamonds["price"] - 5000
               alternative = "less"
               )

In [None]:
# statistic = 416688559.0 : 검정 통계량 : W+
# p-value   = 0.0         : 유의 확률 (0.000)

# 결론
# p-value(0.000) < 유의 수준 (0.05) : 대립가설
# 다이아몬드의 가격의 평균은 5000 달러보다 작다.