<img src='https://i.imgur.com/RDAD11M.png' width = '200' align = 'right'>

## *DATA SCIENCE / SECTION 1 / SPRINT 2 / NOTE 3*

---

# Confidence Intervals

## 🏆 학습 목표 

- 통계적 추론, 예측, 그리고 표준 오차에 대해서 설명 할 수 있다.
- CLT의 의미에 대해서 설명 할 수 있다.
- 신뢰구간의 목적과 사용 예시에 대해 설명 할 수 있다.
- 추정된 통계치에 대해서 신뢰구간을 계산 할 수 있다.
- 신뢰구간에 대한 표본 오차를 설명하고 이를 시각화 할 수 있다. 

## ❓ 시작하기전에

- 분석에 많은 데이터를 사용 하는 것은 어떤 장단점이 있을까요?
- 아래와 같이 여론조사에서 **자주 사용되는** 문구는 실제로 어떠한 뜻을 담고 있을까요?

> 이번 여론조사는 TBS 의뢰로 리얼미터가 7일 하루 동안 전국 18세 이상 성인 6706명을 접촉해 500명의 응답을 받아 이뤄졌다. 신뢰 수준 95%에 표본 오차는 ±4.4%포인트다.


---



## 추론, 예측, 표준 오차

## 중심극한정리 ( Central Limit Theorem, CLT )


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

sample_means = []

for x in range(0,3000):
  coinflips = np.random.binomial(n=1, p=.5, size=12) # Binomial 분포 데이터
  one_sample = coinflips
  sample_means.append(coinflips.mean())

print(len(sample_means))
print(pd.DataFrame(sample_means).describe())

In [None]:
df = pd.DataFrame({'single_sample': one_sample})

print(len(df))

print(df)

df.head()

In [None]:
df.single_sample.hist();

In [None]:
ax = plt.hist(sample_means)
plt.title('Distribution of 3000 sample means \n (of 12 coinflips each)');

## ℹ️ CLT가 의미 하는 바는 다음과 같습니다. 

> 모집단 데이터의 분포가 어떠하던지에 관계 없이, 
**표본 데이터의 평균**은 표본의 수가 많아짐에 ($n \rightarrow \infty$) 에 따라 
정규 분포에 가까워진다.

- 위 예시의 경우 모집단은 binomial 분포입니다


이는 가설 검증에 있어서 매우 중요한 의미를 가지며, 표본 데이터의 수가 증가함에 따라서 t-분포가 정규 분포에 근사 되는 이유입니다. 


In [None]:
sample_means_small = []
sample_means_large = []

for x in range(0,3000):
  coinflips_small = np.random.binomial(n=1, p=.5, size=20)
  coinflips_large = np.random.binomial(n=1, p=.5, size=100)
  one_small_sample = coinflips_small
  one_small_large = coinflips_large
  sample_means_small.append(coinflips_small.mean())
  sample_means_large.append(coinflips_large.mean())

print(len(sample_means_small))
print(sample_means_small[0:10])

In [None]:
import seaborn as sns
fix, ax = plt.subplots()
for sample in [sample_means_small, sample_means_large]:
  sns.distplot(sample)

## 평균의 표준 오차

평균의 표준 오차란, 표본 평균의 **가상의** 분포에 대한 표준 편차 입니다. 

## 신뢰 구간의 설정 및 해석

<img src='https://user-images.githubusercontent.com/6457691/89850359-2be9bc00-dbc5-11ea-9956-83fce6a2ca4c.png' width = 600> 

<img src="https://user-images.githubusercontent.com/6457691/89851000-71f34f80-dbc6-11ea-93d0-c875c39bed32.png" width=500>

In [None]:
from scipy import stats

def confidence_interval(data, confidence=0.95):
  """
  주어진 데이터의 표본 **평균**에 대한 신뢰구간을 계산.
  기본 값으로 t-분포와 양방향 (two-tailed), 95%의 신뢰도를 사용합니다. 
  
  입력 값 : 
    data - 여러 개로 이루어진 (list 혹은 numpy 배열) 표본 관측치
    confidence - 신뢰구간을 위한 신뢰도 
  
  반환 되는 값:
    (평균, 하한, 상한구간)으로 이루어진 tuple
  """
  data = np.array(data)
  mean = np.mean(data)
  n = len(data)
  stderr = stats.sem(data)
  interval = stderr * stats.t.ppf((1 + confidence) / 2.0, n - 1)
  return (mean, mean - interval, mean + interval)


confidence_interval([1,2,3,1,2,3,1,2,3])

# 표본 집단의 평균은 2.0이며, 모집단의 평균은 신뢰도 95%로 1.33 ~ 2.66사이에 존재

## 신뢰구간의 시각화


In [None]:
x = np.linspace(0,4,101)

y = stats.norm(2, 0.75).pdf(x)

plt.plot(x,y)
plt.plot([2,2], [0,0.7], 'k-', lw = 2, color = 'red')
plt.plot([1.334,1.334], [0,0.7], 'k-', lw = 2, color = 'green')
plt.plot([2.666,2.666], [0,0.7], 'k-', lw = 2, color = 'green')


## 🔥 위의 코드를 조금 변형해봅시다

- 녹색, 적색 실선을 점선으로
- 녹색, 적색 실선의 색상을 변경해보세요.


### 신뢰구간과 T-test의 관계

신뢰구간 == 시행한 T-test의 통계적 의미를 갖는 범위

표본 평균이 신뢰구간 안에 들어가는 경우, 귀무가설을 **기각하지 않습니다**.

반대로, 표본 평균이 신뢰구간 밖으로 나가는 경우 귀무가설을 **기각합니다**.

In [None]:
from scipy.stats import t, ttest_1samp

In [None]:
import numpy as np

coinflip_means = []
for x in range(0,100):
  coinflips = np.random.binomial(n=1, p=.5, size=30)
  coinflip_means.append(coinflips.mean())


In [None]:
# 표본의 크기
n = len(coinflip_means)
# 자유도
dof = n-1
# 평균의 평균
mean = np.mean(coinflip_means)
# 표본의 표준편차
sample_std = np.std(coinflip_means, ddof=1)
# 표준 오차
std_err = sample_std/n**.5

CI = t.interval(.95, dof, loc=mean, scale=std_err)
print("95% 신뢰구간: ", CI)

In [None]:
'''앞에서 만들었던 신뢰구간 계산은 쉽게 사용 할 수 있습니다. 
한가지 추가로 해야 할 일은 보여지는 t 통계치에 대한 이해 입니다.'''

# 95% 신뢰 구간
t_stat = t.ppf(.975, dof)
print("t 통계치:", t_stat)

CI = (mean-(t_stat*std_err), mean+(t_stat*std_err))
print("신뢰구간", CI)

예시에 쓰인 .49라는 값은 신뢰구간 안에 (0.48~0.51) 들어 왔기 때문에 == 귀무가설은 기각 되지 않습니다. 

다른 예시 값 .4818은 신뢰구간 밖에 있으므로 == 귀무가설을 기각합니다.