# 4장 표본분포에 대한 이해 Quiz

In [None]:
# 한글 깨짐 설정 (설정 후 런타임 재시작 필요)
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# default option 지정
# plt.rcParams['figure.figsize'] = (8, 5)
# plt.rcParams['figure.dpi'] = 100
# plt.style.use("ggplot")
# plt.rcParams['axes.grid'] = True
# plt.rcParams["patch.force_edgecolor"] = True
plt.rc('font', family='NanumBarunGothic')

import warnings
warnings.filterwarnings("ignore")

## 데이터셋 불러오기 : Hotel 데이터셋
<br>

> **hotel 데이터셋 설명 (Description)** <br>
호텔 숙박 플랫폼에 등록된 예약 정보 데이터
- 이전에 플랫폼을 사용하여 예약한 경험 + 취소 이력이 없는 사람으로 이루어진 데이터셋

- `hotel` : 호텔 종류
- `is_canceled` : 예매 취소 여부
- `lead_time` : 예매한 날짜와 도착 날짜 사이에 경과된 일수
- `arrival_date_year` : 도착 연도
- `arrival_date_month` : 도착 월
- `arrival_date_week_number` : 도착한 주 (e.g. 5주차)
- `arrival_date_day_of_month` : 도착한 날짜(일)
- `stays_in_weekend_nights` : 총 숙박 기간 중 주말 숙박의 개수

- `stays_in_week_nights` : 총 숙박 기간 중 주중 숙박의 개수
- `adults` : 숙박 고객 중 어른의 숫자
- `children` : 숙박 고객 중 아이의 숫자
- `deposit_type` : 보증금 종류
- `days_in_waiting_list` : 고객이 예약을 확정하기 전 대기 리스트에 있던 일수
- `adr` : 일일 평균 객실료 (모든 숙박 거래의 합계를 총 숙박 일수로 나눈 평균 일 요금)
- `arrival_date` : 도착 날짜
- `arrival_day` : 도착 요일
- `reservation_status` : 예약 상태
- `reservation_status_date` : 예약 상태가 변화한 날짜
- `status_changed_day` : 예약 상태가 변화한 요일

In [None]:
hotel = pd.read_csv('hotel.csv')

In [None]:
hotel.head()

## 1. 큰 수의 법칙 (Law of Large Numbers)

- 무작위 column을 선택하여, 분포를 확인하고 큰 수의 법칙을 시각화 해보세요

    - 큰 수의 법칙은 원래 무한대로 진행할 때 표본평균이 모평균에 가까워 진다는 것이 전제이지만, 데이터셋을 바탕으로 모평균에 얼마나 가까워지는지 확인해보세요



In [None]:
# 무작위 column의 분포와 평균을 확인하고, histplot으로 시각화 해보세요

column = # column을 하나 골라주세요
mean = hotel[column].mean()

plt.figure(figsize=(10,8))
col_value = hotel[column].values

# histplot의 빈칸에 값을 넣어주세요
sns.histplot(, kde=True)

# 컬럼의 평균을 histplot에 초록 선으로 표시
# 빈칸에 값을 넣어주세요
plt.axvline(, c="green", lw=2, label="Mean")
plt.title(" 컬럼 분포", fontsize=13, fontweight="bold")
plt.legend()
plt.show()

In [None]:
np.random.seed(42)

# 3, 10, 100개의 데이터 랜덤하게 선택
# 위에서 사용한 col_value 변수를 사용하세요
# 빈 칸에 답을 써주세요
sample1 = np.random.choice(col_value, )
sample2 = np.random.choice(col_value, )
sample3 = np.random.choice(col_value, )

# 랜덤하게 선택한 데이터들의 평균값 구한다
sample_mean_3 = # 빈 칸에 답을 써주세요
sample_mean_10 = # 빈 칸에 답을 써주세요
sample_mean_100 = # 빈 칸에 답을 써주세요

# 랜덤하게 선택한 데이터들의 평균값을 모집단의 평균과 비교
plt.figure(figsize=(10,8))
sns.histplot(,alpha=0.5)
plt.axvline(, c='green', lw=2, label='Population Mean')
plt.axvline(sample_mean_3, c='blue', lw=2, label='Mean of Sample Size 3')
plt.axvline(sample_mean_10, c='yellow', lw=2, label = 'Mean of Sample Size 10')
plt.axvline(sample_mean_100, c='red', lw=2, label = 'Mean of Sample Size 100')
plt.title("랜덤하게 선택한 데이터들의 평균값을 모집단의 평균과 비교", fontsize=13, fontweight="bold")
plt.legend()
plt.show()

## 2. 중심극한정리 (Central Limit Theorem)
- 무작위 column 3개를 선택하여, 분포를 확인하고 중심극한정리를 시각화 해보세요.

In [None]:
# 컬럼별 모집단 분포

# 무작위 컬럼을 3개 골라, clt_cols 변수에 list로 만들어 선언해주세요
clt_cols = []

fig, ax = plt.subplots(1, 3, figsize=(16, 8))

for i, col in enumerate(clt_cols):
  # for loop 문 안에, 위에서 고른 3개의 컬럼의 분포를 histplot으로 시각화하는 코드를 작성해주세요
  # kde=True를 사용해주세요

In [None]:
# 중심극한정리를 통해 정규분포 모양 갖는 것 확인

np.random.seed(42)

# 위에서 선택한 3개의 컬럼의 샘플을 추출하여, 평균값을 계산할 list를 선언해주세요
col1_means_size_30 = []
col2_means_size_30 = []
col3_means_size_30 = []

for _ in range(10000):
  # 선택한 3개의 컬럼에서, sample size=30인 표본을 무작위로 만드는 코드를 작성하세요
  
  # 각 컬럼들의 평균값들을 위에서 만든 빈 list에 삽입하는 코드를 작성해주세요


fig, axes = plt.subplots(1, 3, figsize=(16, 8))
fig.suptitle("Central Limit Theorem (Sample Size = 30)", fontsize=13, fontweight="bold")


# 빈 칸을 작성해주세요 
# histplot 제목의 (컬럼 이름)도 선택한 컬럼의 이름을 넣어주세요
sns.histplot(, ax=axes[0], kde=True)
axes[0].set_title("(컬럼이름) 컬럼 평균 표본 분포")

sns.histplot(, ax=axes[1], kde=True)
axes[1].set_title("(컬럼이름) 컬럼 평균 표본 분포")

sns.histplot(, ax=axes[2], kde=True)
axes[2].set_title("(컬럼이름) 컬럼 평균 표본 분포")
plt.show()

## 3. 카이제곱분포
- 1.2 중심극한정리에서 사용한 컬럼의 표본평균의 분포를 바탕으로, 자유도에 따른 카이제곱분포를 그려보세요

In [None]:
import scipy.stats as stats

# 중심극한정리 시각화 코드에서 사용한 하나의 컬럼의 표본 평균을 모아 놓은 list를 X에 선언하세요
X = 

# 위에서 선언한 X를 표준화한 것을 X_std에 선언해주세요
X_std = 

# 표준화한 컬럼의 표본평균의 분포를 히스토그램으로 시각화하세요
sns.histplot(X_std, kde=True)
plt.show()

In [None]:
# 카이제곱분포의 수식을 바탕으로, 해당 함수를 완성하고 자유도에 따른 카이제곱분포를 그려주세요

# 수학적 Chisquare 분포 그리는 함수
def plot_chisq(dof, ax, color='blue'):
    x = np.linspace(0, 20, 399)
    ax.plot(x, stats.chi2.pdf(x, dof), label="Mathematical Chisquare Distribution", color=color)

# 샘플에 따른 chisquare 분포를 그리는 함수
def chi_dist(ax, n_sample):

    xsqs = []

    for _ in range(10000):
        x = np.random.choice(, ) # 빈 칸에 알맞는 변수를 넣어주세요
        xsqs.append() # 빈 칸에 알맞은 변수를 넣어주세요

    xsqs = np.array(xsqs)

    # 수학적 Chisquare 분포를 그리기
    plot_chisq(n_sample, ax, color='blue')

    # 샘플링된 Chisquare 분포를 히스토그램과 KDE로 그리기
    sns.histplot(xsqs, ax=ax, kde=True, label="Chisquare Distribution By Sample", color='orange', stat="density")

    ax.set_title(f"Chisquare distribution by sample size {n_sample}")
    ax.legend()

# 샘플 크기 목록
sample_sizes = [5, 10, 20, 30] # 자유롭게 바꿔도 됩니다

# 그래프 설정
fig, axes = plt.subplots(1, len(sample_sizes), figsize=(20, 5), sharey=True)

# 반복문을 통해 여러 샘플 크기에 대해 시각화
for ax, n_sample in zip(axes, sample_sizes):
    chi_dist(ax, n_sample)

plt.tight_layout()
plt.show()