## 실습 공통 준비 사항

모든 실습 문제는 seaborn 라이브러리에 내장된 Iris(붓꽃) 데이터셋을 사용합니다.

아래 코드를 실행하여 데이터를 준비하고, numpy 배열로 변환하여 사용하세요.

In [None]:
import seaborn as sns
import numpy as np
import math

# Iris 데이터셋 로드
iris_sns = sns.load_dataset('iris')

# 데이터셋을 특징(X)과 라벨(y)로 분리
features_all = iris_sns.drop('species', axis=1).to_numpy()
labels_all = iris_sns['species'].to_numpy()
feature_names = iris_sns.columns[:-1]

# 데이터 확인
print(f"전체 특징 데이터 shape: {features_all.shape}")
print(f"전체 라벨 데이터 shape: {labels_all.shape}")
print(f"첫 번째 데이터: {features_all[0]}, 라벨: {labels_all[0]}")

## 실습 문제 1.1: 데이터의 산술 평균 계산하기

**설명**: \*\*평균(mean)\*\*은 주어진 데이터셋의 모든 값을 더한 후 데이터의 개수로 나눈 값으로, 데이터의 중심을 나타내는 가장 기본적인 **기술 통계량**입니다. 150개 Iris 데이터의 '꽃받침 길이'(`sepal_length`) 전체의 산술 평균을 계산하여 이 데이터셋의 중심 경향성을 파악해 보세요.

$$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$$

**요구사항**:

  - `features_all`에서 첫 번째 열(꽃받침 길이) 데이터를 사용하세요.
  - 이 데이터의 모든 요소를 더하고, 데이터의 개수(150)로 나누어 평균을 계산하는 `calculate_mean` 함수를 완성하세요.
  - 계산된 평균을 출력하여 150개 꽃받침 길이 데이터의 중심 값을 확인합니다.



In [None]:

def calculate_mean(data: np.ndarray) -> float:
  """
  주어진 numpy 배열의 산술 평균을 계산합니다.

  Args:
    data: 1차원 숫자 데이터가 담긴 numpy 배열

  Returns:
    데이터의 평균값
  """
  pass


In [None]:
sepal_length_data = features_all[:, 0]
mean_value = calculate_mean(sepal_length_data)
print(f"붓꽃 데이터의 꽃받침 길이(sepal length)의 평균은? {mean_value:.4f}")

## 실습 문제 1.2: 데이터의 변동성 측정: 분산과 표준편차

**설명**: \*\*분산(variance)\*\*과 \*\*표준편차(standard deviation)\*\*는 데이터가 평균으로부터 얼마나 흩어져 있는지를 나타내는 **변동성**의 척도입니다. **분산 또는 표준편차가 클수록** 데이터는 평균에서 멀리, 넓게 퍼져 있음을 의미합니다. 여기서는 **표본 분산**을 계산합니다.

> **💡 왜 n이 아닌 n-1로 나눌까요? (자유도)**
> 우리가 가진 데이터는 전체 붓꽃(모집단)에서 추출한 **표본**입니다. 표본 데이터로 계산한 평균($\\bar{x}$)을 사용하면, 이 값은 실제 모집단의 평균($\\mu$)과 약간의 차이가 있습니다. 이 차이 때문에 분산이 실제보다 작게 계산되는 경향이 생깁니다. 분모를 `n` 대신 `n-1`(**자유도**, degrees of freedom)로 사용하면 이 편향을 보정하여, 모집단의 분산을 더 잘 추정할 수 있습니다.

$$s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \quad , \quad s = \sqrt{s^2}$$

**요구사항**:

  - '꽃받침 길이' 데이터와 그 평균을 사용합니다.
  - 각 데이터 값과 평균의 차이를 제곱하여 모두 더한 뒤, '데이터 개수 - 1'로 나누어 **표본 분산**을 계산하세요.
  - 분산에 제곱근을 취해 **표본 표준편차**를 계산하는 `calculate_variance_std` 함수를 완성하세요.



In [None]:

def calculate_variance_std(data: np.ndarray) -> tuple[float, float]:

  pass


sepal_length_data = features_all[:, 0]
variance, std_dev = calculate_variance_std(sepal_length_data)

print(f"꽃받침 길이 데이터의 표본 분산: {variance:.4f}")
print(f"꽃받침 길이 데이터의 표본 표준편차: {std_dev:.4f}")

## 실습 문제 1.3: 표본 평균의 신뢰도: 표준오차의 이해와 계산

**설명**: \*\*표준오차(Standard Error, SE)\*\*는 "만약 우리가 모집단에서 지금과 같은 크기($n$)의 표본을 여러 번 반복해서 뽑는다면, 그렇게 얻은 **여러 개의 표본 평균($\\bar{x}$)들**은 얼마나 흩어져 있을까?"를 추정한 값입니다. 즉, 개별 데이터($x\_i$)의 흩어짐을 나타내는 **표준편차**와 달리, 표준오차는 \*\*통계량인 표본 평균의 변동성(신뢰도)\*\*을 나타냅니다. 표준오차가 작을수록, 우리가 가진 단 하나의 표본 평균이 실제 모집단 평균과 가까울 것이라고 더 강하게 신뢰할 수 있습니다.

$$SE_{\bar{x}} = \frac{s}{\sqrt{n}}$$

**요구사항**:

  - '꽃받침 길이' 데이터에서 30개의 샘플을 무작위로 추출하여 `sample_data`를 만드세요.
  - `sample_data`의 표본 표준편차($s$)와 표본의 크기($n=30$)를 구하세요.
  - 표준편차를 표본 크기의 제곱근으로 나누어 표준오차를 계산하는 `calculate_standard_error` 함수를 완성하세요.



In [None]:

def calculate_standard_error(sample: np.ndarray) -> float:
  """
  주어진 표본 데이터의 표준오차를 계산합니다.

  Args:
    sample: 표본 데이터가 담긴 numpy 배열

  Returns:
    표본 평균의 표준오차
  """
  pass


sepal_length_data = features_all[:, 0]
sample_data = np.random.choice(sepal_length_data, size=30, replace=False)
standard_error = calculate_standard_error(sample_data)
print(f"꽃받침 길이 30개 표본의 표준오차: {standard_error:.4f}")

## 실습 문제 2.1: 확률변수의 기댓값과 큰 수의 법칙

**설명**: **확률변수**의 \*\*기댓값(Expected Value, E[X])\*\*은 그 변수가 평균적으로 어떤 값을 가질 것인지에 대한 이론적인 값입니다. \*\*큰 수의 법칙(Law of Large Numbers)\*\*에 따르면, 표본의 크기($n$)가 커질수록 우리가 관측한 데이터의 \*\*표본 평균($\\bar{x}$)\*\*은 확률변수의 \*\*기댓값($E[X]$)\*\*에 가까워집니다. 따라서 우리는 표본 평균을 이용해 기댓값을 추정할 수 있습니다.

$$n \to \infty \implies \bar{x} \to E[X]$$

**요구사항**:

  - '꽃받침 길이'를 확률변수 $X$로 간주합니다.
  - 전체 '꽃받침 길이' 데이터를 사용하여 확률변수 $X$의 기댓값을 추정하세요. (계산은 1.1의 평균과 동일하지만, '데이터의 평균'이 아닌 '확률변수의 기댓값 추정'이라는 의미에 집중해 보세요.)
  - `estimate_expected_value` 함수를 완성하세요.



In [None]:

def estimate_expected_value(data: np.ndarray) -> float:
  """
  데이터를 바탕으로 확률변수의 기댓값을 추정합니다.

  Args:
    data: 확률변수의 실현값(표본)이 담긴 numpy 배열

  Returns:
    추정된 기댓값
  """
  # 큰 수의 법칙에 따라, 표본 평균은 기댓값의 좋은 추정치입니다.
  pass


sepal_length_data = features_all[:, 0]
expected_value = estimate_expected_value(sepal_length_data)
print(f"'꽃받침 길이' 확률변수 X의 추정된 기댓값 E[X]: {expected_value:.4f}")

## 실습 문제 2.2: 확률변수의 분산과 표준편차 계산하기

**설명**: **확률변수**의 \*\*분산(Var(X))\*\*과 \*\*표준편차($\\sigma$)\*\*는 확률변수의 값이 기댓값으로부터 평균적으로 얼마나 떨어져 있는지를 나타내는 척도입니다. 즉, 확률변수 자체의 내재된 변동성을 의미합니다. `sepal_length_data`를 이용해 '꽃받침 길이' 확률변수 $X$의 분산을 추정해 보세요.

$$Var(X) \approx s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - E[X])^2$$

**요구사항**:

  - '꽃받침 길이' 확률변수 $X$의 기댓값($E[X]$)을 먼저 추정해야 합니다.
  - 각 데이터 값과 기댓값의 차이를 제곱하여 모두 더한 뒤, '데이터 개수 - 1'로 나누어 분산을 추정하세요.
  - 분산에 제곱근을 취하여 표준편차를 계산하는 `estimate_variance_std` 함수를 완성하세요.



In [None]:

def estimate_variance_std(data: np.ndarray) -> tuple[float, float]:
  """
  데이터를 바탕으로 확률변수의 분산과 표준편차를 추정합니다.

  Args:
    data: 확률변수의 실현값(표본)이 담긴 numpy 배열

  Returns:
    (추정된 분산, 추정된 표준편차)를 담은 튜플
  """
  # 표본 분산과 표준편차는 확률변수의 분산과 표준편차의 좋은 추정치입니다.
  pass


sepal_length_data = features_all[:, 0]
est_variance, est_std_dev = estimate_variance_std(sepal_length_data)

print(f"'꽃받침 길이' 확률변수 X의 추정된 분산 Var(X): {est_variance:.4f}")
print(f"'꽃받침 길이' 확률변수 X의 추정된 표준편차 \u03C3: {est_std_dev:.4f}")

Of course. Here is the revised response for practice problem 2.3, now including code to visualize the correlation with `matplotlib`.

## 실습 문제 2.3: 두 확률변수의 관계: 공분산과 상관계수 (시각화 포함)

**설명**: \*\*상관계수(Correlation Coefficient)\*\*는 두 확률변수 간의 **선형 관계**의 강도와 방향을 나타냅니다.

  - **양의 상관 (r \> 0)**: 한 변수가 증가할 때 다른 변수도 증가하는 경향. (예: 키와 몸무게)
  - **음의 상관 (r \< 0)**: 한 변수가 증가할 때 다른 변수는 감소하는 경향. (예: 공부 시간과 게임 시간)
  - **무상관 (r ≈ 0)**: 두 변수 간에 선형적인 관계가 없음.
    '꽃받침 길이'($X$)와 '꽃잎 길이'($Y$) 사이의 관계를 상관계수로 파악하고, 산점도(scatter plot)로 시각화하여 눈으로 직접 확인해 보세요.

$$r = \frac{\text{cov}(X, Y)}{s_x s_y} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}$$

**요구사항**:

  - '꽃받침 길이'와 '꽃잎 길이' 데이터를 사용하세요.
  - 두 변수 간의 상관계수를 계산하는 `calculate_correlation` 함수를 완성하세요.
  - `matplotlib.pyplot`을 사용하여 두 변수의 관계를 나타내는 산점도를 그리세요.
  - 계산된 상관계수와 시각화된 산점도를 통해 두 변수 간의 관계를 해석합니다.



In [None]:

def calculate_correlation(data_x: np.ndarray, data_y: np.ndarray) -> float:
  """
  두 확률변수 데이터의 피어슨 상관계수를 계산합니다.
  """
  pass


sepal_length_data = features_all[:, 0] # 꽃받침 길이 (X)
petal_length_data = features_all[:, 2] # 꽃잎 길이 (Y)
correlation = calculate_correlation(sepal_length_data, petal_length_data)
print(f"'꽃받침 길이'와 '꽃잎 길이'의 상관계수: {correlation:.4f}")

plt.scatter(sepal_length_data, petal_length_data, alpha=0.5)