(ch:probability-continuous)=
# 연속 확률분포(준비중)

**기본 설정**

Numpy와 Pandas 라이브러리를 각각 np와 pd로 불러온다.

In [1]:
import numpy as np
import pandas as pd

데이터프레임의 [chained indexing을 금지시키기 위한 설정](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy)을 지정한다.
Pandas 3.0 버전부터는 기본 옵션으로 지정된다.

In [2]:
pd.options.mode.copy_on_write = True

주피터 노트북에서 부동소수점의 출력을 소수점 이하 6자리로 제한한다.
아래 코드는 주피터 노트북에서만 사용하며 일반적인 파이썬 코드가 아니다.

In [3]:
%precision 6

'%.6f'

아래 코드는 데이터프레임 내에서 부동소수점의 출력을 소수점 이하 6자리로 제한한다.

In [4]:
pd.set_option('display.precision', 6)

데이터 시각화를 위해 `matplotlib.pyplot`를 `plt`라는 별칭으로 불러온다.

In [5]:
import matplotlib.pyplot as plt

**데이터 저장소 디렉토리**

코드에 사용되는 [데이터 저장소의 기본 디렉토리](https://github.com/codingalzi/DataSci/tree/master/data)를 지정한다.

In [6]:
data_url = 'https://raw.githubusercontent.com/codingalzi/DataSci/refs/heads/master/data/'

- `plt.hist()` 함수의 `density` 키워드 인자에 주목할 것
- 연속형 데이터의 히스토그램을 `density=True` 옵션으로 그리면 면적이 1이 되도록 높이가 조절됨.

```
densitybool, default: False
    If True, draw and return a probability density: each bin will display the bin's raw count 
    divided by the total number of counts and the bin width (density = counts / (sum(counts) * np.diff(bins))), 
    so that the area under the histogram integrates to 1 (np.sum(density * np.diff(bins)) == 1).

    If stacked is also True, the sum of the histograms is normalized to 1.
```

**주요 내용**

이산 확률 분포의 주요 개념을 소개한다.

- 연속 확률 변수
- 연속 확률 분포
- 확률 밀도 함수
- 누적 분포 함수

## 연속 확률 변수

{numref}`%s장 <ch:probability-discrete>`에서 살펴 본 이산 확률 변수는
$x_1$, $x_2$, $x_3$ ... 등의 형식으로 하나, 둘, 셋 하며 셀 수 있는 
**이산형 값**<font size='2'>discrete value</font>을 취한다.

반면에 **연속 확률 변수**<font size='2'>continuous random variable</font>는 
일정 구간에 속한 임의의 실수를 가리킨다.
여기서 구간은 0과 1사이 등 구간의 크기가 유한할 수도 있지만
0보다 큰 모든 실수, 아니면 그냥 모든 실수 처럼 구간의 크기가 무한일 수도 있다.

:::{admonition} 실수와 부동소수점
:class: note

프로그래밍에서 실수는 부동소수점으로 표현된다.
부동소수점은 엄밀히 말해 유한소수만 다루지만 여기서는 특별한 의미 없이 실수라는 표현을 사용한다.
:::

연속 확률 변수가 따르는 확률 분포를 **연속 확률 분포**<font size='2'>continuous probability distribution</font>라 한다.
이산 확률 분포와는 달리 연속 확률 분포는 확률 변수가 특정 값을 취할 확률을 계산하지 않는다.
이유는 연속 확률 변수 $X$가 특정 실수 $x$를 취할 확률은 항상 0이기 때문이다

$$
P(X=x) = 0
$$

예를 들어 0과 1사이의 부동소수점 중에서 무작위로 하나의 값을 취했을 때 그 값이 정확히 0.5일 확률은 0이다.

연속 확률 분포는 대신 확률 변수가 특정 구간에서 하나의 값을 취할 확률을 계산한다.
0과 1사이에서 무작위로 선택한 값이 0.49에서 0.51 사이일 확률은 0.02, 즉 2%다.
구간 전체의 크기가 1인데 0.49에서 0.51 사이 구간의 크기는 0.02이기 때문이다.

이처럼 연속 확률 변수는 아래 표현식처럼 특정 구간의 값을 취할 확률을 계산한다.

$$
P(a \le X \le b)
$$

연속 확률 변수가 특정 값을 취할 확률은 0이기에 구간의 끝 포함 여부는 중요하지 않다.
즉, 다음이 성립한다.

$$
P(a \le X \le b) = P(a < X < b) = P(a < X \le b) = P(a \le X < b)
$$

**누적 분포 함수**

연속 확률 변수 $X$가 $a$보다 같거나 작은 값을 취할 확률을 반환하는 함수를 $F(a)$라 표기하고,
이산 확률 분포의 경우처럼 **누적 분포 함수**<font size='2'>cumulative distribution function</font>(CDF)라 부른다.

$$
F(a) = P(X \le a)
$$

누적 분포 함수를 이용하여 연속 확률 변수 $X$가 $a$에서 $b$ 사이의 값을 취할 확률을 다음과 같이 계산할 수 있다.
단, $a \le b$를 가정한다.

$$
P(a \le X \le b) = F(b) - F(a)
$$

연속 확률 변수 $X$가 $x_0$에서 $x_1$ 사이에서만 값을 취한다고 가정하자.
그러면 $X$의 누적 분포 함수$F$는 다음 세 가지 성질을 만족한다.
단, $a, b \in [x_0, x_1]$과 $a \le b$를 가정한다.

$(1)\,\,\, F(a) \le F(b)$  
$(2)\,\,\, 0 \le F(a) \le 1$  
$(3)\,\,\, \displaystyle \lim_{a \to x_0} F(a) = 0$ 와 $\displaystyle\lim_{a \to x_1} F(a) = 1$  

위 식에서 경우에 따라 다음과 같이 $x_0$는 음의 무한대를, $x_1$은 양의 무한대를 가리킬 수 있다.

:::{list-table} 무한대와 구간
:widths: 10 55
:header-rows: 1
:name: infinity

*   - 구간
    - 의미
*   - $[-\infty, \infty]$
    - 모든 실수들의 구간
*   - $[0, \infty]$
    - 음이 아닌 실수들의 구간
*   - $[-\infty, 1]$
    - $1$보다 같거나 작은 모든 실수들의 구간
*   - $[0, 1]$
    - $0$과 $1$ 사이의 모든 실수들의 구간
*   - $[-1, 1]$
    - $-1$과 $1$ 사이의 모든 실수들의 구간
:::

:::{admonition} 누적 분포 함수의 정의역
:class: note

$x_0$ 또는 $x_1$이 각각 음의 무한대와 양의 무한대를 가리키지 않아도 $F(x)$는 모든 실수에 대해 정의되었다고 가정해도 된다.
이유는 $[x_0, x_1]$ 구간 밖에 위치하는 값에 대해서 다음이 성립한다고 가정해도 되기 때문이다.

- $x \le x_0$인 경우: $F(x) = 0$
- $x \ge x_1$인 경우: $F(x) = 1$
:::

**확률 밀도 함수**

연속 확률 변수가 특정 값을 취할 확률은 0이기에 
이산 확률 변수에 대한 확률 질량 함수와 유사한 함수는 정의하지 않는다.
반면에 연속 확률 변수가 특정 구간 내에서 값을 취할 확률은 계산할 수 있기에
누적 분포 함수의 변화율은 계산할 수 있다.

예를 들어 연속 확률 변수 $X$가 임의의 양수 $h$에 대해 구간 $[x, x+h]$에서 값을 취할 확률은 다음과 같다.

$$
F(x + h) - F(x)
$$

위 값을 $h$로 나눈다.

$$
\frac{F(x + h) - F(x)}{h}
$$

함수 $F$가 $x$에서 미분가능하다면 $h$가 0에 수렴할 때 위 식도 특정 값에 수렴한다.
즉, $x$에서 누적 분포 함수의 변화율인 $F'(x)$가 존재한다.

$$
F'(x) = \lim_{h \to 0}\frac{F(x + h) - F(x)}{h}
$$

$F'$은 함수 $F$의 도함수를 가리키며, $F$가 단조증가함수 이기에 $F'(x) \ge 0$ 이다.

만약 $F$가 구간 $[x_0, x_1]$에서 미분가능하다면 정적분의 정의에 의해
임의의 $a \in [x_0, x_1]$에 대해 다음이 성립한다.
아래 식에서 $f$는 도함수 $F'$을 가리킨다.

$$
F(a) = P(X \le a) = P(x_0 < X \le a) = F(a) - F(x_0) = \int_{x_0}^{a} f(x)\, dx
$$

즉, $F(a)$는 구간 $[x_0, a]$ 내에서 음이 아닌 값을 갖는 함수 $f$의 그래프와 $x$-축 사이의 면적을 가리킨다.
이런 의미에서 $f$를 연속 확률 변수 $X$의 
**확률 밀도 함수**<font size='2'>probability density function</font>(PDF)라 부른다.

$P(a \le x \le b)$는 $F(b) - F(a)$이기에 $[a, b]$ 구간 내에서 확률 밀도 함수 $f$의 그래프와 $x$-축 사이의 면적에 해당하며
아래 그림이 이를 표현한다.

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/DataSci/master/jupyter-book/images/pdf-cdf.png" style="width:550px"></div></p>

**확률 질량 함수 vs. 확률 밀도 함수**

확률 질량 함수(PMF)는 이산 확률 변수가 특정 값을 취할 확률을 계산한다.
반면에 확률 밀도 함수(PDF)는 연속 확률 변수가 특정 값 이하의 값을 가질 확률의 변화율을 계산한다.

<p><div align="center"><img src="https://raw.githubusercontent.com/codingalzi/DataSci/master/jupyter-book/images/pmf-pdf-cdf.png" style="width:450px"></div></p>

## 균등 분포

...

## 정규 분포

...

## 예제: 캘리포니아 구역별 중위소득 연속 확률 분포

In [7]:
housing = pd.read_csv(data_url+"california_housing.csv")
housing = housing.loc[:, ['median_income', 'median_house_value']]
housing

Unnamed: 0,median_income,median_house_value
0,8.3252,452600.0
1,8.3014,358500.0
2,7.2574,352100.0
3,5.6431,341300.0
4,3.8462,342200.0
...,...,...
20635,1.5603,78100.0
20636,2.5568,77100.0
20637,1.7000,92300.0
20638,1.8672,84700.0


중위주택가격이 50만을 초과하는 경우는 삭제하고 인덱스를 초기화한다.

In [8]:
house_value_max = housing['median_house_value'].max() # 500,001
mask = housing['median_house_value'] >= house_value_max
housing = housing[~mask]
housing = housing.reset_index(drop=True)
housing.index.name = 'district'
housing

Unnamed: 0_level_0,median_income,median_house_value
district,Unnamed: 1_level_1,Unnamed: 2_level_1
0,8.3252,452600.0
1,8.3014,358500.0
2,7.2574,352100.0
3,5.6431,341300.0
4,3.8462,342200.0
...,...,...
19670,1.5603,78100.0
19671,2.5568,77100.0
19672,1.7000,92300.0
19673,1.8672,84700.0


중위소득 범주 특성을 추가한다.

In [9]:
housing["income_cat"] = pd.cut(housing["median_income"],
                               bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                               labels=[1, 2, 3, 4, 5])

housing

Unnamed: 0_level_0,median_income,median_house_value,income_cat
district,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,8.3252,452600.0,5
1,8.3014,358500.0,5
2,7.2574,352100.0,5
3,5.6431,341300.0,4
4,3.8462,342200.0,3
...,...,...,...
19670,1.5603,78100.0,2
19671,2.5568,77100.0,2
19672,1.7000,92300.0,2
19673,1.8672,84700.0,2


### 데이터 전처리: 표준화

특성에 따라 사용되는 값들의 크기 정도<font size='2'>scale</font>가 다르다. 
어떤 특성은 0과 1사이의 값을, 다른 특성은 100단위의 값을 포함하기도 한다.
그런데 머신러닝 모델은 기본적으로 모든 특성이 동일한 크기 정도의 
값으로 구성될 때 보다 잘 훈련된다.
이런 이유로 여기서는 평균은 0, 표준편차는 1이 되도록 변환하는
**표준화**<font size='2'>standardization</font>를 적용해서
훈련셋과 테스트셋을 전처리한다.

표준화는 다음 식으로 계산된다. 

$$
\frac{x - \mu}{\sigma}
$$

$x$는 샘플의 특성값을, $\mu$와 $\sigma$는 특성별 평균값과 표준편차를 가리킨다.
넘파이 어레이를 이용하면 전체 훈련셋에 대해 다음처럼 한 번에 표준화를 진행할 수 있다.

```python
# 훈련셋의 특성별 평균값/표준편차
mean = train_data.mean(axis=0)
std = train_data.std(axis=0)

# 훈련셋 표준화
train_data -= mean
train_data /= std
```

## 연습문제

참고: [(연습) 연속 확률 분포](https://colab.research.google.com/github/codingalzi/DataSci/blob/master/practices/practice-probability_continuous.ipynb)