# (연습) 정규 분포

**기본 설정**

`numpy`와 `pandas` 라이브러리를 각각 `np`와 `pd`로 불러온다.

In [1]:
import numpy as np
import pandas as pd

데이터프레임의 [chained indexing을 금지시키기 위한 설정](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy)을 지정한다.
Pandas 3.0 버전부터는 기본 옵션으로 지정된다.

In [2]:
pd.options.mode.copy_on_write = True

주피터 노트북에서 부동소수점의 출력을 소수점 이하 6자리로 제한한다.
아래 코드는 주피터 노트북에서만 사용하며 일반적인 파이썬 코드가 아니다.

In [3]:
%precision 6

'%.6f'

아래 코드는 데이터프레임 내에서 부동소수점의 출력을 소수점 이하 6자리로 제한한다.

In [4]:
pd.set_option('display.precision', 6)

데이터 시각화를 위해 `matplotlib.pyplot`를 `plt`로,
`seaborn`을 `sns`로 불러온다.
`seaborn` 라이브러리는 통계 관련 데이터의 정보를 보다 세련되고 정확하게 전달하는 그래프를 그리는 도구를 제공한다.
`matplotlib` 라이브러리를 바탕으로 만들어져서 함께 사용해도 된다.

In [5]:
import matplotlib.pyplot as plt
import seaborn as sns

그래프 스타일을 `seaborn`에서 제공하는 `white` 스타일로 지정한다.

In [6]:
sns.set_style("white")

**데이터 저장소 디렉토리**

코드에 사용되는 [데이터 저장소의 기본 디렉토리](https://github.com/codingalzi/DataSci/tree/master/data)를 지정한다.

In [7]:
data_url = 'https://raw.githubusercontent.com/codingalzi/DataSci/refs/heads/master/data/'

### 예제: SOCR 데이터

아래 코드는 [The Statistics Online Computational Resource (SOCR)](https://www.socr.umich.edu) 에서 제공하는
데이터셋을 데이터프레임으로 불러온다.

데이터셋엔 25,000명의 키와 몸무게 정보가 담겨 있다.
키와 몸무게가 원래 인치<font size='2'>inch</font>와 파운드<font size='2'>lb</font> 단위로
제공되었지만 편의를 위해 각각 센티미터<font size='2'>cm</font>와 킬로그램<font size='2'>kg</font> 단위로 변환되었다.

데이터셋 원본은 [Fathers and Son height Data from Pearson's Data (kaggle)](https://www.kaggle.com/datasets/abhilash04/fathersandsonheight)에서
다운로드할 수 있다.

In [8]:
socr = pd.read_csv(data_url+"SOCR-HeightWeight.csv", header=0)

처음 다섯 명의 키와 몸무게는 다음과 같다.

In [9]:
socr

Unnamed: 0,Height,Weight
0,167.1,51.3
1,181.6,61.9
2,176.3,69.4
3,173.3,64.6
4,172.2,65.5
...,...,...
24995,176.5,53.5
24996,164.0,54.5
24997,164.3,53.6
24998,171.5,60.0


총 25,000명의 키와 몸무게 데이터가 포함되었다.

In [10]:
socr.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25000 entries, 0 to 24999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Height  25000 non-null  float64
 1   Weight  25000 non-null  float64
dtypes: float64(2)
memory usage: 390.8 KB


**문제 1**

(1) 키의 분포를 확인하기 위해 밀도 히스토그램과 
커널 밀도 추정(KDE) 기법으로 찾아진 확률 밀도 함수의 그래프를 그려라.

In [11]:
# 코드를 작성한다.
# 필요하면 코드셀 또는 텍스트셀을 추가할 수 있습니다.


(2) 키의 평균값과 분산을 가리키는 `mu_height`, `sigma_height` 변수를 선언하라.

In [12]:
# 코드를 작성한다.
# 필요하면 코드셀 또는 텍스트셀을 추가할 수 있습니다.


(3) `scipy.stats` 모듈의 `norm` 객체를 이용하여 직접 확률 변수로 선언한다.
`norm` 객체를 활용할 때 평균값과 표준편차를 지정해야 한다.

In [13]:
# 코드를 작성한다.
# 필요하면 코드셀 또는 텍스트셀을 추가할 수 있습니다.


(4) `mu_height`와 `sigma_height`를 각각 평균값과 표준편차로 갖는 정규 분포의 확률 밀도 함수 그래프와
앞서 KDE 기법으로 계산된 확률 밀도 함수 그래프가 거의 동일함을 보여주는 코드를 작성하라.

In [14]:
# 코드를 작성한다.
# 필요하면 코드셀 또는 텍스트셀을 추가할 수 있습니다.


(5) 우연히 선택된 사람의 키가 165 이하일 확률 $P(X \leq 165)$를 계산하라.
또한 정규 분포의 확률 밀도 함수의 그래프와 x-축 사이의 특정 구간의 영역으로
표현하는 코드를 작성하라.

In [15]:
# 코드를 작성한다.
# 필요하면 코드셀 또는 텍스트셀을 추가할 수 있습니다.


(6) 데이터셋에서 키가 165 이하인 샘플의 비율을 이용하여 키가 165 이하일 확률을 직접 계산하라.

In [16]:
# 코드를 작성한다.
# 필요하면 코드셀 또는 텍스트셀을 추가할 수 있습니다.


(7) 키 165와 180의 표준 점수를 계산하라.

In [17]:
# 코드를 작성한다.
# 필요하면 코드셀 또는 텍스트셀을 추가할 수 있습니다.


(8) 키가 165 이하이거나 180 이상일 확률을 표준화 이전과 이후에 대해
각각 계산한 다음에 결과가 동일함을 확인하라.

In [18]:
# 코드를 작성한다.
# 필요하면 코드셀 또는 텍스트셀을 추가할 수 있습니다.


**문제 2**

(준비중 ...)