# (연습) 모집단과 표본

**기본 설정**

Numpy와 Pandas 라이브러리를 각각 np와 pd로 불러온다.

In [1]:
import numpy as np
import pandas as pd

데이터프레임의 [chained indexing을 금지시키기 위한 설정](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy)을 지정한다.
Pandas 3.0 버전부터는 기본 옵션으로 지정된다.

In [2]:
pd.options.mode.copy_on_write = True

주피터 노트북에서 부동소수점의 출력을 소수점 이하 6자리로 제한한다.
아래 코드는 주피터 노트북에서만 사용하며 일반적인 파이썬 코드가 아니다.

In [3]:
%precision 6

'%.6f'

아래 코드는 데이터프레임 내에서 부동소수점의 출력을 소수점 이하 6자리로 제한한다.

In [4]:
pd.set_option('display.precision', 6)

데이터 시각화를 위해 `matplotlib.pyplot`를 `plt`라는 별칭으로 불러온다.

In [5]:
import matplotlib.pyplot as plt

**데이터 저장소 디렉토리**

코드에 사용되는 [데이터 저장소의 기본 디렉토리](https://github.com/codingalzi/DataSci/tree/master/data)를 지정한다.

In [6]:
data_url = 'https://raw.githubusercontent.com/codingalzi/DataSci/refs/heads/master/data/'

## 타이타닉 데이터셋

타이타닉호의 승객에 대한 정보와 생존 여부를 담은 데이터셋을 불러온다.

In [7]:
titanic = pd.read_csv(data_url+"titanic.csv")

각 생존자별로 12개의 정보가 포함된다.

| 특성 | 의미 |
| :--- | :--- |
| PassengerId  | 승객 번호 |
| Survived | 생존 여부. 0 또는 1. 1일 때 생존 |
| Pclass | 승객 클래스 |
| Name | 승객 이름 |
| Sex | 승객의 성 |
| Age | 승객 나이 |
| SibSp | 타이타닉에 함께 승선한 형제자매와 배우자의 수 |
| Parch | 타이타닉에 함께 승선한 자녀와 부모의 수 |
| Ticket | 티켓 번호 |
| Fare | 티켓 요금(영구 파운드화) |
| Cabin | 객실 번호 |
| Embarked | 승객이 타이타닉호에 승선한 항구 |
| | C=Cherbourg, Q=Queenstown, S=Southampton |

In [8]:
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


**인덱스 변경**

먼저 `PassengerId` 특성을 인덱스로 지정한다.

In [9]:
titanic = titanic.set_index("PassengerId")

In [10]:
titanic

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


여기서는 `Sex`, `Age`, `Survived` 세 개의 특성만 활용한다.

In [11]:
titanic = titanic[['Sex', 'Age', 'Survived']]
titanic

Unnamed: 0_level_0,Sex,Age,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,male,22.0,0
2,female,38.0,1
3,female,26.0,1
4,female,35.0,1
5,male,35.0,0
...,...,...,...
887,male,27.0,0
888,female,19.0,1
889,female,,0
890,male,26.0,1


**결측치 확인**

데이터셋의 크기인 891보다 적은 수의 `non-null` 값을 갖는 특성에 결측치가 .
데이터프레임의 `info()` 메서드로 확인하면 `Age` 특성에
데이터셋의 크기인 891보다 적은 수의 `non-null` 값이 포함되어 있다.
이는 177개의 결측치가 존재함을 의미한다.

In [12]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
Index: 891 entries, 1 to 891
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Sex       891 non-null    object 
 1   Age       714 non-null    float64
 2   Survived  891 non-null    int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 27.8+ KB


**`Age` 특성 결측치 처리 방법 1: 특성 중앙값 활용**

`Age` 특성의 결측치를 다양한 방식으로 채운다.
따라서 `titanic` 데이터셋의  원본을 그대로 두고 복제해서 사용한다.

In [13]:
titanic_median = titanic.copy()

`Age` 특성의 결측치를 모두 해당 특성의 중앙값으로 대체한다.

In [14]:
age_median =titanic_median['Age'].median()
age_median

28.000000

In [15]:
titanic_median['Age'] = titanic_median['Age'].fillna(age_median)

In [16]:
titanic_median.info()

<class 'pandas.core.frame.DataFrame'>
Index: 891 entries, 1 to 891
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Sex       891 non-null    object 
 1   Age       891 non-null    float64
 2   Survived  891 non-null    int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 27.8+ KB


**`Age` 특성 결측치 처리 방법 2: 성(Sex)별 중앙값 활용**

- 방식 1: 부울 인덱싱 활용

먼저 타이타닉 데이터셋을 복제한다.

In [17]:
titanic_sex_median = titanic.copy()

여성과 남성의 중위연령을 확인한다.

In [18]:
f_mask = titanic_sex_median["Sex"]=="female"
f_age_median = titanic_sex_median.loc[f_mask, "Age"].median()
print("여성 평균연령:", f_age_median)

여성 평균연령: 27.0


In [19]:
m_mask = titanic_sex_median["Sex"]=="male"
m_age_median = titanic_sex_median.loc[m_mask, "Age"].median()
print("남성 평균연령:", m_age_median)

남성 평균연령: 29.0


[링크 텍스트](https://)부울 인덱싱으로 남녀별로 결측치를 각각의 중위값으로 대체한다.

In [20]:
titanic_sex_median.loc[f_mask, 'Age'] = titanic_sex_median.loc[f_mask, 'Age'].fillna(f_age_median)
titanic_sex_median.loc[m_mask, 'Age'] = titanic_sex_median.loc[m_mask, 'Age'].fillna(m_age_median)

모든 결측치가 사라졌음을 확인한다.

In [21]:
titanic_sex_median.info()

<class 'pandas.core.frame.DataFrame'>
Index: 891 entries, 1 to 891
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Sex       891 non-null    object 
 1   Age       891 non-null    float64
 2   Survived  891 non-null    int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 27.8+ KB


- 방식 2: `groupby()` 활용

먼저 타이타닉 데이터셋을 복제한다.

In [22]:
titanic_sex_median = titanic.copy()

여성과 남성의 중위연령을 확인한다.

In [23]:
titanic_sex_median.groupby('Sex')['Age'].median()

Unnamed: 0_level_0,Age
Sex,Unnamed: 1_level_1
female,27.0
male,29.0


아래 코드는 성별에 따라 결측치를 각각의 중위값으로 대체한다.

In [24]:
titanic_sex_median_age = titanic_sex_median.groupby('Sex')['Age'].apply(lambda y:y.fillna(y.median()))
titanic_sex_median_age

Unnamed: 0_level_0,Unnamed: 1_level_0,Age
Sex,PassengerId,Unnamed: 2_level_1
female,2,38.0
female,3,26.0
female,4,35.0
female,9,27.0
female,10,14.0
...,...,...
male,884,28.0
male,885,25.0
male,887,27.0
male,890,26.0


다중인덱스의 레벨 1에 위치한 `PassensgerId`를 기준으로 오름차순으로 정렬한다.

In [25]:
titanic_sex_median_age = titanic_sex_median_age.sort_index(level=1)
titanic_sex_median_age

Unnamed: 0_level_0,Unnamed: 1_level_0,Age
Sex,PassengerId,Unnamed: 2_level_1
male,1,22.0
female,2,38.0
female,3,26.0
female,4,35.0
male,5,35.0
male,...,...
male,887,27.0
female,888,19.0
female,889,27.0
male,890,26.0


`Age` 특성의 값을 새롭게 지정한다.

In [26]:
titanic_sex_median.loc[:, 'Age'] = titanic_sex_median_age.values

모든 결측치가 사라졌음을 확인한다.

In [27]:
titanic_sex_median.info()

<class 'pandas.core.frame.DataFrame'>
Index: 891 entries, 1 to 891
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Sex       891 non-null    object 
 1   Age       891 non-null    float64
 2   Survived  891 non-null    int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 27.8+ KB


## 연습문제

`Age`의 결측치가 성별 중위연령으로 대체된 타이타닉 데이터셋을 이용한다.

In [28]:
titanic = titanic_sex_median
titanic

Unnamed: 0_level_0,Sex,Age,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,male,22.0,0
2,female,38.0,1
3,female,26.0,1
4,female,35.0,1
5,male,35.0,0
...,...,...,...
887,male,27.0,0
888,female,19.0,1
889,female,27.0,0
890,male,26.0,1


**문제 1**

(1) 891명의 10%를 무작위로 추출했을 때의 성비율을 확인하는 코드르 작성하라.

In [53]:
titanic_random = titanic.sample(frac=0.1, random_state=17)
titanic_random_size = len(titanic_random)
titanic_random_size
random_sampling_ratio = titanic_random.groupby('Sex').count()/titanic_random_size
random_sampling_ratio



Unnamed: 0_level_0,Age,Survived
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0.359551,0.359551
male,0.640449,0.640449


(2) 891명의 10%를 성비율을 반영하면서 층화표집으로 추출했을 때의 성비율을 확인하는 코드를 작성하라.

In [49]:
stratification = titanic.groupby('Sex', observed=True, group_keys=True)
stratified_sample = stratification.apply(lambda x: x.sample(frac=0.1, random_state=17), include_groups=False)
stratified_sample
stratified_sampling = stratified_sample.reset_index(level=0)
stratified_sampling
stratified_sample_size = len(stratified_sample)
stratified_sample_ratio = stratified_sampling.groupby('Sex').count()/stratified_sample_size
stratified_sample_ratio

Unnamed: 0_level_0,Age,Survived
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0.348315,0.348315
male,0.651685,0.651685


(3) 무작위 추출과 층화표집의 결과를 비교하는 데이터프레임을 생성하는 코드를 작성하라.

In [58]:
stratified_ratio = titanic.groupby(['Sex']).count() / len(titanic['Sex'])
stratified_ratio

proportions = pd.concat([stratified_ratio.iloc[:, [1]],
                         stratified_sample_ratio.iloc[:, [1]],
                         random_sampling_ratio.iloc[:, [1]]],
                        axis=1)
proportions.columns = ['전체', '층화표집', '무작위추출']
proportions.index_name = 'Sex'
proportions

Unnamed: 0_level_0,전체,층화표집,무작위추출
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.352413,0.348315,0.359551
male,0.647587,0.651685,0.640449


**문제 2**

(1) `Age` 특성을 10살 단위로 구분하는 연령구간을 지정하여 `Age_Bucket` 특성으로 추가하는 코드를 작성하라.

In [67]:
titanic['Agd_Bucket'] = (titanic['Age'] // 10 * 10).astype('int64')
titanic

Unnamed: 0_level_0,Sex,Age,Survived,Agd_Bucket
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,male,22.0,0,20
2,female,38.0,1,30
3,female,26.0,1,20
4,female,35.0,1,30
5,male,35.0,0,30
...,...,...,...,...
887,male,27.0,0,20
888,female,19.0,1,10
889,female,27.0,0,20
890,male,26.0,1,20


(2) 추가된 연령구간 정보를 활용하여 891명의 10%를 층화표집하는 코드를 작성하라.

In [76]:
bucket_stratified = titanic.groupby('Agd_Bucket').apply(lambda x: x.sample(frac=0.1, random_state=17), include_groups=False)
bucket_stratified
bucket_stratified = bucket_stratified.reset_index(level=0)
bucket_stratified
bucket_stratified_size = len(bucket_stratified)
bucket_stratified_size

90

(3) 층화표집의 결과와 무작위 추출의 결과를 비교하는 데이터프레임을 생성하는 코드를 작성하라.

In [94]:
titanic
titanic_samples = titanic.sample(frac = 0.1, random_state=17)
titanic_samples

titanic_samples_size = len(titanic_samples)

titanic_samples_ratio = titanic_samples.groupby('Agd_Bucket').count() / titanic_samples_size
titanic_samples_ratio

bucket_stratified_ratio = bucket_stratified.groupby('Agd_Bucket').count() / bucket_stratified_size
bucket_stratified_ratio

titanic_ratio = titanic.groupby('Agd_Bucket').count() / len(titanic)
titanic_ratio

proportions_age = pd.concat([titanic_ratio.iloc[:, [2]], bucket_stratified_ratio.iloc[:, [2]], titanic_samples_ratio.iloc[:, [2]]], axis=1)
proportions_age.columns = ['전체', '층화표집', '무작위 추출']
proportions_age.index_name = 'Agd_Bucket'
proportions_age

proportions_age["층화표집 오차율"] = (proportions_age["층화표집"] / proportions_age["전체"] - 1)
proportions_age["무작위 추출 오차율"] = (proportions_age["무작위 추출"] / proportions_age["전체"] - 1)

proportions_age


Unnamed: 0_level_0,전체,층화표집,무작위 추출,층화표집 오차율,무작위 추출 오차율
Agd_Bucket,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,0.069585,0.066667,0.05618,-0.041935,-0.192642
10,0.114478,0.111111,0.157303,-0.029412,0.374091
20,0.445567,0.444444,0.426966,-0.002519,-0.041746
30,0.18743,0.188889,0.168539,0.007784,-0.100787
40,0.099888,0.1,0.134831,0.001124,0.34983
50,0.053872,0.055556,0.033708,0.03125,-0.374298
60,0.021324,0.022222,0.022472,0.042105,0.053814
70,0.006734,0.011111,,0.65,
80,0.001122,,,,
