In [1]:
from datascience import *
#path_data = '../../../assets/data/'
path_data = '/content/gdrive/MyDrive/DataScience/data/'
import matplotlib
matplotlib.use('Agg')
%matplotlib inline
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')
import numpy as np

In [2]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


# Python에서의 무작위 표본추출

이 절은 Python을 사용하여 무작위로 표본추출하는 방법을 요약하고 새로운 방법을 소개합니다.

## 복습: 테이블의 모집단에서 표본추출
데이터가 테이블의 행으로 표현된 개체 모집단에서 표본추출하는 경우 테이블 메서드 `sample`을 사용하여 테이블의 행을 [무작위로 선택](https://inferentialthinking.com/chapters/10/1/Empirical_Distributions.html#id1)할 수 있습니다. 즉, `sample`을 사용하여 개체의 무작위 표본을 선택할 수 있습니다.

기본적으로 `sample`은 복원추출로 균등하게 무작위로 추출합니다. 이것은 주사위 굴리기와 같은 우연 실험에 대한 자연스러운 모델입니다.

In [3]:
faces = np.arange(1, 7)
die = Table().with_columns('Face', faces)
die

Face
1
2
3
4
5
6


아래 셀을 실행하여 주사위를 7번 굴린 것을 시뮬레이션하세요.

In [7]:
die.sample(6)

Face
1
3
4
3
6
2


때로는 비복원추출로 개체를 무작위로 표본추출하는 것이 더 자연스럽습니다. 이것을 단순 무작위 표본이라고 합니다. 인수 `with_replacement=False`를 사용하면 이렇게 할 수 있습니다.

In [8]:
actors = Table.read_table(path_data + 'actors.csv')
actors

Actor,Total Gross,Number of Movies,Average per Movie,#1 Movie,Gross
Harrison Ford,4871.7,41,118.8,Star Wars: The Force Awakens,936.7
Samuel L. Jackson,4772.8,69,69.2,The Avengers,623.4
Morgan Freeman,4468.3,61,73.3,The Dark Knight,534.9
Tom Hanks,4340.8,44,98.7,Toy Story 3,415.0
"Robert Downey, Jr.",3947.3,53,74.5,The Avengers,623.4
Eddie Murphy,3810.4,38,100.3,Shrek 2,441.2
Tom Cruise,3587.2,36,99.6,War of the Worlds,234.3
Johnny Depp,3368.6,45,74.9,Dead Man's Chest,423.3
Michael Caine,3351.5,58,57.8,The Dark Knight,534.9
Scarlett Johansson,3341.2,37,90.3,The Avengers,623.4


In [9]:
# 5개 행의 단순 무작위 표본
actors.sample(5, with_replacement=False)

Actor,Total Gross,Number of Movies,Average per Movie,#1 Movie,Gross
Daniel Radcliffe,2634.4,17,155.0,Harry Potter / Deathly Hallows (P2),381.0
Robert DeNiro,3081.3,79,39.0,Meet the Fockers,279.3
Michael Caine,3351.5,58,57.8,The Dark Knight,534.9
Jeremy Renner,2500.3,21,119.1,The Avengers,623.4
Philip Seymour Hoffman,2463.7,40,61.6,Catching Fire,424.7


`sample`은 행이 선택된 순서대로 전체 표본을 제공하므로 표본추출된 테이블에 대해 테이블 메서드를 사용하여 표본에 대한 많은 질문에 답할 수 있습니다. 예를 들어, 주사위가 6개의 점을 보여준 횟수, 표본추출된 배우들이 출연한 평균 영화 수, 특정 두 배우가 표본에 나타났는지 여부를 찾을 수 있습니다. 이 정보 중 일부를 얻으려면 여러 줄의 코드가 필요할 수 있습니다.

## 복습: 배열의 모집단에서 표본추출

데이터가 배열로 표현된 개체 모집단에서 표본추출하는 경우 NumPy 함수 `np.random.choice`를 사용하여 배열의 요소를 [무작위로 선택](https://inferentialthinking.com/chapters/09/3/Simulation.html#example-number-of-heads-in-100-tosses)할 수 있습니다.

기본적으로 `np.random.choice`는 복원추출로 무작위로 표본추출합니다.

In [10]:
# 주사위의 면들, 배열로
faces

array([1, 2, 3, 4, 5, 6])

In [11]:
# 주사위를 7번 굴림
np.random.choice(faces, 7)

array([3, 5, 2, 6, 1, 6, 3])

인수 `replace=False`를 사용하면 비복원추출로 추출된 단순 무작위 표본을 얻을 수 있습니다.

In [12]:
# 배우 이름 배열
actor_names = actors.column('Actor')

In [13]:
# 5개 배우 이름의 단순 무작위 표본
np.random.choice(actor_names, 5, replace=False)

array(['Cameron Diaz', 'Ben Stiller', 'Tom Hanks', 'Cate Blanchett',
       'Eddie Murphy'],
      dtype='<U22')

`sample`이 그랬던 것처럼 `np.random.choice`도 표본추출된 요소의 전체 시퀀스를 제공합니다. 배열 연산을 사용하여 표본에 대한 많은 질문에 답할 수 있습니다. 예를 들어, 두 번째로 추출된 배우가 누구인지, 두 번 이상 나타난 주사위의 면의 수를 찾을 수 있습니다. 일부 답변은 여러 줄의 코드가 필요할 수 있습니다.

## 범주형 분포에서 표본추출
때로는 표본추출된 개체의 범주형 속성에 관심이 있습니다. 예를 들어, 동전이 앞면 또는 뒷면으로 떨어지는지 보고 있을 수 있습니다. 또는 무작위로 선택된 유권자의 정당에 관심이 있을 수 있습니다.

이러한 경우 다른 범주에서 표본추출된 유권자의 비율이 자주 필요합니다. 전체 표본이 있으면 이러한 비율을 계산할 수 있습니다. `datascience` 라이브러리의 `sample_proportions` 함수가 우리를 위해 그 작업을 수행합니다. 범주형 분포에서 복원추출로 무작위로 표본추출하고 각 범주에서 표본추출된 요소의 비율을 반환하도록 특별히 설계되었습니다.

`sample_proportions` 함수는 두 개의 인수를 받습니다:
- 표본 크기
- 모집단의 범주 분포, 합이 1이 되는 비율의 리스트 또는 배열로

모집단에서 추출된 주어진 크기의 무작위 표본에서 범주의 분포를 포함하는 배열을 반환합니다. 즉, 모집단 분포에 나타난 것과 동일한 순서로 모든 다른 범주의 표본 비율로 구성된 배열입니다.

예를 들어, 어떤 종의 각 식물이 25%의 확률로 빨간 꽃을 피우고, 50%의 확률로 분홍 꽃을 피우고, 25%의 확률로 흰 꽃을 피운다고 가정해봅시다. 이는 다른 모든 식물의 꽃 색깔과 무관합니다. `sample_proportions`를 사용하여 종의 300개 식물 중 다른 색깔의 비율을 볼 수 있습니다.

In [87]:
# 종의 꽃 색깔 분포:
# 비율은 빨강, 분홍, 흰색 순서
species_proportions = [0.25, 0.5, .25]
#species_proportions = [0.2, 0.8]

sample_size = 100

# 표본의 분포
sample_distribution = sample_proportions(sample_size, species_proportions)
sample_distribution

array([ 0.29,  0.55,  0.16])

예상대로 표본의 비율 합은 1입니다.

In [88]:
sum(sample_distribution)

1.0

`species_proportions`의 범주는 빨강, 분홍, 흰색 순서입니다. 이 순서는 `sample_proportions`에 의해 유지됩니다. 표본에서 분홍 꽃 식물의 비율만 원한다면 `item`을 사용할 수 있습니다:

In [89]:
# 앞면의 표본 비율
sample_distribution.item(1)

0.55

`sample_proportions`와 배열 연산을 사용하여 다른 범주에서 표본추출된 개체의 비율만을 기반으로 하는 질문에 답할 수 있습니다. 표본추출된 식물 중 어느 것이 다른 색깔을 가졌는지와 같이 표본에 대한 더 자세한 정보가 필요한 질문에는 답할 수 없습니다.