In [1]:
from datascience import *
#path_data = 'data/'
path_data = 'data/'
import numpy as np
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')
%matplotlib inline

# 표본추출과 경험적 분포
데이터 과학의 중요한 부분은 무작위 표본의 데이터를 기반으로 결론을 도출하는 것입니다. 결과를 올바르게 해석하기 위해 데이터 과학자들은 먼저 무작위 표본이 정확히 무엇인지 이해해야 합니다.

이 장에서는 표본추출을 더 신중하게 살펴보고, 특히 대규모 무작위 표본의 속성에 주목할 것입니다.

먼저 몇 가지 표본을 추출해 보겠습니다. 우리의 예제는 [`top_movies_2017.csv`](https://inferentialthinking.com/chapters/07/1/Visualizing_Categorical_Distributions.html#grouping-categorical-data) 데이터셋을 기반으로 합니다.

In [11]:
top1 = Table.read_table(path_data + 'top_movies_2017.csv')
top2 = top1.with_column('Row Index', np.arange(top1.num_rows))
top = top2.move_to_start('Row Index')

top.set_format(make_array(3, 4), NumberFormatter)

Row Index,Title,Studio,Gross,Gross (Adjusted),Year
0,Gone with the Wind,MGM,198676459,1796176700,1939
1,Star Wars,Fox,460998007,1583483200,1977
2,The Sound of Music,Fox,158671368,1266072700,1965
3,E.T.: The Extra-Terrestrial,Universal,435110554,1261085000,1982
4,Titanic,Paramount,658672302,1204368000,1997
5,The Ten Commandments,Paramount,65500000,1164590000,1956
6,Jaws,Universal,260000000,1138620700,1975
7,Doctor Zhivago,MGM,111721910,1103564200,1965
8,The Exorcist,Warner Brothers,232906145,983226600,1973
9,Snow White and the Seven Dwarves,Disney,184925486,969010000,1937


In [12]:
top

Row Index,Title,Studio,Gross,Gross (Adjusted),Year
0,Gone with the Wind,MGM,198676459,1796176700,1939
1,Star Wars,Fox,460998007,1583483200,1977
2,The Sound of Music,Fox,158671368,1266072700,1965
3,E.T.: The Extra-Terrestrial,Universal,435110554,1261085000,1982
4,Titanic,Paramount,658672302,1204368000,1997
5,The Ten Commandments,Paramount,65500000,1164590000,1956
6,Jaws,Universal,260000000,1138620700,1975
7,Doctor Zhivago,MGM,111721910,1103564200,1965
8,The Exorcist,Warner Brothers,232906145,983226600,1973
9,Snow White and the Seven Dwarves,Disney,184925486,969010000,1937


<h2>테이블의 행 표본추출</h2>

데이터 테이블의 각 행은 하나의 개체를 나타냅니다. `top`에서 각 개체는 영화입니다. 따라서 개체를 표본추출하는 것은 테이블의 행을 표본추출함으로써 달성될 수 있습니다.

행의 내용은 동일한 개체에 대해 측정된 서로 다른 변수의 값들입니다. 따라서 표본추출된 행의 내용은 각 변수의 값들에 대한 표본을 형성합니다.

<h2>결정론적 표본</h2>

어떤 확률도 포함하지 않고 집합의 어떤 요소를 선택할지 단순히 지정하면 *결정론적 표본*을 생성합니다.

예를 들어 `take`를 사용하여 여러 번 이렇게 해왔습니다:

In [13]:
top.take(make_array(3, 18, 100))

Row Index,Title,Studio,Gross,Gross (Adjusted),Year
3,E.T.: The Extra-Terrestrial,Universal,435110554,1261085000,1982
18,The Lion King,Buena Vista,422783777,792511700,1994
100,The Hunger Games,Lionsgate,408010692,452174400,2012


`where`도 사용했습니다:

In [14]:
top.where('Title', are.containing('Harry Potter'))

Row Index,Title,Studio,Gross,Gross (Adjusted),Year
74,Harry Potter and the Sorcerer's Stone,Warner Brothers,317575550,497066400,2001
114,Harry Potter and the Deathly Hallows Part 2,Warner Brothers,381011219,426630300,2011
131,Harry Potter and the Goblet of Fire,Warner Brothers,290013036,401608200,2005
133,Harry Potter and the Chamber of Secrets,Warner Brothers,261988482,399302200,2002
154,Harry Potter and the Order of the Phoenix,Warner Brothers,292004738,377314200,2007
175,Harry Potter and the Half-Blood Prince,Warner Brothers,301959197,359788300,2009
177,Harry Potter and the Prisoner of Azkaban,Warner Brothers,249541069,357233500,2004


이것들은 표본이지만 무작위 표본은 아닙니다. 확률이 포함되지 않습니다.

<h2>확률 표본</h2>

무작위 표본을 설명하기 위해 몇 가지 용어가 도움이 될 것입니다.

*모집단*은 표본이 추출될 모든 요소의 집합입니다.

*확률 표본*은 표본이 추출되기 전에 요소의 어떤 부분집합이 표본에 포함될 확률을 계산할 수 있는 표본입니다.

확률 표본에서 모든 요소가 동일한 선택 확률을 가질 필요는 없습니다.

<h2>무작위 표본추출 방법</h2>

예를 들어, 세 사람 A, B, C로 구성된 모집단에서 다음 방법에 따라 두 사람을 선택한다고 가정합시다:

- 사람 A는 확률 1로 선택됩니다.
- 사람 B 또는 C 중 한 명은 동전 던지기에 따라 선택됩니다: 동전이 앞면이 나오면 B를 선택하고, 뒷면이 나오면 C를 선택합니다.

이것은 크기 2의 확률 표본입니다. 모든 비어있지 않은 부분집합에 대한 선택 확률은 다음과 같습니다:

    A: 1
    B: 1/2
    C: 1/2
    AB: 1/2
    AC: 1/2
    BC: 0
    ABC: 0

사람 A는 사람 B나 C보다 선택될 확률이 높습니다. 실제로 사람 A는 확실히 선택됩니다. 이러한 차이가 알려져 있고 정량화되어 있으므로 표본으로 작업할 때 이를 고려할 수 있습니다.

<h2>계통 표본</h2>

모집단의 모든 요소가 시퀀스로 나열되어 있다고 상상해보세요. 한 가지 표본추출 방법은 리스트 초반에 무작위 위치를 선택한 다음, 그 이후로 균등한 간격의 위치를 선택하는 것입니다. 표본은 그러한 위치에 있는 요소들로 구성됩니다. 이러한 표본을 *계통 표본*이라고 합니다.

여기서 우리는 `top`의 행에서 계통 표본을 선택할 것입니다. 먼저 처음 10개 행 중 하나를 무작위로 선택한 다음, 그 이후로 10번째 행마다 선택할 것입니다.

In [16]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [17]:
"""0부터 9까지의 행 중에서 무작위 시작점을 선택;
그 다음 10번째 행마다 선택."""

start = np.random.choice(np.arange(10))
top.take(np.arange(start, top.num_rows, 10))

Row Index,Title,Studio,Gross,Gross (Adjusted),Year
4,Titanic,Paramount,658672302,1204368000,1997
14,Avatar,Fox,760507625,865082100,2009
24,The Godfather,Paramount,134966411,701621600,1972
34,Shrek 2,Dreamworks,441226247,631642700,2004
44,Airport,Universal,100489151,587729300,1970
54,Finding Nemo,Buena Vista,380843261,547504100,2003
64,Back to the Future,Universal,210609762,524960300,1985
74,Harry Potter and the Sorcerer's Stone,Warner Brothers,317575550,497066400,2001
84,Men in Black,Sony,250690539,485542200,1997
94,Mrs. Doubtfire,Fox,219195243,468364200,1993


셀을 몇 번 실행하여 출력이 어떻게 달라지는지 확인해보세요.

이 계통 표본은 확률 표본입니다. 이 방법에서 모든 행은 $1/10$의 확률로 선택됩니다. 예를 들어, 행 23은 행 3이 선택될 때만 선택되며, 그 확률은 $1/10$입니다.

그러나 모든 부분집합이 동일한 선택 확률을 가지는 것은 아닙니다. 선택된 행들이 균등한 간격으로 배치되어 있기 때문에 대부분의 행 부분집합은 선택될 확률이 없습니다. 가능한 부분집합은 10의 배수로 분리된 행들로 구성된 부분집합뿐입니다. 그러한 부분집합 중 하나는 확률 1/10으로 선택됩니다. 테이블의 15번째와 16번째 행을 모두 포함하는 부분집합이나 크기가 10보다 큰 부분집합과 같은 다른 부분집합은 확률 0으로 선택됩니다.

<h2>복원추출 또는 비복원추출 무작위 표본</h2>

이 과정에서는 주로 가장 직관적인 두 가지 표본추출 방법을 다룰 것입니다.

첫 번째는 복원추출 무작위 표본추출로, (앞서 살펴본 것처럼) 배열에서 표본추출할 때 `np.random.choice`의 기본 동작입니다.

다른 하나는 "단순 무작위 표본"이라고 불리며, *비복원*으로 무작위로 추출된 표본입니다. 표본추출된 개체는 다음 개체가 추출되기 전에 모집단에 다시 넣지 않습니다. 이것은 예를 들어 카드 한 벌에서 패를 나눌 때 발생하는 표본추출 방식입니다. 단순 무작위 표본추출을 위해 `np.random.choice`를 사용하려면 인수 `replace=False`를 포함해야 합니다.

이 장에서는 시뮬레이션을 사용하여 복원추출 또는 비복원추출로 무작위로 추출된 대규모 표본의 동작을 연구할 것입니다.

<h2>편의 표본</h2>
무작위 표본을 추출하려면 주의와 정밀함이 필요합니다. "무작위(random)"라는 단어의 구어적 의미가 무계획적이라는 뜻이지만, 실제로는 그렇지 않습니다. 길모퉁이에 서서 지나가는 처음 10명을 표본으로 삼는다면, 누가 지나갈지 선택하지 않았기 때문에 무작위로 표본추출하고 있다고 생각할 수 있습니다. 그러나 이것은 무작위 표본이 아닙니다 – *편의 표본*입니다. 각 사람이 표본에 포함될 확률을 미리 알지 못했으며, 모집단에 정확히 누가 있는지조차 지정하지 않았을 수도 있습니다.