<a href="https://colab.research.google.com/github/books-by-chansung/ds-bookcamp/blob/main/notebooks/ds_bookcamp_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
sample_space = {'앞면', '뒷면'}
sample_space

{'뒷면', '앞면'}

In [2]:
probability_heads = 1 / len(sample_space)
print(f'앞면이 선택될 확률은 {probability_heads}')

앞면이 선택될 확률은 0.5


In [3]:
def is_heads_or_tails(outcome): return outcome in {'앞면', '뒷면'}
def is_neither(outcome): return not is_heads_or_tails(outcome)

In [4]:
def is_heads(outcome): return outcome == '앞면'
def is_tails(outcome): return outcome == '뒷면'

In [5]:
def get_matching_event(event_condition, sample_space):
    return set([outcome for outcome in sample_space
                if event_condition(outcome)])

In [6]:
event_conditions = [is_heads_or_tails, is_heads, is_tails, is_neither]

for event_condition in event_conditions:
    print(f"사건 조건: {event_condition.__name__}")
    event = get_matching_event(event_condition, sample_space)
    print(f'사건: {event}\n')


사건 조건: is_heads_or_tails
사건: {'앞면', '뒷면'}

사건 조건: is_heads
사건: {'앞면'}

사건 조건: is_tails
사건: {'뒷면'}

사건 조건: is_neither
사건: set()



In [7]:
def compute_probability(event_condition, generic_sample_space):
  event = get_matching_event(event_condition, generic_sample_space)
  return len(event) / len(generic_sample_space)

for event_condition in event_conditions:
  prob = compute_probability(event_condition, sample_space)
  name = event_condition.__name__
  print(f"조건 '{name}'으로부터 사건이 발생할 확률은 {prob} 입니다.")


조건 'is_heads_or_tails'으로부터 사건이 발생할 확률은 1.0 입니다.
조건 'is_heads'으로부터 사건이 발생할 확률은 0.5 입니다.
조건 'is_tails'으로부터 사건이 발생할 확률은 0.5 입니다.
조건 'is_neither'으로부터 사건이 발생할 확률은 0.0 입니다.


In [8]:
weighted_sample_space = {'앞면': 4, '뒷면': 1}

In [9]:
sample_space_size = sum(weighted_sample_space.values())
assert sample_space_size == 5

In [10]:
event = get_matching_event(is_heads_or_tails, weighted_sample_space)
event_size = sum(weighted_sample_space[outcome] for outcome in event)
assert event_size == 5

In [11]:
def compute_event_probability(event_condition, generic_sample_space):
  event = get_matching_event(event_condition, generic_sample_space)
  if type(generic_sample_space) == type(set()):
    return len(event) / len(generic_sample_space)

  event_size = sum(generic_sample_space[outcome]
                    for outcome in event)
  return event_size / sum(generic_sample_space.values())

In [12]:
for event_condition in event_conditions:
    prob = compute_event_probability(event_condition, weighted_sample_space)
    name = event_condition.__name__
    print(f"'{name}' 에서 발생한 사건의 확룔은 {prob} 입니다")


'is_heads_or_tails' 에서 발생한 사건의 확룔은 1.0 입니다
'is_heads' 에서 발생한 사건의 확룔은 0.8 입니다
'is_tails' 에서 발생한 사건의 확룔은 0.2 입니다
'is_neither' 에서 발생한 사건의 확룔은 0.0 입니다


In [13]:
for event_condition in event_conditions:
  prob = compute_event_probability(event_condition, weighted_sample_space)
  name = event_condition.__name__

  print(f"'{name}' 에서 발생한 사건의 확룔은 {prob} 입니다")

'is_heads_or_tails' 에서 발생한 사건의 확룔은 1.0 입니다
'is_heads' 에서 발생한 사건의 확룔은 0.8 입니다
'is_tails' 에서 발생한 사건의 확룔은 0.2 입니다
'is_neither' 에서 발생한 사건의 확룔은 0.0 입니다


## 1.2 사소한 확률 계산 문제

### 1.2.1 문제1: 네 자녀를 둔 가정의 분석

In [14]:
possible_children = ['남아', '여아']
sample_space = set()
for child1 in possible_children:
  for child2 in possible_children:
    for child3 in possible_children:
      for child4 in possible_children:
        outcome = (child1, child2, child3, child4)
        sample_space.add(outcome)


In [15]:
from itertools import product
all_combinations = product(*(4 * [possible_children]))
assert set(all_combinations) == sample_space

In [16]:
sample_space_efficient = set(product(possible_children, repeat=4))
assert sample_space == sample_space_efficient

In [17]:
def has_two_boys(outcome): return len([child for child in outcome
                                      if child == '남아']) == 2
prob = compute_event_probability(has_two_boys, sample_space)
print(f"남아 두 명이 포함되었을 확률은 {prob} 입니다")


남아 두 명이 포함되었을 확률은 0.375 입니다


### 1.2.2 문제2: 다면체 주사위 굴리기의 분석

In [18]:
possible_rolls = list(range(1, 7))
print(possible_rolls)

[1, 2, 3, 4, 5, 6]


In [19]:
sample_space = set(product(possible_rolls, repeat=6))

In [20]:
def has_sum_of_21(outcome): return sum(outcome) == 21
prob = compute_event_probability(has_sum_of_21, sample_space)
print(f"여섯 번 주사위를 굴린 결과의 합이 21일 확률은 {prob} 입니다")

여섯 번 주사위를 굴린 결과의 합이 21일 확률은 0.09284979423868313 입니다


In [21]:
prob = compute_event_probability(lambda x: sum(x) == 21, sample_space)
assert prob == compute_event_probability(has_sum_of_21, sample_space)

### 1.2.3 문제3: 가중된 표본 공간으로 주사위 굴리기 확률 계산

In [22]:
from collections import defaultdict
weighted_sample_space = defaultdict(int)
for outcome in sample_space:
  total = sum(outcome)
  weighted_sample_space[total] += 1

In [23]:
assert weighted_sample_space[6] == 1
assert weighted_sample_space[36] == 1


In [24]:
num_combinations = weighted_sample_space[21]
print(f"주사위를 여섯 번 굴렸을 때의 합계가 21이 될 수 있는 조합의 수는 {num_combinations } 입니다")

주사위를 여섯 번 굴렸을 때의 합계가 21이 될 수 있는 조합의 수는 4332 입니다


In [25]:
assert sum([4, 4, 4, 4, 3, 2]) == 21
assert sum([4, 4, 4, 5, 3, 1]) == 21

In [26]:
event = get_matching_event(lambda x: sum(x) == 21, sample_space)
assert weighted_sample_space[21] == len(event)
assert sum(weighted_sample_space.values()) == len(sample_space)

In [27]:
prob = compute_event_probability(lambda x: x == 21,
                                  weighted_sample_space)
assert prob == compute_event_probability(has_sum_of_21, sample_space)
print(f" 주사위를 여섯 번 굴렸을 때의 합계가 21이 될 확률은 {prob} 입니다")

 주사위를 여섯 번 굴렸을 때의 합계가 21이 될 확률은 0.09284979423868313 입니다


In [28]:
print('가중되지 않은 표본 공간내 요소 수:')
print(len(sample_space))
print('가중된 표본 공간 내 요소 수:')
print(len(weighted_sample_space))

가중되지 않은 표본 공간내 요소 수:
46656
가중된 표본 공간 내 요소 수:
31


## 1.3 구간 범위에 대한 확률 계산

In [29]:
def is_in_interval(number, minimum, maximum):
  return minimum <= number <= maximum

In [30]:
prob = compute_event_probability(lambda x: is_in_interval(x, 10, 21),
                                  weighted_sample_space)
print(f"구간에 대한 확률은 {prob} 입니다")

구간에 대한 확률은 0.5446244855967078 입니다


### 1.3.1 구간 분석법으로 극단 평가

In [31]:
def generate_coin_sample_space(num_flips=10):
  weighted_sample_space = defaultdict(int)
  for coin_flips in product(['앞면', '뒷면'], repeat=num_flips):
    heads_count = len([outcome for outcome in coin_flips
                      if outcome == '앞면'])
    weighted_sample_space[heads_count] += 1
  return weighted_sample_space

weighted_sample_space = generate_coin_sample_space()
assert weighted_sample_space[10] == 1
assert weighted_sample_space[9] == 10


In [32]:
prob = compute_event_probability(lambda x: is_in_interval(x, 8, 10),
                                  weighted_sample_space)
print(f"앞면이 7번 보다 많이 관측될 확률은 {prob} 입니다")

앞면이 7번 보다 많이 관측될 확률은 0.0546875 입니다


In [33]:
prob = compute_event_probability(lambda x: not is_in_interval(x, 3, 7),
                                  weighted_sample_space)
print(f"앞면 또는 뒷면이 7번 보다 많이 관측될 확률은 {prob} 입니다")

앞면 또는 뒷면이 7번 보다 많이 관측될 확률은 0.109375 입니다


In [34]:
weighted_sample_space_20_flips = generate_coin_sample_space(num_flips=20)
prob = compute_event_probability(lambda x: not is_in_interval(x, 5, 15),
                                  weighted_sample_space_20_flips)
print(f" 앞면 또는 뒷면이 15번 보다 많이 관측될 확률은 {prob} 입니다")

 앞면 또는 뒷면이 15번 보다 많이 관측될 확률은 0.01181793212890625 입니다
