In [1]:
import numpy as np
from scipy.stats import binom, norm, multinomial
from scipy.special import comb 

### Question

최근에 팔린 자동차 중 10%는 검은색이었다. 랜덤하게 선택된 25대의 차에서 다음의 확률을 구하시오  
a) 적어도 4대가 검은 색  
b) 최대 6대가 검은 색  
c) 4대 이상이 검은 색  
d) 정확히 4대가 검은 색  
e) 3대~4대의 자동차가 검은 색  

### Solution

In [2]:
# 변수 초기화
n = 25
p = 0.1

In [3]:
## 직접 계산

# a)
probs = [(comb(n, i) * (p**i) * ((1-p)**(n-i))) for i in range(4)]
prob = 1 - sum(probs)
print(f"a) 적어도 4대가 검은 색: {prob:.4f}")

# b)
probs = [(comb(n, i) * (p**i) * ((1-p)**(n-i))) for i in range(7)]
prob = sum(probs)
print(f"b) 최대 6대가 검은 색  : {prob:.4f}")

# c)
probs = [(comb(n, i) * (p**i) * ((1-p)**(n-i))) for i in range(4)]
prob = 1 - sum(probs)
print(f"c) 4대 이상이 검은 색  : {prob:.4f}")

# d)
prob = comb(n, 4) * (p**4) * ((1-p)**(n-4))
print(f"d) 정확히 4대가 검은색  : {prob:.4f}")

# e)
probs = [(comb(n, i) * (p**i) * ((1-p)**(n-i))) for i in (3, 4)]
prob = sum(probs)
print(f"d) 3대~4대의 자동차가 검은 색 : {prob:.4f}")

a) 적어도 4대가 검은 색: 0.2364
b) 최대 6대가 검은 색  : 0.9905
c) 4대 이상이 검은 색  : 0.2364
d) 정확히 4대가 검은색  : 0.1384
d) 3대~4대의 자동차가 검은 색 : 0.3649


In [4]:
## scipy를 이용해 pmf 함수 이용

# a)
prob = 1 - binom.cdf(3, 25, 0.1)
print(f"a) 적어도 4대가 검은 색: {prob:.4f}")

# b)
prob = binom.cdf(6, 25, 0.1)
print(f"b) 최대 6대가 검은 색  : {prob:.4f}")

# c)
prob = 1 - binom.cdf(3, 25, 0.1)
print(f"c) 4대 이상이 검은 색  : {prob:.4f}")

# d)
prob = binom.pmf(4, 25, 0.1)
print(f"d) 정확히 4대가 검은색  : {prob:.4f}")

# e)
prob = binom.pmf(3, 25, 0.1) + binom.pmf(4, 25, 0.1)
print(f"d) 3대~4대의 자동차가 검은 색 : {prob:.4f}")

a) 적어도 4대가 검은 색: 0.2364
b) 최대 6대가 검은 색  : 0.9905
c) 4대 이상이 검은 색  : 0.2364
d) 정확히 4대가 검은색  : 0.1384
d) 3대~4대의 자동차가 검은 색 : 0.3649


* * *

### Question

5개의 질문으로 구성된 4지선다형 시험에서 오직 하나만이 정답일 때, 다음을 구하라  
a) 어떤 학생이 모든 문제의 답을 맞출 확률은?  
b) 어떤 학생이 모든 문제를 틀릴 확률은?

### Solution

In [5]:
## 직접 계산

# a)
prob = 0.25**5
print(f"a) 어떤 학생이 모든 문제의 답을 맞출 확률은 {prob:.4f}")
# b)
prob = (1 - 0.25)**5
print(f"b) 어떤 학생이 모든 문제를 틀릴 확률은 {prob:.4f}")

a) 어떤 학생이 모든 문제의 답을 맞출 확률은 0.0010
b) 어떤 학생이 모든 문제를 틀릴 확률은 0.2373


In [6]:
## scipy를 이용해 pmf 함수 이용

# a)
prob = binom.pmf(5, 5, 0.25)
print(f"a) 어떤 학생이 모든 문제의 답을 맞출 확률은 {prob:.4f}")
# b)
prob = binom.pmf(0, 5, 0.25)
print(f"b) 어떤 학생이 모든 문제를 틀릴 확률은 {prob:.4f}")

a) 어떤 학생이 모든 문제의 답을 맞출 확률은 0.0010
b) 어떤 학생이 모든 문제를 틀릴 확률은 0.2373


* * *

### Question

자녀가 3명 있는 가정의 경우 다음 확률을 구하라  
a) 적어도 한 명이 딸일 확률은?  
b) 적어도 두 명이 딸일 확률은?

*각 자녀가 딸일 확률은 50%라고 가정한다

### Solution

In [7]:
## 직접 계산

# a)
prob = 1 - (0.5**3)
print(f"a) 적어도 한 명이 딸일 확률은 {prob:.4f}")

# b)
daughter_2 = (0.5**3) * comb(3, 2)
daughter_3 = (0.5**3) * comb(3, 3)
prob = daughter_2 + daughter_3
print(f"b) 적어도 두 명이 딸일 확률은 {prob:.4f}")

a) 적어도 한 명이 딸일 확률은 0.8750
b) 적어도 두 명이 딸일 확률은 0.5000


In [8]:
## scipy의 pmf 함수 이용

# b)
prob = 1 - binom.cdf(1, 3, 0.5)
print(f"b) 적어도 두 명이 딸일 확률은 {prob:.4f}")

b) 적어도 두 명이 딸일 확률은 0.5000


In [9]:
## 시뮬레이션을 통해 계산
two_more = 0
n = 100000
for _ in range(n):
    daughter_count = np.random.binomial(3, 0.5)
    if daughter_count >= 2:
        two_more += 1
p = two_more / n
print(f"적어도 두 명이 딸일 확률은? {p:.4f}")

적어도 두 명이 딸일 확률은? 0.5004


* * *

### Question

어떤 학원에서 수강하는 과목이 국어, 영어, 수학 세 과목이 있는데, 학생들은 국어, 영어, 수학 중 한 가지를 독립적으로 선택하며 이때 각 과목을 선택할 확률은 다음과 같다.  
$P(국어)=0.3$, $P(영어)=0.2$, $P(수학)=0.5$  
a) 앞으로 올 100명의 학생 중 국어를 선택할 사람의 수에 대한 평균과 분산을 각각 구하라.  
b) 앞으로 올 100명의 학생 중 수학이 아닌 과목을 선택할 사람 수에 대한 평균과 분산을 각각 구하라

### Solution

In [10]:
## scipy를 이용

mean_kor = binom.mean(100, 0.3)
var_kor = binom.var(100, 0.3)
print(f"a)100명의 학생 중 국어를 선택할 사람 수에 대한 평균: {mean_kor}, 분산: {var_kor}")

mean_not_math = binom.mean(100, (1-0.5))
var_not_math = binom.var(100, (1-0.5))
print(f"b)100명의 학생 중 수학이 아닌 과목을 선택할 사람 수에 대한 평균: {mean_not_math}, 분산: {var_not_math}")

a)100명의 학생 중 국어를 선택할 사람 수에 대한 평균: 30.0, 분산: 21.0
b)100명의 학생 중 수학이 아닌 과목을 선택할 사람 수에 대한 평균: 50.0, 분산: 25.0


In [11]:
## binom의 평균과 분산 이용: np, np(1-p)

mean_kor = 100*0.3
var_kor = 100*0.3*(1-0.3)
print(f"a)100명의 학생 중 국어를 선택할 사람 수에 대한 평균: {mean_kor}, 분산: {var_kor}")

mean_not_math = 100*0.5
var_not_math = 100*0.5*(1-0.5)
print(f"b)100명의 학생 중 수학이 아닌 과목을 선택할 사람 수에 대한 평균: {mean_not_math}, 분산: {var_not_math}")

a)100명의 학생 중 국어를 선택할 사람 수에 대한 평균: 30.0, 분산: 21.0
b)100명의 학생 중 수학이 아닌 과목을 선택할 사람 수에 대한 평균: 50.0, 분산: 25.0


In [12]:
## 시뮬레이션을 통해 계산

kor = []
math = []
for _ in range(10000):
    samples = multinomial.rvs(1, [0.3, 0.2, 0.5], 100)
    kor.append(sum([(sample[0] == 1).all() for sample in samples]))
    math.append(sum([(sample[2] == 0).all() for sample in samples]))

mean_kor = np.mean(kor)
var_kor = np.var(kor)
print(f"a)100명의 학생 중 국어를 선택할 사람 수에 대한 평균: {mean_kor:.2f}, 분산: {var_kor:.2f}")

mean_not_math = np.mean(math)
var_not_math = np.var(math)
print(f"b)100명의 학생 중 수학이 아닌 과목을 선택할 사람 수에 대한 평균: {mean_not_math:.2f}, 분산: {var_not_math:.2f}")

a)100명의 학생 중 국어를 선택할 사람 수에 대한 평균: 29.96, 분산: 20.96
b)100명의 학생 중 수학이 아닌 과목을 선택할 사람 수에 대한 평균: 49.99, 분산: 25.26
