# 집합과 확률

#### 집합은 무엇인가 ?

집합(set)은 개별 객체의 모음(collection)이다.
통상 객체를 원소(element)나 구성원(member)라고 부른다.
집합과 모음의 다른점으로는 집합은 동일한 2개의 원소를 가질 수 없다.

`SymPy`를 사용해 파이썬에서 집합으로 작업할 수 있다.

### 집합 생성

수학기호로 집합을 표현할 때는 `{ 2, 4, 6 }`와 같이 중괄호를 사용한다.
파이썬에서는 `FiniteSet` 클래스를 사용하여 표현할 수 있다.

In [None]:
%precision 3

'%.3f'

In [None]:
from sympy import FiniteSet

s = FiniteSet(2, 4, 6)
s

FiniteSet(2, 4, 6)

In [None]:
type(s)

sympy.sets.sets.FiniteSet

`카디널리티(cardinality)`란 집합의 구성원 수를 의미한다.
`len()`함수를 이용해 계산이 가능하다.

In [None]:
len(s)

3

`대상 집합에 숫자가 존재하는지 여부`는 `in`연산자를 사용해 알 수 있다.

In [None]:
3 in s

False

In [None]:
4 in s

True

`공집합(empty set)`을 생성하기 위해서는 인자가 없이 생성하면 된다.

In [None]:
FiniteSet()

EmptySet

`리스트`나 `튜플`을 인자로 전달해서 집합을 생성할 수도 있다.

In [None]:
members = [1, 2, 3]
FiniteSet(*members)

FiniteSet(1, 2, 3)

앞서 언급했듯이 집합 내에는 중복된 값을 허용하지 않는다.
같은 값을 여러번 넣어도 한 번만 추가되고 나머지는 모두 무시된다.

In [None]:
s = FiniteSet(1, 3, 2, 3)
s

FiniteSet(1, 2, 3)

###  부분집합
집합 s의 모든 구성원이 집합 t의 구성원일 경우 s는 t의 `부분집합(subset)`이라고 정의한다.
파이썬에서는 `is_subset()` 함수를 사용해서 확인이 가능하다.

In [None]:
s = FiniteSet(1)
t = FiniteSet(1, 2)

s.is_subset(t)

True

In [None]:
t.is_subset(s)

False

In [None]:
s.is_subset(s)

True

공집합은 모든 집합의 부분집합이며, 모든 집합은 자기 자신이 부분집합이다.


`파워집합(powerset)`은 모든 가능한 부분집합이다.
모든 집합은 `2 ** cadinality` 만큼의 부분집합을 가진다. (공집합, 자기자신을 포함)
파이썬에서는 `powerset()` 함수를 사용해 찾아낼 수 있다.

In [None]:
s = FiniteSet(1, 2, 3)
ps = s.powerset()
ps

FiniteSet(FiniteSet(1), FiniteSet(1, 2), FiniteSet(1, 3), FiniteSet(1, 2, 3), FiniteSet(2), FiniteSet(2, 3), FiniteSet(3), EmptySet)

In [None]:
len(ps)

8

### 집합 연산

#### 합집합

두 집합의 모든 구성원을 포함하는 집합이다. (중복된 구성원은 하나만 포함된다.)

In [None]:
from sympy import FiniteSet

s = FiniteSet(1, 2, 3)
t = FiniteSet(2, 4, 6)

s.union(t)

FiniteSet(1, 2, 3, 4, 6)

#### 교집합

두 집합에 공통적으로 존재하는 구성원들로만 이루어진 집합이다.

In [None]:
s.intersect(t)

FiniteSet(2)

#### 차집합

In [None]:
s - t

FiniteSet(1, 3)

#### 여집합

전체집합 U가 정해져 있을때 U의 부분집합 A에 대해서 다음을 성립할 때 여집합이라고 한다.   

$ A^c = U - A $

In [None]:
from sympy import Complement

U = FiniteSet(0,1,2,3)
A = FiniteSet(1,3)

Complement(U, A)

FiniteSet(0, 2)

In [None]:
U - A

FiniteSet(0, 2)

### 확률

- **실험**(experiment) : 각각 가능한 확률에 대한 테스트, 실험을 한 번 실행하는 것을 시도(trial)이라고 함. 예를 들어 주사위 던지기, 카드 뽑기
- **표본공간**(`S`) : 모든 가능한 실험 결과들의 집합. 예를 들어  6면 주사위를 한 번 던진 경우 표본공간 `S = {1, 2, 3, 4, 5, 6}`
- **사건**(`E`) : 표본공간의 부분집합. 예를 들어 6면 주사위의 표본공간 중 숫자 3이 나올 확률

$$ P(E) = \frac{n(E)}{n(S)} $$

특정 사건이 일어날 확률(`P(E)`)는 해당 사건의 개수(`n(E)`)를 전체 표본공간의 개수(`n(S)`)로 나눈 값이다.
주사위를 던져서 3이 나올 확률은 다음과 같다.

> S = { 1, 2, 3, 4, 5, 6 }  
E = { 3 }  
n(S) = 6  
n(E) = 1  
P(E) = 1 / 6  

이를 함수로 작성해 보자.

In [None]:
def probability(space, event):
    return len(event) / len(space)

위 함수를 이용해서 1 ~ 20 사이의 숫자 중 소수(Prime number)일 확률을 구해보도록 하자.

In [None]:
# 소수인지 확인하는 함수 
def check_prime(number):
    if number != 1:
        for factor in range(2,number):
            if number % factor == 0:
                return False
    else:
        return False
    return True

# 소수를 집합으로 리턴한다.
def get_primes(number):
    primes = [x for x in range(2, number + 1) if check_prime(x) ]
    
    return FiniteSet(*primes)

In [None]:
space = FiniteSet(*range(1,21)) # 표본공간
event = get_primes(20) # 사건
probability(space, event) # 1 ~ 20 숫자 중 소수일 확률

0.400

In [None]:
event

FiniteSet(2, 3, 5, 7, 11, 13, 17, 19)

#### 사건A 또는 사건B의 확률

A 사건과 B 사건의 집합을 합집합(`union`)한 다음에 확률을 계산하면 된다.

- S : 6면주사위를 1번 던짐 -> { 1, 2, 3, 4, 5, 6 }
- A : 소수 -> { 2, 3, 5 }
- B : 홀수 -> { 1, 3, 5 }

일 경우의 사건 A나 B일 확률은 다음과 같다.

In [None]:
S = FiniteSet(*range(1,7)) # 표본공간
A = FiniteSet(2, 3, 5) # 소수인 사건
B = FiniteSet(1, 3, 5) # 홀수인 사건

len(A.union(B)) / len(S) # 소수 또는 홀수일 확률

0.667

#### 사건 A 이면서 사건 B일 확률

두 집합의 교집합(`intersect`)의 확률을 계산하면 된다.

In [None]:
len(A.intersect(B)) / len(S) # 소수이면서 홀수인 확률

0.333

### 랜덤 숫자 생성

파이썬에서 랜덤숫자를 생성하려면 먼저 표준 라이브러리 `random`을 포함시켜야 한다.
주로 사용되는 랜덤함수는 다음의 2가지 이다.
- randint(from, to) : from 에서 to 사이의 숫자를 리턴한다. 
- random() : 0에서 1사이의 부동소수점 숫자를 생성한다.

주사위를 굴려서 총합이 20될 때까지 몇 번을 던져야 하는지를 랜덤을 통해서 구현해 본다.

In [None]:
import random

target_score = 20

def roll():
    return random.randint(1,6)

def play_game():
    score = 0
    num_rolls = 0
    while score < target_score:
        dice = roll()
        num_rolls += 1
        print('#{0}: {1}'.format(num_rolls, dice))
        score += dice

    print('Score of {0} reached in {1} rolls'.format(score, num_rolls))

play_game()

#1: 2
#2: 5
#3: 5
#4: 6
#5: 4
Score of 22 reached in 5 rolls


In [None]:
play_game()

#1: 5
#2: 4
#3: 6
#4: 5
Score of 20 reached in 4 rolls


#### 목표점수 달성이 가능한가 ?

이번에는 목표로 한 점수가 최대던지기 횟수 내에 달성이 가능한지 그 여부 및 확률을 계산해주는 프로그램을 작성한다.

In [None]:
from sympy import FiniteSet
from random import randint

def find_prob(target_score, max_rolls):
    dice = FiniteSet(*range(1,7))
    space = dice**max_rolls
    event_num = 0
    for e in space:
        n = sum(e)
        if (n >= target_score):
            event_num += 1
    return event_num / len(space)

find_prob(10,2)

0.16666666666666666

In [None]:
find_prob(20, 3)

0.000

주사위를 3번 던져서 최고값은 18이므로 20이 나올 수 있는 확률은 0% 이다.

위에서 사용한 랜덤은 균일 랜덤 숫자(uniform random number)였다.
비균일 랜덤을 생성하려면 어떻게 해야 할까?

>동전을 던졌을 때 앞면(True)이 나올 확률이 2/3이고, 뒷면(False)가 나올 확률이 1/3일 경우

In [None]:
import random

def non_uniform_toss():
    if random.random() < 2/3:
        return True
    return False

# 동전을 던져 앞면이 나올 확률이 2/3일때 10000번 동전을 던저셔 앞면이 나오는 횟수
true_num = 0
for i in range(10000):
    if non_uniform_toss() == True:
        true_num += 1
true_num

6722

### 조건부 확률

조건부 확률 P(A|B)는 어떤 사건 B가 일어났을 때 사건 A가 일어날 확률을 의미한다.

$$ P(A|B) = \frac{P(A \cap B)} {P(B)} $$

itertools의 `product` 메소드의 특징은 두 개 이상의 리스트의 모든 조합을 구할 때 사용된다.

In [None]:
from itertools import product

In [None]:
list(product([1,2], ['a','b','c'])) # 두 리스트의 모든 조합

[(1, 'a'), (1, 'b'), (1, 'c'), (2, 'a'), (2, 'b'), (2, 'c')]

동전을 3회 던지는 실험에서 'H':동전 앞면인 사건, 'T':동전 뒷면인 사건 이라고 하자. 이때 표본공간은 다음과 같다.

In [None]:
n = 3 # 동전 던지는 횟수
coin = set(product(['H','T'], repeat = n))
coin # 표본공간

{('H', 'H', 'H'),
 ('H', 'H', 'T'),
 ('H', 'T', 'H'),
 ('H', 'T', 'T'),
 ('T', 'H', 'H'),
 ('T', 'H', 'T'),
 ('T', 'T', 'H'),
 ('T', 'T', 'T')}

In [None]:
len(coin) # 표본공간의 크기

8

In [None]:
A = {a for a in coin if a[0] =='T'} # 첫번째 동전이 뒷면인 사건
B = {b for b in coin if b.count('T') == 2} # 두 번 모두 뒷면이 나온 사건

In [None]:
A

{('T', 'H', 'H'), ('T', 'H', 'T'), ('T', 'T', 'H'), ('T', 'T', 'T')}

In [None]:
B

{('H', 'T', 'T'), ('T', 'H', 'T'), ('T', 'T', 'H')}

In [None]:
# 동전 던지기 확률

def prob(X):
    return len(X) / len(coin)

In [None]:
# 조건부 확률

def cond_prob(X, Y):
    return len(X.intersection(Y)) / len(Y)

In [None]:
prob(A) # A 사건의 확률

0.500

In [None]:
prob(B) # B 사건의 확률

0.375

In [None]:
cond_prob(A, B) #  P(A|B) 조건부 확률

0.667

#### 독립사건 

만약 P(B|A) = P(B) 라면 즉 사건 A가 일어난 일과 사건 B가 일어날 확률이 상관 없다는 뜻이다. 이 때 사건 A와 B는 서로 독립사건(independent event)이다.

$$ P(A|B) = P(A) \iff \frac{P(A \cap B)}{P(B)} = P(A) $$
$$ \therefore P(A \cap B) = P(A)P(B) $$

In [None]:
prob(A.intersection(B))

0.250

In [None]:
prob(A) * prob(B)

0.188

prob(A.intersection(B)) $ \neq $  prob(A) * prob(B) 이므로 두 사건은 독립이 아니다.

두 사건의 독립여부를 판단하는 함수를 다음과 같이 생성한다.

In [None]:
def independant(X, Y):
    return prob(X.intersection(Y)) == prob(X)*prob(Y)

In [None]:
independant(A, B)

False

In [None]:
C = {c for c in coin if c[1] == 'H'} # 두번째 동전이 앞면인 사건

In [None]:
independant(A, C)

True

A사건(첫번째 동전이 뒷면인 사건)과 C사건(두번째 동전이 앞면인 사건)은 독립사건이다.