# 생일 문제 (Birthday-problem)  

#### 최소한 몇 명이 모여야 그 중에 생일이 같은 사람이 있을 확률이 50%를 넘을까?

### 1. 비둘기집 원리

#### N+1개의 비둘기가 N개의 비둘기집에 들어간다면, 하나 이상의 비둘기집에는 비둘기가 두 마리 이상 존재한다.  
즉, 367명의 사람이 있다면 윤년을 포함하여 366일에서 반드시 생일이 같은 사람이 있다.

#### 직관적으로는, 이의 절반인 183명 정도가 있으면 50%일것처럼 보인다.
실제로 그런지 코드로 한번 살펴보자.

### 2. 코드를 통한 분석

우선, 인원 수를 정해야 한다.  
여기서는 우선 183이라고 가정해두자.

In [1]:
people_number = 183

이제 랜덤으로 사람의 인원만큼 생일을 추출해야 한다.

In [2]:
from random import randint  # 랜덤 라이브러리

birthday_set = set()  # 생일이 겹치는지 set으로 판별하자.
for _ in range(people_number):
    birthday_set.add(randint(0, 365))  # 0 ~ 365 (윤년을 포함하여 366일)

이제 이를 함수로 만들어, 충분히 많은 시도횟수로 시도하자.

In [3]:
from random import randint  # 랜덤 라이브러리

def birthday_problem(people_number):
    birthday_set = set()
    for _ in range(people_number):
        birthday_set.add(randint(0, 365))
    
    if len(birthday_set) != people_number:  # set의 크기와 사람 인원이 다르다면 생일이 같은 사람이 있다.
        return 1
    return 0

In [4]:
from tqdm.auto import tqdm

try_count = 10**6
people_number = 183 

birthday_same = 0
for _ in tqdm(range(try_count)):
    birthday_same += birthday_problem(people_number)

  0%|          | 0/1000000 [00:00<?, ?it/s]

In [5]:
print("사람이 {}명일때 생일이 같은 사람이 있을 확률은 {}".format(people_number, birthday_same / try_count))

사람이 183명일때 생일이 같은 사람이 있을 확률은 1.0


### 직관과는 달리, 매우 확률이 높게 나온다.
  
#### 이는 무의식적으로 "자신을 기준으로" 확률을 계산하기 때문이다.
즉, 나와 생일이 겹칠 확률을 계산하고 있는 것이다.  
  
실제로 모든 사람의 생일이 겹치지 않을 확률은 1 - (364 / 365) * (363 / 365)...이다.  

In [6]:
people_number = 183
birthday_same_probability = 1
for i in range(1, people_number):
    birthday_same_probability *= (365 - i) / 365

In [7]:
print("사람이 {}명일때 생일이 같은 사람이 없을 실제 확률은 {}".format(people_number, birthday_same_probability))

사람이 183명일때 생일이 같은 사람이 없을 실제 확률은 4.780018408223532e-25


#### 183명일때 생일이 같은 사람이 없을 실제 확률은 매우 낮은 것을 알 수 있다.

#### 그렇다면, 최소한 몇 명이 모여야 그 중에 생일이 같은 사람이 있을 확률이 50%를 넘을까?
당연히 불가능한 1명을 제외하고, 확률이 1이 되는 367명을 제외한 범위를 순회해보자.

In [8]:
# 위의 확률을 함수로 처리
def birthday_same_probabilty_function(people_number):
    birthday_same_probability = 1
    for i in range(1, people_number):
        birthday_same_probability *= (366 - i) / 366
    return 1 - birthday_same_probability

In [9]:
for people_number in range(1, 367):
    print("사람이 {:2d}명일때, 생일이 같은 사람이 있을 확률은 {}".format(people_number, birthday_same_probabilty_function(people_number)))
    if birthday_same_probabilty_function(people_number) >= 0.99:
        break

사람이  1명일때, 생일이 같은 사람이 있을 확률은 0
사람이  2명일때, 생일이 같은 사람이 있을 확률은 0.002732240437158473
사람이  3명일때, 생일이 같은 사람이 있을 확률은 0.008181791035862584
사람이  4명일때, 생일이 같은 사람이 있을 확률은 0.016311448486388325
사람이  5명일때, 생일이 같은 사람이 있을 확률은 0.02706214303844967
사람이  6명일때, 생일이 같은 사람이 있을 확률은 0.040353643816612994
사람이  7명일때, 생일이 같은 사람이 있을 확률은 0.056085551295029235
사람이  8명일때, 생일이 같은 사람이 있을 확률은 0.07413855987681828
사람이  9명일때, 생일이 같은 사람이 있을 확률은 0.09437596840410101
사람이 10명일때, 생일이 같은 사람이 있을 확률은 0.11664541180400023
사람이 11명일때, 생일이 같은 사람이 있을 확률은 0.14078078306618602
사람이 12명일때, 생일이 같은 사람이 있을 확률은 0.16660431144397825
사람이 13명일때, 생일이 같은 사람이 있을 확률은 0.19392876024909378
사람이 14명일때, 생일이 같은 사람이 있을 확률은 0.22255970592330632
사람이 15명일때, 생일이 같은 사람이 있을 확률은 0.25229785924864434
사람이 16명일때, 생일이 같은 사람이 있을 확률은 0.2829413896073065
사람이 17명일때, 생일이 같은 사람이 있을 확률은 0.3142882141053478
사람이 18명일때, 생일이 같은 사람이 있을 확률은 0.3461382150895257
사람이 19명일때, 생일이 같은 사람이 있을 확률은 0.3782953520523359
사람이 20명일때, 생일이 같은 사람이 있을 확률은 0.4105696370550834
사람이 21명일때, 생일이 같은 사람이 있을 확률은 0.4427789

#### 23명일때 이미 확률이 50%가 넘고, 58명만 되어도 확률이 99%가 넘는다.
학교를 다닐 때 같은 반에 생일이 같은 사람이 존재하는 경우를 보고, 신기하다고 생각한 적이 있을 것이다.  
하지만 실제 학급이 20~40명 내외기 때문에, 이는 신기한 일이 아니라,  
**충분히 발생할 확률이 높은 일임을 알 수 있다.**