# 확률과 통계

## #01. 사건과 확률

### 1. 확률의 이해

- 특정 사건이 일어날 가능성의 척도
- 모든 사건의 확률값은 0과 1사이
- 표본공간 S에 부분집합인 각 사상에 대해 실수값을 가지는 함수의 확률값이 0과 1사이에 있고，전체 확률의 합이 1인 것을 의미
- 표본공간 Q 의 부분집합인 사건 E의 확률은 표본공간의 원소의 개수에 대한 사건 표의 개수의 비율로 확률을 P(E)라고 할 때

![res/img1.png](res/img1.png)

### 2. 확률의 용어

#### 실험 또는 시행

 여러 가능한 결과 중 하나가 일어나도록 하는 행위

#### 표본공간

- 통계적 실험을 실시할 때 타나날 수 있는 모든 결과들의 집합
- 표본공간에서 임의의 사건 $A$가 일어날 확률 $P(A)$는 항상 0과 1 사이에 있다.

#### 사건

- 표본공간의 부분집합
- 서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합
- **두 사건 A, B가 독립이라면 사건 B의 확률은 A가 일어난다는 가정하에서의 B의 조건부 확률과 동일.**

#### 원소

- 나타날 수 있는 개별의 결과들

#### 수학적 확률

$\frac{일어날\,수\,있는\,모든\,경우의\,수}{사건\,A가\,일어나는\,경우의\,수}$

#### 통계적 확률

- 한 사건 $A$가 일어날 확률을 $P(A)$라 할 때 $n$번의 반복시행에서 사건 $A$가 일어날 횟수를 $r$이라고 하면, 상대도수 $\frac{n}{r}$은 $n$이 커점에 따라 확률 $P(A)$에 가까워짐을 알 수 있다. 이러한 $P(A)$를 통계적 확률이라 한다.

#### 조건부 확률

- 사건 $A$가 일어났다는 가정하의 사건 $B$의 확률
- $P(B|A) = \frac{P(A \cap B)}{P(A)}$

### 3. 경우의 수

사건의 기본적인 연산

- A의 여사건: 사건 A에 포함되지 않는 집합
- A와 B의 합사건 : A or B
- A와 B의 곱사건 : A and B
- 배반사건 : 동시에 일어날 수 없는 두 사건, A and B = 0인 두 사건

#### 경우의 수의 계산
 
##### 합의 법칙

두 사건 A와 B가 일어나는 경우의 수가 각각 m과 n

- 두 사건이 동시에 일어나지 않음 
- 사건 A 또는 사건 B가 일어나는 경우의 수는 m+n

##### 곱의 법칙

이 때 경우의 수는 m x n

##### 팩토리얼(!)

1부터 어떤 양의 정수 n까지의 정수를 모두 곱한 것, n! = nx(n-1)!

> 예) 4명의 학생을 순서대로 세우는 경우의 수는 4!

In [3]:
def facto(n):
    if n == 0:
        return 1
    else:
        return n * facto(n-1)
    
"4명의 학생을 순서대로 세우는 경우의 수는 %d가지 입니다." % facto(4)

'4명의 학생을 순서대로 세우는 경우의 수는 24가지 입니다.'

## #02. 확률변수

- 특정값이 나타날 가능성이 확률적으로 주어지는 변수
- 정의역 (domain)이 표본공간, 치역(range)이 실수값 (0 < y < 1)인 함수

### 이산형 확률변수

- 이항분포, 기하분포, 다항분포, 베르누이 확률분포, 포아송분포가 있다.
- 0이 아닌 확률값을 갖는 확률 변수를 셀 수 있는 경우 (확률질량함수)

![res/img2.png](res/img2.png)

| 종류 | 설명 |
|--|--|
| 베르누이 확률분포 | 결과가 2 개만 나오는 경우 (예시 : 동전 던지기, 시험의 합격/불합격 등) |
| 이항분포 | 베르누이 시행을 n 번 반복했을 때 k 번 성공할 확률 |
| 기하분포 | 성공확률이 p 인 베르누이 시행에서 첫번째 성공이 있기까지 n번 실패할 확률 |
| 다항분포 | 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포 |
| 포아송분포 | 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포<br/>- 책에 오타가 5page 당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률<br/>- 메이저리거인 추신수 선수가 최근 5경기에서 10개의 홈런을 때렸다고 할 때 , 오늘 경기 에서 홈런을 못 칠 확률 |

![res/img3.png](res/img3.png)


### 연속형 확률변수

- **균일분포, 정규분포, 지수분포, t-분포가 있다.**
- 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수 (확률밀도함수)

![res/img4.png](res/img4.png)

- 균일분포
    - 모든 확률변수 X 가 균일한 확률을 가지는 확률분포
    - 다트의 확률분포
- 정규분포

![res/img5.png](res/img5.png)

    - 표준편차가 클 경우 퍼져보이는 그래프가 나타난다 .
- 지수분포
    - 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
    - 전자레인지의 수명시간 , 콜센터에 전화가 걸려올 때까지의 시간 , 은행에 고객이 내방 하는데 걸리는 시간 , 정류소에서 버스가 올 때까지의 시간
- t-분포
    - 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다 .
    - 표본의 크기가 적을때는 표준 정규분포를 위에서 눌러 높은 것과 같은 형태를 보이지만 표본이 커져서 (30개 이상) 자유도가 증가하면 표준정규분포와 거의 같은 분포가 된다.
    - 데이터가 연속형일 경우 활용한다 .
    - 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용