## 딥러닝에서 확률론이 필요한 이유?
- 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있음
- 기계학습에서 사용되는 손실함수들은 데이터 공간을 통계적으로 해석해서 유도
    - **회귀 분석**에서 손실함수로 사용되는 L2-노름은 **예측오차의 분산을 최소화**하는 방향으로 학습하도록 유도
    - **분류 문제**에서 사용되는 교차엔트로피는 **모델 예측의 불확실성을 최소화**하는 방향으로 학습하도록 유도

기호
- 데이터 공간: $XxY$
- 데이터 공간에서 데이터를 추출하는 분포: $D$
- 데이터: $(x,y)$ ~ $D$

## 이산확률변수 vs 연속확률변수
- 확률변수는 확률분포 $D$에 따라 이산형과 연속형으로 구분
- 이산형 확률변수는 확률변수가 가질 수 있는 모든 경우의 수를 고려하여 **확률을 더해서** 모델링
    - $P(X=x)$: 확률변수가 x값을 가질 확률
- 연속형 확률변수는 데이터 공간에 정의된 확률변수의 밀도 위에서 **적분을 통해** 모델링
    - $\int_A P(x)\,\mathrm{d}x$

- 결합분포 $P(x,y)$: 주어진 데이터에 따라 $D$를 모델링
- 주변확률분포 $P(x)$: y에 대한 정보는 주지 않음
- 조건부확률분포 $P(x|y)$: 입력 x와 출력 y 사이의 관계를 모델링

## 조건부확률과 기계학습
- 조건부확률 $P(y|x)$: 입력 x에 대해 정답이 y일 확률
- 분류 문제에서 softmax(Wϕ+b)는 x로부터 추출된 특징패턴 ϕ과 가중치행렬 W를 통해 조건부확률 $P(y|x)$ 계산
- 회귀 문제의 경우 조건부기대값 $E[y|x]$ 추정
- 다층신경망을 사용하여 특징페턴 ϕ 추출

## 기대값 E(X)
![image.png](attachment:image.png)
- 데이터를 대표하는 통계량 (평균)
- 통계적 범함수 계산 가능
- 기대값을 이용해 **분산, 첨도, 공분산** 등 통계량 계산 가능
    - 분산: $V(X)=E[X^2]-E[X]^2$

# 몬테카를로 샘플링
- 대부분의 기계학습 문제들은 확률분포를 명시적으로 모름
- **확률분포를 모를 때** 데이터를 이용하여 기대값을 계산하려면 **몬테카를로 샘플링 방법 사용**
- 독립 추출이 보장된다면 **대수의 법칙에 의해 수렴성을 보장**

![image.png](attachment:image.png)

- 예제: 함수 $f(x)=e^{-x^2}$의 [-1,1] 상에서의 적분값
    ![image.png](attachment:image.png)


In [4]:
#코드 풀이
import numpy as np

def mc_int(fun, low, high, sample_size=100, repeat=10):
    int_len = np.abs(high-low) # 적분 범위 
    stat = [] 
    for _ in range(repeat):
        # 균등분포로 sample_size만큼 [low, high] 구간의 x값을 추출한다.
        x = np.random.uniform(low=low, high=high, size=sample_size) 
        fun_x = fun(x)
        int_val = int_len * np.mean(fun_x)
        stat.append(int_val)

    # 구해진 통계량(넓이)를 평균내주면 실제 값과 거의 근사한다.
    return np.mean(stat), np.std(stat) # 적분값과 오차


def f_x(x): #들어갈 함수식
    return np.exp(-x**2)

#[-1,1] 구간의 적분값
print(mc_int(f_x, -1, 1, 10000, 100))

(1.493708832976965, 0.003877116400880967)


## Further Question
Q. 몬테카를로 방법을 활용하여 원주율에 대한 근삿값을 어떻게 구할 수 있을까요?
> 정사각형에 한변의 길이가 지름이 되도록 원을 넣고 샘플링해서 뽑히는 비율을 통해서 구해볼 수 있다.

- 우선 원을 1/4 등분하기
![image.png](attachment:image.png)

In [19]:
import random
n=1000000
count=0 #점의 개수
circle=0
while True:
    for i in range(n):
        x=random.random() # 0~1 사이의 float 값
        y=random.random()
        count+=1
        if x**2+y**2<1: # 단위원 안에 있으면
            circle+=1
    print(f"점의 개수:{count}, 원주율의 근사값:{(circle/count)*4}") #1/4 등분한 원주 다시 되돌리기

점의 개수:1000000, 원주율의 근사값:3.141752
점의 개수:2000000, 원주율의 근사값:3.142736
점의 개수:3000000, 원주율의 근사값:3.1420613333333334
점의 개수:4000000, 원주율의 근사값:3.141855
점의 개수:5000000, 원주율의 근사값:3.1415624
점의 개수:6000000, 원주율의 근사값:3.1414853333333332
점의 개수:7000000, 원주율의 근사값:3.141705714285714
점의 개수:8000000, 원주율의 근사값:3.141642
점의 개수:9000000, 원주율의 근사값:3.141725777777778
점의 개수:10000000, 원주율의 근사값:3.1420892
점의 개수:11000000, 원주율의 근사값:3.141981090909091
점의 개수:12000000, 원주율의 근사값:3.141876
점의 개수:13000000, 원주율의 근사값:3.1416984615384616
점의 개수:14000000, 원주율의 근사값:3.141712857142857
점의 개수:15000000, 원주율의 근사값:3.1418570666666668
점의 개수:16000000, 원주율의 근사값:3.14193975
점의 개수:17000000, 원주율의 근사값:3.141899294117647
점의 개수:18000000, 원주율의 근사값:3.1419882222222224
점의 개수:19000000, 원주율의 근사값:3.142116842105263
점의 개수:20000000, 원주율의 근사값:3.1420926
점의 개수:21000000, 원주율의 근사값:3.1421834285714287
점의 개수:22000000, 원주율의 근사값:3.1422981818181817
점의 개수:23000000, 원주율의 근사값:3.1422937391304346
점의 개수:24000000, 원주율의 근사값:3.1424773333333333
점의 개수:25000000, 원주율의 근사값:3.14257248
점의 개수:26

점의 개수:193000000, 원주율의 근사값:3.141732994818653
점의 개수:194000000, 원주율의 근사값:3.141735525773196
점의 개수:195000000, 원주율의 근사값:3.141727835897436
점의 개수:196000000, 원주율의 근사값:3.1417188979591835
점의 개수:197000000, 원주율의 근사값:3.1417158172588833
점의 개수:198000000, 원주율의 근사값:3.141719292929293
점의 개수:199000000, 원주율의 근사값:3.1417053467336684
점의 개수:200000000, 원주율의 근사값:3.14170992
점의 개수:201000000, 원주율의 근사값:3.1417197611940297
점의 개수:202000000, 원주율의 근사값:3.141714316831683
점의 개수:203000000, 원주율의 근사값:3.1417166502463054
점의 개수:204000000, 원주율의 근사값:3.141722862745098
점의 개수:205000000, 원주율의 근사값:3.1417168
점의 개수:206000000, 원주율의 근사값:3.141706932038835
점의 개수:207000000, 원주율의 근사값:3.1417132946859905
점의 개수:208000000, 원주율의 근사값:3.1417247884615382
점의 개수:209000000, 원주율의 근사값:3.141713052631579
점의 개수:210000000, 원주율의 근사값:3.141714266666667
점의 개수:211000000, 원주율의 근사값:3.141731829383886
점의 개수:212000000, 원주율의 근사값:3.141738603773585
점의 개수:213000000, 원주율의 근사값:3.1417450516431926
점의 개수:214000000, 원주율의 근사값:3.1417427289719626
점의 개수:215000000, 원주율의 근사값:3.1417223627

점의 개수:379000000, 원주율의 근사값:3.1418340897097625
점의 개수:380000000, 원주율의 근사값:3.1418302210526314
점의 개수:381000000, 원주율의 근사값:3.141830792650919
점의 개수:382000000, 원주율의 근사값:3.1418273717277487
점의 개수:383000000, 원주율의 근사값:3.1418298067885115
점의 개수:384000000, 원주율의 근사값:3.14183203125
점의 개수:385000000, 원주율의 근사값:3.1418329246753247
점의 개수:386000000, 원주율의 근사값:3.1418275336787564
점의 개수:387000000, 원주율의 근사값:3.141825354005168
점의 개수:388000000, 원주율의 근사값:3.141828443298969
점의 개수:389000000, 원주율의 근사값:3.1418251311053984
점의 개수:390000000, 원주율의 근사값:3.1418240923076923
점의 개수:391000000, 원주율의 근사값:3.141822547314578
점의 개수:392000000, 원주율의 근사값:3.141820214285714
점의 개수:393000000, 원주율의 근사값:3.1418209262086516
점의 개수:394000000, 원주율의 근사값:3.1418116751269034
점의 개수:395000000, 원주율의 근사값:3.1418055797468356
점의 개수:396000000, 원주율의 근사값:3.1418117171717173
점의 개수:397000000, 원주율의 근사값:3.1418219647355166
점의 개수:398000000, 원주율의 근사값:3.141821376884422
점의 개수:399000000, 원주율의 근사값:3.1418156390977443
점의 개수:400000000, 원주율의 근사값:3.14181208
점의 개수:401000000, 원주율의 근사값:3.1

점의 개수:565000000, 원주율의 근사값:3.1417209061946902
점의 개수:566000000, 원주율의 근사값:3.141728070671378
점의 개수:567000000, 원주율의 근사값:3.1417285291005292
점의 개수:568000000, 원주율의 근사값:3.141724753521127
점의 개수:569000000, 원주율의 근사값:3.1417288646748682
점의 개수:570000000, 원주율의 근사값:3.1417275157894737
점의 개수:571000000, 원주율의 근사값:3.1417263467600702
점의 개수:572000000, 원주율의 근사값:3.141725643356643
점의 개수:573000000, 원주율의 근사값:3.1417279162303666
점의 개수:574000000, 원주율의 근사값:3.1417292473867597
점의 개수:575000000, 원주율의 근사값:3.141731193043478
점의 개수:576000000, 원주율의 근사값:3.141727798611111
점의 개수:577000000, 원주율의 근사값:3.1417330537261696
점의 개수:578000000, 원주율의 근사값:3.141725813148789
점의 개수:579000000, 원주율의 근사값:3.141728877374784
점의 개수:580000000, 원주율의 근사값:3.1417275655172414
점의 개수:581000000, 원주율의 근사값:3.1417267538726334
점의 개수:582000000, 원주율의 근사값:3.141732144329897
점의 개수:583000000, 원주율의 근사값:3.141730867924528
점의 개수:584000000, 원주율의 근사값:3.1417325205479454
점의 개수:585000000, 원주율의 근사값:3.1417262700854702
점의 개수:586000000, 원주율의 근사값:3.1417310784982937
점의 개수:587000000, 원주

KeyboardInterrupt: 