#### Lecture1. Pandas-2

Groupby
- split > apply > combine
- 한 개 이상의 column을 list로 묶을 수 있음
- hierarchial index : 계층 구조를 가진 index (unstack으로 matrix 형태로 전환 가능)
- reset_index() : 인덱스 초기화
- groupby 에 의해 split된 상태 추출 가능(generator)
- aggregation - group 별로 특정함수 적용 가능
- transform() : 개별 데이터의 변환 지원(key 값 기준으로 grouped된 데이터 기준)
- filter() : 특정 조건(boolean)으로 데이터 추출

Pivot table
- index 축은 groupby와 동일, column 에 추가로 labeling 값 추가
- crosstab : 두 칼럼의 교차 빈도, 비율 등을 구할때 사용

Merge
- 두 개의 데이터를 하나로 합침
- Join : Full / Inner / left / right (빈 공간은 NaN)

Concat
- 같은 형태의 데이터를 붙이는 연산 작업

Persistence
- Database connection, sql 사용 가능
- 엑셀로 저장 : xlswriter
- pickle로 저장

#### Lecture2. 확률론

딥러닝에서의 확률
- 기계학습에서 사용되는 손실함수(loss function)는 데이터 공간을 통계적으로 해석
    - 회귀 분석 : 손실함수 L<sub>2</sub>-노름은 예측오차의 분산을 최소화
    - 분류 문제 : 교차엔트로피(cross-entropy)는 모델 예측의 불확실성을 최소화
    - 분산이나 불확실성 계산은 통계학의 영역

확률 변수 - 확률 분포에 따라 분류(데이터 공간 X)
- 이산형(discrete)
    - 확률 변수가 가질수 있는 모든 경우의 수를 고려(확률 질량함수)
- 연속형(continuous)
    - 확률 밀도함수 상의 적분을 통해 모델링
    - 밀도는 누적확률분포의 변화율이며 확률과는 다른 개념
    
확률 분포
- 데이터 공간 $\mathcal{X} \times \mathcal{Y} $, 확률 분포 $ \mathcal{D}$
- 결합분포 $P(x,y)$ 가 $ \mathcal{D}$ 를 모델링
- 조건부 확률분포 $P(x|y)$ 가 입력 x과 출력 y 사이의 관계 모델링

조건부확률과 기계학습
- 로지스틱 회귀 : 데이터에 추출된 패턴 기반 확률 해석(선형모델 + 소프트맥스)
- 분류 문제 : $softmax(W\phi + b)$은 조건부확률 $P(y|x)$을 계산
- 회귀 문제의 경우 조건부 기대값을 추정
    - 기대값(expectation) : 데이터를 대표하는 통계량 (f(x) = x 이면 평균)
        - 연속확률분포 : 적분 사용 $\int_{\mathcal{X}}f(x)P(x)dx$
        - 이산확률분포 : 급수 사용 $\sum_{x\in\mathcal{X}}f(x)P(x)$

몬테카를로 샘플링
- 확률분포를 명시적으로 모를 때, 데이터를 이용하여 기대값 계산
- 분포가 독립추출만 보장된다면 대수의 법칙(law of large number)에 의해 수렴성 보장

In [3]:
import numpy as np

In [12]:
def mc_int(fun, low, high, sample_size=1000, repeat=10):
    int_len = np.abs(high-low)
    stat = []
    for _ in range(repeat):
        x = np.random.uniform(low=low, high=high, size=sample_size)
        fun_x = fun(x)
        int_val = int_len * np.mean(fun_x)
        stat.append(int_val)
    return np.mean(stat), np.std(stat)

def func(x):
    return np.exp(-x**2)

print(mc_int(func, low=-1, high=1, sample_size=10000, repeat=100))
    

[ 0.6647306  -0.76810086 -0.93274654  0.17073404 -0.61827395  0.42969455
 -0.71548954 -0.93642386  0.13946109  0.08911097]
********************
[-0.78727621 -0.24336912 -0.02076535 -0.47886374  0.34718351  0.44529782
 -0.64464844  0.3570624   0.15962573  0.45184075]
********************
[ 0.83642278 -0.69837805  0.31348331 -0.6407538   0.01945048 -0.10396855
 -0.45915437  0.3297001  -0.21821987  0.95427638]
********************
[ 0.49695528 -0.53650531  0.32267964 -0.94516923 -0.55720654  0.36909998
 -0.49101632  0.56742541  0.5295012   0.98593629]
********************
[-0.64123251 -0.49063981 -0.91992485  0.03678272 -0.85962562 -0.25749654
 -0.13456616  0.74313691 -0.33193802  0.9382012 ]
********************
[-0.47886438 -0.04867195  0.07171982 -0.61625417 -0.78333062 -0.35428454
  0.21197393 -0.83285223  0.00359146 -0.13817669]
********************
[-0.32897387 -0.81750682  0.77384281 -0.48658013 -0.27501799  0.84817059
 -0.30131254 -0.68399925 -0.87240649 -0.79594476]
*************

##### further question

In [9]:
cnt = 0
tot = 0
for _ in range(1,100000):
    x = random.random() * 2 - 1
    y = random.random() * 2 - 1
    tot += 1
    if pow(x, 2) + pow(y, 2) < 1:
        cnt += 1 

print(f'probability = {cnt / tot} \n pi = {4 * cnt / tot}')

probability = 0.7855678556785568 
 pi = 3.142271422714227


In [18]:
sample_size=10
x = np.random.uniform(low=0, high=1, size=sample_size)
y = np.random.uniform(low=0, high=1, size=sample_size)
dist = np.square(x) + np.square(y)
print(dist)
in_circle = dist[dist < 1]
in_circle

[0.83961105 0.84143842 0.35342062 0.82480102 0.78802538 0.360857
 1.11804613 0.32712056 0.40407225 0.37019197]


array([0.83961105, 0.84143842, 0.35342062, 0.82480102, 0.78802538,
       0.360857  , 0.32712056, 0.40407225, 0.37019197])

In [27]:
# np 확률 계산이용

import random

def calc_pi(sample_size=1000, repeat=100):
    stat = []
    for _ in range(repeat):
        x = np.random.uniform(low=0, high=1, size=sample_size)
        y = np.random.uniform(low=0, high=1, size=sample_size)
        dist = np.square(x) + np.square(y)
        in_circle = dist[dist < 1]
        pi_temp = 4* len(in_circle) / sample_size
        stat.append(pi_temp)
    return np.mean(stat), np.std(stat)

print(calc_pi(sample_size=10000, repeat=1000))
# sample size가 클수록 표준편차가 작아짐

(3.1418600000000003, 0.015497919860419982)
