# 이항분포
- A 를 할 때 B 일 확률이 **p** 이면 
- A 를 **N** 번 했을 때 B 가 X 번 발생할 확률 분포

$p$, $N$ 은 parameter: $p$, $N$ 값이 바뀌면 이항분포 모양이 달라진다

예시 만들어 보기
- $A$: 정수기에 뜨러 갈 때 
- $B$: 얼음이 나올 확률 
- $P$: $50$%
- $N$: 정수기 $3$대
- $X$: $1$

In [2]:
from numpy.random import binomial

In [5]:
data = binomial(100, 0.3, 50) # N=100, p=0.3 에서 50번 데이터 추출
data

array([31, 38, 25, 31, 32, 34, 27, 20, 34, 33, 31, 31, 39, 30, 33, 31, 36,
       35, 28, 27, 33, 20, 34, 27, 32, 33, 29, 30, 24, 31, 32, 41, 33, 30,
       29, 25, 36, 33, 30, 22, 25, 26, 28, 24, 32, 29, 39, 28, 32, 25])

In [6]:
data = binomial(3, 0.5, 50)
data

array([2, 1, 1, 1, 2, 0, 1, 2, 1, 2, 0, 1, 2, 1, 1, 2, 0, 3, 2, 1, 1, 2,
       2, 1, 2, 2, 1, 1, 2, 2, 3, 1, 1, 1, 2, 1, 1, 0, 2, 2, 2, 3, 2, 2,
       2, 2, 3, 1, 1, 1])

In [7]:
from numpy.random import normal

In [27]:
data = normal(50, 15, 100) # 평균 50, 표준편차 15, 인 데이터 100 건 
data

array([61.36242722, 63.18398537, 49.37337872, 22.14143648, 56.28309164,
       66.42141235, 74.61325537, 55.6431654 , 41.23396382, 22.97169704,
       41.41949409, 55.50445059, 61.59998405, 53.39118486, 41.2647504 ,
       50.01269599, 63.18054732, 47.49920498, 58.31093367, 66.43322271,
       34.51972516, 55.23131196, 50.03509012, 65.73772852, 24.95316996,
       35.1477396 , 29.33336596, 46.61480466, 43.42790301, 53.06775778,
       38.22697971, 54.42653352, 44.34659678, 40.966789  , 56.58455467,
       56.91619767, 53.01755798, 53.57188988, 70.63993597, 33.94421713,
       51.36455995, 51.88402721, 28.87630448, 66.35057552, 26.37597824,
       44.17779925, 33.65507076, 40.90228384, 43.10551992, 32.56362691,
       73.67867389, 23.52542036, 64.49709594, 54.33400987, 54.30456083,
       35.24562604, 58.24090598, 57.46559965, 51.00486068, 66.83690285,
       44.41974077, 22.30937428, 59.65912865, 63.19603992, 43.76911094,
       48.9799357 , 38.69906026, 52.12294373, 52.19170437, 57.80

# 최적화를 이용한 파라미터 추정
### 최적화
- 제약조건 아래서 목표함수를 최대화(최소화)하는 것
- $L = J(p)$ 일 때 $L$ 이 최대/최소가 되는 $p$ 값을 찾는 것

### 파라미터 추정
- 분포/모형의 파라미터를 추정하는 것
- 오차가 가장 작아지는 파라미터를 찾는 것

## Mean Square Error 평균 오차 제곱
1. 가장 많이 쓰인다
2. 연속변수를 예측할 때 사용 (이항분포에는 안 쓴다)
3. 오차 = 예측과 실제의 차이
4. 평균 오차 제곱이 최소화되도록 파라미터를 추정
5. 모든 예측을 평균으로 하면 MSE 는 분산과 같아짐
    - 분산이 크다: 전체를 평균값으로 예측한 경우 오차가 크다
    - 분산이 작다: 전체를 평균값으로 예측한 경우 오차가 작다

In [29]:
예측 = 50
(data - 예측) ** 2

array([1.29104752e+02, 1.73817470e+02, 3.92654230e-01, 7.76099562e+02,
       3.94772406e+01, 2.69662784e+02, 6.05812340e+02, 3.18453158e+01,
       7.68433903e+01, 7.30529161e+02, 7.36250816e+01, 3.02989763e+01,
       1.34559630e+02, 1.15001348e+01, 7.63045855e+01, 1.61188225e-04,
       1.73726828e+02, 6.25397574e+00, 6.90716185e+01, 2.70050809e+02,
       2.39638909e+02, 2.73666249e+01, 1.23131657e-03, 2.47676099e+02,
       6.27343695e+02, 2.20589639e+02, 4.27109762e+02, 1.14595475e+01,
       4.31924589e+01, 9.41113777e+00, 1.38604007e+02, 1.95941990e+01,
       3.19609680e+01, 8.15989010e+01, 4.33563602e+01, 4.78337902e+01,
       9.10565619e+00, 1.27583973e+01, 4.26006957e+02, 2.57788164e+02,
       1.86202387e+00, 3.54955853e+00, 4.46210512e+02, 2.67341320e+02,
       5.58094404e+02, 3.38980216e+01, 2.67156712e+02, 8.27684393e+01,
       4.75338556e+01, 3.04027106e+02, 5.60679597e+02, 7.00903367e+02,
       2.10165791e+02, 1.87836415e+01, 1.85292439e+01, 2.17691551e+02,
      

In [30]:
import numpy as np

In [31]:
np.mean(data)

50.85075192857462

In [33]:
# MSE
# 예측에 평균값을 넣으면 가장 MSE 가 작아짐
np.mean((data - 예측) ** 2) 

239.93023615026362

정규분포에서 나온 데이터가 있을 때 모분포의 평균을 추정하는 방법
- MSE 가 가장 작아지는 예측값을 모분포의 평균으로 추정
- 수학적인 이유로 데이터의 평균으로 예측했을 때 MSE 가 가장 작음
- 따라서 데이터의 평균이 모분포의 평균에 대한 가장 좋은 추정치가 된다

In [34]:
from scipy.optimize import minimize

In [43]:
def mse(m):
    return np.mean((data - m) ** 2) 

In [44]:
# 추정한 최적값
# minimize(함수, 초기값)

minimize(mse, 100)

      fun: 239.20645730629064
 hess_inv: array([[0.49999997]])
      jac: array([1.90734863e-06])
  message: 'Optimization terminated successfully.'
     nfev: 18
      nit: 4
     njev: 6
   status: 0
  success: True
        x: array([50.85075257])

In [45]:
# 수학적인 최적값
np.mean(data)

50.85075192857462

In [46]:
# Mean Absolute Error

def mae(m):
    return np.mean(abs(data - m)) 

In [47]:
# MAE 는 추정값이 여러개가 될 수 있다. 그래서 MSE 를 더 많이 쓴다

minimize(mae, 100)

      fun: 12.311618752646812
 hess_inv: array([[1]])
      jac: array([0.])
  message: 'Optimization terminated successfully.'
     nfev: 18
      nit: 1
     njev: 6
   status: 0
  success: True
        x: array([52.36613308])

### 예시 1) 연기력에 따른 흥행 예측

In [59]:
연기력 = np.array([4, 4, 3, 5, 2])
연기력

array([4, 4, 3, 5, 2])

In [60]:
흥행 = np.array([5, 4, 3, 5, 1])
흥행

array([5, 4, 3, 5, 1])

In [55]:
def mse(parameter):
    a, b = parameter
    예측 = 연기력 * a + b
    return np.mean((흥행 - 예측) ** 2)

In [58]:
mse((1, 2))

4.4

In [57]:
minimize(mse, (1, 1))

      fun: 0.24615384615385136
 hess_inv: array([[ 0.48076923, -1.73076923],
       [-1.73076923,  6.73076922]])
      jac: array([2.42143869e-08, 5.58793545e-09])
  message: 'Optimization terminated successfully.'
     nfev: 24
      nit: 4
     njev: 6
   status: 0
  success: True
        x: array([ 1.38461531, -1.38461513])

### 실습 1) 배달식당의 *배달 속도* 와 *맛*에 따른 *별점* 예측

In [61]:
배달속도 = np.array([1, 2, 3, 4, 5])
배달속도

array([1, 2, 3, 4, 5])

In [62]:
맛 = np.array([5, 2, 5, 2, 3])
맛

array([5, 2, 5, 2, 3])

In [66]:
별점 = np.array([4, 1, 5, 2, 3])

In [67]:
def mse(parameter):
    a, b, c = parameter
    예측 = 배달속도 * a + 맛 * b + c
    return np.mean((별점 - 예측) ** 2)

In [68]:
mse((1, 2, 3))

97.4

In [69]:
minimize(mse, (1, 1, 1))

      fun: 0.03368421052644242
 hess_inv: array([[ 0.3026166 ,  0.13153162, -1.3547209 ],
       [ 0.13153162,  0.32879893, -1.51145908],
       [-1.3547209 , -1.51145908,  9.69108682]])
      jac: array([-2.08336860e-06, -2.18860805e-06, -6.89178705e-07])
  message: 'Optimization terminated successfully.'
     nfev: 60
      nit: 10
     njev: 12
   status: 0
  success: True
        x: array([ 0.35263154,  1.13157893, -1.90526333])

# 선형모형 = 직선의 방정식
- 통계의 기본이다
- 최신기법 쓰기 전에 먼저 선형모형을 써본다
- 단순한 예측이 틀릴 가능성도 적다

### 실습 2) *상대방에 대한 내 감정* 과 *나에 대한 상대방의 감정* 에 따른 *연애 결과* 예측

In [77]:
나 = np.array([3, 5, 3, 5, 5, 2, 5, 4, 0, 5])
남 = np.array([3, 2, 5, 5, 5, 5, 5, 4, 5, 0])
연애 = np.array([0, 1, 4, 3, 0, 0, 5, 3, 0, 0])

In [78]:
def mse(parameter):
    a, b, c = parameter
    예측 = 나 * a + 남 * b + c
    return np.mean((연애 - 예측) ** 2)

In [79]:
mse((1,1,1))

51.6

In [80]:
minimize(mse, (1, 1, 1))

      fun: 2.1063515269658453
 hess_inv: array([[ 0.21797788,  0.07582966, -1.1045874 ],
       [ 0.07582966,  0.21175757, -1.10487134],
       [-1.1045874 , -1.10487134,  8.88715384]])
      jac: array([-4.02331352e-06, -3.12924385e-06, -9.83476639e-07])
  message: 'Optimization terminated successfully.'
     nfev: 65
      nit: 11
     njev: 13
   status: 0
  success: True
        x: array([ 0.60347618,  0.63986359, -3.12833035])

# 우도 Likelihood 
- 그럴듯함
> 확률은 굉장히 포괄적인 개념
>
> 우도는 특정한 경우, 확률 중에서도 특정 데이터가 관찰될 확률
- 모형과 파라미터를 가정했을 때 현재 데이터 $D$ 가 관찰될 확률
- 최대우도법 Maximum Likelihood: 우도를 최대로 하는 파라미터를 찾는 방법

### 베이지안 정리를 적용하면
$P(M|D)=P(D|M)P(M)  /  P(D)$

P(D) 우도
P(M) 사후확률: 사후확률은 대부분 구할 수 없다

# (교양) 빈도주의(객관주의) vs 베이지안
- 빈도주의: 객관적으로 관찰할 수 있는 것만 확률이라고 한다
> Fisher

- 베이지안 통계학: 주관주의, 확률 = 믿음의 정도
> 직관과 훨씬 잘 맞는다
> 
> 논리는 빈도주의보다 훨씬 정교하다
> 
> 계산하기 어려워서 분석할 때는 잘 쓰지 않는다
>
> e.g. LDA Latent Dirichlet Allocation 주제분석: 텍스트분석할 때 쓰는 모델
>
> e.g. Casual Impact: 시계열분석에서 쓰는 모델

In [84]:
# numpy 기본
# scipy 과학, 함수 계산에 필요한 함수가 더 있다

from scipy.stats import binom

In [85]:
# binom.pmf(array, N, p)
# 앞면이 나올 확률이 50% 인 동전 2개를 던졌을 때 앞면이 0 개 나올 확률 
binom.pmf(0, 2, .5)

0.25

In [87]:
binom.pmf([0, 1, 2], 2, .5)

array([0.25, 0.5 , 0.25])

In [86]:
help(binom.pmf)

Help on method pmf in module scipy.stats._distn_infrastructure:

pmf(k, *args, **kwds) method of scipy.stats._discrete_distns.binom_gen instance
    Probability mass function at k of the given RV.
    
    Parameters
    ----------
    k : array_like
        Quantiles.
    arg1, arg2, arg3,... : array_like
        The shape parameter(s) for the distribution (see docstring of the
        instance object for more information)
    loc : array_like, optional
        Location parameter (default=0).
    
    Returns
    -------
    pmf : array_like
        Probability mass function evaluated at k



In [92]:
data = binomial(2, .2, 100)

In [94]:
p = .5
binom.pmf(data, 2, p) # 0의 우도

array([0.25, 0.5 , 0.25, 0.25, 0.5 , 0.5 , 0.5 , 0.5 , 0.5 , 0.5 , 0.25,
       0.25, 0.25, 0.25, 0.25, 0.25, 0.25, 0.25, 0.25, 0.25, 0.25, 0.25,
       0.25, 0.5 , 0.5 , 0.25, 0.5 , 0.5 , 0.5 , 0.25, 0.5 , 0.25, 0.25,
       0.5 , 0.25, 0.5 , 0.25, 0.5 , 0.5 , 0.25, 0.25, 0.25, 0.25, 0.25,
       0.25, 0.5 , 0.5 , 0.5 , 0.25, 0.25, 0.5 , 0.25, 0.5 , 0.25, 0.25,
       0.25, 0.25, 0.25, 0.25, 0.25, 0.5 , 0.25, 0.25, 0.25, 0.5 , 0.25,
       0.25, 0.25, 0.5 , 0.25, 0.5 , 0.25, 0.5 , 0.25, 0.25, 0.25, 0.25,
       0.25, 0.25, 0.5 , 0.25, 0.25, 0.25, 0.25, 0.5 , 0.5 , 0.25, 0.5 ,
       0.25, 0.25, 0.25, 0.25, 0.25, 0.25, 0.5 , 0.25, 0.5 , 0.5 , 0.25,
       0.5 ])

### 로그 우도 Log Likelihood
- 많은 우도Likelihood를 곱할 경우 뒷자리가 떨어져나가서 정확하지 않음
- 로그 우도Lof Likelihood를 쓰면 계산이 더 정확하고 간편하다
- $log(a) + log(b)$

In [101]:
from numpy import log

In [98]:
# 우도의 로그의 합 = 우도의 곱의 로그

likelihood = binom.pmf(data, 2, p)
np.sum(np.log(likelihood))

-114.36928479239099

In [102]:
def lk(p):
    likelihood = binom.pmf(data, 2, p)
    return -np.sum(np.log(likelihood))

In [107]:
minimize(lk, .5, bounds=[(0.01, 0.99)])
# minimize(lk, [.5, .4], bounds=[(0.01, 0.99), (0.01, 0.99)]) # 변수가 2 개면 범위도 2 개

      fun: 77.1910991021158
 hess_inv: <1x1 LbfgsInvHessProduct with dtype=float64>
      jac: array([7.10542736e-06])
  message: b'CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL'
     nfev: 16
      nit: 6
   status: 0
  success: True
        x: array([0.205])

- python 에는 maximize 함수가 없어서
- minimize 함수를 이용해서 구한다
- log likelihood 의 최소값을 구하면 최대값을 알 수 있다

# 로지스틱 선형모형 Logistic Linear
- 결과가 0 ~ 1 사이로 나온다
- 연속분포 -> 이항분포(0/1)

### 예시 1) 

In [110]:
찌개 = np.array([5, 1, 3, 4, 5, 3]) # 김치찌개 5 4 3 2 1 된장찌개
커피 = np.array([0, 1, 0, 1, 1, 1]) # 아메리카노: 1, 라떼: 0

In [111]:
from scipy.special import expit # Logistic

In [121]:
a = .3
b = .2

In [122]:
예측 = expit(찌개 * a + b)
예측

array([0.84553473, 0.62245933, 0.75026011, 0.80218389, 0.84553473,
       0.75026011])

In [None]:
# 커피 예측 결과에 대한 우도
# 아메리카노(1) 인 경우 예측값 그대로
# 라떼(0) 인 경우 (1 - 예측값)

[0.16, 0.62, 0.25, 0.80, 0.84, 0.75]

### 예시 2) 합격

In [123]:
실력 = np.array([5, 1, 3, 4, 5, 3]) 
합격 = np.array([0, 1, 0, 1, 1, 1])

In [125]:
예측 = expit(실력 * a + b)
예측

array([0.84553473, 0.62245933, 0.75026011, 0.80218389, 0.84553473,
       0.75026011])

In [132]:
# 탈락한 사람의 우도만 보기
합격자우도 = np.log(예측) * 합격
합격자우도

array([-0.        , -0.47407698, -0.        , -0.22041741, -0.16778603,
       -0.28733533])

In [133]:
# 탈락한 사람의 우도만 보기
탈락자우도 = np.log(1 - 예측)*(1 - 합격)
탈락자우도

array([-1.86778603, -0.        , -1.38733533, -0.        , -0.        ,
       -0.        ])

In [135]:
우도 = 합격자우도 + 탈락자우도
우도

array([-1.86778603, -0.47407698, -1.38733533, -0.22041741, -0.16778603,
       -0.28733533])

In [136]:
-np.sum(우도)

4.404737103101951

In [137]:
# 함수로 나타내기

def lk(parameter):
    a, b = parameter
    예측 = expit(a * 실력 + b)
    
    합격자우도 = np.log(예측) * 합격         # if 문 써서 구해도 된다
    탈락자우도 = np.log(1 - 예측)*(1 - 합격) # 수학적인 트릭
    
    우도 = 합격자우도 + 탈락자우도
    return -np.sum(우도) 

# 전체 우도Likelihood 가 가장 커지도록 minimize 함수를 통해 parameter 를 구한다
# Likelihood sum 앞에 - 를 붙였기 때문에 min 값을 구하면 자동적으로 max 값이 된다

In [138]:
minimize(lk, (1, 1))

      fun: 3.6099978479576826
 hess_inv: array([[ 0.52977702, -2.00372398],
       [-2.00372398,  8.40401942]])
      jac: array([1.96695328e-06, 3.27825546e-07])
  message: 'Optimization terminated successfully.'
     nfev: 40
      nit: 8
     njev: 10
   status: 0
  success: True
        x: array([-0.44005601,  2.2991816 ])

### 예시 3) 연애

In [None]:
예측 = expit(나 * a + 남 * b + c)
예측

# 요약
### 선형모형 ($y$ 연속) 
- MSE 가 가장 작은 값이 되도록 하는 $a, b$ 값 찾기
- $y = ax + b$

### 로지스틱 선형모형 ( $0 < y < 1$) 
- Maximum Likelihood 우도가 최대가 되도록 하는 $a, b$ 값 찾기
- $y = expit(ax + b)$

### 예시 4) 소득과 연령에 따른 구매확률

In [139]:
연령 = 17
소득 = 100
expit(0.01 * 연령 + 0.02 * 소득 - 2)

0.542397940774351

In [140]:
a = .3
b = .2

1. https://archive.ics.uci.edu/ml/index.php
2. View all Data set
3. Automobile
4. Data folder
5. 