## 통계학의 필요성

불확실한 상황에서 의사결정 -> 불확실성을 줄이기 위해 필요

## 대표값

In [1]:
import numpy

In [2]:
x = [100, 100, 200, 300, 300, 400, 500, 500, 600, 700, 800, 900]

In [3]:
numpy.mean(x)  # 평균

450.0

In [4]:
numpy.median(x)  # 중간값

450.0

In [5]:
!pip install scipy



You should consider upgrading via the 'python -m pip install --upgrade pip' command.


In [6]:
from scipy.stats import mode

In [7]:
mode(x)  # 최빈값

ModeResult(mode=array([100]), count=array([2]))

## 산포도

In [8]:
numpy.min(x)  # 최소

100

In [9]:
numpy.max(x)  # 최대

900

### 분산

* 변수의 흩어진 정도를 계산하는 지표
* 분산 = 편차^2 의 평균 (편차를 제곱하면 음수였던 일부 편차값들이 양수가 되어 모두 더해도 0 이 안됨 -> 이 원리를 이용하여 변수의 흩어진 정도를 계산)
* 혹은 분산 = (x^2의 평균) - (평균)^2
* 위의 예제 같은 경우 분산 = mean( (480-100)^2 + (480-100)^2 + (480-100)^2 + (480-120)^2 + ... + (480-800)^2 + (480-900)^2 )

In [10]:
numpy.var(x)  # 분산

64166.666666666664

### 편차

* 모든 편차의 합 = 0
* 편차 = 변량 - 평균

In [11]:
numpy.std(x)  # 표준편차 = sqrt(분산)

253.31140255951107

### 사분위수

* 데이터 구성을 전체적으로 살펴보고자 할 때 사용
* 자료를 크기순으로 배열 -> 4등분 -> 각 단면에 위치하는 값을 본다
* 단면에 위치하는 값이 없을경우 (전체 집단이 짝수인 경우) 양옆의 수의 평균을 사용
* 예) 1,2,2, 3,4,5, 6,7,8, 8,9,9 일 경우 1사반수위 = (2+3)/2


* 일분위수와 사분위수 사이에 50% 이상의 데이터가 들어감
* 매출의 경우 일분위수와 사분위수를 알면 50%이상의 소비자가 어느 만큼 돈을 사용하는지 알 수 있음

In [12]:
numpy.quantile(x, 0.25)

275.0

In [13]:
numpy.quantile(x, .5)

450.0

In [14]:
numpy.median(x)

450.0

In [15]:
numpy.quantile(x, .75)  # 3사분위수(75% 지점)

625.0

In [16]:
x = [0, 0, 0, 0, 0, 0, 0, 0, 0, 100]

## 이항분포 (Binomial Distribution)

두가지 경우 존재
* 한 경우의 확률 = p
* 다른 경우의 확률 = 1-p

n번했을때 몇 번 나오는가?

In [17]:
from numpy.random import binomial

In [18]:
# ex) 고객의 구매율이 30%일 때 100명의 고객이 방문. 몇 명이 구매? 30번 테스트한 결과
# binomial(100명의 고객이 방문, 구매율 30%, 30번테스트)
x = binomial(100, .3, 30)

In [19]:
min(x)

17

In [20]:
max(x)

41

In [21]:
x

array([32, 36, 25, 31, 36, 34, 34, 30, 34, 38, 34, 30, 30, 35, 29, 23, 19,
       30, 37, 17, 28, 34, 23, 28, 28, 39, 41, 31, 28, 29])

In [22]:
수익 = 0
준비 = 20
for 고객수 in x:
    if 고객수 <= 준비:
        수익 = 수익 + (준비 - 고객수) * -10000
        수익 = 수익 + 고객수 * 1000
    else:
        수익 = 수익 + 준비 * 1000
수익

556000

In [23]:
보험료 = 300
지급액 = 1000
고객 = 지급액 / 10
장사 = 100
사망자 = binomial(고객, .1, 장사)
매출 = 보험료 * 고객
지급 = 지급액 * 사망자
numpy.mean(매출 - 지급)

20090.0

In [24]:
binomial(100, .3)

30

## 기하분포 (Geometric Distribution)

* 성공률이 p 일때, 성공할때까지 시도를 해서 총 시도 횟수

In [25]:
이탈성공 = 0
기간 = 0
while 이탈성공 == 0:
    이탈성공 = binomial(1, .05)
    기간 = 기간 + 1
기간

73

In [26]:
from numpy.random import geometric

In [29]:
# geometric(확률 p, 원하는 성공 횟수)
기간 = geometric(.05, 100) # 이탈률 5%일 때 100명의 고객이 며칠 후 이탈하는지

## 음이항 분포 (Negative Bionomial)

* 기하분포의 일반화
* 성공률이 p일 때 n번 성공할 때까지 시도했을 때 총 시도 횟수

In [31]:
from numpy.random import negative_binomial

In [33]:
#negative_binomial(n번성공, 성공확률 p, 100번 테스트)
negative_binomial(1, .05, 100)

array([19, 17, 27, 29, 10, 58,  6, 23,  3, 20,  1,  5,  3,  6, 13, 39,  0,
        1,  7,  2, 34,  1,  7, 19,  4,  5,  2, 21, 42, 14,  6, 26, 11, 34,
       32, 29, 11, 43, 25, 12,  7,  2, 31, 34, 23,  2, 10, 52,  9,  9,  3,
       58,  0, 13,  7,  9,  1, 14,  2, 31, 31,  5,  9, 66,  8,  4, 21,  2,
        1,  6,  3, 11,  7, 37, 71,  8,  3, 20,  6,  8, 74,  3,  8,  0,  5,
       49, 13, 10, 52, 46,  7,  5,  9, 39,  7, 44,  0, 58, 13, 11])

In [34]:
numpy.sum(기간 * 0.5 - 10)

-71.5

In [35]:
numpy.sum(기간 * 1 - 100)

-8143

In [36]:
numpy.sum(기간 * 0.5 - 10 )

-71.5

In [37]:
폭발 = []
for i in range(100):
    짜증 = 0
    기간 = 0
    while 짜증 < 3:             # 3번째는 못 참는다
        사건 = binomial(1, .05) # 5%의 확률로 사건 발생
        if 사건 == 1:           # 사건이 나면
            짜증 = 짜증 + 1     # 짜증이 증가
        기간 = 기간 + 1   
    폭발.append(기간)

In [39]:
negative_binomial(3, .05)  # 5% 확률로 짜증이 나고 3번 나면 폭발
                           # 할 때까지 기간

14

In [40]:
negative_binomial(3, .05, 100)  # 100마리 리트리버

array([ 65,  58, 121,  24,  73,  28,  49,  43, 124,  14,  95,  48,  52,
        82,  24,  57,  20,  37,  57,  13,   9,  33,  56,  53,  75,  25,
        15, 121,  69,  57,  42,  80,  87,  73,  37,   9,  23,  60,  71,
        27,  13, 102,  20,  11, 103,  59,  84, 189,  35,  35,  40,  49,
        39,  32,  41,  51,  75,  36,  96, 112,  51,  33,  55, 127,  56,
        10,  83, 127,  69,  40,  19,  74,  26,  23,  64,  38, 149,  50,
        31,  18,  68,  45,  77,  98,  36,  46,  11,  77,  36,  81,  54,
        71,  43,  95,  68, 102,  38,  48,  61,  14])

## 실습

우리 리트리버는 10%의 확률로 짜증이 납니다. 이틀 연속으로 짜증이 나면 화를 냅니다. 리트리버가 화를 낼 때까지 기간을 시뮬레이션 해보세요.

In [70]:

짜증 = 0
기간 = 0

while 짜증 < 3:               # 삼일은 못 참는다
    사건 = binomial(1, 0.05)  # 5%의 확률로 사건 발생
    if 사건 == 1:             # 사건이 발생하면
        짜증 += 1             # 짜증 증가
    기간 += 1
기간

69

## 포아송 분포

* 어떤 시간 구간에서 특정 사건이 발생할 빈도에 관한것
* 평균적으로 L번 일어나는 일어나는 일이 X번 일어날 확률의 분포
* 이항 분포에서 n이 크고 p가 작으면 포아송 분포와 비슷해짐

In [43]:
from numpy.random import poisson

In [44]:
#binomial(100명의 고객, 30% 확률, 50번 테스트)
#여기서 100명 (n) 이 커지면 Poisson Distribution과 비슷해진다
binomial(100, .3, 50) # 100명의 고객이 30%로 방문할 때

array([38, 32, 28, 27, 31, 34, 31, 32, 30, 30, 28, 27, 34, 34, 26, 32, 22,
       30, 28, 26, 33, 32, 38, 36, 34, 34, 23, 25, 25, 28, 27, 34, 38, 32,
       37, 27, 30, 37, 25, 33, 30, 33, 25, 32, 33, 35, 26, 31, 30, 37])

In [45]:
#poisson(평균적으로 30번 발생하는일이, 50번 일어날 확률의 분포)
poisson(30, 50)  # 하루 평균 30명 방문할 때 50일간 방문인원 수 (시간은 고정되어 있음)

array([28, 28, 33, 30, 34, 29, 31, 29, 26, 34, 39, 28, 34, 36, 29, 41, 35,
       33, 24, 36, 17, 34, 26, 33, 27, 33, 31, 27, 25, 32, 22, 33, 35, 25,
       27, 31, 42, 34, 31, 32, 29, 31, 33, 29, 25, 31, 28, 28, 26, 42])

## 균등 분포

* 최소값에서 최대값까지 모든 사건의 확률이 균등

In [47]:
from numpy.random import uniform

In [48]:
uniform(10, 20)  # 최소값 10에서 최대값 20까지 사이에서 균등한 확률로 숫자를 하나 뽑느다

12.503595319848923

In [49]:
uniform(1, 10)  # 최소값 10에서 최대값 20까지 사이에서 균등하게 

5.696272241698017

In [50]:
uniform(0, 1)

0.5323935015676315

In [None]:
# 1 에서 10까지의 숫자 중에 정수를 하나 뽑는다
int(uniform(1, 10))

In [51]:
# 원점을 둘러싼 한 변이 2인 정사각형 (+-1, +-1)
# 원점을 둘러싼 대각선이 2인 마름모 (+-1, +-1)
# 정사각형 안의 점을 하나 뽑았을때 마름모 안에 들어갈 확률 (1/2)

x = uniform(-1, 1, 1000)
y = uniform(-1, 1, 1000)

In [52]:
# |x| + |y| < 1
numpy.mean(numpy.abs(x) + numpy.abs(y) < 1)

0.494

In [53]:
# 원점을 둘러싼 한 변이 2인 정사각형(+-1, +-1)
# 원점을 둘러싼 지름이 2(반지름이 1)인 원
# 정사각형 안의 점을 하나 뽑았을 때 마름모 안에 들어갈 확률(3.14 / 4)

x = uniform(-1, 1, 100000)
y = uniform(-1, 1, 100000)

In [54]:
numpy.mean(x ** 2 + y ** 2 < 1) * 4

3.14832

## 정규분포

* 평균 m, 분산 s**(제곱) 을 모수로 하는 연속 확률 분포
* 이항 분포에서 n이 커지면 정규 분포와 비슷해진다
* 종 모양처럼 생김
* 가장 솟아오른 부분이 평균
* 분산이 작아지면 좁아지고, 분산이 커지면 완만해짐

In [55]:
from numpy.random import normal

In [56]:
기간 = geometric(.05, 100)

In [57]:
하루매출 = normal(50, 20, 100)  # 고객 100명이 평균 50만원(표준편차 20만원)

In [58]:
기간 * 하루매출

array([ 324.05477538,  321.74743271,  829.60860878,  239.38317835,
       1306.29663417, 7090.4776635 , 1719.23614466, 1591.26451164,
        144.91781353, 1726.40985432,  617.8967318 ,  533.8068946 ,
        750.6034092 ,  279.99540198,  535.39225233,  102.06294152,
        656.2931418 ,  707.45492574, 2424.55316845,  491.25560263,
        219.35034944,  333.92805633, 1378.75345327, 1588.4760376 ,
        222.42085563,  163.02063915,  413.42016486,  128.58765553,
        114.45338464, 3052.84603223, 1698.96607563,  108.69583417,
        812.51225455, 2469.68420486,  102.65497416, 1196.35675382,
        396.64974297,  911.09276589, 2695.27368356, 4197.20449548,
       2161.4342597 , 3509.30950248, 1604.34532949,   43.38919563,
        299.59726952,  717.71402464,  687.6205877 ,  290.78178004,
       2651.05258311,  218.62766194,  367.76869732, 3310.7313314 ,
        576.22746329,   49.00814651, 1255.73754855,  582.2260952 ,
       1473.42219597, 1254.55818329, 1138.70579663, 1617.40822

## 두 개의 정규분포가 섞여 있을 때

In [59]:
유저집단 = binomial(1, .1, 100)  # 헤비유저 10%

In [60]:
총매출 = []
for 유저 in 유저집단:
    if 유저 == 0: # 라이트 유저
        매출 = normal(30, 10)
    else:  # 헤비 유저
        매출 = normal(100, 10)
    총매출.append(매출)

In [61]:
numpy.mean(normal(10, 2, 100))

9.873176863503112

In [62]:
총매출

[44.06662138228465,
 30.336204717688343,
 98.24674567498613,
 7.503653046582528,
 32.846933865909634,
 6.204378655716599,
 26.847929139176117,
 44.86605266383976,
 21.228319888132262,
 27.76985198840323,
 100.43000372499378,
 33.54768673032054,
 21.759595445787,
 32.10105874896994,
 34.97539436650618,
 21.122026120794658,
 21.36039295311523,
 18.388984026355033,
 25.915952204257636,
 39.807723193761376,
 30.98186658143544,
 34.0499232347393,
 43.73357226203474,
 36.57018008953184,
 37.54459415741724,
 31.577906392836383,
 22.996193901266018,
 33.87726092562654,
 33.865314342471414,
 38.2389940039579,
 46.84805811851734,
 21.183081437491705,
 14.171489844373816,
 13.574725802118802,
 18.42657879877178,
 25.38817602959507,
 18.5969875226356,
 28.871106654850763,
 19.73483932192281,
 18.16680563794293,
 101.02455119453094,
 34.06203813512064,
 36.317769663812896,
 14.800975860082143,
 24.098049445463424,
 34.525127136687345,
 28.844666408171655,
 28.145927806587054,
 93.20279420805429,
 1

## 다항분포

* 여러가지 경우가 존재
* 각각의 확률이 p(단, 합은 1)
* n번했을 때 각 경우가 몇 번 나오는가?
* 예) 명동의 한 식당에 100명이 방문한다. 한국,중국,일본 고객들이 각각 50%, 30%,20% 이 올 확률.

In [63]:
from numpy.random import multinomial

In [64]:
multinomial(10, [.5, .2, .2, .1])

array([5, 1, 2, 2])

In [65]:
multinomial(10, [.3, .7])

array([2, 8])

In [66]:
binomial(10, .3)

3

In [67]:
# 100명의 고객 중, 50% 한국인, 50% 중국인, 20%일본인
# 30일간의 결과는?
multinomial(100, [.5, .3, .2], 30) 

array([[49, 32, 19],
       [47, 31, 22],
       [47, 31, 22],
       [57, 30, 13],
       [50, 31, 19],
       [49, 33, 18],
       [54, 27, 19],
       [55, 31, 14],
       [56, 29, 15],
       [48, 32, 20],
       [53, 34, 13],
       [52, 24, 24],
       [54, 27, 19],
       [55, 32, 13],
       [53, 31, 16],
       [52, 26, 22],
       [44, 35, 21],
       [52, 23, 25],
       [58, 26, 16],
       [52, 24, 24],
       [57, 21, 22],
       [51, 28, 21],
       [48, 31, 21],
       [55, 28, 17],
       [45, 31, 24],
       [49, 32, 19],
       [42, 30, 28],
       [43, 33, 24],
       [55, 29, 16],
       [57, 26, 17]])

* 위의 예시에서 한국인이 나올 확률 = 50% -> 50보다 큰수/작은수 둘다 존재
* 더 큰 수가 나오면 그 다음날은 더 작은 수가 나온다
* 큰 수가 나오면 그 수보다 큰 수가 나오기 어렵기 때문에 그 수보다 작은 수가 나온다
* 결과적 = 오르락 내리락하는 패턴

## 지수분포

* 평균적으로 b시간마다 일어나는 일이 다음에 일어날 때까지 시간
* 시간당 평균L번 일어나는 사건이 포아송 분포는 B=1/L 시간마다 일어나는 지수분포
* 뭔가 도착하는 상황에서 쓰면 됨.( 다음 버스, 다음 지진, 다음 고객이 도착)

In [68]:
from numpy.random import exponential

In [72]:
# 리드 타임: 고객이 도착할 때부터 서비스까지 걸리는 시간
리드타임 = 10
# 평균 30분 후에 고객 도착
# 100 명의 고객
numpy.mean(exponential(30, 100) < 리드타임) # 리드타임 내 추가 고객 도착 비율

# 10명까지 대기할 수 있는 경우
# 리드타임을 얼마로 해야 최적화되는가

0.27

In [73]:
알바 = 10
리드타임 = 10 / 알바
numpy.mean(exponential(30, 1000) < 리드타임) # 리드타임 이내 도착 고객 비율

0.031