# 009. Probability Distribution 

### Random Variable (확률변수)
- 무작위로 다른 값을 가질 수 있는 변수.
- $x_1$, $x_2$ $\cdot \cdot$ 는 변수 x가 될 수 있는 가능한 값입니다.
- 확률 분포는 각 값이 발생할 가능성을 지정합니다.

### Probability Mass Functions (확률질량함수)
- 이산 확률 변수에 대한 확률 분포를 확률 질량 함수(PMF)라고 합니다.
- 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 함수입니다. 이 함수는 연속 확률 변수에서의 확률 밀도 함수와 대응됩니다.

### Probability Density Function (확률밀도함수)
- 연속형 변수에 대한 확률 분포를 확률 밀도 함수(PDF)라고 합니다.

## 정규 분포 (Normal Distribution, Gaussian Distribution) 

$$N(x; \mu, \sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}\mathrm {exp}\left(-\frac{1}{2\sigma^2}(x-\mu)^2 \right)$$

## Uniform Distribution (균등분포)
- 각 분포 상태가 동일할 가능성이 있습니다.
- $P(x = x_i) = \frac{1}{k}$
- $\sum_i P(x = x_i) = \sum_i \frac{1}{k_i} = \frac{k}{k} = 1$

## 이항 분포

$P(x=1) = \Phi$  
$P(x=0) = 1 - \Phi$

- 이항 분포(binomial distribution)는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포이다. 베르누이 분포.  

- np.random.binomial(n, p, size)
    - n : 시행 횟수  
    - p : 1 이 나올 확률
    - size : 반복 횟수

In [2]:
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

### 정규확률 밀도함수 그리기

- scipy.stats.norm 이용

- 확률밀도함수 : pdf(x, loc=0, scale=1) --> x: 범위, loc: 평균, scale: 표준편차

- 확률분포(누적분포)함수 : cdf(x, loc=0, scale=1)

- 정규분포의 표준편차 : np.std(normal)

### 확률밀도함수와 누적분포 함수를 시각화

In [1]:

#확률 밀도 함수


#확률 누적 함수


### IQ Test 의 정규분포 시각화

- 평균 IQ : 115
- 표준편차 : 15 
- 68 - 95 - 99.7 % rule

## Uniform Distribution (균등분포)

### numpy 함수를 이용하여 비교

- uniform(low=0.0, high=1.0, size=None)

- normal(loc=0.0, scale=1.0, size=None)

## 이항 분포

- random.binomial(n, p, size=None) : Draw samples from a binomial distribution 
    - n : 시행 횟수  
    - p : 1 이 나올 확률
    - size : 반복 횟수

In [2]:
# 동전던지기를 10번 반복 시행

- 동전을 1000 번 던져서 앞면(뒷면)이 나올 확률

- 동전 앞면이 연속으로 10 번 나올 확률

- 100 만번 반복하여 연속으로 앞면이 10 회 나올 횟수

## 상관 계수 (Correlation Coefficient)

- 두개의 변수가 linear 한 정도를 측정 (ex. 가격/거래량, 가격/강우량 등)  
- 언제나 `-1~+1` 사이. 
- `DataFrame.corr()` method

$$r = \frac{Cov(X, Y)}{std(X)std(Y)}$$

### 주식 종목간의 상관 (correlation) 분석

- S&P500 종목과 Nasdaq 종목의 ticker 명 dictionary 작성

In [3]:
import pickle

# ticker 명 file
with open('data/sp500tickers.pickle', 'rb') as f:
    tickers_sp = pickle.load(f)
    
with open('data/nasdaq100tickers.pickle', 'rb') as f:
    tickers_na = pickle.load(f)

In [4]:
# 두 ticker list 결합


# ticker to stock name table 작성

In [5]:
# 미국 전종목 주식 주가

### 미국 주식 전 종목의 상관 관계 계산

**각 종목과 가장 correlation 이 높은 top n 종목 구하기**

In [6]:
# 첫번째 index 는 key 이므로 두번째 부터 slicing


# (ticker Symbol, 상관계수, ticker 종목명)


- 모든 종목에 대하여 위와 같은 방법으로 dictionary 생성