# 1. Distributions in Pandas
- 실제 세상을 시뮬레이션해서 문제를 해결할 수 있도록 해줌
- Distribution에 있는 다양한 변수의 효과를 빠르게 시뮬레이션 할 수 있음

In [2]:
import pandas as pd
import numpy as np

### 1.binomial distribution으로부터 데이터 얻기
- np.binomial(시행횟수, 0을 얻을 확률): 결과값은 해당 사건이 일어난 횟수

#### 1. Evenly weighted binomial distribution 

In [3]:
np.random.binomial(1, 0.5)

1

In [4]:
np.random.binomial(1000, 0.5) / 1000 # 사건이 일어날 확률 

0.506

#### 2. Unevenly weighted binomial distribution


In [5]:
chance_of_tornado = 0.01/100
np.random.binomial(100000, chance_of_tornado)

6

### 2. Sampling binomial distribution
- binomial (sample size, 사건 발생 확률, 시행 횟수): 결과값은 샘플 리스트

In [26]:
#토네이도가 이틀 간 연속으로 올 확률
chance_of_tornado = 0.01

tornado_events = np.random.binomial(1, chance_of_tornado, 1000000)
    
#for문을 통해 두 개의 연속한 쌍을 찾음 
two_days_in_a_row = 0
for j in range(1,len(tornado_events)-1):
    if tornado_events[j]==1 and tornado_events[j-1]==1:
        two_days_in_a_row+=1

print('{} tornadoes back to back in {} years'.format(two_days_in_a_row, 1000000/365))

94 tornadoes back to back in 2739.72602739726 years


### 3. (연속적인 값을 가진) 다양한 분포
- 분포로부터 샘플링을 하여 데이터 이용하기
- Numpy와 Scipy는 샘플링을 할 수 있는 함수를 가지고 있음

#### 1. uniform distribution: 모든 값이 일어날 확률이 동일

#### 2. normal distribution
- 정규분포로부터 샘플링하여 표준편차 구하기

In [29]:
distribution = np.random.normal(0.75,size=1000) #사건이 일어날 확률 0.75, sample 1000개

np.sqrt(np.sum((np.mean(distribution)-distribution)**2)/len(distribution))

1.0189941882236913

- kurtosis(shape of the tales of distribution) 구하기
<br>
음수: 정규분포보다 평평
<br>
양수: 정규분포보다 뾰족

In [30]:
import scipy.stats as stats #scipy library에 있는 statistic function을 사용.

stats.kurtosis(distribution)

0.2795023270913557

#### 3. chi squared distributuion (skewed distribution)
- 자유도가 증가할수록 치우침 정도가 감소

In [None]:
chi_squared_df2 = np.random.chisquare(2, size=10000) # degrees of freedom=2, 10000개의 sample
stats.skew(chi_squared_df2)

In [None]:
chi_squared_df5 = np.random.chisquare(5, size=10000) 
stats.skew(chi_squared_df5)

In [None]:
# 그래프 그리기

%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt

output = plt.hist([chi_squared_df2,chi_squared_df5], bins=50, histtype='step', 
                  label=['2 degrees of freedom','5 degrees of freedom'])
plt.legend(loc='upper right')

#### 4. bimodal distribution: 여러 개의 peak가 존재

# 2. Hypothesis Testing

In [None]:
df = pd.read_csv('grades.csv')
df.head()

In [None]:
#두 집단으로 나누기
early = df[df['assignment1_submission'] <= '2015-12-31']
late = df[df['assignment1_submission'] > '2015-12-31']

In [None]:
early.mean() #datetime의 값은 숫자가 아니기 때문에 pandas가 알아서 제외시킴

In [None]:
late.mean()

### 1. significant difference 가 있는지 확인하기
- 데이터의 분포 형태에 따라 알맞은 검증 사용해야함
- ttest_ind( ): 두 샘플의 평균이 유의미하게 다른지 파악하는 함수, 결과값은 (test statistic, p값)

In [None]:
from scipy import stats #scipy library에 가설검증을 위한 statistic function이 많음

In [None]:
#두 집단의 assigment1_grade 평균이 유의미하게 다른지 검증
stats.ttest_ind(early['assignment1_grade'], late['assignment1_grade'])

In [None]:
#두 집단의 assigment2_grade 평균이 유의미하게 다른지 검증
stats.ttest_ind(early['assignment2_grade'], late['assignment2_grade'])

In [None]:
#두 집단의 assigment3_grade 평균이 유의미하게 다른지 검증
stats.ttest_ind(early['assignment3_grade'], late['assignment3_grade'])

### 2. p-hacking: 통계적으로 유의미한 결과가 나올때까지 반복해서 검증을 하는 것 

#### p-hacking을 해결하는 방법
- Bonferroni correction: 알파값을 더 낮게 설정하기
- Hold-out sets: 데이터의 일부를 추출해서 일반화가 되는지 확인하기 (머신 러닝에서 교차검증이라고 불리는 예측 모델을 구축할 때에 많이 사용)
- Investigation pre-registration: 검증을 설계해서 타당한 검증인지 아닌지 먼저 확인받기