## 14-1 가설 검증이란 ?

### 기술통계와 추론 통계
- 기술통계 (Descriptive Statistics) : 데이터를 요약하여 설명하는 통계분석 기법
    > (예) 사람들이 받는 월급을 집계하여 전체 월급 평균을 구함
- 추론 통계 (inferential Statistics) : 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계분석 기법 
    > (예) 데이터에서 성별에 따른 월급 차이가 발생한 경우, 이런 차이가 우연히 발생할 확률 계산 (통계적 유의성)
- 일반적으로  통계분석을 수행했다고 한 것은 추론 통계를 이용하여 가설 검증을 수행한 것을 의미함
- 기술 통계 분석에서 집단간에 차이가 있더라도 우연에 의한 차이일 수 있음.
- 유의 확률을 계산하는 통계적 가설 검증 절차를 거쳐야 함

### 통계적 가설 검증
- 유의 확률을 이용하여 가설을 검증하는 방법
- 유의 확률은 실제로 집단간 차이가 없는데 우영히 차이가 있는 데이터가 추출될 확률을 의미
    > 유의확률이 크다 : 집단간의 차이가 통계적으로 유의하지 않다. 우연히 차이가 관찰될 가능성이 크다
    > 유의확률이 작다 : 집단간 차이가 통계적으로 유의하다. 우연히 차이가 관찰될 가능성이 작다
- t 검정 : 두 집단의 평균에 차이가 있는지 검정하는 방법
- 상관관계 : 두 변수가 관련이 있는지 검정하는 방법

## 14-2 t 검증 - 두 집단의 평균 비교하기
- t 검정 : 두 집단의 평균에 차이가 있는지 검정하는 방법

## Lab 1 :  compact 자동차와 sub 자동차의 도시 연비 t 검증

In [None]:
import pandas as pd

In [None]:
mpg = pd.read_csv('mpg.csv')

In [None]:
# 기술 통계 분석

In [None]:
mpg.query('category in ["compact", "suv"]') \
    .groupby('category', as_index=False) \
    .agg(n = ('category', 'count'),
         mean = ('cty', 'mean'))

- compact 자동차가 suv에 비해 도시 연비가 높다 (의미있는 차이인가 ?)
- t 검증을 통해 확인

In [None]:
compact = mpg.query('category == "compact"')['cty']
compact.head()

In [None]:
suv = mpg.query('category == "suv"')['cty']
suv.head()

In [None]:
# t-test
from scipy import stats
stats.ttest_ind(compact, suv, equal_var=True)

- 일반적으로 p-value가 5%(0.05) 미만이면 '집단간 차이가 통계적으로 유의하다'라고 해석
- 우연히 관찰될 확률이 5%보다 작으면, 이 차이를 우연이라고 보기 어렵다다고 결론을 내림

> p-value가 2.3909550904711282e-21로 0.05(5%)보다 작으면 평균 도시 차이가 통계적으로 유의미하다고 판단할 수 있음

## Lab 2 : 일반 휘발유와 고급 휘발유 도시 연비 t 검증

In [None]:
# 기술 통계 분석
mpg.query('fl in ["r", "p"]') \
    .groupby('fl', as_index=False) \
    .agg(n = ('fl', 'count'),
         mean = ('cty', 'mean'))

>  고급 휘발유의 도시 연비가 다소 높다. (실제 유의미 한가 ?)

In [None]:
regular = mpg.query('fl == "r"')['cty']
regular.head()

In [None]:
premium = mpg.query('fl == "p"')['cty']
premium.head()

In [None]:
# t- test
from scipy import stats
stats.ttest_ind(regular, premium, equal_var=True)

> t value가 0.28752051088667036로 0.05(5%)보다 크므로, 평균 도시 차이가 통계적으로 유의미하지 않다

> 고급 휴발유와 일반 휴발유의 도시 연비 차이는 우연히 발생할 가능성이 크다

## 14-3 상관분석 - 두 변수의 관계 분석하기
- 상관분석(correation ananlysis) : 두 연속 변수가 서로 관련이 있는지 검정하는 통계 분석 기법
- 상관계수(correation coefficient)를 보면 두 변수가 얼마나 관계가 있는지 ㅈ정도를 파악할 수 있음

### Lab 3  : 실업자 수와 개인 소비 지출의 상관관계
- economic 데이터를 활용하여 unemploy(실업자 수)와 pce(개인 소비 지출)간의 상관 관계를 알아보자

In [None]:
# economics 데이터 불러오기
economics = pd.read_csv('economics.csv')

# 상관 행렬 만들기
economics[['unemploy', 'pce']].corr()

- 상관계수는 -1 ~ 1 값을 갖는다
- 0.5 이상 또는 -0.5 이하인 경우 양의 또는 음의 관련성이 있다라고 해석
- unemploy(실업자 수)와 pce(개인 소비 지출)는 상관계수가 0.614518로 양의 관련성이 있음
- 실업자 수와 소비 지출은 한 변수가 증가하면 다른 변수가 증가하는 비례 관계임

## 유의 확률 구하기

In [None]:
# 상관 분석
stats.pearsonr(economics['unemploy'], economics['pce'])

- 첫번째 값은 상관 계수, 두번째 값은 유의 확률을 나타냄
- 유의 확률이 0.05 미만으로 실업자 수와 소비 지출의 상관관계가 통계적으로 유의하다고 결론

## Lab 4 : 상관행렬 히트맵 만들기 

- 상관행렬 만들기
    > mtcars : 자동차 32종의 11개 변수로 구성된 데이터

    > bit.ly/easypy_141|

In [None]:
mtcars = pd.read_csv('mtcars.csv')
mtcars.head()

In [None]:
# 상관 행렬 만들기
car_cor = mtcars.corr()

# 소숫점 둘째 자리까지 반올림
car_cor = round(car_cor, 2)
car_cor

- mpg(연비)와 cly(실린더 수) 상관계수는 -0.85이므로 연비가 높을 수록 실린더 수가 적은 경향이 있음
- cly(실린더 수)와 wt(무게)의 상관 계수가 0.78이므로, 실린더 수가 많을 수록 자동차가 무거운 경향이 있음

### 히트맵 만들기

In [None]:
import matplotlib.pyplot as plt
plt.rcParams.update({'figure.dpi' : '120',    # 해상도 결정
                    'figure.figsize' : [7.5, 5.5]}) # 가로, 세로 크기 설정

In [None]:
import seaborn as sns
sns.heatmap(car_cor,
            annot = True,  # 상관계수 표시
            cmap = 'RdBu')  # 컬러맵

- 히트맵은 상관게수가 클수록 상자 색깔을 진하게 표현하고,
- 상관계수가 양수이면 파란색, 음수이면 빨간색 계열로 표현함

### 대각 행렬 제거하기
- mask 만들기

In [None]:
# mask 만들기
import numpy as np
mask = np.zeros_like(car_cor) # 상관행렬의 행과 열 수 만큼 0으로 채움 
mask

In [None]:
# 오른쪽 위 대각 행렬을 1로 바꾸기
mask[np.triu_indices_from(mask)] = 1
mask

- 히트맵에 적용

In [None]:
sns.heatmap(data=car_cor,
           annot = True,   # 상관계수 표시
           cmap = 'RdBu',  # 컬러맵
           mask = mask)    # mask 적용

- 빈행과 열 제거

In [None]:
mask_new = mask[1:, :-1]         # mask의 첫번째행, 마지막열 제거
cor_new = car_cor.iloc[1:, :-1]  # 상관행렬 첫번째 행, 마지막 열 제거

# 히트맵 만들기
sns.heatmap(data= cor_new,
           annot = True,    # 상관게수 표시
           cmap = 'RdBu',   # 컬러맵
           mask = mask_new) # mask 적용

In [None]:
sns.heatmap(data= cor_new,
           annot = True,
           cmap = 'RdBu',
           mask = mask_new,
           linewidths = 0.5,
           vmax = 1,               # 가장 진한 파란색 최대값
           vmin = -1,              # 가장 진한 빨간색 최소값
           cbar_kws = {"shrink": 0.5}) # 범례 크기 줄이기