In [None]:
import pandas as pd

In [None]:
mpg = pd.read_csv('mpg.csv')

In [None]:
#기술 통계 분석
mpg.query('category in ["compact", "suv"]') \
    .groupby('category', as_index = False) \
    .agg(n = ('category','count'),
        mean = ('cty','mean'))
#(순서대로) compact, suv 추출하기
# category별 분리
# 빈도 구하기
# cty 평균 구하기

In [None]:
#앞에서 구한 평균 차이가 통계적으로 유의한지 t검정을 수행해 알아보자

In [None]:
#mpg에서 category가 'compact'인 행과 'suv'인 행의 cty를 추출해 각각 변수에 할당
compact = mpg.query('category == "compact"')['cty']
suv = mpg.query('category == "suv"')['cty']

In [None]:
#scipy패키지의 ttest_ind()이용해 t검정하자.

In [None]:
#t-test
from scipy import stats

In [None]:
stats.ttest_ind(compact, suv, equal_var = True)

In [None]:
#출력결과의 pvalue가 유의확률을 의미함
#일반적으로, 유의확률 5%를 판단 기준으로 삼고,
#p-value가 0.05미만이면 '집단 간 차이가 통계적으로 유의하다'고 해석
#실제로는 차이가 없는데 이런 정도의 차이가 우연히 관찰될 확률이 5%보다 작다면, 
#이 차이를 우연이라고 보기 어렵다고 결론 내림
#출력 결과,
#p-value가 0.05보다 작기 때문에,
#compact와 suv간 평균 도시 연비 차이가 통계적으로 유의하다고 결론 내릴 수 있음.

In [None]:
##일반 휘발유와 고급 휘발유와 도시 연비 t검정

In [None]:
#일반휘발유를 사용하는 자동차와 고급 휘발유를 사용하는 자동차의 도시연비 차이가
#통계적으로 유의한지 알아보자.
#두 연료를 사용하는 자동차의 빈도와 cty 평균을 구한 뒤, t검정을 하자

In [None]:
#기술 통계 분석
mpg.query('fl in ["r","p"]') \
    .groupby('fl', as_index = False) \
    .agg(n = ('fl', 'count'),
        mean = ('cty', 'mean'))
#(순서대로) r,p추출하기
#fl별 분리
#빈도 구하기
#cty평균 구하기

In [None]:
regular = mpg.query('fl == "r"')['cty']
premium = mpg.query('fl == "p"')['cty']

In [None]:
#t-test
stats.ttest_ind(regular, premium, equal_var=True)

In [None]:
#출력 결과, 
#p-value가 0.05보다 큰 0.2875임.
#실제로는 차이가 없는데, 우연에 의해 이런 정도의 차이가 관찰될 확률이 28.75%라는 의미
#따라서, "일반 휘발유와 고급 휘발유를 사용하는 자동차의 도시 연비 차이가 통계적으로 유의하지 않다"고 결론 내릴 수 있음
#고급 휘발유 자동차의 도시 연비 평균이 0.6정도 높지만, 이런정도의 차이는 우연히 발생했을 가능성이 크다고 해석

In [None]:
#####14-3) 상관분석 - 두 변수의 관계 분석하기

In [None]:
##실업자 수와 개인 소비 지출의 상관관계

In [None]:
#economics 데이터 불러오기
economics = pd.read_csv('economics.csv')

In [None]:
#상관행렬 만들기
# : economics의 unemploy와 pce 변수를 추출한 후, corr()을 이용해 상관행렬 만들기 
economics[['unemploy', 'pce']].corr()

In [None]:
#출력 결과, 
#상관계수가 양수 0.61이므로, 
#실업자 수와 개인소비지출은 한 변수가 증가하면 다른 변수가 증가하는 정비례 관계임을 알 수 있음

In [None]:
#유의 확률 구하기
#: df.corr()을 이용하면 상관계수는 알 수 있지만, 유의확률은 알 수 없음
#유의 확률은 scipy 패키지의 stats.pearsonr()을 이용해서 구함

In [None]:
stats.pearsonr(economics['unemploy'], economics['pce'])

In [None]:
#출력 결과, 
#첫번째 값이 상관계수, 두번째 값이 유의확률 의미
#유의확률이 0.05미만이므로,
#실업자수와 개인소비지출의 상관관계가 통계적으로 유의하다고 결론 내릴 수 있음

In [None]:
#상관행렬 히트맵 만들기

In [None]:
#여러 변수의 관련성을 한꺼번에 알아보고 싶을 때, 모든 변수의 상관관계를 나타낸 
#상관행렬을 만들면 편리함
#상관행렬을 보면 어떤 변수끼리 관련이 크고 적은지 한눈에 파악 가능

In [None]:
#상관행렬 만들기
#mtcars불러와서 상관행렬 만들자
#mtcars는 자동차 32종의 11개 변수를 담고 있음
mtcars = pd.read_csv('mtcars.csv')
mtcars.head()

In [None]:
car_cor = mtcars.corr() #상관행렬 만들기
car_cor = round(car_cor, 2) #소수점 둘째자리까지 반올림
car_cor

In [None]:
#출력 결과,
#mtcars의 변수들이 서로 얼마나 관련되는지 알 수 있음
#mpg(연비)행과 cyl(실린더수)열이 교차되는 부분 보면, 
#상관계수가 -0.85이므로, 연비가 높을수록, 실린더수가 적은 경향이 있음

#cyl(실린더수)과 wt(무게)의 상관계수가 0.78이므로, 
#실린더수가 많을수록 자동차가 더 무거운 경향이 있음

In [None]:
#히트맵 만들기
# : 여러 변수로 상관행렬을 만들면 출력된 값이 너무 많아서 관심있는 변수들의 관계를 파악하기 어려움
# 이럴 때 값의 크기를 색깔로 표현한 히트맵을 만들면 변수들의 관계를 쉽게 파악 가능
# seaborn패키지의 heatmap()을 이용하면 상관행렬로 히트맵 만들 수 있음

In [None]:
import matplotlib.pyplot as plt
plt.rcParams.update({
    'figure.dpi' : '120', #해상도 설정
    'figure.figsize' : [7.5,5.5] #가로 세로 크기 설정
})

In [None]:
#히트맵 만들기
import seaborn as sns
sns.heatmap(car_cor, 
           annot = True, #상관계수 표시
           cmap = 'RdBu') #컬러맵

In [None]:
#히트맵은 상관계수가 클수록 상자 색깔을 진하게 표현하고,
#상관계수가 양수면 파란색, 
#음수면 빨간색 계열로 표현.

In [None]:
#대각행렬 제거하기
# : 상관행렬은 행과 열에 같은 변수가 나열되므로 앞에서 만든 히트맵은 대각선 기준으로
# 왼쪽 아래와 오른쪽 위의 값이 대칭하여 중복됨.
#sns.heatmap()의 mask를 이용해 중복된 부분을 제거하자

In [None]:
#mask만들기
#:np.zeros_like()이용해서 상관행렬의 행과 열의 수만큼 0으로 채운 배열을 만듦
import numpy as np
mask = np.zeros_like(car_cor)
mask

In [None]:
#배열의 오른쪽 위 인덱스를 구하는 np.triu_indices_from()을 활용해서 
#mask의 오른쪽 위 대각행렬을 1로 바꿈 
mask[np.triu_indices_from(mask)] = 1
mask

In [None]:
#히트맵에 mask적용하기
#sns.heatmap()에 mask를 적용함.
#출력된 히트맵을 보면 mask의 1에 해당하는 위치의 값이 제거되어 왼쪽 아래의 상관계수만 표현됨
sns.heatmap(
    data = car_cor, 
    annot = True, #상관계수 표시
    cmap = 'RdBu', #컬러맵
    mask = mask #mask적용
)

In [None]:
#빈행과 열 제거하기
#앞에서 만든 히트맵의 왼쪽 위mpg행과 오른쪽 아래 carb열에는 아무값도 표현되어 있지 않음
#행과 열의 변수가 같아서 상관계수가 항상 1이 되는 위치이므로 값을 표현하지 않은것.
#히트맵의 빈 행과 열을 제거하려면 mask와 상관행렬의 첫번째 행과 마지막 열을 제거한 다음
#히트맵을 만들면 됨

In [None]:
mask_new = mask[1: ,  :-1] #mask의 첫번째 행, 첫번째 열 제거
cor_new = car_cor.iloc[1: ,  :-1] #상관행렬 첫 번째 행, 마지막 열 제거

In [None]:
#히트맵 만들기
sns.heatmap(
    data = cor_new,
    annot = True, #상관계수 표시
    cmap = 'RdBu', #컬러맵
    mask = mask_new #mask 적용
)

In [None]:
#파라미터를 몇 가지 추가해 히트맵을 보기 좋게 수정하자
sns.heatmap(
    data = cor_new,
    annot = True, #상관계수 표시
    cmap = 'RdBu', #컬러맵
    mask = mask_new, #mask 적용
    linewidths = .5, #경계 구분선 추가
    vmax = 1, #가장 진한 파란색으로 표현할 최대값
    vmin = -1, #가장 진한 빨간색으로 표현할 최소값
    cbar_kws = {'shrink': .5} #범례 크기 줄이기
)