In [1]:
# 가설세우기 두가지!
# 음주여부에따라 건강검진 수치 차이가 있을까?
# 신장과 허리둘레의 크기는 체중과 상관관계가 있을까?
# 분석을 통해 가설을 검증해보기!

# 라이브러리 로드
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

In [2]:
# 한글폰트 설정

!apt -qq -y install fonts-nanum > /dev/null

import matplotlib.font_manager as fm

fontpath = '/user/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
fm._rebuild()

# Colab의 한글폰트 설정
plt.rc('font', family='NanumGothic')
# 마이너스 폰트 깨지는 문제에 대한 대처
plt.rc('axes',unicode_minus=False)





In [3]:
# 한글폰트를 설정해 주지 않으면 그래프 상에서 한글이 깨져보인다.
# 한글이 출력될 수 있도록 폰트 설정
import os

# 윈도우, 맥 외의 os느 별도로 설정해 주어야함
if os.name == 'posix' : # 포직스면 맥임.
  plt.rc('font', family='AppleGothic')
else:
  plt.rc('font', family='Malgun Gothic') # 윈도우
# 마이너스 폰트 깨지는 문제에 대한 대처
plt.rc('axes', unicode_minus=False)

In [4]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

import matplotlib.pyplot as plt

plt.rc('font', family='NanumBarunGothic') 

Reading package lists... Done
Building dependency tree       
Reading state information... Done
fonts-nanum is already the newest version (20170925-1).
The following package was automatically installed and is no longer required:
  libnvidia-common-460
Use 'sudo apt autoremove' to remove it.
0 upgraded, 0 newly installed, 0 to remove and 34 not upgraded.
/usr/share/fonts: caching, new cache contents: 0 fonts, 1 dirs
/usr/share/fonts/truetype: caching, new cache contents: 0 fonts, 3 dirs
/usr/share/fonts/truetype/humor-sans: caching, new cache contents: 1 fonts, 0 dirs
/usr/share/fonts/truetype/liberation: caching, new cache contents: 16 fonts, 0 dirs
/usr/share/fonts/truetype/nanum: caching, new cache contents: 10 fonts, 0 dirs
/usr/local/share/fonts: caching, new cache contents: 0 fonts, 0 dirs
/root/.local/share/fonts: skipping, no such directory
/root/.fonts: skipping, no such directory
/var/cache/fontconfig: cleaning cache directory
/root/.cache/fontconfig: not cleaning non-existent

In [5]:
# 레티나 설정을 해주면 글씨가 좀더 선명하게 보임
%config InlineBackend.figure_format = 'retina'

In [6]:
# 데이터 로드하기
from google.colab import drive
drive.mount('/content/working_drive')

import os

working_dir = 'datasets'

colab_default_dir = '/content/working_drive/MyDrive/Colab Notebooks/BT/파이썬으로 시작하는 데이터분석 코스/'

original_dir = os.getcwd() # save current dir

try :
  os.chdir(colab_default_dir)
  if not os.path.exists(working_dir):
    os.mkdir(working_dir)

  os.chdir(working_dir) # change working dir
  print('current dir =', os.getcwd())

except Exception as err:

  os.chdir(original_dir)
  print(str(err))

Mounted at /content/working_drive
current dir = /content/working_drive/My Drive/Colab Notebooks/BT/data


In [None]:
# 파일의 인코딩이 utf8로 불러오느랴 제대로 로딩이 안됨 한글이 깨지지않게 인코딩은 cp949로 설정해줘야 함
# 'euc-kr' 도 되나 깨지는 경우가 발생.
df = pd.read_csv('국민건강보험공단_건강검진정보_20191231.csv', low_memory=False, encoding='cp949') 
df.shape

In [None]:
# 데이터 미리보기
df.sample(2)

In [None]:
df.head(2)

In [None]:
df.tail(2)

In [None]:
# 기본정보 보기
df.info() # 결측치가 있음을 확인할 수 있음.

In [None]:
# 컬럼의 수가 많아 컬럼만 따로 출력
df.columns

In [None]:
# dtypes 를 통해 데이터 형식만 출력
df.dtypes

In [None]:
# isnull 을 통해 결측치를 bool 값으로 표시하고 sum을 하면 컬럼마다의 결측치 수를 세어줌.
df.isnull().sum() # TRUE값이 1로 세어짐짐

In [None]:
# isna로도 결측치 여부확인 및 집계가능 isna로도 결측치 여부확인 및 집계가능
df.isna().sum()

In [None]:
# 판다스로 시각화
df.isnull().sum().plot.barh(figsize=(10,9))

In [None]:
# 컬럼 가져오기
df[['(혈청지오티)ALT', '(혈청지오티)AST']].head() # 두개 이상의 자료는 LIST구조로 감싸줘야 함
# 한개의 자료는 Series 형태로 출력 두개이상은 DataFrame으로 표시가 된다.

In [None]:
df[['(혈청지오티)ALT', '(혈청지오티)AST']].info() # 결측치 확인 가능
df[['(혈청지오티)ALT', '(혈청지오티)AST']].describe() # 값이 튀는지 확인이 가능

In [None]:
df['성별코드'].value_counts()

In [None]:
df['흡연상태'].value_counts() # 1. 흡연X , 2. 흡연O

In [None]:
# groupby 와 pivot_table 사용하기

# df.groupby? 궁금한 건 ?로 파라미터 알아보기
# 성별코드 그룹화
df.groupby(['성별코드'])['가입자 일련번호'].count()

In [None]:
# 음주여부 그룹화
df.groupby(['성별코드','음주여부'])['가입자 일련번호'].count()
# 0.0 음주하고 있는지여부

In [None]:
# 음주하고있는사람들이 감마 지피티가 높음을 확인할 수 있음.
df.groupby(['성별코드', '음주여부'])['감마 지티피'].mean()

In [None]:
df.groupby(['성별코드', '음주여부'])['감마 지티피'].describe()

In [None]:
df.groupby(['성별코드', '음주여부'])['감마 지티피'].agg(['count','mean', 'median']) # aggregation

In [None]:
df.pivot_table(index='음주여부', values='가입자 일련번호', aggfunc='count') # 음주여부에 따른 수치
# groupby 대신 pivot_table은 사용법이 좀더 직관적이여서 많이 사용한다. 속도는 좀더 느림

In [None]:
df.pivot_table(index='음주여부', values='감마 지티피', aggfunc=['mean','median']) # aggfunc은 기본적으로 mean으로 지정되어있다.

In [None]:
# describe를 사용해 통계 요약값 한번에 보기

df.pivot_table(index=['성별코드','음주여부'], values='감마 지티피', aggfunc='describe')

In [None]:
# 전체 데이터 시각화 하기

# 100만개가 넘는 데이터를 seaborn과 같은 고급 통계 연산은 매우 느릴 수 있다.

df.info()

In [None]:
h = df.hist(figsize=(12,12))

In [None]:
# 슬라이싱 기능일 사용해 히스토그램 그리기
h = df.iloc[:,:12].hist(figsize=(12,12)) # 그래프 너무많으니 12개만 그리기!

In [None]:
h = df.iloc[:, 12:24].hist(figsize=(12,12), bins=100) # 자세하기 그리고싶으면 option bins를 추가하면 막대가 많아짐.

In [None]:
df = df.iloc[:,24:].hist(figsize=(12,12), bins=100)

In [None]:
df = pd.read_csv('국민건강보험공단_건강검진정보_20191231.csv', low_memory=False, encoding='cp949') 

In [None]:
df['음주여부'] = df['음주여부'].fillna(0.0)
df_sample = df.sample(1000, random_state=1)
df_sample

In [None]:
# 데이터 시각화 도구 seaborn 사용
# matplotlib을 사용하기 쉽게 만들어놓은 데이터 시각화 라이브러리, High-level interface 제공
# 다양한 통계기능 사용가능 또한 장점
df['음주여부'] = df['음주여부'].fillna(0.0)
df['음주여부'].value_counts().plot.bar() # Null 값이 있기때문에..

In [None]:
sns.countplot(x='음주여부', data=df)

In [None]:
# hue 옵션 사용하기
# 성별코드로 색상을 구분해서 그려보기.
# sns.set(font_scale=1.5, font='AppleGothic')같이 그래프의 여러 기본값들을 재설정이 가능하다.
sns.countplot(data=df, x='음주여부', hue='성별코드')

In [None]:
sns.countplot(data=df, x='연령대 코드(5세단위)', hue='음주여부')

In [None]:
# 키와 몸무게
plt.figure(figsize=(15, 4))
sns.countplot(data=df, x='신장(5Cm단위)', hue='성별코드')

In [None]:
# 체중
plt.figure(figsize=(15,4))
sns.countplot(data=df, x="체중(5Kg 단위)", hue='음주여부')

In [None]:
# barplot 수치형 vs 범주형 데이터 시각화
sns.barplot(data=df.sample(1000), x='연령대 코드(5세단위)', y='총 콜레스테롤', hue='음주여부') 
# 그냥하면 100만개이므로 느리므로 sample로 지정해줌
# 검정막대는 신뢰구간을 표시해줌^^

In [None]:
plt.figure(figsize=(15,4))
sns.barplot(data=df.sample(1000), x='연령대 코드(5세단위)', y='총 콜레스테롤', hue='흡연상태') 

In [None]:
# 중성지방에 따른 연령대코드
plt.figure(figsize=(15,4))
sns.barplot(data=df.sample(10000), x='연령대 코드(5세단위)', y='트리글리세라이드', hue='음주여부', ci='sd')\
# ci의 기본값은 신뢰도 95%임. ci=95
# ci는 검정막대 신뢰구간을 설정해줌^^ ci='sd'는 표준편차
# ci=None하면 신뢰구간을 표시하지 않는다.

In [None]:
sns.barplot(data=df.sample(10000), x='연령대 코드(5세단위)', y='체중(5Kg 단위)', hue='음주여부', ci=None)
# 이로서 음주여부에 따라 건강검진의 수치에 차이가 있음을 알아볼 수 있다.

In [None]:
# lineplot과  pointplot
plt.figure(figsize=(15,4))
sns.lineplot(data=df.sample(10000), x='연령대 코드(5세단위)', y='체중(5Kg 단위)', hue='음주여부')
# ci 설정에 따라 선위아래로 그림자를 드리움

In [None]:
plt.figure(figsize=(15,4))
sns.lineplot(data=df.sample(10000), x='연령대 코드(5세단위)', y='신장(5Cm단위)', hue='성별코드')

In [None]:
plt.figure(figsize=(15,4))
sns.lineplot(data=df.sample(10000), x='연령대 코드(5세단위)', y='신장(5Cm단위)', hue='음주여부', ci='sd')

In [None]:
plt.figure(figsize=(15,4))
sns.pointplot(data=df.sample(10000), x='연령대 코드(5세단위)', y='신장(5Cm단위)', hue='음주여부', ci='sd')
sns.barplot(data=df.sample(10000), x='연령대 코드(5세단위)', y='신장(5Cm단위)', hue='음주여부', ci='sd')
# 겹쳐서 그리기도 가능하다.

In [None]:
plt.figure(figsize=(15,4))
sns.pointplot(data=df.sample(10000), x='연령대 코드(5세단위)', y='신장(5Cm단위)', hue='성별코드', ci='sd')

In [None]:
plt.figure(figsize=(15,4))
sns.lineplot(data=df, x='연령대 코드(5세단위)', y='혈색소',hue='음주여부', ci=None) # 빠르게 그리기위해 ci 제외해주기

In [None]:
# 위에서 봤듯이 lineplot이나 pointplot 주식, 재고량, 판매량 등을 분석하기에 적합.

In [None]:
# Boxplot 박스수염 플롯
# 박스 플롯의 장점은 describe의 값들을 그래프에서 나타낼 수 있다.
# 제 1사분위, 2사분위, 3사분위수() 를 그래프를 통해 알아낼 수 있다.
plt.figure(figsize=(15,4))
sns.boxplot(data=df, x='신장(5Cm단위)', y='체중(5Kg 단위)', hue='성별코드')

In [None]:
# violinplot 바이올린처럼 생겨서 바이올린플롯
# boxplot을 좀더 구체적으로 자세하게 표현해주는 plot
plt.figure(figsize=(15,4))
sns.violinplot(data=df.sample(10000), x='신장(5Cm단위)', y='체중(5Kg 단위)', hue='음주여부')

In [None]:
plt.figure(figsize=(15,4))
sns.violinplot(data=df.sample(10000), x='신장(5Cm단위)', y='체중(5Kg 단위)', hue='음주여부', split=True)
# split으로 양 옆으로 표현이 가능

In [None]:
plt.figure(figsize=(15,4))
sns.violinplot(data=df.sample(10000), x='연령대 코드(5세단위)', y='혈색소', hue='음주여부', split=True)

In [None]:
# 산점도를 보기위해 swarm plot을 사용한다.
# 값의 분포를 파악하기에 좋음
plt.figure(figsize=(15,4))
sns.swarmplot(data=df.sample(1000), x='신장(5Cm단위)', y='체중(5Kg 단위)', hue='음주여부')

In [None]:
plt.figure(figsize=(15,4))
sns.swarmplot(data=df.sample(1000), x='연령대 코드(5세단위)', y='체중(5Kg 단위)', hue='음주여부')

In [None]:
plt.figure(figsize=(15,4))
sns.swarmplot(data=df.sample(1000), x='연령대 코드(5세단위)', y='혈색소', hue='음주여부')
# 음주하는 사람들이 위에 위치되어있고 혈색소값이 높음을 알 수 있다.

In [None]:
# lmplot 또한 산점도를 그림

sns.lmplot(data=df.sample(1000), x='연령대 코드(5세단위)', y='혈색소', hue='음주여부')

# scatterplot과는 다르게 회귀선이 있기 때문에 x,y축 데이터의 상관관계를 알아내기 용이함
# 다변수의 그래프 시각화에 용이함

In [None]:
sns.lmplot(data=df.sample(1000), x='연령대 코드(5세단위)', y='혈색소', hue='음주여부', col='성별코드')

In [None]:
# scatterplot - 산점도
plt.figure(figsize=(8,7))
sns.scatterplot(data = df.sample(10000), x='(혈청지오티)AST', y='(혈청지오티)ALT', hue='음주여부', size='체중(5Kg 단위)')
# size로 원의 크기를 다르게 설정해 줌.

In [None]:
# lmplot - 상관 관계를 보기
plt.figure(figsize=(15,4))
sns.lmplot(data=df.sample(10000), x='신장(5Cm단위)', y='체중(5Kg 단위)', hue='음주여부', col='성별코드')

In [None]:
# implot의 col기능을 통해 음주여부에 따라 서브플롯을 그려본다.
sns.lmplot(data=df.sample(10000), x='신장(5Cm단위)', y='체중(5Kg 단위)', hue='흡연상태', col='음주여부')

In [None]:
# lmplot 으로 수축기, 이완기혈압을 그리고 음주여부에 따라 다른 색상으로 표현되게 삽니다.
sns.lmplot(data=df.sample(1000), x='수축기 혈압', y='이완기 혈압', hue='음주여부')

In [None]:
sns.lmplot(data=df.sample(1000), x='(혈청지오티)AST', y='(혈청지오티)ALT', hue='음주여부', robust=True)

In [None]:
# 이상치 다루기 robust는 튀는값을 다루지 않게 해줌
df_ASLT = df_sample[(df_sample['(혈청지오티)AST'] < 400) & (df_sample['(혈청지오티)ALT']<400)]
sns.lmplot(data=df_ASLT, x='(혈청지오티)AST', y='(혈청지오티)ALT', hue='음주여부')
# robust처럼 이상치에 덜영향을 받는 그래프를 그려줌!!

In [None]:
df_ASLT_high = df[(df['(혈청지오티)AST'] > 400) | (df['(혈청지오티)ALT']>400)]
sns.lmplot(data=df_ASLT_high, x='(혈청지오티)AST', y='(혈청지오티)ALT', hue='음주여부', ci=None)
df_ASLT_high
# 이상치만 골라와서 분포 보기!

In [None]:
df_ASLT_high_6000 = df_ASLT_high[df_ASLT_high["(혈청지오티)AST"]>6000]
df_ASLT_high_6000 

# 다른값들이 이상치가 있는지 별도데이터 확인시 사용하면 됨.

In [None]:
# 수치형 데이터의 분포를 표현하기 - distplot
# 확률밀함수 - 모든값을 적분했을때 더하면 값이 1 이됨

df.columns

In [None]:
# distplot은 여태까지의 그래프와는 파라미터가 다르다.
# distplot은 결측치가 있으면 그릴 수 없다.
sns.distplot(df['총 콜레스테롤'])

In [None]:
df_chol = df.loc[df['총 콜레스테롤'].notnull(), '총 콜레스테롤']
df_chol.head()

In [None]:
sns.distplot(df_chol, bins=100) # 확률밀도함수와 함께 그려짐!
# distplot은 시리즈 형태로 넣어줘야하므로 loc 사용!
# 값이 얼마나 치우쳐져있는지, 뾰족한지 판단 가능
# bins에 따라 막대의 개수가 달라짐.

In [None]:
df_chol.describe()

In [None]:
# 음주여부에 따른 '총 콜레스테롤'
sns.distplot(df.loc[df['총 콜레스테롤'].notnull() & (df['음주여부']==1), '총 콜레스테롤']) # 행과,열 지정

In [None]:
# 음주여부에 따른 '총 콜레스테롤'
sns.distplot(df.loc[df['총 콜레스테롤'].notnull() & (df['음주여부']==0), '총 콜레스테롤']) # 행과,열 지정

In [None]:
# 음주여부에 따른 '총 콜레스테롤' 0,1 같이 그리기
sns.distplot(df.loc[df['총 콜레스테롤'].notnull() & (df['음주여부']==1), '총 콜레스테롤']) # 행과,열 지정
sns.distplot(df.loc[df['총 콜레스테롤'].notnull() & (df['음주여부']==0), '총 콜레스테롤']) # 행과,열 지정

In [None]:
# 음주여부에 따른 '총 콜레스테롤' 곡선만 그리고싶으면 
plt.axvline(df_sample['총 콜레스테롤'].mean(), linestyle=':')
plt.axvline(df_sample['총 콜레스테롤'].median(), linestyle='--')
sns.kdeplot(df_sample.loc[df['총 콜레스테롤'].notnull() & (df['음주여부']==1), '총 콜레스테롤'], label='음주 중') # 행과,열 지정
sns.kdeplot(df_sample.loc[df['총 콜레스테롤'].notnull() & (df['음주여부']==0), '총 콜레스테롤'], label='음주 안함') # 행과,열 지정
# histogram 제외하기 위해선 kdeplot을 쓰거나
# sns.distplot(df.loc[df['총 콜레스테롤'].notnull() & (df['음주여부']==1), '총 콜레스테롤'], hist =False) # 행과,열 지정
# hist=False를 지정해주면 된다.


In [None]:
# Series의 데이터라서 s_로 표기ㅎㅎ
s_1 = df_sample.loc[df_sample['음주여부']==1,'감마 지티피']
s_0 = df_sample.loc[df_sample['음주여부']==0,'감마 지티피']

sns.distplot(s_1, label='음주 중')
sns.distplot(s_0, label='음주 안 함')
# sns.kdeplot(s_1, label='음주 중')
# sns.kdeplot(s_0, label='음주 안 함')

In [None]:
# 상관분석을 통한 heatmap 분석!
# 가설 다시보기
# 1. 음주 여부에 따라 건강검진 수치 차이가 있을까?
# 2. 신장과 허리둘레의 크기는 체중과 상관관계가 있을까?

# 상관 분석이란
# 두 변수간의 어떤 선형적 또는 비선형적 관계가 있는지를 분석하는 방법.
# 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명할 수는 없다. 인과관계는 회귀분석을 통해 알아내야 함

col = df.columns
col

In [None]:
df_small = df_sample[col]
df_corr = df_small.corr()
df_corr
# 상관계수를 구하는 메소드 .corr() correlation
# 피어슨 상관계수, 스피어만 상관계수, 크론바흐 알파 계수 신뢰도 등이 있으며 피어슨 상관계수가 기본값이다.
# 일반적으로 -1.0 에서 -0.7은 강한 음적 선형관계 0.7과 1.0 사이면 강한 양적 선형관계 중간으로 갈수록 무관한 관계이다.

In [None]:
df_corr['신장(5Cm단위)'].sort_values() # 상관관계를 sort로 알아볼 수 있다.
# 혹은 df_corr.loc[df_corr['신장(5Cm단위)']>0.3, '신장(5Cm단위)']로 음과 양 상관관계를 구분 가능

In [None]:
df_corr.loc[df_corr['음주여부']>0.2, '음주여부']

In [None]:
df_corr['혈색소'].sort_values(ascending=False).head(7)

In [None]:
df_corr['감마 지티피'].sort_values(ascending=False).head(7)

In [None]:
# heatmap을 통해 상관관계를 직관적으로 볼 수 있다.
plt.figure(figsize=(20,7))
sns.heatmap(df_corr, annot=True, fmt='.2f', cmap='Blues') 
# anno -> annotation 숫자표시 , fmt로 소수점 둘째짜리까지 표시
# cmap='Blues' 붉은색 -> 파란색
# 진할수록 상관계수가 적고 밝을수록 강함
# 히트맵의 그래프를 통해 가설 확인이 가능

In [None]:
mask = np.triu(np.ones_like(df_corr, dtype=np.bool))
mask

In [None]:
plt.figure(figsize=(20,7))
sns.heatmap(df_corr, annot=True, fmt='.2f', cmap='Blues', mask=mask) 