### 1. 음주 여부에 따라 건강검진 수치 차이가 있을까?

### 2. 신장과 허리둘레의 크기는 체중과 상관관계가 있을까?

### 3. 라이브러리 로드

In [None]:
# 분석에 사용할 pandas, 수치 계산에 사용할 numpy, 시각화에 사용할 seaborn 을 불러옵니다.

import pandas as pd
import numpy as ny
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

In [None]:
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')
plt.rc('axes', unicode_minus=False)

# 그래프에서 폰트가 안보이는 경우
#matplotlib.font_manager._rebuild()

%matplotlib inline

from IPython.display import set_matplotlib_formats

# ipython 7.23 이후 set_matplotlib_formats 함수가 사라짐
%config InlineBackend.figure_format = 'retina'

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

### 4. 한글폰트 설정

In [None]:
# Google Colab 사용 시 아래 주석을 풀고 폰트 설정을 합니다. 
# 나눔고딕 설치

!apt -qq -y install fonts-nanum > /dev/null

import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath,size = 9)
fm._rebuild()

# Colab의 한글 폰트 설정
plt.rc('font', family='NanumGothic')
# 마이너스 폰트 깨지는 문제에 대한 대처
plt.rc("axes", unicode_minus = False)

In [None]:
from IPython.display import set_matplotlib_formats

# 레티나 설정을 해주면 글씨가 더 선명하게 보입니다.
# 폰트의 주변이 흐릿하게 보이는 것을 방지합니다.
# ipython 7.23 이후 set_matplotlib_formats 함수가 사라짐
%config InlineBackend.figure_format = 'retina'

In [None]:
import os

# 윈도우, 맥 외의 OS는 별도로 설정
if os.name == 'posix':
  plt.rc("font", family = "AppleGothic")
else:
  plt.rc()

# 마이너스 폰트 깨지는 문제에 대한 대처
plt.rc("axes", unicode_minus = False)

### 5 데이터 불러오기
* 건강검진정보

In [None]:
# gdrive에서 파일 불러오기
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
df = pd.read_csv("/content/drive/MyDrive/data/NHIS_OPEN_GJ_2017.CSV", encoding="cp949")
df.shape

#### 5.1 데이터 미리보기

In [None]:
# sample, head, tail 을 통해 데이터를 미리보기 합니다. 
df.head()

In [None]:
df.tail()

In [None]:
# 아무거나 랜덤하게 출력한다.
df.sample()

### 6 기본정보 보기

In [None]:
# info 를 통해 데이터의 크기, 형식, 메모리 사용량 등을 봅니다.
df.info()

In [None]:
# 컬럼의 수가 많습니다. 컬럼만 따로 출력합니다.
df.columns

In [None]:
# dtypes 를 통해 데이터 형식만 출력합니다. 
df.dtypes

### 7 결측치 보기

In [None]:
True == 1 

In [None]:
# isnull을 통해 결측치를 bool 값으로 표시하고 sum을 하면 컬럼마다의 결측치 수를 세어줍니다.
df.isnull().sum()

# 결과 -> 치아우식증유무, 결손치유무, 치아마모증유무, 제 3대구치(사랑니)이상

In [None]:
# isna로도 결측치 여부를 확인하고 sum을 통해 결측치 수를 집계할 수 있습니다.
df.isna().sum()

In [None]:
# 판다스에 내장 된 plot을 통해 시각화를 합니다.
df.isnull().sum().plot.barh(figsize=(10,9))

### 8 일부 데이터 요약하기

In [None]:
# 여러 컬럼을 가져옵니다.
# "(혈청지오티)ALT", "(혈청지오티)AST"를 가져와 미리보기 합니다.

# 특정 컬럼 미리보기
# df["(혈청지오티)ALT", "(혈청지오티)AST"] -> 두 개 이상 가져올 때는 리스트로 감싸줌
# 두 개의 괄호로 감싸주면 dataframe 형태
df[["(혈청지오티)ALT", "(혈청지오티)AST"]].head()

In [None]:
# "(혈청지오티)ALT", "(혈청지오티)AST"를 요약합니다.
# info() / describe()
df[["(혈청지오티)ALT", "(혈청지오티)AST"]].describe()

### 9 value_counts로 값 집계하기

In [None]:
# value_count를 통해 성별코드로 그룹화 하고 갯수를 집계합니다.
df["성별코드"].value_counts()

In [None]:
# value_counts 를 통해 흡연상태로 그룹화 하고 갯수를 집계합니다.
df["흡연상태"].value_counts()

### 10 groupby와 pivot_table 사용하기

#### 10.1 groupby

In [None]:
# groupby를 통해 데이터를 그룹화 합니다.
# 성별코드로 그룹화 한 데이터를 세어 봅니다. 
# df.groupby(["성별코드"])["가입자일련번호"].count()
df.groupby(["성별코드"]).count()

In [None]:
# 성별코드와 음주여부로 그룹화를 하고 갯수를 세어봅니다.
df.groupby(["성별코드", "음주여부"])["가입자일련번호"].count()

In [None]:
# 성별코드와 음주여부로 그룹화를 하고 감마지피티의 평균을 구합니다.
df.groupby(["성별코드", "음주여부"])["감마지티피"].mean()

In [None]:
# 성별코드와 음주여부로 그룹화를 하고 감마지피티의 요약수치를 구합니다.
df.groupby(["성별코드","음주여부"])["감마지티피"].describe()

In [None]:
# agg을 사용하면 여러 수치를 함께 구할 수 있습니다. 
df.groupby(["성별코드","음주여부"])["감마지티피"].agg(
    ["count", "mean","median"])

#### 10.2 Pivot_table

* pivot은 연산은 하지 않고, 데이터의 형태만 바꾸고자 할 때.
* pivot_table 연산을 하고자 할때

In [None]:
# 음주 여부에 따른 그룹화된 수를 피봇테이블로 구합니다.
# 데이터프레임으로 결과 출력이 된다.
df.pivot_table(index="음주여부", values="가입자일련번호", aggfunc = "count")

In [None]:
# 음주 여부에 따른 감마지티피의 평균을 구합니다.
pd.pivot_table(df, index="음주여부", values="감마지티피")
# df.pivot_table(index="음주여부", values="감마지티피",aggfunc="mean")

In [None]:
# 기본값은 평균을 구하지만 aggfunc을 통해 지정해 줄 수도 있습니다.
pd.pivot_table(df, index ="음주여부", values="감마지티피", aggfunc="mean")

In [None]:
# aggfunc에 여러 값을 한번에 지정할 수도 있습니다.
pd.pivot_table(df, index ="음주여부", values="감마지티피", 
               aggfunc=["mean","median"])

In [None]:
# aggfunc에 describe를 사용해 통계요약값을 한번에 볼 수도 있습니다.
pd.pivot_table(df, index="음주여부", values="감마지티피",
               aggfunc="describe")

In [None]:
# 성별코드, 음주여부에 따른 감마지티피 값의 평균을 구합니다. 
pd.pivot_table(df, index=["성별코드", "음주여부"], values="감마지티피",
               aggfunc="mean")