# 비어플 16기 신입세션 1주차

## 0. 도메인 살펴보기 : 건강검진정보 데이터

1. 개요
- 건강검진정보 데이터는 국민건강보험에서 제공하는 건강검진 결과 및 수검 이력 데이터로, 매년 약 **100만 명**의 검진 데이터를 포함하며, 건강 상태와 관련된 통계 및 분석에 유용한 공공데이터
- 대상자 정보 : 성별, 연령대 시도코드 등 기본적인 인구통계학적 정보
- 검진 내역 : 신장, 체중, 총콜레스테롤, 혈색소, 혈압, 공복혈당 등 주요 건강 지표

2. 데이터 변수 설명
- '연령대코드(5세단위)' : 20세-85세 이상까지의 나이 정보가 담겨있음.(5=20-24세, 6=25-29세 , ...)
- '감마지티피' : 간의 상태를 나타내는 주요 지표로, 흡연과 연관지을 수 있음
- '수축기혈압','이완기혈압' : 심장이 수축/이완할 때의 혈압 (정상범위 - 수축기(120mmHg이하), 이완기(80mmHg) 이하)
- 'HDL콜레스테롤' : '좋은 콜레스테롤'로 불리며, 수치가 높을수록 심혈관 질환 위험이 낮아짐 (정상범위 - 40mg/dL)
- 'LDL콜레스테롤' : '나쁜 콜레스테롤'로 불리며, 수치가 높으면 동맥경화 위험이 증가함 (정상범위 - 100mg/dL)
- '간 기능 관련' : '혈정지오티(AST)', '혈청지피티(ALT)', '감마지피티' - 간의 사태를 나타내는 주요 지표, 흡연/음주와 연관?


## 1. 가설 세우기
- 연령대가 높아질수록 대사증후군 관련 지표(허리둘레, 공복혈당, 혈압 등)의 값이 높아질 것이다.
- 흡연자는 비흡연자보다 간 기능 수치(감마지티피, 혈청지오티 등)가 나쁠 것이다.
- 특정 지역(시도코드)에 따라 평균 체질량지수(BMI)가 다를 수 있다.
- 등등.. **도메인에 맞게 가설을 설정하고, EDA&전처리를 통해 확인**


## 2. 라이브러리 로드 & 한글폰트 설정

pandas : 데이터 분석 라이브러리  
numpy : 다양한 계산과 분석 라이브러리  
matplotlib : 시각화 도구 제공  
seaborn : 더 정돈된 시각화 도구

In [1]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# 한글폰트 사용을 위해 설치
# 아래 코드 실행하면 한글 폰트 설치할 필요 없음!

import koreanize_matplotlib

## 3. 데이터 불러오기

### 건강검진정보 데이터 소개
- 총 32개 변수
- 주요 항목 : 성별, 연령대, 신체지표(신장, 체중, 허리둘레), 건강지표(혈압,혈당, 콜레스테롤) 등

In [5]:
df=pd.read_csv("국민건강보험공단_건강검진정보_2023.csv", encoding="cp949")

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 33 columns):
 #   Column         Non-Null Count    Dtype  
---  ------         --------------    -----  
 0   기준년도           1000000 non-null  int64  
 1   가입자일련번호        1000000 non-null  int64  
 2   시도코드           1000000 non-null  int64  
 3   성별코드           1000000 non-null  int64  
 4   연령대코드(5세단위)    1000000 non-null  int64  
 5   신장(5cm단위)      1000000 non-null  int64  
 6   체중(5kg단위)      1000000 non-null  int64  
 7   허리둘레           999589 non-null   float64
 8   시력(좌)          999816 non-null   float64
 9   시력(우)          999823 non-null   float64
 10  청력(좌)          999863 non-null   float64
 11  청력(우)          999862 non-null   float64
 12  수축기혈압          994253 non-null   float64
 13  이완기혈압          994253 non-null   float64
 14  식전혈당(공복혈당)     994186 non-null   float64
 15  총콜레스테롤         338606 non-null   float64
 16  트리글리세라이드       338606 non-null   float64
 17  HDL콜레스테롤 

## 4. EDA
### 목적  
- 데이터의 개형 살펴보기
- 간단한 인사이트 얻기
- 전처리를 위한 준비

### 4-1. 데이터 살펴보기

**기준년도**: 검사 연도  
**가입자일련번호**: 고유 식별번호  
**시도코드**: 지역 코드  
**성별코드**: 성별 코드 (1: 남성, 2: 여성)  
**연령대코드(5세단위)**: 5세 단위로 구분된 연령대  
**신장, 체중**: 신체 측정값  
**허리둘레**: 복부 측정값  
**시력, 청력**: 좌우 시력과 청력 측정값  
**혈압**: 수축기 및 이완기 혈압  
**혈당, 콜레스테롤**: 건강 지표들
**흡연여부**: 1: 비흡연자, 2: 과거흡연자, 3: 흡연자