# 주제 : 데이터 분석으로 심부전증을 예방할 수 있을까?
----------

## 실습 가이드
    1. 데이터를 다운로드하여 Colab에 불러옵니다.
    2. 필요한 라이브러리는 모두 코드로 작성되어 있습니다.
    3. 코드는 위에서부터 아래로 순서대로 실행합니다.
    
    
## 데이터 소개
    - 이번 주제는 Heart Failure Prediction 데이터셋을 사용합니다.
    
    - 다음 1개의 csv 파일을 사용합니다.
    heart_failure_clinical_records_dataset.csv
    
    - 각 파일의 컬럼은 아래와 같습니다.
    age: 환자의 나이
    anaemia: 환자의 빈혈증 여부 (0: 정상, 1: 빈혈)
    creatinine_phosphokinase: 크레아틴키나제 검사 결과
    diabetes: 당뇨병 여부 (0: 정상, 1: 당뇨)
    ejection_fraction: 박출계수 (%)
    high_blood_pressure: 고혈압 여부 (0: 정상, 1: 고혈압)
    platelets: 혈소판 수 (kiloplatelets/mL)
    serum_creatinine: 혈중 크레아틴 레벨 (mg/dL)
    serum_sodium: 혈중 나트륨 레벨 (mEq/L)
    sex: 성별 (0: 여성, 1: 남성)
    smoking: 흡연 여부 (0: 비흡연, 1: 흡연)
    time: 관찰 기간 (일)
    DEATH_EVENT: 사망 여부 (0: 생존, 1: 사망)
    
    
    
- 데이터 출처: https://www.kaggle.com/andrewmvd/heart-failure-clinical-data


## 최종 목표
    - 의료 데이터와 그 분석에 대한 이해
    - Colab 및 Pandas 라이브러리 사용법 이해
    - 데이터 시각화를 통한 인사이트 습득 방법의 이해
    - Scikit-learn 기반의 모델 학습 방법 습득
    - Classification 모델의 학습과 평가 방법 이해

- 출제자 : 신제용 강사
---

## Step 0. 의료 데이터셋에 대하여

### 의료 데이터의 수집


### 의료 데이터 분석의 현재


### Accuracy, Precision, 그리고 Recall

## Step 1. 데이터셋 준비하기

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### 문제 1. Colab Notebook에 Kaggle API 세팅하기


In [2]:
import os

In [3]:
# os.environ을 이용하여 Kaggle API Username, Key 세팅하기
os.environ['KAGGLE_USERNAME'] = "leehyunmin"
os.environ['KAGGLE_KEY'] = "554531d31173c6ef61b6036ded26d311"

### 문제 2. 데이터 다운로드 및 압축 해제하기


In [4]:
# Linux 명령어로 Kaggle API를 이용하여 데이터셋 다운로드하기 (!kaggle ~)
# Linux 명령어로 압축 해제하기
!kaggle datasets download -d andrewmvd/heart-failure-clinical-data

Downloading heart-failure-clinical-data.zip to C:\Users\gmlkd\kaggle\Part 1 - 머신러닝 분류 모델\Chapter 1 - 데이터 분석으로 심부전증을 예방할 수 있을까_




  0%|          | 0.00/3.97k [00:00<?, ?B/s]
100%|##########| 3.97k/3.97k [00:00<00:00, 4.08MB/s]
'unzip'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [7]:
%ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 2284-1A14

 C:\Users\gmlkd\kaggle\Part 1 - 머신러닝 분류 모델\Chapter 1 - 데이터 분석으로 심부전증을 예방할 수 있을까_ 디렉터리

2022-05-29  오후 10:44    <DIR>          .
2022-05-29  오후 10:44    <DIR>          ..
2022-05-29  오후 10:42    <DIR>          .ipynb_checkpoints
2021-01-15  오후 06:53            10,625 Chapter 01 - 데이터 분석으로 심부전증을 예방할 수 있을까(문제).ipynb
2021-01-15  오후 06:53           322,460 Chapter01 - 데이터 분석으로 심부전증을 예방할 수 있을까(해설).ipynb
2020-06-20  오전 01:03            12,239 heart_failure_clinical_records_dataset.csv
2022-05-29  오후 10:43             4,067 heart-failure-clinical-data.zip
               4개 파일             349,391 바이트
               3개 디렉터리  745,562,501,120 바이트 남음


### 문제 3. Pandas 라이브러리로 csv파일 읽어들이기


In [8]:
# pd.read_csv()로 csv파일 읽어들이기
df = pd.read_csv('heart_failure_clinical_records_dataset.csv')
df.head()

Unnamed: 0,age,anaemia,creatinine_phosphokinase,diabetes,ejection_fraction,high_blood_pressure,platelets,serum_creatinine,serum_sodium,sex,smoking,time,DEATH_EVENT
0,75.0,0,582,0,20,1,265000.0,1.9,130,1,0,4,1
1,55.0,0,7861,0,38,0,263358.03,1.1,136,1,0,6,1
2,65.0,0,146,0,20,0,162000.0,1.3,129,1,1,7,1
3,50.0,1,111,0,20,0,210000.0,1.9,137,1,0,7,1
4,65.0,1,160,1,20,0,327000.0,2.7,116,0,0,8,1


## Step 2. EDA 및 데이터 기초 통계 분석


### 문제 4. 데이터프레임의 각 컬럼 분석하기


In [None]:
# DataFrame에서 제공하는 메소드를 이용하여 컬럼 분석하기 (head(), info(), describe())





### 문제 5. 수치형 데이터의 히스토그램 그리기


In [None]:
# seaborn의 histplot, jointplot, pairplot을 이용해 히스토그램 그리기





### 문제 6. Boxplot 계열을 이용하여 범주별 통계 확인하기


In [None]:
# seaborn의 Boxplot 계열(boxplot(), violinplot(), swarmplot())을 사용
# Hint) hue 키워드를 사용하여 범주 세분화 가능





## Step 3. 모델 학습을 위한 데이터 전처리


### 문제 7. StandardScaler를 이용하여 데이터 전처리하기


In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# 수치형 입력 데이터, 범주형 입력 데이터, 출력 데이터로 구분하기
X_num = 
X_cat = 
y = 

In [None]:
# 수치형 입력 데이터를 전처리하고 입력 데이터 통합하기
scaler =
X = 

### 문제 8. 학습데이터와 테스트데이터 분리하기


In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# train_test_split() 함수로 학습 데이터와 테스트 데이터 분리하기
X_train, X_test, y_train, y_test = 

## Step 4. Classification 모델 학습하기


### 문제 9. Logistic Regression 모델 생성/학습하기


In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
# LogisticRegression 모델 생성/학습
model_lr = 




### 문제 10. 모델 학습 결과 평가하기


In [None]:
from sklearn.metrics import classification_report

In [None]:
# Predict를 수행하고 classification_report() 결과 출력하기
pred = 




### 문제 11. XGBoost 모델 생성/학습하기


In [None]:
from xgboost import XGBClassifier

In [None]:
# XGBClassifier 모델 생성/학습
model_xgb = 




### 문제 12. 모델 학습 결과 평가하기


In [None]:
# Predict를 수행하고 classification_report() 결과 출력하기
pred = 




### 문제 13. 특징의 중요도 확인하기


In [None]:
# XGBClassifier 모델의 feature_importances_를 이용하여 중요도 plot





## Step5 모델 학습 결과 심화 분석하기


### 문제 14. Precision-Recall 커브 확인하기

In [None]:
from sklearn.metrics import plot_precision_recall_curve

In [None]:
# 두 모델의 Precision-Recall 커브를 한번에 그리기 (힌트: fig.gca()로 ax를 반환받아 사용)





### 문제 15. ROC 커브 확인하기

In [None]:
from sklearn.metrics import plot_roc_curve

In [None]:
# 두 모델의 ROC 커브를 한번에 그리기 (힌트: fig.gca()로 ax를 반환받아 사용)



