In [34]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [35]:
# 1. 데이터 로드 및 전처리
data = pd.read_csv("dataset/heart.csv")

In [36]:
# 컬럼 이름 한글 주석 (heart.csv 파일에 따라 다를 수 있습니다.)
# age: 나이
# sex: 성별 (0: 여성, 1: 남성)
# cp: 가슴 통증 유형 (0: 무증상, 1: 전형적 협심증, 2: 비전형적 협심증, 3: 협심증 아님)
# trtbps: 안정 혈압 (mm Hg)
# chol: 혈청 콜레스테롤 (mg/dL)
# fbs: 공복 혈당 > 120 mg/dL 여부 (0: False, 1: True)
# restecg: 안정 심전도 결과 (0: 정상, 1: ST-T파 이상, 2: 좌심실 비대)
# thalachh: 최대 심박수
# exng: 운동 유발 협심증 여부 (0: False, 1: True)
# oldpeak: 운동으로 인한 ST 하강
# slp: ST 분절 기울기 (0: 하강, 1: 평탄, 2: 상승)
# caa: 형광 투시로 보이는 주요 혈관 수 (0-3)
# thall: 탈륨 스캔 결과 (0: 결함 없음, 1: 고정 결함, 2: 가역적 결함, 3: 정상)
# target: 심장병 발병 여부 (0: False, 1: True)

In [37]:
# 결측치 확인 및 처리 
data.isnull().sum()  # 결측치 확인 코드 (필요시 주석 해제)
data = data.fillna(data.mean()) # 숫자형 컬럼의 결측치를 평균값으로 대체 (필요시 주석 해제)

In [38]:
data.head()

Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [39]:
# 특징(Features)과 타겟(Target) 분리
X = data.drop('target', axis=1)  # 'target' 컬럼을 제외한 모든 컬럼을 특징으로 사용
y = data['target']  # 'target' 컬럼을 타겟으로 사용 (심장병 발병 여부: 0 또는 1)

In [40]:
# 학습 데이터와 테스트 데이터 분리 (일반적으로 8:2 또는 7:3 비율 사용)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # random_state는 재현성을 위해 설정

In [41]:
# 2. 랜덤 포레스트 모델 학습
# RandomForestClassifier 모델 생성
# n_estimators: 트리의 개수 (클수록 일반적으로 성능이 좋지만, 학습 시간이 늘어남)
# random_state: 재현성을 위한 설정
model = RandomForestClassifier(n_estimators=100, random_state=42)

# 모델 학습 (학습 데이터 사용)
model.fit(X_train, y_train)

In [42]:
# 3. 모델 평가
# 테스트 데이터에 대한 예측 수행
y_pred = model.predict(X_test)

# 정확도(Accuracy) 계산
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

Accuracy: 0.8360655737704918


In [43]:
# 4. 예측 서비스 (간단한 예시)
def predict_heart_disease(age, sex, cp, trtbps, chol, fbs, restecg, thalachh, exng, oldpeak, slp, caa, thall):
    """심장병 발병 여부 예측 함수"""
    # 입력 데이터를 DataFrame 형태로 변환 (모델 입력 형태에 맞춰야 함)
    input_data = pd.DataFrame({
        'age': [age],  # 나이
        'sex': [sex],  # 성별
        'cp': [cp],  # 가슴 통증 유형
        'trtbps': [trtbps],  # 안정 혈압
        'chol': [chol],  # 혈청 콜레스테롤
        'fbs': [fbs],  # 공복 혈당
        'restecg': [restecg],  # 안정 심전도 결과
        'thalachh': [thalachh],  # 최대 심박수
        'exng': [exng],  # 운동 유발 협심증 여부
        'oldpeak': [oldpeak],  # 운동으로 인한 ST 하강
        'slp': [slp],  # ST 분절 기울기
        'caa': [caa],  # 형광 투시로 보이는 주요 혈관 수
        'thall': [thall]  # 탈륨 스캔 결과
    })

    # 모델을 사용하여 예측 수행
    prediction = model.predict(input_data)[0]  # 결과는 배열 형태로 반환되므로 첫 번째 원소만 추출

    return prediction  # 0: 심장병 X, 1: 심장병 O

# 예시 사용
age = 60
sex = 1  # 남성
cp = 1
trtbps = 140
chol = 290
fbs = 0
restecg = 1
thalachh = 150
exng = 0
oldpeak = 2.0
slp = 2
caa = 0
thall = 3

prediction = predict_heart_disease(age, sex, cp, trtbps, chol, fbs, restecg, thalachh, exng, oldpeak, slp, caa, thall)

if prediction == 0:
    print("심장병 발병 가능성이 낮습니다.")
else:
    print("심장병 발병 가능성이 높습니다.")

심장병 발병 가능성이 낮습니다.
