In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix

# heart 데이터 CSV 파일 경로 설정
url = "https://raw.githubusercontent.com/MyungKyuYi/AI-class/refs/heads/main/heart.csv"
df = pd.read_csv(url)

# 데이터프레임 확인
display(df.head())
print("컬럼 목록:", df.columns)

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


컬럼 목록: Index(['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
       'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'],
      dtype='object')


In [3]:
# 결측치 확인
print(df.isnull().sum(),"\n")

age         0
sex         0
cp          0
trestbps    0
chol        0
fbs         0
restecg     0
thalach     0
exang       0
oldpeak     0
slope       0
ca          0
thal        0
target      0
dtype: int64 



In [5]:
# 레이블의 데이터 비율을 확인(imbalanced data인지 확인)
print(df['target'].value_counts(),"\n")

target
1    165
0    138
Name: count, dtype: int64 



In [8]:
# LabelEncoder 객체 생성
label_encoder = LabelEncoder()
# 모든 컬럼을 숫자로 변환
for column in df.columns:
    df[column] = label_encoder.fit_transform(df[column])

In [9]:
# 데이터 전처리
X = df.drop('target', axis=1).values  # 특성(Feature) 데이터
y = df['target'].values   # 레이블(Label) 데이터

# x/y데이터. train/test 데이터 분리 (학습 80%, 테스트 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Decision Tree 분류
from sklearn.tree import DecisionTreeClassifier

dt_model = DecisionTreeClassifier() # Deicision Tree 모델 생성
dt_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_dt = dt_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
dt_acc = accuracy_score(y_test, y_pred_dt) # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Decision Tree 정확도: {dt_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_dt) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# Random Forest 분류
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(n_estimators=100) # Random Forest 모델 생성
rf_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_rf = rf_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
rf_acc = accuracy_score(y_test, y_pred_rf)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Random Forest 정확도: {rf_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_rf) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# SVM 분류
from sklearn.svm import SVC

svm_model = SVC() # SVM 모델 생성
svm_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_svm = svm_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
svm_acc = accuracy_score(y_test, y_pred_svm)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"SVM 정확도: {svm_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_svm) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# Logistic Regression 분류
from sklearn.linear_model import LogisticRegression

lr_model = LogisticRegression(max_iter=200) # Logistic Regression 모델 생성
lr_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_lr = lr_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
lr_acc = accuracy_score(y_test, y_pred_lr)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Logistic Regression 정확도: {lr_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_lr) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# KNN 분류
from sklearn.neighbors import KNeighborsClassifier

knn_model = KNeighborsClassifier(n_neighbors=5)  # k=5 설정
knn_model.fit(X_train, y_train)  # 학습 데이터로 모델 학습
y_pred_knn = knn_model.predict(X_test)  # 예측
knn_acc = accuracy_score(y_test, y_pred_knn) # 정확도 검사
print(f"KNN 정확도: {knn_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_knn) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력


Decision Tree 정확도: 0.8525
Confusion Matrix: 
 [[27  2]
 [ 7 25]]
Random Forest 정확도: 0.8689
Confusion Matrix: 
 [[25  4]
 [ 4 28]]
SVM 정확도: 0.8033
Confusion Matrix: 
 [[21  8]
 [ 4 28]]
Logistic Regression 정확도: 0.8525
Confusion Matrix: 
 [[25  4]
 [ 5 27]]
KNN 정확도: 0.7377
Confusion Matrix: 
 [[17 12]
 [ 4 28]]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
