In [58]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_squared_error


# diabates 데이터 CSV 파일 읽기
url = "https://raw.githubusercontent.com/MyungKyuYi/AI-class/refs/heads/main/diabetes.csv"  # 실제 경로로 변경하세요
df = pd.read_csv(url)

# 데이터프레임 확인
display(df.head())
print("컬럼 목록:", df.columns)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


컬럼 목록: Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')


In [60]:
# 결측치 확인
print(df.isnull().sum(),"\n")

# 레이블의 데이터 비율을 확인(imbalanced data인지 확인)
print(df['BMI'].value_counts(),"\n")

# 불필요한 컬럼 제거
df.drop(columns=['Outcome'], inplace=True)

'''
# BMI와 다른 변수의 상관계수 계산
correlation = df.corr()["BMI"].sort_values(ascending=False)
print("BMI와 다른 변수 간의 상관계수:\n", correlation)
'''

# 데이터 전처리
X = df.drop(columns=["BMI"], axis=1)  # 특성(Feature) 데이터
y = df["BMI"]    # 레이블(Label) 데이터

# 문자열 레이블을 숫자로 변환
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64 

BMI
32.0    13
31.6    12
31.2    12
0.0     11
32.4    10
        ..
36.7     1
41.8     1
42.6     1
42.8     1
46.3     1
Name: count, Length: 248, dtype: int64 



In [64]:
# x/y데이터. train/test 데이터 분리 (학습 80%, 테스트 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Decision Tree 분류
from sklearn.tree import DecisionTreeRegressor

dt_model = DecisionTreeRegressor() # Deicision Tree 모델 생성
dt_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_dt = dt_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
print('평균제곱근오차', mean_squared_error(y_pred_dt,y_test)) # 평균제곱근 오차 출력

'''
# 산점도 출력
plt.figure(figsize=(10,5))
plt.scatter(X_test['SkinThickness'], y_test, label='y_test')
plt.scatter(X_test['SkinThickness'], y_pred_dt, c='y', label='y_pred_dt')
#plt.plot(X_train, lr.predict(X_train), color='blue')
plt.show()      
'''

# Random Forest 분류
from sklearn.ensemble import RandomForestRegressor

rf_model = RandomForestRegressor(n_estimators=100) # Random Forest 모델 생성
rf_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_rf = rf_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
print('평균제곱근오차', mean_squared_error(y_pred_rf,y_test)) # 평균제곱근 오차 출력

# SVR 분류
from sklearn.svm import SVR

svr_model = SVR(kernel='linear') # SVR 모델 생성
svr_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_svr = svr_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
print('평균제곱근오차', mean_squared_error(y_pred_svr,y_test)) # 평균제곱근 오차 출력

# Linear Regression
from sklearn.linear_model import LinearRegression

lr_model = LinearRegression()
lr_model.fit(X_train, y_train)
y_pred_lr = lr_model.predict(X_test)
print('평균제곱근오차:', mean_squared_error(y_test, y_pred_lr))


평균제곱근오차 4697.467532467533
평균제곱근오차 2518.6424292207794
평균제곱근오차 2845.9842229396577
평균제곱근오차: 2721.4224070399778
