In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import seaborn as sns
from google.colab import drive
from tabulate import tabulate

# Google Drive 마운트
drive.mount('/content/drive')

# 데이터 불러오기
file_path = '/content/drive/MyDrive/HAS_FINAL/health_data.CSV'
data = pd.read_csv(file_path, encoding='cp949')  # 한국어 인코딩 지정

# 데이터셋의 첫 몇 행을 표 형태로 출력하여 열 이름 확인
print(tabulate(data.head(), headers='keys', tablefmt='psql'))

# 열 이름 출력
print("Columns in the dataset:")
print(data.columns)

# 목표 열 이름 설정 (예: '수축기혈압')
target_column = '수축기혈압'  # 실제 목표 열 이름으로 변경

# 열 이름 확인
if target_column not in data.columns:
    raise ValueError(f"Target column '{target_column}' not found in data columns")

# 데이터 전처리
# 결측값 처리
data.fillna(data.mean(), inplace=True)

# 범주형 변수를 수치형으로 변환
data = pd.get_dummies(data)

# 특징과 타겟 변수로 데이터 분할
X = data.drop(target_column, axis=1)
y = data[target_column]

# 학습 및 테스트 데이터로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 학습
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 평가
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")

# 시각화: 실제 값 vs 예측 값
plt.figure(figsize=(10, 7))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.xlabel('Actual')
plt.ylabel('Predicted')
plt.title('Actual vs Predicted')
plt.show()

# 중요 변수 시각화
importances = model.feature_importances_
indices = np.argsort(importances)[::-1]
features = X.columns

plt.figure(figsize=(12, 8))
plt.title('Feature Importances')
plt.bar(range(X.shape[1]), importances[indices], align='center')
plt.xticks(range(X.shape[1]), [features[i] for i in indices], rotation=90)
plt.tight_layout()
plt.show()


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
+----+------------+------------------+------------+--------+-----------------------+-----------------+-----------------+------------+------------+------------+------------+------------+--------------+--------------+----------------------+----------------+--------------------+-----------------+-----------------+----------+----------+------------------+-------------------+-------------------+--------------+------------+------------+--------------------+------------------+--------+
|    |   기준년도 |   가입자일련번호 |   시도코드 |   성별 |   연령대코드(5세단위) |   신장(5cm단위) |   체중(5kg단위) |   허리둘레 |   시력(좌) |   시력(우) |   청력(좌) |   청력(우) |   수축기혈압 |   이완기혈압 |   식전혈당(공복혈당) |   총콜레스테롤 |   트리글리세라이드 |   HDL콜레스테롤 |   LDL콜레스테롤 |   혈색소 |   요단백 |   혈청크레아티닌 |   혈청지오티(AST) |   혈청지피티(ALT) |   감마지티피 |   흡연상태 |   음주여부 |   구강검진수검여부 |   치아우식증유무 |   치석 |
|----+------------+------------------+---------