In [1]:
import pandas as pd

# 예시 데이터 생성
data = {'sex': [1, 0, 1, 0, 1],
        'weight': [70, 65, 80, 60, 75],
        'height': [175, 170, 180, 165, 178]}

df_train = pd.DataFrame(data)

# yhat 계산 (이전 단계에서의 평균값 활용)
yhat = df_train['height'].mean()

# r 계산
r = df_train['height'] - yhat

# Weight의 최솟값과 최댓값 출력
weight_range = (df_train['weight'].min(), df_train['weight'].max())
print("Weight의 최솟값과 최댓값:", weight_range)

# 의사결정나무를 수동으로 구현하여 최적의 c와 R-squared 값 찾기
best_c = None
best_r2_score = -1

for c in range(int(weight_range[0]), int(weight_range[1]) + 1):
    # 분할 조건 설정
    df_train['weight_split'] = df_train['weight'] < c

    # 각 분할에 대한 평균값 계산
    mean_left = df_train.loc[df_train['weight_split'], 'height'].mean()
    mean_right = df_train.loc[~df_train['weight_split'], 'height'].mean()

    # 예측값 계산
    y_pred = df_train['weight_split'].map({True: mean_left, False: mean_right})

    # R-squared 계산
    ss_total = ((df_train['height'] - yhat) ** 2).sum()
    ss_residual = ((df_train['height'] - y_pred) ** 2).sum()
    current_r2_score = 1 - (ss_residual / ss_total)

    # 최적의 c 및 R-squared 값 갱신
    if current_r2_score > best_r2_score:
        best_r2_score = current_r2_score
        best_c = c

# 결과 출력
print("최적의 c:", best_c)
print("최적의 R-squared:", best_r2_score)


Weight의 최솟값과 최댓값: (60, 80)
최적의 c: 66
최적의 R-squared: 0.8313226094727435
