In [129]:
import pandas as pd
import numpy as np

In [130]:
import warnings
warnings.filterwarnings(action='ignore')

### 전처리된 데이터 불러오기

In [131]:
baby_growth_df = pd.read_csv("./baby_growth_df.csv")
baby_growth_df

Unnamed: 0,days,height,weight,gender
0,0,52.0,3.78,1
1,0,52.0,3.78,1
2,0,50.0,3.20,1
3,1,51.0,2.45,1
4,1,50.0,2.80,1
...,...,...,...,...
79344,365,74.6,9.60,0
79345,365,74.6,8.60,0
79346,365,74.6,9.40,0
79347,365,74.6,9.40,0


In [133]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

### height 예측 모델링

In [157]:
# 독립 변수와 종속 변수 분리
X = baby_growth_df[['days','gender']]
y = baby_growth_df['height']

# train/test 데이터 분리, 성별 비중 유지
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=X['gender'], random_state=42)

### (1) LinearRegression - height 예측 모델

In [158]:
# linear regression 모델 학습
lr_height = LinearRegression()
lr_height.fit(X_train, y_train)

# test 데이터로 예측
y_pred = lr_height.predict(X_test)

# 모델 성능 평가
r2 = r2_score(y_test, y_pred)
print('R-squared:', r2)

# MSE 평가
mse = mean_squared_error(y_test, y_pred)
print("LinearRegression MSE:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(lr_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lr_height.score(X_test, y_test)))

R-squared: 0.9053437089619766
LinearRegression MSE: 3.52819616917368
훈련 세트 정확도: 0.905
테스트 세트 정확도: 0.905


### (1-1) 이차항 선형 회귀 - height 예측 모델

In [140]:
# 이차항 생성
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly_height = poly.fit_transform(X)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X_poly_height, y, test_size=0.25, stratify=X['gender'], random_state=42)

# 모델 학습
lr2_height = LinearRegression()
lr2_height.fit(X_train, y_train)

# 예측
y_pred = lr2_height.predict(X_test)

# 평가
mse = mean_squared_error(y_test, y_pred)
print("linearRegression2 Mean Squared Error:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(lr2_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lr2_height.score(X_test, y_test)))


linearRegression2 Mean Squared Error: 0.6987426294820096
훈련 세트 정확도: 0.981
테스트 세트 정확도: 0.981


### (2) RandomForestRegressor - height 예측 모델

In [92]:
# RandomForestRegressor 모델 객체 생성
rf_height = RandomForestRegressor(random_state=42)

# 모델 학습
rf_height.fit(X_train, y_train)

# 모델 평가 - 예측값 생성
y_pred = rf_height.predict(X_test)

# 모델 평가 - 평균 제곱 오차 계산
mse = mean_squared_error(y_test, y_pred)
print("RandomForestRegressor Mean Squared Error:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(rf_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(rf_height.score(X_test, y_test)))

RandomForestRegressor Mean Squared Error: 0.25375292488684353
훈련 세트 정확도: 0.993
테스트 세트 정확도: 0.993


### (3) XGBRegressor - height 예측 모델

In [93]:
# 모델 객체 생성
xgb_height = XGBRegressor(objective='reg:squarederror', tree_method='hist', random_state=42)

# 모델 학습
xgb_height.fit(X_train, y_train)

# 검증용 데이터를 사용하여 예측 수행
y_pred = xgb_height.predict(X_test)

# 모델 성능 평가
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"xgboost MSE: {mse:.3f}")
print(f"xgboost MAE: {mae:.3f}")
print(f"xgboost R-squared: {r2:.3f}")

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(xgb_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(xgb_height.score(X_test, y_test)))

xgboost MSE: 0.316
xgboost MAE: 0.204
xgboost R-squared: 0.992
훈련 세트 정확도: 0.992
테스트 세트 정확도: 0.992


### RandomForestRegressor hyperparameter tuning

In [9]:
# 하이퍼파라미터 후보 값들
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 20],
    'min_samples_split': [2, 5, 10]
}

# GridSearchCV 수행
rf_height = RandomForestRegressor(random_state=42)
grid_search = GridSearchCV(rf_height, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터와 그 때의 성능 출력
print("Best hyperparameters:", grid_search.best_params_)
print("Best CV score:", -grid_search.best_score_)

# 최적의 하이퍼파라미터로 모델 학습 및 평가
rf_height_best = RandomForestRegressor(n_estimators=grid_search.best_params_['n_estimators'],
                                 max_depth=grid_search.best_params_['max_depth'],
                                 min_samples_split=grid_search.best_params_['min_samples_split'],
                                 random_state=42)
rf_height_best.fit(X_train, y_train)
y_pred_rf = rf_height_best.predict(X_test)
print("Test MSE:", mean_squared_error(y_test, y_pred_rf))

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(rf_height_best.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(rf_height_best.score(X_test, y_test)))


Best hyperparameters: {'max_depth': 20, 'min_samples_split': 2, 'n_estimators': 50}
Best CV score: 0.2536826197356331
Test MSE: 0.2537769441848588
훈련 세트 정확도: 0.993
테스트 세트 정확도: 0.993


### (4) LightGBM - height 예측 모델

In [159]:
# LightGBM 모델링
lgbm_height = LGBMRegressor(random_state=42)
lgbm_height.fit(X_train, y_train)

# 예측값 생성
y_pred = lgbm_height.predict(X_test)

# MSE 평가
mse = mean_squared_error(y_test, y_pred)
print("lightGBM MSE:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(lgbm_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lgbm_height.score(X_test, y_test)))

lightGBM MSE: 0.30606518685357387
훈련 세트 정확도: 0.992
테스트 세트 정확도: 0.992


### (5) GradientBoosting - height 예측 모델

In [95]:
# Gradient Boosting 모델 학습
gbr_height = GradientBoostingRegressor(random_state=42)
gbr_height.fit(X_train, y_train)

# 모델 예측
y_pred = gbr_height.predict(X_test)

# 모델 평가
mse = mean_squared_error(y_test, y_pred)
print("GradientBoostingRegressor MSE:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(gbr_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(gbr_height.score(X_test, y_test)))

GradientBoostingRegressor MSE: 0.35741078812332194
훈련 세트 정확도: 0.990
테스트 세트 정확도: 0.990


### Weight 예측 모델링

In [160]:
# 독립 변수와 종속 변수 분리
X_data = baby_growth_df[['days','gender','height']]
y_target = baby_growth_df['weight']

# train/test 데이터 분리, 성별 비중 유지
X_train, X_test, y_train, y_test = train_test_split(X_data, y_target, test_size=0.25, stratify=X_data['gender'], random_state=42)

In [146]:
# 이차항 생성
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly_weight = poly.fit_transform(X_data)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X_poly_weight, y_target, test_size=0.25, stratify=X_data['gender'], random_state=42)

# 모델 학습
lr2_weight = LinearRegression()
lr2_weight.fit(X_train, y_train)

# 예측
y_pred = lr2_weight.predict(X_test)

# 평가
mse = mean_squared_error(y_test, y_pred)
print("linearRegression2 Mean Squared Error:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(lr2_weight.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lr2_weight.score(X_test, y_test)))


linearRegression2 Mean Squared Error: 0.3476746801007111
훈련 세트 정확도: 0.890
테스트 세트 정확도: 0.890


### (1) RandomForestRegressor - weight 예측 모델

In [47]:
# 하이퍼파라미터 후보 값들
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 20],
    'min_samples_split': [2, 5, 10]
}

# GridSearchCV 수행
rf_weight = RandomForestRegressor(random_state=42)
grid_search = GridSearchCV(rf_weight, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터와 그 때의 성능 출력
print("Best hyperparameters:", grid_search.best_params_)
print("Best CV score:", -grid_search.best_score_)

# 최적의 하이퍼파라미터로 모델 학습 및 평가
rf_weight_best = RandomForestRegressor(n_estimators=grid_search.best_params_['n_estimators'],
                                 max_depth=grid_search.best_params_['max_depth'],
                                 min_samples_split=grid_search.best_params_['min_samples_split'],
                                 random_state=42)
rf_weight_best.fit(X_train, y_train)
y_pred_rf = rf_weight_best.predict(X_test)
print("Test MSE:", mean_squared_error(y_test, y_pred_rf))

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(rf_weight_best.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(rf_weight_best.score(X_test, y_test)))


Best hyperparameters: {'max_depth': 10, 'min_samples_split': 10, 'n_estimators': 100}
Best CV score: 0.3465750289982933
Test MSE: 0.34468287750259985
훈련 세트 정확도: 0.894
테스트 세트 정확도: 0.891


AttributeError: 'RandomForestRegressor' object has no attribute 'oob_score_'

### (2) LinearRegressor - weight 예측 모델

In [125]:
lr_weight = LinearRegression()

lr_weight.fit(X_train, y_train)
lr_weight.score(X_test, y_test)

print("훈련 세트 정확도: {:.3f}".format(lr_weight.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lr_weight.score(X_test, y_test)))

훈련 세트 정확도: 0.872
테스트 세트 정확도: 0.873


### (3) GradientBoostingRegressor - weight 예측 모델

In [98]:
gbr_weight = GradientBoostingRegressor()

gbr_weight.fit(X_train, y_train)

# 평가
print("훈련 세트 정확도: {:.3f}".format(gbr_weight.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(gbr_weight.score(X_test, y_test)))

훈련 세트 정확도: 0.892
테스트 세트 정확도: 0.891


### (4) lightGBM - weight 예측 모델

In [161]:
# LightGBM 모델링
lgbm_weight = LGBMRegressor(random_state=42)
lgbm_weight.fit(X_train, y_train)

# 예측값 생성
y_pred = lgbm_weight.predict(X_test)

# MSE 평가
mse = mean_squared_error(y_test, y_pred)
print("lightGBM MSE:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(lgbm_weight.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lgbm_weight.score(X_test, y_test)))

lightGBM MSE: 0.34462365868841655
훈련 세트 정확도: 0.893
테스트 세트 정확도: 0.891


In [163]:
# 사용자로부터 데이터 입력받기
input_days = int(input("생후 일 수를 입력하세요: "))
input_height = float(input("아기의 현재 키를 입력하세요 (단위: cm): "))
input_weight = float(input("아기의 현재 몸무게를 입력하세요 (단위: kg): "))
input_gender = input("아기의 성별을 입력하세요 (F/M): ")

# 입력받은 데이터로 1개월, 3개월, 6개월 뒤의 키 예측
if input_gender == 'F':
    gender = 0
elif input_gender == 'M':
    gender = 1
else:
    print("성별은 'F' 또는 'M' 중에서 입력해주세요.")
    exit()


# polynomial regression
#one_month_pred_height = lr2_height.predict([[(input_days+30)**2, (input_days + 30), gender]])
#three_month_pred_height = lr2_height.predict(np.array([[((input_days+90)**2), (input_days+90), gender]])) 
#six_month_pred_height = lr2_height.predict(np.array([[((input_days+180)**2), (input_days+180), gender]])) 

#one_month_pred_weight = lr2_weight.predict(np.array([[((input_days+30)**2), (input_days+30), gender, one_month_pred_height]]))
#three_month_pred_weight = lr2_weight.predict(np.array([[((input_days+90)**2), (input_days+90), gender, three_month_pred_height]])) 
#six_month_pred_weight = lr2_weight.predict(np.array([[((input_days+180)**2), (input_days+180), gender, six_month_pred_height]])) 
one_month_pred_height = lgbm_height.predict([[input_days+30, gender]])
three_month_pred_height = lgbm_height.predict([[input_days+90, gender]])
six_month_pred_height = lgbm_height.predict([[input_days+180, gender]])

one_month_pred_weight = lgbm_weight.predict([[input_days+30, gender, one_month_pred_height]])
three_month_pred_weight = lgbm_weight.predict([[input_days+90, gender, three_month_pred_height]])
six_month_pred_weight = lgbm_weight.predict([[input_days+180, gender, six_month_pred_height]])


# 결과 출력
print(f"아기의 1개월 뒤 예상 키는 {one_month_pred_height[0]:.1f}cm 입니다.")
print(f"아기의 3개월 뒤 예상 키는 {three_month_pred_height[0]:.1f}cm 입니다.")
print(f"아기의 6개월 뒤 예상 키는 {six_month_pred_height[0]:.1f}cm 입니다.")
print(f"아기의 1개월 뒤 예상 몸무게는 {one_month_pred_weight[0]:.1f}kg 입니다.")
print(f"아기의 3개월 뒤 예상 몸무게는 {three_month_pred_weight[0]:.1f}kg 입니다.")
print(f"아기의 6개월 뒤 예상 몸무게는 {six_month_pred_weight[0]:.1f}kg 입니다.")

아기의 1개월 뒤 예상 키는 69.2cm 입니다.
아기의 3개월 뒤 예상 키는 72.8cm 입니다.
아기의 6개월 뒤 예상 키는 76.0cm 입니다.
아기의 1개월 뒤 예상 몸무게는 8.4kg 입니다.
아기의 3개월 뒤 예상 몸무게는 9.2kg 입니다.
아기의 6개월 뒤 예상 몸무게는 10.3kg 입니다.


In [None]:
# 독립 변수와 종속 변수 분리
X = baby_growth_df[['days','gender']]
y = baby_growth_df['height']

# train/test 데이터 분리, 성별 비중 유지
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=X['gender'], random_state=42)

In [127]:
# for height graph
graph_height = [input_height] # 0일 뒤 키 == 현재 입력 키
x_height_days = list(range(1,181)) # 1일 뒤부터 180일 뒤 까지
for i in range(1,181):
    graph_height.append(lr_height.predict([[input_days + i, gender]])[0])
graph_height


[65.0,
 66.07416776598242,
 66.15682979043461,
 66.2394918148868,
 66.322153839339,
 66.40481586379119,
 66.48747788824338,
 66.57013991269557,
 66.65280193714776,
 66.73546396159995,
 66.81812598605214,
 66.90078801050433,
 66.98345003495652,
 67.0661120594087,
 67.14877408386089,
 67.23143610831308,
 67.31409813276527,
 67.39676015721746,
 67.47942218166965,
 67.56208420612184,
 67.64474623057403,
 67.72740825502622,
 67.81007027947841,
 67.8927323039306,
 67.97539432838279,
 68.05805635283498,
 68.14071837728717,
 68.22338040173936,
 68.30604242619155,
 68.38870445064374,
 68.47136647509593,
 68.55402849954812,
 68.63669052400031,
 68.7193525484525,
 68.8020145729047,
 68.88467659735689,
 68.96733862180908,
 69.05000064626127,
 69.13266267071346,
 69.21532469516565,
 69.29798671961784,
 69.38064874407003,
 69.46331076852222,
 69.54597279297441,
 69.6286348174266,
 69.71129684187879,
 69.79395886633098,
 69.87662089078317,
 69.95928291523535,
 70.04194493968754,
 70.12460696413973,
 

In [128]:
# for weight graph
graph_weight = [input_weight] # 0일 뒤 몸무게 == 현재 입력 몸무게
x_weight_days = list(range(1,181)) # 1일 뒤부터 180일 뒤 까지
for i in range(1,181):
    graph_weight.append(lr_weight.predict([[input_days + i, gender, graph_height[i]]])[0])
graph_weight


[9.0,
 7.669898517865672,
 7.692568113455895,
 7.715237709046118,
 7.7379073046363445,
 7.760576900226567,
 7.78324649581679,
 7.805916091407017,
 7.82858568699724,
 7.851255282587463,
 7.873924878177686,
 7.896594473767909,
 7.919264069358132,
 7.941933664948351,
 7.964603260538578,
 7.987272856128801,
 8.009942451719024,
 8.03261204730925,
 8.055281642899473,
 8.077951238489696,
 8.100620834079923,
 8.123290429670146,
 8.145960025260365,
 8.168629620850592,
 8.191299216440814,
 8.213968812031037,
 8.236638407621264,
 8.259308003211487,
 8.28197759880171,
 8.304647194391936,
 8.32731678998216,
 8.349986385572382,
 8.372655981162609,
 8.395325576752832,
 8.417995172343055,
 8.440664767933278,
 8.4633343635235,
 8.486003959113724,
 8.50867355470395,
 8.531343150294173,
 8.554012745884396,
 8.576682341474623,
 8.599351937064846,
 8.622021532655069,
 8.644691128245295,
 8.667360723835518,
 8.690030319425741,
 8.712699915015964,
 8.735369510606183,
 8.758039106196406,
 8.780708701786633,
 