In [1]:
import pandas as pd
import numpy as np

In [2]:
import warnings
warnings.filterwarnings(action='ignore')

### 전처리된 데이터 불러오기

In [3]:
baby_growth_df = pd.read_csv("./baby_growth_df.csv")
baby_growth_df

Unnamed: 0,days,height,weight,gender
0,0,52.0,3.78,1
1,0,52.0,3.78,1
2,0,50.0,3.20,1
3,1,51.0,2.45,1
4,1,50.0,2.80,1
...,...,...,...,...
79344,365,74.6,9.60,0
79345,365,74.6,8.60,0
79346,365,74.6,9.40,0
79347,365,74.6,9.40,0


In [14]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

### height 예측 모델링

In [15]:
# 독립 변수와 종속 변수 분리
X = baby_growth_df[['days','gender']]
y = baby_growth_df['height']

# train/test 데이터 분리, 성별 비중 유지
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=X['gender'], random_state=42)

### (1) LinearRegression - height 예측 모델

In [16]:
# linear regression 모델 학습
lr_height = LinearRegression()
lr_height.fit(X_train, y_train)

# test 데이터로 예측
y_pred = lr_height.predict(X_test)

# 모델 성능 평가
r2 = r2_score(y_test, y_pred)
print('R-squared:', r2)

# MSE 평가
mse = mean_squared_error(y_test, y_pred)
print("LinearRegression MSE:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(lr_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lr_height.score(X_test, y_test)))

R-squared: 0.9053437089619766
LinearRegression MSE: 3.528196169173679
훈련 세트 정확도: 0.905
테스트 세트 정확도: 0.905


### (1-1) 이차항 선형 회귀 - height 예측 모델

In [7]:
# 이차항 생성
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly_height = poly.fit_transform(X)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X_poly_height, y, test_size=0.25, stratify=X['gender'], random_state=42)

# 모델 학습
lr2_height = LinearRegression()
lr2_height.fit(X_train, y_train)

# 예측
y_pred = lr2_height.predict(X_test)

# 평가
mse = mean_squared_error(y_test, y_pred)
print("linearRegression2 Mean Squared Error:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(lr2_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lr2_height.score(X_test, y_test)))


linearRegression2 Mean Squared Error: 0.6987426294820094
훈련 세트 정확도: 0.981
테스트 세트 정확도: 0.981


### (2) RandomForestRegressor - height 예측 모델

In [8]:
# RandomForestRegressor 모델 객체 생성
rf_height = RandomForestRegressor(random_state=42)

# 모델 학습
rf_height.fit(X_train, y_train)

# 모델 평가 - 예측값 생성
y_pred = rf_height.predict(X_test)

# 모델 평가 - 평균 제곱 오차 계산
mse = mean_squared_error(y_test, y_pred)
print("RandomForestRegressor Mean Squared Error:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(rf_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(rf_height.score(X_test, y_test)))

RandomForestRegressor Mean Squared Error: 0.2537233045093775
훈련 세트 정확도: 0.993
테스트 세트 정확도: 0.993


### (3) XGBRegressor - height 예측 모델

In [93]:
# 모델 객체 생성
xgb_height = XGBRegressor(objective='reg:squarederror', tree_method='hist', random_state=42)

# 모델 학습
xgb_height.fit(X_train, y_train)

# 검증용 데이터를 사용하여 예측 수행
y_pred = xgb_height.predict(X_test)

# 모델 성능 평가
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"xgboost MSE: {mse:.3f}")
print(f"xgboost MAE: {mae:.3f}")
print(f"xgboost R-squared: {r2:.3f}")

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(xgb_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(xgb_height.score(X_test, y_test)))

xgboost MSE: 0.316
xgboost MAE: 0.204
xgboost R-squared: 0.992
훈련 세트 정확도: 0.992
테스트 세트 정확도: 0.992


### RandomForestRegressor hyperparameter tuning

In [9]:
# 하이퍼파라미터 후보 값들
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 20],
    'min_samples_split': [2, 5, 10]
}

# GridSearchCV 수행
rf_height = RandomForestRegressor(random_state=42)
grid_search = GridSearchCV(rf_height, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터와 그 때의 성능 출력
print("Best hyperparameters:", grid_search.best_params_)
print("Best CV score:", -grid_search.best_score_)

# 최적의 하이퍼파라미터로 모델 학습 및 평가
rf_height_best = RandomForestRegressor(n_estimators=grid_search.best_params_['n_estimators'],
                                 max_depth=grid_search.best_params_['max_depth'],
                                 min_samples_split=grid_search.best_params_['min_samples_split'],
                                 random_state=42)
rf_height_best.fit(X_train, y_train)
y_pred_rf = rf_height_best.predict(X_test)
print("Test MSE:", mean_squared_error(y_test, y_pred_rf))

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(rf_height_best.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(rf_height_best.score(X_test, y_test)))


Best hyperparameters: {'max_depth': 20, 'min_samples_split': 2, 'n_estimators': 50}
Best CV score: 0.2536826197356331
Test MSE: 0.2537769441848588
훈련 세트 정확도: 0.993
테스트 세트 정확도: 0.993


### (4) LightGBM - height 예측 모델

In [159]:
# LightGBM 모델링
lgbm_height = LGBMRegressor(random_state=42)
lgbm_height.fit(X_train, y_train)

# 예측값 생성
y_pred = lgbm_height.predict(X_test)

# MSE 평가
mse = mean_squared_error(y_test, y_pred)
print("lightGBM MSE:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(lgbm_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lgbm_height.score(X_test, y_test)))

lightGBM MSE: 0.30606518685357387
훈련 세트 정확도: 0.992
테스트 세트 정확도: 0.992


### (5) GradientBoosting - height 예측 모델

In [95]:
# Gradient Boosting 모델 학습
gbr_height = GradientBoostingRegressor(random_state=42)
gbr_height.fit(X_train, y_train)

# 모델 예측
y_pred = gbr_height.predict(X_test)

# 모델 평가
mse = mean_squared_error(y_test, y_pred)
print("GradientBoostingRegressor MSE:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(gbr_height.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(gbr_height.score(X_test, y_test)))

GradientBoostingRegressor MSE: 0.35741078812332194
훈련 세트 정확도: 0.990
테스트 세트 정확도: 0.990


### Weight 예측 모델링

In [17]:
# 독립 변수와 종속 변수 분리
X_data = baby_growth_df[['days','gender','height']]
y_target = baby_growth_df['weight']

# train/test 데이터 분리, 성별 비중 유지
X_train, X_test, y_train, y_test = train_test_split(X_data, y_target, test_size=0.25, stratify=X_data['gender'], random_state=42)

In [11]:
# 이차항 생성
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly_weight = poly.fit_transform(X_data)

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X_poly_weight, y_target, test_size=0.25, stratify=X_data['gender'], random_state=42)

# 모델 학습
lr2_weight = LinearRegression()
lr2_weight.fit(X_train, y_train)

# 예측
y_pred = lr2_weight.predict(X_test)

# 평가
mse = mean_squared_error(y_test, y_pred)
print("linearRegression2 Mean Squared Error:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(lr2_weight.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lr2_weight.score(X_test, y_test)))


linearRegression2 Mean Squared Error: 0.3476746801007055
훈련 세트 정확도: 0.890
테스트 세트 정확도: 0.890


### (1) RandomForestRegressor - weight 예측 모델

In [47]:
# 하이퍼파라미터 후보 값들
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 20],
    'min_samples_split': [2, 5, 10]
}

# GridSearchCV 수행
rf_weight = RandomForestRegressor(random_state=42)
grid_search = GridSearchCV(rf_weight, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터와 그 때의 성능 출력
print("Best hyperparameters:", grid_search.best_params_)
print("Best CV score:", -grid_search.best_score_)

# 최적의 하이퍼파라미터로 모델 학습 및 평가
rf_weight_best = RandomForestRegressor(n_estimators=grid_search.best_params_['n_estimators'],
                                 max_depth=grid_search.best_params_['max_depth'],
                                 min_samples_split=grid_search.best_params_['min_samples_split'],
                                 random_state=42)
rf_weight_best.fit(X_train, y_train)
y_pred_rf = rf_weight_best.predict(X_test)
print("Test MSE:", mean_squared_error(y_test, y_pred_rf))

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(rf_weight_best.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(rf_weight_best.score(X_test, y_test)))


Best hyperparameters: {'max_depth': 10, 'min_samples_split': 10, 'n_estimators': 100}
Best CV score: 0.3465750289982933
Test MSE: 0.34468287750259985
훈련 세트 정확도: 0.894
테스트 세트 정확도: 0.891


AttributeError: 'RandomForestRegressor' object has no attribute 'oob_score_'

### (2) LinearRegressor - weight 예측 모델

In [18]:
lr_weight = LinearRegression()

lr_weight.fit(X_train, y_train)
lr_weight.score(X_test, y_test)

print("훈련 세트 정확도: {:.3f}".format(lr_weight.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lr_weight.score(X_test, y_test)))

훈련 세트 정확도: 0.885
테스트 세트 정확도: 0.885


### (3) GradientBoostingRegressor - weight 예측 모델

In [98]:
gbr_weight = GradientBoostingRegressor()

gbr_weight.fit(X_train, y_train)

# 평가
print("훈련 세트 정확도: {:.3f}".format(gbr_weight.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(gbr_weight.score(X_test, y_test)))

훈련 세트 정확도: 0.892
테스트 세트 정확도: 0.891


### (4) lightGBM - weight 예측 모델

In [161]:
# LightGBM 모델링
lgbm_weight = LGBMRegressor(random_state=42)
lgbm_weight.fit(X_train, y_train)

# 예측값 생성
y_pred = lgbm_weight.predict(X_test)

# MSE 평가
mse = mean_squared_error(y_test, y_pred)
print("lightGBM MSE:", mse)

# 정확도 평가
print("훈련 세트 정확도: {:.3f}".format(lgbm_weight.score(X_train, y_train)))
print("테스트 세트 정확도: {:.3f}".format(lgbm_weight.score(X_test, y_test)))

lightGBM MSE: 0.34462365868841655
훈련 세트 정확도: 0.893
테스트 세트 정확도: 0.891


In [23]:
# 사용자로부터 데이터 입력받기
input_days = int(input("생후 일 수를 입력하세요: "))
input_height = float(input("아기의 현재 키를 입력하세요 (단위: cm): "))
input_weight = float(input("아기의 현재 몸무게를 입력하세요 (단위: kg): "))
input_gender = input("아기의 성별을 입력하세요 (F/M): ")

# 입력받은 데이터로 1개월, 3개월, 6개월 뒤의 키 예측
if input_gender == 'F':
    gender = 0
elif input_gender == 'M':
    gender = 1
else:
    print("성별은 'F' 또는 'M' 중에서 입력해주세요.")
    exit()


# polynomial regression
#one_month_pred_height = lr2_height.predict([[(input_days+30)**2, (input_days + 30), gender]])
#three_month_pred_height = lr2_height.predict(np.array([[((input_days+90)**2), (input_days+90), gender]])) 
#six_month_pred_height = lr2_height.predict(np.array([[((input_days+180)**2), (input_days+180), gender]])) 

#one_month_pred_weight = lr2_weight.predict(np.array([[((input_days+30)**2), (input_days+30), gender, one_month_pred_height]]))
#three_month_pred_weight = lr2_weight.predict(np.array([[((input_days+90)**2), (input_days+90), gender, three_month_pred_height]])) 
#six_month_pred_weight = lr2_weight.predict(np.array([[((input_days+180)**2), (input_days+180), gender, six_month_pred_height]])) 
one_month_pred_height = lr_height.predict([[input_days+30, gender]])
three_month_pred_height = lr_height.predict([[input_days+90, gender]])
six_month_pred_height = lr_height.predict([[input_days+180, gender]])

one_month_pred_weight = lr_weight.predict([[input_days+30, gender, one_month_pred_height]])
three_month_pred_weight = lr_weight.predict([[input_days+90, gender, three_month_pred_height]])
six_month_pred_weight = lr_weight.predict([[input_days+180, gender, six_month_pred_height]])


# 결과 출력
print(f"아기의 1개월 뒤 예상 키는 {one_month_pred_height[0]:.1f}cm 입니다.")
print(f"아기의 3개월 뒤 예상 키는 {three_month_pred_height[0]:.1f}cm 입니다.")
print(f"아기의 6개월 뒤 예상 키는 {six_month_pred_height[0]:.1f}cm 입니다.")
print(f"아기의 1개월 뒤 예상 몸무게는 {one_month_pred_weight[0]:.1f}kg 입니다.")
print(f"아기의 3개월 뒤 예상 몸무게는 {three_month_pred_weight[0]:.1f}kg 입니다.")
print(f"아기의 6개월 뒤 예상 몸무게는 {six_month_pred_weight[0]:.1f}kg 입니다.")

생후 일 수를 입력하세요: 150
아기의 현재 키를 입력하세요 (단위: cm): 64.4
아기의 현재 몸무게를 입력하세요 (단위: kg): 7
아기의 성별을 입력하세요 (F/M): F
아기의 1개월 뒤 예상 키는 66.9cm 입니다.
아기의 3개월 뒤 예상 키는 71.9cm 입니다.
아기의 6개월 뒤 예상 키는 79.3cm 입니다.
아기의 1개월 뒤 예상 몸무게는 7.9kg 입니다.
아기의 3개월 뒤 예상 몸무게는 9.2kg 입니다.
아기의 6개월 뒤 예상 몸무게는 11.2kg 입니다.


In [24]:
# 독립 변수와 종속 변수 분리
X = baby_growth_df[['days','gender']]
y = baby_growth_df['height']

# train/test 데이터 분리, 성별 비중 유지
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=X['gender'], random_state=42)

In [25]:
# for height graph
graph_height = [input_height] # 0일 뒤 키 == 현재 입력 키
x_height_days = list(range(1,181)) # 1일 뒤부터 180일 뒤 까지
for i in range(1,181):
    graph_height.append(round(lr_height.predict([[input_days + i, gender]])[0],2))
graph_height


[64.4,
 64.52,
 64.6,
 64.68,
 64.76,
 64.85,
 64.93,
 65.01,
 65.1,
 65.18,
 65.26,
 65.34,
 65.43,
 65.51,
 65.59,
 65.67,
 65.76,
 65.84,
 65.92,
 66.01,
 66.09,
 66.17,
 66.25,
 66.34,
 66.42,
 66.5,
 66.58,
 66.67,
 66.75,
 66.83,
 66.92,
 67.0,
 67.08,
 67.16,
 67.25,
 67.33,
 67.41,
 67.49,
 67.58,
 67.66,
 67.74,
 67.83,
 67.91,
 67.99,
 68.07,
 68.16,
 68.24,
 68.32,
 68.4,
 68.49,
 68.57,
 68.65,
 68.74,
 68.82,
 68.9,
 68.98,
 69.07,
 69.15,
 69.23,
 69.31,
 69.4,
 69.48,
 69.56,
 69.65,
 69.73,
 69.81,
 69.89,
 69.98,
 70.06,
 70.14,
 70.22,
 70.31,
 70.39,
 70.47,
 70.56,
 70.64,
 70.72,
 70.8,
 70.89,
 70.97,
 71.05,
 71.13,
 71.22,
 71.3,
 71.38,
 71.47,
 71.55,
 71.63,
 71.71,
 71.8,
 71.88,
 71.96,
 72.04,
 72.13,
 72.21,
 72.29,
 72.38,
 72.46,
 72.54,
 72.62,
 72.71,
 72.79,
 72.87,
 72.95,
 73.04,
 73.12,
 73.2,
 73.29,
 73.37,
 73.45,
 73.53,
 73.62,
 73.7,
 73.78,
 73.86,
 73.95,
 74.03,
 74.11,
 74.2,
 74.28,
 74.36,
 74.44,
 74.53,
 74.61,
 74.69,
 74.77,
 74.86

In [22]:
# for weight graph
graph_weight = [input_weight] # 0일 뒤 몸무게 == 현재 입력 몸무게
x_weight_days = list(range(1,181)) # 1일 뒤부터 180일 뒤 까지
for i in range(1,181):
    graph_weight.append(round(lr_weight.predict([[input_days + i, gender, graph_height[i]]])[0], 2))
graph_weight


[6.6,
 7.21,
 7.23,
 7.25,
 7.27,
 7.3,
 7.32,
 7.34,
 7.36,
 7.39,
 7.41,
 7.43,
 7.45,
 7.48,
 7.5,
 7.52,
 7.54,
 7.57,
 7.59,
 7.61,
 7.63,
 7.66,
 7.68,
 7.7,
 7.72,
 7.75,
 7.77,
 7.79,
 7.81,
 7.84,
 7.86,
 7.88,
 7.9,
 7.92,
 7.95,
 7.97,
 7.99,
 8.01,
 8.04,
 8.06,
 8.08,
 8.11,
 8.13,
 8.15,
 8.17,
 8.2,
 8.22,
 8.24,
 8.26,
 8.29,
 8.31,
 8.33,
 8.35,
 8.38,
 8.4,
 8.42,
 8.44,
 8.47,
 8.49,
 8.51,
 8.53,
 8.56,
 8.58,
 8.6,
 8.62,
 8.65,
 8.67,
 8.69,
 8.71,
 8.74,
 8.76,
 8.78,
 8.8,
 8.83,
 8.85,
 8.87,
 8.89,
 8.92,
 8.94,
 8.96,
 8.98,
 9.0,
 9.03,
 9.05,
 9.07,
 9.1,
 9.12,
 9.14,
 9.16,
 9.19,
 9.21,
 9.23,
 9.25,
 9.28,
 9.3,
 9.32,
 9.35,
 9.37,
 9.39,
 9.41,
 9.43,
 9.46,
 9.48,
 9.5,
 9.52,
 9.55,
 9.57,
 9.59,
 9.61,
 9.64,
 9.66,
 9.68,
 9.7,
 9.73,
 9.75,
 9.77,
 9.79,
 9.82,
 9.84,
 9.86,
 9.88,
 9.91,
 9.93,
 9.95,
 9.97,
 10.0,
 10.02,
 10.04,
 10.06,
 10.09,
 10.11,
 10.13,
 10.15,
 10.18,
 10.2,
 10.22,
 10.24,
 10.27,
 10.29,
 10.31,
 10.34,
 10.36,
 10.3