In [2]:
# 1. 라이브러리 로딩
import pandas as pd
import numpy as np
import joblib
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression

# 2. 데이터 로딩 및 정제
df = pd.read_csv('./dataset/LifeExpectancyData.csv')
df.columns = df.columns.str.strip()

drop_cols = ['infant deaths', 'thinness 5-9 years', 'Year', 'Population']
df_filtered = df.drop(columns=drop_cols)

# 3. 데이터 전처리 (결측치 처리)
numeric_cols = df_filtered.select_dtypes(include=[np.number]).columns.tolist()
imputer = SimpleImputer(strategy='median')
df_filtered[numeric_cols] = imputer.fit_transform(df_filtered[numeric_cols])

# 4. 범주형 인코딩
df_final = df_filtered.drop('Country', axis=1)
df_final = pd.get_dummies(df_final, columns=['Status'], drop_first=True)

# 5. 모델 학습 (Linear Regression)
X = df_final.drop('Life expectancy', axis=1)
y = np.log1p(df_final['Life expectancy'])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

model = LinearRegression()
model.fit(X_train_scaled, y_train)

# 6. 모델 및 객체 저장 (Streamlit 앱에서 사용)
joblib.dump(model, './models1/linear_model.pkl')
joblib.dump(scaler, './models1/scaler.pkl')
joblib.dump(X.columns.tolist(), './models1/feature_columns.pkl')

print("✓ 모델과 관련 파일이 성공적으로 저장되었습니다.")

✓ 모델과 관련 파일이 성공적으로 저장되었습니다.
