# 안녕하세요^^ 
# AIVLE 미니 프로젝트에 오신 여러분을 환영합니다.
* 본 과정에서는 실제 사례와 데이터를 기반으로 문제를 해결하는 전체 과정을 자기 주도형 실습으로 진행해볼 예정입니다.
* 앞선 교육과정을 정리하는 마음과 지금까지 배운 내용을 바탕으로 문제 해결을 해볼게요!
* 미니 프로젝트를 통한 문제 해결 과정 'A에서 Z까지', 지금부터 시작합니다!

---

# (실습준비) 데이터 불러오기부터

In [None]:
# 학습 데이터 로딩
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings

# 시각화 한글폰트 설정
plt.rc('font', family='Malgun Gothic')
sns.set(font="Malgun Gothic",#"NanumGothicCoding", 
        rc={"axes.unicode_minus":False}, # 마이너스 부호 깨짐 현상 해결
        style='darkgrid')

# 경고 메시지 숨기기
warnings.filterwarnings("ignore", category=UserWarning)

In [None]:
# 학습 데이터 로딩
train_x = pd.read_csv('../data/train_x.csv')
train_y = pd.read_csv('../data/train_y.csv')

# 평가 데이터 로딩
test_x = pd.read_csv('../data/test_x.csv')
test_y = pd.read_csv('../data/test_y.csv')

In [None]:
display(train_x.tail(2))
display(train_y.tail(2))
display(test_x.tail(2))
display(test_y.tail(2))

---

# 1. Machine Learning
## 이제 모델링을 해봅시다!
+ KeyPoint : 머신러닝 라이브러리를 토대로 모델링을 할 수 있다.

### 가. LinearRegression 부터 시작해봅시다.

#### [실습문제1] 머신러닝_1
* Train과 Test로 나눈 데이터를 기준으로 LinearRegression 모델링을 진행하고 평가를 해주세요.
* 성능지표 : RMSE, R-squared Score

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Linear Regression 모델 생성 및 학습
model1 = LinearRegression()
model1.fit(train_x, train_y)

# 모델을 사용하여 평가 데이터에 대한 예측 생성
test_y_pred = model1.predict(test_x)

# RMSE 계산
rmse = np.sqrt(mean_squared_error(test_y, test_y_pred))

# R-squared Score 계산
r2 = r2_score(test_y, test_y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared Score: {r2}")

### 나. 다음은 앙상블 기법을 토대로 랜덤포레스트와 그라디언부스팅을 활용해봅시다.

#### 1) 렌덤포레스트
##### 배깅의 일종으로 의사결정나무(Decision Tree) 여러 개를 모아서 숲을 랜덤으로 구성하고 이를 종합해서 최종 모델을 산출하는 기법이라고 할 수 있다.

#### [실습문제2] 머신러닝_2
* Train과 Test로 나눈 데이터를 기준으로 렌덤포레스트로 모델을 학습을 진행하고 평가를 해주세요.
* 성능지표 : RMSE, R-squared Score

In [None]:
# 아래에 실습코드를 작성하세요.
from sklearn.ensemble import RandomForestRegressor

# Random Forest 모델 생성 및 학습
model2 = RandomForestRegressor(random_state=1234)
model2.fit(train_x, train_y)

# 모델을 사용하여 평가 데이터에 대한 예측 생성
test_y_pred = model2.predict(test_x)

# RMSE 계산
rmse = np.sqrt(mean_squared_error(test_y, test_y_pred))

# R-squared Score 계산
r2 = r2_score(test_y, test_y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared Score: {r2}")

#### [실습문제3] 머신러닝_3
* 렌덤포레스트로 학습한 모델의 feature_importances 또는 Shap value를 구해보세요.
* 확인할 수 있는 내용으로 우리 모델에서의 인사이트를 정리해보세요.

In [None]:
# Feature의 중요도 확인
# Feature Importances 확인
feature_importances = model2.feature_importances_

# 각 특성의 중요도를 DataFrame으로 정리
feature_importance_df = pd.DataFrame({'Feature': train_x.columns, 'Importance': feature_importances})

# 중요도로 내림차순 정렬
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=True)

# 중요도를 시각화
plt.figure(figsize=(10, 6))
plt.barh(feature_importance_df['Feature'], feature_importance_df['Importance'])
plt.xlabel('Feature Importance')
plt.title('Random Forest Feature Importance')
plt.show()

In [None]:
# 확인할 수 있는 인사이트
# 1.
# 2.
# 3.

#### 2) GradientBoosting
##### 앞선 모델의 에러를 다음 모델의 예측 값으로 활용하면서 가중치 업데이트 하는데 경사하강법(Gradient Descent)를 활용해서 최적 모델을 만드는 기법

#### [실습문제4] 머신러닝_4
* Train과 Test로 나눈 데이터를 기준으로 그라디언트부스팅으로 모델을 학습을 진행하고 평가를 해주세요.
* 성능지표 : RMSE, R-squared Score

In [None]:
from sklearn.ensemble import GradientBoostingRegressor

# Gradient Boosting 모델 생성 및 학습
model3 = GradientBoostingRegressor(random_state=1234)
model3.fit(train_x, train_y)

# 모델을 사용하여 평가 데이터에 대한 예측 생성
test_y_pred = model3.predict(test_x)

# RMSE 계산
rmse = np.sqrt(mean_squared_error(test_y, test_y_pred))

# R-squared Score 계산
r2 = r2_score(test_y, test_y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared Score: {r2}")

#### [실습문제5] 머신러닝_5
* 그라디언트부스팅으로 학습한 모델의 feature_importances 또는 Shap value를 구해보세요.
* 확인할 수 있는 내용으로 우리 모델에서의 인사이트를 정리해보세요.

In [None]:

# Feature Importances 확인
feature_importances = model3.feature_importances_

# 각 특성의 중요도를 DataFrame으로 정리
feature_importance_df = pd.DataFrame({'Feature': train_x.columns, 'Importance': feature_importances})

# 중요도로 내림차순 정렬
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=True)

# 중요도를 시각화
plt.figure(figsize=(10, 6))
plt.barh(feature_importance_df['Feature'], feature_importance_df['Importance'])
plt.xlabel('Feature Importance')
plt.title('Random Forest Feature Importance')
plt.show()

In [None]:
# 확인할 수 있는 인사이트
# 1.
# 2.
# 3.

#### [실습문제8] 스케일링
* Min Max Scale 함수를 활용하여 스케일링 후 위 모델에 적용하여 보세요. 


In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
ls = train_x.columns

train_x[ls] = scaler.fit_transform(train_x[ls])
test_x[ls] = scaler.transform(test_x[ls])

In [None]:
display(train_x.head())
display(test_x.head())

### 가. LinearRegression 부터 시작해봅시다.

#### [실습문제1] 머신러닝_1
* Train과 Test로 나눈 데이터를 기준으로 LinearRegression 모델링을 진행하고 평가를 해주세요.
* 성능지표 : RMSE, R-squared Score

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Linear Regression 모델 생성 및 학습
model1 = LinearRegression()
model1.fit(train_x, train_y)

# 모델을 사용하여 평가 데이터에 대한 예측 생성
test_y_pred = model1.predict(test_x)

# RMSE 계산
rmse = np.sqrt(mean_squared_error(test_y, test_y_pred))

# R-squared Score 계산
r2 = r2_score(test_y, test_y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared Score: {r2}")

### 나. 다음은 앙상블 기법을 토대로 랜덤포레스트와 그라디언부스팅을 활용해봅시다.

#### 1) 렌덤포레스트
##### 배깅의 일종으로 의사결정나무(Decision Tree) 여러 개를 모아서 숲을 랜덤으로 구성하고 이를 종합해서 최종 모델을 산출하는 기법이라고 할 수 있다.

#### [실습문제2] 머신러닝_2
* Train과 Test로 나눈 데이터를 기준으로 렌덤포레스트로 모델을 학습을 진행하고 평가를 해주세요.
* 성능지표 : RMSE, R-squared Score

In [None]:
# 아래에 실습코드를 작성하세요.
from sklearn.ensemble import RandomForestRegressor

# Random Forest 모델 생성 및 학습
model2 = RandomForestRegressor(random_state=1234)
model2.fit(train_x, train_y)

# 모델을 사용하여 평가 데이터에 대한 예측 생성
test_y_pred = model2.predict(test_x)

# RMSE 계산
rmse = np.sqrt(mean_squared_error(test_y, test_y_pred))

# R-squared Score 계산
r2 = r2_score(test_y, test_y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared Score: {r2}")

#### [실습문제3] 머신러닝_3
* 렌덤포레스트로 학습한 모델의 feature_importances 또는 Shap value를 구해보세요.
* 확인할 수 있는 내용으로 우리 모델에서의 인사이트를 정리해보세요.

In [None]:
# Feature의 중요도 확인
# Feature Importances 확인
feature_importances = model2.feature_importances_

# 각 특성의 중요도를 DataFrame으로 정리
feature_importance_df = pd.DataFrame({'Feature': train_x.columns, 'Importance': feature_importances})

# 중요도로 내림차순 정렬
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=True)

# 중요도를 시각화
plt.figure(figsize=(10, 6))
plt.barh(feature_importance_df['Feature'], feature_importance_df['Importance'])
plt.xlabel('Feature Importance')
plt.title('Random Forest Feature Importance')
plt.show()

print( feature_importance_df.sort_values(by='Importance', ascending=False))

In [None]:
# 확인할 수 있는 인사이트
# 1.
# 2.
# 3.

#### 2) GradientBoosting
##### 앞선 모델의 에러를 다음 모델의 예측 값으로 활용하면서 가중치 업데이트 하는데 경사하강법(Gradient Descent)를 활용해서 최적 모델을 만드는 기법

#### [실습문제4] 머신러닝_4
* Train과 Test로 나눈 데이터를 기준으로 그라디언트부스팅으로 모델을 학습을 진행하고 평가를 해주세요.
* 성능지표 : RMSE, R-squared Score

In [None]:
from sklearn.ensemble import GradientBoostingRegressor

# Gradient Boosting 모델 생성 및 학습
model3 = GradientBoostingRegressor(random_state=1234)
model3.fit(train_x, train_y)

# 모델을 사용하여 평가 데이터에 대한 예측 생성
test_y_pred = model3.predict(test_x)

# RMSE 계산
rmse = np.sqrt(mean_squared_error(test_y, test_y_pred))

# R-squared Score 계산
r2 = r2_score(test_y, test_y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared Score: {r2}")

#### [실습문제5] 머신러닝_5
* 그라디언트부스팅으로 학습한 모델의 feature_importances 또는 Shap value를 구해보세요.
* 확인할 수 있는 내용으로 우리 모델에서의 인사이트를 정리해보세요.

In [None]:
# Feature Importances 확인
feature_importances = model3.feature_importances_

# 각 특성의 중요도를 DataFrame으로 정리
feature_importance_df = pd.DataFrame({'Feature': train_x.columns, 'Importance': feature_importances})

# 중요도로 내림차순 정렬
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=True)

# 중요도를 시각화
plt.figure(figsize=(10, 6))
plt.barh(feature_importance_df['Feature'], feature_importance_df['Importance'])
plt.xlabel('Feature Importance')
plt.title('Random Forest Feature Importance')
plt.show()

print(feature_importance_df.sort_values(by='Importance', ascending=False))

#### 3) Elastic Net
##### 엘라스틱 넷은 L1(Lasso) 및 L2(Ridge) 규제를 결합한 모델로, 두 규제의 장점을 모두 가지며 데이터에 대한 유연한 모델을 생성할 수 있습니다.

#### [실습문제6] 머신러닝_6
* Train과 Test로 나눈 데이터를 기준으로 엘리스틱넷 모델을 학습을 진행하고 평가를 해주세요.
* 성능지표 : RMSE, R-squared Score

In [None]:
from sklearn.linear_model import ElasticNet

# ElasticNet 모델 생성 및 학습
elastic_net = ElasticNet(alpha=0.8, l1_ratio=1)
elastic_net.fit(train_x, train_y)

# 모델을 사용하여 평가 데이터에 대한 예측 생성
test_y_pred = elastic_net.predict(test_x)

# RMSE 계산
rmse = np.sqrt(mean_squared_error(test_y, test_y_pred))

# R-squared Score 계산
r2 = r2_score(test_y, test_y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared Score: {r2}")

### 라쏘 회귀

In [None]:
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Lasso 모델 생성 및 학습
lasso = Lasso(alpha=0.9)  # alpha 값은 규제 강도를 나타냅니다
lasso.fit(train_x, train_y)

# 모델을 사용하여 평가 데이터에 대한 예측 생성
test_y_pred = lasso.predict(test_x)

# RMSE 계산
rmse = np.sqrt(mean_squared_error(test_y, test_y_pred))

# R-squared Score 계산
r2 = r2_score(test_y, test_y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared Score: {r2}")


### 서포트 벡터 머신 회귀 (Support Vector Machine Regression) 

In [None]:
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# SVM 회귀 모델 생성 및 학습
svm_regressor = SVR(kernel='linear', C=1.0, epsilon=0.1)
svm_regressor.fit(train_x, train_y)

# 모델을 사용하여 평가 데이터에 대한 예측 생성
test_y_pred = svm_regressor.predict(test_x)

# RMSE 계산
rmse = np.sqrt(mean_squared_error(test_y, test_y_pred))

# R-squared Score 계산
r2 = r2_score(test_y, test_y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared Score: {r2}")

### 인공 신경망 회귀 (Neural Network Regression) 모델

In [None]:
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# 신경망 회귀 모델 생성 및 학습
mlp_regressor = MLPRegressor(hidden_layer_sizes=(100, 50), activation='relu', solver='adam', alpha=0.0001, max_iter=1000, random_state=42)
mlp_regressor.fit(train_x, train_y)

# 모델을 사용하여 평가 데이터에 대한 예측 생성
test_y_pred = mlp_regressor.predict(test_x)

# RMSE 계산
rmse = np.sqrt(mean_squared_error(test_y, test_y_pred))

# R-squared Score 계산
r2 = r2_score(test_y, test_y_pred)

print(f"RMSE: {rmse}")
print(f"R-squared Score: {r2}")

---

# 2. Deep Learning 
## 이번엔 딥러닝 모델링을 해봅시다.

#### [실습문제9] 딥러닝

* tensorflow 라이브러리를 활용한 모델을 자유롭게 만들어보세요.

### 1번 모델

In [None]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.callbacks import EarlyStopping
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

input_shape = train_x.shape[1]
# 모델 생성
deep_model1 = keras.Sequential([
    layers.Input(shape=(input_shape)),  # 입력층
    layers.Dense(128, activation='relu'),  # 은닉층 1
    layers.Dense(64, activation='relu'),   # 은닉층 2
    layers.Dense(1, activation='linear')  # 출력층
])

# Early Stopping 콜백 설정
early_stopping = EarlyStopping(
    monitor='val_loss',  # 모니터링할 지표 (검증 데이터의 손실 함수)
    patience=10,  # 지정된 지표가 개선되지 않은 에폭 수
    restore_best_weights=True  # 최적의 모델 가중치로 복원
)

# 모델 컴파일
deep_model1.compile(optimizer='adam', loss='mean_squared_error', metrics=['mean_absolute_error'])
deep_model1.summary()
deep_model1.fit(train_x, train_y, batch_size=64, epochs=50, validation_data=(test_x, test_y), callbacks=[early_stopping])

deep_pred1 = deep_model1.predict(test_x)
rmse = np.sqrt(mean_squared_error(test_y, deep_pred1))
mae = mean_absolute_error(test_y, deep_pred1)
r2 = r2_score(test_y, deep_pred1)

print(f"RMSE: {rmse}")
print(f"MAE: {mae}")
print(f"R-squared Score: {r2}")

### 2번 모델

In [None]:
input_shape = train_x.shape[1]
# 모델 생성
deep_model2 = keras.Sequential([
    layers.Input(shape=(input_shape)),  # 입력층
    layers.Dense(128, activation='relu'),  # 은닉층 1
    layers.Dropout(0.5),
    layers.BatchNormalization(),
    layers.Dense(64, activation='relu'),   # 은닉층 2
    layers.Dropout(0.5),
    layers.BatchNormalization(),
    layers.Dense(1, activation='linear')  # 출력층
])

# Early Stopping 콜백 설정
early_stopping = EarlyStopping(
    monitor='val_loss',  # 모니터링할 지표 (검증 데이터의 손실 함수)
    patience=10,  # 지정된 지표가 개선되지 않은 에폭 수
    restore_best_weights=True  # 최적의 모델 가중치로 복원
)

# 모델 컴파일
optimizer = keras.optimizers.Adam(learning_rate=0.01)
deep_model2.compile(optimizer=optimizer, loss='mean_squared_error', metrics=['mean_absolute_error'])

# 모델 요약 정보 출력
deep_model2.summary()

# 모델 학습
deep_model2.fit(train_x, train_y, batch_size=64, epochs=50, validation_data=(test_x, test_y), callbacks=[early_stopping])

deep_pred2 = deep_model2.predict(test_x)
rmse = np.sqrt(mean_squared_error(test_y, deep_pred2))
mae = mean_absolute_error(test_y, deep_pred2)
r2 = r2_score(test_y, deep_pred2)

print(f"RMSE: {rmse}")
print(f"MAE: {mae}")
print(f"R-squared Score: {r2}")

### 3번 모델

In [None]:
input_shape = train_x.shape[1]
# 모델 생성
deep_model3 = keras.Sequential([
    layers.Input(shape=(input_shape)),  # 입력층
    layers.Dense(128, activation='tanh'),  # 은닉층 1
    layers.Dropout(0.5),
    layers.BatchNormalization(),
    layers.Dense(64, activation='tanh'),   # 은닉층 2
    layers.Dropout(0.5),
    layers.BatchNormalization(),
    layers.Dense(32, activation='tanh'),   # 은닉층 2
    layers.Dropout(0.5),
    layers.BatchNormalization(),
    layers.Dense(1, activation='linear')  # 출력층
])

# Early Stopping 콜백 설정
early_stopping = EarlyStopping(
    monitor='val_loss',  # 모니터링할 지표 (검증 데이터의 손실 함수)
    patience=10,  # 지정된 지표가 개선되지 않은 에폭 수
    restore_best_weights=True  # 최적의 모델 가중치로 복원
)

# 모델 컴파일
optimizer = keras.optimizers.Adam(learning_rate=0.05)
deep_model3.compile(optimizer=optimizer, loss='mean_squared_error', metrics=['mean_absolute_error'])

# 모델 요약 정보 출력
deep_model3.summary()

# 모델 학습
deep_model3.fit(train_x, train_y, batch_size=32, epochs=100, validation_data=(test_x, test_y), callbacks=[early_stopping])

deep_pred3 = deep_model3.predict(test_x)
rmse = np.sqrt(mean_squared_error(test_y, deep_pred3))
mae = mean_absolute_error(test_y, deep_pred3)
r2 = r2_score(test_y, deep_pred3)

print(f"RMSE: {rmse}")
print(f"MAE: {mae}")
print(f"R-squared Score: {r2}")

### 4번 모델

In [None]:
input_shape = train_x.shape[1]
# 모델 생성
deep_model4 = keras.Sequential([
    layers.Input(shape=(input_shape)),  # 입력층
    layers.Dense(128, activation='tanh'),  # 은닉층 1
    layers.Dense(128, activation='tanh'),  # 은닉층 1
    layers.Dropout(0.5),
    layers.BatchNormalization(),
    layers.Dense(64, activation='relu'),   # 은닉층 2
    layers.Dense(64, activation='relu'),   # 은닉층 2
    layers.Dropout(0.5),
    layers.BatchNormalization(),
    layers.Dense(32, activation='relu'),   # 은닉층 2
    layers.Dense(32, activation='relu'),   # 은닉층 2
    layers.Dropout(0.5),
    layers.BatchNormalization(),
    layers.Dense(1, activation='linear')  # 출력층
])

# Early Stopping 콜백 설정
early_stopping = EarlyStopping(
    monitor='val_loss',  # 모니터링할 지표 (검증 데이터의 손실 함수)
    patience=10,  # 지정된 지표가 개선되지 않은 에폭 수
    restore_best_weights=True  # 최적의 모델 가중치로 복원
)

# 모델 컴파일
optimizer = keras.optimizers.Adam(learning_rate=0.01)
deep_model4.compile(optimizer=optimizer, loss='mean_squared_error', metrics=['mean_absolute_error'])

# 모델 요약 정보 출력
deep_model4.summary()

# 모델 학습
deep_model4.fit(train_x, train_y, batch_size=64, epochs=100, validation_data=(test_x, test_y), callbacks=[early_stopping])

deep_pred4 = deep_model4.predict(test_x)
rmse = np.sqrt(mean_squared_error(test_y, deep_pred4))
mae = mean_absolute_error(test_y, deep_pred4)
r2 = r2_score(test_y, deep_pred4)

print(f"RMSE: {rmse}")
print(f"MAE: {mae}")
print(f"R-squared Score: {r2}")

### 모델5

In [None]:
input_shape = train_x.shape[1]
# 모델 생성
deep_model5 = keras.Sequential([
    layers.Input(shape=(input_shape)),  # 입력층
    layers.Dense(128, activation='relu'),  # 은닉층 1
    layers.Dropout(0.2),
    layers.BatchNormalization(),
    layers.Dense(64, activation='relu'),   # 은닉층 2
    layers.Dropout(0.2),
    layers.BatchNormalization(),
    layers.Dense(32, activation='relu'),   # 은닉층 2
    layers.Dropout(0.2),
    layers.BatchNormalization(),
    layers.Dense(6, activation='relu'),   # 은닉층 2
    layers.Dense(1, activation='linear')  # 출력층
])

# Early Stopping 콜백 설정
early_stopping = EarlyStopping(
    monitor='val_loss',  # 모니터링할 지표 (검증 데이터의 손실 함수)
    patience=10,  # 지정된 지표가 개선되지 않은 에폭 수
    restore_best_weights=True  # 최적의 모델 가중치로 복원
)

# 모델 컴파일
optimizer = keras.optimizers.Adam(learning_rate=0.01)
deep_model5.compile(optimizer=optimizer, loss='mean_squared_error', metrics=['mean_absolute_error'])

# 모델 요약 정보 출력
deep_model5.summary()

# 모델 학습
deep_model5.fit(train_x, train_y, batch_size=64, epochs=100, validation_data=(test_x, test_y), callbacks=[early_stopping])

deep_pred5 = deep_model5.predict(test_x)
rmse = np.sqrt(mean_squared_error(test_y, deep_pred5))
mae = mean_absolute_error(test_y, deep_pred5)
r2 = r2_score(test_y, deep_pred5)

print(f"RMSE: {rmse}")
print(f"MAE: {mae}")
print(f"R-squared Score: {r2}")