### **■ 유통 판매량 예측 및 재고 최적화**
# **단계 3: 모델링 및 비즈니스 평가**

<img src = "https://github.com/Jangrae/img/blob/master/store.png?raw=true" width=800, align="left"/>

# **⏰ 수행 과제**

다음과 같은 과정으로 프로젝트를 진행합니다.

#### **1. 환경 설정**
- 이후 진행에 필요한 환경 설정을 수행합니다.

#### **2. 4차 모델링**
- Random Forest, LigntGBM 알고리즘으로 모델링합니다.
- 이번에는 하이퍼파라미터 튜닝을 통해 모델의 성능을 높여봅니다.
- 변화되는 모델의 성능을 기록합니다.

#### **3. 파이프라인 구축**
- 새로 읽어온 데이터에 대해 모델이 예측핳 수 있는 형태의 데이터 셋을 만들어야 합니다.
- 이러한 데이터 셋을 만드는 파이프라인을 함수를 만들어 보세요.

#### **4. 최종 평가**
- 새로운 데이터에 대해 예측하고 성능을 평가합니다.
- 재고량을 평가하는 다음 함수를 활용해 비즈니스 관점의 평가를 수행하세요.
- 최종 평가 결과를 기록하고 비교합니다.

# **1. 환경 설정**

- 이후 진행에 필요한 환경 설정을 수행합니다.

## **(1) 경로 설정**

- 프로젝트 수행 환경에 맞게 파일 경로를 설정합니다.

### **1) 로컬 수행(Anaconda)**
- project 폴더에 필요한 파일들을 넣고, 본 파일을 열었다면, 별도 경로 지정이 필요하지 않습니다.

In [47]:
# 기본 경로
path = '../DX_미니프로젝트 5차_1일차 실습자료/'

### **2) 구글 콜랩 수행**

- 구글 콜랩을 사용중이면 구글 드라이브를 연결합니다.

In [48]:
# 구글 드라이브 연결, 패스 지정
import sys
if 'google.colab' in sys.modules:
    from google.colab import drive
    drive.mount('/content/drive')
    path = '/content/drive/MyDrive/project/'

## **(2) 라이브러리 불러오기**

- 이후 사용할 라이브러리를 모두 불러옵니다.

In [49]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import joblib

from sklearn.metrics import *
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from lightgbm import LGBMRegressor

import warnings
warnings.filterwarnings('ignore')
%config InlineBackend.figure_format = 'retina'

- 모델이 예측한 결과를 시각화할 때 다음 함수를 활용합니다.

In [50]:
# 함수 만들기
def plot_model_result(y_train, y_val, y_pred):
    
    y_train = pd.Series(y_train)
    y_val = pd.Series(y_val)
    y_val.index = range(len(y_train), len(y_train) + len(y_val))

    y_pred = pd.Series(y_pred.reshape(-1,), index=y_val.index)

    # 전체 시각화
    plt.figure(figsize=(12, 5))
    plt.subplot(2,1,1)
    plt.plot(y_train, label='y_train', color='tab:blue')
    plt.plot(y_val, label='y_val', color='tab:green')
    plt.plot(y_pred, label='y_pred', color='tab:orange')
    plt.legend()
    plt.subplot(2,1,2)
    plt.plot(y_val, label = 'y_val', color='tab:green')
    plt.plot(y_pred, label = 'y_pred', color='tab:orange')
    plt.legend()
    plt.tight_layout()
    plt.show()

    print('RMAE', mean_squared_error(y_val, y_pred, squared=False))
    print('MAE', mean_absolute_error(y_val, y_pred))
    print('MAPE', mean_absolute_percentage_error(y_val, y_pred))
    print('R2', r2_score(y_val, y_pred))

## **(3) 데이터 불러오기**

- 이후 분석 대상이 되는 파일을 불러오고 기본 정보를 확인합니다.

### **1) 데이터 불러오기**

- 이전 과정에서 저장한 pkl 파일을 불러옵니다.
- 데이터프레임 이름은 data03, data12, data42가 되게 합니다.
- 다음과 같은 형태의 구문으로 불러옵니다.
~~~
mydata = joblib.load(path + 'mydata.pkl')
~~~

In [51]:
data03 = joblib.load('data03.pkl')
data12 = joblib.load('data12.pkl')
data42 = joblib.load('data42.pkl')

### **2) 기본 정보 확인**

- 각 데이터의 기본 정보를 확인합니다.

In [52]:
data03.head()

Unnamed: 0,Date,Qty,CustomerCount,WeekDay,Month,WTI_Price,Target,City_CustCount,Category_Qty,Qty_Lag_1,Qty_Lag_7_mean
1,2014-01-02,9853.0,4422.0,Thursday,1.0,95.14,15153.0,45969.0,176120.0,0.0,4926.5
2,2014-01-03,8647.0,4167.0,Friday,1.0,94.4,15606.0,42386.0,151502.0,9853.0,6166.666667
3,2014-01-04,15153.0,5341.0,Saturday,1.0,94.4,7900.0,52293.0,222138.0,8647.0,8413.25
4,2014-01-05,15606.0,5123.0,Sunday,1.0,94.4,7188.0,49199.0,222012.0,15153.0,9851.8
5,2014-01-06,7900.0,3917.0,Monday,1.0,93.973333,8800.0,39105.0,136433.0,15606.0,9526.5


In [53]:
data12.head()

Unnamed: 0,Date,Qty,CustomerCount,WeekDay,Month,WTI_Price,Target,City_CustCount,Category_Qty,Qty_Lag_1,Qty_Lag_7_mean
1,2014-01-02,9647.0,4422.0,Thursday,1.0,95.14,14188.0,45969.0,298620.320011,0.0,4823.5
2,2014-01-03,8879.0,4167.0,Friday,1.0,94.4,14490.0,42386.0,250953.870948,9647.0,6175.333333
3,2014-01-04,14188.0,5341.0,Saturday,1.0,94.4,7614.0,52293.0,352348.30693,8879.0,8178.5
4,2014-01-05,14490.0,5123.0,Sunday,1.0,94.4,7124.0,49199.0,362852.115984,14188.0,9440.8
5,2014-01-06,7614.0,3917.0,Monday,1.0,93.973333,8683.0,39105.0,233749.026011,14490.0,9136.333333


In [54]:
data42.head()

Unnamed: 0,Date,Qty,CustomerCount,WeekDay,Month,WTI_Price,Target,City_CustCount,Category_Qty,Qty_Lag_1,Qty_Lag_7_mean
1,2014-01-02,76.0,4422.0,Thursday,1,95.14,78.0,45969.0,35336.643958,51.0,63.5
2,2014-01-03,74.0,4167.0,Friday,1,94.4,88.0,42386.0,32032.468719,76.0,67.0
3,2014-01-04,78.0,5341.0,Saturday,1,94.4,65.0,52293.0,34557.982838,74.0,69.75
4,2014-01-05,88.0,5123.0,Sunday,1,94.4,78.0,49199.0,29491.302,78.0,73.4
5,2014-01-06,65.0,3917.0,Monday,1,93.973333,73.0,39105.0,18564.406008,88.0,72.0


# **2. 4차 모델링**

- Random Forest, LigntGBM 알고리즘으로 모델링합니다.
- 모델링 과정에서 변수 이름은 **x_train, x_val, y_train, y_val, y_pred**을 사용합니다.
- 이번에는 **하이퍼파라미터 튜닝**을 통해 모델의 성능을 높여봅니다.
- **검증용 데이터**는 학습용 데이터에서 **최근 120일간**의 데이터를 사용합니다.
- 변화되는 모델의 성능을 기록합니다.

In [55]:
model_lr = 'LinearRegression'
model_rf = 'RandomForestRegressor'
model_lgbm = 'LGBMRegressor'

In [56]:
def model_set(data_num, select_model):
    target = ['Date', 'Target']
    x = data_num.drop(target, axis=1)
    y = data_num['Target']

    weekdays = ['Monday', 'Tuesday', 'Wednesday','Thursday', 'Friday', 'Saturday', 'Sunday']
    months = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
    x['WeekDay'] = pd.Categorical(x['WeekDay'], categories=weekdays)
    x['Month'] = pd.Categorical(x['Month'], categories=months)
    x = pd.get_dummies(x, columns=['WeekDay','Month'], dtype=int)
    x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=120, random_state=42, shuffle=False)

    if select_model == 'LinearRegression':
        model = LinearRegression()
        params = {}  # LinearRegression은 하이퍼파라미터가 없으므로 빈 딕셔너리로 설정
    elif select_model == 'RandomForestRegressor':
        model = RandomForestRegressor(random_state=42)
        params = {
            'n_estimators': [100, 300, 500],
            'max_depth': [None, 10, 30],
            'min_samples_split': [2, 5, 10]
        }
    elif select_model == 'LGBMRegressor':
        model = LGBMRegressor(random_state=42)
        params = {
            'n_estimators': [100, 200, 300],
            'max_depth': [-1, 10, 20],
            'learning_rate': [0.01, 0.05, 0.1]
        }
    else:
        raise ValueError("Unsupported model type. Please select from 'LinearRegression', 'RandomForestRegressor', or 'LGBMRegressor'.")

    grid_search = GridSearchCV(model, params, cv=5, n_jobs=2, verbose=2)
    grid_search.fit(x_train, y_train)
    best_model = grid_search.best_estimator_
    pred = best_model.predict(x_val)

    return y_train, y_val, pred

## **(1) Random Forest 모델**

### **1) 상품: 3 - Beverage**

- GridSearchCV를 사용해 3번 상품에 대해 모델링하고 성능을 확인합니다..
- 모델 이름은 **model03_rdf**로 합니다.

In [57]:
model03_rdf = model_set(data03, model_rf)
y_train, y_val, pred = model03_rdf4

Fitting 5 folds for each of 27 candidates, totalling 135 fits


NameError: name 'model03_rdf4' is not defined

#### - 모델이 예측한 결과를 시각화해 확인합니다.

In [None]:
plot_model_result(y_train, y_val, pred)

### **2) 상품: 12 - Milk**

- GridSearchCV를 사용해 12번 상품에 대해 모델링하고 성능을 확인합니다..
- 모델 이름은 **model12_rdf**로 합니다.

In [None]:
model12_rdf = model_set(data12, model_rf)
y_train, y_val, pred = model12_rdf

- 모델이 예측한 결과를 시각화해 확인합니다.

In [None]:
plot_model_result(y_train, y_val, pred)

### **3) 상품: 42 - Agricultural products**

- GridSearchCV를 사용해 42번 상품에 대해 모델링하고 성능을 확인합니다..
- 모델 이름은 **model42_rdf**로 합니다.

In [None]:
model42_rdf = model_set(data42, model_rf)
y_train, y_val, pred = model42_rdf

- 모델이 예측한 결과를 시각화해 확인합니다.

In [None]:
plot_model_result(y_train, y_val, pred)

## **(2) LightGBM 모델**

### **1) 상품: 3 - Beverage**

- GridSearchCV를 사용해 3번 상품에 대해 모델링하고 성능을 확인합니다..
- 모델 이름은 **model03_lgb**로 합니다.

In [None]:
model03_lgb = model_set(data42, model_lgbm)
y_train, y_val, pred = model03_lgb

- 모델이 예측한 결과를 시각화해 확인합니다.

In [None]:
plot_model_result(y_train, y_val, pred)

### **2) 상품: 12 - Milk**

- GridSearchCV를 사용해 12번 상품에 대해 모델링하고 성능을 확인합니다..
- 모델 이름은 **model12_lgb**로 합니다.

In [None]:
model12_lgb = model_set(data12, model_lgbm)
y_train, y_val, pred = model12_lgb

- 모델이 예측한 결과를 시각화해 확인합니다.

In [None]:
plot_model_result(y_train, y_val, pred)

### **3) 상품: 42 - Agricultural products**

- GridSearchCV를 사용해 42번 상품에 대해 모델링하고 성능을 확인합니다..
- 모델 이름은 **model42_lgb**로 합니다.

In [None]:
model42_lgb = model_set(data42, model_lgbm)
y_train, y_val, pred = model42_lgb

- 모델이 예측한 결과를 시각화해 확인합니다.

In [None]:
plot_model_result(y_train, y_val, pred)

# **3. 파이프라인 구축**

- 새로 읽어온 데이터에 대해 모델이 예측핳 수 있는 형태의 데이터 셋을 만들어야 합니다.
- 이러한 데이터 셋을 만드는 파이프라인을 함수를 만들어 보세요.

## **(1) 새로운 데이터 불러오기**

- 평가에 사용할 새로운 데이터를 불러옵니다.
- 데이터프레임 이름은 다음과 같이 통일합니다.
    - sales: 판매 정보
    - orders: 고객 방문수
    - oil_price: 휘발유 가격
    - stores: 매장 정보
    - products: 상품 정보

In [60]:
# 데이터 불러오기
sales = pd.read_csv('sales_test.csv')
orders = pd.read_csv('orders_test.csv')
oil_price = pd.read_csv('oil_price_test.csv')
stores = pd.read_csv(path + 'stores.csv')
products = pd.read_csv(path + 'products.csv')

In [61]:
# datetime 형으로 변환
sales['Date'] = pd.to_datetime(sales['Date'] )
oil_price['Date'] = pd.to_datetime(oil_price['Date'] )
orders['Date'] = pd.to_datetime(orders['Date'] )

## **(2) 데이터 파이프라인 구축**

- 다음과 같은 처리를 수행하는 파이프라인이 되어야 합니다.
    - 입력: sales_data, orders_data, oil_price_data, Product_ID
    - 처리:
        - 머신러닝 모델에 전달할 수 있는, 즉 x_train, x_val과 동일한 형태의 데이터 셋 만들기
        - 결측치 처리, 가변수화, 변수 제거, 변수 추가 등 일괄 처리
    - 출력: 전처리 완료된 데이터 프레임
    

In [77]:
from sklearn.pipeline import Pipeline

def prepare_data_pipeline(Product_ID):
    # Basic Data Preparation
    leadtime = products.loc[products['Product_ID'] == Product_ID, 'LeadTime'].values[0]
    temp1 = sales.loc[(sales['Store_ID'] == 44) & (sales['Product_ID'] == Product_ID), ['Date', 'Qty']]
    temp2 = orders.loc[orders['Store_ID'] == 44, ['Date', 'CustomerCount']]
    temp3 = pd.merge(temp1, temp2, on='Date', how='left')

    # Feature Engineering
    temp3['WeekDay'] = temp3['Date'].dt.day_name()
    temp3['Month'] = temp3['Date'].dt.month

    Category = products.loc[products['Product_ID'].isin([Product_ID]), 'Category'].to_list()
    Product_IDs = products.loc[products['Category'].isin(Category), 'Product_ID'].to_list()
    temp4 = sales.loc[(sales['Store_ID'] == 44) & (sales['Product_ID'].isin(Product_IDs))]
    temp4 = temp4.groupby(by='Date', as_index=False)['Qty'].sum()
    temp4.columns = ['Date', 'Category_Qty']
    temp3 = pd.merge(temp3, temp4, on='Date', how='left')

    City = stores.loc[stores['Store_ID'] == 44, 'City'].values[0]
    Store_IDs = stores.loc[stores['City'] == City, 'Store_ID'].to_list()
    temp5 = orders.loc[orders['Store_ID'].isin(Store_IDs)]
    temp5 = temp5.groupby('Date', as_index=False)['CustomerCount'].sum()
    temp5.columns = ['Date', 'City_CustCount']
    temp3 = pd.merge(temp3, temp5, on='Date', how='left')

    temp3 = temp3.interpolate(method='linear')
    temp3 = temp3.fillna(method='bfill')

    temp3['Qty_Lag_2_mean'] = temp3['Qty'].rolling(2, min_periods=1).mean()
    temp3['Qty_Lag_7_mean'] = temp3['Qty'].rolling(7, min_periods=1).mean()
    temp3['Qty_Lag_14_mean'] = temp3['Qty'].rolling(14, min_periods=1).mean()

    # Target Addition
    temp3['Target'] = temp3['Qty'].shift(-leadtime)
    temp3.dropna(inplace=True)

    # Encoding Categorical Features
    weekdays = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
    months = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
    temp3['WeekDay'] = pd.Categorical(temp3['WeekDay'], categories=weekdays)
    temp3['Month'] = pd.Categorical(temp3['Month'], categories=months)
    temp3 = pd.get_dummies(temp3, columns=['WeekDay', 'Month'], dtype=int)

    # Train-Test Split
    target = ['Date', 'Target']
    x = temp3.drop(target, axis=1)
    y = temp3['Target']

    test_size = min(0.2, 120 / len(x))  # Set the test_size to 20% of the data or 120 samples, whichever is smaller

    # Creating a pipeline
    pipeline = Pipeline([
        ('preprocessing', None),  # Placeholder for preprocessing steps
        ('splitting', train_test_split(x, y, test_size=test_size, random_state=42, shuffle=False))
    ])

    return pipeline


In [71]:
# Usage example:
pipeline = prepare_data_pipeline(3)
x_train, x_val, y_train, y_val = pipeline.named_steps['splitting']

In [72]:
model = LinearRegression()
model.fit(x_train, y_train)
pred = model.predict(x_val)

# **4. 최종 평가**

- 새로운 데이터에 대해 예측하고 성능을 평가합니다.
- 재고금액을 평가하는 다음 함수를 활용해 비즈니스 관점의 평가를 수행하세요.
- 최종 평가 결과를 기록하고 비교합니다.

In [74]:
# 재고량 평가 함수 만들기
def inv_simulator(y, pred, safe_stock, price):
    
    # 시뮬레이션 df 틀 만들기
    temp = pd.DataFrame({'y': y.reshape(-1,), 'pred': pred.reshape(-1,).round()})
    temp['y'] = temp['y'].astype(int)
    temp['pred'] = temp['pred'].astype(int)

    temp['base_stock'] = 0
    temp['close_stock'] = 0
    temp['order'] = 0
    temp['receive'] = 0

    # 시뮬레이션
    for i in range(len(temp)-2):  # 발주량은 2일 후 판매 예측량에 기초하므로 계산을 위해 마지막 2개 행 제외
        if i == 0:  #첫 행, 2일 전 데이터가 없으므로
            temp.loc[i, 'receive'] = temp.loc[i, 'y']  # 입고량은 실판매량으로 계산
            temp.loc[i, 'base_stock'] = temp.loc[i, 'receive'] + safe_stock  # 기초재고는 실판매량 + 안전재고로 계산

        elif i == 1: # 2일 전 행, 2일 전 데이터가 없음
            temp.loc[i, 'receive'] = temp.loc[i, 'y'] # 입고량은 실판매량으로 계산
            temp.loc[i, 'base_stock'] = temp.loc[i,'receive'] + temp.loc[i-1, 'close_stock']
        else:        # 나머지 전체 행
            temp.loc[i, 'receive'] = temp.loc[i-2,'order']    # 입고량 = 2일 전 발주량
            temp.loc[i, 'base_stock'] = temp.loc[i, 'receive']+temp.loc[i-1, 'close_stock']  # 기초재고 = 입고량 + 전날 기말재고

        # 기말재고 = 기초재고 - 판매량, 만약 0보다 작으면 0으로
        stock = round(temp.loc[i, 'base_stock'] - temp.loc[i, 'y'])
        temp.loc[i, 'close_stock'] = np.where(stock > 0, stock, 0)

        # 발주량 = 2일후 판매예측량 + 안전재고 - 기말재고,  만약 주문량이 0보다 작으면 0
        order = temp.loc[i+2, 'pred'] + safe_stock - temp.loc[i, 'close_stock']
        temp.loc[i, 'order'] = np.where(order>0, order, 0)

    # 기회손실 = 만약 (기초재고 - 실판매량)이 0보다 작으면, 그만큼이 기회손실
    temp['lost'] = np.where((temp['base_stock']-temp['y']) < 0, (temp['base_stock']-temp['y']), 0).round()

    inventory = temp[:len(temp) - 2]

    # 측정지표 계산
    DailyStock = ((inventory['base_stock'] + inventory['close_stock']) / 2)

    AvgDailyStock = round(DailyStock.mean(), 3)
    AvgDailyStockAmt = AvgDailyStock * price * 0.5
    lost_sum = inventory['lost'].sum()

    print(f'* 일평균 재고량: {AvgDailyStock:.2f}')
    print(f'* 일평균 재고금액: {AvgDailyStockAmt:.2f}')
    print(f'* 기회손실 수량: {lost_sum}')

    return inventory

In [87]:
inv_simulator(y_val.values, pred, 468, 8)

* 일평균 재고량: 6240.38
* 일평균 재고금액: 24961.50
* 기회손실 수량: 0


Unnamed: 0,y,pred,base_stock,close_stock,order,receive,lost
0,18808,19679,19276,468,7171,18808,0
1,9775,9487,10243,468,8941,9775,0
2,6195,7171,7639,1444,6415,7171,0
3,10385,8941,10385,0,11997,8941,0


## **(1) 상품: 3 - Beverage**

- 3번 상품에 대해 모델 성능을 평가하고 기록합니다.

### **1) Random Forest 모델**

- Random Forest 모델로 예측하고 평가합니다.

In [None]:
# 비즈니스 평가


### **2) LightGBM 모델**

- LightGBM 모델로 예측하고 평가합니다.

In [None]:
# 비즈니스 평가


## **(2) 상품: 12 - Milk**

- 12번 상품에 대해 모델 성능을 평가하고 기록합니다.

### **1) Random Forest 모델**

- Random Forest 모델로 예측하고 평가합니다.

In [None]:
# 비즈니스 평가


### **2) LightGBM 모델**

- LightGBM 모델로 예측하고 평가합니다.

In [None]:
# 비즈니스 평가


## **(3) 상품: 42 - Agricultural products**

- 42번 상품에 대해 모델 성능을 평가하고 기록합니다.

### **1) Random Forest 모델**

- Random Forest 모델로 예측하고 평가합니다.

In [None]:
# 비즈니스 평가


### **2) LightGBM 모델**

- LightGBM 모델로 예측하고 평가합니다.

In [None]:
# 비즈니스 평가


In [None]:
def models(select_model)
if select_model == 'LinearRegression':
        model = LinearRegression()
        params = {}  # LinearRegression은 하이퍼파라미터가 없으므로 빈 딕셔너리로 설정
    elif select_model == 'RandomForestRegressor':
        model = RandomForestRegressor(random_state=42)
        params = {
            'n_estimators': [100, 300, 500],
            'max_depth': [None, 10, 30],
            'min_samples_split': [2, 5, 10]
        }
    elif select_model == 'LGBMRegressor':
        model = LGBMRegressor(random_state=42)
        params = {
            'n_estimators': [100, 200, 300, 400],
            'max_depth': [5, 10, 15, -1],
            'learning_rate': [0.001, 0.01, 0.05, 0.1]
            }
    else:
        raise ValueError("Unsupported model type. Please select from 'LinearRegression', 'RandomForestRegressor', or 'LGBMRegressor'.")

    grid_search = GridSearchCV(model, params, cv=5, n_jobs=2, verbose=2)
    grid_search.fit(x_train, y_train)
    best_model = grid_search.best_estimator_
    pred = best_model.predict(x_val)

    # 결과 시각화
    y_train = pd.Series(y_train)
    y_val = pd.Series(y_val)
    y_val.index = range(len(y_train), len(y_train) + len(y_val))
    y_pred = pd.Series(pred.reshape(-1,), index=y_val.index)

    # 전체 시각화
    plt.figure(figsize=(12, 5))
    plt.subplot(2,1,1)
    plt.plot(y_train, label='y_train', color='tab:blue')
    plt.plot(y_val, label='y_val', color='tab:green')
    plt.plot(y_pred, label='y_pred', color='tab:orange')
    plt.legend()
    plt.subplot(2,1,2)
    plt.plot(y_val, label = 'y_val', color='tab:green')
    plt.plot(y_pred, label = 'y_pred', color='tab:orange')
    plt.legend()
    plt.tight_layout()
    plt.show()

    print("Best_param", grid_search.best_params_)
    print("Best", grid_search.best_score_)         
    print('RMAE', mean_squared_error(y_val, y_pred, squared=False))
    print('MAE', mean_absolute_error(y_val, y_pred))
    print('MAPE', mean_absolute_percentage_error(y_val, y_pred))
    print('R2', r2_score(y_val, y_pred))