# 회귀 연습 : 다음날 아보카도 가격 예측
- 데이터 출처 : https://www.kaggle.com/datasets/neuromusic/avocado-prices
- 데이터 설명 : 여러 미국 시장의 아보카도 가격 및 판매량에 대한 과거 데이터
- 파일 이름 : 'avocado.csv'
- 컬럼 정보
    * **Date** : 날짜
    * **AveragePrice** : target, 아보카도 한 개의 평균 가격
    * **TotalVolume** : 판매된 아보카도의 총 개수
    * **4046** : PLU 4046이 포함된 아보카도 총 판매 개수
    * **4225** : PLU 4225이 포함된 아보카도 총 판매 개수
    * **4770** : PLU 4770이 포함된 아보카도 총 판매 개수
    * **type** : 아보카도 종류 - conventional(일반) or organic(유기농)
    * **year** : 년도
    * **region** : 관측 도시나 지역, 총 54개

## 진행 순서
1. 필요한 라이브러리 설치 및 임포트
2. 데이터 로드
3. 데이터 분석(구성확인, 상관분석, 시각화)
4. 데이터 전처리(결측치 처리, 인코딩 등)
5. 데이터 분리(x, y)
6. 데이터 스케일링(정규화)
7. 머신러닝
8. 딥러닝
9. 모델 성능평가

# 1. 필요한 라이브러리 설치 및 임포트

In [8]:
import pandas as pd
import numpy as np

# 2. 데이터 로드

In [60]:
df = pd.read_csv('avocado.csv', index_col=0)
df

Unnamed: 0,Date,AveragePrice,TotalVolume,4046,4225,4770,TotalBags,type,year,region
0,2015-01-04,1.75,27365.89,9307.34,3844.81,615.28,13598.46,organic,2015,Southeast
1,2015-01-04,1.49,17723.17,1189.35,15628.27,0.00,905.55,organic,2015,Chicago
2,2015-01-04,1.68,2896.72,161.68,206.96,0.00,,organic,2015,HarrisburgScranton
3,2015-01-04,1.52,54956.80,3013.04,35456.88,1561.70,14925.18,conventional,2015,Pittsburgh
4,2015-01-04,1.64,1505.12,1.27,1129.50,0.00,,organic,2015,Boise
...,...,...,...,...,...,...,...,...,...,...
18244,2018-03-25,1.36,908202.13,142681.06,463136.28,174975.75,,conventional,2018,Chicago
18245,2018-03-25,0.70,9010588.32,3999735.71,966589.50,30130.82,,conventional,2018,SouthCentral
18246,2018-03-25,1.42,163496.70,29253.30,,0.00,129163.36,organic,2018,SouthCentral
18247,2018-03-25,1.70,190257.38,29644.09,70982.10,0.00,89631.19,organic,2018,California


# 3. 데이터 분석(구성확인, 상관분석, 시각화)

# 4. 데이터 전처리(결측치 처리, 인코딩 등)

# 5. 데이터 분리(x, y)

# 6. 데이터 스케일링(정규화)

# 7. 머신러닝

In [None]:
from sklearn.metrics import mean_absolute_error
y_pred = df.predict(X_valid)
dt_mae = mean_absolute_error(y_valid, y_pred)
dt_mae

# 8. 딥러닝

In [None]:
import tensorflow as tf
from tensorflow.keras.models import Sequential, load_model
from tensorflow.keras.layers import Dense, Input, Activation, Dropout, BatchNormalization
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
from tensorflow.keras.utils import to_categorical

tf.random.set_seed(1)

In [None]:
# 모델 생성
model = Sequential([
    Input(shape=(X_train.shape[1],)),
    Dense(64, activation='relu'),
    Dropout(0.2),
    Dense(32, activation='relu'),
    Dense(1)
])
model.compile(loss='mean_squared_error', optimizer='adam')
model.summary()

In [None]:
es = EarlyStopping(monitor='val_loss', patience=4)
mc = ModelCheckpoint('best_model.h5', monitor='val_loss', save_best_only=True)

history = model.fit(X_train, y_train, 
                    epochs=30, batch_size=16, 
                    validation_data=(X_test, y_test), 
                    callbacks=[es, mc])

# 9. 모델 성능평가

In [None]:
plt.title('Model MSE')
plt.plot(history.history['loss'], label='mse')
plt.plot(history.history['val_loss'], label='val_mse')
plt.xlabel('Epochs')
plt.ylabel('MSE')
plt.legend()
plt.show()