#### 날씨와 배추가격은 어떤 상관관계가 있는지 예측하는 AI를 만들어봅니다.
##### 평균기온(ageTemp), 최저기온(minTemp), 최고기온(maxTemp), 강수량(rainFall)이 평균 배추가격(agePrice)에 영향을 미칠 경우 가격을 예측합니다.

In [3]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sb
%matplotlib inline
import tensorflow.compat.v1 as tf
tf.disable_v2_behavior()

In [4]:
# price_data.csv 파일의 데이터를 판다스로 읽어 데이터프레임으로 저장합니다.
price_data = pd.read_csv('price_data.csv')
print(type(price_data))
print(price_data)

<class 'pandas.core.frame.DataFrame'>
          year  avgTemp  minTemp  maxTemp  rainFall  avgPrice
0     20100101     -4.9    -11.0      0.9       0.0      2123
1     20100102     -3.1     -5.5      5.5       0.8      2123
2     20100103     -2.9     -6.9      1.4       0.0      2123
3     20100104     -1.8     -5.1      2.2       5.9      2020
4     20100105     -5.2     -8.7     -1.8       0.7      2060
...        ...      ...      ...      ...       ...       ...
2917  20171227     -3.9     -8.0      0.7       0.0      2865
2918  20171228     -1.5     -6.9      3.7       0.0      2884
2919  20171229      2.9     -2.1      8.0       0.0      2901
2920  20171230      2.9     -1.6      7.1       0.6      2901
2921  20171231      2.1     -2.0      5.8       0.4      2901

[2922 rows x 6 columns]


In [5]:
# 읽어온 데이터를 넘파이 배열 형태로 변환합니다.
data = np.array(price_data, dtype=np.float32)
print(type(data))
data

<class 'numpy.ndarray'>


array([[ 2.0100100e+07, -4.9000001e+00, -1.1000000e+01,  8.9999998e-01,
         0.0000000e+00,  2.1230000e+03],
       [ 2.0100102e+07, -3.0999999e+00, -5.5000000e+00,  5.5000000e+00,
         8.0000001e-01,  2.1230000e+03],
       [ 2.0100104e+07, -2.9000001e+00, -6.9000001e+00,  1.4000000e+00,
         0.0000000e+00,  2.1230000e+03],
       ...,
       [ 2.0171228e+07,  2.9000001e+00, -2.0999999e+00,  8.0000000e+00,
         0.0000000e+00,  2.9010000e+03],
       [ 2.0171230e+07,  2.9000001e+00, -1.6000000e+00,  7.0999999e+00,
         6.0000002e-01,  2.9010000e+03],
       [ 2.0171232e+07,  2.0999999e+00, -2.0000000e+00,  5.8000002e+00,
         4.0000001e-01,  2.9010000e+03]], dtype=float32)

In [6]:
# 넘파이 배열에서 변화 요인 데이터(평균기온, 최저기온, 최고기온, 강수량)으로 사용할 데이터를 뽑아냅니다.
xData = data[:, 1:5]
xData

array([[ -4.9, -11. ,   0.9,   0. ],
       [ -3.1,  -5.5,   5.5,   0.8],
       [ -2.9,  -6.9,   1.4,   0. ],
       ...,
       [  2.9,  -2.1,   8. ,   0. ],
       [  2.9,  -1.6,   7.1,   0.6],
       [  2.1,  -2. ,   5.8,   0.4]], dtype=float32)

In [7]:
# 넘파이 배열에서 결과(평균가격)로 사용할 데이터를 뽑아냅니다.
# 변화 요인이 2차원이므로 결과도 2차원 테이터로 뽑습니다.
yData = data[:, [5]]
yData

array([[2123.],
       [2123.],
       [2123.],
       ...,
       [2901.],
       [2901.],
       [2901.]], dtype=float32)

In [8]:
# 뽑아낸 데이터를 tensorflow로 처리하기위해 placeholder를 만듭니다.
X = tf.placeholder(dtype=tf.float32, shape=[None, 4]) # 변화요인(평균기온, 최저기온, 최고기온, 강수량)
Y = tf.placeholder(dtype=tf.float32, shape=[None, 1]) # 가격(실제값)

# 다변인 선형 회귀 모델의 기울기와 y절편의 임의의 값으로 초기화합니다.
a = tf.Variable(tf.random_uniform([4, 1]), dtype=tf.float32) # 4행 1열을 난수로 발생시킴
b = tf.Variable(tf.random_uniform([1]), dtype=tf.float32)
print(a)
print(b)

<tf.Variable 'Variable:0' shape=(4, 1) dtype=float32_ref>
<tf.Variable 'Variable_1:0' shape=(1,) dtype=float32_ref>


In [9]:
# 행렬의 곱셈 연산을 이용해 다변인 선형 회귀 모델의 가설식을 세웁니다 -> 예측값
y = tf.matmul(X, a) + b

# 오차 함수를 만듭니다.
loss = tf.reduce_mean(tf.square(y - Y))

# 경사하강법 알고리즘을 사용해서 오차 함수의 결과를 최소로 하는 식을 만듭니다.
gradient_descent = tf.train.GradientDescentOptimizer(0.00005).minimize(loss)

In [10]:
# 학습을 시킵니다.
sess = tf.Session()
sess.run(tf.global_variables_initializer())

for i in range(100001):
    loss_, y_, _ = sess.run([loss, y, gradient_descent], feed_dict={X: xData, Y: yData})
    if i % 5000 == 0:
        print('count : %6d, loss = %12.3f, price = %6.1f' % (i, loss_, y_[0]))
        
# 학습이 완료되면 학습된 학습 모델을 디스크에 저장합니다.
# Saver() : tensorflow에서 학습된 모델을 디스크에 저장 또는 불러올 때 사용하는 객체를 생성합니다.
saver = tf.train.Saver()
save_path = saver.save(sess, "saved.ckpt")
print('학습된 모델을 저장했습니다.')

count :      0, loss = 12470872.000, price =   -1.8
count :   5000, loss =  2254352.500, price = 2581.5
count :  10000, loss =  2228212.250, price = 2584.4
count :  15000, loss =  2203878.750, price = 2587.4
count :  20000, loss =  2181210.000, price = 2590.6
count :  25000, loss =  2160075.000, price = 2593.9
count :  30000, loss =  2140354.500, price = 2597.2
count :  35000, loss =  2121942.500, price = 2600.7
count :  40000, loss =  2104735.750, price = 2604.2
count :  45000, loss =  2088646.500, price = 2607.9
count :  50000, loss =  2073592.000, price = 2611.5
count :  55000, loss =  2059494.625, price = 2615.3
count :  60000, loss =  2046284.875, price = 2619.0
count :  65000, loss =  2033899.625, price = 2622.8
count :  70000, loss =  2022280.875, price = 2626.6
count :  75000, loss =  2011373.625, price = 2630.5
count :  80000, loss =  2001127.250, price = 2634.4
count :  85000, loss =  1991501.625, price = 2638.2
count :  90000, loss =  1982446.250, price = 2642.1
count :  950