# 기존의 빵 판매량을 이용하여 추후 판매량을 예측하는 프로그램

## 작업처리 순서
- 데이터가 정리된 빵 판매량 파일을 로드
- 빵 판매량 파일에서 트레이닝 데이터를 추출
- 추출한 트레이닝 데이터를 이용해 모델링 진행
- 빵 판매량 파일에서 테스트 데이터를 추출
- 모델링 검증
- 데이터 시각화

## 모델링 조건
- 트레이닝 데이터 : 테스트 데이터 = 70 : 30

## 데이터 정보
- 실제로 영업하면서 쓰인 데이터를 이용함 [다운로드 링크](https://drive.google.com/open?id=0Byo6yQd8LvDzVFVyUjZsVjhMaWc)

In [None]:
%matplotlib inline
from __future__ import print_function
import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model
import pandas as pd

필요한 모듈 임포트

In [None]:
productSellData = pd.read_csv("productSell.csv", index_col=0)

판매량을 정리한 csv파일을 불러온다

In [None]:
print("* productSellData.head()", productSellData.head(), sep="\n", end="\n\n")

빵 판매량이 기록된 전체 데이터가 잘 불러왔는지 테스트 할 겸 윗부분만 출력

In [None]:
print("* productSellData.tail()", productSellData.tail(), sep="\n", end="\n\n")

빵 판매량이 기록된 전체 데이터가 잘 불러왔는지 테스트 할 겸 아랫부분만 출력

In [None]:
XcoordinateTrainData = productSellData["productSell"]
XcoordinateTrainData = XcoordinateTrainData[:26]

- 트레이닝에 쓰일 데이터 중 컬럼이 판매량(productSell)인것만 로드
- 로드할 때 우리 프로젝트의 트레이닝 조건인 4주차까지만 알고리즘을 적용한다는 내용을 감안하여 26열까지만 사용
- 로드한 데이터를 모델의 독립 변수로 적용

In [None]:
print("* XcoordinateTrainData.head()", XcoordinateTrainData.head(), sep="\n", end="\n\n")

독립변수로 쓰일 데이터(productSell)이 잘 불러와졌는지 윗부분만 테스트 출력

In [None]:
print("* XcoordinateTrainData.tail()", XcoordinateTrainData.tail(), sep="\n", end="\n\n")

독립변수로 쓰일 데이터(productSell)이 잘 불러와졌는지 아랫부분만 테스트 출력

In [None]:
YcoordinateTrainData = productSellData["day"]
YcoordinateTrainData = YcoordinateTrainData[:26]

- 트레이닝에 쓰일 데이터 중 컬럼이 일(day)인것만 로드
- 로드할 때 우리 프로젝트의 트레이닝 조건인 4주차까지만 알고리즘을 적용한다는 내용을 감안하여 26열까지만 사용
- 로드한 데이터를 모델의 종속 변수로 적용

In [None]:
print("* YcoordinateTrainData.head()", YcoordinateTrainData.head(), sep="\n", end="\n\n")

종속변수로 쓰일 데이터(day)가 잘 불러와졌는지 윗부분만 테스트 출력

In [None]:
print("* YcoordinateTrainData.tail()", YcoordinateTrainData.tail(), sep="\n", end="\n\n")

종속변수로 쓰일 데이터(day)가 잘 불러와졌는지 아랫부분만 테스트 출력

In [None]:
regressionModel = linear_model.LinearRegression()

모델링할 객체 생성

In [None]:
regressionModel.fit(XcoordinateTrainData.to_frame(), YcoordinateTrainData.to_frame())

- 정확도를 최대치로 하는 회귀분석을 진행
- 진행 시 들어간 데이터로는 트레이닝용 독립변수 판매량(productSell), 종속변수 일(day)가 들어감

In [None]:
print('Coefficients: \n', regressionModel.coef_)

모델링 진행 후 계수가 잘 구해졌는지 출력

In [None]:
XcoordinateTestData = productSellData["productSell"]
XcoordinateTestData = XcoordinateTestData[1:8]

- 테스트에 쓰일 데이터 중 컬럼이 판매량(productSell)인것만 로드
- 로드할 때 우리 프로젝트의 테스트 조건인 70:30을 감안하여 트레이닝할때 쓰인 데이터 갯수가 26개라면 테스트 데이터 갯수는 7개로 지정
- 로드한 데이터를 테스트의 독립 변수로 적용

In [None]:
print("* XcoordinateTestData.head()", XcoordinateTestData.head(), sep="\n", end="\n\n")

독립변수로 쓰일 데이터(productSell)이 잘 불러와졌는지 윗부분만 테스트 출력

In [None]:
print("* XcoordinateTestData.tail()", XcoordinateTestData.tail(), sep="\n", end="\n\n")

독립변수로 쓰일 데이터(productSell)이 잘 불러와졌는지 아랫부분만 테스트 출력

In [None]:
YcoordinateTestData = productSellData["day"]
YcoordinateTestData = YcoordinateTestData[1:8]

- 테스트에 쓰일 데이터 중 컬럼이 일(day)인것만 로드
- 로드할 때 우리 프로젝트의 테스트 조건인 70:30을 감안하여 트레이닝할때 쓰인 데이터 갯수가 26개라면 테스트 데이터 갯수는 7개로 지정
- 로드한 데이터를 테스트의 종속 변수로 적용

In [None]:
print("* YcoordinateTestData.head()", YcoordinateTestData.head(), sep="\n", end="\n\n")

종속변수로 쓰일 데이터(day)가 잘 불러와졌는지 윗부분만 테스트 출력

In [None]:
print("* YcoordinateTestData.tail()", YcoordinateTestData.tail(), sep="\n", end="\n\n")

종속변수로 쓰일 데이터(day)가 잘 불러와졌는지 아랫부분만 테스트 출력

In [None]:
print("Mean squared error: %.2f"
      % np.mean((regressionModel.predict(XcoordinateTestData.to_frame()) - YcoordinateTestData.to_frame()) ** 2))

실제로 예상판매량을 계산해 봄으로써 나온 결과값들을 이용해 평균 제곱근 편차를 구함

In [None]:
print('Variance score: %.2f' % regressionModel.score(XcoordinateTestData.to_frame(), YcoordinateTestData.to_frame()))

또한 회귀직선을 구하여 해당 그래프와 데이터들간의 분산 값을 구함

In [None]:
plt.scatter(XcoordinateTestData, YcoordinateTestData,  color='black')

테스트 데이터 시각화

In [None]:
plt.plot(XcoordinateTestData.to_frame(), regressionModel.predict(XcoordinateTestData.to_frame()), color='blue',
         linewidth=3)

회귀직선 시각화