# 蔬菜价格预测模型

2018年4月25日

在这个项目中，我们将使用成都市蔬菜价格数据建立一个有关最高价和最低价的预测模型。根据前面对数据进行的探索性分析，我们得到如下结论：

1. 蔬菜最高价与“最低价”、“白天温度”、“夜晚温度”、“前3天最高价均值”、“前9天最高价均值”、“前3天最低价均值”、“前9天最低价均值”具有相关关系；
2. 蔬菜最低价与“最高价”、“前3天最高价均值”、“前9天最高价均值”、“前3天最低价均值”、“前9天最低价均值”具有相关关系；

因此我们将围绕这一维度分别建立对最高价和最低价进行预测的算法模型，将探索多个常用的监督学习算法并找出其中最优的方案。

## 1. 数据准备

### 1.1 导入数据

首先从CSV文件中导入数据，然后将数据拆分为特征和目标两个部分。

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

In [6]:
data = pd.read_csv('./vegetable_prices.csv')
high_prices = data['h_price']
low_prices = data['l_price']
features = data.drop(['l_price', 'h_price', 'v_price'], axis=1)

print('chengdu vegetable dataset has {} data points with {} variables each'.format(*data.shape))

chengdu vegetable dataset has 7380 data points with 18 variables each


### 1.2 分析数据

In [7]:
data.describe()

Unnamed: 0,v_price,h_price,l_price,yWendu,bWendu,aqi,aqiLevel,cpi
count,7380.0,7380.0,7380.0,7380.0,7380.0,7380.0,7380.0,7380.0
mean,4.277428,4.880379,3.842229,12.117615,19.887127,90.306098,2.278455,101.696125
std,2.944538,3.310784,2.755695,7.611643,7.90934,47.854366,0.961149,0.563632
min,0.8,0.9,0.7,-4.0,4.0,25.0,1.0,100.8
25%,2.0,2.3,1.8,6.0,13.0,54.0,2.0,101.3
50%,3.6,4.0,3.2,12.0,19.0,79.0,2.0,101.4
75%,5.0,6.0,4.5,19.0,27.0,117.0,3.0,102.3
max,16.5,20.0,16.0,26.0,36.0,318.0,6.0,102.6


以上是对原始数据集中的几个数值型变量进行的基本统计分析，可以看到均值，标准差，中位数和最值等基本描述统计量。

### 1.3 数据分割与重排
接下来，将数据集分成训练和测试两个子集并打乱数据顺序，消除数据集中由于顺序产生的偏差，分割比例为80%数据用于训练，20%用于测试。

In [8]:
from sklearn.model_selection import train_test_split

X_train_h, X_test_h, y_train_h, y_test_h = train_test_split(features, high_prices, test_size=0.2, random_state=42)
X_train_l, X_test_l, y_train_l, y_test_l = train_test_split(features, low_prices, test_size=0.2, random_state=42)



## 2. 训练模型

### 2.1 方案1：线性回归模型

1. 网格搜索+K折交叉验证
2. 分析模型表现

## 3. 结论