# 在Python中使用线性回归预测房子价格

参考资料：
> http://python.jobbole.com/81215/  
https://scikit-learn.org/stable/

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression#从一个二级模块导入一个三级功能

data=pd.read_excel('price.xlsx', index_col=0)
data

Unnamed: 0,square_feet,price
1,150,6450
2,200,7450
3,250,8450
4,300,9450
5,350,11450
6,400,15450
7,600,18450


In [2]:
[x for x in zip(data['square_feet'],data['price'])]

[(150, 6450),
 (200, 7450),
 (250, 8450),
 (300, 9450),
 (350, 11450),
 (400, 15450),
 (600, 18450)]

In [4]:
#把数据转换为X值（平方英尺）、Y值（价格）
X_parameter = []
Y_parameter = []
for square_feet,price_value in zip(data['square_feet'],data['price']):
    X_parameter.append([square_feet])
    Y_parameter.append(price_value)
print(X_parameter)#是二位的
print(Y_parameter)#是一维的，这里的数据处理，是使用的算法，要求x是二维的

[[150], [200], [250], [300], [350], [400], [600]]
[6450, 7450, 8450, 9450, 11450, 15450, 18450]


In [6]:
len(X_parameter)

7

In [3]:
#把X_parameter和Y_parameter拟合为线性回归模型。
#我们要写一个函数，输入为X_parameters、Y_parameter和你要预测的平方英尺值，返回θ0、θ1和预测出的价格值。
def linear_model_main(X_parameter, Y_parameter, predicted_value):
    '''
    房价预测的线性回归模型
    X_parameter：2D Array，住房面积
    Y_parameter：1D Array，价格
    predicted_value：2D Array，待遇预测房屋的面积
    
    return：dictionary，线性回归的截距、回归系数、预测的房屋价格
    '''
    regr = LinearRegression()#把函数赋给regr，简写，方便
    regr.fit(X_parameter,Y_parameter)#前面这两行，创建一个线性模型，用我们的X_parameters和Y_parameter拟合它。
    predict_outcome = regr.predict(predicted_value)
    predictions = {} #我们创建一个名称为predictions的字典，存着θ0、θ1和预测值，并返回predictions字典为输出。
    predictions['intercept'] = regr.intercept_ #指定字典的key，分别是intercept、coefficient、predicted_value
    predictions['coefficient'] = regr.coef_
    predictions['predicted_value'] = predict_outcome
    return predictions

In [5]:
result = linear_model_main(X_parameter, Y_parameter, predicted_value=[[900.]])#predicted_value需要时2D的
print("Predicted value: ",result['predicted_value'])
result

Predicted value:  [27670.74468085]


{'intercept': 1771.8085106382969,
 'coefficient': array([28.77659574]),
 'predicted_value': array([27670.74468085])}

In [6]:
result['intercept']

1771.8085106382969

In [7]:
# 方法1
result_1 = linear_model_main(X_parameter, Y_parameter, predicted_value=[[900.]])
print(result_1)
# 方法2
prevalue = [[900.]]
result_2 = linear_model_main(X_parameter, Y_parameter, prevalue)
print(result_2)

{'intercept': 1771.8085106382969, 'coefficient': array([28.77659574]), 'predicted_value': array([27670.74468085])}
{'intercept': 1771.8085106382969, 'coefficient': array([28.77659574]), 'predicted_value': array([27670.74468085])}
