## 机器学习-K近邻

### Airbnb 房价预测任务

<img src="1.png" style="width:800px;height:480px;float:left">

## 数据读取

In [1]:
import pandas as pd

# 截取部分特征
features = ['accommodates','bedrooms','bathrooms','beds','price','minimum_nights','maximum_nights','number_of_reviews']

dc_listings = pd.read_csv('listings.csv')

dc_listings = dc_listings[features] # 指定特征

print(type(dc_listings))

dc_listings.head()


<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,accommodates,bedrooms,bathrooms,beds,price,minimum_nights,maximum_nights,number_of_reviews
0,4,1.0,1.0,2.0,$160.00,1,1125,0
1,6,3.0,3.0,3.0,$350.00,2,30,65
2,1,1.0,2.0,1.0,$50.00,2,1125,1
3,2,1.0,1.0,1.0,$95.00,1,1125,0
4,4,1.0,1.0,1.0,$50.00,7,1125,0


数据特征：

* accommodates: 可以容纳的旅客
* bedrooms: 卧室的数量
* bathrooms: 厕所的数量
* beds: 床的数量
* price: 每晚的费用
* minimum_nights: 客人最少租了几天
* maximum_nights: 客人最多租了几天
* number_of_reviews: 评论的数量

In [2]:
#print (help(pd.read_csv))

## 如果我有一个1个房间的房子，我能租多少钱呢？
讲道理，咱是不是得去看看1个房间的别人都租到多少钱啊！

<img src="2.png" style="width:600px;height:230px;float:left">

K代表我们的候选对象个数，也就是找和我房间数量最相近的其他房子的价格

## K近邻原理

<img src="3.png" style="width:600px;height:330px;float:left">

假设我们的数据源中只有5条信息，现在我想针对我的房子（只有一个房间）来定一个价格。

<img src="4.png" style="width:600px;height:330px;float:left">

在这里假设我们选择的K=3，也就是选3个跟我最相近的房源。

<img src="5.png" style="width:600px;height:330px;float:left">

再综合考虑这三个我就得到了我的房子大概能值多钱啦！

## 距离的定义
如何才能知道哪些数据样本跟我最相近呢？

<img src="6.png" style="width:400px;height:80px;float:left">

其中Q1到Qn是一条数据的所有特征信息，P1到Pn是另一条数据的所有特征信息

假设我们的房子有3个房间

In [3]:
import numpy as np

our_acc_value = 1

# 可容纳的旅客数
# dc_listings['distance']在dc_listings数据集中添加一个特色列，abs算绝对值
dc_listings['distance'] = np.abs(dc_listings['accommodates'] - our_acc_value)
dc_listings['distance'].value_counts().sort_index() # value_counts统计差异值数量，，再排序


0      342
1     1604
2      461
3      690
4      161
5      279
6       35
7       73
8       17
9       22
10       7
11      12
12       2
13       4
14       6
15       8
Name: distance, dtype: int64

这里我们只有了绝对值来计算，和我们距离为0的（同样数量的房间）有461个

sample操作可以得到洗牌后的数据

In [4]:
# sample洗牌
dc_listings = dc_listings.sample(frac=1,random_state=0)
# pandas中的sort_values()可以将数据集依照某个字段中的数据进行排序，
# 该函数即可根据指定列数据也可根据指定行的数据排序。
dc_listings = dc_listings.sort_values('distance')
dc_listings[['price', 'distance']].head()


Unnamed: 0,price,distance
729,$39.00,0
3032,$60.00,0
719,$69.00,0
1849,$65.00,0
1636,$70.00,0


现在的问题是，这里面的数据是字符串呀，需要转换一下！

In [6]:
#将price特征中的$符号去掉并且将字符串类型转化为浮点型。重复运行会报错
dc_listings['price'] = dc_listings['price'].str.replace("\$|,",'').astype(float)

mean_price = dc_listings['price'][:5].mean()
mean_price


60.6

得到了平均价格，也就是我们的房子大致的价格了

## 模型的评估

<img src="7.png" style="width:600px;height:250px;float:left">

首先制定好训练集和测试集

In [7]:
# drop删除列axis=1是列，=0是索引，inplace确认删除原数据集中的
# 注意不要重复执行，重复执行的话已经删除了distance就会报错
dc_listings.drop('distance',axis=1)
train_df = dc_listings.copy().iloc[:2792]
test_df = dc_listings.copy().iloc[2792:]


基于单变量预测价格

In [8]:
# 定义预测函数
def predict_price(new_listing_value,feature_column):
    temp_df = train_df
    temp_df['distance'] = np.abs(dc_listings[feature_column] - new_listing_value)
    temp_df = temp_df.sort_values('distance') # 按照distance排序
    knn_5 = temp_df.price.iloc[:5]
    predicted_price = knn_5.mean()
    return(predicted_price)

In [9]:
# apply() 函数作为一个对象，能作为参数传递给其它参数，并且能作为函数的返回值。
# .apply(函数， 参数) 对每条样本都执行函数
test_df['predicted_price'] = test_df['accommodates'].apply(predict_price,feature_column='accommodates')


这样我们就得到了测试集中，所以房子的价格了

root mean squared error (RMSE)均方根误差

<img src="8.png" style="width:700px;height:100px;float:left">

In [10]:
test_df['squared_error'] = (test_df['predicted_price'] - test_df['price'])**(2)
mse = test_df['squared_error'].mean()
rmse = mse ** (1/2)
rmse

223.3572332894734

现在我们得到了对于一个变量的模型评估得分

## 不同的变量效果会不会不同呢？

In [11]:
for feature in ['accommodates','bedrooms','bathrooms','number_of_reviews']:
    #test_df['predicted_price'] = test_df.accommodates.apply(predict_price,feature_column=feature)
    test_df['predicted_price'] = test_df[feature].apply(predict_price,feature_column=feature)
    test_df['squared_error'] = (test_df['predicted_price'] - test_df['price'])**(2)
    mse = test_df['squared_error'].mean()
    rmse = mse ** (1/2)
    print("RMSE for the {} column: {}".format(feature,rmse))

RMSE for the accommodates column: 223.3572332894734
RMSE for the bedrooms column: 202.53601629028068
RMSE for the bathrooms column: 246.7606127403642
RMSE for the number_of_reviews column: 233.0691183329863


看起来结果差异还是蛮大的，接下来我们要做的就是综合利用所有的信息来一起进行测试

## 特征数据预处理-标准化与归一化
由于不同特征的取值范围不同，例如特征a在100-200浮动，特征b在1-2浮动，直接使用方根差公式会导致特征b不起作用，因此需要先对数据进行预处理，将所有特征归一化
### 标准化
要求 均值 $\mu = 0$和标准差$\sigma=1$
转换公式：$$z={x- \mu \over \sigma}$$
### 归一化
所有结果压缩到0-1的范围$$X_{norm}={X-X_{min} \over X_{max}-X_{min}}$$

In [12]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
features = ['accommodates','bedrooms','bathrooms','beds','price','minimum_nights','maximum_nights','number_of_reviews']

dc_listings = pd.read_csv('listings.csv')

dc_listings = dc_listings[features]

dc_listings['price'] = dc_listings.price.str.replace("\$|,",'').astype(float)

dc_listings = dc_listings.dropna()

# 标准化
dc_listings[features] = StandardScaler().fit_transform(dc_listings[features])

normalized_listings = dc_listings

print(dc_listings.shape)

normalized_listings.head()

(3671, 8)


Unnamed: 0,accommodates,bedrooms,bathrooms,beds,price,minimum_nights,maximum_nights,number_of_reviews
0,0.40142,-0.249501,-0.439211,0.297386,0.081119,-0.341421,-0.016575,-0.516779
1,1.399466,2.129508,2.969551,1.141704,1.462622,-0.065047,-0.016606,1.706767
2,-1.095648,-0.249501,1.26517,-0.546933,-0.718699,-0.065047,-0.016575,-0.482571
3,-0.596625,-0.249501,-0.439211,-0.546933,-0.391501,-0.341421,-0.016575,-0.516779
4,0.40142,-0.249501,-0.439211,-0.546933,-0.718699,1.316824,-0.016575,-0.516779


In [13]:
norm_train_df = normalized_listings.copy().iloc[0:2792]
norm_test_df = normalized_listings.copy().iloc[2792:]

多变量距离的计算

<img src="9.png" style="width:700px;height:400px;float:left">

scipy中已经有现成的距离的计算工具了

In [14]:
from scipy.spatial import distance

first_listing = normalized_listings.iloc[0][['accommodates', 'bathrooms']]
fifth_listing = normalized_listings.iloc[20][['accommodates', 'bathrooms']]
first_fifth_distance = distance.euclidean(first_listing, fifth_listing)
first_fifth_distance

3.723019604017032

## 多变量KNN模型

In [15]:
def predict_price_multivariate(new_listing_value,feature_columns):
    temp_df = norm_train_df
    temp_df['distance'] = distance.cdist(temp_df[feature_columns],[new_listing_value[feature_columns]])
    temp_df = temp_df.sort_values('distance')
    knn_5 = temp_df.price.iloc[:5]
    predicted_price = knn_5.mean()
    return(predicted_price)

cols = ['accommodates', 'bathrooms']
norm_test_df['predicted_price'] = norm_test_df[cols].apply(predict_price_multivariate,feature_columns=cols,axis=1)    
norm_test_df['squared_error'] = (norm_test_df['predicted_price'] - norm_test_df['price'])**(2)
mse = norm_test_df['squared_error'].mean()
rmse = mse ** (1/2)
print(rmse)

0.7894063922577531


## 使用Sklearn来完成KNN

In [22]:
from sklearn.neighbors import KNeighborsRegressor
cols = ['accommodates','bedrooms']
knn = KNeighborsRegressor(n_neighbors=50) # 实例化
knn.fit(norm_train_df[cols], norm_train_df['price']) # 指定特征，标签
two_features_predictions = knn.predict(norm_test_df[cols])

In [23]:
from sklearn.metrics import mean_squared_error

two_features_mse = mean_squared_error(norm_test_df['price'], two_features_predictions)
two_features_rmse = two_features_mse ** (1/2)
print(two_features_rmse)

0.8130088587196026


加入更多的特征

In [25]:
knn = KNeighborsRegressor(n_neighbors=50)

cols = ['accommodates','bedrooms','bathrooms','beds','minimum_nights','maximum_nights','number_of_reviews']

knn.fit(norm_train_df[cols], norm_train_df['price'])
four_features_predictions = knn.predict(norm_test_df[cols])
four_features_mse = mean_squared_error(norm_test_df['price'], four_features_predictions)
four_features_rmse = four_features_mse ** (1/2)
four_features_rmse

0.7953458838020404

# knn算法思想
-1. 传入的一条数据a依次和数据库中的数据进行比较（1000）计算这条数据和数据库中的每条数据的距离d
-2. 按照距离d的从小到大顺序将数据库中的数据排序
-3. 取前k条数据即距离a最近的k条数据作为近邻
-4. 将前k个数据的距离d进行计算，回归计算均值，分类计算概率
-5. 检验，均方差计算rsm

==缺点：要依次计算距离并排序，速度慢==