- 爬取数据用到了scrapy框架
- 数据可视化用到了高德地图的api
对于房价数据的分析(租房):
我们可以看到:太原市万柏林的租房房价是这些区中最高的,然后是小店区,为了验证,我特意去网上找了些验证。 大致还是吻合的,但是还有点偏差,我就在想是为什么?后来我发现数据的个数相差的很大,对于小店区来说,共有900多条,迎泽和万柏林为230多条,而杏花岭则为90条,而且在平均房价在2000的时候,万柏林竟然有好几条办公处所的出租,价格达到了两万。
最后:总的来说,小店,迎泽和万柏林,是太原市几个区中最贵的,相比之下,晋源和杏花岭就友好好多,显而易见,房价与房屋面积呈正相关。
后续会加入对于房价的预测,通过supervised learning
注:高德地图的api对于api的调用好像有隐藏的要求,如果不设置超时,是不是会有卡死的现象
未完待续
2018/8/13