- 该项目较为简单,新手需配好python环境。作者使用 python进行开发,jupyter notebook 作为编辑器。
- 学习该项目您能对爬虫、数据分析与数据可视化等知识获得初步了解。
- result_images是存储可视化图片的文件夹
- 先安装python包
pip install -r requirements.txt
两种方式运行:
- 运行py文件
python main.py
- 或使用jupyter notebook
下载Anaconda,将jupyter notebook调出,打开main.ipynb文件,运行即可。
-
数据获取:从豆瓣《飞驰人生》评论页获取数据
-
数据清洗:清洗掉获取数据中的脏数据
-
数据处理:将有价值的数据提取出来,使用numpy及pandas库进行分析建模
-
具体详情,转至 我的博客
Figure 1:词云图
Figure 2:电影评级图
Figure 3:评论数量图
Figure 4:评论均值图