Skip to content

Thinkgamer/Douban_Movies_Analysic

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Douban_Movies_Analysic

本项目记录我在广联达实习期间做的一个小课题,主要是为了测试自己搭建的一个数据分析平台

平台的搭建参考博客:http://blog.csdn.net/gamer_gyt/article/details/51991893

平台部分主要是hadoop分布式系统,基于该系统融合了组件Spark,Hbase,Hive,Sqoop,Mahout等。继而进行相关的数据分析

该项目主要分为以下几部分:

1:数据采集

主要是基于豆瓣电影的数据,进行分析,所以首先要爬取相关的电影数据,对应的源代码在DouBan_Spider目录下,主要是采用Python3.4.3 + BeautifulSoup4.4.1 + urllib进行数据采集

2:ETL预处理
3:数据分析
4:可视化
Email:thinkgamer@163.com
QQ:1923361654
WeChat:17600977634
CSDN:https://blog.csdn.net/gamer_gyt
微博:Thinkgamer

About

基于豆瓣电影数

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages