Skip to content

Liangchengdeye/Dpark

master
Switch branches/tags

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 
 
 
 
 

Dpark

Dpark-AND-Spark
Dpark:Dpark是国内豆瓣公司根据Spark进行的克隆版本的实现
DPark 是一个类似MapReduce 的基于Mesos(Apache 下的一个集群管理器,提供了有效的、跨分布式应用或框架的资源隔离和共享等功能)的集群并行计算框架(Cluster Computing Framework),DPark 是Spark 的Python克隆版本,是一个Python 实现的分布式计算框架,可以非常方便地实现大规模数据处理和低延时的迭代计算。该计算框架类似于MapReduce,但是比其更灵活,可以用Python 非常方便地进行分布式计算,并且提供了更多的功能,以便更好地进行迭代式计算。DPark 由国内的豆瓣公司开发实现和负责维护,据豆瓣公司的描述,目前豆瓣公司内部的绝大多数数据分析都使用DPark 完成,整个项目也正趋于完善。
Dpark克隆与Spark
参考网站:http://suanfazu.com/t/dpark-de-chu-bu-shi-yong/444
本例实现参考自:https://blog.csdn.net/myjiayan/article/details/52463053?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io
Spark官方文档:http://spark.apache.org/docs/latest/api/python/pyspark.sql.html
Dpark:https://github.com/douban/dpark
简介:
DPark is a Python clone of Spark, MapReduce(R) alike computing framework supporting iterative computation.
Example for word counting (wc.py):
from dpark import DparkContext
ctx = DparkContext()
file = ctx.textFile("/tmp/words.txt")
words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))
wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()
print wc
This script can run locally or on a Mesos cluster without any modification, just using different command-line arguments:
$ python wc.py
$ python wc.py -m process
$ python wc.py -m host[:port]
参考资料:
1:https://blog.csdn.net/ns2250225/article/details/43484369
2:dpark和spark区别https://blog.csdn.net/sanqima/article/details/51201067
3:官方资料https://github.com/jackfengji/test_pro/wiki

#---------------------------------------------------------------------------------------------------------------------------------------# 关于本例:./Dpark/Dpark_Test 目录为网上demo,一个是PI值估算,一个是wordcount;
./Dpark/DparkAndSpark 目录主要解析网页访问请求'127.0.0.1 - - [01/Aug/1995:00:00:01 -0400] "GET /images/launch-logo.gif HTTP/1.0" 200 1839' 解析不同状态等信息获取所需消息。
./data/NASA_LOG_MIN.txt 文件为http访问请求状态,完整数据来源:http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html 或者 (链接:https://pan.baidu.com/s/1mi04sys 密码:3max),本例中只使用了部分数据。
Regularization.py:对信息进行规则化处理,此过程借用了spark中的ROW方法,日后可根据返回数据类型做更改。
DparkAnalysis.py:使用dpark对信息进行map reduce操作。
StatisticAnalysis.py:进行各种分析,详见代码注释
StatisticAnalysis404.py:专门对404状态url进行分析。

Releases

No releases published

Packages

No packages published

Languages