In [1]:
import os
import sys
spark_path = os.environ['SPARK_HOME']
sys.path.append(spark_path + "/bin")
sys.path.append(spark_path + "/python")
sys.path.append(spark_path + "/python/pyspark/")
sys.path.append(spark_path + "/python/lib")
sys.path.append(spark_path + "/python/lib/pyspark.zip")
sys.path.append(spark_path + "/python/lib/py4j-0.10.9-src.zip")

import findspark
findspark.init()
import pyspark

In [2]:
number_cores = 6
memory_gb = 16
conf = (pyspark.SparkConf().setMaster('local[{}]'.format(number_cores)).set('spark.driver.memory', '{}g'.format(memory_gb)))
sc = pyspark.SparkContext(conf=conf)

In [3]:
!dir /users/trush/CSC496/PageRank

data  spark-3.ipynb


In [4]:
! cat /users/trush/CSC496/PageRank/data/small_graph.dat

y y
y a
a y
a m
m a

In [5]:
graph_data = sc.textFile("/users/trush/CSC496/PageRank/data/small_graph.dat")
graph_data.take(10)

['y y', 'y a', 'a y', 'a m', 'm a']

In [6]:
# Incoming and outgoing links in a page
links = graph_data.map(lambda line: (line.split(" ")[0], line.split(" ")[1])) \
        .groupByKey() \
        .mapValues(list)
links.take(10)

[('y', ['y', 'a']), ('a', ['y', 'm']), ('m', ['a'])]

In [7]:
N = links.count()
ranks = links.map(lambda line: (line[0], 1/N))
ranks.take(N)

[('y', 0.3333333333333333),
 ('a', 0.3333333333333333),
 ('m', 0.3333333333333333)]

In [8]:
votes = ranks.join(links)
votes.take(N)

[('y', (0.3333333333333333, ['y', 'a'])),
 ('a', (0.3333333333333333, ['y', 'm'])),
 ('m', (0.3333333333333333, ['a']))]

In [9]:
def calculateVotes(t):
    res = []
    for item in t[1][1]:
        count = len(t[1][1])
        res.append((item, t[1][0]/count))
    return res
# Weight of votes from original source
calculateVotes(('y', (0.3333333333333333, ['y', 'a'])))

[('y', 0.16666666666666666), ('a', 0.16666666666666666)]

In [10]:
votes = ranks.join(links) \
        .flatMap(calculateVotes)
votes.collect()

[('y', 0.16666666666666666),
 ('a', 0.16666666666666666),
 ('y', 0.16666666666666666),
 ('m', 0.16666666666666666),
 ('a', 0.3333333333333333)]

In [11]:
ranks.collect()

[('y', 0.3333333333333333),
 ('a', 0.3333333333333333),
 ('m', 0.3333333333333333)]

In [12]:
ranks = votes.reduceByKey(lambda x, y: x + y)
ranks.collect()

[('y', 0.3333333333333333), ('a', 0.5), ('m', 0.16666666666666666)]

In [13]:
%%time
for i in range(10):
    votes = ranks.join(links) \
        .flatMap(calculateVotes)
    ranks = votes.reduceByKey(lambda x, y: x + y)
    print(ranks.collect)

<bound method RDD.collect of PythonRDD[48] at RDD at PythonRDD.scala:53>
<bound method RDD.collect of PythonRDD[60] at RDD at PythonRDD.scala:53>
<bound method RDD.collect of PythonRDD[72] at RDD at PythonRDD.scala:53>
<bound method RDD.collect of PythonRDD[84] at RDD at PythonRDD.scala:53>
<bound method RDD.collect of PythonRDD[96] at RDD at PythonRDD.scala:53>
<bound method RDD.collect of PythonRDD[108] at RDD at PythonRDD.scala:53>
<bound method RDD.collect of PythonRDD[120] at RDD at PythonRDD.scala:53>
<bound method RDD.collect of PythonRDD[132] at RDD at PythonRDD.scala:53>
<bound method RDD.collect of PythonRDD[144] at RDD at PythonRDD.scala:53>
<bound method RDD.collect of PythonRDD[156] at RDD at PythonRDD.scala:53>
CPU times: user 402 ms, sys: 77.9 ms, total: 479 ms
Wall time: 881 ms


In [14]:
%%time

N = links.count()
ranks = links.map(lambda line: (line[0], 1/N))
ranks.take(N)
sum = 1

while sum > 0.2:
    old_ranks = ranks
    votes = ranks.join(links) \
            .flatMap(calculateVotes)
    ranks = votes.reduceByKey(lambda x, y: x + y)
    errors = old_ranks.join(ranks).mapValues(lambda v: abs(v[0] - v[1]))
    sum = errors.values().sum()
    print(sum)
ranks.collect()

0.33333333333333337
0.33333333333333337
0.24999999999999997
0.20833333333333331
0.1666666666666667
CPU times: user 691 ms, sys: 145 ms, total: 835 ms
Wall time: 7.34 s


[('y', 0.38541666666666663), ('a', 0.4375), ('m', 0.17708333333333331)]