In [0]:
import org.apache.spark.sql.SparkSession

val spark= SparkSession
    .builder()
    .appName("graphX")
    .getOrCreate()

In [1]:
import com.databricks.spark.xml._

val rawXML = spark.read.option("rowTag", "MedlineCitation").xml("hdfs://namenode:8020/medline/*.xml")

In [2]:
rawXML.printSchema()

In [3]:
import spark.implicits._
val meshHeadlingList = rawXML.select("MeshHeadingList.MeshHeading")

In [4]:
meshHeadlingList.printSchema()

In [5]:
val MeshHeadlingElems = meshHeadlingList.withColumn("data", explode($"MeshHeading")).select("data")

In [6]:
MeshHeadlingElems.printSchema()

In [7]:
val descriptorName = MeshHeadlingElems.select(MeshHeadlingElems.col("data.DescriptorName"))
descriptorName.printSchema()

In [8]:
val parsedDF = descriptorName.select(descriptorName.col("DescriptorName._MajorTopicYN"),
                                    descriptorName.col("DescriptorName._VALUE").as("topic"))

In [9]:
parsedDF.show

In [10]:
var majorTopic = parsedDF.filter(col("_MajorTopicYN") === "Y")
majorTopic = majorTopic.withColumn("topic", regexp_replace(majorTopic("topic"), ", ", ","))


In [11]:
majorTopic.show

In [12]:
val topicDist = majorTopic.groupBy("topic").count()

In [13]:
z.show(topicDist.orderBy(desc("count")))

In [14]:
val topics = majorTopic.select("topic").rdd.map(el => el.getString(0).split(",").toList)

In [15]:
val onlyTopics =  topics.flatMap(mesh => mesh).toDF("topic")

In [16]:
/*
원소가 다르게 정렬되어 있는 리스트를 다른 리스트로 보기 때문에
미리 정렬을 해줘야한다. 그 뒤 scala의 서브 리스트를 만드는 combinations 메소드를 사용한다.
*/  
val topicPairs = topics.flatMap(t => {t.sorted.combinations(2)}).toDF("pairs") 
topicPairs.createOrReplaceTempView("topic_pairs")
val cooccurs = spark.sql("""
    SELECT pairs, COUNT(*) cnt
    FROM topic_pairs
    GROUP BY pairs""")


In [17]:
cooccurs.createOrReplaceTempView("cooccurs")
spark.sql("""
    SELECT pairs, cnt
    FROM cooccurs
    ORDER BY cnt DESC
    LIMIT 20""").collect().foreach(println)

In [18]:
/*
GraphX는 두 개의 특화된 RDD를 사용해서 그래프를 생성한다
VertextRDD[VD]는 RDD[(VertexId, VD)]의 구현
    64 bit Long의 Key와 Value
EdgeRDD[ED]는 RDD[(VertexID, ED)]의 구현
    srcVertexId와 dstVertexId와 Value
*/

In [19]:
import java.nio.charset.StandardCharsets
import java.security.MessageDigest

def hashID(str: String): Long = {
    val bytes = MessageDigest.getInstance("MD5").digest(str.getBytes(StandardCharsets.UTF_8))
    (bytes(0) & 0xFFL) |
    ((bytes(1) & 0xFFL) << 8)  |
    ((bytes(2) & 0xFFL) << 16) |
    ((bytes(3) & 0xFFL) << 24) | 
    ((bytes(4) & 0xFFL) << 32) |
    ((bytes(5) & 0xFFL) << 40) |
    ((bytes(6) & 0xFFL) << 48) |
    ((bytes(7) & 0xFFL) << 56)
}

In [20]:
import org.apache.spark.sql.Row

val vertices = onlyTopics.map{ case Row(topic: String) => (hashID(topic), topic) }.toDF("hash", "topic")
vertices.show(false)

In [21]:
import org.apache.spark.graphx._

val edges = cooccurs.map{ case Row(pairs: Seq[_], cnt: Long) =>
    val ids = pairs.map(_.toString).map(hashID).sorted
    Edge(ids(0), ids(1), cnt)
}

In [22]:
val vertexRDD = vertices.rdd.map{
    case Row(hash: Long, topic: String) => (hash, topic)
}
val topicGraph = Graph(vertexRDD, edges.rdd)
topicGraph.cache()

In [23]:
/*
https://spark.apache.org/docs/latest/img/property_graph.png
*/

In [24]:
val connectedComponentGraph = topicGraph.connectedComponents()

In [25]:
/*
https://drek4537l1klr.cloudfront.net/bonaci/Figures/09fig03.jpg
*/

In [26]:
val componentDF = connectedComponentGraph.vertices.toDF("vid", "cid")
componentDF.show(false)

In [27]:
val componentCounts = componentDF.groupBy("cid").count()
componentCounts.count()

In [28]:
componentCounts.orderBy(desc("count")).show

In [29]:
val testGraphConnect = componentDF.filter(col("cid") === "-5431966423110682938")
testGraphConnect.show

In [30]:
val joinExp = vertices.col("hash") === testGraphConnect.col("vid")
val joinWithVertexName = testGraphConnect.join(vertices, joinExp).distinct()

joinWithVertexName.orderBy(col("topic")).show

In [31]:
topicDist.filter($"topic".contains("Diet")).show

In [32]:
topicDist.filter($"topic".contains("Demography")).show

In [33]:
val degrees: VertexRDD[Int] = topicGraph.degrees.cache()

In [34]:
val testVertexDegree = degrees.toDF("vertexID", "degree")

testVertexDegree.where(col("vertexID") === "-5431966423110682938").show
println(testVertexDegree.count)

In [35]:
testVertexDegree.describe("degree").show

In [36]:
val topicGraphVerteciesCount = topicGraph.vertices.count()

In [37]:
val singleTopics = topics.filter(x => x.size == 1)
singleTopics.count()

In [38]:
val singleTopicsDistinct = singleTopics.flatMap(topic => topic).distinct().toDS()
singleTopicsDistinct.count()

In [39]:
val singleTopicInPairs = topicPairs.flatMap(_.getAs[Seq[String]](0))
singleTopicsDistinct.except(singleTopicInPairs).count()

In [40]:
topicGraphVerteciesCount == (testVertexDegree.select("degree").count() + singleTopicsDistinct.except(singleTopicInPairs).count())

In [41]:
val namesAndDegrees = degrees.innerJoin(topicGraph.vertices) {
    (topicId, degree, name) => (name, degree.toInt)
}.values.toDF("topic", "degree")

In [42]:
namesAndDegrees.orderBy(desc("degree")).show

In [43]:
val T = majorTopic.count() // 전체 문서의 수
sc.broadcast(T)

In [44]:
val topicDistRdd = topicDist.map{
    case Row(topic: String, count: Long) => (hashID(topic), count)
}.rdd

In [45]:
val topicDistGraph = Graph(topicDistRdd, topicGraph.edges)

In [46]:
def chiSq(YY: Long, YB: Long, YA: Long, T: Long): Double = {
    val NB = T - YB // B가 나오지 않음
    val NA = T - YA // A가 나오지 않음
    val YN = YA - YY // A 나오고 B 나오지 않음
    val NY = YB - YY // A 나오지 않고 B 나옴
    val NN = T - NY - YN - YY // A 와 B 모두 나오지 않음
    val inner = math.abs(YY * NN - YN * NY) - T / 2.0 // 카이제곱 통계량 1
    T * math.pow(inner, 2) / (YA * NA * YB * NB) // 카이제곱 통계량 2
}

In [47]:
// https://spark.apache.org/docs/latest/api/scala/org/apache/spark/graphx/EdgeTriplet.html
val topicDistGraphTriplet = topicDistGraph.triplets.map(triplet => 
    (triplet.srcAttr, triplet.srcId, triplet.attr, triplet.dstId, triplet.dstAttr))
    .toDF("srcId", "srcAttr",  "attr", "dstId", "dstAttr")
topicDistGraphTriplet.show

In [48]:
val chiSquaredGraph = topicDistGraph.mapTriplets(triplet => {
    chiSq(triplet.attr, triplet.srcAttr, triplet.dstAttr, T)
})
chiSquaredGraph.edges.map(x => x.attr).stats()

In [49]:
val interesting = chiSquaredGraph.subgraph(
    triplet => triplet.attr > 19.5)
interesting.edges.count  // 0 - 2333, 19.5 2326

In [50]:
val interestingComponentGraph = interesting.connectedComponents()
val icDF = interestingComponentGraph.vertices.toDF("vid", "cid")
val icCountDF = icDF.groupBy("cid").count()
icCountDF.count() // Edge의 수 

In [51]:
icCountDF.orderBy(desc("count")).show

In [52]:
val interestingDegrees = interesting.degrees.cache()
interestingDegrees.map(_._2).stats()

In [53]:
interestingDegrees.innerJoin(topicGraph.vertices) {
    (topicId, degree, name) => (name, degree)
}.values.toDF("topic", "degree").orderBy(desc("degree")).show

In [54]:
/*
    Collective Dynamics of 'Small-world Networks'
    완전 그래프 - 그래프에서 서로 다른 모든 Vertex가 반드시 연결되어 있는 그래프
    
    어떤 그래프가 완전 부분그래프(Clique)를 가지는 것을 찾는것이 NP-Complete Prob
    간접적으로 Triangle Count( Vertex 세개로 이루어진 완전 그래프)를 이용한다.
    Triangle Count를 사용하는 지역 군집 계수 ( Local Clustering Coefficient )
    식 = 실제 존재하는 트라이 앵글 수  /  만들 수 있는 전체 트라이앵글 수
*/

In [55]:
val triCountGraph = interesting.triangleCount()
triCountGraph.vertices.map(x => x._2).stats()

In [56]:
val maxTrisGraph = interestingDegrees.mapValues(d => d * (d-1) / 2.0)

In [57]:
val clusterCoef = triCountGraph.vertices.innerJoin(maxTrisGraph) { 
    (vertexId, triCount, maxTris) => {if (maxTris == 0) 0 else triCount / maxTris}
}

In [58]:
clusterCoef.map(_._2).sum() / interesting.vertices.count()

In [59]:
/*
Vertex간 경로(Path)의 길이를 구하기

    for
        => 각 꼭짓점과 그 꼭짓점 까지의 거리의 목록을 만든다.
        => 아웃 노드들에 그들이 보유한 목록을 질의한다.
        => 자신에게 없는 꼭짓점 까지의 거리를 추가 갱신한다.
    end 더이상 추가할 수 없을 때 까지 반복한다.

Pregel 은 Computation(계산)과 Communication(통신) 두 단계로 나누어 병렬 프로그래밍

    Computation : 각 Vertex에서 내부 상태를 검사해 다른 Vertex에 'Message'를 보낼 것을 정한다.
    Communication : 이전 통신 단계의 결과로 나온 메시지를 적당한 Vertex로 보낼 수 있도록 경로를 지정
    
Pregel API 를 사용할 때 구현해야할 함수
    1. 각 Vertex의 상태를 추적하는 함수 ( 어떤 상태를 추적할 건지 )
    2. 이웃하는 Vertex의 각 쌍을 평가한 후, 다음 단계에 보낼 함수를 정하는 함수
    3. 받은 메시지 들을 통합해서 자신(Vertex)의 상태를 업데이트 함수

*/

In [60]:
/*
    평균 경로 길이 문제 
    각 Vertex의 상태 : 알려진 다른 ( VertexId, 거리 ) -> Map[VertexId, Int] ( 룩업 테이블)
    각 Vertex에 전달할 메시지 : ( VertexId, 거리 ) -> Map[VertexId, Int] ( 룩업 테이블 )
*/

In [61]:
def mergeMaps(m1: Map[VertexId, Int], m2: Map[VertexId, Int]) : Map[VertexId, Int] = {
    def minThatExists(k: VertexId): Int = {
        math.min(m1.getOrElse(k, Int.MaxValue), m2.getOrElse(k, Int.MaxValue))
    }
    
    (m1.keySet ++ m2.keySet).map(k => (k, minThatExists(k))).toMap // 동시에 나타는 VertexId에 대해서 더 작은 값을 보관한다
}

In [62]:
def update(id: VertexId, state: Map[VertexId, Int], msg: Map[VertexId, Int]) = {
    mergeMaps(state, msg)
}

In [63]:
def checkIncrement(a: Map[VertexId, Int], b: Map[VertexId, Int], bid: VertexId) = {
    val aplus = a.map { case (v, d) => v -> (d+1) } // 거리 1 증가
    if(b != mergeMaps(aplus, b)) {
        Iterator((bid, aplus)) // 이웃 Vertex의 상태와 다르다면 이웃 Vertex에 결과를 보낼 메시지 생성
    } else {
        Iterator.empty
    }
}

In [64]:
def iterate(e: EdgeTriplet[Map[VertexId, Int], _]) = {
    checkIncrement(e.srcAttr, e.dstAttr, e.dstId) ++
    checkIncrement(e.dstAttr, e.srcAttr, e.srcId)
}

In [65]:
val fraction = 0.02
val replacement = false
val sample = interesting.vertices.map(v => v._1).sample(replacement, fraction, 1729L)
val ids = sample.collect().toSet

In [66]:
val mapGraph = interesting.mapVertices((id, _) => {
    if (ids.contains(id)) {
        Map(id -> 0)
    } else {
        Map[VertexId, Int]()
    }
})

In [67]:
val start = Map[VertexId, Int]()
val res = mapGraph.pregel(start)(update, iterate, mergeMaps)

In [68]:
val paths = res.vertices.flatMap{ case(id, m) => // VertexId, ( VertexId, Int )
    m.map { case(k, v) => // ( VertexId, Int )
        if (id < k) {
            (id, k, v)
        } else {
            (id, k, v)
        }
    }
}.distinct()
paths.cache()

In [69]:
val pathDF = paths.toDF("SrcVertexId", "DstVertexId", "PathLen")

In [70]:
pathDF.show

In [71]:
pathDF.filter(col("PathLen") > 0).describe("PathLen").show()

In [72]:
pathDF.groupBy("PathLen").count().show