Skip to content

Commit

Permalink
Resolve asciidoctor warning
Browse files Browse the repository at this point in the history
  • Loading branch information
chiwanpark committed Jan 26, 2019
1 parent 653f2ec commit 21c6db4
Show file tree
Hide file tree
Showing 2 changed files with 6 additions and 6 deletions.
6 changes: 3 additions & 3 deletions _articles/parallel-k-nn-join-in-apache-flink.adoc
Original file line number Diff line number Diff line change
Expand Up @@ -34,16 +34,16 @@ MapReduce 모델에서 Join 연산은 대부분 shuffle-reduce 단계에서 수
### Phase 1

1. 데이터 집합 $R$과 $S$를 둘 다 $n$개의 집합으로 나눈다. 이를 각각 $R_1,R_2,\cdots,R_n$과 $S_1,S_2,\cdots,S_n$라 하자.
1. 나누어진 데이터 $n$개의 집합 $R_1,R_2,\cdots,R_n$과 $S_1,S_2,\cdots,S_n$을 가지고 cross product 연산을 수행한다. 연산의 결과로 $(R_1,S_1),(R_1,S_2),\cdots,(R_1,S_n),(R_2,S_1),\cdots,(R_n,S_n)$, 총 $n^2$개의 조합을 갖게 된다.
2. 나누어진 데이터 $n$개의 집합 $R_1,R_2,\cdots,R_n$과 $S_1,S_2,\cdots,S_n$을 가지고 cross product 연산을 수행한다. 연산의 결과로 $(R_1,S_1),(R_1,S_2),\cdots,(R_1,S_n),(R_2,S_1),\cdots,(R_n,S_n)$, 총 $n^2$개의 조합을 갖게 된다.
- Hadoop MapReduce는 보통의 경우 입력을 1개만 받을 수 있어서 cross product 연산을 구현하기 위해서 특별한 구현이 필요하다. (MapReduce-based Join 구현을 응용하거나, 또는 직접 HDFS API로 파일 열어서 Block Offset으로 파일을 읽어들이거나 하는 식의 구현을 사용)
1. 각각의 조합 $(R_i,S_j)$에 대해, $(r,s,d(r,s))$를 계산한다. ($r\in R_i, s\in S_j$)
3. 각각의 조합 $(R_i,S_j)$에 대해, $(r,s,d(r,s))$를 계산한다. ($r\in R_i, s\in S_j$)
### Phase 2

1. Phase 1의 결과를 $r$을 기준으로 묶은 후, 각각의 묶음에서 $d(r,s)$를 기준으로 정렬(local sort)한다.
- Grouping 연산은 shuffle-reduce 단계를 통해 수행할 수 있다.
- 정렬 대신에 Priority Queue 같은 자료구조를 사용할 수도 있다.
1. 정렬된 레코드들에서 상위 $k$의 데이터를 선택해 $\text{knnJ}(R,S)$에 포함시킨다.
2. 정렬된 레코드들에서 상위 $k$의 데이터를 선택해 $\text{knnJ}(R,S)$에 포함시킨다.
## Parallel k-Neareset Neighbors Join in Apache Flink

Expand Down
6 changes: 3 additions & 3 deletions index.adoc
Original file line number Diff line number Diff line change
Expand Up @@ -33,14 +33,14 @@ PegasusN: A Scalable and Versatile Graph Mining System::
Ha-Myung Park, Chiwan Park, and U Kang.
Thirty-Second AAAI Conference on Artificial Intelligence (AAAI) 2018, New Orleans, Lousiana, USA.
(Demo Paper)
link:https://datalab.snu.ac.kr/pegasusn[[homepage (code)]]
link:https://datalab.snu.ac.kr/pegasusn[[homepage (code)\]]

PMV: Pre-partitioned Generalized Matrix-Vector Multiplication for Scalable Graph Mining::
Chiwan Park, Ha-Myung Park, Minji Yoon, and U Kang.
arXiv:1709.09099 [cs.DC] Sep. 2017.
link:https://arxiv.org/abs/1709.09099[[paper]]
link:https://arxiv.org/abs/1709.09099[[paper\]]

A Distributed Vertex Rearrangement Algorithm for Compressing and Mining Big Graphs::
Namyong Park, Chiwan Park, and U Kang
Journal of KIISE, Vol. 43, No. 10, pp. 1131-1143, 2016.
link:https://datalab.snu.ac.kr/dslashburn/dslashburn.pdf[[paper]] link:https://datalab.snu.ac.kr/dslashburn/[[homepage (code, dataset)]]
link:https://datalab.snu.ac.kr/dslashburn/dslashburn.pdf[[paper\]] link:https://datalab.snu.ac.kr/dslashburn/[[homepage (code, dataset)\]]

0 comments on commit 21c6db4

Please sign in to comment.