# Design Patterns ([Boilerplate!](https://en.wikipedia.org/wiki/Boilerplate_code))

이 챕터에서는 맵리듀스에서 자주 쓰이는 패턴들을 살펴볼 것이다.
<br>단, 하나하나를 자세히 살펴보기 보다는 어떤 종류의 것들이 있는지 알아가는 식으로만 훑을 것이기 때문에 추가적인 공부가 필요하다.
(자세한 정보는 'MapReduce Design Patterns' by Donald Miner & Adam Shook 의 책을 참고)


1. Filtering Patterns
<br>Filtering 문제를 해결한다. 데이터 샘플링, top-n 리스트 출력
2. Summarization Patterns
<br>요약 문제. 기록 세기. min, max 계산하기, 기초 통계량 계산하기, 인덱스 만들기
3. Structural Patterns
<br>구조적 문제 해결. 두 데이터셋 합치기



### 1. Filtering Patterns
기존 데이터의 기록을 바꾸지 않는다.

전체 데이터셋을 훑고, 거기서 서브셋을 뽑아 내는 작업이다.

##### -Simple Filter
기록을 Keep 하거나 Throw 하는 간단한 작업이다. 
##### -Bloom Filter
##### -Sampling
큰 데이터셋에서 작은 서브셋을 뽑아내는 작업이다.
##### -Random Sampling
##### -Top 10
기존 RDBMS와 M/R의 다른 점은,
RDBMS에서는 <br>1) 데이터를 Sort 한 뒤, <br>2) Select top N을 통해 곧바로 뽑아내지만,

M/R에서는 <br>1) 각 Mapper에서 Top N을 뽑은 뒤, <br>2) Reducer에서 global Top N을 다시 뽑는다.

In [1]:
# Filtering Exercise

# Udacity Forum 사용자들의 글 log를 살펴볼 것이다.
# forum_data 데이터셋을 이용하며, 
# 글자 수가 가장 많은 Top N 리스트를 뽑아낼 것이다.
# 

#!/usr/bin/python

"""
Your mapper function should print out 10 lines containing longest posts, sorted in
ascending order from shortest to longest.
Please do not use global variables and do not change the "main" function.
"""
import sys
import csv


def mapper():
    reader = csv.reader(sys.stdin, delimiter='\t')
    writer = csv.writer(sys.stdout, delimiter='\t', quotechar='"', quoting=csv.QUOTE_ALL)
    temp_line = list()
    for line in reader:
        temp_line.append(line)
    temp_line = sorted(temp_line, key = lambda temp_line : len(temp_line[4]))
    for item in temp_line[-10:] :
        writer.writerow(item)
        #writer.writerow(sorted(line, key = lambda line : line[4]))
        


test_text = """\"\"\t\"\"\t\"\"\t\"\"\t\"333\"\t\"\"
\"\"\t\"\"\t\"\"\t\"\"\t\"88888888\"\t\"\"
\"\"\t\"\"\t\"\"\t\"\"\t\"1\"\t\"\"
\"\"\t\"\"\t\"\"\t\"\"\t\"11111111111\"\t\"\"
\"\"\t\"\"\t\"\"\t\"\"\t\"1000000000\"\t\"\"
\"\"\t\"\"\t\"\"\t\"\"\t\"22\"\t\"\"
\"\"\t\"\"\t\"\"\t\"\"\t\"4444\"\t\"\"
\"\"\t\"\"\t\"\"\t\"\"\t\"666666\"\t\"\"
\"\"\t\"\"\t\"\"\t\"\"\t\"55555\"\t\"\"
\"\"\t\"\"\t\"\"\t\"\"\t\"999999999\"\t\"\"
\"\"\t\"\"\t\"\"\t\"\"\t\"7777777\"\t\"\"
"""

# This function allows you to test the mapper with the provided test string
def main():
    import StringIO
    sys.stdin = StringIO.StringIO(test_text)
    mapper()
    sys.stdin = sys.__stdin__

main()


### 2. Summarization Patterns

데이터셋에 대한 이해를 도와주는 패턴이다.
여기서는 **Inverted Index**를 만드는 데 집중할 것이다.
##### -Inverted Index




In [4]:
# Inverted Index - Exercise1.py
# 이 파일을 다루는 데 있어 주의할 점은!!!
# line별로 데이터가 구분되지 않는다는 점이다. 즉, 라인별로 태스크를 주면
# 같은 행의 데이터라도 다른 행으로 구분된다는 것
# 따라서 for line in sys.stdin이 아닌, sys.stdin.read()를 통해 전체 데이터를 불러온다.

# Q1. How many times was the word "fantastic" used ?
# Q2. List of comma separated nodes the word "fantastically" can be found in :

import re
import csv
import sys
'''
with open('forum_node.tsv.ignore', 'r') as csvfile :
    reader = csv.reader(csvfile, delimiter='\t')
    i = 0
    for item[4] in reader :
'''
count = 0
num = 0
RULE = re.compile(r'\bfantastic\b', flags=re.IGNORECASE)
data = sys.stdin.read()
b = data.split("\r\n")

for (i, item) in zip(range(len(b)), b) :
    c = item.split("\t")

    try :
        if (RULE.search(c[4])) :
            num = len(RULE.findall(c[4]))
            count += num
            print(c[0], RULE.findall(c[4]))
    except :
        pass

print(count)

0


In [5]:
! cat forum_node.tsv.ignore | python3 Exercise1.py

"34052" ['fantastic']
"38925" ['FANTASTIC']
"7000047" ['fantastic']
"2004638" ['fantastic']
"21354" ['fantastic']
"2003840" ['fantastic']
"10008969" ['fantastic']
"10008829" ['fantastic']
"2209" ['fantastic']
"4364" ['Fantastic']
"6090" ['fantastic']
"2016630" ['fantastic']
"10006359" ['fantastic']
"39980" ['fantastic']
"11001726" ['fantastic']
"36953" ['fantastic']
"20112" ['Fantastic']
"23898" ['fantastic']
"20063" ['fantastic']
"20708" ['Fantastic', 'Fantastic']
"32305" ['fantastic']
"4371" ['Fantastic']
"10001576" ['fantastic']
"10000923" ['fantastic']
"65290" ['fantastic']
"2010375" ['fantastic']
"40231" ['fantastic']
"41490" ['fantastic']
"45645" ['Fantastic']
"55975" ['fantastic']
"47225" ['fantastic']
"46149" ['fantastic']
"58673" ['fantastic']
"50521" ['fantastic']
"52447" ['fantastic']
"59895" ['fantastic']
"55132" ['fantastic']
"61719" ['fantastic']
"30069" ['fantastic']
"62556" ['fantastic']
"66992" ['fantastic']
"66505" ['fantastic']
"66083" ['fanTAStic']
"65231" ['Fantast

##### -Numerical Summarization
Count, Min/Max, First/Last, basic statistics

Word/Record count :

    -Key : THING I wanna count
    -Value : 1
   
주의할 점은! 모든 계산 작업은 Reducer에서 수행된다는 것이다.
Count도 예외는 아니다. 그렇게 하도록 습관을 들이자!

예를 들어, 평균을 구하고 싶으면 전체 데이터가 있어야 한다. (Reduce 단계에서밖에 구할 수 없다.)

아래는 purchases.txt에서 요일별 평균 매출액을 구하는 M/R 코드이다.

1. Mappers go through data , output 'Monday' : 6.35
2. For each day, reducer keep a sum and a count
3. Divide sum by count


In [6]:
# Mapper
import sys
from datetime import datetime

for line in sys.stdin :
    data = line.strip().split()

    if len(data) == 6 :
        date, time, store, item, cost, card = data
        weekday = datetime.strptime(date, "%Y-%m-%d").weekday()
        print("{0}\t{1}".format(weekday, cost))
        # Mon 0 to Sun 6


In [8]:
# Reducer
import sys

oldKey = None
TotalSales = 0
count = 0

for line in sys.stdin :
    data = line.strip().split()
    weekday, sales = data

    thisKey = weekday

    if oldKey and oldKey != thisKey :
        print("{0}\t{1}".format(oldKey, TotalSales/float(count)))
        TotalSales = 0
        count = 0
        
    TotalSales += float(sales)
    count += 1
    oldKey = thisKey

if oldKey != None :
    print("{0}\t{1}".format(oldKey, TotalSales/float(count)))


In [10]:
# 여기서는 귀찮아서 따로 sorting 만들지 않고 쉘의 sort 사용함
! cat purchases.txt.ignore | python3 Exercise2-mapper.py | sort | python3 Exercise2-reducer.py

0	250.05519047009966
1	249.50449775124153
2	249.4651366540122
3	249.98470876765376
4	250.38974480301195
5	250.09555753481422
6	250.13355191694598


##### -Combiner

Pre-reduction 단계라고 생각할 수 있다.

Reducer의 업무 효율을 높여주고, 나눠서 수행해준다.

![title](./Combiner.png)

(추가 필요)

### 3. Structural Patterns

RDBMS에서 Hadoop으로 데이터를 옮길 때 많이 사용하는 방법이다.

나중에 데이터를 어떻게 분석할 지 미리 알고 있다면, 데이터를 '미리' reformat 함으로써 많은 시간을 절약할 수 있다.

이를 사용하기 위해서는

1) 데이터 소스가 Foreign Key에 의해 연결되어야 하며
2) 데이터가 정렬되어있고 row-based 여야 한다.


이제 마지막으로 최종 연습문제만 남았다!