## F33 - 맵리듀스로 그리는 빅데이터 지도

빅데이터를 처리하는데에 많은 시간이 소요된다. 그래서 고성능의 컴퓨터를 이용하거나 여러 컴퓨터를 이용하여   
병렬처리하는 방법을 사용한다.   
일반적으로 생각해 볼 때 많은 작업이 있다면 우선 한꺼번에 하기 보단 일정 단위로 나누어 작업하게 된다.   
그리고 나눠진 작업을 여러 사람이 각각 맡아서 한다면 처리 시간이 줄어들게 된다.   
이런 방법을 split-apply-combine이라 한다. 바로 mapreduce가 이런 방법에 해당된다.
즉, 맵리듀스는 하나의 컴퓨터에서 하던 작업을 여러 개의 컴퓨터에서 처리하도록 분산시키는 프로그래밍 모델이다.   
오늘날 빅데이터용 클러스트 컴퓨팅에 사용되는 주요 프로그래밍 모델이다.   

#### 맵리듀스 주요 함수
map(in_key, in_value) -> list(out_key, intermediate_value)   
in_key: split과정에서 생긴 partitioning 키값, 작업을 진행할 프로세서 번호, 작업 번호
out_key: map()에 의해 생긴 결과물을 구분하는 기준 키값

reduce(out_key, list(intermediate_value)) -> list(out_value)   
map()에 의한 결과물(intermediate_value)을 out_key별로 구분해서 입력으로 받는다.   
reduce는 out_key값 기준으로 sum 수행한다. 그래서 out_value를 최종 출력한다.

분산 컴퓨팅, 병럴 컴퓨팅, 클러스터 컴퓨팅
하둡과 스파크   
하둡: HDFS(하둡파일시스템)이 있고, mapreduce의 장점과 단점도 같이 가지고 있다.   
스파크: mapreduce의 단점인 reduce에서의 성능 하락을 인메모리 데이터 엔진을 통해 한계를 극복했다.   
스파크 : http://www.itworld.co.kr/insight/147556

##### 함수의 인자로 함수를 사용할 수 있다.

In [1]:
#에러메세지를 출력하는 함수
def errormessage(format_func, msg):
    print(format_func(msg))

#단어의 첫글자만 대문자로 만드는 함수
def to_upper(msg):
    t = msg.split(" ")
    T = []
    for i in t:
        i = i[0].upper() + i[1:]
        T.append(i)
    T = " ".join(T)
    return T

print("슝=3")

슝=3


In [2]:
msg = "you have limited access"
errormessage(to_upper, msg)

You Have Limited Access


##### 변수에 함수를 할당할 수 있다.

In [3]:
def france():
    print('bonjour')

def italy():
    print('ciao')

print("슝=3")

슝=3


In [7]:
hello = france
print(hello)

<function france at 0x7f0c543947a0>


In [8]:
hello()

bonjour


In [9]:
print(type(hello))

<class 'function'>


##### 함수의 반환 값으로 함수를 사용할 수 있다.

In [10]:
def func1(x):
    return x**2

def func2():
    return func1

print("슝=3")

슝=3


In [11]:
print(func1(3))
print(func2()(3))

9
9


In [13]:
from collections import defaultdict, Counter

text = """I have a depression, and then there was a girl who came into 
my life. One day, my life was changed because that girl just changed my 
life. She taught me how to love and how to be an active person. 
And then, I feel so happy when I am always with her. 
I love her so much. I don't want let her go. I am sad because she 
is with her favorite friends. I will do anything to make her proud"""

result = defaultdict(int)

for v in text.split(' '):
    result[v] += 1


result['girl']

Counter(text.split(' '))['girl']

2

In [1]:
mynum = ['1','2','3','4']
mynum_int = list(map(int, mynum))  # mynum의 각 원소에 int 함수를 적용
print(mynum_int)

# mynum_int의 각 원소 x에 lambda x : x*x 함수를 적용
mynum_square = list(map(lambda x : x*x, mynum_int))  
print(mynum_square)

[1, 2, 3, 4]
[1, 4, 9, 16]


In [7]:
mynum = range(-5, 5)  
# mynum의 각 원소 x에 대해 lambda x: x > 0 인지 체크하는 필터를 적용
mynum_plus = list(filter(lambda x: x > 0, mynum)) 
print(mynum_plus)

[1, 2, 3, 4]


In [15]:
from functools import reduce
mynum = [1, 2, 3, 4, 5]
# reduce는 내부에 관리하는 x 변수에 mynum의 각 원소 y를 차례차례 더하여 x에 반영한다.
add = reduce(lambda x, y: x + y, mynum)  

print(add)

15


In [19]:
# 맵리듀스 구현 예제

# 입력데이터를 나누고 매핑하기(split단계)
text = 'hello python'

def mapper(text):
    split = []
    for i in text:
        split.append((i, 1))
    return split

# 매핑 결과를 기준에 맞게 합치기(reduce단계)
def reducer(split):
    out = {}
    for i in split:
        if i[0] not in out.keys():
            out[i[0]] = 1
        else:
            out[i[0]] += 1
    return out

# 최종 출력
reducer(mapper(text))

{'h': 2, 'e': 1, 'l': 2, 'o': 2, ' ': 1, 'p': 1, 'y': 1, 't': 1, 'n': 1}

In [51]:
'hello world'.endswith('l', 2, 9)

False

'erro world'