# F33 빅데이터 처리 기본 패턴

- 병렬 컴퓨팅 / 분산컴퓨팅 / 클러스팅 컴퓨팅
- 맵리듀스 : 하둡, 스파크 등 빅데이터를 다루는 솔루션의 가장 근안이 되는 프로그래밍 모델
    1. 많은 것을 잘게 나누어서
    2. 각각을 처리한 후에
    3. 처리된 것들을 모아서 통합 결과물을 낸다
- Split-Apply-Combine Strategy
    





## mapreduce
 - 맵리듀스는 하나의 컴퓨터에서 하던 작업을 여러 개의 컴퓨터에서 처리하도록 분산시키는 프로그래밍 모델입니다. 이 모델은 처리하고자 하는 작업을 여러 컴퓨터에 자동으로 분할하고 지역 처리 및 클러스터 노드 간 통신을 하기 위해 사용합니다.
 
 ![](./imgs/02.png)
 ![](./imgs/01.png)


## haddop
- 2004년 ,자바 기반의 분산처리 오픈 소스 프레임워크
<br/><br/>
- GFS(google file system)
- hdfs(hadopp file system)
- 사실상 표준 프레임워크
<br/><br/>
- 문제: map 함수가 모두 종료해야 다음 reduce 가 실행됨., 실시간 서비스에 제약

## 스파크
- 2009
- 기존 map 이후 데이터를 디스크에 저장했다가 다시 불러와서 reduce하는 읽는 소요를 줄이고
- 인메모리 데이터 엔진 사용, 성능상한계 개선,
<br/>
<br/>
- 하둡의 10배 속도
- 근데.. 하둡 기반...

## python 이좋다.?
- 함수 를 매개변수 전달가능.
- 함수를 변수로 선언가능.
- 함수는 다른 함수의 결과로 반환 가능.


### python data collection

In [1]:
import collections

In [8]:
from collections import defaultdict

text = """I have a depression, and then there was a girl who came into 
my life. One day, my life was changed because that girl just changed my 
life. She taught me how to love and how to be an active person. 
And then, I feel so happy when I am always with her. 
I love her so much. I don't want let her go. I am sad because she 
is with her favorite friends. I will do anything to make her proud"""

result = defaultdict(int)
for t in text.split():
    result[t] +=1

result   # 결과 출력


defaultdict(int,
            {'I': 7,
             'have': 1,
             'a': 2,
             'depression,': 1,
             'and': 2,
             'then': 1,
             'there': 1,
             'was': 2,
             'girl': 2,
             'who': 1,
             'came': 1,
             'into': 1,
             'my': 3,
             'life.': 2,
             'One': 1,
             'day,': 1,
             'life': 1,
             'changed': 2,
             'because': 2,
             'that': 1,
             'just': 1,
             'She': 1,
             'taught': 1,
             'me': 1,
             'how': 2,
             'to': 3,
             'love': 2,
             'be': 1,
             'an': 1,
             'active': 1,
             'person.': 1,
             'And': 1,
             'then,': 1,
             'feel': 1,
             'so': 2,
             'happy': 1,
             'when': 1,
             'am': 2,
             'always': 1,
             'with': 2,
             'her.': 1,


## 맵리듀스 기본함수
- map
- filter
- reduce

### map(mapping)
- 컬렉션의 모든 요소에 어떤 함수를 적용( 매핑)
- M(x):x∈C

In [10]:
# 예시
mynum = ['1','2','3','4']
mynum_int = list(map(int, mynum))  # mynum의 각 원소에 int 함수를 적용
print(mynum_int)

# 람다 활용
mynum_square = list(map(lambda x : x*x, mynum_int))  # mynum_int의 각 원소 x에 lambda x : x*x 함수를 적용
print(mynum_square)

[1, 2, 3, 4]
[1, 4, 9, 16]


In [15]:
# 예시
mynum = range(-5, 5)  
#-5,-4,-3,-2,-1,0,1,2,3,4

# 음수 숙청
mynum_plus = list(filter(lambda x: x > 0, mynum)) # mynum의 각 원소 x에 대해 lambda x: x > 0 인지 체크하는 필터를 적용
print(mynum_plus)

-5
[1, 2, 3, 4]


### 필터링
- 컬렉션 내의 요소를 선택(필터링)F(x) 에 부합하는 부분의 x 만 선택.
- x:x∈C,ifF(x)

In [17]:
# 예시

mynum = range(-5, 5)  
print(mynum[0])
# -5, -4,-3,-2,-1,0,1,2,3,4

# 0 이하 숙청
mynum_plus = list(filter(lambda x: x > 0, mynum)) # mynum의 각 원소 x에 대해 lambda x: x > 0 인지 체크하는 필터를 적용
print(mynum_plus)

-5
[1, 2, 3, 4]


### reduce
- 컬렉션을 축약 
- eg) 시그마 , x의 합
-∑x  / ∈Cx

In [19]:
#예시
from functools import reduce
mynum = [1, 2, 3, 4, 5]
add = reduce((lambda x, y: x + y), mynum)  # reduce는 내부에 관리하는 x 변수에 mynum의 각 원소 y를 차례차례 더하여 x에 반영한다.

print(add)

15


## 예제
- Split - Map - Shuffle - Reduce.
![](./imgs/03.png)



### 알파벳 수 찾기
![](./imgs/04.png)

1. 입력 데이터
    - hello python
2. Split
    - h,e,l,l,o,(공백),p,y,t,h,o,n
3. Map
    - (h:1, e:1, l:1, l:1, o:1, ' ':1, …)
4. Reduce
    - (h:1, e:1, l:2…)

#### mapper
- 입력 데이터를 나누고 매핑

In [23]:


# map 함수 정의 하나식 거내서 list 에 추가.
def mapper(text):
    split = []
    for i in text:
        print(i)
        split.append((i, 1))
    return split


#### Reducer 
- mapper에서 입력 받은 값 중 같은 항목들을 합침.

In [27]:


def reducer(split):
    out = {} # dictionary
    for i in split:
        if i[0] not in out.keys():
            out[i[0]] = 1 
            # 딕셔너리에 값이 없으면 생성하고 1로 초기화
        else:
            out[i[0]] += 1
            # 값이 있으면 +1 
    return out


#### MapReduce

In [28]:
#input data
text = 'hello python'

reducer(mapper(text))
               

h
e
l
l
o
 
p
y
t
h
o
n


{'h': 2, 'e': 1, 'l': 2, 'o': 2, ' ': 1, 'p': 1, 'y': 1, 't': 1, 'n': 1}