## Day 5. 데이터뽀개기 중급 파이썬 스터디 발표자료

### Reference

- 아래 글들을 참고해서 작성했습니다. 감사합니다!
- [lambda operator와 map, reduce, filter](https://jupiny.com/2016/09/22/lambda-operator-map-reduce-filter/)
- [함수형 프로그래밍과 filter map reduce에 대해서](https://jiwoochoi.tistory.com/60)

### 5-3. Map, Reduce, Filter

- 프로그래밍에서 함수적 접근을 쉽게 해주는 세가지 함수 (Higher Order Functions), 3개를 안써도 된다. (일종의 제너레이터로 Lazy evalution 영역)

- lambda의 구조을 살펴보면, lambda [입력값] : [반환값]으로 되어 있음, Map, Reduce, Filter는 lambda랑 관련성이 높음

> Note: If map & filter do not appear beautiful to you then you can read about list/dict/tuple comprehensions.

![](https://steemitimages.com/640x0/https://steemitimages.com/DQmRtGZSueAbqB4vnbfaZetpF82SJETAdhU3Nm8VozzCpZk/image.png)

![](https://image.slidesharecdn.com/20170317functionalprogramminginjulia-170317140255/95/20170317-functional-programming-in-julia-54-638.jpg?cb=1502031472)

![](https://www.modernescpp.com/images/blog/Functional/HigherOrderFunctions/MapFilterReduce.jpg)

- filter, map, reduce를 응용하게되면, 다음과 같은 이점을 가질 수 있습니다.

1) 의미가 잘 나타나는 코드를 갖출 수 있습니다! ex) filter => 필터한다!
2) 이터레이션을 위해 for loop을 돌릴필요가 없음
3) 코드 라인수가 짧아짐



### 5-3-1. map([함수], [배열])

- map 함수는 배열에서 원소를 하나씩 꺼내어 함수를 적용시킨 결과를 다시 상위 iterator에 담아 반환함
- 함수가 한줄로 표현될 만큼 구성이 단순한 경우 lambda는 유용하고 map과 같이 사용할 수 있음
- iterator는 next() 함수를 갖는 파이썬 객체로 꼭 메모리에 올릴 데이터만 올려서 메모리를 효율적으로 이용할 수 있는 파이썬의 대표적인 객체
- 상위의 객체(추상적인 레벨)인 iterator로 return 하는 이유는 리스트가 아닌 다른 자료구조로 변환시킬 수도 있게 하는 것 (ex, set 자료구조)

In [2]:
def square(x):  
    return x**2

list(map(square,[1, 2, 3]))

[1, 4, 9]

In [3]:
list(map(lambda x: x**2, [1, 2, 3]))

[1, 4, 9]

In [16]:
map_it = map(lambda x: x**2, [1, 2, 3])

In [17]:
next(map_it)

1

In [18]:
next(map_it)

4

In [19]:
next(map_it)

9

In [21]:
set(map(lambda x: x**2, [1, 2, 3]))

{1, 4, 9}

In [23]:
tuple(map(lambda x: x**2, [1, 2, 3]))

(1, 4, 9)

In [24]:
def multiply(x):
    return (x*x)

def add(x):
    return (x+x)

funcs = [multiply, add]

for i in range(5):
    value = list(map(lambda x: x(i), funcs))
    print(value)

[0, 0]
[1, 2]
[4, 4]
[9, 6]
[16, 8]


### 5-3-2. Reduce( [함수], [배열], [초기값])

- Reduce는 배열에서 두 원소의 함수 출력값이 뒤에 나오는 원소와 함께 또다시 함수의 argument로 들어가며 과정이 순차적으로 반복되는 방식
- 함수는 두 개의 parameter를 받는 함수, 초기값은 생략될수 있음 
- 초기값이 있으면 초기값과 배열의 첫 원소가 맨 처음 함수로 전달되고. 초기값이 없다면 배열의 첫 번째와 두 번째 원소가 맨 처음 함수로 전달된다. 

In [4]:
import functools  

def sum(x,y):  
    print((x,y))
    return x + y

functools.reduce(sum, [10, 20, 30, 40, 50]) # 150  

(10, 20)
(30, 30)
(60, 40)
(100, 50)


150

In [5]:
functools.reduce(lambda x,y: x+y, [10, 20, 30, 40, 50])  

150

In [6]:
functools.reduce(lambda x,y: x if x>y else y, [1, 9, 3, 5, 6, 4])  

9

### 5-3-3. filter ( [함수], [배열])

- filter는 배열에 있는 각각의 원소들을 함수에 parameter로 넘겨주어 함수의 출력값이 True인 경우에만 그 원소를 새로운 배열에 담아 반환한다.

In [10]:
list(filter(lambda x: x>3, [1, 2, 3, 4, 5])) # [4, 5]  

[4, 5]

In [11]:
#map, filter 사용 
complicated_list = [1, 2, "jupiny", {}, [], 4, 5]

list(map(lambda x: x**2, list(filter(lambda x: isinstance(x,int),complicated_list)))) # [1, 4, 16, 25]  

[1, 4, 16, 25]

### 1-100의 합을 구하라

In [25]:
# C 언어 스타일의 해법
sum_value = 0
for i in range(1, 101) :
    sum_value += i 
print(sum_value)


5050


In [28]:
# python 스러운 해법
sum_value = functools.reduce((lambda x,y : x+y), [x for x in range(1,101)])
print(sum_value)

5050


In [31]:
# 하지만 Data scientist가 가장 먼저 생각해는 해법 
import numpy as np
print(np.sum([x for x in range(1,101)]))

5050


### (옵션) MapReduce

![](https://www.edureka.co/blog/wp-content/uploads/2016/11/MapReduce-Way-MapReduce-Tutorial-Edureka.png)

- 하둡 맵리듀스 (Hadoop MapReduce): 분산 파일 시스템에 저장된 대용량 데이터의 병렬 처리를 위한 소프트웨어 프레임워크
- 하둡 맵리듀스는 HDFS 상에서 동작하는 데이터 분석 프레임워크이다. 맵리듀스는 일반 프로그래밍 방법과는 다른 데이터 중심 프로그래밍 모형을 제공
- 함수의 입력과 출력이 모두 키 (key)와 값 (value)의 쌍으로 구성되어 있다. 각 함수는 <키, 값> 쌍의 집합을 또다른 <키, 값> 쌍의 집합으로 변환한다. 맵 함수는 HDFS에서 불러온 데이터를 가공하여 새로운 <키, 값> 집합을 출력한다. 맵리듀스 시스템에서는 같은 키를 갖는 값들을 묶어 <키, (값1, 값2,· · ·)> 식의 새로운 <키, 값> 쌍의 집합을 만든다. 리듀스 함수는 여기에 집계 연산을 수행하여 또다른 <키, 값> 쌍의 집합을 생성하고 이를 HDFS에 저장한다.