# 😻 데이터 엔지니어를 위한 파이썬 첫걸음 😻
## 17장. 함수형 프로그래밍과 맵리듀스

***

## 파이썬에서 함수가 할 수 있는 기능

- 어떤 함수는 다른 함수의 인자로 전달될 수 있다. (인자로 전달이 가능하다는 것과 같은 의미)
- 함수는 변수에 할당될 수 있다.
- 함수는 다른 함수의 결과로서 반환될 수 있다.

### 1) 어떤 함수는 다른 함수의 인자로 전달될 수 있다.

- 에러 메시지를 출력하는 함수 error_messages()와 단어의 첫 글자만 대문자로 만드는 함수 to_upper()를 아래와 같이 정의한다.

In [1]:
# 에러 메세지를 출력하는 함수
def error_message(format_func, msg):
    print(format_func(msg))

# 단어의 첫 글자만 대문자로 만드는 함수 : capitalize() 활용
def to_upper(msg):
   return " ".join(word.capitalize() for word in msg.split())

print("두 함수를 정의하였다.")

두 함수를 정의하였다.


- 아래 코드와 같이, error_message() 함수의 인자로 to_upper() 함수를 전달할 수 있다.
- 위에 함수를 정의한 코드에서 format_func에 해당하는 함수가 to_upper()인 것이다.

In [2]:
msg = "you have limited access"
error_message(to_upper, msg)

You Have Limited Access


- 비슷한 방식으로 이번에는 모든 글자를 대문자로 만들어주는 함수를 정의하고 결과를 보자.
- 문자열 함수 upper()를 써서 모든 글자를 대문자로 만들 수 있음을 응용하여 아래와 같이 함수를 만들 수 있다.

In [3]:
# 모든 글자를 대문자로 만드는 함수
def all_upper(msg):
   return " ".join(word.upper() for word in msg.split())

# 결과
error_message(all_upper, msg)

YOU HAVE LIMITED ACCESS


### 2) 함수는 변수에 할당될 수 있다.

- 파이썬이 함수를 변수로 할당할 수 있는 대표적인 함수가 콜백(callback) 함수이다.
- 호출될 함수를 다른 함수의 매개변수로 전달하고, 특정 이벤트가 발생했을 때 매개변수로 전달된 함수가 호출된다.
- 이것이 가능한 이유는 파이썬에서 함수가 1급 시민으로 칭해지기 때문이다.
- 파이썬은 이러한 점을 들어 함수형 프로그래밍이 가능하다.

In [4]:
# france() 함수 정의

def france():
    print('bonjour')

print("france 함수 정의")

france 함수 정의


In [5]:
# 새로운 변수 hello에 france() 함수 할당하기 : 변수 hello에 함수를 할당하여, hello는 함수처럼 사용이 가능하게 된다.
# 아래 코드를 출력하면, 이제 hello는 france 함수와 같은 역할을 한다고 볼 수 있겠네요.

hello = france
print(hello)

<function france at 0x7f8d2069e040>


In [6]:
hello()

bonjour


- 아래와 같이 hello의 자료형을 확인해 보면 function임을 알 수 있다. 이는 함수가 1급 시민임을 나타낸다.

In [7]:
print(type(hello))

<class 'function'>


### 3) 함수는 다른 함수의 결과로서 반환될 수 있다.

- 함수의 return 값으로 함수를 사용할 수 있다는 특징이다.
- func1(x)는 아래와 같이 x의 제곱을 취한 값을 return한다.
- func2()도 역시 함수이다. 여기서 다른 점은 func1이라는 함수를 return 값으로 사용했다는 것이다.

In [8]:
def func1(x):
    return x**2

def func2():
    return func1

print("두 개의 함수를 정의하였다.")

두 개의 함수를 정의하였다.


- 아래 코드의 결과는 같다.
- func2()는 func1을 결과값으로 반환하므로, 결국 두 결과는 서로 같다.

In [9]:
print(func1(3))
print(func2()(3))

9
9


이렇듯 파이썬에서 모든 것은 객체라고 할 수 있는데, 그 중에서 메인이 되는 것이 바로 함수이다.

**함수형 프로그래밍은 모든 것을 객체로 표현하게끔 하는 프로그래밍 방식이라고 할 수 있다.**

파이썬처럼 함수가 1급 시민인 다른 프로그래밍 언어로는 JavaScript, Scala, Go 등이 있다.

하지만 Java, C 등은 그렇지 않다.

## 함수형 프로그래밍의 특징

- 변경가능한 상태(mutable)를 불변의 상태(Immutable)로 만들어 오류를 없앰
- 모든 것은 객체임
- 코드는 간결하고 가독성을 높게 하여 구현할 로직에 집중하도록 함
- 보다 효율적인 동시성 작업이 가능함

## 데이터 컬렉션

In [5]:
# import collections

- 파이썬의 자료구조 중 List, Tuple, Dictionary, Set와 같은 형태의 자료형을 컬렉션(Collection) 혹은 컨테이너(Container)라고 부른다.
- 파이썬은 collections 컬렉션 모듈을 통해서 위에 언급된 네 가지 자료형 외 데이터 컬렉션 타입을 제공한다.
- deque, namedtuple(), defaultdict가 자주 사용된다고 한다. (https://docs.python.org/3.8/library/collections.html)
- '빅데이터'라는 대용량의 자료를 표현할 때 이러한 타입으로 저장하는 경우가 매우 많다고 한다.

### 예제
**defaultdict 자료구조를 이용하여 text 문장에 쓰인 단어의 개수를 세는 코드를 작성하려고 한다.**

(단어는 공백을 기준으로 구분, don't과 같은 축약형 단어는 하나의 단어로 취급)

In [1]:
from collections import defaultdict

text = """I have a depression, and then there was a girl who came into 
my life. One day, my life was changed because that girl just changed my 
life. She taught me how to love and how to be an active person. 
And then, I feel so happy when I am always with her. 
I love her so much. I don't want let her go. I am sad because she 
is with her favorite friends. I will do anything to make her proud"""

result = defaultdict(int)
word = text.split()

for i in word:
    result[i] += 1

print(result)
result['girl']

defaultdict(<class 'int'>, {'I': 7, 'have': 1, 'a': 2, 'depression,': 1, 'and': 2, 'then': 1, 'there': 1, 'was': 2, 'girl': 2, 'who': 1, 'came': 1, 'into': 1, 'my': 3, 'life.': 2, 'One': 1, 'day,': 1, 'life': 1, 'changed': 2, 'because': 2, 'that': 1, 'just': 1, 'She': 1, 'taught': 1, 'me': 1, 'how': 2, 'to': 3, 'love': 2, 'be': 1, 'an': 1, 'active': 1, 'person.': 1, 'And': 1, 'then,': 1, 'feel': 1, 'so': 2, 'happy': 1, 'when': 1, 'am': 2, 'always': 1, 'with': 2, 'her.': 1, 'her': 4, 'much.': 1, "don't": 1, 'want': 1, 'let': 1, 'go.': 1, 'sad': 1, 'she': 1, 'is': 1, 'favorite': 1, 'friends.': 1, 'will': 1, 'do': 1, 'anything': 1, 'make': 1, 'proud': 1})


2

마치 NLP에서 어떤 단어가 몇 번 반복되었는지를 분석하는 것과도 같네요.

## 파이썬에서 함수를 데이터 컬렉션에 적용하는 패턴
- map, filter, reduce
- map 연산을 통해 여러 개의 컴퓨터에 연산을 나누고, filter를 통해 필터링을 수행하고, reduce를 통해 여러 개 컴퓨터에 분산하여 연산한 결과를 통합해 결과를 도출한다.
- map, filter, reduce는 독립적으로 사용되기보다는 파이썬의 람다(lambda)와 함께 사용하는 것이 일반적이라고 한다.

### 1) map

- 컬렉션의 모든 요소에 함수를 매핑한다.

In [2]:
mynum = ['1','2','3','4']
mynum_int = list(map(int, mynum))  # 문자열로 구성된 mynum의 각 원소에 int 함수를 적용
print(mynum_int)

mynum_square = list(map(lambda x : x*x, mynum_int))  # mynum_int의 각 원소 x에 lambda x : x*x 함수를 적용 (x의 제곱)
print(mynum_square)

[1, 2, 3, 4]
[1, 4, 9, 16]


### 2) filter

- 컬렉션 내의 요소를 필터링한다.
- 아래 코드는 음의 정수를 포함한 범위에 해당하는 수들 중 0과 음수를 제외한 양수만을 걸러내어 리스트로 표현하도록 하는 코드이다.

In [3]:
mynum = range(-5, 5)   # -5부터 4까지의 정수를 범위로 설정
mynum_plus = list(filter(lambda x: x > 0, mynum)) # mynum의 각 원소 x에 대해 lambda x: x > 0 인지 체크하는 필터를 적용
print(mynum_plus)

[1, 2, 3, 4]


### 3) reduce

- functools 모듈의 reduce 라이브러리를 불러와 리듀싱을 수행한다.
- reduce를 활용해 보기 적당한 예로 시그마 연산이 있다. 시그마는 일정 범위에서 일정 범위까지 수들의 합을 나타내는 기호이다.

In [4]:
from functools import reduce
mynum = [1, 2, 3, 4, 5]
add = reduce((lambda x, y: x + y), mynum)  # reduce는 내부에 관리하는 x 변수에 mynum의 각 원소 y를 차례차례 더하여 x에 반영한다.

print(add)

15


## 맵리듀스 실습

- 맵리듀스는 Split → Map → Shuffle → Reduce의 4단계로 구성된다.
- Split와 Map을 묶어 Map Task라 하고, Shuffle과 Reduce를 묶어 Reduce Task라 한다.
- 우리는 알파벳의 빈도 수를 찾는 로직을 맵리듀스를 활용해 구현하고자 한다.
- 사용 텍스트는 이전에 데이터 컬렉션 쪽에서 text로 입력했던 데이터를 사용한다.

In [6]:
# mapper : 입력된 데이터를 잘게 나누고 매핑하는 역할

def mapper(text):
    split = []
    for i in text:
        split.append((i, 1))
    return split

mapping = mapper(text)  # 매핑의 결과를 확인해봅시다. 
print(mapping)

[('I', 1), (' ', 1), ('h', 1), ('a', 1), ('v', 1), ('e', 1), (' ', 1), ('a', 1), (' ', 1), ('d', 1), ('e', 1), ('p', 1), ('r', 1), ('e', 1), ('s', 1), ('s', 1), ('i', 1), ('o', 1), ('n', 1), (',', 1), (' ', 1), ('a', 1), ('n', 1), ('d', 1), (' ', 1), ('t', 1), ('h', 1), ('e', 1), ('n', 1), (' ', 1), ('t', 1), ('h', 1), ('e', 1), ('r', 1), ('e', 1), (' ', 1), ('w', 1), ('a', 1), ('s', 1), (' ', 1), ('a', 1), (' ', 1), ('g', 1), ('i', 1), ('r', 1), ('l', 1), (' ', 1), ('w', 1), ('h', 1), ('o', 1), (' ', 1), ('c', 1), ('a', 1), ('m', 1), ('e', 1), (' ', 1), ('i', 1), ('n', 1), ('t', 1), ('o', 1), (' ', 1), ('\n', 1), ('m', 1), ('y', 1), (' ', 1), ('l', 1), ('i', 1), ('f', 1), ('e', 1), ('.', 1), (' ', 1), ('O', 1), ('n', 1), ('e', 1), (' ', 1), ('d', 1), ('a', 1), ('y', 1), (',', 1), (' ', 1), ('m', 1), ('y', 1), (' ', 1), ('l', 1), ('i', 1), ('f', 1), ('e', 1), (' ', 1), ('w', 1), ('a', 1), ('s', 1), (' ', 1), ('c', 1), ('h', 1), ('a', 1), ('n', 1), ('g', 1), ('e', 1), ('d', 1), (' ', 1)

In [7]:
# reducer : mapper에서 입력받은 값들 중 중복되는 항목은 합치는 역할

def reducer(split):
    out = {}
    for i in split:
        if i[0] not in out.keys():
            out[i[0]] = 1
        else:
            out[i[0]] += 1
    return out

print("reducer 함수 구현 완료")

reducer 함수 구현 완료


In [8]:
# mapper와 reducer 과정을 거친 MapReduce 결과 확인하기

reducer(mapper(text))

{'I': 7,
 ' ': 81,
 'h': 24,
 'a': 27,
 'v': 5,
 'e': 38,
 'd': 12,
 'p': 5,
 'r': 13,
 's': 15,
 'i': 15,
 'o': 18,
 'n': 18,
 ',': 3,
 't': 20,
 'w': 11,
 'g': 7,
 'l': 12,
 'c': 7,
 'm': 9,
 '\n': 5,
 'y': 7,
 'f': 6,
 '.': 7,
 'O': 1,
 'b': 3,
 'u': 6,
 'j': 1,
 'S': 1,
 'A': 1,
 "'": 1,
 'k': 1}