## 함수형 프로그래밍

In [1]:
def f(x):
    return x ** 2
f(2)

4

In [2]:
def even(x):
    return x % 2 == 0
even(3)

False

#### map은 리스트의 요소를 지정된 함수로 처리해주는 함수
형태 : map(함수, 리스트)

In [10]:
list(map(even, range(10)))

[True, False, True, False, True, False, True, False, True, False]

In [11]:
a = [1.2, 2.5, 3.7, 4.6]
a = list(map(int, a))
a

[1, 2, 3, 4]

In [12]:
list(map(lambda x: x ** 2, range(10)))

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

#### filter 리스트 객체에서 원하느 요소만 뽑아주는 것

In [15]:
list(filter(even, range(15)))

[0, 2, 4, 6, 8, 10, 12, 14]

#### reduce 리스트 객체에서 단 하나의 결과값만 생성한다.

In [20]:
from functools import reduce
reduce(lambda x, y: x + y, range(10))

# https://stackoverflow.com/questions/8689184/nameerror-name-reduce-is-not-defined-in-python

45

## 집합

In [3]:
# set객체
# '중복되지 않고' '순서가 없는'

s = set(['u', 'd', 'ud', 'du', 'd', 'du'])
s

{'d', 'du', 'u', 'ud'}

In [4]:
t = set(['d', 'dd', 'uu', 'u'])

In [5]:
s.union(t) # s 또는 t에 속하는 원소의 집합: 합집합

{'d', 'dd', 'du', 'u', 'ud', 'uu'}

In [6]:
s.intersection(t) # s와 t에 모두 속하는 원소의 집합: 교집합

{'d', 'u'}

In [7]:
s.difference(t) # s에 속하고 t에 속하지 않는 원소의 집합: 차집합

{'du', 'ud'}

In [8]:
t.difference(s) # t에 속하고 s에 속하지 않는 원소의 집합: 차집합

{'dd', 'uu'}

In [9]:
s.symmetric_difference(t) # s와 t 둘 중 하나에만 속하는 원소의 집합

{'dd', 'du', 'ud', 'uu'}

In [12]:
#특히 리스트 객체에서 중복된 원소를 제거할 때 set 객체를 활용
from random import randint
l = [randint(0, 10) for i in range(1000)]
# 0과 10사이의 임의의 정수를 1000개 생성
len(l)

1000

In [13]:
l[:20]

[3, 5, 7, 2, 3, 5, 1, 1, 3, 5, 7, 8, 4, 7, 10, 3, 3, 3, 5, 8]

In [16]:
s = set(l)
s

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}

## Numpy 자료구조

list를 여러겹으로 중첩시키면 n행렬을 만들 수 있지만 참조가 어렵고 pointer기반이라서 deepCopy을 써야한다.
그 단점을 Numpy의 ndarray로 해결할 수 있다.

In [2]:
import numpy as np

In [3]:
a = np.array([0, 0.5, 1.0, 1.5, 2.0])
type(a)

numpy.ndarray

In [18]:
a[:2]

array([0. , 0.5])

### 1) 내장 메서드를 사용

In [20]:
a.sum()

0.7071067811865476

In [21]:
a.std()

0.7071067811865476

In [22]:
a.cumsum()

array([0. , 0.5, 1.5, 3. , 5. ])

### 2) 백터화된 형식의 수학 연산이 가능

In [24]:
a * 2

array([0., 1., 2., 3., 4.])

In [25]:
a ** 2

array([0.  , 0.25, 1.  , 2.25, 4.  ])

In [26]:
np.sqrt(a)

array([0.        , 0.70710678, 1.        , 1.22474487, 1.41421356])

### 3) 다차원으로 확장이 용이

In [27]:
b = np.array([a, a * 2])
b

array([[0. , 0.5, 1. , 1.5, 2. ],
       [0. , 1. , 2. , 3. , 4. ]])

In [30]:
b[0]

array([0. , 0.5, 1. , 1.5, 2. ])

In [31]:
b[0, 2]

1.0

In [32]:
b.sum()

15.0

### 4) 차원의 축을 명시할 수 있고, 특정한 열과 특정한 행을 선택할 수 있다.

In [33]:
b.sum(axis=0)

array([0. , 1.5, 3. , 4.5, 6. ])

In [34]:
b.sum(axis=1)

array([ 5., 10.])

### 5) 처음에는 특정원소 값이 없는 numpy.ndarray객체를 만들고 나중에 넣어주기

In [4]:
c = np.zeros((2, 3, 4), dtype='i', order='C') # 유사명령; np.ones()
c

array([[[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]], dtype=int32)

In [12]:
d = np.ones_like(c, dtype='longdouble', order='C') # 유사명령: np.zeros_like()
d
# https://docs.scipy.org/doc/numpy/user/basics.types.html

'''
shape : 정수 혹은 복수의 정수, 또는 원하는 shape을 가진 다른 numpy.ndarray객체
dtype(옵션) : numpy.dtype객체, 이 객체는 numpy.ndarray객체의 자료형을 표현하기 위한 Numpy만의 특별한 자료형
order(옵션) : 메모리에 원소를 저장하는 순서. C이면 C언어와 같이 행 기반으로 저장하고 F이면 포트란처럼 열 기반으로 저장

dtype객체는 비트, 불리언, 정수, 부호없는 정수, 부동소수점, 복수소 부동소수점, 객체, 문자열, 유니코드, 기타가 들어갈 수 있다.
'''

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]], dtype=float64)

### 6) 순수 python와 numpy의 비교
5,000 x 5,000 원소를 가진 행렬/배열을 만들고 표준정규분포 난수로 채운 후 모든 원소의 합을 구한다.

#### 6-1) pure python

In [13]:
import random
I = 5000
%time mat = [[random.gauss(0, 1) for j in range(I)] for i in range(I)]
# 중첩된 리스트 조건제시법

Wall time: 16.1 s


In [15]:
from functools import reduce

%time reduce(lambda x, y: x + y, \
            [reduce(lambda x, y: x + y, row) \
                for row in mat])

Wall time: 1.66 s


1467.5222004177215

#### 6-2) numpy

In [16]:
%time mat = np.random.standard_normal((I, I))

Wall time: 975 ms


In [17]:
%time mat.sum()

Wall time: 30.1 ms


-6504.823524503691

### 구조화 배열
Numpy에서는 단일 자료형 숫자 배열 이와의 것을 위해서 구조화 배열(structured array)을 지원한다.
여기서 '각 열마다'라는 말에 의미를 이해해야한다.

In [18]:
dt = np.dtype([('Name', 'S10'), ('Age', 'i4'), ('Height', 'f'), ('Children/Pets', 'i4', 2)])
s = np.array([('Smith', 45, 1.83, (0, 1)),
             ('Jones', 53, 1.72, (2, 2))], dtype=dt)
s

array([(b'Smith', 45, 1.83, [0, 1]), (b'Jones', 53, 1.72, [2, 2])],
      dtype=[('Name', 'S10'), ('Age', '<i4'), ('Height', '<f4'), ('Children/Pets', '<i4', (2,))])

In [19]:
#각 열은 이름으로 참조할 수 있다.
s['Name']

array([b'Smith', b'Jones'], dtype='|S10')

In [21]:
s['Height'].mean()

1.7750001

In [22]:
s[1]['Age']

53

### 코드 백터화
코드 벡터화는 코드를 더 간결하게 하고 실행 속도를 높이기 위한 전략이다.

### 1) 기본적인 벡터화

In [3]:
r = np.random.standard_normal((4, 3))
s = np.random.standard_normal((4, 3))

In [4]:
r + s

array([[-0.93386652, -2.29810738,  1.53412229],
       [ 0.07148011,  0.20662531, -0.39124351],
       [-0.95497238,  1.31768736,  1.17604908],
       [ 0.29235479, -2.0674032 ,  1.67543363]])

In [5]:
2 * r + 3

array([[1.80737069, 1.81161851, 5.8644507 ],
       [3.51483149, 2.41395247, 2.75234015],
       [1.42908034, 1.03451919, 3.73294178],
       [2.92376558, 0.75976306, 7.30720084]])

In [7]:
# 길이가 3인 1차원 배열이 (4,3) 형태의 다차원 배열에 브로드캐스팅되었다.
s = np.random.standard_normal(3)
r + s

array([[-1.14441425, -0.69218899,  3.25783455],
       [-0.29068385, -0.39102201,  1.70177928],
       [-1.33355943, -1.08073865,  2.19208009],
       [-0.58621681, -1.21811672,  3.97920962]])

In [8]:
# 1차원 배열의 길이가 4인 경우에는 브로드캐스팅이 불가능하다.
s = np.random.standard_normal(4)
r + s

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [9]:
# 전치(transpose)연산을 적용하여 객체 r 의 모양을 (4, 3)이 아닌 (3, 4)로 만들면 좀전처럼 브로드캐스팅을 통해 s와 더하는 것이 가능하다
r.transpose() + s

array([[-0.89731083,  3.15811552,  0.95001788, -0.69880486],
       [-0.89518692,  2.60767601,  0.7527373 , -1.78080612],
       [ 1.13122917,  2.77686985,  2.1019486 ,  1.49291277]])

In [10]:
np.shape(r.T)

(3, 4)

In [11]:
# 함수 내에서도 정수나 부동소수점 같이 numpy.ndarray을 사용하는 것도 가능하다.
def f(x):
    return 3 * x + 5

In [12]:
f(0.5)

6.5

In [13]:
f(r)

array([[ 3.21105604,  3.21742777,  9.29667605],
       [ 5.77224724,  4.1209287 ,  4.62851023],
       [ 2.6436205 ,  2.05177878,  6.09941267],
       [ 4.88564837,  1.63964458, 11.46080126]])

In [14]:
# 배열을 사용할 때는 해당 객체에 적절한 함수를 호추하고 있는지 주의해야 한다.
# 예를 들면 math의 sin에서는 사용할 수 없다. 단일 숫자를 위해 설계되어 있기 때문이다.
import math
math.sin(r)

TypeError: only size-1 arrays can be converted to Python scalars

In [15]:
np.sin(r) # array as input

array([[-0.561597  , -0.55983839,  0.9904144 ],
       [ 0.2545823 , -0.28884842, -0.1235137 ],
       [-0.70715039, -0.83202072,  0.3583229 ],
       [-0.03810798, -0.90015205,  0.83492265]])

In [16]:
np.sin(np.pi) # float as input

1.2246467991473532e-16

### 2) 메모리 배치

numpy.zero 명령으로 numpy.ndarray객체를 생성할 때 메모리 배치에 대한 인수를 추가적으로 설정할 수 있다.
배열의 크기가 커지면 어떤 연산을 하느냐에 따라 성능의 차이가 생긴다

In [17]:
x = np.random.standard_normal((5, 10000000))
y = 2 * x + 3 # linear equation y = a * x + b
C = np.array((x, y), order='C')
F = np.array((x, y), order='F')
x = 0.0; y = 0.0; # memory cleanup

In [19]:
C[:2].round(2)

array([[[-0.67, -0.75, -1.68, ..., -0.01, -1.42,  0.05],
        [-0.06,  0.68,  1.29, ..., -1.4 , -0.75,  0.79],
        [-0.11,  0.37, -0.39, ...,  0.31,  1.46, -1.51],
        [-0.8 ,  0.25,  1.06, ...,  1.01,  0.92, -1.52],
        [ 0.3 , -0.26, -0.71, ..., -1.02,  0.08,  1.53]],

       [[ 1.66,  1.5 , -0.37, ...,  2.98,  0.15,  3.11],
        [ 2.87,  4.37,  5.58, ...,  0.21,  1.51,  4.57],
        [ 2.79,  3.74,  2.21, ...,  3.62,  5.93, -0.01],
        [ 1.4 ,  3.5 ,  5.12, ...,  5.02,  4.85, -0.03],
        [ 3.61,  2.48,  1.57, ...,  0.96,  3.16,  6.06]]])

In [20]:
%timeit C.sum()

111 ms ± 1.27 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [21]:
%timeit F.sum()

108 ms ± 802 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [22]:
%timeit C[0].sum(axis=0)

105 ms ± 2.79 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [23]:
%timeit C[0].sum(axis=1)

58.3 ms ± 3.5 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [24]:
# 결과는 같지만 포트란 방식의 전반적인 연산 속도는 C 방식보다 훨씬 느리다.
%timeit F.sum(axis=0)

716 ms ± 14.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [25]:
%timeit F.sum(axis=1)

1.29 s ± 23.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


## 결론 및 참고문선

https://www.python.org/doc/  
https://docs.scipy.org/doc/  
http://scipy-lectures.github.io/  