## Numpy data structures (배열형 자료)

- 배열형 자료구조를 왜 따로 사용하는가?

- 같은 식을 계산하는 4가지 함수를 비교해보자

In [2]:
from math import *
import numpy as np

I=500000
a_py = range(I)
a_np = np.arange(I)

def f(x):
    return abs(cos(x))**0.5 + sin(2+3*x)

# 명시적으로 반복문을 사용한 표준 파이썬 함수
def f1(a):
    res=[]
    for x in a:
        res.append(f(x))
    return res

# 암묵적 반복문을 사용한 반복자 구현
def f2(a):
    return [f(x) for x in a]

# 암묵적 반복문과 eval명령을 사용한 반복자 구현
def f3(a):
    ex = 'abs(cos(x))**0.5 + sin(2+3*x)'
    return [eval(ex) for x in a]

# numpy 벡터화 구현. numpy 즉 행렬을 이용한 벡터 계산
def f4(a):
    return (np.abs(np.cos(a))**0.5 + np.sin(2+3*a))

In [2]:
%%time
r1 = f1(a_py)

Wall time: 1.06 s


In [3]:
%%time
r2 = f2(a_py)

Wall time: 878 ms


In [4]:
%%time
r3 = f3(a_py)
# 속도가 제일 느림. eval 안쓰는게 좋다.

Wall time: 14.9 s


In [5]:
%%time
r4 = f4(a_np)
# 속도가 제일 빠르다!

Wall time: 61.8 ms


### 여기서 시간을 측정하는 법에 대해 한번 짚고 넘어가자

- IPython은 현재 Jupyter의 커널 중 Python부분에 해당. Jupyter의 전신이 IPython이었던 만큼, Jupyter는 IPython을 default kernel로써 포함.

- IPython에는 Python code의 퍼포먼스, 메모리 사용, 수행 시간등을 편리하게 프로파일링 하게 도와주는 여러 Magic Command들이 있다

- % 의 경우 한 줄의 코드에서만 실행되며, %% 의 경우 여러 줄, 즉 한 셀의 내용 전체에서 실행된다

- %time 은 코드가 실행되는데 걸리는 시간을 측정해준다

- %timeit은 보다 복잡한 조작을 가능하게 해준다. %timeit은 주어진 코드를 여러번 실행해보고 그 평균시간을 알려준다

- 출력은 Wall time으로 측정된다.

    - CPU time : 작업을 수행한 프로세서의 시간을 합산한 시간.

    - wall time : 작업을 수행한 시간.

    - 예를 들어 A라는 작업을 2개 프로세서(코어)에서 동시에 쉬지지않고 작업했는데 2초가 걸렸다면, CPU time은 4초, wall time은 2초이다. 
    
    - 작업을 수행하는 개별 프로세서는 중간에 쉴때가 존재하므로 단순히 (wall time) * (프로세서 수) 로 CPU time이 계산되지는 않는다.

In [6]:
# 리스트 형식으로 배열 구조 표현해보기
# 1차원 배열
v = [0.5, 0.75, 1.0, 1.5, 2.0]  # 실수 벡터

# 2차원 배열
m = [v, v, v]  # 실수 행렬
print(m)

# 행 인덱싱, 행렬의 원소 인덱싱
print(m[1])
print(m[1][0])

[[0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0]]
[0.5, 0.75, 1.0, 1.5, 2.0]
0.5


In [7]:
# nested list를 사용하면 더 복잡한 구조도 만들 수 있다.
v1 = [0.5, 1.5]
v2 = [1, 2]
m = [v1, v2]
c = [m, m]  # 3차원 배열

print(c)

# 3차원 행렬의 원소 인덱싱
print(c[1][1][0])

[[[0.5, 1.5], [1, 2]], [[0.5, 1.5], [1, 2]]]


In [7]:
# 특정 원소를 앞에서 배운 리스트 인덱싱을 사용하여 변경해볼까?
v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = [v, v, v]
v[0] = 'Python'

print(m)

[['Python', 0.75, 1.0, 1.5, 2.0],
 ['Python', 0.75, 1.0, 1.5, 2.0],
 ['Python', 0.75, 1.0, 1.5, 2.0]]

### 이런 결과가 나오는 이유는 list 는 mutable하기 때문임.

- 즉 기존 값의 메모리 주소를 공유하기 때문에 발생하는데 이런 방식을 shallow copy라고 함.

- 이것을 막기 위해서 copy모듈의 deepcopy 함수를 이용해야 한다.

- 리스트 내 요소들은 여전히 똑같은 값을 공유하지만, 리스트 자체가 다른 값이기 때문에 원본 리스트의 요소가 바뀌어도

- 복사된 리스트의 요소에는 영향을 끼치지 않음

In [8]:
from copy import deepcopy
v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = 3 * [deepcopy(v), ]

print(m)

# 값 변경
v[0] = 'Python'
print(m)

[[0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0]]
[[0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0]]


## Numpy arrays using numpy library  

앞서 봤듯이 리스트 객체를 이용해서 배열 구조를 만들 수도 있지만, 속도나 값의 변경 면에서 여러가지 단점들이 발생한다.  
또한 리스트 객체 자체는 원래 배열 구조 계산을 위해 만들어진 자료구조가 아니다.  
따라서 배열 타입을 잘 다루기 위해서는 이 목적에 특화된 새로운 클래스가 필요한데 그것이 바로 numpy.ndarray이다.  
  
이 클래스는 n 차원 배열을 쉽고 효율적으로, 그리고 고성능으로 다루기 위한 목적으로 만들어졌다.

NumPy는 과학 컴퓨팅을 위한 기본 패키지이다. 다차원 배열 객체, 이로부터 유도한 마스크된 배열 및 행렬 등과 같은 객체, 논리, 배열 형태 조작, 정렬, 선택, I/O를 비롯한 배열에 대한 빠른 작업을 위한 다양한 루틴을 제공한다. 이외에도 이산 푸리에 변환, 기본 선형 대수학, 기본 통계 연산, 무작위 시뮬레이션 등등 다양한 기능을 가지고 있다.

In [2]:
import numpy as np
a = np.array([0, 0.5, 1.0, 1.5, 2.0])
print(type(a))

# 행렬 인덱싱
print(a[:2])  # 1차원 리스트 객체와 인덱싱 방법이 같다.

# 요소 타입을 dtype 멤버에서 확인할 수 있으며, 차원은 shape에서 확인할 수 있다.
print(a.shape)
print(a.dtype)


<class 'numpy.ndarray'>
[0.  0.5]
(5,)
float64



- ndarray는 fixed-size homogeneous multidimensional array 정도로 이해할 수 있으며, 기본적으로 vectorization과 broadcasting을 지원한다.

- vectorization과 broadcasting은 뒤에서 설명이 나오니까 일단 넘어가자

- ndarray의 주요 속성은 다음과 같다.
    - shape : 배열의 형태
    - dtype : 요소의 데이터 타입, int32, float32 등등
    - ndim : 차원수. x.ndim = 1, y.ndim=2 등이며 len(x.shape) 와 동일
    - size : 요소의 개수. shape의 모든 값의 곱. x.size = 3, y.size=6 등
    - itemsize : 요소 데이터 타입의 크기(byte 단위), x.itemsize=8 등
    - data : 실제 데이터. 직접 사용자가 접근할 필요는 없음

In [3]:
# numpy 안에 있는 다양한 내장 메서드들을 이용할 수 있다.
print(a.sum())      # 원소의 합계
print(a.std())      # 표준편차
print(a.cumsum())   # 누적 합계
print(a.cumprod())  # 누적 곱
print('\n')

print(a * 2)        # 행렬 각각의 원소에 대해서 적용
print(a ** 2)
print(np.sqrt(a))
print('\n')

print(np.max(a))    # 전체 성분의 최댓값
print(np.min(a))    # 전체 성분의 최솟값
print(np.argmin(a)) # 전체 성분의 최솟값이 위치한 인덱스 반환
print(np.argmax(a)) # 전체 성분의 최댓값이 위치한 인덱스 반환
print(np.unique(a)) # 중복된 성분을 제외한 array 반환
print(np.sort(a))   # np.sort()은 오름차순으로 정렬
print(np.argsort(a)) # np.argsort() 정렬했을때의 인덱스
print(np.argsort(a))[-2]) # 2번째로 큰 값의 위치
print('\n')

# 불리언 인덱싱 (true, false)
print(a>1)
print((a>1).sum())
print('\n')
# numpy 여러가지 메서드들

# 종목별 연수익률 오늘종가/전날종가
annual_ret = [1.1, 1.3, 1.5, 0.9, 0.85, 1.02]

# 종목별 로그 연수익률
log_ret = np.log(annual_ret)    # log 값 계산
print(log_ret)
print('\n')

# 종목별 가중치. 0-100 사이의 숫자로 표현한다고 해보자
weights = [15, 25, 40, 6, 4, 10]
weights /= np.sum(weights)      # weights 값을 위의 가중치를 고려하여 0~1 사이 값으로 변환
print(weights)
print('\n')

# 변동성 (표준편차)
vol = np.std(log_ret)
print(vol)
print('\n')

# 전체 수익률
# 행렬 곱셈의 다양한 방식
returns_1 = np.dot(weights, log_ret)
returns_2 = np.matmul(weights, log_ret)
returns_3 = weights @ log_ret 
print(returns_1)
print(returns_2)
print(returns_3)

# 가독성 측면에서 @을 사용하는 것이 좋다. 다음 규칙을 기억하도록 한다.
# 1차원 배열 (5,) (,5) 
# 2차원 배열 (5,1) (1,5) 은 서로 다르다. 하지만 브로드캐스팅 덕분에 연산이 의도한 대로 계산이 된다.
# @의 좌측에 오는 1차원배열은 row vector로 취급( (3,)인 경우 (1,3)으로 취급)
# @의 우측에 오는 1차원배열은 column vector로 취급( (3,)인 경우 (3,1)으로 취급)


5.0
0.7071067811865476
[0.  0.5 1.5 3.  5. ]
[0. 0. 0. 0. 0.]


[0. 1. 2. 3. 4.]
[0.   0.25 1.   2.25 4.  ]
[0.         0.70710678 1.         1.22474487 1.41421356]


2.0
0.0
0
4
[0.  0.5 1.  1.5 2. ]


[False False False  True  True]
2


[ 0.09531018  0.26236426  0.40546511 -0.10536052 -0.16251893  0.01980263]


[0.15 0.25 0.4  0.06 0.04 0.1 ]


0.1983311370499055


0.23123151094102465
0.23123151094102465
0.23123151094102465


In [31]:
# 다차원 배열로 확장
a = np.array([0, 0.5, 1.0, 1.5, 2.0])
b = np.array([a, a * 2, a ** 2, np.sqrt(a)]) # b는 4 by 5인 2차원 행렬이 됨

# 다차원 배열 인덱싱
print(b)
print(b[0])
print(b[0,2])
print('\n')

print(b[2:,])
print(b[1:3, :])
print(b[:,:2])
print('\n')

# 다차원 배열 불리언 인덱싱(boolean indexing)
print(b[:,2]==1)
print(b[b[:,2]==1,:])
print('\n')

print(b[0,:]<1)
print(b[:,b[0,:]<1])
print('\n')

# 다차원 배열 연산
print(b.sum())
print(b.sum(axis=0)) # 0번 축을 따라 합계
print(b.sum(axis=1)) # 1번 축을 따라 합계

[[0.         0.5        1.         1.5        2.        ]
 [0.         1.         2.         3.         4.        ]
 [0.         0.25       1.         2.25       4.        ]
 [0.         0.70710678 1.         1.22474487 1.41421356]]
[0.  0.5 1.  1.5 2. ]
1.0


[[0.         0.25       1.         2.25       4.        ]
 [0.         0.70710678 1.         1.22474487 1.41421356]]
[[0.   1.   2.   3.   4.  ]
 [0.   0.25 1.   2.25 4.  ]]
[[0.         0.5       ]
 [0.         1.        ]
 [0.         0.25      ]
 [0.         0.70710678]]


[ True False  True  True]
[[0.         0.5        1.         1.5        2.        ]
 [0.         0.25       1.         2.25       4.        ]
 [0.         0.70710678 1.         1.22474487 1.41421356]]


[ True  True False False False]
[[0.         0.5       ]
 [0.         1.        ]
 [0.         0.25      ]
 [0.         0.70710678]]


26.84606521495123
[ 0.          2.45710678  5.          7.97474487 11.41421356]
[ 5.         10.          7.5         4.3460

In [14]:
# numpy 배열 복사 메서드
c = np.array([1,2,3,4])
cc = c
cc[1]=0
print(c)
print(cc)
print('\n')
# 메모리 공유가 일어남. 앞서 말한 shallow copy 개념

# numpy.view() : 똑같이 메모리 공유를 통해 값은 변경되지만 type을 변경시킴으로써 보이는 view를 바꿀 수 있음
# 바이트 단위로 해석하기 때문에 값의 입력과 해석을 바이트 단위로 생각해야 해서 헷갈릴수 있음
c = np.array([1,2,3,4], dtype='int16')
cc = c.view(dtype=np.int32)
print(c)
print(cc)
print(c.dtype)
print(cc.dtype)
print('\n')

# 앞에서와 같이 같은 주소를 공유하는 것이 아닌, 새로운 주소를 할당하여 배열을 복사하고 싶다면 copy()를 쓰면 됨
c = np.array([1,2,3,4])
cc = c.copy()
cc[1]=0
print(c)
print(cc)

[1 0 3 4]
[1 0 3 4]


[1 2 3 4]
[131073 262147]
int16
int32


[1 2 3 4]
[1 0 3 4]


In [7]:
# 원소가 0인 행렬을 만드는 zeros. 첫번째 인수는 행렬의 shape, 두 번째 인수는 자료형의 타입, 세 번째 인수는 메모리에 원소를 저장하는 순서(C언어 방식으로 행 기반으로 저장. F는 포트란처럼 열 기반으로 저장)
# 타입은 i=정수, b=불리언, f=부동소수점
c1 = np.zeros((2, 3, 4), dtype='i', order='C')
print(c1)
print('\n')
# 원소가 1인 행렬을 만든 ones()
c2 = np.ones((2, 3, 4), dtype='i', order='C')
print(c2)


[[[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]]
[[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]


In [8]:
# 만약 크기를 튜플로 명시하지 않고 다른 배열과 같은 크기의 배열을 생성하고 싶다면 np.zeros_like(), np.ones_like() 을 사용한다.
d1 = np.zeros_like(c1, dtype='f', order='C')
d2 = np.ones_like(c2, dtype='f', order='C')

print(d1)
print('\n')
print(d2)

[[[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]

 [[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]]


[[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]]


## Structured Arrays (구조화 배열)  
- numpy.ndarray를 사용하면 다양한 장점이 있지만 단일 자료형 숫자 배열 연산에 특화되어 있어서 다양한 배열 기반 알고리즘이나 응용 분야에 사용하기 힘들 수 있다.  

- 이 경우를 위헤 numpy에서는 여러 가지 각 열마다 다른 자료형을 사용할 수 있는 구조화 배열을 지원한다.

- 구조화 배열 객체 생성은 SQL 데이터베이스 테이블을 생성하는 것과 아주 유사하다.

- 데이터베이스 테이블 생성 때와 마찬가지로 각 열의 이름과 자료형, 문자열의 최대 글자수 같은 추가 정보를 지정해야한다.

- 파이썬 numpy 배열을 생성할 때 dtype을 지정할 수 있다. 만약 지정하지 않으면 정수형은 np.int32, 실수형은 np.float64가 지정

- np.dtype('str')을 사용하면 바이트오더(bite order)를 포함한 보다 다양한 타입을 지정할 수 있다. 다음은 예이다.

    - np.dtype('int32') : 32비트 LE 정수, np.int32와 동일
    - np.dtype('i4') : 4바이트 LE 정수, np.int32와 동일
    - np.dtype('f8') : 8바이트 LE 실수, np.float64와 동일
    - np.dtype('>f8') : 8바이트 BE 실수
    - S10은 10바이트 크기의 문자열을 의미

    - 정수형의 경우 i{byte}, int{bit}, <i{byte}, >i{byte} 형태를 쓸수 있다. 
    
    - 이때 <는 LE(리틀 엔디안)의미하며 디폴트, >는 BE(빅 엔디안)의미한다. (리틀엔디안은 낮은 바이트부터 높은 바이트로 저장. 빅엔디안은 반대)
    
    - 마찬가지로 실수형의 경우 f{byte}, float{bit}, <f{byte}, >f{byte} 형태를 쓸수 있다.

    - 인텔 계열 CPU(인텔이나 AMD)는 리틀 엔디안을 사용한다. 다만 네트워크를 통해 데이터를 전송할 때는 빅엔디안을 사용한다.


In [4]:

dt = np.dtype([('Name', 'S10'), ('Age', 'i4'),
               ('Height', 'f'), ('Children/Pets', 'i4', 2)])

s = np.array([('Smith', 45, 1.83, (0, 1)),
              ('Jones', 53, 1.72, (2, 2))], dtype=dt)
print(s)
print(type(s))

# 각 열은 이름으로 참조할 수 있음
print(s['Name'])

print(s['Height'].mean())

# 특정한 행, 즉 레코드를 선택하면 선택된 객체는 마치 사전 객체와 같이 쓸 수 있음. 즉 키를 이용하여 값을 참조할 수 있음
print(s[1]['Age'])

[(b'Smith', 45, 1.83, [0, 1]) (b'Jones', 53, 1.72, [2, 2])]
<class 'numpy.ndarray'>
[b'Smith' b'Jones']
1.7750001
53


## dtype
- bool Boolean (True or False) stored as a byte
- int8 Byte (-128 to 127)
- int16 Integer (-32768 to 32767)
- int32 Integer (-2147483648 to 2147483647)
- int64 Integer (-9223372036854775808 to 9223372036854775807)
- uint8 Unsigned integer (0 to 255)
- uint16 Unsigned integer (0 to 65535)
- uint32 Unsigned integer (0 to 4294967295)
- uint64 Unsigned integer (0 to 18446744073709551615)
- float16 Half precision float: sign bit, 5 bits exponent, 10 bits mantissa
- float32 Single precision float: sign bit, 8 bits exponent, 23 bits mantissa
- float64 Double precision float: sign bit, 11 bits exponent, 52 bits mantissa
- S String

## Vectorization of code (코드 벡터화)  
- 코드 벡터화는 코드를 더 간결하게 하고 실행 속도를 높이기 위한 전략이다.  

- 기본 아이디어는 복잡한 객체에 연산이나 함수를 적용할 때 객체가 포함하는 원소를 하나하나씩 반복하는 것이 아니라 객체 전체를 한번에 적용하는 것이다. 

- 파이썬에서는 map, filter, reduce와 같은 도구를 통해 벡터화를 할 수 있고 numpy를 적용하면 좀 더 깊은 부분까지 벡터화가 가능하다.  

- 배열의 개별 요소가 아닌 배열에 대해 연산을 적용하는 것을 vectorization이라 하며

- 크기가 다를 경우에도 작동하도록 한 것(예를 들어 a=a+3)을 broadcasting이라고 한다.

In [3]:
# 두 개의 numpy 배열을 원소끼리 더할 수 있다.
# ndarray 객체에 대한 연산은 기본적으로 elementwise로 진행
r = np.random.standard_normal((4, 3))
s = np.random.standard_normal((4, 3))
print(r)
print(s)
print(r+s)

[[ 1.46313954 -0.15258219  0.37642653]
 [-1.85794685  1.34368944  0.87916281]
 [-0.26626351  0.08100444  0.66931747]
 [-1.79355109  1.15406141  0.90643875]]
[[ 1.88788998 -0.2079843   0.75515864]
 [ 0.65714216  0.94931412 -0.03207422]
 [-1.41289509  0.58636664 -0.65690219]
 [ 0.14642082 -1.73710461  1.34112889]]
[[ 3.35102951 -0.36056648  1.13158517]
 [-1.20080469  2.29300356  0.84708859]
 [-1.67915861  0.66737107  0.01241528]
 [-1.64713026 -0.5830432   2.24756764]]


In [13]:
# 2r 과 3은 각자 다른 형태를 띠고 있을 텐데, 이렇게 더할 수 있는건 3이 객체 r과 같은 모양으로 확장, 즉 브로드캐스팅된 것이므로 가능
# NumPy에서 차원이 맞지 않은 객체끼리 연산되도록 하는 것을 broadcasting이라 함
print(2*r+3)

[[ 4.80120866  4.36585945  3.46255402]
 [ 2.96723709  4.69777758  4.32587488]
 [ 7.27481296  1.15561766  0.41423329]
 [ 2.46324452 -0.56462263  3.25954821]]


### broadcasting의 원리
![broadcasting](./broadcasting.png)

In [5]:
# r은 4 by 3이고 s는 원소의 수가 3인 1차원 배열인데 이것도 s가 4 by 3 형태의 r 다차원 배열에 브로드 캐스팅 된 것임.
s = np.random.standard_normal(3)
print(s)
print(r)
r + s

[ 1.95200623  0.51375266 -0.15115529]
[[ 1.46313954 -0.15258219  0.37642653]
 [-1.85794685  1.34368944  0.87916281]
 [-0.26626351  0.08100444  0.66931747]
 [-1.79355109  1.15406141  0.90643875]]


array([[3.41514576, 0.36117048, 0.22527124],
       [0.09405938, 1.85744211, 0.72800752],
       [1.68574272, 0.5947571 , 0.51816218],
       [0.15845514, 1.66781407, 0.75528346]])

In [11]:
# s가 다음과 같으면 브로드캐스팅이 불가능함
s = np.random.standard_normal(4)
# [0.1, 0.2, 0.3, 0.4]
# 하지만 전치 연산을 적용하여 (transpose) 객체 r의 모양을 (4,3)이 아닌 (3,4)로 만들면 좀전처럼 브로드캐스팅을 통해 s와 더하는 것이 가능함
print(s)
print(r)
print(r.T)
print(r.transpose() + s)
print(np.shape(r.T))
print('\n')
print((r.transpose()+s).T)

[-2.18607985  0.65684306 -0.049422    0.7063803 ]
[[ 1.46313954 -0.15258219  0.37642653]
 [-1.85794685  1.34368944  0.87916281]
 [-0.26626351  0.08100444  0.66931747]
 [-1.79355109  1.15406141  0.90643875]]
[[ 1.46313954 -1.85794685 -0.26626351 -1.79355109]
 [-0.15258219  1.34368944  0.08100444  1.15406141]
 [ 0.37642653  0.87916281  0.66931747  0.90643875]]
[[-0.72294031 -1.20110379 -0.31568552 -1.08717079]
 [-2.33866204  2.0005325   0.03158243  1.86044171]
 [-1.80965332  1.53600587  0.61989547  1.61281905]]
(3, 4)
[[-0.72294031 -2.33866204 -1.80965332]
 [-1.20110379  2.0005325   1.53600587]
 [-0.31568552  0.03158243  0.61989547]
 [-1.08717079  1.86044171  1.61281905]]


In [12]:
# 일반적으로 사용자가 만든 파이썬 함수에서도 numpy.ndarray를 사용할 수 있음. 
# 함수에서 배열을 마치 정수나 부동소수점과 같이 사용하는 것도 가능
# 함수의 인수로 표준 파이썬 객체 이외에 numpy.ndarray객체를 넣을 수 있음.

def f(x):
    return 3 * x + 5

print(f(0.5))  # 부동소수점 객체
print(f(r))

6.5
[[ 9.38941861  4.54225344  6.1292796 ]
 [-0.57384055  9.03106833  7.63748843]
 [ 4.20120946  5.24301331  7.00795241]
 [-0.38065326  8.46218423  7.71931626]]


In [48]:
# numpy가 하는 일은 객체의 모든 원소에 대해 함수 f를 적용하는 것임. 이런 방식으로 반복문을 사용하지 않고 연산을 할 수 있음
# 반복문이 하는 일을 numpy 내부로 위임한 것
# numpy 내부에서 반복문 계산이 C로 쓰여 있어서 성능이 최적화된 코드를 사용하므로 순수 파이썬 수준에 비해 속도가 아주 빨라짐
# 이것이 바로 numpy나 배열을 사용하는 경우에 성능 향상이 가능한 원인

print(np.sin(r))
print(np.sin(np.pi))

array([[ 0.32498492,  0.45582517,  0.63665317],
       [ 0.42640669, -0.06562866,  0.78983667],
       [ 0.45228479, -0.06432063, -0.22660934],
       [ 0.89007706, -0.72920149,  0.85852106]])

In [19]:
# 이건 조금 심화적인 내용으로 넣어봄
# 과학기술 및 금융 분야에서 메모리 배치 방식의 영향을 알아보자

x = np.random.standard_normal((5, 100000))
y = 2 * x + 3  # linear equation y = a * x + b
print(x.shape)
print(y.shape)

# numpy에서는 ndarray 객체마다 dtype을 설정할 수 있음.
# 또한 ndarray 객체를 초기화할 때 두 개의 다른 메모리 배치 방법을 선택할 수 있으며 객체의 구조에 따라 특정한 메모리 배치가 더 유리할 수 있음

# 3차원 배열의 행 우선 저장방식 
# np.array([x, y])
C = np.array((x, y), order='C')
print(C.shape)

# 3차원 배열의 열 우선 저장방식
F = np.array((x, y), order='F')
print(F.shape)

x = 0.0; y = 0.0  # memory clean-up

print(C[:2].round(2))

(5, 100000)
(5, 100000)
(2, 5, 100000)
(2, 5, 100000)
[[[-1.57 -0.8   0.31 ...  1.34 -0.22  1.49]
  [ 0.03 -0.95  0.34 ...  1.71 -0.54  0.96]
  [-0.36 -1.64  0.98 ... -0.28  0.02 -2.38]
  [-0.46  0.5  -0.99 ... -0.95  0.98 -0.54]
  [ 0.08 -0.76  1.5  ...  1.68 -1.01  0.29]]

 [[-0.14  1.39  3.63 ...  5.68  2.56  5.99]
  [ 3.07  1.11  3.68 ...  6.41  1.92  4.92]
  [ 2.28 -0.28  4.96 ...  2.44  3.03 -1.75]
  [ 2.08  4.    1.01 ...  1.11  4.97  1.93]
  [ 3.15  1.49  6.   ...  6.36  0.97  3.57]]]


In [20]:
# 기본적인 연산 적용
%timeit C.sum()
%timeit F.sum()


587 ms ± 222 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
664 ms ± 149 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [20]:
# C방식의 메모리 배치 방식에 대한 성능
%timeit C.sum(axis=0)
%timeit C.sum(axis=1)

# F방식의 메모리 배치 방식에 대한 성능
%timeit F.sum(axis=0)
%timeit F.sum(axis=1)

F = 0.0; C = 0.0  # memory clean-up

# 즉 자료구조의 특정한 형태에 따라서는 배열의 메모리 배치도 고려하여야 한다. 올바른 메모리 배치를 하면 코드 실행 속도를 2배 이상 향상시킬 수 있다.


13.2 ms ± 2.21 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
8.45 ms ± 2.99 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
67.2 ms ± 12.8 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
69.2 ms ± 18.7 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [17]:
# numpy관련 자주 쓰는 메서드들 모음
# arange 명령은 NumPy 버전의 range 명령이라고 볼 수 있다. 특정한 규칙에 따라 증가하는 수열을 만든다
print(np.arange(10))            # 0 .. n-1
print(np.arange(3, 21, 2))      # 시작, 끝(포함하지 않음), 단계
print('\n')

# linspace 명령이나 logspace 명령은 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할한다.
print(np.linspace(0, 100, 5))   # 시작, 끝(포함), 갯수
print(np.logspace(0.1, 1, 10))
print('\n')

[0 1 2 3 4 5 6 7 8 9]
[ 3  5  7  9 11 13 15 17 19]


[  0.  25.  50.  75. 100.]
[ 1.25892541  1.58489319  1.99526231  2.51188643  3.16227766  3.98107171
  5.01187234  6.30957344  7.94328235 10.        ]




In [6]:
# 배열 인덱싱 관련 메서드
x = np.array([1.2, -1.3, 0., 2.2, 0., 5.3, 3.7])

print(x>2)
print(x[x>2])

# 특정 조건을 만족시키는 원소의 인덱스를 뽑는 메서드 print(x[x>2])의 인덱스 와 같음
print(np.where(x>2))

# 배열 x의 원소가 0이 아닌 인덱스를 배열형태로 리턴
print(np.nonzero(x))

[False False False  True False  True  True]
[2.2 5.3 3.7]
(array([3, 5, 6], dtype=int64),)
(array([0, 1, 3, 5, 6], dtype=int64),)


In [18]:
# 배열의 크기 변형 메서드
# 만들어진 배열의 내부 데이터는 보존한 채로 형태만 바꾸려면 reshape 메서드를 사용
a = np.arange(12)
b = a.reshape(3, 4)
print(b)
print('\n')

# 사용하는 원소의 갯수가 정해저 있기 때문에 reshape 명령의 형태 튜플의 원소 중 하나는 -1이라는 숫자로 대체할 수 있음
# -1을 넣으면 해당 숫자는 다를 값에서 계산되어 사용
c = a.reshape(3, -1)
print(c)
print('\n')

d = a.reshape(2, 2, -1)
print(d)
print('\n')

e = a.reshape(2, -1, 2)
print(e)
print('\n')

# 다차원 배열을 무조건 1차원으로 펼치기 위해서는 flatten 나 ravel 메서드를 사용
print(a.flatten())
print(a.ravel())
print('\n')


# 길이가 5인 1차원 배열과 행, 열의 갯수가 (5,1)인 2차원 배열 또는 행, 열의 갯수가 (1, 5)인 2차원 배열은 데이터가 같아도 엄연히 다른 객체
# 길이가 5인 1차원 배열
x = np.arange(5)
print(x)
print('\n')

# 행, 열의 갯수가 (5, 1)인 2차원 배열
y = x.reshape(1, 5)
print(y)
print('\n')

# 행, 열의 갯수가 (1, 5)인 2차원 배열
z = x.reshape(5, 1)
print(z)
print('\n')


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


[[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]


[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]


[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
[0 1 2 3 4]


[[0 1 2 3 4]]


[[0]
 [1]
 [2]
 [3]
 [4]]




In [21]:
# 배열 요소의 반복
# Numpy의 repeat 함수는 3개의 인자를 가지는데, 첫번째는 반복하고자 하는 데이터, 두번째는 반복 횟수, 세번째는 반복하고자 하는 축(Axis)
# 간단히 참고용으로 보자

a = np.repeat(3, 4)
print(a)
print('\n')

x = np.array([[1, 2],[3, 4]])
b = np.repeat(x, 2)
print(b)
print('\n')

c = np.repeat(x, 3, axis=1)
print(c)
print('\n')

d = np.repeat(x, 3, axis=0)
print(d)
print('\n')

# e = np.repeat(x, [1, 2], axis=0)
# print(e)
# print('\n')

# f = np.repeat(x, [1, 2], axis=1)
# print(f)
# print('\n')

[3 3 3 3]


[1 1 2 2 3 3 4 4]


[[1 1 1 2 2 2]
 [3 3 3 4 4 4]]


[[1 2]
 [1 2]
 [1 2]
 [3 4]
 [3 4]
 [3 4]]




In [23]:
a1 = np.ones((2, 3))
a2 = np.zeros((2, 2))
b1 = np.ones((2, 3))
b2 = np.zeros((3, 3))
c1 = np.ones((3, 4))
c2 = np.zeros((3, 4))


# 배열을 연결하는 다양한 메서드

# hstack 명령은 행의 수가 같은 두 개 이상의 배열을 옆으로 연결하여 열의 수가 더 많은 배열을 만든다. 
# 연결할 배열은 하나의 리스트에 담아야 한다.
print(np.hstack([a1, a2]))
print('\n')

# vstack 명령은 열의 수가 같은 두 개 이상의 배열을 위아래로 연결하여 행의 수가 더 많은 배열을 만든다. 
# 연결할 배열은 마찬가지로 하나의 리스트에 담아야 한다.
print(np.vstack([b1, b2]))
print('\n')

# dstack 명령은 제3의 축 즉, 행이나 열이 아닌 깊이(depth) 방향으로 배열을 합친다. 가장 안쪽의 원소의 차원이 증가한다. 
# 즉 가장 내부의 숫자 원소가 배열이 된다. shape 정보로 보자면 가장 끝에 값이 2인 차원이 추가되는 것이다.
# 이 예제의 경우에는 shape 변화가 2개의 (3 x 4) -> 1개의 (3 x 4 x 2)가 된다.
print(np.dstack([c1, c2]))
print((np.dstack([c1, c2])).shape)
print('\n')

# stack 명령은 dstack의 기능을 확장한 것으로 dstack처럼 마지막 차원으로 연결하는 것이 아니라 사용자가 지정한 차원(축으로) 배열을 연결한다.
# axis 인수(디폴트 0)를 사용하여 연결후의 회전 방향을 정한다. 디폴트 인수값은 0이고 가장 앞쪽에 차원이 생성된다. 
# 즉, 배열 두 개가 겹치게 되므로 연결하고자 하는 배열들의 크기가 모두 같아야 한다.
# 다음 예에서는 axis=0 이므로 가장 앞값에 값이 2인 차원이 추가된다. 즉, shape 변화는 2개의 (3 x 4) -> 1개의 (2 x 3 x 4) 이다.
print(np.stack([c1, c2]))
print((np.stack([c1, c2])).shape)
print('\n')

# axis 인수가 1이면 두번째 차원으로 새로운 차원이 삽입된다. 다음 예에서 즉, shape 변화는 2개의 (3 x 4) -> 1개의 (3 x 2 x 4) 이다
print(np.stack([c1, c2], axis=1))
print((np.stack([c1, c2], axis=1)).shape)
print('\n')


[[1. 1. 1. 0. 0.]
 [1. 1. 1. 0. 0.]]


[[1. 1. 1.]
 [1. 1. 1.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


[[[1. 0.]
  [1. 0.]
  [1. 0.]
  [1. 0.]]

 [[1. 0.]
  [1. 0.]
  [1. 0.]
  [1. 0.]]

 [[1. 0.]
  [1. 0.]
  [1. 0.]
  [1. 0.]]]
(3, 4, 2)


[[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]]
(2, 3, 4)


[[[1. 1. 1. 1.]
  [0. 0. 0. 0.]]

 [[1. 1. 1. 1.]
  [0. 0. 0. 0.]]

 [[1. 1. 1. 1.]
  [0. 0. 0. 0.]]]
(3, 2, 4)




In [24]:
# r_ 메서드는 hstack 명령과 비슷하게 배열을 좌우로 연결한다. 다만 메서드임에도 불구하고 소괄호(parenthesis, ())를 사용하지 않고 
# 인덱싱과 같이 대괄호(bracket, [])를 사용한다. 이런 특수 메서드를 인덱서(indexer)라고 한다.
print(np.r_[np.array([1, 2, 3]), np.array([4, 5, 6])])

# c_ 메서드는 배열의 차원을 증가시킨 후 좌우로 연결한다. 만약 1차원 배열을 연결하면 2차원 배열이 된다.
print(np.c_[np.array([1, 2, 3]), np.array([4, 5, 6])])

# tile 명령은 동일한 배열을 반복하여 연결한다.
a = np.array([[0, 1, 2], [3, 4, 5]])
print(np.tile(a, 2))
print(np.tile(a, (3, 2)))


[1 2 3 4 5 6]
[[1 4]
 [2 5]
 [3 6]]
[[0 1 2 0 1 2]
 [3 4 5 3 4 5]]
[[0 1 2 0 1 2]
 [3 4 5 3 4 5]
 [0 1 2 0 1 2]
 [3 4 5 3 4 5]
 [0 1 2 0 1 2]
 [3 4 5 3 4 5]]


### numpy를 이용한 2차원 그리드 포인트 생성

- 변수가 2개인 2차원 함수의 그래프를 그리거나 표를 작성하려면 2차원 영역에 대한 (x,y) 좌표값 쌍 

- 즉, 그리드 포인트(grid point)를 생성하여 각 좌표에 대한 함수 값을 계산해야 한다. 

- 예를 들어 x, y 라는 두 변수를 가진 함수에서 x가 0부터 2까지, y가 0부터 4까지의 사각형 영역에서 변화하는 과정을 보고 싶다면 이 사각형 영역 안의 다음과 같은 그리드 포인트들에 대해 함수를 계산해야 한다.

    - (x,y)=(0,0),(0,1),(0,2),(0,3),(0,4),(1,0),⋯(2,4)
 
- 이러한 그리드 포인트를 만드는 과정을 도와주는 것이 meshgrid 명령이다. 

- meshgrid 명령은 사각형 영역을 구성하는 가로축의 점들과 세로축의 점을 나타내는 두 벡터를 인수로 받아서 이 사각형 영역을 이루는 조합을 출력한다. 

- 결과는 그리드 포인트의 x 값만을 표시하는 행렬과 y 값만을 표시하는 행렬 두 개로 분리하여 출력한다.

In [24]:
x = np.arange(3)
y = np.arange(5)

X, Y = np.meshgrid(x, y)

print(X)
print(Y)
print('\n')

print([list(zip(x, y)) for x, y in zip(X, Y)])

[[0 1 2]
 [0 1 2]
 [0 1 2]
 [0 1 2]
 [0 1 2]]
[[0 0 0]
 [1 1 1]
 [2 2 2]
 [3 3 3]
 [4 4 4]]


[[(0, 0), (1, 0), (2, 0)], [(0, 1), (1, 1), (2, 1)], [(0, 2), (1, 2), (2, 2)], [(0, 3), (1, 3), (2, 3)], [(0, 4), (1, 4), (2, 4)]]


## 난수 생성

In [1]:
# 먼저 numpy random 말고 그냥 random 수를 생성하는 법
# Python에서는 random 모듈로 난수 생성을 할 수 있다(정확히는 pseudo-random number).

import random

# 경우에 따라서(보통 디버깅 등을 위해 ) 동일한 순서로 난수를 발생시켜야 할 경우가 있다. 난수 발생을 위해서는 적절한 시드(seed)를 난수발생기에 주어야 한다. 만약 시드가 같다면 동일한 난수를 발생시키게 된다. random.seed(a=None)을 통해 시드를 설정할 수 있다.

random.seed(0)

# random.random()은 [0,1) 사이의 실수로 난수를 구함
print(random.random())

# random.ranint(a,b) 는 [a,b] 사이의 정수로 난수를 구함
print(random.randint(0,10))

# random.randrange(a,b) 는 [a,b) 사이이 정수로 난수를 구함
print(random.randrange(0,10))

# random.random()을 이용해 구현한 함수로 [a,b] 사이에 실수형 난수를 발생
print(random.uniform(0,10))

# random.random()과 random.uniform(a,b)은 uniform distribution에 따르는 난수발생이며, 이외에도
# random.triagular(low,high,mode), random.betavariate(alpha,beta), random.expovariate(lambd)등 다양한 분포에 따른 난수 생성이 가능


0.04224294228779424
8
9
3.507878090817763


In [25]:
# numpy random 관련 메서드들 모음

import numpy as np
# np.random.seed(0) 하면 시드에 들어가는 수를 기준으로 난수처럼 보이는 수열 생성
np.random.seed(0)

# np.random.normal (loc=0.0, scale=1.0, size=None) : 정규 분포 확률 밀도에서 표본 추출, loc: 정규 분포의 평균, scale: 표준편차
mean = 0
std = 1
a = np.random.normal(mean, std, (2, 3))
print(a)
print('\n')

# np.random.rand: size 지정해서 [0., 1.)의 균등 분포(Uniform Distribution) 형상으로 표본 추출
a = np.random.rand(3,2)
print(a)
print('\n')

# np.random.randn: size 지정해서 가우시안 표준 정규 분포 (표준 정규 분포, standard normal distribution)에서 표본 추출
a = np.random.randn(2, 4)
print(a)
print('\n')

# np.random.randint: size 지정해서 low 부터 high 미만의 범위에서 균일 분포의 정수 난수 표본 추출
a = np.random.randint(5, 10, size=(2, 4))
print(a)
print('\n')

# np.random.random 에 대해서  : https://stackoverflow.com/questions/47231852/np-random-rand-vs-np-random-random
# 난수: size 지정해서 [0., 1.)의 균등 분포(Uniform Distribution)에서 표본 추출
# np.random.sample 과 동일

# m by n 은 random((m,n))으로 tuple로 넘겨줌. random(m)이면 m by 1 column vector 
# m by n 은 random.rand(m,n) 그리고 이건 정수 난수
a = np.random.random((2, 4))
print(a)
a = np.random.random(4)
print(a)
print('\n')


[[ 1.76405235  0.40015721  0.97873798]
 [ 2.2408932   1.86755799 -0.97727788]]


[[0.43758721 0.891773  ]
 [0.96366276 0.38344152]
 [0.79172504 0.52889492]]


[[ 0.76103773  0.12167502  0.44386323  0.33367433]
 [ 1.49407907 -0.20515826  0.3130677  -0.85409574]]


[[6 6 5 7]
 [9 8 8 7]]


[[0.45615033 0.56843395 0.0187898  0.6176355 ]
 [0.61209572 0.616934   0.94374808 0.6818203 ]]
[0.3595079  0.43703195 0.6976312  0.06022547]




In [27]:
# numpy random 데이터 샘플링

# 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 샘플링(sampling)이라고 한다. 샘플링에는 choice 명령을 사용한다. choice 명령은 다음과 같은 인수를 가질 수 있다.
# numpy.random.choice(a, size=None, replace=True, p=None)

# a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
# size : 정수. 샘플 숫자
# replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능
# p : 배열. 각 데이터가 선택될 수 있는 확률
x = np.arange(10)
np.random.shuffle(x) # 데이터 셔플
print(x)
print('\n')

print(np.random.choice(5, 5, replace=False))  # shuffle 명령과 같다. 5개만 선택
print(np.random.choice(4, 10, p=[0.1, 0, 0.3, 0.6]))  # 선택 확률을 다르게 해서 10개 선택

[1 2 5 0 8 3 7 9 6 4]


[0 1 2 3 4]
[2 3 2 3 3 3 0 3 3 3]


In [28]:
# numpy 배열을 사용할 때 얻을 수 있는 성능 향상을 살펴보자.
# 5000 by 5000 원소를 가진 행렬/배열을 표준정규분포 난수를 사용하여 생성해보자. 그리고 이 배열의 모든 원소의 합을 구해보자.

import random
from functools import reduce

I = 5000

# 중첩 리스트 컴프리헨션을 사용해서 생성 (생성에 걸리는 시간 출력)
%time mat = [[random.gauss(0, 1) for j in range(I)] for i in range(I)]

# 함수형 프로그래밍을 사용해서 배열의 모든 원소의 합 계산 (계산에 걸리는 시간 출력)
%time reduce(lambda x,y : x+y, [reduce(lambda x,y : x+y, row) for row in mat])

Wall time: 2min 21s
Wall time: 15.7 s


-9767.97611461076

In [29]:
# numpy를 사용하여 5000 by 5000 표준정규분포 난수 원소를 가진 행렬/배열을 생성 (생성에 걸리는 시간 출력)
%time mat = np.random.standard_normal((I, I))

# 배열의 모든 원소의 합 계산 (계산에 걸리는 시간 출력)
%time mat.sum()

Wall time: 6.65 s
Wall time: 439 ms


2451.4443495397268