# NumPy: Numerical Python

- 빠르고 메모리를 효율적으로 사용하여 벡터 산술연산과 브로드캐스팅 기능을 제어하는 다차원배열 ndarray
- 반복문을 작성할 필요없이 전체 데이터배열에 대해 빠른 연산을 제공하는 표준 수학함수
- 배열데이터를 디스크에 쓰거나 읽을 수 있는 도구, 메모리에 올려진 파일을 사용하는 도구
- 선형대수, 난수발셍기, 푸리에 변환 기능
- C, C++, 포트란으로 쓰여진 코드를 통합하는 도구

## 4.1 NumPy ndarray: 다차원 배열 객체

- 모든 원소는 같은 자료형

In [2]:
import numpy as np

In [2]:
data=np.array([[0.9526, -0.246, -0.8856],[0.5639,0.2379,0.9104]])
data

array([[ 0.9526, -0.246 , -0.8856],
       [ 0.5639,  0.2379,  0.9104]])

In [3]:
data * 10

array([[ 9.526, -2.46 , -8.856],
       [ 5.639,  2.379,  9.104]])

In [4]:
data + data

array([[ 1.9052, -0.492 , -1.7712],
       [ 1.1278,  0.4758,  1.8208]])

- shape 튜플: 각 차원의 크기
- dtype 객체: 배열의 자료형 (자료형이 명시되지 않으면 float64)

In [5]:
data.shape

(2, 3)

In [6]:
data.dtype

dtype('float64')

In [10]:
data.ndim

2

### 4.1.1 ndarray 생성: array 함수

- zeros, zero_like: 주어진 dtype과 주어진 모양의 배열 내용은 모두 0로 초기화
- ones, ones_like : 주어진 dtype과 주어진 모양의 배열 내용은 모두 1로 초기화
- empty, empty_like : 주어진 dtype과 주어진 모양의 배열 내용은 초기화하지 않음
- eye, identity: NxN 크기의 단위 행렬

In [21]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [39]:
np.zeros_like((2,5,7), float)

array([ 0.,  0.,  0.])

In [15]:
np.ones((3,6))

array([[ 1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.,  1.]])

In [37]:
np.ones_like((2,5), float)  # 실수 두 개의 원소를 가진 배열(초기값 1) 

array([ 1.,  1.])

In [36]:
np.empty((2,3,4)) # 실수를 가진 3차원(2x3x4) 배열(초기값 없음)

array([[[  1.32626335e-311,   1.32630615e-311,   1.32626330e-311,
           1.32630612e-311],
        [  1.32626578e-311,   1.32630615e-311,   1.32626330e-311,
           1.32630638e-311],
        [  1.32626578e-311,   1.32630612e-311,   1.32626330e-311,
           1.32630635e-311]],

       [[  1.32626578e-311,   1.32630631e-311,   1.32626330e-311,
           1.32630638e-311],
        [  1.32626578e-311,   1.32630631e-311,   1.32626330e-311,
           1.32630631e-311],
        [  1.32626578e-311,   1.32630631e-311,   1.32626330e-311,
           1.32630612e-311]]])

In [42]:
print(np.identity(3))
np.eye(4)

[[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]


array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

- arange: range 함수의 배열 버전

In [46]:
np.arange(1,10).reshape(3,3)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### 4.1.2 ndarray의 자료형

종류 | Type Code | 설명
-----| ----------|-----
int8, uint8 | i1, u1 | 부호 정수 8bit, unsigned 8bit 정수
int16, uint16 | i2, u2 | 부호 정수 16bit, unsigned 16bit 정수
int32, uint32 | i4, u4 | 부호 정수 32bit, unsigned 32bit 정수
int64, uint64 | i8, u8 | 부호 정수 64bit, unsigned 64bit 정수
float16 | f2 | 반정밀도 부동소수점
float32 | f4 | 단정밀도 부동소수점 (C의 float와 호환)
float64 | f8 | 배정밀도 부동소수점 (C의 double와 호환, python의 float)
float128 | f16, g | 확장정밀도 부동소수점
complex64 | c8 | 2개의 32bit 부동소수점의 복소수
complex128 | c16 | 2개의 64bit 부동소수점의 복소수
complex256 | c32 | 2개의 128bit 부동소수점의 복소수
bool | ? | True, False
object | O | python 객체형
string\_ | S | 고정길이 문자열형
unicode\_ | U | 고정길이 unicode형

- astype method: 배열의 dtype 변경

In [8]:
numeric_string = np.array(['1.25', '-9.6', '42'], dtype=np.string_)

In [9]:
numeric_string.astype(np.float64)

array([ 1.25, -9.6 , 42.  ])

In [51]:
numeric_string.astype(float)

array([  1.25,  -9.6 ,  42.  ])

In [54]:
empty_unit32 = np.empty(8, dtype='u4')
empty_unit32

array([         0, 1072693248,          0, 1072693248,          0,
       1072693248,          0, 1072693248], dtype=uint32)

### 4.1.3 배열과 scalar 간의 연산

- 벡터화: NumPy에서 배열은 for 문을 사용하지 않고 데이터를 일괄 처리
- 같은 크기의 배열 간 산술연산은 배열의 각 요소 단위로 적용
- 크기가 다른 배열 간의 연산은 broadcasting

In [54]:
arr = np.arange(1,7).reshape(2,3)

In [49]:
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [50]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [51]:
arr + arr

array([[ 2,  4,  6],
       [ 8, 10, 12]])

- scalar 값에 대한 산술연산은 각 요소로 전달

In [52]:
1/arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [53]:
arr ** .5 #루트

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [56]:
arr3d = np.array([[[1, 2, 3],[4, 5, 6]],[[7, 8, 9],[10,11,12]]])
arr3d.shape

(2, 2, 3)

In [57]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [58]:
arr3d[0][1]

array([4, 5, 6])

### 4.1.5 boolean 색인

In [61]:
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [62]:
names=='Bob'

array([ True, False, False,  True, False, False, False])

In [63]:
data = np.random.randn(7,4) # names가 7개이므로 7인 거임
data

array([[-0.01339697,  0.15526692, -0.36968882, -0.54769371],
       [-0.39172525, -0.67797443,  0.85756642, -0.82357771],
       [-0.32178481,  0.91002936,  1.00341279, -2.28042983],
       [ 0.68416257,  0.54499522,  0.01826491,  0.8031269 ],
       [ 1.40209079,  1.35831835,  0.51015894, -0.97028725],
       [ 1.05240715, -0.60208368, -0.75891847, -0.42629713],
       [ 1.37035869,  0.51456994, -0.80111178, -0.74882924]])

In [64]:
data[names=='Bob']

array([[-0.01339697,  0.15526692, -0.36968882, -0.54769371],
       [ 0.68416257,  0.54499522,  0.01826491,  0.8031269 ]])

- boolean 배열의 길이는 반드시 색인하려는 축의 길이와 동일해야 함.

In [86]:
data[names=='Bob', 2:]

array([[ 0.10875127,  0.51061776],
       [ 0.0897557 , -0.36135686]])

In [87]:
names != 'Joe'

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [89]:
data[~(names == 'Joe')]

array([[ 1.00519318, -0.04030294,  0.10875127,  0.51061776],
       [ 0.57866953,  0.54988059, -0.34365959, -1.0805405 ],
       [-1.18686664, -0.21038588,  0.0897557 , -0.36135686],
       [ 2.32755046,  0.443089  , -0.01818909,  0.48020207]])

In [91]:
mask = (names == 'Bob')|(names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [92]:
data[mask]

array([[ 1.00519318, -0.04030294,  0.10875127,  0.51061776],
       [ 0.57866953,  0.54988059, -0.34365959, -1.0805405 ],
       [-1.18686664, -0.21038588,  0.0897557 , -0.36135686],
       [ 2.32755046,  0.443089  , -0.01818909,  0.48020207]])

In [93]:
data[data<0] = 0
data

array([[ 1.00519318,  0.        ,  0.10875127,  0.51061776],
       [ 0.83432235,  0.        ,  0.77549251,  1.93837003],
       [ 0.57866953,  0.54988059,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.0897557 ,  0.        ],
       [ 2.32755046,  0.443089  ,  0.        ,  0.48020207],
       [ 0.0464845 ,  0.74695664,  0.        ,  0.        ],
       [ 0.        ,  0.5345988 ,  0.        ,  0.81897649]])

In [94]:
data[names != 'Joe'] = 7
data

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.83432235,  0.        ,  0.77549251,  1.93837003],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.0464845 ,  0.74695664,  0.        ,  0.        ],
       [ 0.        ,  0.5345988 ,  0.        ,  0.81897649]])

### 4.1.6 팬시 색인
- 정수 배열을 사용한 색인
- 서택된 데이터를 새로운 배열로 복사 

In [109]:
arr = np.empty((8,4))
for i in range(8):
    arr[i]=i
arr

array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

In [110]:
arr[[4,3,0,6]]

array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

In [113]:
arr[[-3,-5,-7]]

array([[ 5.,  5.,  5.,  5.],
       [ 3.,  3.,  3.,  3.],
       [ 1.,  1.,  1.,  1.]])

In [114]:
arr = np.arange(32).reshape((8,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [115]:
arr[[1,5,7,2],[0,3,1,2]]

array([ 4, 23, 29, 10])

In [118]:
arr[(1,5,7,2),(0,3,1,2)]

array([ 4, 23, 29, 10])

In [119]:
arr[[1,5,7,2]][:,[0,3,1,2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

In [120]:
arr[np.ix_([1,5,7,2],[0,3,1,2])]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

### 배열 전치(transpose)와 축 바꾸기
- 전치: 데이터 보양이 바뀐 view 반환

In [68]:
arr = np.arange(1,17).reshape((4,4))
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [69]:
arr.T # arr.transpose() 와 동일

array([[ 1,  5,  9, 13],
       [ 2,  6, 10, 14],
       [ 3,  7, 11, 15],
       [ 4,  8, 12, 16]])

In [70]:
np.linalg.det(arr) == np.linalg.det(arr.T)

False

- 행렬 내적: $X^{T}\cdot X$
- arr.T, arr.transpose(), arr.swapaxes()

In [71]:
arr = np.random.randn(6,3)
arr

array([[ 0.33090251,  1.39488164,  1.9427887 ],
       [-0.95858229,  0.81050968, -0.38206262],
       [ 0.53816082, -0.59198186, -0.08722293],
       [-0.719804  , -1.3136538 , -0.71204772],
       [ 0.60135769,  0.81156239, -0.30826826],
       [ 0.97585656,  0.38735536, -1.02010651]])

In [72]:
np.dot(arr.T,arr)

array([[3.15003844, 1.17766396, 0.29384982],
       [1.17766396, 5.48742726, 2.74199077],
       [0.29384982, 2.74199077, 5.57066619]])

In [74]:
arr.T.shape

(3, 6)

In [75]:
arr.transpose(1,0).shape

(3, 6)

In [76]:
arr.T == arr.transpose(1,0)

array([[ True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True]])

In [129]:
arr = np.arange(16).reshape((2,2,4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [130]:
arr.transpose(1,0,2)

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [131]:
arr.swapaxes(1,2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

* NumPy reference at http://docs.scipy.org/doc/numpy/reference/
* SciPy reference at http://docs.scipy.org/doc/scipy/reference/
* IPython Cookbook at http://ipython-books.github.io/cookbook/