# Numpy

Numpy는 Numerical Python의 줄임말로, 파이썬에서 산술 계산을 위한 가장 중요한 패키지 중 하나입니다. 과학 계산을 위한 대부분의 패키지는 Numpy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용합니다.

### Numpy 라이브러리 import

In [None]:
import numpy as np

### Numpy ndarray
Numpy의 핵심 기능 중 하나는 ndarray라고 하는 N차원의 배열 객체인데 파이썬에서 할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조입니다.

In [None]:
a = np.array([1, 2, 3])
print(a, type(a))

### List와 비교

In [None]:
L = [1, 2, 3]
A = np.array([1, 2, 3])
print(L)
print(A)

In [None]:
A

In [None]:
for item in L:
  print(item)

In [None]:
for item in A:
  print(item)

In [None]:
L.append(4)
print(L)

In [None]:
A = A.append(4)
print(A)

In [None]:
A = np.append(A, 4)
print(A)

In [None]:
L = L + [5]
print(L)

In [None]:
A = A + np.array([5])
print(A)

In [None]:
# list의 모든 원소를 2배로 만들기
L = [1, 2, 3]
L2 = []
for item in L:
  L2.append(item*2)
print(L2)

In [None]:
# ndarray의 모든 원소 2배로 만들기
A = np.array(L)
A2 = A*2
print(A2)

In [None]:
L * 2

### 배열
numpy 배열은 모두 같은 유형의 값이며 음수가 아닌 정수의 튜플로 인덱싱됩니다. 차원의 수는 배열의 랭크입니다. 배열의 shape은 각 차원별 배열 크기의 튜플입니다.
중첩 된 파이썬 리스트로부터 numpy 배열을 초기화 할 수 있고 대괄호를 사용하여 요소에 접근 할 수 있습니다. 

#### 배열 생성하기

In [None]:
a = np.array([1, 2, 3])
print(a)
print(type(a), a.ndim, a.shape, a.dtype)

In [None]:
b = np.asarray(a)
print(b)

In [None]:
b[0] = 9
print(a)
print(b)

In [None]:
c = np.array(a)
print(c)

In [None]:
c[0] = 1
print(a)
print(b)
print(c)

In [None]:
a = np.zeros((3,4))
print(a)

In [None]:
b = np.ones((5,2))
print(b)

In [None]:
c = np.full((2,3), 4)
print(c)

In [None]:
d = np.empty((3,3))
print(d)

In [None]:
e = np.zeros_like(a)
f = np.ones_like(a)
g = np.full_like(a, 2)
h = np.empty_like(a)
print(e)
print(f)
print(g)
print(h)

In [None]:
i = np.eye(3)
j = np.identity(3)
print(i)
print(j)

In [None]:
k = np.arange(10)
print(k)

In [None]:
# uniform distribution
l = np.random.rand(2,2)
print(l)

In [None]:
# normal distribution
m = np.random.randn(2,2)
print(m)

#### 배열의 dtype

In [None]:
 a = np.array([1, 2, 3])
 b = np.array([1, 2, 3], dtype=np.float64)
 c = np.array([1, 2, 3], dtype=np.int32)

 print(a.dtype, b.dtype, c.dtype)

In [None]:
d = np.array([1, 2, 3], dtype='i1')
e = np.array([1, 2, 3], dtype='i2')
f = np.array([1, 2, 3], dtype='i4')
g = np.array([1, 2, 3], dtype='i8')

print(d.dtype, e.dtype, f.dtype, g.dtype)

In [None]:
d = np.array([1, 2, 3], dtype='u1')
e = np.array([1, 2, 3], dtype='u2')
f = np.array([1, 2, 3], dtype='u4')
g = np.array([1, 2, 3], dtype='u8')

print(d.dtype, e.dtype, f.dtype, g.dtype)

In [None]:
h = np.array([1, 2, 3], dtype='f2')
i = np.array([1, 2, 3], dtype='f4')
j = np.array([1, 2, 3], dtype='f8')
k = np.array([1, 2, 3], dtype='f16')

print(h.dtype, i.dtype, j.dtype, k.dtype)

In [None]:
# h = np.array([1, 2, 3], dtype='f2')
i = np.array([1, 2, 3], dtype='f')
j = np.array([1, 2, 3], dtype='d')
k = np.array([1, 2, 3], dtype='g')

print(h.dtype, i.dtype, j.dtype, k.dtype)

In [None]:
i = i.astype(np.int32)
print(i.dtype)

In [None]:
j = j.astype(i.dtype)
print(j.dtype)

### 배열 indexing(색인)과 slicing(슬라이싱)



#### indexing, slicing 기본

In [None]:
a = np.arange(10)
print(a)

In [None]:
# indexing
print(a[5])

In [None]:
# slicing
print(a[5:8])

In [None]:
print(a[-1])

In [None]:
print(a[7:-1])

In [None]:
a[5:8] = 10
print(a)

#### indexing과 slicing의 차이
indexing을 사용하면 항상 랭크가 감소합니다. 반면에 slicing을 사용하면 차원이 유지됩니다.

In [None]:
b = np.arange(1, 13)
# b = b.reshape(3, 4)
print(b)
print(b.shape)
print(b.ndim)

In [None]:
indexing = b[1]
slicing = b[1:2]
print(indexing, indexing.shape, indexing.ndim)
print(slicing, slicing.shape, slicing.ndim)

이것은 indexing과 slicing을 함께 사용할 때도 마찬가지입니다. indexing의 개수만큼 랭크는 감소합니다.

In [None]:
b = b.reshape(3, 4)
print(b)
print(b.shape)
print(b.ndim)

In [None]:
row_r1 = b[1, :]
row_r2 = b[1:2, :]
print(row_r1, row_r1.shape, row_r1.ndim)
print(row_r2, row_r2.shape, row_r2.ndim)

#### slicing examples

In [None]:
c = np.arange(24).reshape(2,3,4)
print(c)
print(c.shape)

In [None]:
print(c[:,:,:1])
print(c[...,:1])

In [None]:
print(c[0:1])
print(c[0::-1])

#### boolean indexing

In [None]:
print(c)

In [None]:
bool_idx = (c > 10)
print(bool_idx)

In [None]:
print(c[bool_idx])

In [None]:
c[c>10] = -1
print(c)

#### fancy indexing

In [None]:
d = np.arange(8).reshape(8,-1)
print(d, d.shape)

In [None]:
d = np.hstack((d, d, d, d))
print(d, d.shape)

In [None]:
print(d[[3, 5, 1, 0]])

In [None]:
print(d[[-3, -5, -7]])

In [None]:
e = np.arange(32).reshape(8,4)
print(e, e.shape)

In [None]:
print(e[[1,5,7,2], [0,3,1,2]])

In [None]:
print(e[[1,5,7,2]][:, [0,3,1,2]])

### Transpose

In [None]:
f = np.arange(16).reshape(2,2,4)
print(f, f.shape)

In [None]:
print(f.transpose(1, 0, 2))

In [None]:
print(f.swapaxes(0, 1))

### Numpy 연산

In [None]:
x = np.array([[1,2], [3,4]], dtype=np.float64)
y = np.array([[5,6], [7,8]], dtype=np.float64)
print(x)
print(y)

In [None]:
print(x + y)
print(np.add(x, y))

In [None]:
print(x - y)
print(np.subtract(x, y))

In [None]:
print(x * y)
print(np.multiply(x, y))

In [None]:
print(x / y)
print(np.divide(x, y))

In [None]:
print(x @ y)
print(np.matmul(x, y))

In [None]:
z = np.arange(1, 11).reshape(2, 5)
print(z)

In [None]:
print(np.sum(z))

In [None]:
sum1 = np.sum(z, axis=0)
sum2 = np.sum(z, axis=1)
sum3 = np.sum(z, axis=-1)
print(sum1, sum1.shape)
print(sum2, sum2.shape)
print(sum3, sum3.shape)

여기서 축(axis)은 각 배열의 차원에 해당되는 index 입니다.

axis=0에 대하여 sum을 하라는 것은 0번 축 혹은 차원이 없어지는 방향으로 원소들을 모두 더하라는 얘기입니다.

즉, 위 예에서 sum1의 경우, z[0,:]+z[1,:]의 연산을 하라는 의미이고,

sum2의 경우에는 z[:,0]+z[:,1]+z[:,2]+z[:,3]+z[:,4]의 연산을 하라는 의미입니다.

In [None]:
print(z[0,:] + z[1,:])

In [None]:
print(z[:,0] + z[:,1] + z[:,2] + z[:,3] + z[:,4])

### Broadcasting

Broadcasting은 numpy가 산술 연산을 수행 할 때 다른 모양의 배열로 작업 할 수있게 해주는 강력한 메커니즘입니다. 종종 더 작은 배열과 더 큰 배열이 있을 때 더 작은 배열을 여러 번 사용하여 더 큰 배열에서 어떤 연산을 수행하기를 원할 때가 있습니다.

예를 들어, 행렬의 각 행에 상수 벡터를 추가하려 한다고 가정합시다. numpy에서는 다음과 같이 할 수 있습니다.

In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
y = np.array([1,0,2])

In [None]:
print(x, x.shape)
print(y, y.shape)

In [None]:
z = x + y
print(z, z.shape)

z = x + y 는 broadcasting으로 인해 x가 shape (4, 3)이고 y가 shape (3)인데도 작동합니다. 이 행은 y가 실제로 shape (4, 3)인 것처럼 작동합니다. 각 행은 y의 사본이었고, 합계는 요소별로 수행되었습니다.

두 개의 배열을 브로드캐스팅하는 것은 다음 규칙을 따릅니다.

1. 배열의 랭크가 같지 않으면 두 모양이 같은 길이가 될 때까지 배열의 낮은 랭크쪽에 1을 붙입니다.
2. 두 배열은 차원에서 크기가 같거나 배열 중 하나의 차원에 크기가 1 인 경우 차원에서 호환 가능하다고 합니다.
3. 배열은 모든 차원에서 호환되면 함께 broadcast 될 수 있습니다.
4. Broadcast 후 각 배열은 두 개의 입력 배열의 요소 모양 최대 개수와 동일한 모양을 가진 것처럼 동작합니다.
5. 한 배열의 크기가 1이고 다른 배열의 크기가 1보다 큰 차원에서 첫 번째 배열은 마치 해당 차원을 따라 복사 된 것처럼 작동합니다

실제로 동작하는 방식을 생각해 봅시다.

1. A와 B의 모양을 생각합니다.
2. 두 배열이 len(A.shape) == len(B.shape)인지 확인을 합니다.
3. 같지 않은 경우에는 두 배열의 모양 길이가 같아질때까지 적은 쪽의 shape 앞에 1 을 추가해 줍니다.
- 예: (5,3)–>(1,5,3)
4. shape이 1인 곳은 복사가 됩니다.
- 예: shape의 변화는 아래와 같게 될겁니다.
- (5, 3)+(3,)
- (5, 3)+(1, 3)
- (5, 3) + (5, 3)
- (5, 3)

이 설명이 이해가되지 않으면 문서 또는 이 설명을 읽으십시오.

https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

http://scipy.github.io/old-wiki/pages/EricsBroadcastingDoc

Broadcasting을 지원하는 함수들을 보편 함수라고합니다. 이 문서에서 모든 보편 함수 목록을 찾을 수 있습니다.
https://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs


In [None]:
x = np.array([1,2,3]).reshape(1,3)
y = np.array([4,5]).reshape(1,2)
print(x, x.shape)
print(y, y.shape)

In [None]:
# broadcasting 조건에 맞지 않음
print(x + y)

In [None]:
y = y.swapaxes(0, 1)
print(y, y.shape)

In [None]:
# broadcasting 발생
print(x + y)

### Shape 변경

In [None]:
a = np.arange(24).reshape(2,3,4)
print(a, a.shape)

In [None]:
a = a.reshape(4, -1)
print(a, a.shape)

In [None]:
a = a[..., np.newaxis]
print(a, a.shape)

In [None]:
a = a.reshape(4, 6)
a = np.expand_dims(a, axis=0)
print(a, a.shape)

In [None]:
b = a.copy()
print(b, b.shape)

In [None]:
c = np.concatenate((a, b), axis=-1)
print(c, c.shape)

In [None]:
c = np.concatenate((a, b), axis=0)
print(c, c.shape)

In [None]:
d = np.stack((a, b), axis=-1)
print(d, d.shape)

In [None]:
d = np.stack((a, b), axis=0)
print(d, d.shape)