# Numpy 기초
## Tensor
딥러닝을 하다보면 Tensor 라는 개념이 많이 나올 것  
그 중 Tensor의 개념을 잘 이해하는 것이 중요한데,  
딥러닝에서 주로 고차원적인 데이터를 많이 사용하기 때문  

numpy는 그런 고차원적인 데이터를 다루기 쉽게 만들어져 있어 딥러닝을 하게 된다면 늘 접하게 될 것임  
Tensor에 대한 깊은 내용은 이 강의의 목표에 적합하지 않으므로 numpy를 간단하게 이해하는 정도로만 할 것

### 0차원
- numpy array는 1 또는 5, 10과 같이 숫자 데이터를 array화 해줄 수 있음

In [2]:
import numpy as np
arr = np.array(10)
arr

array(10)

- Scalar로 들어갔을 때는 shape가 아무것도 없는 것으로 나온다.

In [7]:
arr.shape

()

### 1차원
- 숫자가 10과 같이 하나만 들어간다고 해도 리스트를 한 번 띄우게 되면 차원이 생긴다.
- 이때는 1차원이 되는 건데, numpy에서 shape를 표현할 때 (1)이 아닌 (1,) 이런식으로 표현하게 됨

In [8]:
arr = np.array([10])
arr.shape

(1,)

- 주의 해야 할 것 : (1,)에서 1은 1이라는 값이 들어간 것이 아닌 shape라는 것을 명심해야함
- 1차원에 1개의 값이 들어갔다는 의미
- 해석하자면 1차원에 1개의 값(value)가 들어감

### 2차원
- 대문자를 추가적으로 씌우면 차원이 추가적으로 하나 생김

In [10]:
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr.shape

(3, 3)

- 위의 shape를 다시 보자면 차원이 2개 있고, 각 차원마다 각각 3개의 값이 들어있다고 생각하면 됨

In [12]:
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

- 참고로 0차원 숫자에 대문자에 대괄호를 2번 씌우면 두개의 차원이 됨

In [13]:
arr = np.array([[10]])
arr.shape

(1, 1)

### 다차원

In [14]:
arr = np.array([[[1, 2, 3], [4, 5, 6], [7, 8, 9]], [[1, 2, 3], [4, 5, 6], [7, 8, 9]]])
arr.shape

(2, 3, 3)

In [15]:
arr

array([[[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]],

       [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]])

In [16]:
arr = np.array([[[[1, 2, 3], [4, 5, 6], [7, 8, 9]], [[1, 2, 3], [4, 5, 6], [7, 8, 9]]], [[[1, 2, 3], [4, 5, 6], [7, 8, 9]], [[1, 2, 3], [4, 5, 6], [7, 8, 9]]]])
arr.shape

(2, 2, 3, 3)

In [17]:
arr

array([[[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]],

        [[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]],


       [[[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]],

        [[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]]])

In [18]:
arr.shape

(2, 2, 3, 3)

# Numpy 정보

## data type
- array의 dtype을 본다.

In [19]:
arr.dtype

dtype('int64')

- .astype()으로 datatype을 변경할 수 있다

In [20]:
arr = arr.astype('float32')
arr.dtype

dtype('float32')

In [21]:
np.array([1, 2, 3], dtype=np.float16)

array([1., 2., 3.], dtype=float16)

- len(arr.shape) 를 통해서 차원의 갯수를 확인 할 수 있지만,  아래와 같이 ndim을 통해 차원 수를 return 가능

In [22]:
arr.ndim

4

In [23]:
arr.size

36

In [24]:
arr.dtype

dtype('float32')

In [25]:
arr

array([[[[1., 2., 3.],
         [4., 5., 6.],
         [7., 8., 9.]],

        [[1., 2., 3.],
         [4., 5., 6.],
         [7., 8., 9.]]],


       [[[1., 2., 3.],
         [4., 5., 6.],
         [7., 8., 9.]],

        [[1., 2., 3.],
         [4., 5., 6.],
         [7., 8., 9.]]]], dtype=float32)

## Reshape

In [26]:
arr

array([[[[1., 2., 3.],
         [4., 5., 6.],
         [7., 8., 9.]],

        [[1., 2., 3.],
         [4., 5., 6.],
         [7., 8., 9.]]],


       [[[1., 2., 3.],
         [4., 5., 6.],
         [7., 8., 9.]],

        [[1., 2., 3.],
         [4., 5., 6.],
         [7., 8., 9.]]]], dtype=float32)

In [27]:
arr.reshape((4, 9))

array([[1., 2., 3., 4., 5., 6., 7., 8., 9.],
       [1., 2., 3., 4., 5., 6., 7., 8., 9.],
       [1., 2., 3., 4., 5., 6., 7., 8., 9.],
       [1., 2., 3., 4., 5., 6., 7., 8., 9.]], dtype=float32)

In [28]:
arr.reshape(-1)

array([1., 2., 3., 4., 5., 6., 7., 8., 9., 1., 2., 3., 4., 5., 6., 7., 8.,
       9., 1., 2., 3., 4., 5., 6., 7., 8., 9., 1., 2., 3., 4., 5., 6., 7.,
       8., 9.], dtype=float32)

In [29]:
data = np.random.randn(8, 8)
data.shape

(8, 8)

In [30]:
data_res = data.reshape(32, 2)
data_res.shape

(32, 2)

In [31]:
data_res = data_res.reshape(16, -1)
data_res.shape

(16, 4)

In [33]:
data_res = data_res.reshape(8, 4, -1)
data_res.shape

(8, 4, 2)

## Ravel

In [34]:
arr.shape

(2, 2, 3, 3)

- arr의 차원을 1로 바꿔줌  
- layer를 flatten 할 때 같은 기능이라 생각하면 됨

In [36]:
arr = arr.ravel()
arr

array([1., 2., 3., 4., 5., 6., 7., 8., 9., 1., 2., 3., 4., 5., 6., 7., 8.,
       9., 1., 2., 3., 4., 5., 6., 7., 8., 9., 1., 2., 3., 4., 5., 6., 7.,
       8., 9.], dtype=float32)

In [37]:
arr.shape

(36,)

- arr.reshape(-1) 와 같음

In [39]:
arr.reshape(-1)

array([1., 2., 3., 4., 5., 6., 7., 8., 9., 1., 2., 3., 4., 5., 6., 7., 8.,
       9., 1., 2., 3., 4., 5., 6., 7., 8., 9., 1., 2., 3., 4., 5., 6., 7.,
       8., 9.], dtype=float32)

## np.expand_dims()

- 안의 값은 유지하되 차원 수를 늘리고 싶을 때가 있음
- 이럴 때 사용하는 것이 expand_dims

In [41]:
arr.shape

(36,)

In [42]:
np.expand_dims(arr, -1).shape

(36, 1)

## zeros & ones

- 0혹은 1로 채워진 numpy array를 만들 수 있음

In [44]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [45]:
np.zeros([3, 3])

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [46]:
np.ones([10])

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [47]:
np.ones([3, 3]) * 9

array([[9., 9., 9.],
       [9., 9., 9.],
       [9., 9., 9.]])

In [48]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [49]:
np.zeros_like(arr)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0.], dtype=float32)

## Index

In [50]:
arr = np.arange(9).reshape(3, 3)
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [51]:
arr.shape

(3, 3)

In [52]:
arr[0][1]

1

In [53]:
arr[0, 1]

1

## Slicing

In [54]:
arr[0]

array([0, 1, 2])

In [55]:
arr[:2]

array([[0, 1, 2],
       [3, 4, 5]])

In [56]:
arr[0][1:]

array([1, 2])

In [57]:
arr[0, 1:]

array([1, 2])

## Boolean Indexing

In [58]:
data = np.random.randn(3, 3)
data

array([[-0.05953362, -0.36100587, -1.39303849],
       [ 0.72802989,  0.71778771, -0.07087262],
       [ 0.85425646,  0.28792265, -0.64018553]])

In [59]:
data > 0

array([[False, False, False],
       [ True,  True, False],
       [ True,  True, False]])

In [60]:
data[data > 0]

array([0.72802989, 0.71778771, 0.85425646, 0.28792265])

In [61]:
data[data > 0] = 1

In [62]:
data

array([[-0.05953362, -0.36100587, -1.39303849],
       [ 1.        ,  1.        , -0.07087262],
       [ 1.        ,  1.        , -0.64018553]])

## Broadcast

tensorflow나 pytorch로 계산하면 broadcast의 개념도 잘 이해해야 함  


broadcast는 연산 하려는 서로 다른 두개의 행렬의 shape가 같지 않고,    
한쪽의 차원이라도 같거나 또는 값의 갯수가 한 개 일 때 여러개의 복사를 하여 연산을 함  

In [63]:
arr + np.array([3, 10, 12])

array([[ 3, 11, 14],
       [ 6, 14, 17],
       [ 9, 17, 20]])

## Math Function

In [64]:
arr = np.array([1, 2, 3])
arr

array([1, 2, 3])

In [65]:
arr * 10

array([10, 20, 30])

In [66]:
arr + 10

array([11, 12, 13])

In [67]:
arr + arr

array([2, 4, 6])

In [68]:
arr = np.random.randint(2, size=27).reshape(3, 3, 3)
arr2 = np.random.randint(2, size=9).reshape(3, 3)
arr.shape, arr2.shape

((3, 3, 3), (3, 3))

In [69]:
arr + arr2

array([[[1, 0, 1],
        [0, 1, 2],
        [1, 2, 1]],

       [[1, 0, 1],
        [0, 0, 1],
        [0, 1, 0]],

       [[2, 1, 1],
        [0, 1, 2],
        [0, 1, 0]]])

In [70]:
arr * arr

array([[[0, 0, 1],
        [0, 1, 1],
        [1, 1, 1]],

       [[0, 0, 1],
        [0, 0, 0],
        [0, 0, 0]],

       [[1, 1, 1],
        [0, 1, 1],
        [0, 0, 0]]])

In [71]:
arr + np.array([1, 2, 3])

array([[[1, 2, 4],
        [1, 3, 4],
        [2, 3, 4]],

       [[1, 2, 4],
        [1, 2, 3],
        [1, 2, 3]],

       [[2, 3, 4],
        [1, 3, 4],
        [1, 2, 3]]])

In [72]:
arr

array([[[0, 0, 1],
        [0, 1, 1],
        [1, 1, 1]],

       [[0, 0, 1],
        [0, 0, 0],
        [0, 0, 0]],

       [[1, 1, 1],
        [0, 1, 1],
        [0, 0, 0]]])

In [73]:
np.sum(arr)

12

In [75]:
#shape를 확인하고 다시 보자
arr.shape

(3, 3, 3)

In [76]:
np.sum(arr, axis=1)

array([[1, 2, 3],
       [0, 0, 1],
       [1, 2, 2]])

In [77]:
np.max(arr)

1

In [78]:
np.min(arr)

0

In [79]:
np.max(arr,axis=1)

array([[1, 1, 1],
       [0, 0, 1],
       [1, 1, 1]])

In [80]:
np.sqrt(arr)

array([[[0., 0., 1.],
        [0., 1., 1.],
        [1., 1., 1.]],

       [[0., 0., 1.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[1., 1., 1.],
        [0., 1., 1.],
        [0., 0., 0.]]])

In [81]:
np.exp(arr)

array([[[1.        , 1.        , 2.71828183],
        [1.        , 2.71828183, 2.71828183],
        [2.71828183, 2.71828183, 2.71828183]],

       [[1.        , 1.        , 2.71828183],
        [1.        , 1.        , 1.        ],
        [1.        , 1.        , 1.        ]],

       [[2.71828183, 2.71828183, 2.71828183],
        [1.        , 2.71828183, 2.71828183],
        [1.        , 1.        , 1.        ]]])

In [82]:
x = 10
y = 40

In [84]:
np.maximum(x, y)

40

In [85]:
np.maximum(arr, np.random.randn(3, 3))

array([[[0.81594261, 0.        , 1.5903403 ],
        [0.49176076, 1.03828473, 1.        ],
        [1.        , 1.        , 1.        ]],

       [[0.81594261, 0.        , 1.5903403 ],
        [0.49176076, 1.03828473, 0.72637926],
        [0.77574922, 0.14822194, 0.        ]],

       [[1.        , 1.        , 1.5903403 ],
        [0.49176076, 1.03828473, 1.        ],
        [0.77574922, 0.14822194, 0.        ]]])

In [86]:
np.mean(arr)

0.4444444444444444

In [87]:
arr.mean()

0.4444444444444444

In [88]:
np.argmin([8, 4, 6, 3, 7, 0, 6, 4, 8, 5])

5

In [89]:
np.argmax([8, 4, 6, 3, 7, 0, 6, 4, 8, 5])

0

In [90]:
data = np.random.randn(3, 3)
data

array([[-2.14456193, -1.33879369, -1.15800055],
       [ 1.28416901, -0.35420893,  1.07973314],
       [ 1.3647328 , -0.94421876,  2.178714  ]])

In [91]:
np.argmax(data, -1)

array([2, 0, 2])

In [93]:
data = np.random.randn(3, 3, 3)
np.argmax(data)

7

In [94]:
data

array([[[ 0.12030975, -0.52223793, -1.03304991],
        [-0.1241538 , -1.252062  ,  0.37980876],
        [-1.05484651,  2.0150561 ,  0.0261142 ]],

       [[ 1.29085852,  0.00498579, -0.99019461],
        [ 0.07468284,  0.95458514,  0.06025071],
        [ 0.30734957, -0.09554551,  0.54326365]],

       [[ 0.53885165,  0.84815218,  0.36486403],
        [ 0.20670894,  0.05752602,  1.98684695],
        [-0.61757634,  1.75780064, -0.95023936]]])

In [95]:
data_w = np.where(data > 0, 5, 0)
data_w

array([[[5, 0, 0],
        [0, 0, 5],
        [0, 5, 5]],

       [[5, 5, 0],
        [5, 5, 5],
        [5, 0, 5]],

       [[5, 5, 5],
        [5, 5, 5],
        [0, 5, 0]]])

In [96]:
np.unique(data_w)

array([0, 5])

In [97]:
np.unique(data_w, return_counts=True)

(array([0, 5]), array([ 9, 18]))