# NumPy - Practice

[NumPy Documentation](https://docs.scipy.org/doc/numpy/index.html)

## Coverage

- DataTypes & Attributes
- Creating arrays
- Viewing arrays & matrices (indexing)
- Manipulating & Comparing arrays
- Sorting arrays

## 0. Import Numpy

In [10]:
import numpy as np
import pandas as pd

## 1. DataTypes and Attributes

<img src="../images/numpy-anatomy-of-an-array-updated.png" alt="anatomy of a numpy array"/>

In [43]:
a1 = np.array([1, 2, 3]) # 1D array

a2 = np.array([[1, 2, 3.3],
               [4, 5, 6.5]]) # 2D array

a3 = np.array([[[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]],
                [[10, 11, 12],
                 [13, 14, 15],
                 [16, 17, 18]]]) # 3D array

In [4]:
a3.shape # 모양 (각 차원의 크기)

(2, 3, 3)

In [5]:
a3.ndim # 차원

3

In [6]:
a3.size # 전체 원소 개수

18

In [8]:
type(a3) # array = numpy.ndarray

numpy.ndarray

In [9]:
a3

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9]],

       [[10, 11, 12],
        [13, 14, 15],
        [16, 17, 18]]])

### 1.1. Pandas DataFrame out of NumPy arrays

In [11]:
df = pd.DataFrame(np.random.randint(10, size=(5, 3)), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,5,8,8
1,8,9,5
2,3,9,8
3,6,4,4
4,5,5,7


In [13]:
a2_df = pd.DataFrame(a2)
a2_df

Unnamed: 0,0,1,2
0,1.0,2.0,3.3
1,4.0,5.0,6.5


## 2. Creating Arrays

- `np.array()`
- `np.ones()`
- `np.zeros()`
- `np.random.rand(5, 3)`
- `np.random.randint(10, size=5)`
- `np.random.seed()`

In [14]:
simple_array = np.array([1, 2, 3])
simple_array

array([1, 2, 3])

In [15]:
simple_array.dtype

dtype('int64')

In [16]:
ones = np.ones((10, 2))
ones

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

In [20]:
ones.dtype # ones는 int가 아닌 float임

dtype('float64')

In [21]:
ones.astype(int) # int로 바꿔 선언하고 싶으면 .astype() 사용

array([[1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1],
       [1, 1]])

In [22]:
zeros = np.zeros((5, 3, 3))
zeros

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

In [23]:
zeros.dtype # zeros도 마찬가지로 int 아닌 float로 선언됨

dtype('float64')

In [24]:
range_array = np.arange(0, 10, 2) # 0부터 9까지, interval=2
range_array

array([0, 2, 4, 6, 8])

In [30]:
randint_array = np.random.randint(10, size=(5, 3)) # 10 미만의 (5, 3) 크기 array
randint_array

array([[6, 0, 1],
       [7, 8, 8],
       [5, 6, 4],
       [0, 7, 8],
       [3, 7, 7]])

In [31]:
random_array = np.random.random(size=(5, 3)) # 0초과 1미만의 실수 배열
random_array

array([[0.21204465, 0.43152619, 0.44647738],
       [0.39941728, 0.09365795, 0.75467202],
       [0.08528931, 0.45723003, 0.21526279],
       [0.55425209, 0.88786659, 0.81305238],
       [0.74806125, 0.67731348, 0.03650975]])

In [35]:
np.random.seed(42)
print(np.random.randint(10, size=(5, 3)))
print()
np.random.seed(42) # 시드를 고정하면 같은 랜덤값 생성
print(np.random.randint(10, size=(5, 3)))

[[6 3 7]
 [4 6 9]
 [2 6 7]
 [4 3 7]
 [7 2 5]]

[[6 3 7]
 [4 6 9]
 [2 6 7]
 [4 3 7]
 [7 2 5]]


In [42]:
np.unique(a3) # 배열 내 unique value 탐색

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18])

## 3. Viewing Arrays and Matrices (Indexing)

In [54]:
print(a1)
print('---')
print(a1[0])

[1 2 3]
---
1


In [55]:
print(a2)
print('---')
print(a2[0])

[[1.  2.  3.3]
 [4.  5.  6.5]]
---
[1.  2.  3.3]


In [57]:
print(a3)
print('---')
print(a3[0])
print('---')
print(a3[:2, :2, :2])

[[[ 1  2  3]
  [ 4  5  6]
  [ 7  8  9]]

 [[10 11 12]
  [13 14 15]
  [16 17 18]]]
---
[[1 2 3]
 [4 5 6]
 [7 8 9]]
---
[[[ 1  2]
  [ 4  5]]

 [[10 11]
  [13 14]]]


In [59]:
a4 = np.random.randint(10, size=(2, 3, 4, 5))
a4

array([[[[9, 8, 4, 5, 3],
         [9, 6, 8, 6, 0],
         [0, 8, 8, 3, 8],
         [2, 6, 5, 7, 8]],

        [[4, 0, 2, 9, 7],
         [5, 7, 8, 3, 0],
         [0, 9, 3, 6, 1],
         [2, 0, 4, 0, 7]],

        [[0, 0, 1, 1, 5],
         [6, 4, 0, 0, 2],
         [1, 4, 9, 5, 6],
         [3, 6, 7, 0, 5]]],


       [[[7, 4, 3, 1, 5],
         [5, 0, 8, 5, 2],
         [3, 3, 2, 9, 2],
         [2, 3, 6, 3, 8]],

        [[0, 7, 6, 1, 7],
         [0, 8, 8, 1, 6],
         [9, 2, 6, 9, 8],
         [3, 0, 1, 0, 4]],

        [[4, 6, 8, 8, 2],
         [2, 2, 3, 7, 5],
         [7, 0, 7, 3, 0],
         [7, 3, 5, 7, 3]]]])

In [60]:
a4.shape

(2, 3, 4, 5)

- 가장 안쪽 배열 크기: 5 -> 2로 조정하는 경우 가장 안쪽 배열 크기가 2로 변함
- 안쪽 두 번째 배열 크기: 4
- 바깥쪽 두 번째 배열 크기: 3
- 가장 바깥쪽 배열 크기: 2

In [62]:
a4[:, :, :, :2]

array([[[[9, 8],
         [9, 6],
         [0, 8],
         [2, 6]],

        [[4, 0],
         [5, 7],
         [0, 9],
         [2, 0]],

        [[0, 0],
         [6, 4],
         [1, 4],
         [3, 6]]],


       [[[7, 4],
         [5, 0],
         [3, 3],
         [2, 3]],

        [[0, 7],
         [0, 8],
         [9, 2],
         [3, 0]],

        [[4, 6],
         [2, 2],
         [7, 0],
         [7, 3]]]])

## 4. Manipulating and comparying arrays
- Arithmetic
    - `+`, `-`, `*`, `/`, `//`, `**`, `%`
    - `np.exp()`
    - `np.log()`
    - `np.dot()`
    - Broadcasting
- Aggregation
    - `np.sum()` - Faster than `.sum()`
    - `np.mean()`
    - `np.std()`
    - `np.var()`
    - `np.min()`
    - `np.max()`
    - `np.argmin()` - Index of minimum value
    - `np.argmax()` - Index of maximum value
    - `array.min(axis=0)` -- Can use axis as well
- Reshape
    - `np.reshape()`
- Transpose
    - `a3.T` 
- Comparison operators
    - `>`
    - `<`
    - `<=`
    - `>=`
    - `x != 3`
    - `x == 3`
    - `np.sum(x > 3)`

### 4.1. Arithmetic

In [63]:
print(a1)
print('---')
print(a1 + np.ones(3))
print('---')
print(a1 * np.ones(3))

[1 2 3]
---
[2. 3. 4.]
---
[1. 2. 3.]


In [64]:
print(a1.shape, a2.shape)
print('---')
print(a1 * a2)

(3,) (2, 3)
---
[[ 1.   4.   9.9]
 [ 4.  10.  19.5]]


In [66]:
print(a2 * a3) # 어떻게 해도 크기를 맞춰서 곱할 수 없어 error 발생 (broadcasting 불가)

ValueError: operands could not be broadcast together with shapes (2,3) (2,3,3) 

#### Arithmetic - Broadcasting

- Broadcasting 이란?
  - 데이터를 복제하지 않고 여러 차원의 데이터에 걸쳐 연산을 수행하는 NumPy의 기능
  - 이를 통해 시간과 공간을 절약할 수 있음
  - 예를 들어, 3x3 배열(A)이 있고 1x3 배열(B)을 추가하려는 경우, NumPy는 (A)의 모든 행에 (B)의 행을 추가

- Broadcasting의 규칙
  1. 두 배열의 차원 수가 다른 경우 차원이 적은 배열의 앞쪽(왼쪽)에 차원이 더해진 모양이 추가
  2. 두 배열의 모양이 어떤 차원에서도 일치하지 않으면 해당 차원에서 1과 같은 모양을 가진 배열이 다른 모양과 일치하도록 늘어남
  3. 어떤 차원에서도 크기가 일치하지 않고 둘 다 1이 아닌 경우 오류가 발생
  - 즉, 브로드캐스트하려면 연산에서 두 배열의 후행 축의 크기가 같거나 둘 중 하나가 1이어야만 함

In [72]:
print(a1) 
print('shape:', a1.shape)
print('---')
print(a2)
print('shape:', a2.shape)

[1 2 3]
shape: (3,)
---
[[1.  2.  3.3]
 [4.  5.  6.5]]
shape: (2, 3)


In [74]:
print(a2 + 2) # Broadcasting을 통해 모든 원소에 +2

[[3.  4.  5.3]
 [6.  7.  8.5]]


In [79]:
print(a2 ** 2)
print('---')
print(np.square(a2)) # np.log(), np.exp() 모두 동일하게 원소별 계산 가능

[[ 1.    4.   10.89]
 [16.   25.   42.25]]
---
[[ 1.    4.   10.89]
 [16.   25.   42.25]]


In [77]:
print(a2 // a1) # Broadcasting을 통해 행별 연산

[[1. 1. 1.]
 [4. 2. 2.]]


#### Arithmetic - Dot product

In [104]:
mat1 = np.random.randint(10, size=(4, 3))
mat2 = np.random.randint(10, size=(3, 2))
mat1.shape, mat2.shape

((4, 3), (3, 2))

In [106]:
np.dot(mat1, mat2).shape

(4, 2)

### 4.2. Aggregation

In [82]:
np.sum(a2)

21.8

In [83]:
np.mean(a2)

3.6333333333333333

In [84]:
np.max(a2)

6.5

In [85]:
np.min(a2)

1.0

In [88]:
print(np.std(a2))
print('---')
print(np.var(a2))
print('---')
print(np.sqrt(np.var(a2)))

1.8226964152656422
---
3.3222222222222224
---
1.8226964152656422


In [87]:
np.var(a2)

3.3222222222222224

### 4.3. Reshape

In [92]:
a2.shape, a3.shape

((2, 3), (2, 3, 3))

In [89]:
a2 + a3

ValueError: operands could not be broadcast together with shapes (2,3) (2,3,3) 

In [96]:
a2.reshape(2, 3, 1)

array([[[1. ],
        [2. ],
        [3.3]],

       [[4. ],
        [5. ],
        [6.5]]])

In [95]:
a2.reshape(2, 3, 1) + a3

array([[[ 2. ,  3. ,  4. ],
        [ 6. ,  7. ,  8. ],
        [10.3, 11.3, 12.3]],

       [[14. , 15. , 16. ],
        [18. , 19. , 20. ],
        [22.5, 23.5, 24.5]]])

### 4.4. Transpose

In [99]:
print(a2)
print('---')
print(a2.T)

[[1.  2.  3.3]
 [4.  5.  6.5]]
---
[[1.  4. ]
 [2.  5. ]
 [3.3 6.5]]


In [100]:
print(a2.shape)
print('---')
print(a2.T.shape)

(2, 3)
---
(3, 2)


In [102]:
high_dim_array = np.random.random(size=(3, 4, 5))
high_dim_array.shape

(3, 4, 5)

In [103]:
high_dim_array.T.shape

(5, 4, 3)

### 4.5. Comparison Operators

In [107]:
a1, a2

(array([1, 2, 3]),
 array([[1. , 2. , 3.3],
        [4. , 5. , 6.5]]))

In [110]:
a1 > 2

array([False, False,  True])

In [109]:
a1 >= a2

array([[ True,  True, False],
       [False, False, False]])

In [111]:
a1 == a2

array([[ True,  True, False],
       [False, False, False]])

## 5. Sorting Arrays

In [112]:
random_array

array([[0.21204465, 0.43152619, 0.44647738],
       [0.39941728, 0.09365795, 0.75467202],
       [0.08528931, 0.45723003, 0.21526279],
       [0.55425209, 0.88786659, 0.81305238],
       [0.74806125, 0.67731348, 0.03650975]])

In [114]:
np.sort(random_array) # 각 행별로 sort

array([[0.21204465, 0.43152619, 0.44647738],
       [0.09365795, 0.39941728, 0.75467202],
       [0.08528931, 0.21526279, 0.45723003],
       [0.55425209, 0.81305238, 0.88786659],
       [0.03650975, 0.67731348, 0.74806125]])

In [115]:
np.argsort(random_array)

array([[0, 1, 2],
       [1, 0, 2],
       [0, 2, 1],
       [0, 2, 1],
       [2, 1, 0]])

In [119]:
np.argmax(random_array) # 11번째 원소(3, 1)가 가장 큼

10

In [120]:
np.argmin(random_array) # 15번째 원소(4, 2)가 가장 작음

14