#### Reference
<li><a href="https://www.numpy.org/devdocs/user/quickstart.html">Numpy official devdoc</a></li>

#### Arranged By
<li><a href="https://github.com/TheSunsik/">sunsik kim</a></li>

In [1]:
import numpy as np

# 1. The Basics
<ul>
    <li><b>Creating an Numpy array</b></li>
    <li><b>Basic operations</b></li>
    <li><b>Subsetting</b></li>
    <li><b>flat object</b></li>
</ul>

## (1) Creating an Numpy array

참고로 모든 numpy array를 생성할 때 특정한 dtype을 지정해줄 수 있음.

<ul>
    <li><b>np.array</b> : element를 특정해서 array를 생성하는 방법. list형태로 특정함</li>
    <li><b>np.ndarray</b> : dimension을 특정해서 array를 생성하는 방법. list형태로 특정함</li>
    <li><b>reshape method</b> : 이미 생성된 ndarray의 모양을 바꿔 원하는 ndarray를 얻는 방법</li>
    <li><b>np.repeat</b> : 특정 수를 n번씩 반복해서 array를 얻는 방법</li>
</ul>

In [2]:
np.array([1, 2, 3, 4, 5, 6], dtype = "float32")

array([1., 2., 3., 4., 5., 6.], dtype=float32)

In [3]:
np.ndarray([3, 5], dtype = "int32")

array([[   0,    0,    0,    0,    0],
       [   0,    0,    0,    0,    0],
       [1248,    0,    0,    0,    0]])

In [4]:
np.array([1, 2, 3, 4, 5, 6]).reshape(3, 2)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [5]:
np.repeat([1, 2, 3], 3)

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

1, 2, 3을 3번 반복하는건 list concatenation을 응용하면 된다,

In [6]:
np.array([1, 2, 3] * 3)

array([1, 2, 3, 1, 2, 3, 1, 2, 3])

<ul>
    <li><b>np.zeros</b> : dimension을 특정해서 원소가 0밖에 없는 array를 생성하는 방법</li>
    <li><b>np.ones</b> : dimension을 특정해서 원소가 1밖에 없는 array를 생성하는 방법</li>
    <li><b>np.empty</b> : dimension을 특정해서 랜덤한 원소가 들어간 array를 생성하는 방법</li>
    <li><b>np.arange</b> : 시작, 끝, 간격을 지정해서 간격이 일정한 실수열을 얻는 방법</li>
    <li><b>np.linspace</b> : 시작, 끝, 원소 개수를 지정해서 특정 길이의 실수열을 얻는 방법</li>
    <li><b>np.fromfunction</b> : (i, j)번째 원소에 (i, j)를 argument로 갖는 어떤 함수를 적용해서 지정한 dimension의 array를 생성하는 방법 </li>
</ul>

In [7]:
np.zeros([3, 5])

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [8]:
np.ones([3, 5])

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [9]:
np.empty([3, 5])

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [10]:
np.arange(start = 3, stop = 10, step = 0.5).reshape(2, 7)

array([[3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ],
       [6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5]])

In [11]:
np.linspace(0, np.pi, num = 6).reshape(2, 3)

array([[0.        , 0.62831853, 1.25663706],
       [1.88495559, 2.51327412, 3.14159265]])

In [12]:
def concat_xy(x, y):
    return 10 * x + y
np.fromfunction(concat_xy, (4, 7))

array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.],
       [10., 11., 12., 13., 14., 15., 16.],
       [20., 21., 22., 23., 24., 25., 26.],
       [30., 31., 32., 33., 34., 35., 36.]])

## (2) Basic operations

기본적인 표현은 R과 크게 다를게 없지만, 행렬 곱의 표현은 다르다.

In [13]:
np.arange(1, 5).reshape(1, 4) @ np.arange(1, 5).reshape(4, 1)

array([[30]])

### 1) Some rules regarding basic operations

#### 1/ Broadcasting

numpy array의 장점은 <b>elementwise arithmetic operation을 지원</b>한다는 것이다.

In [14]:
np.arange(1, 5) + np.arange(-1, -5, step = -1)

array([0, 0, 0, 0])

In [15]:
np.arange(1, 5) * np.arange(-1, -5, step = -1)

array([ -1,  -4,  -9, -16])

In [16]:
np.zeros(5) + 2

array([2., 2., 2., 2., 2.])

In [17]:
an_array = np.linspace(0, 6, num = 10).reshape(2, 5)
an_array *= 0; an_array += 1
an_array

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [18]:
np.arange(1, 6) < 3

array([ True,  True, False, False, False])

이는 어떤 함수를 array의 원소에 적용할때도 마찬가지다.

In [19]:
def just_another_arbitrary_function(number):
    return (number * 2 + 19 ) * 0 + 3
just_another_arbitrary_function(np.arange(1, 5))

array([3, 3, 3, 3])

#### 2/ Upcasting

dtype이 다른 array끼리 연산하면 둘 중 수 표현이 더 자세한 type으로 결과를 얻게 된다(ex. int와 float이면 float).

In [20]:
np.linspace(0, 5, 10, dtype = "int32").reshape(1, 10) + np.linspace(6, 10, 10, dtype = "float32").reshape(1, 10)

array([[ 6.        ,  6.44444466,  7.88888884,  8.33333349,  9.77777767,
        10.22222233, 11.66666698, 12.11111069, 13.55555534, 15.        ]])

In [21]:
(np.linspace(0, 5, 10, dtype = "int32").reshape(1, 10) + np.linspace(6, 10, 10, dtype = "float32").reshape(1, 10)).dtype.name

'float64'

### 2) Axis

numpy array의 method로써 정의된 함수를 사용해서 행이나 열별로 그 함수를 적용시킬 수 있다.

In [22]:
an_array = np.ones(10).reshape(2, 5); an_array

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [23]:
an_array.sum(axis = 0) # axis = 0 refers to column

array([2., 2., 2., 2., 2.])

In [24]:
an_array.cumsum(axis = 1) # axis = 1 refers to row

array([[1., 2., 3., 4., 5.],
       [1., 2., 3., 4., 5.]])

## (3) Subsetting

In [25]:
index_test = np.fromfunction(concat_xy, (4, 8))
index_test

array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.],
       [10., 11., 12., 13., 14., 15., 16., 17.],
       [20., 21., 22., 23., 24., 25., 26., 27.],
       [30., 31., 32., 33., 34., 35., 36., 37.]])

Python built-in sequence들을 indexing하듯이 하면 된다. 

In [26]:
index_test[[1, 3], ]

array([[10., 11., 12., 13., 14., 15., 16., 17.],
       [30., 31., 32., 33., 34., 35., 36., 37.]])

R과는 다르게 index자리를 비워두면 SyntaxError가 발생한다. Colon을 사용해서 그 자리를 채워야 한다.

In [27]:
index_test[, 2:]

SyntaxError: invalid syntax (<ipython-input-27-56134b7863e1>, line 1)

In [28]:
index_test[:, 2:]

array([[ 2.,  3.,  4.,  5.,  6.,  7.],
       [12., 13., 14., 15., 16., 17.],
       [22., 23., 24., 25., 26., 27.],
       [32., 33., 34., 35., 36., 37.]])

이떄 array의 차원이 커서 채울 index자리가 너무 많다면 `...`를 사용한다.

In [29]:
index_test = np.arange(1, 17).reshape(2, 2, 2, 2)
index_test

array([[[[ 1,  2],
         [ 3,  4]],

        [[ 5,  6],
         [ 7,  8]]],


       [[[ 9, 10],
         [11, 12]],

        [[13, 14],
         [15, 16]]]])

In [30]:
index_test[0, ...] # Equivalent to index_test[0,:,:,:]

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [31]:
index_test[... ,0] # Equivalent to index_test[:,:,:,0]

array([[[ 1,  3],
        [ 5,  7]],

       [[ 9, 11],
        [13, 15]]])

In [32]:
index_test[0, ... ,0] # Equivalent to index_test[0,:,:,0]

array([[1, 3],
       [5, 7]])

Numpy에서도 logical filter가 가능하다.

In [33]:
index_test[index_test > 9]

array([10, 11, 12, 13, 14, 15, 16])

## (4) flat : object for iterating

In [34]:
index_test.flatten()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

object를 생성하지 않고 iterator만 생성해서 값들을 참조할 땐 flat object를 사용할 수 있다.

In [35]:
for element in index_test.flat:
    if element % 2 == 1 and element > 8:
        print(element)

9
11
13
15


---

# 2. Shape Manipulation

<ul>
<li><b>reshape, resize</b></li>
<li><b>hstack, vstack, concatenate</b></li>
</ul>

## (1) reshape, resize

- reshape : 기존 array를 수정하지 않고 새로운 array를 만들어서 dimension을 수정
- resize : 기존 array를 수정해서 dimension을 수정

In [36]:
index_test.shape

(2, 2, 2, 2)

In [37]:
index_test.reshape(4, 4)

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [38]:
index_test.shape

(2, 2, 2, 2)

In [39]:
index_test.resize(4, 4)
index_test.shape

(4, 4)

## (2) hstack, vstack and concatenate

In [40]:
first_3by3 = np.arange(1, 10).reshape(3, 3)
second_3by3 = np.zeros(9, dtype = "int32").reshape(3, 3)

hstack은 rbind고 vstack은 cbind다. 

In [41]:
np.hstack((first_3by3, second_3by3)) # horizontally stack(in column direction)

array([[1, 2, 3, 0, 0, 0],
       [4, 5, 6, 0, 0, 0],
       [7, 8, 9, 0, 0, 0]])

In [42]:
np.vstack((first_3by3, second_3by3)) # vertically stack(in row direction)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

여기서 나아가 array를 붙이는 function을 일반화한 함수가 concatenate로, axis를 지정해서 어느 방향으로 붙일지를 결정할 수 있게 해준다. 

In [43]:
np.concatenate((first_3by3, second_3by3), axis = 0) # axis = 0 : row direction → vstack

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [44]:
np.concatenate((first_3by3, second_3by3), axis = 1) # axis = 1 : column direction → hstack

array([[1, 2, 3, 0, 0, 0],
       [4, 5, 6, 0, 0, 0],
       [7, 8, 9, 0, 0, 0]])