In [1]:
from IPython.display import HTML
HTML('''<script>
code_show=true; 
function code_toggle() {
 if (code_show){
 $('div.input').hide();
 } else {
 $('div.input').show();
 }
 code_show = !code_show
} 
$( document ).ready(code_toggle);
</script>
<form action="javascript:code_toggle()"><input type="submit" value="Click here to toggle on/off the raw code."></form>''')

# ㅁOne Point Tutorial I - `NumPY`
<p style='text-align: right;'> Python을 활용한 데이터 사이언스 </p>
<p style='text-align: right;'> December, 2019 | All rights reserved by Wooseok Song</p>

---

# 1. About NumPy

파이썬은 원래 계산에 특화된 언어가 아니다.<br>
하지만 과학계산 라이브러리 NumPy를 통해 데이터과학, 수치해석, 머신러닝 등 다양한 분야에 적용이 가능해졌다.

### !NumPy는
 1. Numerical Python의 약자로 전신은 Numerical
 2. C언어로 구현되어 빠른 처리속도 보유
 3. 2005년 Travis Oliphant가 공개
 4. 가장 주목할만한 기능은 ndarray(N-dimensional Array)를 활용한 다차원 벡터화 연산(array 내의 각 원소를 한 번에 처리)
 5. 기본적으로 array(vector) 단위로 데이터를 관리/연산
 6. Linked list 형태인 리스트 객체와 달리 np.array내 **원소의 자료형(dtype)은 하나로 고정**(R의 Matrix, Vector/Array와 비교)
 7. 이는, 원소들이 연속적인 메모리 배치를 갖으며 발생하는 현상으로, 사용은 제한적이나 빠른 내부 처리속도 보유

In [1]:
# NumPy 불러오기
import numpy as np

# 2. NumPy의 자료형(dtype)

| Data type  | Description                                                  |
| ---------- | ------------------------------------------------------------ |
| bool       | Boolean (True or False) stored as a byte                     |
| int        | Platform integer (normally either int32 or int64)            |
| int8       | Byte (-128 to 127)                                           |
| int16      | Integer (-32768 to 32767)                                    |
| int32      | Integer (-2147483648 to 2147483647)                          |
| int64      | Integer (9223372036854775808 to 9223372036854775807)         |
| uint8      | Unsigned integer (0 to 255)                                  |
| uint16     | Unsigned integer (0 to 65535)                                |
| uint32     | Unsigned integer (0 to 4294967295)                           |
| uint64     | Unsigned integer (0 to 18446744073709551615)                 |
| float      | Shorthand for float64.                                       |
| float16    | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa |
| float32    | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa |
| float64    | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa |
| complex    | Shorthand for complex128.                                    |
| complex64  | Complex number, represented by two 32-bit floats             |
| complex128 | Complex number, represented by two 64-bit floats             |
| string_    | String type                                                  |
| object     | Object type                                                  |
| unicode_   | Unicode type                                                 |

# 3. NumPy 객체의 주요 속성(attribute) - np.array(=np.ndarray) 

`ndarray.shape`
> 객체의 **행, 열 정보**를 반환(m행, n열)

`ndarray.size`
> 객체의 **크기**(# of elements)를 반환(m$\times$n)

`ndarray.dtype`
> 객체의 **data type**을 반환

`ndarray.ndim`
> 객체(배열)의 **차원**을 반환

# 4. NumPy 활용(np.array)
> 4.1. 객체 생성<br>
> 4.2. Reshape<br>
> 4.3. Indexing&Slicing을 통한 접근과 변경<br>
> 4.4. 객체 Operation<br>
> 4.5. 복수 객체 Operation<br>
> 4.6. Broadcasting<br>
> 4.7. 그 외 자주 사용하는 NumPy 함수들<br>
> 4.8. 예외값 처리

## 4.1. 객체 생성

### 4.1.1. 객체 생성 기본

In [14]:
# np 라이브러리에서 array 클래스(틀, 설계도)로 정수(integer) 1,2,3,4를 담은 객체 만들기
np_vector = np.array([1, 2, 3, 4], dtype = np.int)

# 생성된 np_vector의 attributes 확인하기
[np_vector.shape, np_vector.size, np_vector.dtype, np_vector.ndim]

[(4,), 4, dtype('int32'), 1]

In [19]:
# np 라이브러리에서 array 클래스(틀, 설계도)로 정수(integer) 1 ~ 12를 담은 객체 만들기
np_matrix = np.array([[1, 2, 3, 4],
                      [5, 6, 7, 8],
                      [9, 10, 11, 12]], dtype = np.int64)

# 생성된 np_matrix의 attributes 확인하기
[np_matrix.shape, np_matrix.size, np_matrix.dtype, np_matrix.ndim]

[(3, 4), 12, dtype('int64'), 2]

### 4.1.2. 함수를 이용해 객체 생성하는 법

In [9]:
np.ones(9)

array([1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [10]:
np.zeros(9)

array([0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [11]:
np.arange(0, 9) # [start, stop)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [24]:
np.arange(0, 9, 2)

array([0, 2, 4, 6, 8])

In [13]:
np.random.uniform(0, 1, 10)

array([0.19638858, 0.39084464, 0.99046498, 0.87997089, 0.91948237,
       0.5565053 , 0.40799965, 0.142654  , 0.57696869, 0.01586342])

In [14]:
np.random.normal(0, 1, 10)

array([ 0.31319626, -0.66104884, -0.50766262, -1.04002042,  0.31546138,
       -0.78157702, -1.04612217,  2.35724023, -1.04234794,  0.28995275])

In [15]:
np.identity(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [16]:
np.diag([1, 2, 3, 4])

array([[1, 0, 0, 0],
       [0, 2, 0, 0],
       [0, 0, 3, 0],
       [0, 0, 0, 4]])

In [50]:
np.eye(N = 3, M = 5, k = 0) # Q. k는 어떤 역할을 하는가?

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.]])

In [49]:
np.empty((5, 5))

array([[6.23042070e-307, 4.67296746e-307, 1.69121096e-306,
        4.22803078e-307, 6.23044787e-307],
       [8.45593934e-307, 7.56593017e-307, 1.33511290e-306,
        1.89146896e-307, 1.11261027e-306],
       [1.11261502e-306, 1.42410839e-306, 7.56597770e-307,
        6.23059726e-307, 1.78022342e-306],
       [6.23058028e-307, 9.34608432e-307, 1.78020848e-306,
        8.45593934e-307, 9.34611148e-307],
       [1.24610994e-306, 2.22522596e-306, 0.00000000e+000,
        8.34402697e-308, 1.95227531e-312]])

### 4.1.3. 함수에 기존 객체를 넣어서 생성하는 방법

In [32]:
np_matrix = np.array([[1, 2, 3, 4],
                      [5, 6, 7, 8],
                      [9, 10, 11, 12]], dtype = np.int)
np_matrix

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [26]:
np.ones_like(np_matrix)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

In [27]:
np.zeros_like(np_matrix)

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

In [38]:
np.diag(np_matrix, k = 1)

array([ 2,  7, 12])

## 4.2. Reshape

In [52]:
np_matrix = np.array([[1, 2, 3, 4],
                      [5, 6, 7, 8],
                      [9, 10, 11, 12]], dtype = np.int)
np_matrix

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [53]:
np_matrix.reshape(2, -1) # Q. -1은 어떤 역할을 하는가?

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [54]:
np_matrix.reshape(2, 6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

In [55]:
np_matrix.flatten() 
# np_matrix.ravel()와 같다

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [57]:
np_matrix.flatten().reshape(3,4) # 1차원 배열도 2차원 배열이 될 수 있다.

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

## 4.3. Indexing&slicing을 통한 접근과 변경

### 4.3.1. Indexing

In [58]:
np_matrix = np.array([[1, 2, 3, 4],
                      [5, 6, 7, 8],
                      [9, 10, 11, 12]], dtype = np.int)
np_matrix

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [59]:
np_matrix[1,2] # 2차원 배열의 1행 2열에 접근하는 방법1

7

In [60]:
np_matrix[1][2] # 2차원 배열의 1행 2열에 접근하는 방법2

7

In [61]:
np_matrix[1,2] = 100 # 2차원 배열의 1행 2열에 접근하여 변경하는 방법1

In [31]:
np_matrix[1][2] = 100 # 2차원 배열의 1행 2열에 접근하여 변경하는 방법2

In [62]:
np_matrix

array([[  1,   2,   3,   4],
       [  5,   6, 100,   8],
       [  9,  10,  11,  12]])

### 4.3.2. Slicing ( [출처](https://github.com/rougier/numpy-tutorial) )

![image.png](attachment:image.png)

**!!!한 번씩 슬라이싱 코드를 쳐보시기 바랍니다.**

In [75]:
Z = np.arange(1, 46).reshape(5, 9)
Z

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18],
       [19, 20, 21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34, 35, 36],
       [37, 38, 39, 40, 41, 42, 43, 44, 45]])

In [78]:
# Type code!!








### 4.3.3. Fancy indexing for 1-dim Boolean array

In [79]:
np_vector = np.arange(1,13, dtype = np.int)

In [80]:
np_vector

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [82]:
np_vector < 9

array([ True,  True,  True,  True,  True,  True,  True,  True, False,
       False, False, False])

In [81]:
np_vector[np_vector < 9]

array([1, 2, 3, 4, 5, 6, 7, 8])

### 4.3.4. Fancy indexing for 2-dim Integer array

In [83]:
np_matrix = np.array([[1, 2, 3, 4],
                      [5, 6, 7, 8],
                      [9, 10, 11, 12]], dtype = np.int)
np_matrix

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [85]:
np_matrix[[1, 2, 1], [0, 2, 3]] # (1,0), (2, 2), (1, 3) 선택

array([ 5, 11,  8])

## 4.4.  객체 operation

### 4.4.1. 1-dim array

In [86]:
np_vector = np.arange(1,13, dtype = np.int)
np_vector

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [88]:
np_vector.sum()
# 객체 내의 메소드를 사용하거나 라이브러리에서 메소드를 사용하거나 똑같다.
# np.sum(np_vector)

78

In [89]:
np_vector.mean()

6.5

In [43]:
np_vector.std()

3.452052529534663

In [90]:
np_vector.max()

12

### 4.4.2. 2-dim array

이제 우리의 연산이 어느 방향으로 진행되는 지 암시하는 axis라는 argument가 추가된다.

![image.png](attachment:image.png)

( [출처](https://stackoverflow.com/questions/17079279/how-is-axis-indexed-in-numpys-array) )

In [91]:
np_matrix = np.array([[1, 2, 3, 4],
                      [5, 6, 7, 8],
                      [9, 10, 11, 12]], dtype = np.int)
np_matrix

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [92]:
np_matrix.sum(axis = 0)

array([15, 18, 21, 24])

In [93]:
np_matrix.sum(axis = 1)

array([10, 26, 42])

## 4.5. 복수 객체 Operation

### 4.5.1. 1-dim array

In [94]:
np_vector_1 = np.arange(1,13, dtype = np.int)
np_vector_2 = np.arange(13,25, dtype = np.int)

In [49]:
np_vector_1

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [50]:
np_vector_2

array([13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24])

In [95]:
np_vector_1 + np_vector_2

array([14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36])

In [96]:
np_vector_1 - np_vector_2

array([-12, -12, -12, -12, -12, -12, -12, -12, -12, -12, -12, -12])

In [98]:
np_vector_1 / np_vector_2

array([0.07692308, 0.14285714, 0.2       , 0.25      , 0.29411765,
       0.33333333, 0.36842105, 0.4       , 0.42857143, 0.45454545,
       0.47826087, 0.5       ])

In [99]:
np_vector_1 * np_vector_2

array([ 13,  28,  45,  64,  85, 108, 133, 160, 189, 220, 253, 288])

In [100]:
np.dot(np_vector_1, np_vector_2.T) # T는 곧 소개!

1586

In [102]:
np.concatenate((np_vector_1, np_vector_2))

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24])

### 4.5.2. 2-dim array

In [103]:
np_matrix_1 = np.array([[1, 2, 3, 4],
                      [5, 6, 7, 8],
                      [9, 10, 11, 12]], dtype = np.int)
np_matrix_1 # 3 X 4

np_matrix_2 = np.arange(13, 25, dtype=np.int).reshape(3,4) # 3 X 4

In [104]:
np_matrix_1

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [105]:
np_matrix_2

array([[13, 14, 15, 16],
       [17, 18, 19, 20],
       [21, 22, 23, 24]])

In [60]:
np_matrix_1 + np_matrix_2

array([[14, 16, 18, 20],
       [22, 24, 26, 28],
       [30, 32, 34, 36]])

In [61]:
np_matrix_1 - np_matrix_2

array([[-12, -12, -12, -12],
       [-12, -12, -12, -12],
       [-12, -12, -12, -12]])

In [62]:
np_matrix_1 / np_matrix_2

array([[0.07692308, 0.14285714, 0.2       , 0.25      ],
       [0.29411765, 0.33333333, 0.36842105, 0.4       ],
       [0.42857143, 0.45454545, 0.47826087, 0.5       ]])

In [63]:
np_matrix_1 * np_matrix_2

array([[ 13,  28,  45,  64],
       [ 85, 108, 133, 160],
       [189, 220, 253, 288]])

In [64]:
np_matrix_2.T
# np.transpose(np_matrix_2)와 같은 기능

array([[13, 17, 21],
       [14, 18, 22],
       [15, 19, 23],
       [16, 20, 24]])

In [65]:
np.dot(np_matrix_1, np_matrix_2.T)

array([[150, 190, 230],
       [382, 486, 590],
       [614, 782, 950]])

In [108]:
np_matrix_1 @ np_matrix_2.T

array([[150, 190, 230],
       [382, 486, 590],
       [614, 782, 950]])

In [66]:
np.concatenate((np_matrix_1, np_matrix_2), axis = 0)

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [17, 18, 19, 20],
       [21, 22, 23, 24]])

In [106]:
np.concatenate((np_matrix_1, np_matrix_2), axis = 1)

array([[ 1,  2,  3,  4, 13, 14, 15, 16],
       [ 5,  6,  7,  8, 17, 18, 19, 20],
       [ 9, 10, 11, 12, 21, 22, 23, 24]])

## 4.6. Broadcasting

원칙적으로 shape이 다른 array 간의 연산은 불가능하나, broadcasting을 통해 자동으로 형태를 맞춰 연산 가능

In [111]:
np_matrix_1 = np.array([[1, 2, 3, 4],
                      [5, 6, 7, 8],
                      [9, 10, 11, 12]], dtype = np.int) # 3 X 4

np_scalar_1 = np.int(3)

np_vector_3 = np.array([1, 2, 3, 4], dtype = np.int)
np_vector_4 = np.array([1, 2, 3], dtype = np.int)

In [109]:
np_matrix_1

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [113]:
np_matrix_1 + np_scalar_1

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [114]:
np_matrix_1 - np_scalar_1

array([[-2, -1,  0,  1],
       [ 2,  3,  4,  5],
       [ 6,  7,  8,  9]])

In [115]:
np_matrix_1 * np_scalar_1

array([[ 3,  6,  9, 12],
       [15, 18, 21, 24],
       [27, 30, 33, 36]])

In [116]:
np_matrix_1 / np_scalar_1

array([[0.33333333, 0.66666667, 1.        , 1.33333333],
       [1.66666667, 2.        , 2.33333333, 2.66666667],
       [3.        , 3.33333333, 3.66666667, 4.        ]])

In [124]:
np_matrix_1 + np_vector_3.reshape(1, 4)

array([[ 2,  4,  6,  8],
       [ 6,  8, 10, 12],
       [10, 12, 14, 16]])

In [125]:
np_matrix_1 + np_vector_4.reshape(3, 1)

array([[ 2,  3,  4,  5],
       [ 7,  8,  9, 10],
       [12, 13, 14, 15]])

In [129]:
np_vector_3.reshape(4, 1) + np_vector_4.reshape(1,3)

array([[2, 3, 4],
       [3, 4, 5],
       [4, 5, 6],
       [5, 6, 7]])

## 4.7. 그 외 자주 사용하는 NumPy 함수들

!꼭 알고갔으면 하는 함수를 2개!

In [77]:
np_matrix_1 = np.array([[1, 2, 3, 4],
                      [5, 6, 7, 8],
                      [9, 10, 11, 12]], dtype = np.int) # 3 X 4

np_vector_3 = np.array([1, 2, 3, 4], dtype = np.int)

### 4.7.1 np.where

In [130]:
np.where(np_vector_3 > 2) # 2가 넘는 index

(array([2, 3], dtype=int64),)

In [132]:
np.where(np_vector_3 > 2, 10, 0) # 2가 넘으면, 10(True), 아니면 0(False)

array([ 0,  0, 10, 10])

In [135]:
np.where(np_matrix_1 > 6) # 6이 넘는 index{(1,2), (1,3), ...}

(array([1, 1, 2, 2, 2, 2], dtype=int64),
 array([2, 3, 0, 1, 2, 3], dtype=int64))

In [136]:
np.where(np_matrix_1 > 6, 10, 0)

array([[ 0,  0,  0,  0],
       [ 0,  0, 10, 10],
       [10, 10, 10, 10]])

### 4.7.2. np.argmax/min

In [137]:
np.argmax(np_vector_3)

3

In [138]:
np.argmax(np_matrix_1)

11

In [139]:
np.argmax(np_matrix_1, axis=0)

array([2, 2, 2, 2], dtype=int64)

In [140]:
np.argmax(np_matrix_1, axis=1)

array([3, 3, 3], dtype=int64)

## 4.8. 예외값 처리

**목표 :** 예외값의 정의 및 분류에 대해 이해하고 이를 처리할 수 있도록 함

In [92]:
np.nan

nan

In [88]:
1 - np.inf

-inf

In [141]:
0 / 0

ZeroDivisionError: division by zero

In [90]:
np.inf / np.inf

nan

In [91]:
np.inf - np.inf

nan

In [93]:
0 * np.inf

nan

In [94]:
1 / 0

ZeroDivisionError: division by zero

In [95]:
-1 / 0

ZeroDivisionError: division by zero

In [96]:
np.exp(709)

8.218407461554972e+307

In [97]:
np.exp(710)

inf

In [98]:
np.exp(-np.inf)

0.0

In [101]:
5 + np.nan

nan

In [102]:
5 + np.inf

inf

In [103]:
5 - np.inf

-inf

In [106]:
(3 + 5j) * np.nan

(nan+nanj)

In [107]:
x = np.nan

In [108]:
np.isnan(x)

True

In [148]:
v5 = np.array([1, 3, np.nan])

In [112]:
np.isnan(v5)

array([False, False,  True])

In [149]:
v5[~ np.isnan(v5)]

array([1., 3.])

In [117]:
np.sum(v5)

nan

In [119]:
np.nansum(v5) # treat np.nan as 0

4.0

In [150]:
np.sum(v5[~ np.isnan(v5)])

4.0

In [121]:
np.prod(v5)

nan

In [151]:
np.nanprod(v5) # nan을 제외한 곱 반환

3.0