## NumPy

- C언어로 구현된 파이썬 라이브러리 (외부 라이브러리)
- 고성능 수치계싼을 위해 만들어진 파이썬 패키지
- Vector, matrix, n-th array(ndarray) 등의 데이터 분석을 위한 패키지
- 벡트 및 행렬 연산에 있어서 매우 편리한 기능을 제공

* array(배열) 단위로 데이터를 관리하며 이에 대해 연산을 수행
    - NumPy의 기본 단위가 되는 array는 Dynamic type을 지원하지 않음. 한 타입만 지원
    - 1차원의 Numpy array : Vector
    - 2차원의 Numpy array : Matrix
    - 3차원 이상의 Numpy array : Tensor


* pandas와 matplotlb의 기반이 됨

In [2]:
# numpy 모듈 선언

import numpy as np

In [3]:
np.__version__

'1.20.1'

## Array 정의 및 사용
* 시퀀스 데이터(리스트, 튜플 등)로부터 배열 생성
* https://numpy.org/doc/stable/reference/arrays.html

### array(object, dtype, ...)
* 형식 : arr_obj = np.array(seq_data)

In [5]:
data1 = [1,2,3]
data1

[1, 2, 3]

In [8]:
data2 = [1,2,3,3.5,5]
data2

[1, 2, 3, 3.5, 5]

In [9]:
## 리스트 객체를 이용하여 array 생성

arr1 = np.array(data1)
arr1

array([1, 2, 3])

### arr 크기 확인 : shape

In [11]:
# array 크기 확인
arr1.shape

(3,)

In [12]:
# 리스트를 직접 입력하여 array 생성

arr2 = np.array([1,2,3,4,5])
arr2

array([1, 2, 3, 4, 5])

In [13]:
arr2.shape

(5,)

### array 자료형 확인 : dtype

In [15]:
# array의 자료형 확인

arr2.dtype

dtype('int32')

In [19]:
arr3 = np.array([1,2,3,3.5,4])
arr3

array([1. , 2. , 3. , 3.5, 4. ])

In [20]:
arr3.dtype

dtype('float64')

In [21]:
arr3.shape

(5,)

In [23]:
arr4 = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr4

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [24]:
arr4.shape

(3, 3)

In [25]:
arr4.dtype

dtype('int32')

## NumPy 자료형
* 부호가 있는 정수 int(8, 16, 32, 64)
* 부호가 없는 정수 uint(8, 16, 32, 64)
* 실수 float(16, 32, 64, 128)
* 복소수 complex(64, 128, 256)
* 불리언 bool
* 문자열 string
* 파이썬 오브젝트 object
* 유니코드 unicode_

## 범위를 지정해 배열 생성 (1) : np.arange() 함수
* 형식 : arr_obj = np.arange([start,] stop[, step])

In [27]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
np.arange(1, 5)

array([1, 2, 3, 4])

In [29]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

**reshape(m, n)의 m*n의 개수와 arange()로 생성되는 원소의 개수가 일치해야 함**

In [32]:
b1 = np.arange(12).reshape(3, 4)
b1

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [90]:
# b2 = np.arange(7).reshape(3, 3)   # 오류 발생하는 경우

## 범위를 지정해 배열 생성 (2) : linspace() 함수
* 형식 : arr.obj = np.linspace(start, stop[, num=50])

In [34]:
np.linspace(1, 10, 10)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [35]:
np.linspace(0, np.pi, 20)

array([0.        , 0.16534698, 0.33069396, 0.49604095, 0.66138793,
       0.82673491, 0.99208189, 1.15742887, 1.32277585, 1.48812284,
       1.65346982, 1.8188168 , 1.98416378, 2.14951076, 2.31485774,
       2.48020473, 2.64555171, 2.81089869, 2.97624567, 3.14159265])

In [91]:
np.linspace(1, 10)

array([ 1.        ,  1.18367347,  1.36734694,  1.55102041,  1.73469388,
        1.91836735,  2.10204082,  2.28571429,  2.46938776,  2.65306122,
        2.83673469,  3.02040816,  3.20408163,  3.3877551 ,  3.57142857,
        3.75510204,  3.93877551,  4.12244898,  4.30612245,  4.48979592,
        4.67346939,  4.85714286,  5.04081633,  5.2244898 ,  5.40816327,
        5.59183673,  5.7755102 ,  5.95918367,  6.14285714,  6.32653061,
        6.51020408,  6.69387755,  6.87755102,  7.06122449,  7.24489796,
        7.42857143,  7.6122449 ,  7.79591837,  7.97959184,  8.16326531,
        8.34693878,  8.53061224,  8.71428571,  8.89795918,  9.08163265,
        9.26530612,  9.44897959,  9.63265306,  9.81632653, 10.        ])

## 특별한 형태의 배열 생성
### np.zeros(), np.ones(), np.eye() 함수
**1) 모든 요소가 0인 배열 생성 : np.zeros(shape, dtype=float, ...)**

In [38]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [92]:
np.zeros((3, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [40]:
np.zeros((3, 5)).reshape(5, 3)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

**2) 모든 요소가 1인 배열 생성 : np.ones(shape, dtype=None)**

In [42]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [43]:
np.ones((3, 5), dtype=int)

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

**3) 대각요소가 1인 배열 생성 1 : np.eye(n, m, k=K, dtype=자료형)**

In [44]:
# 3행 3열의 대각행렬

np.eye(3)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

In [93]:
np.eye(3, 4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

In [45]:
np.eye(3, 4, k=1, dtype=int)

array([[0, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 0, 0, 1]])

In [46]:
np.eye(3, 4, k=2)

array([[0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 0.]])

In [47]:
np.eye(3, 4, k=-1)  # -1은 왼쪽으로 한 칸

array([[0., 0., 0., 0.],
       [1., 0., 0., 0.],
       [0., 1., 0., 0.]])

**4) 대각요소가 1인 배열 생성 2 : np.identity(n, dtype=자료형)**

In [48]:
# n*n 크기의 단위행렬 생성

np.identity(5, dtype=int)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

**5) 초기화되지 않은 배열 생성 : np.empty(shape, dtype=float)**

In [50]:
# 초기화되지 않은 배열 생성 

np.empty(4)

array([2.12199579e-314, 6.28222329e+011, 3.22130801e-321, 1.05888419e-311])

## 배열의 데이터 타입의 변환 : astype() 함수
**[형식]**
- num_arr = str_arr.astype(dtype)
- dtype : int, float, str

In [51]:
# 문자열 배열을 숫자형 배열로 변환

np.array(['1.5', '0.62', '2', '3.14', '3.141592'])

array(['1.5', '0.62', '2', '3.14', '3.141592'], dtype='<U8')

In [53]:
str_a1 = np.array(['1.5', '0.62', '2', '3.14', '3.141592'])
# num_a1 = str_a1.astype('float32')
num_a1 = str_a1.astype(float)
num_a1

array([1.5     , 0.62    , 2.      , 3.14    , 3.141592])

In [54]:
str_a1.dtype

dtype('<U8')

In [94]:
num_a1.dtype

dtype('float64')

In [95]:
str_a2 = np.array(['1','3','5','7','9'])
num_a2 = str_a2.astype(int)
num_a2

array([1, 3, 5, 7, 9])

In [96]:
num_a3 = str_a2.astype(float)
num_a3

array([1., 3., 5., 7., 9.])

In [55]:
# 실수형 배열을 정수형 배열로 변환

num_f1 = np.array([10, 21, 0.549, 4.75, 5.98])
num_f1

array([10.   , 21.   ,  0.549,  4.75 ,  5.98 ])

In [59]:
num_i1 = num_f1.astype(int)
num_i1   # 정수형으로 바뀌면서 소수점은 잘라버림

array([10, 21,  0,  4,  5])

In [60]:
num_f1.dtype

dtype('float64')

In [61]:
num_i1.dtype  # numpy 데이터 형식 (교재 p.222)

dtype('int32')

In [64]:
# 숫자형 배열을 문자열 배열로 변환

num_f1.astype('U')

array(['10.0', '21.0', '0.549', '4.75', '5.98'], dtype='<U32')

In [65]:
num_f1.astype('S')

array([b'10.0', b'21.0', b'0.549', b'4.75', b'5.98'], dtype='|S32')

## 난수 배열 생성

### random.rand(), random.randint() 함수

#### random.rand([d0, d1, ..., dn])
* 0 이상 1 미만의 `실수` 난수륵 갖는 NumPy 배열을 생성
* rand(d0, d1, ..., dn)을 실행하면 (d0, d1, ...dn)의 형태를 보이는 실수 난수 배열 생성

In [67]:
np.random.rand(10)

array([0.2585164 , 0.97252112, 0.72304911, 0.93867935, 0.75785244,
       0.0394564 , 0.85341677, 0.26083579, 0.0473788 , 0.90924339])

In [98]:
np.random.rand(2, 5)

array([[0.32526998, 0.84187861, 0.31709754, 0.94143335, 0.50956076],
       [0.01375162, 0.98680771, 0.06325297, 0.13265195, 0.21070317]])

In [99]:
np.random.rand()

0.8285861760692

In [68]:
np.random.rand(2,3,4)

array([[[0.444235  , 0.55823905, 0.16805765, 0.68831718],
        [0.28285064, 0.38139499, 0.58734979, 0.57146432],
        [0.29959117, 0.26149051, 0.08977608, 0.73047135]],

       [[0.18700699, 0.86815036, 0.76227562, 0.71356104],
        [0.01732168, 0.7721775 , 0.7798527 , 0.58562817],
        [0.73004882, 0.81390955, 0.56160642, 0.1403522 ]]])

### random.randint([low,] high [,size])
* low 이상 high 미만의 `정수` 난수를 갖는 NumPy 배열을 생성
* size : (d0, d1, ... , dn) 형식으로 입력

In [69]:
np.random.randint(10)

6

In [73]:
np.random.randint(10, 20)

18

In [75]:
np.random.randint(10, 20, size = (3, 5))

array([[19, 18, 13, 19, 19],
       [14, 15, 10, 16, 19],
       [15, 13, 14, 18, 15]])

## Array 연산

### 기본 연산 (합, 차, 곱, 나눗셈 등)
: 기본적으로 동일한 크기의 array 간 연산 수행

In [76]:
arr1 = np.array([[1,3,4], [4,3,6]])
arr1

array([[1, 3, 4],
       [4, 3, 6]])

In [79]:
arr2 = np.arange(10, 16).reshape(2, 3)
arr2

array([[10, 11, 12],
       [13, 14, 15]])

In [80]:
print(arr1.shape, arr2.shape)

(2, 3) (2, 3)


### 배열의 합 / 차 / 곱 / 나눗셈

In [81]:
arr1 + arr2    # 두 배열의 차원은 같아야 함

array([[11, 14, 16],
       [17, 17, 21]])

In [82]:
arr1 - arr2

array([[ -9,  -8,  -8],
       [ -9, -11,  -9]])

In [83]:
arr1 * arr2

array([[10, 33, 48],
       [52, 42, 90]])

In [84]:
arr1 / arr2

array([[0.1       , 0.27272727, 0.33333333],
       [0.30769231, 0.21428571, 0.4       ]])

In [100]:
# 배열의 스칼라곱
arr2 * 2

array([[20, 22, 24],
       [26, 28, 30]])

In [101]:
# 배열의 비교연산
arr2 > 12

array([[False, False, False],
       [ True,  True,  True]])

### 배열의 BroadCasting
* 서로 크기가 다른 array들의 연산이 가능하도록 배열을 자동적으로 변환하여 연산 수행
* 최소한 1개의 차원은 같아야 함 !!

In [85]:
arr1

array([[1, 3, 4],
       [4, 3, 6]])

In [86]:
arr3 = np.array([10,11,12])
arr3

array([10, 11, 12])

In [102]:
(arr1.shape, arr3.shape)

((2, 3), (3,))

In [103]:
arr1 + arr3

array([[11, 14, 16],
       [14, 14, 18]])

In [104]:
arr1 ** 2

array([[ 1,  9, 16],
       [16,  9, 36]], dtype=int32)

### 브로드캐스팅이 일어날 수 있는 조건

* 두 배열 간의 연산에서 최소한 하나의 배열의 차원이 1인 경우 (0번 축이든 1번 축이든 ; 1행이든 1열이든)
* 차원의 짝이 맞을 때 (차원에 대해 축의 길이가 동일하면)

-> 출처: http://www.astroml.org/book_figures/appendix/fig_broadcast_visual.html