- Numerical Python
- http://www.numpy.org

- C언어로 구현된 파이썬 라이브러리(외부 라이브러리)
- 고성능 수치계산을 위해 만들어진 파이썬 패키지
- Vector, matrix, n-th array(ndarray) 등의 데이터 분석을 위한 패키지
- 벡터 및 행렬 연산에 있어서 매우 편리한 기능을 제공

- array(배열) 단위로 데이터를 관리하며 이에 대해 연산을 수행
    - Numpy의 기본단위가 되는 array는 Dynamic type을 지원하지 않음. 한 타입만 지원
    - 1차원의 Numpy array : Vector
    - 2차원의 Numpy array : Matrix
    - 3차원 이상의 Numpy array : Tensor

- pandas와 matplotlib 기반

**numpy 모듈 선언**

In [1]:
import numpy as np

In [2]:
# numpy 버전 확인
np.__version__

'1.26.4'

***참고. 선언된 모듈과 패키지의 영향 범위***

- 파이썬(or IPython) 콘솔이나 주피터 노트북의 코드 셀에서 import로 불러온 모듈이나 패키지는 한 번만 선언하면 다시 선언하지 않고 이용
- 주피터 노트북에서 새로운 노트북을 실행한 경우 다시 선언해야 함
- 파이썬 코드를 파일로 저장할 때도 모듈과 패키지는 이를 사용하는 코드 앞에 한번만 선언하면 됨

# 1. Array 정의 및 사용

- 시퀀스 데이터(리스트, 튜플 등)로부터 배열 생성


- https://numpy.org/doc/stable/reference/arrays.html

## (1) array(object, dtype, ... )    

형식 : arr_obj = np.array(seq_data)    

In [9]:
data1 = [1,2,3] 
data2 = [1,2,3,4,5.0]

In [6]:
arr1 = np.array(data1)
arr1

array([1, 2, 3])

In [12]:
# 형식을 통일하기 때문에 같은 형식의 데이터를 넣어야한다.
arr2 = np.array(data2)
arr2

array([1., 2., 3., 4., 5.])

In [13]:
# array를 list로 변환
data = arr1.tolist()
data

[1, 2, 3]

### array 크기 확인 : shape

In [14]:
type(arr1)

numpy.ndarray

In [15]:
# array 크기 확인
arr1.shape

(3,)

In [16]:
arr2.shape

(5,)

### array 자료형 확인 : dtype

In [17]:
# 유형 확인
arr1.dtype

dtype('int32')

In [18]:
arr2.dtype

dtype('float64')

In [20]:
# 2차원 array
arr3 = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr3

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [21]:
arr3.shape

(3, 3)

In [22]:
arr3.dtype

dtype('int32')

In [24]:
arr4 = np.array(['apple', 'banana', 'tomato', 'melon'])
arr4.dtype

dtype('<U6')

### numpy 자료형
- 부호가 있는 정수 int(8, 16, 32, 64)
- 부호가 없는 정수 uint(8 ,16, 32, 64)
- 실수 float(16, 32, 64, 128)
- 복소수 complex(64, 128, 256)
- 불리언 bool
- 문자열 string_
- 파이썬 오프젝트 object
- 유니코드 unicode_

## (2) 범위를 지정해 배열 생성

### ① np.arange() 함수
**[형식] arr_obj = np.arange([start,] stop[, step])**

In [25]:
np.arange(0,10,2)

array([0, 2, 4, 6, 8])

In [26]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

    reshape(m,n)의 m*n의 개수와 arange()로 생성되는 원소의 개수와 일치해야 함

In [27]:
np.arange(12)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [28]:
# 1차원 array
np.arange(12).shape

(12,)

In [29]:
# 1차원 array를 2차원 array으로
np.arange(12).reshape(4,3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [30]:
# 2차원 array
np.arange(12).reshape(4,3).shape

(4, 3)

### ② linspace() 함수
**[형식] arr.obj = np.linspace(start, stop[, num=50])**

In [33]:
np.linspace(1,10,10)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [47]:
# retstep = True -> 숫자사이의 간격
np.linspace(1,10,5, retstep=True)

(array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ]), 2.25)

In [49]:
# endpoint = False -> 끝 값을 포함하지 않을 때
np.linspace(1,10,5, endpoint = False, retstep=True)

(array([1. , 2.8, 4.6, 6.4, 8.2]), 1.8)

In [35]:
np.pi
np.linspace(0,np.pi, 20)

array([0.        , 0.16534698, 0.33069396, 0.49604095, 0.66138793,
       0.82673491, 0.99208189, 1.15742887, 1.32277585, 1.48812284,
       1.65346982, 1.8188168 , 1.98416378, 2.14951076, 2.31485774,
       2.48020473, 2.64555171, 2.81089869, 2.97624567, 3.14159265])

In [37]:
# default = 50
np.linspace(1,10)

array([ 1.        ,  1.18367347,  1.36734694,  1.55102041,  1.73469388,
        1.91836735,  2.10204082,  2.28571429,  2.46938776,  2.65306122,
        2.83673469,  3.02040816,  3.20408163,  3.3877551 ,  3.57142857,
        3.75510204,  3.93877551,  4.12244898,  4.30612245,  4.48979592,
        4.67346939,  4.85714286,  5.04081633,  5.2244898 ,  5.40816327,
        5.59183673,  5.7755102 ,  5.95918367,  6.14285714,  6.32653061,
        6.51020408,  6.69387755,  6.87755102,  7.06122449,  7.24489796,
        7.42857143,  7.6122449 ,  7.79591837,  7.97959184,  8.16326531,
        8.34693878,  8.53061224,  8.71428571,  8.89795918,  9.08163265,
        9.26530612,  9.44897959,  9.63265306,  9.81632653, 10.        ])

## (3) 특별한 형태의 배열 생성
### np.zeros(), np.ones(), np.eye() 함수

**① 모든 요소가 0인 배열 생성 : np.zeros(shape, dtype=float, ...)**

In [38]:
# shape만큼 0을 채우기
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [40]:
np.zeros((3,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [41]:
np.zeros(15).reshape(3,5)

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [42]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

**② 모든 요소가 1인 배열 생성 : np.ones(shape, dtype=None)**

In [43]:
# shape만큼 0을 채우기
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [44]:
np.ones(10).reshape(2,5)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [46]:
np.ones((3,5,2), dtype=int)

array([[[1, 1],
        [1, 1],
        [1, 1],
        [1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1],
        [1, 1],
        [1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1],
        [1, 1],
        [1, 1],
        [1, 1]]])

**③ 대각요소가 1인 배열 생성1 : np.eye(n, m, k=K, dtype=자료형)**

In [53]:
# 대각요소가 1인 n*n 정방행렬: 단위행렬
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [52]:
np.eye(4,6)

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.]])

In [56]:
# dtype의 default는 float 64
np.eye(3,5,dtype='int32')

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]])

In [60]:
# k => 인덱스 시작위치
np.eye(3,5,k=1,dtype='int16')

array([[0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0]], dtype=int16)

In [64]:
# k = -n -> n줄 아래에서 시작
np.eye(3,5,k=-1,dtype=int)

array([[0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0]])

**④ 대각요소가 1인 배열 생성2 : np.identity(n, dtype=자료형)**

In [65]:
# 대각요소가 1인 n*n 정방행렬: 단위행렬
np.identity(5, dtype=int)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

**⑤ 초기화되지 않은 배열 생성 : np.empty(shape, dtype=float)**

In [70]:
np.empty(4)

array([1., 1., 1., 1.])

In [69]:
# e-312 => 10의 -312승
np.empty((3,4))

array([[2.37663529e-312, 2.29175545e-312, 4.99006302e-322,
        2.05833592e-312],
       [2.05833592e-312, 2.05833592e-312, 2.35541533e-312,
        2.05833592e-312],
       [2.35541533e-312, 2.14321575e-312, 2.35541533e-312,
        5.43472210e-322]])

**⑥ 요소를 같은 값으로 채운 배열 생성 : np.full(shape, fill_value, dtype=None)**

In [71]:
np.full((3,4),7)

array([[7, 7, 7, 7],
       [7, 7, 7, 7],
       [7, 7, 7, 7]])

In [73]:
np.full((2,4),fill_value = 1)

array([[1, 1, 1, 1],
       [1, 1, 1, 1]])

## (4) 난수 배열 생성

 ### random.rand(), random.randint() 함수

**random.rand([d0, d1, ..., dn])**

- [0과 1) 사이의 `실수` 난수를 갖는 NumPy 배열을 생성
- rand(d0, d1, ..., dn)을 실행하면 (d0, d1, ..., dn)의 형태를 보이는 실수 난수 배열 생성

In [76]:
# rand -> 0부터 1미만 실수
np.random.rand(5)

array([0.88916794, 0.63440902, 0.04767333, 0.84047209, 0.69350677])

In [83]:
np.random.rand(3,2,4)

array([[[0.37138716, 0.8760988 , 0.83348191, 0.33208946],
        [0.26121975, 0.11640063, 0.3071104 , 0.26852732]],

       [[0.35657927, 0.09603604, 0.3174294 , 0.49793146],
        [0.89560554, 0.08630483, 0.13680417, 0.81965052]],

       [[0.43977782, 0.81706577, 0.58862433, 0.99483642],
        [0.78258148, 0.31177162, 0.33564521, 0.57362958]]])

**random.randint([low,] high [,size])**

- [low, high) 사이의 `정수` 난수를 갖는 NumPy 배열을 생성
- size : (d0, d1, ..., dn) 형식으로 입력

In [88]:
np.random.randint(100,size = (3,2,3))

array([[[10, 72, 54],
        [36, 23,  8]],

       [[94, 43, 81],
        [19, 76, 87]],

       [[43, 31, 49],
        [18, 31, 49]]])

In [94]:
np.random.randint(0,100,(3,2,3))

array([[[71, 88, 96],
        [76, 33, 91]],

       [[66, 78, 11],
        [71, 82, 61]],

       [[48, 46, 67],
        [89,  4, 90]]])

## (5) 배열의 데이터 타입 변환:  astype() 함수

**[형식]**

num_arr = str_arr.astype(dtype)

dtype : int, float, str

**NumPy 데이터 형식 : dtype**

- 'i' : 부호가 있는 정수 int(8, 16, 32, 64)
- 'u' : 부호가 없는 정수 uint(8, 16, 32, 64)
- 'f' : 실수 float(8, 16, 32, 64)
- 'c' : 복소수 complex(64, 128, 256)
- 'b' : 불리언 bool
- 'S' 혹은 'a' : 문자열 string_
- 'O' : 파이썬 오브젝트 object
- 'U' : 유니코드 unicode_
- 'M' : 날짜, datetime

**문자열 배열을 숫자형 배열로 변환**

In [97]:
str_arr1 = np.array(['3.5','4', 0.62,7.4,3.14])
str_arr1

array(['3.5', '4', '0.62', '7.4', '3.14'], dtype='<U32')

In [96]:
str_arr1.dtype

dtype('<U32')

In [99]:
str_arr2 = np.array(['3.5','4', '1.2','4.24'])
str_arr2

array(['3.5', '4', '1.2', '4.24'], dtype='<U4')

In [102]:
str_arr1.astype(float)

array([3.5 , 4.  , 0.62, 7.4 , 3.14])

In [105]:
str_arr3 = np.array(['3','5','10'])
num_arr3 = str_arr3.astype(int)
num_arr3

array([ 3,  5, 10])

**실수형 배열을 정수형 배열로 변환**

In [108]:
flo_arr1 = np.array([10,21,0.54,4.75,5.98])
int_arr1 = flo_arr1.astype(int)
int_arr1

array([10, 21,  0,  4,  5])

In [111]:
str_arr2 = np.array(['3.5','4', '1.2','4.24'])
int_arr2 = str_arr2.astype(float).astype(int)
int_arr2

array([3, 4, 1, 4])

**숫자형 배열을 문자열 배열로 변환**

In [115]:
int_arr1.astype(str)
int_arr2.astype(str)

array(['3', '4', '1', '4'], dtype='<U11')

------