![image.png](attachment:418b1efe-9c2f-4991-b670-f76912a00394.png)

- Numerical Python
- http://www.numpy.org

- C언어로 구현된 파이썬 라이브러리(외부 라이브러리)
- 고성능 수치계산을 위해 만들어진 파이썬 패키지
- Vector, matrix, n-th array(ndarray) 등의 데이터 분석을 위한 패키지
- 벡터 및 행렬 연산에 있어서 매우 편리한 기능을 제공
- 벡터화 연산, 정교한 브로드캐스팅 가능
- 반복문 없는 빠른 데이터 처리, 빠르고 효율적인 메모리 관리

- array(배열) 단위로 데이터를 관리하며 이에 대해 연산을 수행
    - Numpy의 기본단위가 되는 array는 Dynamic type을 지원하지 않음. 한 타입만 지원
    - 1차원의 Numpy array : Vector
    - 2차원의 Numpy array : Matrix
    - 3차원 이상의 Numpy array : Tensor

- pandas와 matplotlib 기반

![image.png](attachment:image.png)

출처: http://taewan.kim/post/numpy_cheat_sheet/

**numpy 모듈 선언**

In [1]:
import numpy as np

In [2]:
# 파이썬 버전 확인
np.__version__

'1.26.4'

***참고. 선언된 모듈과 패키지의 영향 범위***

- 파이썬(or IPython) 콘솔이나 주피터 노트북의 코드 셀에서 import로 불러온 모듈이나 패키지는 한 번만 선언하면 다시 선언하지 않고 이용
- 주피터 노트북에서 새로운 노트북을 실행한 경우 다시 선언해야 함
- 파이썬 코드를 파일로 저장할 때도 모듈과 패키지는 이를 사용하는 코드 앞에 한번만 선언하면 됨

# 1. Array 정의 및 사용

- 시퀀스 데이터(리스트, 튜플 등)로부터 배열 생성


- https://numpy.org/doc/stable/reference/arrays.html

## (1) array(object, dtype, ... )    

형식 : arr_obj = np.array(seq_data)    

In [3]:
data1 = [1,2,3]

![image.png](attachment:image.png)

In [5]:
type(data1)

list

In [6]:
arr1 = np.array(data1)
arr1

array([1, 2, 3])

In [8]:
type(arr1)

numpy.ndarray

In [10]:
#전부 실수형 타입으로 바꿈
data2=[1,2,3,4,5.0]
arr2 = np.array(data2)
arr2

array([1., 2., 3., 4., 5.])

In [11]:
#같은 타입의 문자열 타입으로 바꿔줌
data2=[1,2,3,4,'st']
arr2 = np.array(data2)
arr2

array(['1', '2', '3', '4', 'st'], dtype='<U21')

In [12]:
#array를 다시 list로 바꿔줌
data = arr1.tolist()
data

[1, 2, 3]

### array 크기 확인 : shape

In [14]:
type(arr1)

numpy.ndarray

In [15]:
#array의 크기 확인
arr1.shape

(3,)

In [16]:
arr2.shape

(5,)

### array 자료형 확인 : dtype

In [17]:
arr1.dtype

dtype('int64')

In [18]:
arr2.dtype

dtype('<U21')

In [19]:
arr2 = np.array([1,2,3,-4,5.0])
arr2.dtype

dtype('float64')

In [24]:
#2차원 array
arr3 = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr3

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [25]:
arr3.shape

(3, 3)

In [26]:
arr3.dtype

dtype('int64')

In [22]:
arr4 = np.array(['apple', 'banana', 'tomato', 'melon'])
arr4

array(['apple', 'banana', 'tomato', 'melon'], dtype='<U6')

In [23]:
arr4.dtype

dtype('<U6')

### numpy 자료형
- 부호가 있는 정수 int(8, 16, 32, 64)
- 부호가 없는 정수 uint(8 ,16, 32, 64)
- 실수 float(16, 32, 64, 128)
- 복소수 complex(64, 128, 256)
- 불리언 bool
- 문자열 string_
- 파이썬 오프젝트 object
- 유니코드 unicode_

https://numpy.org/doc/stable/reference/arrays.dtypes.html

## (2) 범위를 지정해 배열 생성

### ① np.arange() 함수
**[형식] arr_obj = np.arange([start,] stop[, step])**

In [28]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [29]:
np.arange(1,10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
np.arange(1,10,2)

array([1, 3, 5, 7, 9])

    reshape(m,n)의 m*n의 개수와 arange()로 생성되는 원소의 개수와 일치해야 함

In [31]:
np.arange(12)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [32]:
np.arange(12).shape

(12,)

In [34]:
np.arange(12).reshape(4,3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [36]:
arr7 = np.arange(12).reshape(4,3)
arr7.shape

(4, 3)

### ② linspace() 함수
**[형식] arr.obj = np.linspace(start, stop[, num=50])**

In [37]:
np.linspace(1,10,10) #1~10을 10개로 쪼개기 float타입으로 나옴

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [38]:
np.linspace(1,10,5) #5등분으로 자르기

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

In [39]:
np.pi

3.141592653589793

In [40]:
np.linspace(0,np.pi,20)

array([0.        , 0.16534698, 0.33069396, 0.49604095, 0.66138793,
       0.82673491, 0.99208189, 1.15742887, 1.32277585, 1.48812284,
       1.65346982, 1.8188168 , 1.98416378, 2.14951076, 2.31485774,
       2.48020473, 2.64555171, 2.81089869, 2.97624567, 3.14159265])

In [41]:
np.linspace(1,10) #default는 50개로 쪼갬

array([ 1.        ,  1.18367347,  1.36734694,  1.55102041,  1.73469388,
        1.91836735,  2.10204082,  2.28571429,  2.46938776,  2.65306122,
        2.83673469,  3.02040816,  3.20408163,  3.3877551 ,  3.57142857,
        3.75510204,  3.93877551,  4.12244898,  4.30612245,  4.48979592,
        4.67346939,  4.85714286,  5.04081633,  5.2244898 ,  5.40816327,
        5.59183673,  5.7755102 ,  5.95918367,  6.14285714,  6.32653061,
        6.51020408,  6.69387755,  6.87755102,  7.06122449,  7.24489796,
        7.42857143,  7.6122449 ,  7.79591837,  7.97959184,  8.16326531,
        8.34693878,  8.53061224,  8.71428571,  8.89795918,  9.08163265,
        9.26530612,  9.44897959,  9.63265306,  9.81632653, 10.        ])

## (3) 특별한 형태의 배열 생성
### np.zeros(), np.ones(), np.eye() 함수

**① 모든 요소가 0인 배열 생성 : np.zeros(shape, dtype=float, ...)**

In [42]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [43]:
#차원은 튜플 형태로 써줘야 함
np.zeros((3,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [44]:
np.zeros(15).reshape(3,5)

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [46]:
#데이터 형식 지정해주기
np.zeros(10, dtype='int')

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

**② 모든 요소가 1인 배열 생성 : np.ones(shape, dtype=None)**

In [48]:
np.ones(10, dtype='int')

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [49]:
np.ones((2,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [50]:
np.ones((3,5,2))

array([[[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]]])

In [51]:
np.ones((3,5,2)).dtype

dtype('float64')

**③ 대각요소가 1인 배열 생성1 : np.eye(n, m, k=K, dtype=자료형)**

In [52]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [53]:
np.eye(4,6)

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.]])

In [54]:
np.eye(3,5,dtype='int32')

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]], dtype=int32)

In [55]:
np.eye(3,5, k=1, dtype='int16')

array([[0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0]], dtype=int16)

In [56]:
np.eye(3,5, k=2, dtype='int')

array([[0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

**④ 대각요소가 1인 배열 생성2 : np.identity(n, dtype=자료형)**

In [57]:
#n*n 정방행렬 : 대각요소가 1인 단위행렬
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [58]:
np.identity(3, dtype='int')

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

**⑤ 초기화되지 않은 배열 생성 : np.empty(shape, dtype=float)**

In [59]:
np.empty(4)

array([1., 1., 1., 1.])

In [61]:
np.empty((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

**⑥ 요소를 같은 값으로 채운 배열 생성 : np.full(shape, fill_value, dtype=None)**

In [62]:
np.full((3,4),7)

array([[7, 7, 7, 7],
       [7, 7, 7, 7],
       [7, 7, 7, 7]])

In [63]:
np.full((2,4), fill_value=1)

array([[1, 1, 1, 1],
       [1, 1, 1, 1]])

## (4) 난수 배열 생성

 ### random.rand(), random.randint() 함수

**random.rand([d0, d1, ..., dn])**

- [0과 1) 사이의 `실수` 난수를 갖는 NumPy 배열을 생성
- rand(d0, d1, ..., dn)을 실행하면 (d0, d1, ..., dn)의 형태를 보이는 실수 난수 배열 생성

In [64]:
np.random.rand()

0.7066065336281853

In [65]:
np.random.rand(3)

array([0.83484658, 0.60538426, 0.93344688])

In [68]:
np.random.rand(3,2)

array([[0.99136577, 0.10316186],
       [0.63853488, 0.04533435],
       [0.8878842 , 0.62643511]])

In [67]:
np.random.rand(3,2,4)

array([[[0.37073945, 0.65031664, 0.5508377 , 0.96553736],
        [0.19378385, 0.4052842 , 0.24971233, 0.78469885]],

       [[0.55954375, 0.60688241, 0.55296073, 0.70051335],
        [0.66796764, 0.89198806, 0.53313477, 0.43535497]],

       [[0.13813918, 0.25719846, 0.2235631 , 0.4114683 ],
        [0.36330308, 0.17934814, 0.64619952, 0.23725754]]])

**random.randint([low,] high [,size])**

- [low, high) 사이의 `정수` 난수를 갖는 NumPy 배열을 생성
- size : (d0, d1, ..., dn) 형식으로 입력

In [70]:
np.random.randint(10)

4

In [71]:
np.random.randint(10, size=(3,4))

array([[1, 8, 9, 4],
       [8, 3, 6, 4],
       [7, 4, 6, 4]])

In [72]:
np.random.randint(1,6)

2

In [75]:
np.random.randint(1,6, size=(3,3,2))

array([[[3, 3],
        [4, 2],
        [1, 1]],

       [[4, 2],
        [4, 5],
        [1, 2]],

       [[5, 4],
        [1, 1],
        [2, 3]]])

In [76]:
for i in range(10):
    print(np.random.randint(1,7))

1
6
5
1
2
2
1
2
2
4


In [77]:
np.random.randint(1,7, size=(10))

array([4, 3, 4, 5, 5, 6, 1, 1, 1, 4])

## (5) 배열의 데이터 타입 변환:  astype() 함수

**[형식]**

num_arr = str_arr.astype(dtype)

dtype : int, float, str

**NumPy 데이터 형식 : dtype**

- 'i' : 부호가 있는 정수 int(8, 16, 32, 64)
- 'u' : 부호가 없는 정수 uint(8, 16, 32, 64)
- 'f' : 실수 float(8, 16, 32, 64)
- 'c' : 복소수 complex(64, 128, 256)
- 'b' : 불리언 bool
- 'S' 혹은 'a' : 문자열 string_
- 'O' : 파이썬 오브젝트 object
- 'U' : 유니코드 unicode_
- 'M' : 날짜, datetime

**문자열 배열을 숫자형 배열로 변환**

In [78]:
str_arr1 = np.array(['3.5', '4', 0.62, 7.4, 3.14])
str_arr1

array(['3.5', '4', '0.62', '7.4', '3.14'], dtype='<U32')

In [79]:
str_arr1.dtype

dtype('<U32')

In [80]:
str_arr2 = np.array(['1.2', '3', '4.5', '5.2'])
str_arr2

array(['1.2', '3', '4.5', '5.2'], dtype='<U3')

In [82]:
num_arr1 = str_arr1.astype(float)
num_arr1

array([3.5 , 4.  , 0.62, 7.4 , 3.14])

In [83]:
num_arr1.dtype

dtype('float64')

In [85]:
num_arr2 = str_arr2.astype(float) #int로 바꿀순 없음 / 자체적으로 자르지 X
num_arr2

array([1.2, 3. , 4.5, 5.2])

In [86]:
str_arr3 = np.array(['3','5','10'])
num_arr3 = str_arr3.astype(int)
num_arr3

array([ 3,  5, 10])

**실수형 배열을 정수형 배열로 변환**

In [88]:
num_f1 = np.array([10, 21, 0.54, 4.75, 5.98])
num_int1 = num_f1.astype(int)
num_int1

array([10, 21,  0,  4,  5])

In [90]:
num_f1.dtype

dtype('float64')

In [93]:
num_int1.dtype

dtype('int64')

**숫자형 배열을 문자열 배열로 변환**

In [92]:
num_f1.astype('U')

array(['10.0', '21.0', '0.54', '4.75', '5.98'], dtype='<U32')

In [94]:
num_int1.astype(str)

array(['10', '21', '0', '4', '5'], dtype='<U21')

------