# 넘파이
---
[NumPy](https://numpy.org/)
- ndarray 객체, 다차원 배열
- **넘파이**는 메모리를 효율적으로 사용하기 위해 하나의 타입만 들어갈 수 있음
  - cf. **리스트**는 여러가지 타입이 들어갈 수 있음(숫자와 문자)

In [1]:
import numpy as np

print(np.__version__)

1.22.4


### 다차원 배열
- `type() 함수`: 객체의 데이터 타입을 반환해주는 함수

### 배열의 속성
|속성|설명|
|:--:|:--:|
|shape|배열의 형태를 튜플 자료형으로 표현|
|ndim|배열의 차원(축의 개수)|
|size|배열의 원소 개수|
|dtype|배열 원소의 자료형(모든 원소가 같은 자료형)|
|itemsize|각 배열 원소의 바이트의 크기|

### 배열의 자료형(Data Type)
- 불리언(Boolean)
- 정수(Integer)
- 부호 없는 정수(Unsigned Integer)
- 부동소수점(Float)
- 복소 부동소수점(Complex) 등

`dtype`: 자료형 확인, `astype`: 자료형 변환

1-D Array

In [2]:
john = [10, 8, 6, 7]
x = np.array(john)

print(x)
print(type(x))

[10  8  6  7]
<class 'numpy.ndarray'>


2-D Array

In [3]:
scores = [[1, 2, 3, 4], 
          [5, 6, 7, 8]]
x = np.array(scores)

print(x)
print(x.shape)
print(x.dtype)

[[1 2 3 4]
 [5 6 7 8]]
(2, 4)
int64


In [4]:
def print_arr(arr):
    print(arr)
    print('shape:', arr.shape)
    print('ndim:', arr.ndim)
    print('size:', arr.size)
    print('dtype:', arr.dtype)
    print('itemsize:', arr.itemsize)

In [5]:
x = np.array([1., 2., 3., 4., 5.])
print_arr(x)

[1. 2. 3. 4. 5.]
shape: (5,)
ndim: 1
size: 5
dtype: float64
itemsize: 8


In [6]:
y = x.astype(np.int32)
print_arr(y)

[1 2 3 4 5]
shape: (5,)
ndim: 1
size: 5
dtype: int32
itemsize: 4


### 리스트와 튜플

In [7]:
x = []
type(x)

list

In [8]:
x = ()
type(x)

tuple

In [9]:
x = (4)
type(x)

int

In [10]:
x = (4,)
type(x)

tuple

In [11]:
type((4,)), type((4))

(tuple, int)

### 배열의 형태(Shape)와 축(Axis)
- 배열의 형태(Shape): (axis 0 원소 개수, axis 1 원소 개수, axis 2 원소 개수)
- 배열의 축(Axis)
  - 1-D array: 축 1개(axis 0)
  - 2-D array: 축 2개(axis 0, axis 1)
  - 3-D array: 축 3개(axis 0, axis 1, axis 2)

### 배열 생성함수
- `arange() 함수`: np.arange(시작, 끝, 개수)으로 끝을 포함하지 않고, 개수는 간격을 의미함
- `linspace() 함수`: np.linspace(시작, 끝, 개수)으로 시작과 끝을 포함하고, 개수는 해당 구간의 개수를 의미함
- `zeros() 함수`: 주어진 형태의 배열에 모두 0으로 채움
- `ones() 함수`: 주어진 형태의 배열에 모두 1로 채움
- `full() 함수`: 주어진 형태의 배열에 모두 주어진 값으로 채움
- `ones_like(), zeros_like() 함수`: 주어진 형태와 타입을 갖는 배열에 모두 0으로 채움, 주어진 형태와 타입을 갖는 배열에 모두 1로 채움
- `empyt()`, `empty_like()`, `np.eye()` 등 함수 제공

### 배열 reshape
`reshape()`: 배열의 차원을 변경할 때 사용함, `np.reshape(변경할 배열, 차원)` 또는 `배열.reshape(차원)`

In [12]:
x = np.arange(0, 9)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [13]:
x.shape

(9,)

In [14]:
y = x.reshape((3, 3))
y.shape

(3, 3)

In [15]:
x.reshape(-1, 3, 3)

array([[[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]])

In [16]:
x.reshape(1, 3, 3)

array([[[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]])

In [17]:
x = np.arange(0, 16)
x = x.reshape(4, 4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [18]:
x = x.reshape(2, 4, 2)
x.shape

(2, 4, 2)

In [19]:
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]]])

In [20]:
x = np.array([1, 2, 3])
y = np.array([[1], [2], [3]])

In [21]:
x.shape

(3,)

In [22]:
y.shape

(3, 1)

In [23]:
y.reshape(3)

array([1, 2, 3])

In [24]:
y.reshape(-1)

array([1, 2, 3])

In [25]:
y.reshape(y.shape[0])

array([1, 2, 3])

In [26]:
y.reshape(len(y))

array([1, 2, 3])

In [27]:
x = np.arange(0, 16)
x = x.reshape(-1, 4, 2)
x

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]]])

### 인덱싱(Indexing), 슬라이싱(Slicing)
- 인덱싱: 포인트 지정
- 슬라이싱: 범위 지정

In [28]:
# 인덱싱
x = np.array([4, 5, 6, 7, 8, 9, 0])
x[2]

6

In [29]:
# 맨 마지막 인덱싱
x[-1]

0

In [30]:
# 슬라이싱
x[1: 4]

array([5, 6, 7])

In [31]:
# 슬라이싱
print(x[:4])
print(x[0:4])

[4 5 6 7]
[4 5 6 7]


In [32]:
# 맨 마지막 제거 슬라이싱
x[:-1]

array([4, 5, 6, 7, 8, 9])

In [33]:
# 전체
x[:]

array([4, 5, 6, 7, 8, 9, 0])

In [34]:
print(x[:-1])
print(x[-1])

[4 5 6 7 8 9]
0


In [35]:
x = np.array([[4, 5, 6],
              [8, 9, 0]])
x

array([[4, 5, 6],
       [8, 9, 0]])

In [36]:
# 인덱싱
x[0, 0]

4

fancy indexing

In [37]:
# fancy indexing
x[0, [1, 2]]

array([5, 6])

In [38]:
# indexing, slicing
x[0, 1:]

array([5, 6])

boolean indexing

In [39]:
# boolean indexing
x = np.array([1, 2, 3, 4, 5])
idx = [False, False, False, False, False]
x[idx]

array([], dtype=int64)

In [40]:
# boolean indexing
x = np.array([1, 2, 3, 4, 5])
idx = [False, True, False, True, False]
x[idx]

array([2, 4])

In [41]:
# boolean indexing
x = np.array([1, 5, 3, 7, 6])
x[x > 6]

array([7])

In [42]:
# boolean indexing
x = np.array([1, 5, 3, 7, 6])
x[x > 5]

array([7, 6])

### 배열 연산: 축 지정
- `np.sum()`
- `np.mean()`

In [43]:
x = np.array([[1, 2, 3], 
              [3, 4, 5]])
x

array([[1, 2, 3],
       [3, 4, 5]])

In [44]:
np.sum(x)

18

In [45]:
np.sum(x, axis=0)

array([4, 6, 8])

In [46]:
np.sum(x, axis=1)

array([ 6, 12])

In [47]:
np.mean(x)

3.0

In [48]:
np.mean(x, axis=0)

array([2., 3., 4.])

In [49]:
np.mean(x, axis=1)

array([2., 4.])

In [50]:
np.mean(x, axis=-1)

array([2., 4.])

### 브로드캐스팅(Broadcasting)
- 두 배열간 연산을 수행할 때 배열의 형태가 다른 경우 두 배열 간의 형상을 맞추는 작업
- 서로 다른 모양의 넘파이 배열이 특정 조건을 만족하면 연산이 가능

In [51]:
x = np.array([1, 2, 3])
x

array([1, 2, 3])

In [52]:
x + 1

array([2, 3, 4])

In [53]:
x + [1, 1, 1]

array([2, 3, 4])

In [54]:
x = np.array([[0], [1], [2]])
x

array([[0],
       [1],
       [2]])

In [55]:
y = np.array([0, 1, 2])
y

array([0, 1, 2])

In [56]:
x + y

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

In [57]:
# 모든 원소가 문자열이 됨
x = np.array([1, 2, '3'])
x

array(['1', '2', '3'], dtype='<U21')

In [58]:
# 메모리 줄이기
x.astype(np.int32)

array([1, 2, 3], dtype=int32)

### random 함수
- 난수 생성기

#### 1) np.random.random()
- [0.0, 1.0) 사이의 값을 반환하는 함수
- 균등분포(uniform distribution)

In [59]:
np.random.random(3)

array([0.70377886, 0.85155817, 0.65200451])

In [60]:
np.random.random((2, 2))

array([[0.91686282, 0.45902995],
       [0.22895099, 0.61018944]])

In [61]:
np.random.random((3, 2))

array([[0.00087785, 0.42944773],
       [0.55166913, 0.48792607],
       [0.17941733, 0.20585621]])

In [62]:
np.random.random_sample((3, 2))

array([[0.16603822, 0.15927484],
       [0.06625255, 0.96174393],
       [0.33263571, 0.31875839]])

In [63]:
np.random.rand(3, 2)

array([[0.39629588, 0.99991876],
       [0.97723361, 0.85249618],
       [0.46678743, 0.26075134]])

#### 2) randn()
- 표준정규분포 추출
- n: standard normal distribution(표준정규분포는 평균이 0이고, 표준편차가 1인 정규분포)

In [64]:
np.random.randn(3, 2)

array([[-1.22931667, -0.01169503],
       [-1.59977804,  1.52406277],
       [-0.51946239, -0.11712116]])

#### 3) randint()

In [65]:
# 1부터 100사이의 숫자 1개 추출
np.random.randint(1, 100)

82

In [66]:
# 1부터 100사이의 숫자 3개 추출
np.random.randint(1, 100, 3)

array([39, 38,  3])

In [67]:
# 1부터 100사이의 (3, 2) 배열 추출
np.random.randint(1, 100, (3, 2))

array([[27,  1],
       [95, 65],
       [95, 70]])

#### 4) seed 고정

In [68]:
# seed 고정
np.random.seed(1234)
np.random.randn(3)

array([ 0.47143516, -1.19097569,  1.43270697])

### 배열 연산
- `np.add()`
- `np.subtract()`
- `np.divide()`
- `np.multiply()`
- `np.dot()`
- `np.matmul()`

In [69]:
x = np.array([[1, 2], 
             [3, 4]])
y = np.array([[5, 6], 
              [7, 8]])

In [70]:
x + y

array([[ 6,  8],
       [10, 12]])

In [71]:
np.add(x, y)

array([[ 6,  8],
       [10, 12]])

In [72]:
x - y, np.subtract(x, y)

(array([[-4, -4],
        [-4, -4]]),
 array([[-4, -4],
        [-4, -4]]))

In [73]:
x / y, np.divide(x, y)

(array([[0.2       , 0.33333333],
        [0.42857143, 0.5       ]]),
 array([[0.2       , 0.33333333],
        [0.42857143, 0.5       ]]))

In [74]:
x * y, np.multiply(x, y)

(array([[ 5, 12],
        [21, 32]]),
 array([[ 5, 12],
        [21, 32]]))

`np.dot()`, `np.matmul()`
- 2차원 계산은 동일함
- 3차원 이상은 계산 방식이 달라짐

In [75]:
# 행렬 곱
x @ y, np.dot(x, y)

(array([[19, 22],
        [43, 50]]),
 array([[19, 22],
        [43, 50]]))

In [76]:
np.matmul(x, y)

array([[19, 22],
       [43, 50]])

In [77]:
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])

np.matmul(x, y)

32

In [78]:
x = np.array([[1, 2], 
             [3, 4]])
y = np.array([[5, 6], 
              [7, 8]])

np.matmul(x, y)

array([[19, 22],
       [43, 50]])

### np.argmax() 함수
- 주어진 배열에서 가장 큰 값을 가진 값의 인덱스 반환

In [79]:
x = np.random.randn(5, 4)
x

array([[-3.12651896e-01, -7.20588733e-01,  8.87162940e-01,
         8.59588414e-01],
       [-6.36523504e-01,  1.56963721e-02, -2.24268495e+00,
         1.15003572e+00],
       [ 9.91946022e-01,  9.53324128e-01, -2.02125482e+00,
        -3.34077366e-01],
       [ 2.11836468e-03,  4.05453412e-01,  2.89091941e-01,
         1.32115819e+00],
       [-1.54690555e+00, -2.02646325e-01, -6.55969344e-01,
         1.93421376e-01]])

In [80]:
np.argmax(x, axis=1)

array([2, 3, 0, 3, 3])

### 배열 저장: savez()
- 넘파이 배열을 여러 개 저장할 수 있음

In [81]:
x = np.random.randn(5, 4)
y = np.random.randn(3, 3)

In [82]:
x

array([[ 0.55343891,  1.31815155, -0.46930528,  0.67555409],
       [-1.81702723, -0.18310854,  1.05896919, -0.39784023],
       [ 0.33743765,  1.04757857,  1.04593826,  0.86371729],
       [-0.12209157,  0.12471295, -0.32279481,  0.84167471],
       [ 2.39096052,  0.07619959, -0.56644593,  0.03614194]])

In [83]:
y

array([[-2.0749776 ,  0.2477922 , -0.89715678],
       [-0.13679483,  0.01828919,  0.75541398],
       [ 0.21526858,  0.84100879, -1.44581008]])

In [84]:
# 파일 저장
np.savez('mydata.npz', xvar=x, yvar=y)

In [85]:
# 파일 로딩
mydata = np.load('mydata.npz')

In [86]:
x = mydata['xvar']
x

array([[ 0.55343891,  1.31815155, -0.46930528,  0.67555409],
       [-1.81702723, -0.18310854,  1.05896919, -0.39784023],
       [ 0.33743765,  1.04757857,  1.04593826,  0.86371729],
       [-0.12209157,  0.12471295, -0.32279481,  0.84167471],
       [ 2.39096052,  0.07619959, -0.56644593,  0.03614194]])

In [87]:
x = mydata['yvar']
x

array([[-2.0749776 ,  0.2477922 , -0.89715678],
       [-0.13679483,  0.01828919,  0.75541398],
       [ 0.21526858,  0.84100879, -1.44581008]])