## 01_numpy_tutorial

# 넘파이
---

### Numpy
[NumPy](https://numpy.org/)
- 다차원 배열을 다룬다.
- 차원: 몇 개의 축이 필요한가, 가로의 개수
- **ndarray 객체**
- 넘파이는 메모리를 효율적으로 쓰기 위해서 하나의 타입만 들어갈 수 있음
    - cf) 리스트에는 여러가지 데이터 타입이 들어갈 수 있음(숫자, 문자 등)


In [5]:
import numpy as np

np.__version__ # 버전 확인

'1.21.0'

In [6]:
john = [10, 8, 6, 7]
x = np.array(john)

print(type(x)) # 객체의 타입, 그 객체에 맞는 함수를 사용할 수 있음

<class 'numpy.ndarray'>


In [12]:
john = [10, 8, 6, 7]
x = np.array(john)

# print(x)
type(x)

numpy.ndarray

In [7]:
# 네모 박스: commend cell
# 제일 마지막 라인의 출력만 나옴
x

array([10,  8,  6,  7])

In [8]:
print(x) # ndarray type인지 list인지 헷갈린다.

[10  8  6  7]


In [10]:
john

[10, 8, 6, 7]

In [16]:
john = [10, 8, 6, 7]
x = []

for c in john:
    x.append(c+1)

print(x)

[11, 9, 7, 8]


In [18]:
# 리스트 내포(전처리할 때 자주 사용됨)
x = [c+1 for c in john]
x

[11, 9, 7, 8]

In [19]:
john = np.array(john)
john

array([10,  8,  6,  7])

In [20]:
# numpy의 broadcasting 기능
john + 1

array([11,  9,  7,  8])

In [None]:
# 데이터의 양이 많으면, python의 list보다 numpy 배열이 훨씬 빠르다

- [markdown 문법](https://gist.github.com/ihoneymon/652be052a0727ad59601)

### 다차원 배열

In [None]:
# 데이터를 다룰 때, 차원을 알아야 함
# 4차원: 컬러 이미지(3차원)가 여러 개 있는 타입

In [22]:
scores = [[1, 2, 3, 4],
         [5, 6, 7, 8]] #  2차원 배열
X = np.array(scores)
X

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [23]:
X.shape # 모델에 입력하기 전에 데이터의 모양을 맞추기 위해..

(2, 4)

In [24]:
X.dtype

dtype('int32')

In [None]:
# 여러 개의 데이터를 넘겨주고 싶을 때, 리스트나 튜플로
# 딥러닝의 경우, 튜플로

In [26]:
y = np.array([1., 2., 3., 4.])
y.shape # 1차원 배열

(4,)

In [28]:
x = []
type(x)

list

In [29]:
x = ()
type(x)

tuple

In [31]:
x = (4)
type(x)

int

In [32]:
x = (4,)
type(x)

tuple

In [27]:
type((4,)), type((4))

(tuple, int)

In [33]:
y.dtype

dtype('float64')

In [None]:
#### 함수 연산과 축(axis)
# 1D array: 1차원 array는 axis 0
# 2D array: 2차원 array는 axis 0, axis 1 => 더하는 방법(3가지): 1. 다 더하는 방법, 2. axis=0, 3. axis=1
# 3D array: 3차원 array는 axis 0, axis 1, axis 2

In [38]:
np.sum(scores)

36

In [36]:
np.sum(scores, axis=0)

array([ 6,  8, 10, 12])

In [37]:
np.sum(scores, axis=1)

array([10, 26])

### 1차원

In [58]:
list(range(1, 10))

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [59]:
X = np.arange(0, 9)
X

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [60]:
X.shape # 1차원 데이터

(9,)

In [61]:
y = X.reshape((3, 3)) # ndarray이므로 점(.)을 찍을 수 있다.
y.shape

(3, 3)

In [62]:
y

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [67]:
X.reshape(-1, 3, 3)

array([[[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]])

In [68]:
X.reshape(1, 3, 3) # 3차원

array([[[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]]])

In [73]:
X = np.arange(0, 16)
X = X.reshape(4, 4)
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [74]:
X = X.reshape(2, 4, 2)
X.shape # 요소2개->4개->2

(2, 4, 2)

In [75]:
X

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]]])

In [76]:
X = np.array([1, 2, 3]) # 1차원
y = np.array([[1], [2], [3]]) # 2차원

In [77]:
X.shape

(3,)

In [78]:
y.shape # 요소1개->3개

(3, 1)

In [80]:
y.reshape(3)

array([1, 2, 3])

In [81]:
y.reshape(-1)

array([1, 2, 3])

In [87]:
y.reshape(y.shape[0])

array([1, 2, 3])

In [84]:
y.reshape(len(y))

array([1, 2, 3])

In [89]:
X = np.arange(0, 16)
X = X.reshape(-1, 4, 2)

In [90]:
X

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]]])

In [None]:
# 컬러 이미지 데이터=>(-1, 224, 224, 3)

### 슬라이싱, 인덱싱
- 슬라이싱: 범위 지정
- 인덱싱: 포인트 지정

In [94]:
# 인덱싱
X = np.array([4, 5, 6, 7, 8, 9, 0])
X[2]

6

In [95]:
# 맨 마지막 인덱싱
X[-1]

0

In [96]:
# 슬라이싱
X[1:4]

array([5, 6, 7])

In [97]:
# 슬라이싱
X[:4]
X[0:4]

array([4, 5, 6, 7])

In [98]:
X[:-1] # 맨 마지막 제거

array([4, 5, 6, 7, 8, 9])

In [99]:
X[:] # 전체

array([4, 5, 6, 7, 8, 9, 0])

In [100]:
X[:-1] # 속성
X[-1] # 타겟

0

In [103]:
# 인덱싱
X = np.array([[4, 5, 6], 
              [8, 9, 0]])
X

array([[4, 5, 6],
       [8, 9, 0]])

In [106]:
X[0, 0]

4

In [109]:
# fancy indexing
X[0, [1, 2]]

array([5, 6])

In [108]:
X[0, 1:] # indexing, slicing

array([5, 6])

In [110]:
X = np.array([1, 2, 3, 4, 5])
idx = [False, False, False, False, False]
X[idx]

array([], dtype=int32)

In [111]:
# boolean indexing
X = np.array([1, 2, 3, 4, 5])
idx = [False, True, False, True, False]
X[idx]

array([2, 4])

In [114]:
X = np.array([1, 5, 3, 7, 6])
X[X > 6] # X > 6 boolean indexing

array([7])

In [115]:
X = np.array([1, 5, 3, 7, 6])
X[X > 5] # X > 5 boolean indexing

array([7, 6])

In [116]:
# 축 지정하기
X = np.array([[1, 2, 3], 
              [3, 4, 5]])
X

array([[1, 2, 3],
       [3, 4, 5]])

In [None]:
# 넘파이의 수학적인 연산

In [117]:
np.sum(X) # 다 더해라

18

In [118]:
np.sum(X, axis=0)

array([4, 6, 8])

In [119]:
np.sum(X, axis=1)

array([ 6, 12])

In [121]:
np.mean(X)

3.0

In [120]:
np.mean(X, axis=0)

array([2., 3., 4.])

In [122]:
np.mean(X, axis=1)

array([2., 4.])

In [123]:
np.mean(X, axis=-1)

array([2., 4.])

In [124]:
# numpy broadcasting=>모든게 되는 것이 아님

X = np.array([1, 2, 3])
X

array([1, 2, 3])

In [125]:
X + 1

array([2, 3, 4])

In [127]:
X + [1, 1, 1]

array([2, 3, 4])

In [131]:
X = np.array([[0], [1], [2]]) # 2차원
X

array([[0],
       [1],
       [2]])

In [134]:
X.shape

(3, 1)

In [132]:
y = np.array([0, 1, 2])
y

array([0, 1, 2])

In [133]:
X + y

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

In [138]:
X = np.array([1, 2, '3'])
X # 실행이 되고, 모두 문자열로 바뀐다

array(['1', '2', '3'], dtype='<U11')

In [141]:
X.astype(np.int32)  # np.int62, 메모리를 줄이기 위한 시도

array([1, 2, 3])

In [None]:
# np.int, np.float

### random 함수: 난수 생성기
  - ML, DL에서 난수로 초기화, 난수를 이용하여 데이터를 섞음
  - 표준화 작업 시, 균등분포(uniform distribution), 정규분포(standard distribution)

- tool: [cmder](https://cmder.app/)

### 난수 생성 함수

In [1]:
import numpy as np
np.__version__ # 버전 확인

'1.21.0'

#### np.random.random()
- [0.0, 1.0) 사이의 값을 반환하는 함수
- uniform distribution

In [5]:
np.random.random(3)

array([0.80386188, 0.46259659, 0.56377531])

In [6]:
np.random.random((2, 2)) # uniform distribution로 원하는 다차원 배열 생성

array([[0.67552176, 0.43613186],
       [0.83174698, 0.68654841]])

In [None]:
# random(), random_sample(), rand()

In [8]:
np.random.random((3, 2)) # size=None

array([[0.92901135, 0.7087254 ],
       [0.93462534, 0.42281408],
       [0.95552157, 0.68289357]])

In [9]:
np.random.random_sample((3, 2)) # size=None

array([[0.03949329, 0.97080591],
       [0.28511123, 0.79234228],
       [0.80347918, 0.45630884]])

In [7]:
np.random.rand(3, 2) # d0, d1, ...

array([[0.98944592, 0.42864381],
       [0.08662706, 0.93070126],
       [0.07770708, 0.68754683]])

#### randn()
- 표준정규분포 추출
- n: standard normal distribution(표준정규분포: 평균이 0, 표준편차가 1인 정규분포)

In [11]:
np.random.randn(3, 2)

array([[-0.64529594,  1.84600478],
       [ 0.05178288,  0.32456144],
       [-0.44459786, -1.3397876 ]])

#### randint()


In [14]:
np.random.randint(1, 100) # 1부터 100 사이의 숫자 1개 추출

50

In [15]:
np.random.randint(1, 100, 3) # 1부터 100 사이의 숫자 3개 추출

array([62, 15, 97])

In [16]:
np.random.randint(1, 100, (3, 2)) # 1부터 100 사이의 (3, 2) 배열 추출

array([[55, 77],
       [19, 85],
       [18, 96]])

In [20]:
np.random.seed(2022) # ML, DL에서는 seed 고정하기
np.random.randn(3)

array([-0.0005279 , -0.27490142, -0.13928556])

### 연산

In [44]:
x = np.array([[1, 2], 
              [3, 4]])
y = np.array([[5, 6], 
              [7, 8]])

In [45]:
x + y

array([[ 6,  8],
       [10, 12]])

In [46]:
np.add(x, y)

array([[ 6,  8],
       [10, 12]])

In [47]:
x-y, np.subtract(x, y)

(array([[-4, -4],
        [-4, -4]]),
 array([[-4, -4],
        [-4, -4]]))

In [48]:
x/y, np.divide(x, y)

(array([[0.2       , 0.33333333],
        [0.42857143, 0.5       ]]),
 array([[0.2       , 0.33333333],
        [0.42857143, 0.5       ]]))

In [49]:
x * y, np.multiply(x, y)

(array([[ 5, 12],
        [21, 32]]),
 array([[ 5, 12],
        [21, 32]]))

- np.dot(), np.matmul()
  - 2차원 계산은 동일함
  - 3차원 이상은 계산 방식이 달라짐

In [50]:
x@y, np.dot(x, y) # 행렬 곱

(array([[19, 22],
        [43, 50]]),
 array([[19, 22],
        [43, 50]]))

In [51]:
np.matmul(x, y)

array([[19, 22],
       [43, 50]])

In [52]:
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])

np.matmul(x, y)

32

In [53]:
x = np.array([[1, 2], 
              [3, 4]])
y = np.array([[5, 6], 
              [7, 8]])

np.matmul(x, y)

array([[19, 22],
       [43, 50]])

#### np.argmax()

In [67]:
x = np.random.randn(5, 4)
x

array([[ 0.3212673 , -1.36955373, -0.21316804, -0.11474626],
       [ 0.62236932,  0.5552443 , -2.95743224, -0.7404756 ],
       [ 0.9445802 ,  1.097988  ,  0.49495839,  1.26100215],
       [ 0.63515109,  0.65740002, -0.78092801, -0.51890806],
       [-0.78217171, -1.40580514, -0.65157147,  0.62651708]])

In [68]:
np.argmax(x, axis=1)

array([0, 0, 3, 1, 3], dtype=int64)

### 저장 savez()
- 넘파이 배열을 여러 개 저장할 수 있음

In [70]:
x = np.random.randn(5, 4)
y = np.random.randn(3, 3)
x

array([[-0.26220762, -1.492324  , -0.51367482,  0.30232325],
       [-1.68503559,  1.81021357, -0.23144082, -0.48362959],
       [-1.21067889, -1.73535342, -0.92426992,  0.95416358],
       [ 1.12984836, -0.59711258, -0.67519295,  2.32168905],
       [ 1.58295323, -1.54052915,  1.44616767,  0.18427423]])

In [71]:
y

array([[ 0.21413282, -0.87147387, -1.25398238],
       [ 1.14069901,  0.20168216,  1.97784089],
       [ 0.00610091,  0.63417783,  0.70990048]])

In [72]:
np.savez('mydata.npz', xvar=x, yvar=y)

In [73]:
# 파일 로딩
mydata = np.load('mydata.npz')

In [75]:
x = mydata['xvar']
x

array([[-0.26220762, -1.492324  , -0.51367482,  0.30232325],
       [-1.68503559,  1.81021357, -0.23144082, -0.48362959],
       [-1.21067889, -1.73535342, -0.92426992,  0.95416358],
       [ 1.12984836, -0.59711258, -0.67519295,  2.32168905],
       [ 1.58295323, -1.54052915,  1.44616767,  0.18427423]])

In [76]:
y = mydata['yvar']
y

array([[ 0.21413282, -0.87147387, -1.25398238],
       [ 1.14069901,  0.20168216,  1.97784089],
       [ 0.00610091,  0.63417783,  0.70990048]])