In [18]:
import numpy as np

### 1. np.array



In [19]:
# 선언
# https://numpy.org/doc/stable/reference/generated/numpy.array.html
np.array(0)

array(0)

In [20]:
# 다양한 type의 list를 넣어줄 수 있음
np.array([1, 2, 3]),\
np.array([[1.5, 2, 3], [4, 5, 6]]),\
np.array(["asdf", "qwertt"]),\
np.array(["a", "asdfasdfasdf"])

(array([1, 2, 3]),
 array([[1.5, 2. , 3. ],
        [4. , 5. , 6. ]]),
 array(['asdf', 'qwertt'], dtype='<U6'),
 array(['a', 'asdfasdfasdf'], dtype='<U12'))

In [21]:
# object도 가능
np.array([{1, 2}, {3, 4}]),\
np.array([1, "asdf", {"hi": "hello"}])

(array([{1, 2}, {3, 4}], dtype=object),
 array([1, 'asdf', {'hi': 'hello'}], dtype=object))

In [22]:
# 일반적으로 generator는 그냥 넣어주면 자동 spread가 안 된다는 점에 유의!
generator = map(lambda x: x, range(10))
zero = 1
zero1 = np.array(zero)
print(zero1)
print(generator)
arr1 = np.array(generator)
arr2 = np.array([*generator])
print(arr1)
print(arr2)
# map 함수는 객체를 만듬 변수 generator 는 객체가 됐고 이걸 그냥 집어 넣으면 객체
# 안에 있는 값이 생성이 되는게 아니라 객체 자체가 들어감 
# map 함수는 제너레이터 객체를 생성하는겨  

1
<map object at 0x7f7ef006ba30>
<map object at 0x7f7ef006ba30>
[0 1 2 3 4 5 6 7 8 9]


In [23]:
# tolist method를 사용해 Python list로 변환해줄 수 있음
# 둘 다 2차원 리스트이지만 
arr1 =np.array([[1, 2, 3], [4, 5, 6]]).tolist() # 타입 속성이 list 이고 
arr2 =np.array([[1, 2, 3], [4, 5, 6]])# 타입 속성이 ndarray 고성능 배열 구조 
print(arr1)
print(arr2)


[[1, 2, 3], [4, 5, 6]]
[[1 2 3]
 [4 5 6]]


### 2. broadcasting

In [24]:
# Python list는 scalar와의 덧셈을 허용하지 않음
[1, 2, 3, 4, 5] + 5

TypeError: can only concatenate list (not "int") to list

In [None]:
# 더해주려면 map 등을 사용하여 직접 순회해야 함
# map 은 함수를 적용될 요소에 적용을 해서 새로운 반복 가능한 객체를 만들어내는데 
# *이거는 언패킹으로 모든 요소를 개별 요소로 풀어내는데 [] 리스트가 있으니 리스트 안에 풀어낸다 
[*map(lambda x: x+5, [1, 2, 3, 4, 5])]

[6, 7, 8, 9, 10]

In [None]:
# NumPy는 그냥 알아서 해줌
# 순서 상관없이 가능
np.array([1, 2, 3, 4, 5]) + 5,\
5 + np.array([1, 2, 3, 4, 5])

(array([ 6,  7,  8,  9, 10]), array([ 6,  7,  8,  9, 10]))

In [None]:
# 다양한 연산자 적용 가능
np.array([1, 2, 3, 4, 5]) * 5,\
np.array([1, 2, 3, 4, 5]) / 5,\
np.array([1, 2, 3, 4, 5]) ** 5,\
np.array([1, 2, 3, 4, 5]) // 5,\
np.array([1, 2, 3, 4, 5]) % 5,\
5 / np.array([1, 2, 3, 4, 5]),\
5 ** np.array([1, 2, 3, 4, 5]),\
5 // np.array([1, 2, 3, 4, 5]),\
5 % np.array([1, 2, 3, 4, 5])

(array([ 5, 10, 15, 20, 25]),
 array([0.2, 0.4, 0.6, 0.8, 1. ]),
 array([   1,   32,  243, 1024, 3125]),
 array([0, 0, 0, 0, 1]),
 array([1, 2, 3, 4, 0]),
 array([5.        , 2.5       , 1.66666667, 1.25      , 1.        ]),
 array([   5,   25,  125,  625, 3125]),
 array([5, 2, 1, 1, 1]),
 array([0, 1, 2, 1, 0]))

In [None]:
# type에 따라 항상 간편하게 되는 건 아님
# 어차피 거의 항상 수 type만 쓸 거라 그렇게 중요하지는 않음
# (다만 pandas 쓸 때 종종 필요, 여기서는 안 다룸)
# https://numpy.org/doc/stable/reference/ufuncs.html
np.array(["asdf", "qwerty"]) + "awef"

UFuncTypeError: ufunc 'add' did not contain a loop with signature matching types (dtype('<U6'), dtype('<U4')) -> None

In [None]:
# NumPy는 내부적으로 C로 구현되어 있기 때문에 broadcasting을 포함한 모든 연산이 Python에 비해 몇백 배는 더 빠름!
# 정말 불가피한 경우가 아니라면 절대 NumPy ndarray를 Python으로 loop 돌지 말 것!!!!!!
# (후술할 기능들을 활용하면 99%의 경우는 vectorization으로 해결할 수 있음)
# (https://en.wikipedia.org/wiki/Array_programming)
# broad casting 이란 넘파이 라이브러리에서 서로 다른 크기의 배열 간에 수학 연산을 수행할 수 있게 해주는 
from timeit import timeit

N = 100000
NUM = 1000

arr_np = np.array(range(N))
arr_py = [*range(N)]

print(f"""\
NumPy broadcasting: {(t_np := timeit(lambda: arr_np+1, number=NUM))}
Python list iteration: {(t_py := timeit(lambda: [*map(lambda x: x+1, arr_py)], number=NUM))}
NumPy ndarray iteration: {(t_dumb := timeit(lambda: [*map(lambda x: x+1, arr_np)], number=NUM))}""")

t_py / t_np, t_dumb / t_np

NumPy broadcasting: 0.029247458005556837
Python list iteration: 5.630526166991331
NumPy ndarray iteration: 11.663964832987403


(192.51335161919252, 398.80268674191524)

### 3. shape, reshape

In [None]:
arr = np.array([[1, 2, 3],
                [4, 5, 6]])
type(arr)

numpy.ndarray

In [None]:
# ndarray는 shape이라는 속성을 가지고 있음 (말 그대로 shape)
# https://numpy.org/doc/stable/reference/generated/numpy.ndarray.shape.html
arr.shape, type(arr.shape)

((2, 3), tuple)

In [None]:
# reshape method로 shape을 바꿔줄 수 있음
# args로 그냥 넣어줘도 되고 iterable한 type으로 넣어줘도 됨
# -1을 넣으면 자동으로 추론됨
# https://numpy.org/doc/stable/reference/generated/numpy.ndarray.reshape.html
arr.reshape(6),\
arr.reshape(3, 2),\
arr.reshape([3, 2]),# 리스트로 받겠따 
arr.reshape((3, 2)),# 인자를 튜플로 받겠다 
arr.reshape(1, 1, -1) # 3차원 배열로 변경 

(array([1, 2, 3, 4, 5, 6]),
 array([[1, 2],
        [3, 4],
        [5, 6]]),
 array([[1, 2],
        [3, 4],
        [5, 6]]),
 array([[1, 2],
        [3, 4],
        [5, 6]]),
 array([[[1, 2, 3, 4, 5, 6]]]))

In [None]:
# 차원수를 나타내는 ndim도 있음
# https://numpy.org/doc/stable/reference/generated/numpy.ndarray.ndim.html
(arr := np.array([[[1, 2], [3, 4], [5, 6]],
                  [[1, 2], [3, 4], [5, 6]]])),\
arr.ndim

(array([[[1, 2],
         [3, 4],
         [5, 6]],
 
        [[1, 2],
         [3, 4],
         [5, 6]]]),
 3)

In [None]:
# np.arange로 range가 들어간 ndarray를 선언할 수 있음
# https://numpy.org/doc/stable/reference/generated/numpy.arange.html
(arr2 := np.arange(10))
# :) 배열을 생성하면서 값을 한 번에 지정할 수 있는 

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
# np.zeros, np.ones로 임의의 shape을 가진 zero/one ndarray를 선언할 수 있음
# https://numpy.org/doc/stable/reference/generated/numpy.zeros.html
# https://numpy.org/doc/stable/reference/generated/numpy.ones.html
np.zeros((3, 4)), np.ones((4, 3))

(array([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]),
 array([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]))

In [None]:
# dtype을 지정해줄 수 있음
np.zeros((3, 4), dtype=int),\
np.zeros((3, 4), dtype=np.uint8),\
np.zeros((3, 4), dtype=str),\
np.zeros((3, 4), dtype=bool)

(array([[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]),
 array([[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]], dtype=uint8),
 array([['', '', '', ''],
        ['', '', '', ''],
        ['', '', '', '']], dtype='<U1'),
 array([[False, False, False, False],
        [False, False, False, False],
        [False, False, False, False]]))

In [None]:
# np.zeros_like, np.ones_like로는 임의의 ndarray에 대해
# 그 ndarray와 같은 shape을 가진 zeros, ones를 선언해줄 수 있음
# https://numpy.org/doc/stable/reference/generated/numpy.zeros_like.html
# https://numpy.org/doc/stable/reference/generated/numpy.ones_like.html
arr = np.arange(12).reshape(3, 4)
np.zeros_like(arr), np.ones_like(arr) # arr 과 같은 동일한 형태와 dtype을 가지며 모든 요소가 zero 
np.zeros((3, 4))

(array([[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]]),
 array([[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]))

In [None]:
# np.full, np.full_like도 있음
# https://numpy.org/doc/stable/reference/generated/numpy.full.html
# https://numpy.org/doc/stable/reference/generated/numpy.full_like.html
np.full((3, 4), 4),\
np.full_like(arr, 4)

(array([[4, 4, 4, 4],
        [4, 4, 4, 4],
        [4, 4, 4, 4]]),
 array([[4, 4, 4, 4],
        [4, 4, 4, 4],
        [4, 4, 4, 4]]))

In [None]:
# np.random.rand도 있음
# https://numpy.org/doc/stable/reference/random/generated/numpy.random.rand.html
np.random.rand(10, 2)

array([[0.57619758, 0.39768426],
       [0.1038751 , 0.24185609],
       [0.6103595 , 0.28776369],
       [0.42824445, 0.78561083],
       [0.94347651, 0.35832466],
       [0.99027412, 0.23295148],
       [0.89482483, 0.48398947],
       [0.4374283 , 0.24076402],
       [0.77394997, 0.65633065],
       [0.72965376, 0.32784481]])

### 4. indexing

https://numpy.org/doc/stable/user/basics.indexing.html

ndarrays can be indexed using the standard Python `x[obj]` syntax, where x is the array and obj the selection. There are different kinds of indexing available depending on obj: basic indexing, advanced indexing and field access.

Most of the following examples show the use of indexing when referencing data in an array. The examples work just as well when assigning to an array. See Assigning values to indexed arrays for specific examples and explanations on how assignments work.

Note that in Python, `x[(exp1, exp2, ..., expN)]` is equivalent to `x[exp1, exp2, ..., expN]`; the latter is just syntactic sugar for the former.

In [None]:
# Python list의 indexing (익숙함)
print(arr := np.arange(12).reshape(3, -1).tolist()) # -1 해당 차원의 크기를 자동으로 계산한다 .

arr[0], type(arr[0]),\
arr[1][3], type(arr[1][3])

[[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]]


([0, 1, 2, 3], list, 7, int)

In [None]:
# np.ndarray의 indexing (다르다!)
print(arr := np.arange(12).reshape(3, -1))

arr[0], type(arr[0]),\
arr[1][3], type(arr[1][3])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


(array([0, 1, 2, 3]), numpy.ndarray, 7, numpy.int64)

In [None]:
# Python list는
#   indexing -> list 반환 -> 그 list에 대해 다시 indexing
# 하는 방식이라 각 축에 대해 각각 indexing을 해줘야 함
# 하지만 np.ndarray는 indexing 방식이 달라서 대괄호 하나에 같이 넣어줘도 됨
# (pandas 써봤으면 익숙할 듯)
arr[0, 2], type(arr[0, 2]) # 원래는 arr[0][2] 이렇게 접근하는데 이렇게 한번에 써도 괜춘하다 

(2, numpy.int64)

In [None]:
# 각 축에 대해 범위 지정 가능
arr[0, :2], arr[:, 1]

(array([0, 1]), array([1, 5, 9]))

In [None]:
# 다른 ndarray를 index로 사용할 수도 있음
idx = np.array([0, 2])
arr[idx], arr[idx, 2] # idx,2 는 0,2 를 사용해서 행을 선택하고 2를 사용하여 해당 행의 세 번째 요소를 선택 

(array([[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]]),
 array([ 2, 10]))

In [None]:
# bool indexing 가능
arr = np.arange(30).reshape(5, 6)
arr % 2 == 0 , # true false 집어 넣는거
arr[arr % 2 == 0] # true 값만 출ㅕㄱ하는거 

(array([[ True, False,  True, False,  True, False],
        [ True, False,  True, False,  True, False],
        [ True, False,  True, False,  True, False],
        [ True, False,  True, False,  True, False],
        [ True, False,  True, False,  True, False]]),
 array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28]))

In [None]:
# indexing으로 값을 assign해줄 수 있음
arr[arr % 2 == 0] = 100
arr # true 값을 다르게 집어 넣기 

array([[100,   1, 100,   3, 100,   5],
       [100,   7, 100,   9, 100,  11],
       [100,  13, 100,  15, 100,  17],
       [100,  19, 100,  21, 100,  23],
       [100,  25, 100,  27, 100,  29]])

In [None]:
# 팬시 인덱싱
arr = np.array([10, 20, 30, 40, 50])
idx = np.array([0, 2, 4])
result = arr[idx]
print(result)  # 출력: [10 30 50]

# 일반 인덱싱 
arr = np.array([10, 20, 30, 40, 50])
result = arr[1]
print(result)  # 출력: 20

In [None]:
# indexing한 결과는 index ndarray의 shape과 원본 array의 value를 가짐
# np.array > 새로운 넘파이 배열을 생성하는거고 
(arr := np.flip(np.arange(10))),# 플립은 거꾸로 
arr[np.array([[1, 3, 4], [4, 5, 6]])] # 펜시 인덱싱 추가로 []이거를 사용해서 arr에 값들을 생성해서 하나더 만듬 

(array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0]),
 array([[8, 6, 5],
        [5, 4, 3]]))

### 5. axis

In [None]:
# sum method를 그냥 쓰면 모든 원소에 대한 합이 반환됨
print(arr := np.arange(12).reshape(3, -1))
arr.sum()

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


66

In [None]:
# axis를 지정해주면 각 축을 기준으로 나눠 계산한 함수값을 얻을 수 있음
arr.sum(axis=0), arr.sum(axis=1) # 0은 열이고 1은 행이네 

(array([12, 15, 18, 21]), array([ 6, 22, 38]))

In [None]:
# axis도 음수 indexing을 지원함
# var 평균으로 부터 얼마나 떨어져있는지 
# 0은 열 , 1 행 -1 열 -2 행 
arr.var(0), arr.var(1), arr.var(-2), arr.var(-1)

(array([10.66666667, 10.66666667, 10.66666667, 10.66666667]),
 array([1.25, 1.25, 1.25]),
 array([10.66666667, 10.66666667, 10.66666667, 10.66666667]),
 array([1.25, 1.25, 1.25]))

### 6. matrix multiplication

In [None]:
# np.matmul을 사용해 행렬곱을 계산할 수 있음
# https://numpy.org/doc/stable/reference/generated/numpy.matmul.html
# rand 는 0과 1 사이에 난수를 생성하는 
# 행렬 곱을 할려면 앞의 열의 수와 뒤의 행수가 맞아야 함 
matmul = np.matmul(np.random.rand(3, 4), np.random.rand(4, 5))
matmul, matmul.shape

(array([[1.02895413, 1.26322466, 0.92822828, 1.03067667, 1.08713945],
        [1.42654049, 1.72142769, 0.99927296, 1.21795689, 1.39865419],
        [1.00527738, 1.30838897, 0.9688197 , 0.99345965, 1.16352265]]),
 (3, 5))

In [None]:
# Python 3.5부터는 동일한 기능의 `@` 연산자가 지원됨
# https://peps.python.org/pep-0465/
np.random.rand(3, 4) @ np.random.rand(4, 5)

array([[0.35414023, 0.56397826, 0.82080352, 1.00452303, 0.45001898],
       [0.84045558, 1.10986575, 1.48129959, 1.67266153, 1.49022925],
       [0.67180036, 1.0921813 , 1.06036805, 1.27995334, 1.18820162]])

In [None]:
# ndim 1짜리도 차원을 잘 맞춰주면 가능
np.random.rand(5) @ np.random.rand(5),\
np.random.rand(5) @ np.random.rand(5, 3) @ np.random.rand(3)

(2.4841264070665816, 2.499756659580059)

In [None]:
# 행렬곱은 가장 마지막 두 차원에 대해서만 적용됨
# 나머지는 일종의 batch라고 보면 될 듯
# rand 안에 들어가 있는 갯수 만큼 차원을 나타내고 , 그 안에 shpae 는 숫자로 나타내고 
# 차원 수 : 인자의 개수로 결정 
# 각 차원의 크기 : 각 인자의 값으로 결정 
(np.random.rand(30, 10, 20, 3, 4) @ np.random.rand(30, 10, 20, 4, 5)).shape

(30, 10, 20, 3, 5)

In [None]:
# np.dot도 있는데 얘는 np.matmul과 다름!
# https://numpy.org/doc/stable/reference/generated/numpy.dot.html
# dot은 내적곱이고 , matuml 은 행렬 곱 
# npdot은 다차원 배열의 마지막 두 축을 따라 내적을 계산 할 때 
# matuml 은 다차원 배열의 행렬 곱셈을 수행할 때, 브로드캐스팅 규칙을 적용하여 계산할 때 
np.dot(np.random.rand(10, 3, 4), np.random.rand(10, 4, 5)).shape

(10, 3, 10, 5)

### 7. broadcasting 2

https://numpy.org/doc/stable/user/basics.broadcasting.html

The term broadcasting describes how NumPy treats arrays with different shapes during arithmetic operations. Subject to certain constraints, the smaller array is “broadcast” across the larger array so that they have compatible shapes. Broadcasting provides a means of vectorizing array operations so that looping occurs in C instead of Python. It does this without making needless copies of data and usually leads to efficient algorithm implementations. There are, however, cases where broadcasting is a bad idea because it leads to inefficient use of memory that slows computation.

In [None]:
# 기본적으로 np.ndarray끼리 shape이 맞으면 element-wise로 연산이 가능함 > wise랑 각 요소에 대해 개별적으로 수행되는 연산 
# 브로드캐스팅 차원을 맞춰주고 크기도 맞춰줘서 계산 가능하게 해줌 
# 두 배열의 차원수가 다르면 더 작은 배열의 앞쪽에 1을 추가하여 맞춰주고 > 동일 해야 계산이 가능하니 
# 크기 도 확장해준다 . 
# 2이 이상 차이가 나도 (3,) 이었는데 앞에 추가해서 (1,1,3) 으로 만들어서 진행함 
# 브로드캐스팅은 자동적으로 실행됨 
np.ones((3, 4)) + np.ones((3, 4)),\
np.full((3, 4), 2) * np.full((3, 4), 0.5) # 2 와 0.5 는 2와 0.5 로 꽉 채운다 

(array([[2., 2., 2., 2.],
        [2., 2., 2., 2.],
        [2., 2., 2., 2.]]),
 array([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]))

In [None]:
# shape이 다르더라도 마지막 shape들만 일치하면 연산이 broadcasting됨
# 맨뒤에 있는 4가 맞아야 함 그래야 최소한의 broadcasting 조건에 맞춘거임 
np.zeros((3, 4)) + np.random.rand(4),\
np.zeros((2, 3, 4)) + np.random.rand(3, 4)

(array([[3.26140050e-04, 8.96505981e-01, 8.66986946e-01, 9.48103023e-01],
        [3.26140050e-04, 8.96505981e-01, 8.66986946e-01, 9.48103023e-01],
        [3.26140050e-04, 8.96505981e-01, 8.66986946e-01, 9.48103023e-01]]),
 array([[[0.83142786, 0.58701766, 0.26248931, 0.62964102],
         [0.71525351, 0.6130546 , 0.22301827, 0.76363581],
         [0.04965297, 0.95685862, 0.37065922, 0.56259034]],
 
        [[0.83142786, 0.58701766, 0.26248931, 0.62964102],
         [0.71525351, 0.6130546 , 0.22301827, 0.76363581],
         [0.04965297, 0.95685862, 0.37065922, 0.56259034]]]))

In [None]:
# 확장은 마지막 shape에 대해서만 가능하므로 중간 축에 대해서는 broadcasting이 그냥은 안 됨
# 앞에 차원을 추가하는건 괜찮은데 1,3,5 이런식으로 그러면 중간에 4와 3이 달라져 버리니 계산이 안됨 
# 차원이 안 맞는거면 앞에 만 맞춰주기 가능 
np.random.rand(3, 4, 5) + np.random.rand(3, 5)

ValueError: operands could not be broadcast together with shapes (3,4,5) (3,5) 

In [None]:
# 이 경우 broadcasting하고 싶은 축의 크기를 1로 잡아주면 가능
# 이렇게 하면 1이 브로드캐스팅 해서 4만큼 차원 증가 시킴 
# 브로드캐스팅이라는게 차원을 확장시키는 건가보다 
np.random.rand(3, 4, 5) + np.random.rand(3, 1, 5)

array([[[0.78272212, 1.05302547, 1.26495554, 0.87008855, 0.46766018],
        [0.48420391, 1.237191  , 1.49356965, 0.09908313, 0.54358748],
        [0.84754018, 1.43614255, 0.97486643, 0.4282609 , 1.30186565],
        [1.03392039, 0.75504258, 1.18397431, 0.97190772, 1.09343804]],

       [[1.49648931, 0.97398053, 1.06682536, 1.31644426, 1.38939346],
        [1.07186166, 0.43095672, 1.21837801, 1.34352229, 1.49450152],
        [0.80058364, 0.76496534, 0.99227412, 0.99467391, 1.49471781],
        [0.84047588, 0.41322266, 0.87816537, 0.68124681, 1.19075876]],

       [[1.55586332, 0.89615889, 0.82637602, 0.62842137, 1.80461   ],
        [1.53885767, 1.04177428, 0.68207707, 1.27883062, 0.94736026],
        [0.81430387, 1.57806806, 0.59942655, 0.46179459, 1.45353229],
        [1.5331767 , 1.42546282, 0.32656134, 0.39078352, 1.12534879]]])

In [None]:
# 양쪽에서 broadcasting하는 것도 가능
# 브로드 캐스팅 조건 차원의 크기 가 1일 때 가능하다 2 차원의 짝이 맞을 때 가능하다 
# 차원의 짝을 맞출려고 증가시키기도 하고 그 대신 중간에 값이 있다면 1로 설정을 해야 한다 
# 이게 되는 이유는 1은 > 20으로 증가 시킨다 그래서 20이 되고 30이 된다 그리고 4,6 a,c 로 선택이 된다 
# (a,b)
# (b,c)

(np.random.rand(10, 1, 30, 4, 5) @ np.random.rand(10, 20, 1, 5, 6)).shape

(10, 20, 30, 4, 6)

### 8. squeeze, expand_dims, transpose

In [None]:
# squeeze > 크기가 1인 차원을 제거 
# expand_dims > 배열에 새로운 축을 추가 
# transpose > 배열의 축을 바꾸어줌 

In [None]:
# squeeze method를 사용해 크기가 1인 차원을 없앨 수 있음
# axis를 하나 또는 여럿 지정하는 것도 가능
# 1인 차원을 왜 없애는가 배열의 차원을 간소화하고 데이터 처리와 계산을 더 효율적으로 하기 위해서 이미지 데이터, 시간 시퀸스 데이터가 있음 
# https://numpy.org/doc/stable/reference/generated/numpy.ndarray.squeeze.html
arr = np.random.rand(10, 1, 20, 1, 1, 2)
arr.squeeze().shape, # 1 크기의 차원을 다 지워라 
arr.squeeze(1).shape, # 첫번째 1인 차원을 지워라 
arr.squeeze((1, 3)).shape,# 인덱스 1과 3에 있는 크기가 1인 차원을 지워라 
np.squeeze(arr).shape # 1 지워라 

((10, 20, 2), (10, 20, 1, 1, 2), (10, 20, 1, 2), (10, 20, 2))

In [None]:
# 반대로 np.expand_dims로 새 축을 만들어줄 수도 있음 
# 배열의 새로운 차원을 추가하는 
# https://numpy.org/doc/stable/reference/generated/numpy.expand_dims.html
arr = np.random.rand(10, 20, 2)
np.expand_dims(arr, 1).shape,# 첫번째 인덱스에 추가 
np.expand_dims(arr, (1, 2)).shape # 첫번째 인덱스에 값을 두개 넣어라 

((10, 1, 20, 2), (10, 1, 1, 20, 2))

In [None]:
# transpose도 가능
# 배열의 축을 재배열하는데 사용 
# 어디서 사용 하냐 > 데이터 전처리 (컬럼 순서 변경) 행렬 연사 , 모델 입력 데이터 형태 맞출 때 
# https://numpy.org/doc/stable/reference/generated/numpy.ndarray.transpose.html
arr = np.random.rand(10, 20, 30)
arr.transpose(0, 2, 1).shape,\
arr.transpose(1, 2, 0).shape

((10, 30, 20), (20, 30, 10))

In [None]:
# 두 축끼리만 바꾸고 싶으면 np.moveaxis를 쓸 수 있음
# https://numpy.org/doc/stable/reference/generated/numpy.moveaxis.html
np.moveaxis(arr, -1, -2).shape

(10, 30, 20)

In [None]:
# ndarray.T도 있음
# 모든 축을 반대로 뒤집는 
# https://numpy.org/doc/stable/reference/generated/numpy.ndarray.T.html
arr.T.shape

(30, 20, 10)

### 9. stack, concatenate

In [None]:
# stack , concatenate > 넘파이에서 배열을 결합하는 두 가지 방법 
# stack 은 여러 배열을 새로운 축을 따라 쌓아 새로운 배열 만들기 기존 배열의 차원을 확장하여 새로운 축을 추가 
# concatenate > 여러 배열을 기존 축을 따라 연결 > 새로운 축을 추가하지 않고 주어진 축을 다라 배열을 연결  
# stack 은 쌓는거고 개별적으로 concatenate 는 붙이는 거고 

In [None]:
# np.stack을 사용해 여러 ndarray를 쌓아줄 수 있음
# https://numpy.org/doc/stable/reference/generated/numpy.stack.html
arr0 = np.zeros((2, 5))
arr1 = np.ones((2, 5))
arr2 = np.full((2, 5), 2)

(stack := np.stack([arr0, arr1, arr2])), stack.shape

(array([[[0., 0., 0., 0., 0.],
         [0., 0., 0., 0., 0.]],
 
        [[1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.]],
 
        [[2., 2., 2., 2., 2.],
         [2., 2., 2., 2., 2.]]]),
 (3, 2, 5))

In [None]:
# np.concatenate을 사용해 여러 ndarray를 붙여줄 수 있음
# https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html
(concat := np.concatenate([arr0, arr1, arr2])), concat.shape

(array([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [2., 2., 2., 2., 2.],
        [2., 2., 2., 2., 2.]]),
 (6, 5))

In [None]:
# 둘 다 축 지정 가능 
# 저 1 은 axis =1 임 그래서 열 방향으로 쌓겠다는 말 
# [1 3 5
#  2 4 6 ]
np.stack([arr0, arr1, arr2], 1).shape,\
np.concatenate([arr0, arr1, arr2], 1).shape

((2, 3, 5), (2, 15))

In [None]:
# 파생 기능도 여럿 있음 (궁금하면 알아서 찾아볼 것)
np.column_stack, np.row_stack, np.vstack, np.hstack

(<function column_stack at 0x115139a70>,
 <function vstack at 0x1149b7ab0>,
 <function vstack at 0x1149b7ab0>,
 <function hstack at 0x1149b7c30>)

np.column_stack: 1차원 배열을 열로 쌓아 2차원 배열을 만듭니다. 2차원 배열을 결합할 때는 동일한 차원의 배열을 열로 결합합니다.
np.row_stack: 1차원 배열을 행으로 쌓아 2차원 배열을 만듭니다. 2차원 배열을 결합할 때는 동일한 차원의 배열을 행으로 결합합니다.
np.vstack: 배열을 수직으로 쌓아 새로운 배열을 만듭니다. np.row_stack과 동일하게 작동합니다.
np.hstack: 배열을 수평으로 쌓아 새로운 배열을 만듭니다. np.column_stack과 동일하게 작동합니다.

### 10. 기타 기능

In [None]:
# argsort라는 것도 있음
# https://numpy.org/doc/stable/reference/generated/numpy.argsort.html
(arr := np.random.permutation(30).reshape(5, -1)),# 0부터 29까지 숫자를 랜덤하게 섞어 5,6형태로 재구성한다 
# 여기서 -1 은 numpy가 자동으로 적절한 차원을 계산하도록 한다.
arr.argsort(0),# 배열 arr의 각 열을 정렬했을 때 의 인덱스를 반환 
arr.argsort(1) # 행을 정렬했을 때의 인덱스 반환 
# 0이라고 할 때 그래서 오름차순으로 정렬하기 때문에 9가 제일 낮은 값이라 0 이렇게 쓰고 
# 1은 행으로 하기 때문에 9가 5가 되고 

(array([[ 9,  4, 28, 22, 20,  1],
        [19, 29,  2,  6, 12, 15],
        [26,  5, 27,  3, 11, 17],
        [14,  8, 21, 10, 24,  0],
        [18, 13, 16,  7, 23, 25]]),
 array([[0, 0, 1, 2, 2, 3],
        [3, 2, 4, 1, 1, 0],
        [4, 3, 3, 4, 0, 1],
        [1, 4, 2, 3, 4, 2],
        [2, 1, 0, 0, 3, 4]]),
 array([[5, 1, 0, 4, 3, 2],
        [2, 3, 4, 5, 0, 1],
        [3, 1, 4, 5, 0, 2],
        [5, 1, 3, 0, 2, 4],
        [3, 1, 2, 0, 4, 5]]))

In [None]:
# np.linalg는 이름 그대로 선형대수 관련 기능들이 들어있는 submodule
# 벡터 또는 행렬의 노름을 계산하는데 사용 , 즉 유클리드 노름 을 계산 
# 원점에서 해당 벡터로의 거리를 나타낸다 
# https://numpy.org/doc/stable/reference/routines.linalg.html
np.linalg.norm(np.array([1, 2, 4]))

4.58257569495584

In [None]:
# np.linspace
# 지정된 범위 내에서 균일하게 분할된 수열을 생성 
# https://numpy.org/doc/stable/reference/generated/numpy.linspace.html
np.linspace((10, 20), (30, 40), num=10, axis=0)

array([[10.        , 20.        ],
       [12.22222222, 22.22222222],
       [14.44444444, 24.44444444],
       [16.66666667, 26.66666667],
       [18.88888889, 28.88888889],
       [21.11111111, 31.11111111],
       [23.33333333, 33.33333333],
       [25.55555556, 35.55555556],
       [27.77777778, 37.77777778],
       [30.        , 40.        ]])

In [None]:
# np.eye
# https://numpy.org/devdocs/reference/generated/numpy.eye.html
# 대각선은 1 나머지는 0
np.eye(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [None]:
# 기능이 정말 많으니 필요한 게 있을 때마다 구글링하거나 공식 docs를 뒤적거려보자
# https://numpy.org/doc/stable/index.html