> # [서론]

## numpy
- 넘파이의 주요 컨셉은 n-차원의 행렬이다.
1. 1차원 벡터
2. 2차원 벡터
3. 3차원과 그 이상

## 넘파이의 행렬과 파이썬의 배열의 차이점
- 차원이 늘어날 수 록 행렬은 배열보다 더 간편하다.
- 수직적일때, 배열보다 더 빠르다.
- 끝에 요소를 추가할 때 배열보다 느리다.
- 한개의 자료형으로 이루어졌을 때 오직 더 빠르게 작동한다.

## 1. 1차원 벡터
- 벡터의 초기설정


In [1]:
import numpy as np

In [2]:
a = np.array([1.,2.,3.])
a

array([1., 2., 3.])

- 행렬은 배열과 달리 끝에 요소를 추가할 때 속도가 느리기 때문에 빠른 속도를 위해서는 zeros나 empty를 통해 미리 필요한 공간을 할당하는편이 좋다.

In [3]:
b = np.zeros(3,int)
b

array([0, 0, 0])

In [4]:
b = np.ones(3)
b

array([1., 1., 1.])

In [5]:
b = np.empty(3)
b

array([1., 1., 1.])

In [6]:
b = np.full(3,7)
b

array([7, 7, 7])

- _like를 위 메소드들에게 붙여서 매개변수로 따라하고 싶은 행렬을 넣어주면 그 행렬과 같은 shape 의 행렬을 할당해준다

In [7]:
b = np.ones_like(a)
b

array([1., 1., 1.])

- float형태의 부동소수점 배열이 필요한 경우  agrang를 통해 만들어줄 수 있다.
- 하지만 arange는 float을 처리하는데 그리 좋지는 않다.

In [8]:
np.arange(0.4,0.8,0.1)

array([0.4, 0.5, 0.6, 0.7])

In [9]:
np.arange(0.5,0.8,0.1)

array([0.5, 0.6, 0.7, 0.8])

- 부동소수점이 가진 단점 때문에 위 두 코드의 결과 행렬의 끝원소가 지시한 것과는 다른 결과를 도출한다.
- 하지만 이 문제를 linspace를 이용하면 된다.

In [10]:
np.linspace(0, 1, 11)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

## 벡터 인덱싱
- 행렬의 인덱싱은 views 방식으로 가져오기 때문에 원본 데이터가 수정될 수 있다.
- 행렬을 복사하고 싶다면 .copy()를 통해서 복사해야한다.

In [11]:
a = np.array([1,2,3])
b = a        # 복사 아님 
c = a[:]      # 복사 아님
d = a.copy() # 복사

## 벡터 연산
- 벡터 연산은 c++수준으로 빠른 속도의 계산을 가능하게 해준다

In [12]:
np.array([1,2])+np.array([3,4])

array([4, 6])

- 정수 자료형은 broadcasting 이 되어, 스칼라가 벡터로 승격된다.

In [13]:
np.array([1,2]) + 10

array([11, 12])

- 대부분의 수학기능이 있다.
- 스칼라 곱에는 자체 연산자가 있다.

In [14]:
a = np.array([1,2])

In [15]:
print(a**2)

[1 4]


In [16]:
print(np.sqrt([4,9]))

[2. 3.]


In [17]:
print(np.exp(a))

[2.71828183 7.3890561 ]


In [18]:
print(np.log(np.array([np.e,np.e**2,np.e**10])))

[ 1.  2. 10.]


In [19]:
# 스칼라
a = np.array([1,2])
b = np.array([3,4])
np.dot(a,b)

11

In [20]:
a@b

11

In [None]:
np.cross(a,b)

array(-2)

In [None]:
# 삼각함수도 가능하다
np.arcsin(np.array([0.,1.]))

array([0.        , 1.57079633])

- 행렬은 반올림도 된다.

In [None]:
a = np.array([1.1, 1.5, 1.9, 2.5])
np.floor(a)

array([1., 1., 1., 2.])

In [None]:
np.ceil(a)

array([2., 2., 2., 3.])

In [None]:
np.round(a)

array([1., 2., 2., 2.])

- 기본적인 통계도 가능하다.

In [None]:
a = np.array([1,2,3])
np.max(a)

3

In [None]:
a.max()

3

In [None]:
a.min()

1

In [None]:
a.sum()

6

In [None]:
a.var()

0.6666666666666666

In [None]:
a.argmax()

2

In [None]:
a.argmin()

0

In [None]:
a.mean()

2.0

In [None]:
a.std()

0.816496580927726

- std, car 둘다 Bessel's correction을 무시하고 편향된 결과를 도출한다.
- 덜 편향된 결과를 도출하기 위한 전형적인 접근은 분모에 포함시키는 것이다.

In [None]:
a = np.array([1,2,3])
a.std()

0.816496580927726

In [None]:
a.std(ddof=1)

1.0

In [None]:
import pandas as pd
pd.Series(a).std()

1.0

- 샘플의 크기가 증가할수록 Bessel's correction의 효과는 빠르게 감소한다.

- sort 함수는 파이썬함수보다 기능이 적다.
- 1차원의 경우는 reversed키워드를 통해 보완할 수 있지만 2차원부터는 까다롭다.

## 벡터에서 요소검색
- 파이썬의 배열과 달리 넘파이의 행렬은 index 매서드가 없다.
- ```np.where(a==x)[0][0]``` 은 요소를 찾는 방법중 하나이다. 하지만 찾고자 하는 요소가 맨 처음에 있어도 행렬의 모든것을 다 찾아보기 때문에 느리고 비효율적이다.
- 사실 C로 구현하는 것으로 검색하는 속도는 문제가 되지 않는다. 문제는 float 비교이다.

## 부동소수점 비교
- np.allclose(a,b)함수로 주어진 허용오차내로 부동소수점 행렬을 비교한다.

In [None]:
0.1 +0.2 == 0.3

False

In [None]:
np.allclose(0.1 + 0.2, 0.3)

True

In [None]:
import math
math.isclose(0.1 + 0.2, 0.3)

True

In [None]:
1e-9 == 2e-9

False

In [None]:
np.allclose(1e-9, 2e-9)

True

In [None]:
math.isclose(1e-9, 2e-9)

False

In [None]:
0.1 + 0.2 -0.3 == 0

False

In [None]:
np.allclose(0.1 + 0.2 - 0.3,0)

True

In [None]:
math.isclose(0.1 + 0.2 - 0.3,0) # 문제발생

False

In [None]:
np.allclose(1e-9, 2e-9, atol=1e-17) == False

True

## 2차원 행렬
- 넘파이에는 전용 matrix클래스가 있었지만 더이상 사용하지 않는다
- 행렬과 2차원 배열은 같은 의미이다.

In [None]:
a = np.array([[1,2,3],[4,5,6]])
a

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
np.zeros((3,2))

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [None]:
np.ones((3,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [None]:
np.full((3,2),7)

array([[7, 7],
       [7, 7],
       [7, 7]])

In [None]:
np.empty((3,2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

- 이중괄호는 필수이다.
- 왜냐하면, 두번째 매개변수는 옵션으로 dtype을 제공하기 떄문이다.(정수도 포함됨)
- 랜덤행렬생성도 비슷하다.

In [None]:
np.random.randint(0,10,(3,2))

array([[9, 4],
       [5, 0],
       [4, 6]])

In [None]:
np.random.rand(3,2)

array([[0.59147999, 0.23123684],
       [0.39611208, 0.00488698],
       [0.48446879, 0.17913999]])

In [None]:
np.random.uniform(1, 10, (3,2))

array([[5.49777056, 2.97979833],
       [3.56361331, 1.30813728],
       [2.71385535, 8.90065871]])

In [None]:
np.random.randn(3,2)

array([[ 0.37210816,  1.18841566],
       [ 0.84601708,  1.36596688],
       [-0.96716173, -1.0308939 ]])

In [None]:
np.random.normal(10,2,(3,2))

array([[ 9.66757251, 10.68218519],
       [13.09374086,  8.6836337 ],
       [10.85083476,  6.7234325 ]])

- 어디에나있는 이중괄호는 새로운 스타일의 그들만의 인터페이스를 찾았다.
- np.eye는 shape이 어떻게 생겼는지 이쁘게 보여준다.

In [None]:
rng = np.random.default_rng()

In [None]:
rng.integers(0,10,3)

array([9, 3, 4])

In [None]:
rng.integers(0,10,3,endpoint=True)

array([3, 8, 1])

In [None]:
rng.random(3)

array([0.11143301, 0.81463918, 0.7197224 ])

In [None]:
rng.standard_normal(3)

array([0.2555484 , 0.24075937, 1.45372088])

In [None]:
rng.uniform(1,10,3)

array([7.24731198, 7.5789642 , 5.30372287])

In [None]:
rng.standard_normal(3)

array([-0.96825395,  0.7968537 ,  0.79205674])

In [None]:
rng.uniform(1,10,3)

array([7.12973595, 6.75088433, 4.2118105 ])

In [None]:
rng.normal(5,2,3)

array([5.25825857, 3.90450901, 4.72740104])

- 2차원 행렬의 indexing 중첩배열의 indexing 더 편리하다.
- 행렬에서의 indexing은 view이기 때문에 수정하게 되면 원본도 수정된다.

## 축(axis)
- 축과 열을 통해 계산하려면 넘파이에게 계산에 대해 알려줘야 한다.
- 임의의 수의 차원에서 작동하는 보편적인 표기법을 취하기 위해선 넘파이는 축의 개념을 도입한다.
- 열은 axis = 0
- 행은 axis = 1

In [None]:
a = np.array([[1,2,3],[4,5,6]])
np.sum(a)

21

In [None]:
a.sum(axis=0)

array([5, 7, 9])

In [None]:
a.sum(axis=1)

array([ 6, 15])

- axis = 0 은 행 인덱싱을 담당하므로 열 단위가 아니라 모든 행에 대한 주어진 열 합계로 읽어야 한다.
- 작동하지 않는 특별한 경우, Einstein 합계를 사용할 수 있다.

## 행렬 산수
- 일반 산수외에도 행렬 곱을 계산하는 @연산자가 있습니다.

In [None]:
a = np.array([[1,2],[3,4]])
b = np.array([[1,0],[0,1]])
a+b

array([[2, 2],
       [3, 5]])

In [None]:
a-b

array([[0, 2],
       [3, 3]])

In [None]:
a*b

array([[1, 0],
       [0, 4]])

In [None]:
a@b

array([[1, 2],
       [3, 4]])

In [None]:
a = np.array([[1.,2.],[3.,4.]])
b = np.array([[1.,2.],[2.,1.]])
a/b

array([[1. , 1. ],
       [1.5, 4. ]])

In [None]:
a**b

array([[1., 1.],
       [1., 4.]])

- broadcasting으로 넘파이는 벡터와 행렬 사이, 두 벡터 사이에서도 혼합 연산을 허용한다.

In [None]:
a = np.arange(1,10).reshape(3,3)
a/9

array([[0.11111111, 0.22222222, 0.33333333],
       [0.44444444, 0.55555556, 0.66666667],
       [0.77777778, 0.88888889, 1.        ]])

In [None]:
a*np.array([-1,0,1])

array([[-1,  0,  3],
       [-4,  0,  6],
       [-7,  0,  9]])

In [None]:
a/np.array([[[3],[6],[9]]])

array([[[0.33333333, 0.66666667, 1.        ],
        [0.66666667, 0.83333333, 1.        ],
        [0.77777778, 0.88888889, 1.        ]]])

In [None]:
np.array([3,6,9])*np.array([[[3],[6],[9]]])

array([[[ 9, 18, 27],
        [18, 36, 54],
        [27, 54, 81]]])

- 대칭적인 요소별 곱셈
- 비대칭 선형 대수 행렬 곱셈을 사용하여 외적을 계산하려면 피연산자의 순서를 반대로 해야한다.

In [None]:
a = np.array([[1,2,3]])
a.reshape(3,1)@a

array([[1, 2, 3],
       [2, 4, 6],
       [3, 6, 9]])

In [None]:
a@a.reshape(3,1)

array([[14]])

## 행 벡터와 열 벡터
- 위에서 보듯이 행과 열벡터는 서로 다르게 처리된다.
- 1차원 행렬은 2차원 연산에서 행 벡터로 취급되므로 행렬에 행 벡터를 곱할 때 (1,n) or (,n)모양으로 쓸 수 있다.
- 열 벡터가 필요한 경우 1차원 배열로 부터 만드는 방법은 여러가지 있지만 놀랍게도 transpose는 그중에 포함되지 않는다.

In [None]:
np.array([[1,2,3]]).reshape(3,1)

array([[1],
       [2],
       [3]])

- 1차원 배열에서 2차원 열 벡터를 만들 수 있는 두가지 작업은 newaxis 를 사용하여 모양을 변경하고 인덱싱 하는 것이다.

In [None]:
a = np.array([1,2,3,4,5,6])
a.reshape(1,-1)

array([[1, 2, 3, 4, 5, 6]])

In [None]:
a[None, :]

array([[1, 2, 3, 4, 5, 6]])

In [None]:
a.reshape(-1,1)

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [None]:
a[:,None]

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

In [None]:
a.reshape(2,3)

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
a.reshape(2,-1)

array([[1, 2, 3],
       [4, 5, 6]])

- -1요소는 reshape에게 차원크기를 자동으로 계산하도록 말한다.
- 대괄호 안에 None은 빈공간을 디자인해주고 빈 축을 만들어주는 단축키를 np.newaxis 에 제공한다.
- 넘파이에게는 3가지 유형의 벡터가 있다 : 1차원 배열, 2차원 행벡터, 2차원 열벡터
- broadcasting 규칙에 따라 1차원 배열은 2차원 행벡터로 해석되므로 일반적으로 둘 사이를 변환할 필요는 없다.


## 행렬 조작
- 배열을 결합하는데는 2가지 주요 방법이 있다.

In [None]:
a = np.arange(1,13).reshape(3,4)
b = np.arange(1,9).reshape(2,4)
c = np.arange(1,7).reshape(3,2)
np.hstack((a,c))

array([[ 1,  2,  3,  4,  1,  2],
       [ 5,  6,  7,  8,  3,  4],
       [ 9, 10, 11, 12,  5,  6]])

In [None]:
np.vstack((a,b))

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

- 이 두가지 일은 행렬이나 벡터를 쌓을 때는 잘 작동하지만 1차원 배열과 행렬을 쌓을 때는 vstack이 오직 예상한 데로 작동한다 : hstack는 차원 불일치 오류를 만들어낸다. 왜냐하면 1차원은 열벡터가 아니라 행벡터로 변환하기 때문이다.
해결방법은 행 벡터로 변환하거나, 특별한 column_stack함수를 사용하는 것이다.

In [None]:
a = np.arange(1,13).reshape(3,4)
b = np.arange(1,9).reshape(2,4)
c = np.arange(1,7).reshape(3,2)
p = np.column_stack((a,c))

In [None]:
# 쌓기의 반대는 분할하는 것이다.
np.hsplit(p,[4])

[array([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]), array([[1, 2],
        [3, 4],
        [5, 6]])]

- 행렬복제는 tile이 복사 붙여넣기 한것처럼 행동하게 하고 repeat 출력한 것들을 모은다.

In [None]:
a = np.array([[1,2],[3,4]])
np.tile(a,(2,3))

array([[1, 2, 1, 2, 1, 2],
       [3, 4, 3, 4, 3, 4],
       [1, 2, 1, 2, 1, 2],
       [3, 4, 3, 4, 3, 4]])

In [None]:
b = a.repeat(3,axis=1)
b.repeat(2,axis=0)

array([[1, 1, 1, 2, 2, 2],
       [1, 1, 1, 2, 2, 2],
       [3, 3, 3, 4, 4, 4],
       [3, 3, 3, 4, 4, 4]])

- 특정한 열과 행의 삭제는 delete로 한다.

In [None]:
a = np.arange(1,16).reshape(3,5)
np.delete(a,[1,3],axis=1)

array([[ 1,  3,  5],
       [ 6,  8, 10],
       [11, 13, 15]])

In [None]:
np.delete(a,1,axis=0)

array([[ 1,  2,  3,  4,  5],
       [11, 12, 13, 14, 15]])

In [None]:
np.delete(a,np.s_[1:-1], axis=1)

array([[ 1,  5],
       [ 6, 10],
       [11, 15]])

In [None]:
np.delete(a, slice(1,-1), axis=1)

array([[ 1,  5],
       [ 6, 10],
       [11, 15]])

In [None]:
# 삽입 연산
a = np.arange(1,16).reshape(3,5)
np.insert(a, [1,2],0, axis=1)

array([[ 1,  0,  2,  0,  3,  4,  5],
       [ 6,  0,  7,  0,  8,  9, 10],
       [11,  0, 12,  0, 13, 14, 15]])

In [None]:
np.insert(a,1,7,axis=0)

array([[ 1,  2,  3,  4,  5],
       [ 7,  7,  7,  7,  7],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15]])

In [None]:
b = np.arange(1,10).reshape(3,3)
np.insert(a,[1],b,axis=1)

array([[ 1,  1,  2,  3,  2,  3,  4,  5],
       [ 6,  4,  5,  6,  7,  8,  9, 10],
       [11,  7,  8,  9, 12, 13, 14, 15]])

- append 함수는 hstack함수와 마찬가지로 자동으로 1차원 배열을 변환하지 않는다
- 그 벡터를 사용하기 위해서 모양을 바꾸거나, 차원을 추가하거나 column_stack을 사용해야한다.

In [None]:
a = np.arange(1,16).reshape(3,5)
np.append(a, np.arange(1,7).reshape(3,2),axis=1)

array([[ 1,  2,  3,  4,  5,  1,  2],
       [ 6,  7,  8,  9, 10,  3,  4],
       [11, 12, 13, 14, 15,  5,  6]])

In [None]:
a = np.arange(1,16).reshape(3,5)
print(a)
np.column_stack(a)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]]


array([[ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14],
       [ 5, 10, 15]])

In [None]:
np.append(a,[[1,1,1,1,1]], axis=0)

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [ 1,  1,  1,  1,  1]])

- 상수를 배열의 border(s)에 추가하기만 하면 pad함수로 충분하다.

In [None]:
a = np.arange(1,16).reshape(3,5)
np.pad(a,((0,0),(0,2)))

array([[ 1,  2,  3,  4,  5,  0,  0],
       [ 6,  7,  8,  9, 10,  0,  0],
       [11, 12, 13, 14, 15,  0,  0]])

In [None]:
np.pad(a,((0,1),(0,0)), constant_values=1)

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [ 1,  1,  1,  1,  1]])

In [None]:
np.pad(a,1)

array([[ 0,  0,  0,  0,  0,  0,  0],
       [ 0,  1,  2,  3,  4,  5,  0],
       [ 0,  6,  7,  8,  9, 10,  0],
       [ 0, 11, 12, 13, 14, 15,  0],
       [ 0,  0,  0,  0,  0,  0,  0]])

## 메쉬그리드 meshgrids
- 브로드캐스팅 규칙을 사용하면 meshgrid작업을 더 쉽게 수행가능하다.

In [None]:
a = np.empty((2,3))
for i in range(2):
  for j in range(3):
    a[i, j] = j-i

In [None]:
c = [[(j-i) for j in range(3)]for i in range(2)]
a = np.array(c)

- 두가지 방식은 파이썬 루프문을 사용하므로 느리다.

In [None]:
i,j = np.arange(2), np.arange(3)

In [None]:
I,J = np.meshgrid(i,j, indexing='ij')

In [None]:
I,J = np.mgrid[:3,:3]

In [None]:
I,J = np.indices((2,3))

In [None]:
A = np.fromfunction(lambda i,j : j-i,(2,3))
A

array([[ 0.,  1.,  2.],
       [-1.,  0.,  1.]])

-  매쉬그리드 함수는 임의의 인덱스를 허용하며, mgrid는 슬라이스와 indices만 허용하며 전체 인덱스 범위만 생성할 수 있다.
- fromfunction는 i,j인수를 사용하여 제공된 함수를 한번만 호출한다.

- 하지만 넘파이가 더 나은 방법을 제공해준다.
- 적절한 모양의 벡터를 저장하는 것 만으로도 broadcasting이 처리를 해준다

In [None]:
i,j = np.arange(2), np.arange(3)

In [None]:
I,J = np.meshgrid(i,j, sparse=True, indexing='ij')

In [None]:
I,J = np.ogrid[:2,:3]

In [None]:
I,J = np.indices((2,3), sparse=True)

In [None]:
J-I

array([[ 0,  1,  2],
       [-1,  0,  1]])

- indexing = 'i,j'가 없으면, meshgrid의 순서가 바뀐다.
- 2차원 3차원 그리드에서 함수를 초기화하는것 외에도, 배열을 인덱싱하기위해 매쉬는 유용하게 쓰인다.

In [None]:
from numpy.lib import shape_base
a = np.array([[1,2],[3,4]])
I,J = np.indices(a.shape)

In [None]:
a[I,J]

array([[1, 2],
       [3, 4]])

In [None]:
a[J,I]

array([[1, 3],
       [2, 4]])

## 행렬 통계
- sum 과 마찬가지로 다양한 계산들을 축에대해 할 수 있다.

In [None]:
a = np.array([[1,2,3],[4,5,6]])
m = a.min()
m

1

In [None]:
mj = a.min(axis=0)
mj

array([1, 2, 3])

In [None]:
mi = a.min(axis=1)
mi

array([1, 4])

- argmin, argmax함수는 2차원 이상을 다루는 데 문제가 있다.
- 두 좌표로 변환하려면 unravel_index함수가 필요하다

In [None]:
a = np.array([[1,2,3],[4,5,6]])
k=a.argmin()
k

0

In [None]:
zj=a.argmin(axis=0)
zj


array([0, 0, 0])

In [None]:
zi = a.argmin(axis=1)
zi

array([0, 0])

In [None]:
np.unravel_index(a.argmin(),a.shape) # == k

(0, 0)

## 매트릭스 정렬
- 축은 나열된 것들에게는 도움이 되지만, 2차원 정렬에는 도움이 되지 않는다.

In [None]:
a = np.array([[1,22,3],[4,55,6]])
a.sort(axis=0)
a

array([[ 1, 22,  3],
       [ 4, 55,  6]])

In [None]:
a = np.array([[1,22,3],[4,55,6]])
a.sort(axis=1)
a

array([[ 1,  3, 22],
       [ 4,  6, 55]])

- 이 방식은 보통 원하던 정렬방식이 아닐 것이다.
- 축은 key를 대체할 수 없다.
- 하지만 넘파이는 열, 여러 열을 기준으로 정렬할 수 있는 도우미 함수가 있다.

1. 첫번쨰 열을 기준으로 배열 정렬

In [None]:

a = np.array([7,6,2,3]).reshape(4,1)
np.sort(a)
a

array([[7],
       [6],
       [2],
       [3]])

In [None]:
np.argsort(a)
a

array([[7],
       [6],
       [2],
       [3]])

In [None]:
b = np.random.random(12).reshape(4,3)
print(b)
print(b[np.argsort(b[:,0])])

[[0.07913826 0.25862445 0.20787164]
 [0.27942964 0.47225923 0.84444965]
 [0.73088674 0.11870516 0.15196411]
 [0.0325748  0.24510506 0.26331408]]
[[0.0325748  0.24510506 0.26331408]
 [0.07913826 0.25862445 0.20787164]
 [0.27942964 0.47225923 0.84444965]
 [0.73088674 0.11870516 0.15196411]]


2.  모든 열을 기준으로 정렬하는 도우미 함수 lexsort가 있지만 항상 행 단위로 수행되며 정렬할 행의 순서가 반전되므로 사용법이 약간 인위적인 예이다.

In [None]:
a=np.random.random(8).reshape(4,2)
print(a)
b = np.rot90(a)
print(b)
c = np.lexsort(b)
print(c)
a[c]

[[0.68922916 0.60228876]
 [0.44748816 0.95155465]
 [0.87554373 0.82728496]
 [0.34489005 0.24777325]]
[[0.60228876 0.95155465 0.82728496 0.24777325]
 [0.68922916 0.44748816 0.87554373 0.34489005]]
[3 1 0 2]


array([[0.34489005, 0.24777325],
       [0.44748816, 0.95155465],
       [0.68922916, 0.60228876],
       [0.87554373, 0.82728496]])

3. sort의 order를 사용하려면 배열을 구조화된 형식으로 바꿔야한다.
- 그런다음 마지막으로 일반형식으로 다시 반환한다.

In [None]:
a = np.random.random(8).reshape(4,2)
print(a)
from numpy.lib.recfunctions import unstructured_to_structured as u2s, structured_to_unstructured as s2u

b = u2s(a)
print(b)
b.sort(order=('f1','f0'))
s2u(b)

[[0.58731335 0.79127743]
 [0.48875669 0.52140687]
 [0.56201199 0.60945576]
 [0.33133222 0.49925642]]
[(0.58731335, 0.79127743) (0.48875669, 0.52140687)
 (0.56201199, 0.60945576) (0.33133222, 0.49925642)]


array([[0.33133222, 0.49925642],
       [0.48875669, 0.52140687],
       [0.56201199, 0.60945576],
       [0.58731335, 0.79127743]])

- 이 두변환은 빠르고 메모리를 추가로 필요로 하지 않는다. 하지만 u2s와 s2u기능을 임포트해와야 한다.
4. 판다스에서 수행하는 것이 더 좋을 수 있다.
- 더 읽기 쉽고 오류가 덜난다.
- ```pd.DataFrame(a).sort_values(by=[2,5]).to_numpy()``` 2열에 대해 정렬한 다음 5열에 대해 정렬한다
- ```pd.DataFrame(a).sort_values().to_numpy()``` 왼쪽에서 오른쪽으로 모든 열을 기준으로 정렬

# 3. 3차원 이상

In [None]:
 arr = np.arange(1,9).reshape(2,2,2)
 arr

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

In [None]:
arr.shape

(2, 2, 2)

- 이 인덱스는 회색의 이미지를 관리하기 편하다.
- 그러나 이 인덱스 순서는 보편적이지 않다.
- rgb이미지로 작업할 때 일반적으로(y,x,z,)순서가 사용된다.

In [None]:
a = np.array([[[0,1,2],[0,1,2],[0,1,2],[0,1,2]],[[0,1,2],[0,1,2],[0,1,2],[0,1,2]]])
a.shape

(2, 4, 3)

In [None]:
b = np.dstack(([[0,0,0,0],[0,0,0,0]],[[1,1,1,1],[1,1,1,1]],[[2,2,2,2],[2,2,2,2]]))
b.shape

(2, 4, 3)

- 명백히, hstack, vstack,또는 dstack같은 넘파이 함수들은 a[i,j]이 (i,j)픽셀의 (r,g,b)튜플을 제공하는 이러한 규칙을 인식하지 못한다. 
 - 데이터가 다르게 배치된 경우 concatenate명령을 사용하여을 사용하여 이미지를 스택하는 것이 더 편리하며 축에 명시적인 인덱스 번호를 제공한다.

In [None]:
a = np.arange(1,25).reshape(2,3,4)
b = np.arange(1,17).reshape(2,2,4)
c = np.arange(1,13).reshape(2,3,2)
d = np.arange(1,25).reshape(2,3,4)
np.concatenate((a,c),axis=2)

array([[[ 1,  2,  3,  4,  1,  2],
        [ 5,  6,  7,  8,  3,  4],
        [ 9, 10, 11, 12,  5,  6]],

       [[13, 14, 15, 16,  7,  8],
        [17, 18, 19, 20,  9, 10],
        [21, 22, 23, 24, 11, 12]]])

In [None]:
np.concatenate((a,b),axis=1)

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12],
        [ 1,  2,  3,  4],
        [ 5,  6,  7,  8]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24],
        [ 9, 10, 11, 12],
        [13, 14, 15, 16]]])

In [None]:
np.concatenate((a,d),axis=0)

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]]])

- np.arr

In [None]:
b = np.array(([[0,0,0,0],[0,0,0,0]],[[1,1,1,1],[1,1,1,1]],[[2,2,2,2],[2,2,2,2]]))
b.shape

(3, 2, 4)

In [None]:
np.moveaxis(b,0,2)

array([[[0, 1, 2],
        [0, 1, 2],
        [0, 1, 2],
        [0, 1, 2]],

       [[0, 1, 2],
        [0, 1, 2],
        [0, 1, 2],
        [0, 1, 2]]])

In [None]:
c = np.dstack(([[0,0,0,0],[0,0,0,0]],[[1,1,1,1],[1,1,1,1]],[[2,2,2,2],[2,2,2,2]]))
c.shape

(2, 4, 3)

In [None]:
np.moveaxis(c,2,0)

array([[[0, 0, 0, 0],
        [0, 0, 0, 0]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[2, 2, 2, 2],
        [2, 2, 2, 2]]])

- 이 변환은 효율적이다.
- 실제로 복사가 일어나지 않고 이것은 그냥 인덱스 순서를 혼합한다.

<br>

- 배열 전치를 통해 인덱스 순서를 혼합할 수 있다.

- np.tensordot(a, b, axis=1) 이 특이한 예시는 두 경우 모두 충분하지만 복잡한 경우에는 einusum은 더 빠르게 해결할 수 있다.