# Numpy ndarray

![image.png](attachment:image.png)

### [ ndarray 생성, 형태(shape), 차원 ]

In [1]:
import numpy as np

In [3]:
A1 = np.array([1,2,3])
print('A1 type: ', type(A1))
print('A1 array shape: ', A1.shape)

A2 = np.array([[1,2,3], 
               [4,5,6]])
print('A2 type: ', type(A2))
print('A2 array shape: ', A2.shape)

A3 = np.array([[1,2,3]])
print('A3 type: ', type(A3))
print('A3 array shape: ', A3.shape)

A1 type:  <class 'numpy.ndarray'>
A1 array shape:  (3,)
A2 type:  <class 'numpy.ndarray'>
A2 array shape:  (2, 3)
A3 type:  <class 'numpy.ndarray'>
A3 array shape:  (1, 3)


### [ ndarray와 list의 type 비교 ]

In [5]:
L1 = [1,2,3]
print('L1: ', L1)
print('L1 type: ', type(L1))

A1 = np.array(L1)
print('A1: ', A1)
print('A1 type: ', type(A1))

L1:  [1, 2, 3]
L1 type:  <class 'list'>
A1:  [1 2 3]
A1 type:  <class 'numpy.ndarray'>


### [ ndarray의 데이터 값 타입을 반환하는 ndarray.dtype ]

In [6]:
L1 = [1,2,3]
print(type(L1))

A1 = np.array(L1)
print(type(A1))
print(A1, A1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


### [ ndarray의 데이터 값의 자동 타입 변환 ]

In [7]:
L2 = [1, 2, 'test'] # 정수 -> 문자열
A2 = np.array(L2)
print(A2, A2.dtype)

L3 = [1, 2, 3.0]    # 정수 -> 실수
A3 = np.array(L3)
print(A3, A3.dtype)

['1' '2' 'test'] <U11
[1. 2. 3.] float64


### [ ndarray의 데이터 값의 타입변환을 하는 ndarray.astype(문자열) ]

In [9]:
A_int1 = np.array([1,2,3])
A_float1 = A_int1.astype('float64') # int -> float
print(A_float1, A_float1.dtype)

A_int2 = A_float1.astype('int32') # float -> int 
print(A_int2, A_int2.dtype)

A_float2 = np.array([1.1, 2.1, 3.1])
A_int3 = A_float2.astype('int32') # float -> int
print(A_int3, A_int3.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


### [ ndarray에서 axis기반 연산함수를 수행하는 ndarray.sum ]

In [12]:
A = np.array([[1,2,3],
            [2,3,4]])

print(A.sum()) # 모든 데이터 값의 합
print(A.sum(axis=0)) # 행을 다 더하기
print(A.sum(axis=1)) # 열을 다 더하기

15
[3 5 7]
[6 9]


### [ ndarray를 편리하게 생성하기 - arange, zeros, ones ]

In [36]:
# arange 예시
Arange_A = np.arange(10)
print(Arange_A)
print(Arange_A.dtype, Arange_A.shape, end="\n\n")

# arange 예시 - start, stop값 지정
Arange_A = np.arange(start=1, stop=10)
print(Arange_A)
print(Arange_A.dtype, Arange_A.shape, end="\n\n")

# zeros 예시
Zero_A = np.zeros((3,2), dtype='int32')
print(Zero_A)
print(Zero_A.dtype, Zero_A.shape, end="\n\n")

# ones 예시
Ones_A = np.ones((3,2)) # dtype 명시가 없어서 float64
print(Ones_A)
print(Ones_A.dtype, Ones_A.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)

[1 2 3 4 5 6 7 8 9]
int32 (9,)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


### [ ndarray의 shape를 변경하는 ndarray.reshape ]

In [23]:
# ndarray 생성
Ori_A = np.arange(10)
print("Ori_A:\n", Ori_A)

# (2,5)로 reshape
A1 = Ori_A.reshape(2,5)
print("A1:\n", A1)

# (5,2)로 reshape
A2 = Ori_A.reshape(5,2)
print("A2:\n", A2)

Ori_A:
 [0 1 2 3 4 5 6 7 8 9]
A1:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
A2:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


#### 변환할 수 없는 shape구조를 입력하면 오류가 발생

In [24]:
Ori_A.reshape(4,3)

ValueError: cannot reshape array of size 10 into shape (4,3)

#### reshape에 인자값 -1로 특정 차원으로 고정된 가변적 ndarray형태 변환

In [29]:
Ori_A = np.arange(10)
print("Ori_A:\n", Ori_A, end="\n\n")

# (-1,5) -> colums(axis=1) 크기를 5로 \n고정 후 변환
A1 = Ori_A.reshape(-1, 5)
print("A1 shape: ", A1.shape)
print("A1:\n", A1, end="\n\n")

# (5, -1) -> row(axis=0) 크기를 5로 고정 후 반환
A2 = Ori_A.reshape(5, -1)
print("A2 shape: ", A2.shape)
print("A2:\n", A2)

Ori_A:
 [0 1 2 3 4 5 6 7 8 9]

A1 shape:  (2, 5)
A1:
 [[0 1 2 3 4]
 [5 6 7 8 9]]

A2 shape:  (5, 2)
A2:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


#### 차원 변환 시 자주 쓰이는 reshape형태인 (-1, 1), (-1, )

In [31]:
Ori_A = np.arange(5)

# 1차원 -> 2차원에는 (-1, 1) 
A_2d = Ori_A.reshape(-1, 1)
print("A_2d shape: ", A_2d.shape)
print("A_2d:\n", A_2d, end="\n\n")

# 2차원 -> 1차원에는 (-1, )
A_1d = Ori_A.reshape(-1, )
print("A_1d shape: ", A_1d.shape)
print("A_1d:\n", A_1d)

A_2d shape:  (5, 1)
A_2d:
 [[0]
 [1]
 [2]
 [3]
 [4]]

A_1d shape:  (5,)
A_1d:
 [0 1 2 3 4]


#### -1 형태를 사용하더라도 변환이 불가능 하면 오류가 발생한다.

In [32]:
A = np.arange(10)
A1 = A.reshape(-1, 4)

ValueError: cannot reshape array of size 10 into shape (4)

#### -1 값은 반드시 1개의 인자만 입력해야 한다.

In [33]:
A.reshape(-1, -1)

ValueError: can only specify one unknown dimension

### [ 인덱싱(Indexing)을 통한 ndarray 데이터 세트 선택 ]

### - 인덱싱 유형 1.  특정 위치의 단일값 추출

#### index를 이용하여 특정 위치의 단일값 추출

In [37]:
# ndarray 생성
A = np.arange(10)
print("A: ", A)

# index를 이용하여 특정 위치의 단일값 추출
Value = A[2]
print("Value: ", Value)
print(type(Value))

A:  [0 1 2 3 4 5 6 7 8 9]
Value:  2
<class 'numpy.int32'>


#### index -1는 맨 뒤의 값을 의미한다.

In [38]:
print("맨 뒤의 값: ", A[-1], "맨 뒤에서 두번째 값: ", A[-2])

맨 뒤의 값:  9 맨 뒤에서 두번째 값:  8


#### index를 이용해서 기존 ndarray를 update하는 것도 가능하다.

In [39]:
A[0] = 9
A[8] = 0
print("A: ", A)

A:  [9 1 2 3 4 5 6 7 0 9]


#### 2차원 ndarray일 때의 특정 위치의 단일값 추출

In [41]:
# 2차원 ndarray 생성
A_1d = np.arange(9)
A_2d = A_1d.reshape(3,3)
print(A_2d)

# 특정 위치의 단일값 추출
print("(row=0, col=0) index가 가리키는 값: ", A_2d[0,0])
print("(row=1, col=0) index가 가리키는 값: ", A_2d[1,0])
print("(row=0, col=2) index가 가리키는 값: ", A_2d[0,2])
print("(row=2, col=2) index가 가리키는 값: ", A_2d[2,2])

[[0 1 2]
 [3 4 5]
 [6 7 8]]
(row=0, col=0) index가 가리키는 값:  0
(row=1, col=0) index가 가리키는 값:  3
(row=0, col=2) index가 가리키는 값:  2
(row=2, col=2) index가 가리키는 값:  8


### - 인덱싱 유형 2. 슬라이싱 (Slicing)

#### 1차원 ndarray 슬라이싱

In [42]:
Ori_A = np.arange(9)
A1 = Ori_A[:3]
print(A1)

A2 = Ori_A[3:]
print(A2)

A3 = Ori_A[:]
print(A3)

[0 1 2]
[3 4 5 6 7 8]
[0 1 2 3 4 5 6 7 8]


#### 2차원 ndarray 슬라이싱

![image.png](attachment:image.png)

In [45]:
A_1d = np.arange(9)
A_2d = A_1d.reshape(3,3)
print("A_2d\n", A_2d, end="\n\n")

print("A_2d[0:2, 0:2]\n", A_2d[0:2, 0:2], end="\n\n")
print("A_2d[1:3, 0:3]\n", A_2d[1:3, 0:3], end="\n\n")
print("A_2d[1:3, :]\n", A_2d[1:3, :], end="\n\n")
print("A_2d[:, :]\n", A_2d[:, :], end="\n\n")

A_2d
 [[0 1 2]
 [3 4 5]
 [6 7 8]]

A_2d[0:2, 0:2]
 [[0 1]
 [3 4]]

A_2d[1:3, 0:3]
 [[3 4 5]
 [6 7 8]]

A_2d[1:3, :]
 [[3 4 5]
 [6 7 8]]

A_2d[:, :]
 [[0 1 2]
 [3 4 5]
 [6 7 8]]



### - 인덱싱 유형 3. 팬시 인덱싱 (fancy indexing)

![image.png](attachment:image.png)

In [74]:
A_1d = np.arange(9)
A_2d = A_1d.reshape(3,3)
print("A_2d\n", A_2d, end="\n\n")

A1 = A_2d[[0,1], 2]
print("A_2d[[0,1],2] => ", A1.tolist())

A2 = A_2d[[0,2], 0:2]
print("A_2d[[0,2], 0:2] => ", A2.tolist())

A3 = A_2d[[0,1]]
print("A_2d[[0,1]] => ", A3.tolist())

A_2d
 [[0 1 2]
 [3 4 5]
 [6 7 8]]

A_2d[[0,1],2] =>  [2, 5]
A_2d[[0,2], 0:2] =>  [[0, 1], [6, 7]]
A_2d[[0,1]] =>  [[0, 1, 2], [3, 4, 5]]


### - 인덱싱 유형 4. 불린 인덱싱 (Boolean indexing)

#### 조건문은 boolean을 반환한다.

In [51]:
A_1d = np.arange(9)
print("A_1d: ", A_1d)

print(A_1d > 5)

Var = A_1d > 5
print("Var: ", Var)
print(type(Var))

A_1d:  [0 1 2 3 4 5 6 7 8]
[False False False False False False  True  True  True]
Var:  [False False False False False False  True  True  True]
<class 'numpy.ndarray'>


#### 불린 인덱스 사용 & 불린 인덱스로 필터링

In [54]:
# 불린 인덱스 사용
print("A_1d: ", A_1d)
Boolean_A1 = A_1d[A_1d > 5]
print("A_1d > 5 불린 인덱싱 결과 값 : ", Boolean_A1)

# 불린 인덱스로 필터링
B_index = np.array([False, False, False, False, False, False,  True,  True,  True])
Boolean_A2 = A_1d[B_index]
print("불린 인덱스로 필터링한 결과 : ", Boolean_A2)

A_1d:  [0 1 2 3 4 5 6 7 8]
A_1d > 5 불린 인덱싱 결과 값 :  [6 7 8]
불린 인덱스로 필터링한 결과 :  [6 7 8]


#### 불린 인덱스 X

In [53]:
A_1d = np.arange(9)
Tar = []

for i in range(0, 9):
    if A_1d[i] > 5:
        Tar.append(A_1d[i])
        
A_seleted = np.array(Tar)
print(A_seleted)

[6 7 8]


#### 불린 인덱스 O

In [55]:
A_1d = np.arange(9)
print(A_1d[A_1d > 5])

[6 7 8]


### [ 행렬의 정렬 ]

### - sort()

#### np.sort()는 정렬된 행렬을 반환한다. 원본 행렬은 영향 없다.

In [56]:
Ori_A = np.array([3,1,9,5])
print("원본 행렬: ", Ori_A)

Sort_A1 = np.sort(Ori_A)
print("반환된 정렬 행렬: ", Sort_A1)
print("원본 행렬: ", Ori_A)

원본 행렬:  [3 1 9 5]
반환된 정렬 행렬:  [1 3 5 9]
원본 행렬:  [3 1 9 5]


#### ndarray.sort()는 원본을 정렬한다. 반환되는 것은 없다.

In [57]:
Ori_A = np.array([3,1,9,5])
print("원본 행렬: ", Ori_A)

Sort_A2 = Ori_A.sort()
print("반환된 정렬 행렬: ", Sort_A2)
print("원본 행렬: ", Ori_A)

원본 행렬:  [3 1 9 5]
반환된 정렬 행렬:  None
원본 행렬:  [1 3 5 9]


#### 내림차순으로 정렬을 하고 싶으면 [::-1]

In [58]:
SortDesc_A = np.sort(Ori_A)[::-1]
print("내림차순 정렬: ", SortDesc_A)

내림차순 정렬:  [9 5 3 1]


#### 2차원 ndarray 정렬

In [61]:
A_2d = np.array([[8, 12],
               [7, 1]])

Sort_A_2d0 = np.sort(A_2d, axis=0)
print("로우 방향으로 정렬:\n", Sort_A_2d0, end="\n\n")

Sort_A_2d1 = np.sort(A_2d, axis=1)
print("컬럼 방향으로 정렬:\n", Sort_A_2d1)

로우 방향으로 정렬:
 [[ 7  1]
 [ 8 12]]

컬럼 방향으로 정렬:
 [[ 8 12]
 [ 1  7]]


### - 인덱스 정렬 argsort()

#### 정렬 시 argsort()

In [62]:
Ori_A = np.array([3,1,9,5])
print(np.sort(Ori_A))

Sort_indices = np.argsort(Ori_A)
print(type(Sort_indices))
print("행렬 정렬 시 원본 행렬의 인덱스: ", Sort_indices)

[1 3 5 9]
<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스:  [1 0 3 2]


#### 내림차순 정렬 시 argsort()

In [64]:
Ori_A = np.array([3,1,9,5])
print(np.sort(Ori_A)[::-1])

Sort_indices = np.argsort(Ori_A)[::-1]
print(type(Sort_indices))
print("행렬 내림차순 정렬 시 원본 행렬의 인덱스: ", Sort_indices)

[9 5 3 1]
<class 'numpy.ndarray'>
행렬 내림차순 정렬 시 원본 행렬의 인덱스:  [2 3 0 1]


#### argsort 활용 - 이름과 점수를 매칭

In [65]:
Name_A = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
Score_A = np.array([78, 95, 84, 98, 88])

# 점수를 정렬한 행렬의 인덱스를 저장
Sort_indices = np.argsort(Score_A)
print("sort indices: ", Sort_indices)

# 저장된 인덱스로 행렬 정렬
Sort_Name_A = Name_A[Sort_indices]
Sort_Score_A = Score_A[Sort_indices]

print(Sort_Name_A)
print(Sort_Score_A)

sort indices:  [0 2 4 1 3]
['John' 'Sarah' 'Samuel' 'Mike' 'Kate']
[78 84 88 95 98]


### [ 선형대수 연산 ]

### - 행렬 내적

In [69]:
A = np.array([[1,2,3],
             [4,5,6]])
 
B = np.array([[7,8],
              [9,10],
              [11,12]])

Dot_A = np.dot(A, B)
print("행렬 내적 결과:\n", Dot_A)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


### - 전치 행렬

#### ndarray의 행과 열을 전치한다.

In [71]:
A = np.array([[1,2],
              [3,4]])

Trans_A = np.transpose(A)
print("A의 전치 행렬:\n", Trans_A)

A의 전치 행렬:
 [[1 3]
 [2 4]]
