### Numpy ndarray

In [None]:
import numpy as np

**ndarray**: N차원(Dimension) 배열(Array) 객체를 의미한다
- 한 차원이 높아질때마다 한 차원 밑에 있는 요소들을 원소로 가지는 배열이 있다
    - 1차원이 선을 그어놓고 점을 찍는 형태라면 이렇게 생겼다 [1, 2, 3, 4]
    - 2차원이 1차원의 선이 여러개 모인 형태라면 [[1, 2, 3, 4], [5, 6, 7, 8]] 이렇게 생겼고 면을 형성한다
    - 3차원은 [[[1, 2, 3, 4], [5, 6, 7, 8]], [[9, 10, 11, 12], [13, 14, 15, 16]]] 이렇게 생겼다

- 넘파이의 ndarray는 파이썬 리스트를 인자로 줘서 아래와 같이 생성할 수 있다

In [None]:
list1 = [1, 2, 3]
print(f"list1 type: {type(list1)}")

array1 = np.array(list1)
print(f"array1 type: {type(array1)}")
print(f"array1 shape: {array1.shape}")

- 위 array1 처럼 1차원인 경우에는 shape가 (3,) 처럼 하나의 요소만 가지는 튜플을 반환한다

In [None]:
array2 = np.array([[1, 2, 3],
                 [2, 3, 4]])
print(f"array2 type: {type(array2)}")
print(f"array2 shape: {array2.shape}")
print(f"array2 dimension: {array2.ndim}차원")

- 위 array2는 2차원으로 shape도 (2, 3) 나타난다.
- array2.shape의 튜플 요소가 2개이므로 2차원임을 알 수 있다 (array의 차원은 ndim으로 확인해도 되고, shape의 튜플 요소 개수로도 확인할 수 있다)

In [None]:
array3 = np.array([[1, 2, 3]])
print(f"array3 type: {type(array3)}")
print(f"array3 shape: {array3.shape}")
print(f"array3 dimension: {array3.ndim}차원")

- 위 array3은 array1과 달리 중첩된 리스트로 인자를 전달했다. 이 경우 1차원이 아닌 2차원이 되며, shape도 (1, 3)으로 (3,) 이었던 array1과 다르다

### ndarray 데이터 타입

dtype을 통해 array에 있는 요소들의 데이터 타입을 확인할 수 있다

In [None]:
array1 = np.array([1, 2, 3])
print(f"array1: {array1}")
print(f"array1 data type: {array1.dtype}")

**ndarray 안의 데이터 타입은 모두 동일해야한다**
- 아래 예시처럼 서로 다른 타입의 데이터를 넣어서 array를 생성하는 경우 자동형변환이 되어서 들어가게 된다

In [None]:
array2 = np.array([1, 2, "test"])
print(f"array2: {array2}")
print(f"array2 data type: {array2.dtype}")

array3 = np.array([1, 2.0, 3])
print(f"array3: {array3}")
print(f"array3 data type: {array3.dtype}")

- astype을 이용해서 array내 데이터 타입을 변경할 수 있다

In [None]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype("float64") # array_int.astype(np.float64) 도 가능
print(f"array_float: {array_float}")
print(f"array_float data type: {array_float.dtype}")

array_int1 = array_float.astype(np.int32)
print(f"array_int1: {array_int1}")
print(f"array_int1 data type: {array_int1.dtype}")

### ndarray를 편하게 생성하기 - arange, zeros, ones

In [None]:
sequence_array = np.arange(10)

print(f"sequence_array: {sequence_array}")
print(f"sequence_array type: {type(sequence_array)}")
print(f"sequence_array data type: {sequence_array.dtype}")
print(f"sequence_array shape: {sequence_array.shape}")

In [None]:
zero_array = np.zeros((3, 2), dtype="int32")

print(f"zero_array: {zero_array}")
print(f"zero_array type: {type(zero_array)}")
print(f"zero_array data type: {zero_array.dtype}")
print(f"zero_array shape: {zero_array.shape}")

one_array = np.ones((3, 2))

print(f"one_array: {one_array}")
print(f"one_array type: {type(one_array)}")
print(f"one_array data type: {one_array.dtype}")
print(f"one_array shape: {one_array.shape}")


### ndarray의 차원과 크기를 변경하는 reshape

In [None]:
array1 = np.arange(10)
print("array1: \n", array1)

array2 = array1.reshape(2, 5)
print("array2: \n", array2)

array3 = array1.reshape(5, 2)
print("array3: \n", array3)

In [None]:
# 만약 사이즈가 딱 떨어지지 않는 경우 reshape는 오류를 발생시킨다
array1.reshape(4, 3)

- 아래와 같이reshape에서 한 axis에 -1을 사용하면 나머지 axis에 있는 숫자에 맞춰서 reshape해준다
    - reshape(-1, 5)라면 axis1(2차원에서는 컬럼)을 5를 고정해두고 데이터 크기에 맞춰서 axis0이 자동으로 설정된다

In [None]:
array1 = np.arange(40)
print(array1)

array2 = array1.reshape(-1, 5)
print(f"array2 shape: {array2.shape}")

array3 = array1.reshape(5, -1)
print(f"array3 shape: {array3.shape}")


In [None]:
array1 = np.arange(8)
array3d = array1.reshape((2, 2, 2))
print("array3d: \n", array3d.tolist())

# 3차원 ndarray -> 2차원 ndarray 변경하면서 axis1(컬럼)의 개수는 1로 고정
array5 = array3d.reshape(-1, 1)
print("array5: \n", array5)
print("array5 shape: ", array5.shape)

# 1차원 ndarray -> 2차원 ndarray 변경하면서 axis1(컬럼)의 개수는 1로 고정
array6 = array1.reshape(-1, 1)
print("array6: \n", array6)
print("array6 shape: ", array6.shape)

In [None]:
# 3차원 ndarray -> 1차원 ndarray로 변환
array1d = array3d.reshape(-1,)
print("array1d: ", array1d)
print("array1d shape: ", array1d.shape)

### 넘파이 ndarray의 데이터 세트 선택하기 - indexing

1. 단일 인덱싱

In [151]:
array1 = np.arange(1, 10)
print("array1: ", array1)

value = array1[3]
print("value: ", value)
print(type(value))
# 위처럼 단일 인덱싱을 하면 차원을 하나 줄여주게 된다 (1차원 -> 0차원)

array1:  [1 2 3 4 5 6 7 8 9]
value:  4
<class 'numpy.int64'>


In [148]:
print("맨 뒤의 값: ", array1[-1]) 
print("맨 뒤에서 두번째 값: ", array1[-2])

맨 뒤의 값:  9
맨 뒤에서 두번째 값:  8


단일 인덱싱을 통해 해당 위치에 있는 값을 변경할 수 있다

In [149]:
array1[0] = 9
array1[8] = 0
print("array1: ", array1)

array1:  [9 2 3 4 5 6 7 8 0]


In [160]:
array1d = np.arange(1, 10)
array2d = array1d.reshape((3, 3))
print("array2d: \n", array2d)

print("array2d[0, 0]: ", array2d[0, 0])
print("array2d[0, 1]: ", array2d[0, 1])
print("array2d[2, 2]: ", array2d[2, 2])

array2d: 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0, 0]:  1
array2d[0, 1]:  2
array2d[2, 2]:  9


2. 슬라이싱 인덱싱

In [167]:
array1 = np.arange(1, 10)
print("array1: ", array1)
array3 = array1[0:3]
print("array3: ", array3)
print("array3 type: ", type(array3))

# [:]로 전체 데이터 추출
array4 = array1[:]
print("array4: ", array4)

array1:  [1 2 3 4 5 6 7 8 9]
array3:  [1 2 3]
array3 type:  <class 'numpy.ndarray'>
array4:  [1 2 3 4 5 6 7 8 9]


In [187]:
array1d = np.arange(1, 10)
array2d = array1d.reshape(3, 3)
print("array2d:\n", array2d)

print("array2d[0:2, 0:2]\n", array2d[0:2, :])
print("array2d[1:3, 0:3]\n", array2d[1:3, 0:3])
print("array2d[1:3, :]\n", array2d[1:3, :])
print("array2d[:, :]\n", array2d[:, :])
print("array2d[:2, 1:]\n", array2d[:2, 1:])
print("array2d[:2, 0]\n", array2d[:2, 0]) # 2차원에 대해서 단일 인덱싱을 했더니 1차원이 됐다 (2차원 -> 1차원)

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2]
 [[1 2 3]
 [4 5 6]]
array2d[1:3, 0:3]
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :]
 [[4 5 6]
 [7 8 9]]
array2d[:, :]
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:]
 [[2 3]
 [5 6]]
array2d[:2, 0]
 [1 4]


In [185]:
print(array2d[0])
print(array2d[1])
print("array2d[0] shape:", array2d[0].shape)
print("array2d[1] shape:", array2d[1].shape)

[1 2 3]
[4 5 6]
array2d[0] shape: (3,)
array2d[1] shape: (3,)


3. 팬시 인덱싱

In [201]:
array1d = np.arange(1, 10)
array2d = array1d.reshape(3, 3)
print(array2d)

array3d = array2d[[0, 1], 2]
print("array2d[[0, 1], 2] => ", array3d.tolist())

array4d = array2d[[0, 1], 0:2]
print("array2d[[0, 1], 0:2] => ", array4d.tolist())

array5d = array2d[[0, 1]]
print("array2d[[0, 1]] => ", array5d.tolist())

[[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[[0, 1], 2] =>  [3, 6]
array2d[[0, 1], 0:2] =>  [[1, 2], [4, 5]]
array2d[[0, 1]] =>  [[1, 2, 3], [4, 5, 6]]


4. 불리언 인덱싱

In [207]:
array1d = np.arange(1, 10)
print(array1d)

array3 = array1d[array1d > 5]
print('array1d[array1d > 5] 실행 결과: ', array3)

[1 2 3 4 5 6 7 8 9]
array1d[array1d > 5] 실행 결과:  [6 7 8 9]


In [208]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [211]:
val = array1d > 5
print(val, type(val), val.shape)

[False False False False False  True  True  True  True] <class 'numpy.ndarray'> (9,)


In [213]:
boolean_indexes = np.array([False, False, False, False, False, True, True, True, True])
array3 = array1d[boolean_indexes]
print("Boolean index로 필터링한 결과:", array3)

Boolean index로 필터링한 결과:  [6 7 8 9]


In [217]:
array1d = np.arange(1, 10)
target = []
for i in range(9):
    if array1d[i] > 5:
        target.append(array1d[i])

array_selected = np.array(target)
print(array_selected)

[6 7 8 9]


In [218]:
indexes = np.array([5, 6, 7, 8])
array4 = array1d[indexes]
print("일반 인덱스로 필터링한 결과:", array4)

일반 인덱스로 필터링한 결과: [6 7 8 9]


### 행렬의 정렬 – sort( )와 argsort( )

- 아래 두 가지 방법 모두 기본적으로 오름차순 정렬. 내림차순을 위해서는 np.sort()[::-1]과 같이 사용
1. np.sort(ndarray) - 인자로 들어온 원래 행렬은 그대로 유지. 정렬된 새로운 행렬을 리턴
2. ndarray.sort() - 원래 행렬 자체의 정렬을 변환함. 리턴값은 None

In [226]:
org_array = np.array([3, 1, 9, 5])
print("원본 배열:", org_array)

# np.sort()를 활용한 정렬
sorted_array = np.sort(org_array)
print("np.sort()로 정렬된 행렬:", sorted_array)
print("np.sort()이후 원본 행렬:", org_array)

# ndarray.sort()를 활용한 정렬
sorted_array2 = org_array.sort()
print("org_array.sort() 호출 후 반환된 행렬:", sorted_array2)
print("org_array.sort() 호출 후 원본 행렬:", org_array)

원본 배열: [3 1 9 5]
np.sort()로 정렬된 행렬: [1 3 5 9]
np.sort()이후 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]


In [229]:
sorted_array_desc = np.sort(org_array)[::-1]
print("내림차순 정렬: ", sorted_array_desc)

내림차순 정렬:  [9 5 3 1]


In [236]:
array2d = np.array([[8, 1], 
                    [7, 12]])

# axis=0 (행) 기준으로 정렬
sort_array2d_axis0 = np.sort(array2d, axis=0)
print("axis=0:\n", sort_array2d_axis0) # 정렬이 될때 [8, 1]로 되어 있는 것이 꼭 같이 움직이지 않는다

# axis=1 (열) 기준으로 정렬
sort_array2d_axis1 = np.sort(array2d, axis=1)
print("axis=1:\n", sort_array2d_axis1)

axis=0:
 [[ 7  1]
 [ 8 12]]
axis=1:
 [[ 1  8]
 [ 7 12]]


In [240]:
org_array = np.array([3, 1, 9, 5])
sort_indices = np.argsort(org_array)
print(type(sort_indices))
print("행렬 정렬 시 원본 배열의 인덱스:", sort_indices)

<class 'numpy.ndarray'>
행렬 정렬 시 원본 배열의 인덱스: [1 0 3 2]


In [243]:
org_array = np.array([3, 1, 9, 5])
sort_indices_desc = np.argsort(org_array)[::-1]
print("행렬 정렬 시 원본 배열의 인덱스(내림차순):", sort_indices_desc)

행렬 정렬 시 원본 배열의 인덱스(내림차순): [2 3 0 1]


In [245]:
name_array = np.array(["John", "Mike", "Sarah", "Kate", "Samuel"])
score_array = np.array([78, 95, 84, 98, 88])

sort_indices_asc = np.argsort(score_array)
print("성적 오름차순 정렬 시 score_array의 인덱스:", sort_indices_asc)
print("성적 오름차순으로 name_array의 이름 출력:", name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


### 선형대수 연산 – 행렬 내적과 전치 행렬 구하기

- 행렬 내적

In [247]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])
B = np.array([[7, 8],
              [9, 10],
              [11, 12]])

dot_product = np.dot(A, B)
print("행렬 내적 결과:\n", dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


- 전치 행렬

In [248]:
A = np.array([[1, 2],
              [3, 4]])

transpose_mat = np.transpose(A)
print("A의 전치행렬:\n", transpose_mat)

A의 전치행렬:
 [[1 3]
 [2 4]]
