# Numpy 실습

In [121]:
import numpy as np

In [122]:
# np의 array 함수: 인자를 입력받아 ndarray로 변환함
# shape 변수: ndarray의 크기를 튜플 형태로 가짐

# 1차원 배열
array1 = np.array([1, 2, 3])
print('array1 type:', type(array1))
print('array1 array 형태:', array1.shape)

# 2차원 배열
array2 = np.array([[1, 2, 3],
                  [2, 3, 4]])
print('array2 type:', type(array2))
print('array2 array 형태:', array2.shape)

# 2차원: 1 row, 3 cols
array3 = np.array([[1,2,3]])
print('array3 type:', type(array3))
print('array3 array 형태:', array3.shape)

# 각 배열의 차원 출력
print('array1: {0}차원, array2: {1}차원, array3: {2}차원'.format(array1.ndim, array2.ndim, array3.ndim))

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)
array1: 1차원, array2: 2차원, array3: 2차원


array 1과 array 3의 차이를 잘 이해해야 한다.
array 1은 세 개의 데이터를 가진 1차원 배열이고, array 3은 1개의 행과 3개의 열로 구성된 **2차원 배열**이다. <br>
즉, 데이터의 건수는 동일하지만 차원이 다르다. 머신러닝 알고리즘과 데이터셋 간의 입출력 및 변환을 수행할 때 이러한 오류가 빈번하게 발생하므로, 배열의 차원의 차수를 명확하게 아는 것이 중요하다.


In [123]:
# dtype 속성: ndarray 내의 데이터 타입 확인하기
list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1) # 리스트를 ndarray로 변환
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


In [124]:
# ndarray 내 데이터 형 변환

# 정수 값과 문자열이 혼합된 리스트
list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)

# 정수형과 float형이 혼합된 리스트
list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U21
[1. 2. 3.] float64


list2의 경우 정수 1, 2가 모두 문자열 '1', '2'로 변환된다. list3도 정수 1, 2가 float64형인 '1.'과 '2.'로 변환됐다. <br>
하나의 ndarray 안에 서로 다른 데이터 타입이 섞여 있는 경우, 데이터 타입이 **더 큰** 데이터 타입으로 변형된다.

In [125]:
# astype() 메소드 활용해 원하는 타입을 문자열로 지정하기
array_int = np.array([1, 2, 3]) # int32형 데이터가 담긴 ndarray를 저장
array_float = array_int.astype('float64') # array_int의 데이터 타입을 float64로 변환해 array_float에 저장
print(array_float, array_float.dtype)


# array_float의 데이터 타입을 int32로 다시 변환
array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

# float 값이 담긴 배열의 데이터 타입을 int32로 변환
array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


In [126]:
# arange 메서드
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


In [127]:
# zeros()
zero_array = np.zeros((3,2), dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)
print("==============")

# ones()
one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


In [128]:
# reshape() 메서드
array1 = np.arange(10)
print('array1:\n', array1)

# (row, col)
array2 = array1.reshape(2,5)
print('array2:\n', array2)

array3 = array1.reshape(5,2)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [129]:
# reshape() 메서드에 인자로 -1을 적용
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(-1,5)
print('array2 shape:\n', array2.shape)

array3 = array1.reshape(5,-1)
print('array3 shape:\n', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape:
 (2, 5)
array3 shape:
 (5, 2)


In [130]:
# reshape (-1, 1)
# ndarray는 tolist() 메서드를 이용해 리스트 자료형으로 변환할 수 있음!


array1 = np.arange(8)
array3d = array1.reshape((2,2,2))
# print('array3d:\n', array3d)
print('array3d:\n', array3d.tolist())
print('=======================================')

# 3차원 ndarray를 2차원으로 변환
array5 = array3d.reshape(-1, 1)
print('array5:\n', array5.tolist())
print('array5 shape:\n', array5.shape)
print('=======================================')

# 1차원 ndarray를 2차원으로 변환
array6 = array1.reshape(-1, 1)
# print('array6:\n', array6)
print('array6:\n', array6.tolist())
print('array6 shape:\n', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape:
 (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape:
 (8, 1)


In [131]:
# 단일 값 추출
array1 = np.arange(start=1, stop=10)
print('array1:', array1)

# index: 0부터 시작하므로 array1[2]는 배열의 세 번째 인덱스 위치의 데이터값
value = array1[2]
print('value:', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int64'>


In [132]:
# 마이너스 기호 사용하면 맨뒤에서부터
print('맨 뒤의 값:', array1[-1], '\n맨 뒤에서 두 번째 값:', array1[-2])

맨 뒤의 값: 9 
맨 뒤에서 두 번째 값: 8


In [133]:
# ndarray 내의 데이터 값 변경하기
array1[0] = 9
array1[8] = 0
print('수정된 array1:', array1)

수정된 array1: [9 2 3 4 5 6 7 8 0]


In [134]:
# 위의 1차원 array를 2차원으로 변환한 후 데이터 추출
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3, 3)
print(array2d)
print('\n데이터 추출하기:')

# 데이터 추출 by indexing
print('(row=0, col=0) index 가리키는 값:', array2d[0,0])
print('(row=0, col=1) index 가리키는 값:', array2d[0,1])
print('(row=1, col=0) index 가리키는 값:', array2d[1,0])
print('(row=2, col=2) index 가리키는 값:', array2d[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]

데이터 추출하기:
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=2, col=2) index 가리키는 값: 9


In [135]:
# 슬라이싱
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3] # 0~2번째 인덱스에 위치한 값 추출될 것 > 1, 2, 3
print(array3)
print(type(array3)) # 슬라이싱의 경우, 추출된 값의 데이터 타입: ndarray

[1 2 3]
<class 'numpy.ndarray'>


In [136]:
# 슬라이싱 기호 생략
array1 = np.arange(start=1, stop=10)
array4 = array1[:3] # 맨 처음~2번째 > 1, 2, 3
print(array4)

array5 = array1[3:] # 3번째~맨 마지막 > 4부터 9까지
print(array5)

array6 = array1[:] # 처음부터 마지막 > 1~9
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [137]:
# 2차원 ndarray에서 슬라이싱하기

# 2차원으로 변환
array1d = np.arange(start=1, stop=10)
array2d = array1.reshape(3,3)
print('array2d:\n', array2d)
print('\n')

# 슬라이싱
print('array2d[0:2, 0:2]\n', array2d[0:2, 0:2]) # 0, 1번째 인덱스의 로우와 컬럼
print('array2d[1:3, 0:3]\n', array2d[1:3, 0:3])
print('array2d[1:3, :]\n', array2d[1:3, :])
print('array2d[:, :]\n', array2d[:, :]) # 전체 출력할 것
print('array2d[:2, 1:]\n', array2d[:2, 1:])
print('array2d[:2, 0]\n', array2d[:2, 0])

array2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


array2d[0:2, 0:2]
 [[1 2]
 [4 5]]
array2d[1:3, 0:3]
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :]
 [[4 5 6]
 [7 8 9]]
array2d[:, :]
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:]
 [[2 3]
 [5 6]]
array2d[:2, 0]
 [1 4]


In [138]:
# 2차원 ndarray에서 뒤의 인덱스를 제거하면 1차원 ndarray 반환
print(array2d[0]) # 첫 번째 row를 반환
print(array2d[1]) # 두 번째...
print('array2d[0].shape:', array2d[0].shape, 'array2d[1].shape:', array2d[1].shape) # 1차원 ndarray 반환

[1 2 3]
[4 5 6]
array2d[0].shape: (3,) array2d[1].shape: (3,)


In [139]:
# fancy indexing
array1 = np.arange(start=1, stop=10)
array2d = array1.reshape(3, 3)

array3 = array2d[[0,1], 2]
print('array2d[[0,1]],2] =>', array3.tolist())

array4 = array2d[[0,1], 0:2]
print('array2d[[0,1]], 0:2] =>', array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] =>', array5.tolist())

array2d[[0,1]],2] => [3, 6]
array2d[[0,1]], 0:2] => [[1, 2], [4, 5]]
array2d[[0,1]] => [[1, 2, 3], [4, 5, 6]]


헷갈리는 개념!<br><br>
**<u>array3</u> <br>**

array2d[[0,1], 2] 로우 축에 팬시 인덱싱인 [0,1]을, 칼럼 축에는 단일 값 인덱싱 2를 적용.
(row, col) 인덱스가 (0,2), (1,2)로 적용되어 (3,6)을 반환한다.

**<u>array4</u> <br>**
array2d[[0,1], 0:2]는 ((0,0), (0,1)), ((1,0),(1,1)) 인덱싱이 적용되어 [[1,2], [4,5]]를 반환한다.

**<u>array5</u> <br>**
((0, :), (1,:)) 인덱싱이 적용되어 [[1,2,3], [4,5,6]]을 반환한다.

In [140]:
array1d = np.arange(start=1, stop=10)

# [] 안에 array1d>5 불린 인덱싱 적용: 5보다 값이 큰 데이터 값만 추출되도록
array3 = array1d[array1d > 5]
print('array1d>5 불린 인덱싱 결과 값:', array3)

array1d>5 불린 인덱싱 결과 값: [6 7 8 9]


In [141]:
# 조건 필터링 되는 방법
array1d>5

array([False, False, False, False, False,  True,  True,  True,  True])

ndarray 객체에 조건식 붙였더니 t/f로 이뤄진 ndarray 객체가 반환되었다. 이때, 5보다 값이 큰 데이터가 있는 위치에는 true값이 반환되고 있다.
이렇게 반환된 ndarray 객체를 [] 안에 입력하면, <u>false값은 무시하고 true값이 있는 위치 인덱스 값으로 자동 변환</u>해 조건을 충족하는 데이터만 반환한다!

In [142]:
boolean_indexes = np.array([False, False, False, False, False,  True,  True,  True,  True])
array3 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과:', array3)

# 다음과 같이 직접 인덱스 집합을 만들어 대입한 것과 동일하다.
indexes = np.array([5,6,7,8])
array4 = array1d[indexes]
print('일반 인덱스로 필터링 결과:', array4)

불린 인덱스로 필터링 결과: [6 7 8 9]
일반 인덱스로 필터링 결과: [6 7 8 9]


In [143]:
# 행렬 정렬
org_array = np.array([3,1,9,5])
print('원본 행렬:', org_array)

# np.sort()로 정렬
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 반환된 원본 행렬:', org_array) # 원본은 유지된다

# ndarray.sort()로 정렬
sort_array2 = org_array.sort()
print('ndarray.sort() 호출 후 반환된 정렬 행렬:', sort_array2) # 원본 행렬을 정렬한 뒤, none 반환
print('ndarray.sort() 호출 후 반환된 원본 행렬:', org_array)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 반환된 원본 행렬: [3 1 9 5]
ndarray.sort() 호출 후 반환된 정렬 행렬: None
ndarray.sort() 호출 후 반환된 원본 행렬: [1 3 5 9]


In [144]:
# 내림차순 정렬: [::-1]
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순 정렬:', sort_array1_desc)

내림차순 정렬: [9 5 3 1]


In [145]:
# 행렬이 2차원 이상인 경우: axis축 값 설정을 통해 정렬 수행 가능
array2d = np.array([[8, 12],
                     [7, 1]])

# row 방향 정렬 (axis0)
sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향 정렬:\n', sort_array2d_axis0)

# col 방향 정렬 (axis1)
sort_array2d_axis1 = np.sort(array2d, axis=1)
print('컬럼 방향 정렬:\n', sort_array2d_axis1)

로우 방향 정렬:
 [[ 7  1]
 [ 8 12]]
컬럼 방향 정렬:
 [[ 8 12]
 [ 1  7]]


In [146]:
# 정렬된 행렬의 원본 행렬 인덱스 반환: argsort()
org_array = np.array([3, 1, 9, 5])
print(np.sort(org_array))

sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

[1 3 5 9]
<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [147]:
# 내림차순으로 정렬한 경우 인덱스를 구하려면 np.argsort()[::-1]
org_array = np.array([3, 1, 9, 5])
print(np.sort(org_array)[::-1])
sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:', sort_indices_desc)

[9 5 3 1]
행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


In [148]:
name_array = np.array(['john', 'mike', 'sarah', 'kate', 'samuel'])
score_array = np.array([78, 95, 84, 98, 88])

print('성적 정렬:', np.sort(score_array))
sort_indices_asc = np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc) # 원본 행렬에서의 인덱스
print('성적 오름차순 정렬 시 sname_array의 이름:', name_array[sort_indices_asc])

성적 정렬: [78 84 88 95 98]
성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순 정렬 시 sname_array의 이름: ['john' 'sarah' 'samuel' 'mike' 'kate']


In [149]:
# 선형대수 연산: 행렬 내적 by np.dot(행렬이름, 행렬이름)


A = np.array([[1,2,3],
              [4,5,6]])
B = np.array([[7,8],
              [9,10],
              [11, 12]])
dot_product = np.dot(A, B)
print('행렬 내적 결과:\n', dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


In [150]:
# 선형대수 연산: 전치 행렬 by np.transpose(행렬이름)
A = np.array([[1,2],
              [3,4]])
transpose_matrix = np.transpose(A)
print('A의 전치 행렬:\n', transpose_matrix)

A의 전치 행렬:
 [[1 3]
 [2 4]]
