### Numpy
- Numerical Python을 의미하는 NumPy는 파이썬에서 선형대수 기반의 프로그램을 쉽게 만들수 있도록 지원하는 대표적인 패키지
- 많은 머신러닝 알고리즘이 넘파이 기반으로 작성돼 있으며 알고리즘의 입 출력 데이터를 넘파이 배열 타입으로 사용함
- 넘파이의 기본 데이터 타입은 ndarray.ndarray를 이용해 넘파이에서 다차원 배열을 쉽게 생성 하고 다양한 연산 수행

In [7]:
# 1차원 배열로 3개의 데이터

import numpy as np

array1 = np.array([1,2,3])
print("array1 type : ",type(array1))


#1 차원 배열의 shape는 (,열)이 아닌 (열,)형태로 출력
print("array1 array 형태 : ",array1.shape)
print(array1)

array1 type :  <class 'numpy.ndarray'>
array1 array 형태 :  (3,)
[1 2 3]


In [13]:
# 2차원 배열로 2개의 row와 3개의 column으로 구성 6개의 데이터

array2 = np.array([[1,2,3],[2,3,4]])
print("array2 type : ",type(array2))
print("array2 형태 : ",array2.shape)
print(array2)

array2 type :  <class 'numpy.ndarray'>
array2 형태 :  (2, 3)
[[1 2 3]
 [2 3 4]]


In [14]:
# 1개의 row와 3개의 column으로 구성된 2차원 배열

array3 = np.array([[1,2,3]])
print("array3 type : ",type(array3))
print("array3 array형태 : ",array3.shape)
print(array3)
print()
print(array1.ndim)   # 1차원 형태
print(array3.ndim)   # 2차원 형태

array3 type :  <class 'numpy.ndarray'>
array3 array형태 :  (1, 3)
[[1 2 3]]

1
2


In [23]:
# 데이터 값으로는 서로 동일하나 차원이 달라서 오류가 발생
# 차원의 차수를 변환하여 오류 방지 (참조 : reshape)

ar = np.arange(10)
ar1 = ar.reshape(2,5)
ar2 = ar.reshape(5,2)
ar3 = ar.reshape(1,10)
ar4 = ar.reshape(5,-1)
print(ar)
print(ar1)
print(ar2)
print(ar3)
print(ar4)

[0 1 2 3 4 5 6 7 8 9]
[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[[0 1 2 3 4 5 6 7 8 9]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [25]:
# ndarray 데이터 타입

list1 = [1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


In [None]:
# 다른 데이터 유형이 섞여 있는 이스트를 ndarray로 변경하여
# 데이터 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용
# int형이 유니코드 문자열 값으로, int형이 float(64)형으로 변환


In [26]:
# int32형을 float64형으로 변환
array_int = np.array([1,2,3])
array_float = array_int.astype("float64")
print(array_float, array_float.dtype)

[1. 2. 3.] float64


In [27]:
# float64형을 다시 int32형으로 변환
array_int1 = array_float.astype("int32")
print(array_int1, array_int1.dtype)

[1 2 3] int32


In [28]:
array_float1 = np.array([1.1, 2.1, 3.1])
array_int2 = array_float1.astype("int32")
print(array_int2, array_int2.dtype)

[1 2 3] int32


##### Q. 정수와 실수로 구성된 list e = [1.2, 2.3, 3]을 numpy를 이용해서 실수형과 정수형으로 각각 출력하세요.

In [29]:
e = np.array([1.2, 2.3, 3])
e1 = e.astype("float64")
e2 = e.astype("int32")
print(e1, e1.dtype)
print(e2, e2.dtype)

[1.2 2.3 3. ] float64
[1 2 3] int32


### ndarray를 편리하게 생성하기 - arange, zeros, ones

In [30]:
# arange

sequence_array = np.arange(10)
sequence_array
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


In [32]:
# zero

zero_array = np.zeros((3,2), dtype="int32")
print(zero_array)
print(zero_array.dtype, zero_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)


In [37]:
# one

one_array = np.ones((3,2), dtype="int32")
print(one_array)
print(one_array.dtype, one_array.shape)

[[1 1]
 [1 1]
 [1 1]]
int32 (3, 2)


In [42]:
# ndarray의 차원과 크기를 변경하는 reshape()

array1 = np.arange(10)
print("array1", array1)
print()
array2 = array1.reshape(2,5)
print("array2 : \n", array2)
print()
array3 = array1.reshape(5,2)
print("array3 : \n", array3)

array1 [0 1 2 3 4 5 6 7 8 9]

array2 : 
 [[0 1 2 3 4]
 [5 6 7 8 9]]

array3 : 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


###### Q. arange() 함수를 이용해서 0 ~ 29 정수 배열을 생성하고 3 X 2 X 5 3차원 배열로 변환하세요.

In [47]:
array1 = np.arange(30)
array3d = array1.reshape((3,2,5))
print(array3d)
print()
print(array3d.tolist())

[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]

 [[20 21 22 23 24]
  [25 26 27 28 29]]]

[[[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]], [[10, 11, 12, 13, 14], [15, 16, 17, 18, 19]], [[20, 21, 22, 23, 24], [25, 26, 27, 28, 29]]]


### reshape(-1, 1)
- 여러 개의 로우를 가지되 반드시 1개의 칼럼을 가진 ndarray로 변환 보장

In [48]:
# -1을 인자로 사용하여 원하는 shape로 변환

array1 = np.arange(10)
print(array1)
print()
array2 = array1.reshape(-1, 5)
print("array2 shape : ",array2.shape)
print(array2)

[0 1 2 3 4 5 6 7 8 9]

array2 shape :  (2, 5)
[[0 1 2 3 4]
 [5 6 7 8 9]]


In [52]:
# reshape(-1, 1)을 이용해 1차원을 2차원으로 3차원을 2차원으로 변환

array1 = np.arange(10)
print(array1)
array2a = array1.reshape(-1, 1)
print(array2a)
print()
array3d = array1.reshape((1,2,5))
print(array3d)
print()
array2b = array3d.reshape(-1,1)
print(array2b)

[0 1 2 3 4 5 6 7 8 9]
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]

[[[0 1 2 3 4]
  [5 6 7 8 9]]]

[[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]


###### Q. array1에 reshape() 함수를 이용, "array3 shape: (5,2)"가 되도록 array3을 출력하세요

In [54]:
# array1 = np.arange(10)
# array3 = array1.reshape(5, 2)
# print(array3.shape)
# print(array3)

array1 = np.arange(10)
array3 = array1.reshape(-1, 2)
print(array3.shape)
print(array3)

(5, 2)
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


###### Q. 3차원 ndarray array3d를 2차원 ndarray로 변환해서 array5에 저장하고 list로 출력하세요.

In [58]:
array3d = array1.reshape((2,1,5))
print(array3d)
array5 = array3d.reshape(2,5)
print("array5 : \n", array5.tolist())

[[[0 1 2 3 4]]

 [[5 6 7 8 9]]]
array5 : 
 [[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]]


###### Q. 1차원 ndarray array1을 2차원 ndarray로 변환해서 array6에 저장하고 list로 출력하세요.

In [60]:
array6 = array1.reshape(-1, 2)
print(array6)
print()
print("array6 shape : ",array6.shape)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]

array6 shape :  (5, 2)


### ndarray의 데이터 세트 선택하기 - 인덱싱

In [62]:
# 배열 생성

import numpy as np

array1 = np.arange(start=1, stop=10)
print("array1 : ",array1)

array1 :  [1 2 3 4 5 6 7 8 9]


###### Q. array1 에서 3과 9를 출력하세요

In [67]:
# print(array1[2],array1[8])

value = array1[2]
print("value : ",value)
print(type(value))
print()
print("맨 뒤의 값 : ", array1[-1])

value :  3
<class 'numpy.int32'>

맨 뒤의 값 :  9


In [68]:
# 맨 뒤에서 두번째 값

print(array1[-2])

8


###### Q. 인덱스를 이용해서 첫번째와 아홉번째 값을 각각 9와 0으로 수정하세요

In [69]:
array1[0] = 9
array1[8] = 0
print(array1)

[9 2 3 4 5 6 7 8 0]


### index 가리키는 값 구하기

In [71]:
array1d = np.arange(start = 1, stop = 10)
array2d = array1d.reshape(3, 3)
print(array2d)
print()
print("(row = 0, col = 0) Index 가리키는 값 : ", array2d[0,0])
print("(row = 0, col = 0) Index 가리키는 값 : ", array2d[0,1])
print("(row = 0, col = 0) Index 가리키는 값 : ", array2d[1,0])
print("(row = 0, col = 0) Index 가리키는 값 : ", array2d[2,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]

(row = 0, col = 0) Index 가리키는 값 :  1
(row = 0, col = 0) Index 가리키는 값 :  2
(row = 0, col = 0) Index 가리키는 값 :  4
(row = 0, col = 0) Index 가리키는 값 :  9


### Slicing

In [72]:
array1 = np.arange(start = 1, stop = 10)
print(array1)
print()
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3 4 5 6 7 8 9]

[1 2 3]
<class 'numpy.ndarray'>


###### Q. array1에서 슬라이싱(':')을 사용하여 아래와 같이 출력하세요.
[1 2 3] \
[4 5 6 7 8 9] \
[1 2 3 4 5 6 7 8 9]

In [75]:
print(array1[0:3])
print(array1[3:])
print(array1[:])

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [76]:
# 2차원 배열 생성

print(array2d)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


###### Q. array2d 에서 슬라이싱을 사용하여 아래와 같이 출력하세요.
[[1 2] \
 [4 5]] \
 \
 [[4 5 6] \
  [7 8 9]] \
 [[4 5 6] \
  [7 8 9]] \
  \
 [[1 2 3] \
  [4 5 6] \
  [7 8 9]] \
 \
 [[2 3] \
  [5 6]] \
  \
 [1 4]

In [85]:
print(array2d[0:2, 0:2])
print()
print(array2d[1:])
print(array2d[1:3])
print()
print(array2d[:])
print()
print(array2d[:2, 1:])
print()
print(array2d[:2, 0])

[[1 2]
 [4 5]]

[[4 5 6]
 [7 8 9]]
[[4 5 6]
 [7 8 9]]

[[1 2 3]
 [4 5 6]
 [7 8 9]]

[[2 3]
 [5 6]]

[1 4]


### 행 선택

In [91]:
print(array2d[0])
print()
print(array2d[1])
print()
print(" array2d[0] shape : ", array2d[0].shape,"\n","array2d[1] shape : ", array2d[1].shape)

[1 2 3]

[4 5 6]

 array2d[0] shape :  (3,) 
 array2d[1] shape :  (3,)


In [92]:
# 2차원 배열 생성

array1d = np.arange(start = 1, stop = 10)
array2d = array1d.reshape(3,3)
print(array2d)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


###### Q. array2d 에서 인덱스를 이용해서 값을 선택하고 리스트로 아래와 같이 출력하세요
array2d[[0,1], 2] => [3,6] \
\
array2d[[0,1], 0:2] => [[1,2],[4,5]] \
\
array2d[[0,1]] => [[1,2,3],[4,5,6]]

In [97]:
array3 = array2d[[0,1], 2]
print(array3.tolist())
print()
array4 = array2d[[0,1], 0:2]
print(array4.tolist())
print()
array5 = array2d[[0,1]]
print(array5.tolist())

[3, 6]

[[1, 2], [4, 5]]

[[1, 2, 3], [4, 5, 6]]


### Boolean indexing

In [99]:
array1d = np.arange(start = 1, stop = 10)
print(array1d)
print()
# [ ]안에 array1d > 5 Boolean indexing을 적용
array3 = array1d[array1d > 5]
print("array1d > 5 불린 인덱싱 결과 값 : ",array3)
print(array1d > 5)

[1 2 3 4 5 6 7 8 9]

array1d > 5 불린 인덱싱 결과 값 :  [6 7 8 9]
[False False False False False  True  True  True  True]


In [100]:
# Boolean indexing으로 필터링
print(array1d)
boolean_indexes = np.array([False, False, False, False, False, True, True, True, True])
array3 = array1d[boolean_indexes]
print("불린 인덱스로 필터링 결과 : ", array3)

[1 2 3 4 5 6 7 8 9]
불린 인덱스로 필터링 결과 :  [6 7 8 9]


###### Q. 1~14까지 ndarray를 만들어 array_e로 저장하고 (array_e/2) > 5를 만족하는 값을 불린 인덱스로 출력하세요.

In [102]:
array_e = np.arange(start = 1, stop = 15)
print(array_e)
bool_index1 = array_e[array_e/2 > 5]
print(bool_index1)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14]
[11 12 13 14]


In [103]:
# array1d 생성
array1d = np.arange(start = 1, stop = 10)
array1d

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

###### Q. array1d에서 일반 인덱스를 이용, [6,7,8,9]를 출력하세요.

In [104]:
print(array1d[5:])

[6 7 8 9]


### np.sort() 정렬
np.sort()는 원본 행렬을 변경하지 않고 정렬된 형태로 반환하며 \
ndarray.sort()는 원본 행렬 자체를 반환

In [105]:
# np.sort()로 정렬
org_array = np.array([3, 1, 9, 5])
print("원본 행렬 : ", org_array)

# 넘파이에서 sort 호출. np.sort()로 정렬
sort_array1 = np.sort(org_array)
print("np.sort( ) 호출 후 반환된 정렬 행렬 : ",sort_array1)
print("np.sort( ) 호출 후 원본 행렬 : ", org_array)

원본 행렬 :  [3 1 9 5]
np.sort( ) 호출 후 반환된 정렬 행렬 :  [1 3 5 9]
np.sort( ) 호출 후 원본 행렬 :  [3 1 9 5]


In [106]:
# 내림차순 정렬(기본은 오름차순 정렬)

print(np.sort(org_array))
sort_array1_desc = np.sort(org_array)[::-1]
print("내림차순으로 정렬 : ", sort_array1_desc)

[1 3 5 9]
내림차순으로 정렬 :  [9 5 3 1]


In [107]:
# 행렬이 2차원 이상일 경우 axis 축 값 설정을 통해 로우 방향, 칼럼 방향으로 정렬 수행

array2d = np.array([[8,12], [7,1]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print("로우 방향으로 정렬 : \n", sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print("칼럼 방향으로 정렬 : \n", sort_array2d_axis1)

로우 방향으로 정렬 : 
 [[ 7  1]
 [ 8 12]]
칼럼 방향으로 정렬 : 
 [[ 8 12]
 [ 1  7]]


In [108]:
# 정렬된 행렬의 인덱스를 반환 : 기존 원본 행렬의 원소에 대한 인덱스를 필요로 할 때
# np.argsort()를 이용

org_array = np.array([3,1,9,5])
sort_indices = np.argsort(org_array)
print(org_array)
print(type(sort_indices))
print("행렬 정렬 시 원본 행렬의 인덱스 : ",sort_indices)

[3 1 9 5]
<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스 :  [1 0 3 2]


In [109]:
# 내림차순 정렬 시 원본 행렬의 인덱스

org_array = np.array([3,1,9,5])
sort_indices_desc = np.argsort(org_array)[::-1]
print("행렬 내림차순 정렬 시 원본 행렬의 인덱스 : ",sort_indices_desc)

행렬 내림차순 정렬 시 원본 행렬의 인덱스 :  [2 3 0 1]


### 행렬 내적(행렬 곱)
* 행렬 내적은 행렬 곱이며 두 행렬 A와 B의 내적은 np.dot()을 이용해 계산이 가능
* 행렬 내적의 특성으로 왼쪽 행렬의 열개수와 오른쪽 행렬의 행개수가 동일해야 내적 연산 가능

In [110]:
A = np.array([[1,2,3],
              [4,5,6]])
B = np.array([[7,8],
              [9,10],
              [11,12]])

dot_product = np.dot(A, B)
print("행렬 내적 결과 : \n", dot_product)

행렬 내적 결과 : 
 [[ 58  64]
 [139 154]]


###### Q. 아래 두 행렬을 np.arange, reshape를 이용해서 생성 각각 a1, b1으로 지정하고 행렬 내적을 계산한 결과를 출력하세요.
[[1 2 3] \
[4 5 6]] \
 \
[[10 11] \
[12 13] \
[14 15]]

In [116]:
a = np.arange(start=1, stop = 7)
a1 = a.reshape(2, 3)
print(a1)
print()

b = np.arange(start=10, stop=16)
b1 = b.reshape(3,2)
print(b1)
print()

dot_ab = np.dot(a1, b1)
print(dot_ab)

[[1 2 3]
 [4 5 6]]

[[10 11]
 [12 13]
 [14 15]]

[[ 76  82]
 [184 199]]
