## Numpy

### 넘파이 모듈 임포트

In [1]:
import numpy as np

## ndarray 생성

In [2]:
list1 = [1, 2, 3]
print("list1:", list1)
print("list1 type:", type(list1))

list1: [1, 2, 3]
list1 type: <class 'list'>


In [3]:
array1 = np.array(list1)
print("array1:", array1)
print("array1 type:", type(array1))

array1: [1 2 3]
array1 type: <class 'numpy.ndarray'>


## ndarray - 형태(shape)와 차원

In [4]:
array1 = np.array([7, 2, 9, 10])
print(array1)
print("array1 type:", type(array1))
print("array1 차원:", array1.ndim)
print("array1 형태:", array1.shape)

[ 7  2  9 10]
array1 type: <class 'numpy.ndarray'>
array1 차원: 1
array1 형태: (4,)


In [9]:
array2 = np.array([[5.2, 3.0, 4.5],
                   [9.1, 0.1, 0.3]])
print(array2)
print("array2 type:", type(array2))
print("array2 차원:", array2.ndim)
print("array2 형태:", array2.shape)

[[5.2 3.  4.5]
 [9.1 0.1 0.3]]
array2 type: <class 'numpy.ndarray'>
array2 차원: 2
array2 형태: (2, 3)


In [8]:
array3 = np.array([[[1, 4, 7],
                    [2, 9, 7],
                    [1, 3, 0],
                    [9, 6, 9]],
                   [[2, 3, 4],
                    [3, 4, 5],
                    [0, 1, 2],
                    [6, 7, 8]]])
print(array3)
print("array3 type:", type(array3))
print("array3 차원:", array3.ndim)
print("array3 형태:", array3.shape)

[[[1 4 7]
  [2 9 7]
  [1 3 0]
  [9 6 9]]

 [[2 3 4]
  [3 4 5]
  [0 1 2]
  [6 7 8]]]
array3 type: <class 'numpy.ndarray'>
array3 차원: 3
array3 형태: (2, 4, 3)


## ndarray - 타입(type)

In [11]:
list1 = [1, 2, 3]
print(type(list1))
array1 = np.array(list1)

print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


In [12]:
list3 = [1, 2, 3.0]
array3 = np.array(list3)
print(array3, array3.dtype)

[1. 2. 3.] float64


In [13]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
print(arr1, arr1.dtype)
print(arr2, arr2.dtype)

[1. 2. 3.] float64
[1 2 3] int32


In [14]:
arr1 = np.array([1, 2, 3], dtype='f8')
arr2 = np.array([1, 2, 3], dtype='i4')
print(arr1, arr1.dtype)
print(arr2, arr2.dtype)

[1. 2. 3.] float64
[1 2 3] int32


## ndarray - 타입(type) 변환 : astype()|

In [16]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

[1. 2. 3.] float64


In [17]:
array_int1=array_float.astype('int32')
print(array_int1, array_int1.dtype)

[1 2 3] int32


In [18]:
array_float = np.array([1.1, 2.1, 3.1])
array_int2=array_float.astype('int32')
print(array_int2, array_int2.dtype)

[1 2 3] int32


## ndarray - axis

In [19]:
array2 = np.array([[1, 2, 3], 
                  [2, 3, 4]])

print(array2.sum())
print(array2.sum(axis=0))
print(array2.sum(axis=1))

15
[3 5 7]
[6 9]


## ndarray - 편리한 생성 : arange, zeros, ones

In [21]:
array1 = np.arange(10)
print(array1)
print(array1.dtype, array1.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


In [22]:
array2 = np.zeros((4, 3), dtype='int32')
print(array2)
print(array2.dtype, array2.shape)

[[0 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 0]]
int32 (4, 3)


In [23]:
array3 = np.ones((4, 3))
print(array3)
print(array3.dtype, array3.shape)

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
float64 (4, 3)


## ndarray - 차원과 크기 변경 : reshape()

In [24]:
array1 = np.arange(10)
print(array1)

array2 = array1.reshape(2, 5)
print(array2)

array3 = array1.reshape(5, 2)
print(array3)

[0 1 2 3 4 5 6 7 8 9]


In [27]:
array1 = np.arange(10)
print("array1:\n", array1)

array2 = array1.reshape(-1, 5)
print("array2:\n", array2)

array3 = array1.reshape(5, -1)
print("array3:\n", array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [36]:
# reshape()는 (-1, 1), (-1, )와 같은 형태로 주로 사용됨.
# 1차원 ndarray를 2차원으로 또는 2차원 ndarray를 1차원으로 변환시 사용
array1 = np.arange(10)

# 1차원 ndarray를 2차원으로 변환하되, 컬럼axis크기는 반드시 1이어야 함.
array2 = array1.reshape(-1, 1)
print("array2 shape:", array2.shape)
print("array2:\n", array2)

# 2차원 ndarray를 1차원으로 변환
array3 = array2.reshape(-1,)
print("array3 shape:", array3.shape)
print("array3:\n", array3)

array2 shape: (10, 1)
array2:
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]
array3 shape: (10,)
array3:
 [0 1 2 3 4 5 6 7 8 9]


In [34]:
# -1을 적용하여도 변환이 불가능한 형태로의 변환을 요구할 경우 오류 발생
array1 = np.arange(10)
array4 = array1.reshape(-1, 4)

ValueError: cannot reshape array of size 10 into shape (4)

In [37]:
# 반드시 -1의 값은 1개의 인자만 입력해야 함
array1.reshape(-1, -1)

ValueError: can only specify one unknown dimension

## ndarray - 인덱싱(indexing)

In [38]:
array1 = np.array([5, 10, 18, 30, 45, 50, 60, 65, 70, 80])
print("array1:", array1)

# index는 -부터 시작하므로 array1[2]는 3번째 위치의 데이터 값을 의미
print("array1[2]:", array1[2])
print(type(array1[2]))

array1: [ 5 10 18 30 45 50 60 65 70 80]
array1[2]: 18
<class 'numpy.int32'>


In [39]:
print("array1[-1]:", array1[-1])
print("array1[-2]", array1[-2])

array1[-1]: 80
array1[-2] 70


In [40]:
array1[0]=4
array1[1]=0
print('array1:', array1)

array1: [ 4  0 18 30 45 50 60 65 70 80]


In [43]:
array1 = np.arange(start=1, stop=10)
array2 = array1.reshape(3, 3)
print(array2)

print("(row=0, col=0) 값:", array2[0, 0])
print("(row=0, col=1) 값:", array2[0, 1])
print("(row=1, col=2) 값:", array2[1, 2])
print("(row=2, col=1) 값:", array2[2, 1])
print("(row=2, col=2) 값:", array2[2, 2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) 값: 1
(row=0, col=1) 값: 2
(row=1, col=2) 값: 6
(row=2, col=1) 값: 8
(row=2, col=2) 값: 9


### 슬라이싱(slicing)

In [44]:
array1 = np.array([5, 10, 18, 30, 45, 50, 60, 65, 70, 80])
print(array1)
array2 = array1[0:4]
print(array2)
print(type(array2))

[ 5 10 18 30 45 50 60 65 70 80]
[ 5 10 18 30]
<class 'numpy.ndarray'>


In [46]:
array3 = array1[1:4]
print(array3)

array4 = array1[4:]
print(array4)

array5 = array1[:]
print(array5)

[10 18 30]
[45 50 60 65 70 80]
[ 5 10 18 30 45 50 60 65 70 80]


In [47]:
array1 = np.arange(start=1, stop=10)
array2 = array1.reshape(3, 3)
print("array2:\n", array2)

print("array2d[0:2, 0:2] \n", array2[0:2, 0:2])
print("array2d[1:3, 0:3] \n", array2[1:3, 0:3])
print("array2d[1:3, :] \n", array2[1:3, :])
print("array2d[:, :] \n", array2[:, :])
print("array2d[:2, 1:] \n", array2[:2, 1:])
print("array2d[:2, 1] \n", array2[:2, 1])

array2:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 1] 
 [2 5]


### 팬시 인덱싱(Fancy indexing)

In [50]:
array1 = np.array([5, 10, 18, 30, 45, 50, 60, 65, 70, 80])
print("array1[[3, 5, 8]] \n", array1[[3, 5, 8]])

array1[[3, 5, 8]] 
 [30 50 70]


In [51]:
array1 = np.arange(start=1, stop=10)
array2 = array1.reshape(3, 3)
print("array2 \n", array2)

array3 = array2[[0, 2], 1]
print("array2[[0, 2], 1] \n", array3)

array4 = array2[[0, 2], 1:3]
print("array2[[0, 2], 1:3] \n", array4)

array5 = array2[[0, 2]]
print("array2[[0, 2]] \n", array5)

array2 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2[[0, 2], 1] 
 [2 8]
array2[[0, 2], 1:3] 
 [[2 3]
 [8 9]]
array2[[0, 2]] 
 [[1 2 3]
 [7 8 9]]


### 불린 인덱싱(Boolean indexing)

In [52]:
array1 = np.arange(start=1, stop=10)
print(array1)

[1 2 3 4 5 6 7 8 9]


In [53]:
var1 = array1 > 5
print("var1:", var1)
print(type(var1))

var1: [False False False False False  True  True  True  True]
<class 'numpy.ndarray'>


In [61]:
# [ ]안에 array1d > 5  Boolean indexing을 적용
print(array1)
array2 = array1[array1 > 5]
print("array1d > 5 불린 인덱싱 결과 값 :", array2)

[1 2 3 4 5 6 7 8 9]
array1d > 5 불린 인덱싱 결과 값 : [6 7 8 9]


In [60]:
bindexes = np.array([False, False, False, False, False, True, True, True, True])
array3 = array1[bindexes]
print("불린 인덱스로 필터링 결과 :", array3)

불린 인덱스로 필터링 결과 : [6 7 8 9]


In [59]:
indexes = np.array([5, 6, 7, 8])
array4 = array1[indexes]
print("일반 인덱스로 필터일 결과 :", array4)

일반 인덱스로 필터일 결과 : [6 7 8 9]


In [62]:
array1d = np.arange(start=1, stop=10)
target = []

for i in range(0, 9) :
    if array1d[i]>5:
        target.append(array1d[i])
        
array_selected = np.array(target)
print(array_selected)

[6 7 8 9]


In [63]:
print(array1d[array1d > 5])

[6 7 8 9]


## 배열의 정렬 - sort()와 argsort()
### 행렬 정렬

In [65]:
org_array = np.array([3, 1, 9, 5])
print("원본 행렬:", org_array)

# np.sort()로 정렬
sort_array1 = np.sort(org_array)
print("np.sort() 호출 후 반환된 정렬 행렬:", sort_array1)
print("np.sort() 호출 후 원본 행렬:", org_array)

# ndarray.sort()로 정렬
org_array.sort()
print("org_array.sort() 호출 후 원본 행렬:", org_array)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]


In [66]:
array1 = np.array([4, 2, 6, 5, 1, 3, 0])
reverse1 = np.sort(array1)[::-1]
print(reverse1)

[6 5 4 3 2 1 0]


In [67]:
array1 = np.array([4, 2, 6, 5, 1, 3, 0])
reverse2 = array1[np.argsort(-array1)]
print(reverse2)

[6 5 4 3 2 1 0]


In [69]:
array2 = np.array([[8, 12],
                   [7, 1]])

sort_array2_axis0 = np.sort(array2, axis=0)
print("axis0 방향으로 정렬:", sort_array2_axis0)

sort_array2_axis1 = np.sort(array2, axis=1)
print("axis1 방향으로 정렬:", sort_array2_axis1)

axis0 방향으로 정렬: [[ 7  1]
 [ 8 12]]
axis1 방향으로 정렬: [[ 8 12]
 [ 1  7]]


## argsort()

In [70]:
org_array = np.array([3, 1, 9, 5])
print(np.sort(org_array))

sort_indices = np.argsort(org_array)
print(type(sort_indices))
print("행렬 정렬 시 원본 행렬의 인덱스:", sort_indices)
print(org_array)

[1 3 5 9]
<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]
[3 1 9 5]


In [71]:
org_array = np.array([3, 1, 9, 5])
print(np.sort(org_array)[::-1])

sort_indices_desc = np.argsort(org_array)[::-1]
print("행렬 내림차순 정렬 시 원본 행렬의 인덱스:", sort_indices_desc)
print(org_array)
print(org_array[sort_indices_desc])

[9 5 3 1]
행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]
[3 1 9 5]
[9 5 3 1]


### key-value 형태의 데이터를 John=78, Mike=95, Sarah=84, Kate=98, Samuel=88을 ndarray로 만들고 argsort()를 이용하여 key 값을 정렬

In [75]:
name_array = np.array(["John", "Mike", "Sarah", "Kate", "Samuel"])
score_array = np.array([78, 95, 84, 98, 88])

# score_array은 정렬된 값에 해당하는 원본 행렬 위치 인덱스 변환하고 이를 이용하여 name_array에서 name값 추출
sort_indices = np.argsort(score_array)
print("sort indices:", sort_indices)

name_array_sort = name_array[sort_indices]

score_array_sort = score_array[sort_indices]
print(name_array_sort)
print(score_array_sort)

sort indices: [0 2 4 1 3]
['John' 'Sarah' 'Samuel' 'Mike' 'Kate']
[78 84 88 95 98]


## Numpy 응용

### 선형대수 연산 - 행렬 내적과 전치 행렬 구하기

In [77]:
A = np.array([[1, 2, 3], 
              [4, 5, 6]])
B = np.array([[7, 8],
              [9, 10],
              [11, 12]])

dot_product = np.dot(A, B)
print("행렬 내적 결과:\n", dot_product)

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


### 전치행렬

In [79]:
A = np.array([[1, 2],
              [3, 4]])
transpose_mat=np.transpose(A)
print("A의 전치 행렬:\n", transpose_mat)

A의 전치 행렬:
 [[1 3]
 [2 4]]


### 벡터화 연산

In [81]:
cvalues = [25.3, 24.8, 26.9, 23.9]
# 섭씨 ndarry 생성
C = np.array(cvalues)
print(C)
F = C * 9 / 5 + 32
print(type(F), F)

# 기존 방식, 리스트 컴프리핸션도 loop문 실행
F1 = [x*9/5 + 32 for x in cvalues]
print(type(F1), F1)

[25.3 24.8 26.9 23.9]
<class 'numpy.ndarray'> [77.54 76.64 80.42 75.02]
<class 'list'> [77.54, 76.64, 80.42, 75.02]


### list와 ndarray 계산 성능

In [83]:
#list를 이용한 계산 성능
import time
size_of_vec = 10000000

X = list(range(size_of_vec))
Y = list(range(size_of_vec))
Z = list(range(size_of_vec))

start = time.time()
for i in range(len(X)) :
    Z[i] = X[i]+Y[i]
    
# 현재시각 - 시작시간 => 실행시간
print("time : ", time.time()-start)

time :  2.2742791175842285


In [85]:
# ndarray와 벡터화 연산을 이용한 계산 성능
import numpy as np
import time
size_of_vec = 10000000

X = np.arange(size_of_vec)
Y = np.arange(size_of_vec)

start = time.time()
Z = X + Y

# 현재시각 - 시작시간 => 실행시간
print("time : ", time.time()-start)

time :  0.011009931564331055


In [86]:
# ndarray에서 벡터화 연산을 이용하지 않을 경우의 계산 성능
import numpy as np
import time
size_of_vec = 10000000

start = time.time()
for i in range(len(X)) :
    Z[i] = X[i]+Y[i]

# 현재시각 - 시작시간 => 실행시간
print("time : ", time.time()-start)

time :  5.701920509338379
