In [1]:
import numpy as np

### 정리
1. ndarray 생성 : np.array(list)
    - \[ ] : 1차원 array , [[ ]] : 2차원 array
2. ndarray shape, dimension : ndarray.shape attribute, ndarray.ndim attribute
3. data type : ndarray.dtype attribute (배열 내 데이타 타입
    - type(ndarray) : 결과가 < Class 'numpy.ndarray' >로만 나옴
4. ndarray 내 데이터 변경 : astype() method, 예) astype('float64')

In [2]:
a = np.array([[1,2,3], [4,5,6]])
b = np.array([1,2,3])

In [3]:
a.shape

(2, 3)

In [4]:
b.shape

(3,)

In [5]:
print(a.ndim, b.ndim)

2 1


In [6]:
c = np.array([[1,2,3]])
print(c.shape, c.ndim)

(1, 3) 2


In [17]:
k = np.arange(1,10000)

In [18]:
x = np.array(k)
y = x.astype('float64')
z = y.astype('int32')

In [19]:
print(x.dtype,y.dtype,z.dtype)

int32 float64 int32


In [20]:
%%timeit
x@x

6.19 µs ± 46.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [21]:
%%timeit
y@y

2.97 µs ± 31.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


### axis 기반 연산함수 수행

In [24]:
array1 = np.array([[1,2,3], [2,3,4]])

print(array1.sum())
print(array1.sum(axis=0)) # 열
print(array1.sum(axis=1)) # 행

15
[3 5 7]
[6 9]


### ndarray를 편하게 생성하기
- np.arange()
- np.zeros()
- np.ones()

In [28]:
print(np.zeros((3,2)), np.ones((4,2)), np.arange(10), sep='\n')

[[0. 0.]
 [0. 0.]
 [0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[0 1 2 3 4 5 6 7 8 9]


### ndarray 차원을 바꾸는 reshape()

In [29]:
array = np.arange(10)
array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
# 10개의 배열에 reshape(4,3) (4by3) 크기로 바꾸려먼 요소 수가 부족해 에러남
array.reshape(3,2)

ValueError: cannot reshape array of size 10 into shape (3,2)

In [32]:
array.reshape(-1,3) # -1을 넣어도 크기변환이 불가능 하면 에러남

ValueError: cannot reshape array of size 10 into shape (3)

In [34]:
array.reshape(-1,5) # -1을 넣고 다른 값을 넣으면 알아서 크기를 맞춰서(5는 고정) 다시 배열해줌

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [35]:
array.reshape(-1, -1) # -1은 하나만 넣어줘야 함

ValueError: can only specify one unknown dimension

### ndarray의 데이터 세트 선택 : 인덱싱(indexing)

#### 특정 위치의 단일값 추출

In [37]:
# 1에서부터 9까지의 1차원 ndarray 생성
array1 = np.arange(start=1, stop=10)
print('array1 : ', array1)

# index는 0부터 시작하므로 array1[2]는 3번째 index 위치의 데이터 값을 의미
value = array1[2]
print('value :', value)
print(type(value))

array1 :  [1 2 3 4 5 6 7 8 9]
value : 3
<class 'numpy.int32'>


In [39]:
print('맨 뒤의 값 : ', array1[-1], '맨 뒤에서 두번째 값 : ', array1[-2], sep=' ')

맨 뒤의 값 :  9 맨 뒤에서 두번째 값 :  8


In [40]:
array1[0] = 9
array1[8] = 0
print('array1 : ', array1)

array1 :  [9 2 3 4 5 6 7 8 0]


In [41]:
array1d = np.arange(1,10)
array2d = array1d.reshape(3,3)
print(array2d)

print('(row=0, col=0) index 가리키는 값:', array2d[0,0] )
print('(row=0, col=1) index 가리키는 값:', array2d[0,1] )
print('(row=1, col=0) index 가리키는 값:', array2d[1,0] )
print('(row=2, col=2) index 가리키는 값:', array2d[2,2] )

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=2, col=2) index 가리키는 값: 9


### 슬라이싱(slicing)

In [42]:
array1 = np.arange(1,10)
print(array1)
array3 = array1[0:3]
print(array3)
print(type(array3))

[1 2 3 4 5 6 7 8 9]
[1 2 3]
<class 'numpy.ndarray'>


In [44]:
array1 = np.arange(1,10)
array4 = array1[:3]
print(array4)

array5 = array1[3:]
print(array5)

array6 = array1[:]
print(array6)

[1 2 3]
[4 5 6 7 8 9]
[1 2 3 4 5 6 7 8 9]


In [46]:
array1d = np.arange(1,10)
array2d = array1d.reshape(3,3)
print('array2d :\n', array2d)

print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('array2d[1:3, :] \n', array2d[1:3, :])
print('array2d[:, :] \n', array2d[:, :])
print('array2d[:2, 1:] \n', array2d[:2, 1:])
print('array2d[:2, 0] \n', array2d[:2, 0])

array2d :
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 0] 
 [1 4]


### 팬시 인덱싱(fancy indexing)
- 연속적으로 가져올 수 있고, 불연속적으로 가져올 수 있다

In [48]:
array1d = np.arange(1,10)
array2d = array1d.reshape(3,3)
print(array2d)

array3 = array2d[[0,1], 2]
print('array2d[[0,1], 2] =>',array3.tolist())

array4 = array2d[[0,1], 0:2]
print('array2d[[0,1], 0:2] =>',array4.tolist())

array5 = array2d[[0,1]]
print('array2d[[0,1]] =>',array5.tolist())

[[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[[0,1], 2] => [3, 6]
array2d[[0,1], 0:2] => [[1, 2], [4, 5]]
array2d[[0,1]] => [[1, 2, 3], [4, 5, 6]]


### 불린 인덱싱(Boolean indexing)

In [49]:
array1d = np.arange(1,10)
print(array1d)

[1 2 3 4 5 6 7 8 9]


In [52]:
print(array1d > 5)

var1 = array1d > 5
print('var1 :',var1)
print(type(var1))

[False False False False False  True  True  True  True]
var1 : [False False False False False  True  True  True  True]
<class 'numpy.ndarray'>


In [53]:
# [ ] 안에 array1d > 5 Boolean indexing을 적용
print(array1d)
array3 = array1d[array1d>5]
print('array1d > 5 불린 인덱싱 결과 값 : ', array3)

[1 2 3 4 5 6 7 8 9]
array1d > 5 불린 인덱싱 결과 값 :  [6 7 8 9]


In [54]:
boolean_indexes = np.array([False, False, False, False, False, True, True, True, True])
array3 = array1d[boolean_indexes]
print('불린 인덱스로 필터링 결과 :',array3)

불린 인덱스로 필터링 결과 : [6 7 8 9]


In [55]:
indexes = np.array([5,6,7,8])
array4 = array1d[ indexes ]
print('일반 인덱스로 필터링 결과 : ',array4)

일반 인덱스로 필터링 결과 :  [6 7 8 9]


In [56]:
array1d = np.arange(1,10)
target = []

for i in range(0,9):
    if array1d[i] > 5 :
        target.append(array1d[i])
        
array_selected = np.array(target)
print(array_selected)

[6 7 8 9]


In [57]:
print(array1d[array1>5])

[6 7 8 9]


### 행렬의 정렬 sort()와 argsort()
- np.sort() : 원 행렬은 그대로 유지한 채 원 행렬의 정렬된 행렬을 반환
- ndarray.sort() : 원 행렬 자체를 정렬한 형태로 변환하며 반환 값은 None
    - 기본적으로 오름차순으로 행렬 내 원소를 정렬함
    - 내림차순을 하기위해서 [::-1]을 적용 (ex : np.sort()[::-1] )

- argsort() : 원본 행렬 정렬 시 정렬된 행렬의 원래 인덱스를 필요로 할 때 np.argsort()를 이용. np.argsort()는 정렬 행렬의 `원본 행렬 인덱스`를 ndarray형으로 반환

In [58]:
org_array = np.array([3,1,9,5])
print('원본 행렬:', org_array)

# np.sort() 로 정렬
sort_array1 = np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 원본 행렬', org_array)

# ndarray.sort() 로 정렬
sort_array2 = org_array.sort()
org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort() 호출 후 원본 행렬', org_array)


원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 원본 행렬 [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬 [1 3 5 9]


In [60]:
sort_array1_desc = np.sort(org_array)[::-1]
print('내림차순으로 정렬 :', sort_array1_desc)

내림차순으로 정렬 : [9 5 3 1]


In [61]:
array2d = np.array([[8, 12],
                    [7, 1]])

sort_array2d_axis0 = np.sort(array2d, axis=0)
print('로우 방향으로 정렬 :\n', sort_array2d_axis0)

sort_array2d_axis1 = np.sort(array2d, axis=1)
print('컬럼 방향으로 정렬 :\n', sort_array2d_axis1)

로우 방향으로 정렬 :
 [[ 7  1]
 [ 8 12]]
컬럼 방향으로 정렬 :
 [[ 8 12]
 [ 1  7]]


- argsort

In [62]:
org_array = np.array([3,1,9,5])
print(np.sort(org_array))

sort_indices = np.argsort(org_array)
print(type(sort_indices))
print('행렬 정렬 시 원본 행렬의 인덱스:', sort_indices)

[1 3 5 9]
<class 'numpy.ndarray'>
행렬 정렬 시 원본 행렬의 인덱스: [1 0 3 2]


In [63]:
org_array = np.array([3,1,9,5])
print(np.sort(org_array)[::-1])

sort_indices_desc = np.argsort(org_array)[::-1]
print('행렬 내림차순 정렬 시 원본 행렬의 인덱스:',sort_indices_desc)

[9 5 3 1]
행렬 내림차순 정렬 시 원본 행렬의 인덱스: [2 3 0 1]


key_value 형태의 데이터를 John=78, Mike=95, Sarah=84, Kate=98, Samuel=88을 ndarray로 만들고 argsort()를 이용하여 key값을 정렬

In [64]:
name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78, 95, 84, 98, 88])

# score_array의 정렬된 값에 해당하는 원본 행렬 위치 인덱스 반환하고 이를 이용하여 name_array에서 name값 추출
sort_indices = np.argsort(score_array)
print('sort indices :', sort_indices)

name_array_sort = name_array[sort_indices]

score_array_sort = score_array[sort_indices]
print(name_array_sort)
print(score_array_sort)

sort indices : [0 2 4 1 3]
['John' 'Sarah' 'Samuel' 'Mike' 'Kate']
[78 84 88 95 98]


### 선형대수 연산 - 행렬 내적과 전치 행렬 구하기
- 행렬 내적

In [66]:
A = np.array([[1,2,3], [4,5,6]])
B = np.array([[7,8], [9,10], [11,12]])

dot_product = np.dot(A,B)
print('행렬 내적 결과 : \n {} , \n {}'.format(dot_product, A@B))

행렬 내적 결과 : 
 [[ 58  64]
 [139 154]] , 
 [[ 58  64]
 [139 154]]


- 전치 행렬

In [67]:
A = np.array([[1,2], [3,4]])
transpose_mat = np.transpose(A)
print('A의 전치 행렬 : \n {} \n {}'.format(transpose_mat, A.T))

A의 전치 행렬 : 
 [[1 3]
 [2 4]] 
 [[1 3]
 [2 4]]


## 넘파이 Summary
- 넘파이는 파이썬 머신러닝을 구성하는 핵심 기반으로 반드시 이해가 필요함
- 넘파이 API는 매우 넓은 범위를 다루고 있으므로 머신러닝 애플리케이션을 작성할 때 중요하게 활용될 수 있는 핵심 개념 위주로 숙지하는 것이 좋다.
- 넘파이는 판다스에 비해서 친절한 API를 제공하지 않는다. 2차원의 데이터라면 데이터 가공을 위해서 넘파이보다는 판다스를 이용하는 것이 더 효율적이다.