### Numpy ndarray
- 머신러닝 주요 알고리즘은 선형대수와 통계 등에 기반함
- Numpy는 선행대수 기반 프로그램을 쉽게 만들 수 있는 패키지
- 루프 없이 대량의 데이터 배열 연산을 빠르게 처리
- 2차원 행과열의 데이터 처리는 판다스(Pandas)가 더 편리
- 기반 데이터 타입 : ndarray

In [1]:
pip install numpy

Collecting numpy
  Downloading numpy-1.19.0-cp37-cp37m-win_amd64.whl (13.0 MB)
Installing collected packages: numpy
Successfully installed numpy-1.19.0
Note: you may need to restart the kernel to use updated packages.


In [2]:
import numpy as np

In [5]:
array1 = np.array([1,2,3])
type(array1)

numpy.ndarray

In [6]:
array1.shape

(3,)

In [8]:
array2 = np.array([[1,2,3],[2,3,4]])
type(array2)

numpy.ndarray

In [9]:
array2.shape

(2, 3)

In [10]:
array3 = np.array([[1,2,3]])
array3.shape

(1, 3)

In [12]:
#머신러닝은 다차원을 지원함 
print(array1.ndim)
print(array2.ndim)
print(array3.ndim)

1
2
2


In [13]:
array1.dtype

dtype('int32')

In [14]:
# 자료형이 동일 해야 넣을 수 있음
list2 = [1,2,'test']
array2 = np.array(list2)
array2.dtype

dtype('<U11')

In [15]:
list3 = [1, 2, 3.0]
array3 = np.array(list3)
array3.dtype

dtype('float64')

#### ndarray를 편리하게 생성하기 - arange, zeros, ones
- ndarray를 연속값이나 0 또는 1로 초기화해서 생성
- 테스트용 데이터나 대규모 데이터 일괄 초기화해야 할 경우 사용

In [17]:
seq_array = np.arange(10)
print(seq_array)
print(seq_array.dtype, seq_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


In [18]:
zero_array = np.zeros((3,2),dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)


In [19]:
one_array = np.ones((3,2),dtype='int32')
print(one_array)
print(one_array.dtype, one_array.shape)

[[1 1]
 [1 1]
 [1 1]]
int32 (3, 2)


In [21]:
# reshape() : ndarray를 특정 차원 및 크기로 변환
# 1차원을 2차원 2 x 5로
array1 = np.arange(10)
print("array1 : ", array1)
array2 = array1.reshape(2,5)
print("array2 : ", array2)
array3 = array1.reshape(5,2)
print("array3 : ", array3)

array1 :  [0 1 2 3 4 5 6 7 8 9]
array2 :  [[0 1 2 3 4]
 [5 6 7 8 9]]
array3 :  [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [22]:
# 10개로 만들 수 없는 사이즈
array1.reshape(4,3)

ValueError: cannot reshape array of size 10 into shape (4,3)

In [25]:
# -1을 사용하면 가능한 사이트 자동 생성
array2 = array1.reshape(-1,5)
print("array2 : ", array2)
array3 = array1.reshape(5,-1)
print("array3 : ", array3)

array2 :  [[0 1 2 3 4]
 [5 6 7 8 9]]
array3 :  [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


In [26]:
# -1을 사용해도 불가능한 사이즈는 오류
array4 = array1.reshape(-1,4)

ValueError: cannot reshape array of size 10 into shape (4)

In [28]:
# 3 차원 만들기  3*2*2    /  2*2가 3개 생김
array1 = np.arange(12)
array3d = array1.reshape((3,2,2))
print(array3d)

[[[ 0  1]
  [ 2  3]]

 [[ 4  5]
  [ 6  7]]

 [[ 8  9]
  [10 11]]]


#### indexing
- 단일값 추출

In [29]:
array1 = np.arange(start=1, stop=10)   #stop -1
array1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [32]:
#index는 0부터 시작
value = array1[0]
value

1

In [33]:
print('맨 뒤의 값:',array1[-1], ', 맨 뒤에서 두번째 값:',array1[-2])

맨 뒤의 값: 9 , 맨 뒤에서 두번째 값: 8


In [34]:
# 값 넣어주기
array1[0] = 9
array1

array([9, 2, 3, 4, 5, 6, 7, 8, 9])

In [35]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)   #2차원
array2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [39]:
#1, 5, 9 가져오기
array2d[0,0],array2d[1,1],array2d[2,2]

(1, 5, 9)

#### Slicing - 파이썬과 동일

In [40]:
array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
array3

array([1, 2, 3])

In [41]:
array4 = array1[3:]   #3번 인덱스부터 끝까지
array4

array([4, 5, 6, 7, 8, 9])

In [42]:
array5 = array1[:]    #값 복사  (주소 복사 아님)
array5

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [43]:
array1d = np.arange(start=1, stop=10)
array2d = array1d.reshape(3,3)
print("array2d : ",array2d)
print("array2d[0:2, 0:2] : ",array2d[0:2, 0:2])
print("array2d[1:3, :] : ",array2d[1:3, :])
print("array2d[:, :] : ",array2d[:, :])  # 다가져오기

array2d :  [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] :  [[1 2]
 [4 5]]
array2d[1:3, :] :  [[4 5 6]
 [7 8 9]]
array2d[:, :] :  [[1 2 3]
 [4 5 6]
 [7 8 9]]


#### fancy indexing
- 일정한 인덱싱 집합을 리스트 또는 ndarray 형태로 지정해 해당 위치에 있는 데이터의 ndarray 반환

In [44]:
array2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [48]:
# [0,1] 리스트값 행
array3 = array2d[[0,1], 2]
array3.tolist()

[3, 6]

In [49]:
array4 = array2d[[0,1], 0:2]
array4.tolist()

[[1, 2], [4, 5]]

In [50]:
array5 = array2d[[0,1]]
array5.tolist()

[[1, 2, 3], [4, 5, 6]]

#### Boolean indexing
- 조건 필터링과 검색을 동시에 하므로 자주 사용

In [51]:
array1d

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [52]:
array3 = array1d[array1d > 5]
array3

array([6, 7, 8, 9])

In [53]:
array1d > 5

array([False, False, False, False, False,  True,  True,  True,  True])

In [54]:
array4 = array1d[[False, False, False, False, False,  True,  True,  True,  True]]
array4

array([6, 7, 8, 9])

In [57]:
indexes = np.array([5,6,7,8])
array5 = array1d[indexes]
array5

array([6, 7, 8, 9])

#### 행렬의 정렬 – sort( )와 argsort( )
- 행렬 정렬 : np.sort(), ndarray.sort()
- argsort() : 정렬된 행렬의 인덱스 반환

In [64]:
org_array = np.array([ 3, 1, 9, 5]) 
org_array

array([3, 1, 9, 5])

In [65]:
# np.sort( )로 정렬 
sort_array1 = np.sort(org_array)  
sort_array1

array([1, 3, 5, 9])

In [67]:
# org_array 의 값이 바뀜
sort_array2 = org_array.sort()
print(sort_array2)
print(org_array)

None
[1 3 5 9]


np.sort()는 정렬한 값을 return을 만들어줌  
- np.sort()정렬된 복사본을 만들때
- sort() 는 실제 데이터를 만들때 사용

In [68]:
# 역순정렬
sort_array2 = np.sort(org_array)[::-1]
sort_array2

array([9, 5, 3, 1])

행 방향 ↓ 열방향 →

In [71]:
array2d = np.array([[8,12],[7,1]])

array([[ 8, 12],
       [ 7,  1]])

In [73]:
# row 방향 (헹 방향) axis = 0
sort_array2d_axis0 = np.sort(array2d, axis=0)
sort_array2d_axis0

array([[ 7,  1],
       [ 8, 12]])

In [74]:
# 컬럼 방향 (열 방향) axis = 1
sort_array2d_axis1 = np.sort(array2d, axis=1)
sort_array2d_axis1

array([[ 8, 12],
       [ 1,  7]])

정렬 행렬의 인덱스 반환

In [76]:
org_array = np.array([ 3, 1, 9, 5])

In [77]:
sort_index = np.argsort(org_array)
sort_index

array([1, 0, 3, 2], dtype=int64)

In [78]:
sort_index_desc=np.argsort(org_array)[::-1]
sort_index_desc

array([2, 3, 0, 1], dtype=int64)

In [81]:
# 성적과 이름 데이터
name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array= np.array([78, 95, 84, 98, 88])
sort_index_asc = np.argsort(score_array)
sort_index_asc

array([0, 2, 4, 1, 3], dtype=int64)

In [82]:
name_array[sort_index_asc]

array(['John', 'Sarah', 'Samuel', 'Mike', 'Kate'], dtype='<U6')

### 선형대수 연산 – 행렬 내적과 전치 행렬 구하기
- 참고 : https://rfriend.tistory.com/380

행렬 내적 - np.dot()

In [83]:
A = np.array([
            [1, 2, 3],
            [4, 5, 6]])
B = np.array([[7, 8],
              [9, 10],
              [11, 12]])
dot_rs = np.dot(A, B)
dot_rs

array([[ 58,  64],
       [139, 154]])

#### 전치 행렬
- 원행렬에서 행과 열의 위치를 교화한 행렬

In [84]:
A = np.array([[1, 2],
              [3, 4]])
np.transpose(A)

array([[1, 3],
       [2, 4]])

#### 역행렬 - np.linalg.inv()
- 내적의 곱으로 단위행렬이 나오는 행렬

In [85]:
a = np.array(range(4)).reshape(2,2)
a

array([[0, 1],
       [2, 3]])

In [86]:
#역행렬
a_inv = np.linalg.inv(a)
a_inv

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

In [87]:
a.dot(a_inv)

array([[1., 0.],
       [0., 1.]])