# Numpy

* The theoretical background of machine learning consists of linear algebra and statistics. The representative package dealing with the matrix and linear algebra of Python is Numpy.

In [39]:
import numpy as np

* 넘파이를 이용해 배열 생성, 배열의 shape 확인(크기, 차원)

In [8]:
array1 = np.array([1, 2, 3]) #1차원 데이터로 3개의 데이터
print('array1 type:', type(array1))
print('array1 array 형태:', array1.shape)
array2 = np.array([[1, 2, 3],
                  [2, 3, 4]]) #2차원 데이터로 2*3=6개의 데이터
print('array2 type:', type(array2))
print('array2 array 형태:', array2.shape)
array3 = np.array([[1, 2, 3]]) #2차원 데이터로 3개의 데이터, 1*3 행렬
print('array3 type:', type(array3))
print('array3 array 형태:', array3.shape)

array1 type: <class 'numpy.ndarray'>
array1 array 형태: (3,)
array2 type: <class 'numpy.ndarray'>
array2 array 형태: (2, 3)
array3 type: <class 'numpy.ndarray'>
array3 array 형태: (1, 3)


In [9]:
print('array1: {:0}차원, array2: {:1}차원, array3: {:2}차원'.format(array1.ndim,array2.ndim,array3.ndim))

array1: 1차원, array2: 2차원, array3:  2차원


* dtype 이용해 ndarray내의 데이터 타입 확인

In [10]:
list1=[1,2,3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int32


* 다른 데이터 유형이 섞여 있는 리스트를 ndarray로 변경하면 데이터 크기가 더 큰 데이터 타입으로 형 변환을 일괄 적용한다

In [12]:
list2=[1,2,'test']
array2=np.array(list2)
print(array2,array2.dtype)

list3=[1,2,3.0]
array3=np.array(list3)
print(array3,array3.dtype)

['1' '2' 'test'] <U11
[1. 2. 3.] float64


* astype() 메서드를 이용해 ndarray 내 데이터값의 타입 변경

In [18]:
array_int=np.array([1,2,3])
array_float=array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1=array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1=np.array([1.1,2.1,3.1])
array_int2=array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


* arange() 함수

In [19]:
sequence_array=np.arange(10)
print(sequence_array)
print(sequence_array.dtype,sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int32 (10,)


* zeros() 함수: 0으로 채워줌, ones() 함수: 1로 채워줌

In [20]:
zero_array=np.zeros((3,2),dtype='int32')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

one_array=np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int32 (3, 2)
[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


* reshape() 사용해 ndarray의 차원과 크기를 변경

In [21]:
array1 = np.arange(10)
print('array1:\n', array1)

array2=array1.reshape(2,5)
print('array2:\n', array2)

array3=array1.reshape(5,2)
print('array3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]
array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]
array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


* -1인자를 사용해 기존의 ndarray와 호환되는 새로운 shape 변환

In [22]:
array1=np.arange(10)
print(array1)
array2=array1.reshape(-1,5)
print('array2 shape:', array2.shape)
array3=array1.reshape(5,-1)
print('array3 shape:', array3.shape)

[0 1 2 3 4 5 6 7 8 9]
array2 shape: (2, 5)
array3 shape: (5, 2)


* reshape(-1,1)을 이용해 3차원을 2차원으로, 1차원을 2차원으로 변경

In [23]:
array1=np.arange(8)
array3d=array1.reshape((2,2,2))
print('array3d:\n',array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5=array3d.reshape(-1,1)
print('array5:\n', array5.tolist())
print('array5 shape:', array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6=array1.reshape(-1,1)
print('array6:\n', array6.tolist())
print('array6 shape:', array6.shape)

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]
array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array5 shape: (8, 1)
array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
array6 shape: (8, 1)


* 단일 값 추출

In [24]:
array1=np.arange(1,10)
print('array1:', array1)

value=array1[2]
print('value:', value)
print(type(value))

array1: [1 2 3 4 5 6 7 8 9]
value: 3
<class 'numpy.int32'>


* 2차원의 ndarray에서 단일 값 추출

In [25]:
array1d=np.arange(1,10)
array2d=array1d.reshape(3,3)
print(array2d)

print('(row=0, col=0) index 가리키는 값:', array2d[0,0])
print('(row=0, col=1) index 가리키는 값:', array2d[0,1])
print('(row=1, col=0) index 가리키는 값:', array2d[1,0])
print('(row=1, col=1) index 가리키는 값:', array2d[1,1])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) index 가리키는 값: 1
(row=0, col=1) index 가리키는 값: 2
(row=1, col=0) index 가리키는 값: 4
(row=1, col=1) index 가리키는 값: 5


* 1차원 ndarray 슬라이싱

In [26]:
array1=np.arange(1,10)
array3=array1[0:3]
print(array3)
print(type(array3))

[1 2 3]
<class 'numpy.ndarray'>


In [43]:
array1d=np.arange(1,10)
array2d=array1d.reshape(3,3)
print(array2d)

print('array2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('array2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('array2d[1:3, :] \n', array2d[1:3, :])
print('array2d[:, :] \n', array2d[:, :])
print('array2d[:2, 1:] \n', array2d[:2, 1:])
print('array2d[:2, 0] \n', array2d[:2, 0])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]
array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]
array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]
array2d[:, :] 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
array2d[:2, 1:] 
 [[2 3]
 [5 6]]
array2d[:2, 0] 
 [1 4]


* 팬시 인덱싱(Fancy Indexing), 리스트나 ndarray로 인덱스 집합을 지정하면 해당 위치의 인덱스에 해당하는 ndarray를 반환하는 인덱싱 방식

In [47]:
array1d=np.arange(1,10)
array2d=array1d.reshape(3,3)

array3=array2d[[0,1],2]
print('array2d[[0,1],2]=>', array3.tolist())

array4=array2d[[0,1],0:2]
print('array2d[[0,1],0:2]=>', array4.tolist())

array5=array2d[[0,1]]
print('array2d[[0,1]]=>', array5.tolist())

array2d[[0,1],2]=> [3, 6]
array2d[[0,1],0:2]=> [[1, 2], [4, 5]]
array2d[[0,1]]=> [[1, 2, 3], [4, 5, 6]]


* 1차원 nparray 불린 인덱싱

In [29]:
array1d=np.arange(1,10)
array3 = array1d[array1d>5]
print('array1d>5 불린 인덱싱 결과 값 :', array3)

array1d>5 불린 인덱싱 결과 값 : [6 7 8 9]


* 행렬을 정렬하는 np.sort()와 ndarray.sort() 사용

In [34]:
org_array=np.array([3,1,9,5])
print('원본 행렬:', org_array)
sort_array1=np.sort(org_array)
print('np.sort() 호출 후 반환된 정렬 행렬:', sort_array1)
print('np.sort() 호출 후 원본 행렬:', org_array)
sort_array2=org_array.sort()
print('org_array.sort() 호출 후 반환된 행렬:', sort_array2)
print('org_array.sort() 호출 후 원본 행렬:', org_array)
sort_array1_desc=np.sort(org_array)[::-1]
print('내림차순으로 정렬:', sort_array1_desc)

원본 행렬: [3 1 9 5]
np.sort() 호출 후 반환된 정렬 행렬: [1 3 5 9]
np.sort() 호출 후 원본 행렬: [3 1 9 5]
org_array.sort() 호출 후 반환된 행렬: None
org_array.sort() 호출 후 원본 행렬: [1 3 5 9]
내림차순으로 정렬: [9 5 3 1]


* np.argsort()는 sort해서 index만 반환해준다. 원본 데이터는 그대로 두고 활용가능

In [45]:
name_array=np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array=np.array([78,95,84,98,88])

sort_indices_asc=np.argsort(score_array)
print('성적 오름차순 정렬 시 score_array의 인덱스:', sort_indices_asc)
print('성적 오름차순으로 name_array의 이름 출력:', name_array[sort_indices_asc])

성적 오름차순 정렬 시 score_array의 인덱스: [0 2 4 1 3]
성적 오름차순으로 name_array의 이름 출력: ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


* 행렬 내적(행렬 곱)

In [37]:
A=np.array([[1,2,3],
            [4,5,6]])
B=np.array( [[7,8],
             [9,10],
             [11,12]])
print('행렬 내적 결과:\n',A.dot(B))

행렬 내적 결과:
 [[ 58  64]
 [139 154]]


* 전치 행렬(transpose)

In [38]:
A=np.array([[1,2],
            [4,5]])
transpose_mat=np.transpose(A)
print('A의 전치 행렬:\n', transpose_mat)

A의 전치 행렬:
 [[1 4]
 [2 5]]
