## numpy 모듈 정리

In [2]:
import numpy as np

### numpy array 생성

In [13]:
lists = [1, 2, 3]
print('Python List :', lists)
print(type(lists), '\n')

np_list = np.array(lists)
print('Numpy List :', np_list)
print(type(np_list))

Python List : [1, 2, 3]
<class 'list'> 

Numpy List : [1 2 3]
<class 'numpy.ndarray'>


* ### numpy array 형태(shape)

In [45]:
array_1d = np.array([1,2,3])
array_2d = np.array([[1,2,3], [4,5,6]])
array_3d = np.array([[[1,2,3], [4,5,6]], [[7,8,9], [10,11,12]]])
print('array_1d shape :', array_1d.shape)
print('array_2d shape :', array_2d.shape)
print('array_3d shape :', array_3d.shape)

array_1d shape : (3,)
array_2d shape : (2, 3)
array_3d shape : (2, 2, 3)


### 다양한 numpy 배열 생성
* 모든 요소가 0인 배열  
np.zeros(row, col)

In [48]:
zeros = np.zeros((2, 4))
print(zeros)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]]


* 모든 요소가 1인 배열  
np.ones(row, col)

In [50]:
ones = np.ones((4, 2))
print(ones)

[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]


* 특정 값으로 채우는 배열  
np.full(row, col, value)

In [52]:
full = np.full((2, 4), 8)
print(full)

[[8 8 8 8]
 [8 8 8 8]]


* 일정 간격을 두고 배열 생성  
np.linspace(0, 1, 5)

In [56]:
linspace = np.linspace(0, 1, 5)
print(linspace)

[0.   0.25 0.5  0.75 1.  ]


* 랜덤 값으로 배열 생성  
np.random.rand(row, col)  
np.random.randn(row, col)  
randn은 정규 분포를 따르는 랜덤 값으로 생성

In [59]:
rand = np.random.rand(2, 2)
randn = np.random.randn(3, 3)
print(rand)
print()
print(randn)

[[0.44341782 0.30849307]
 [0.47736423 0.03512256]]

[[ 0.21205394 -0.4006682  -0.03605895]
 [ 0.49889386 -0.09300749 -1.58348108]
 [ 0.01853151  1.01021014 -0.68790096]]


### reshape, 차원 크기 변경

* np.reshape((row, col))  
-1 입력시 자동으로 차원 설정, -1은 row, col중 한 곳에만 설정 가능  
n번째 파라미터로 n차원 값 설정 가능

In [78]:
array1 = np.zeros(12)
print('Before reshaped')
print(array1)

array1 = array1.reshape((2, 6))
print('\nAfter reshaped')
print(array1)
print('array1 shape :', array1.shape)

array1 = array1.reshape((4, -1))
print('\nAfter reshaped with -1')
print(array1)
print('array1 shape :', array1.shape)

array1 = array1.reshape((2, 3, 2))
print('\nAfter reshaped 3D')
print(array1)
print('array1 shape :', array1.shape)

Before reshaped
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

After reshaped
[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]
array1 shape : (2, 6)

After reshaped with -1
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
array1 shape : (4, 3)

After reshaped 3D
[[[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]]
array1 shape : (2, 3, 2)


### Indexing 특정 위치의 값 추출  
list와 사용법 같음

In [88]:
array1 = np.arange(10)
print('변경 전 :', array1)
# 5번째 값을 1로, 2번째 값을 9로 변경
array1[5] = 1
array1[2] = 9
print('변경 후 :', array1)

변경 전 : [0 1 2 3 4 5 6 7 8 9]
변경 후 : [0 1 9 3 4 1 6 7 8 9]


### Slicing, 리스트 일정 부분 추출  
* array[n:m, n:m]

In [106]:
array1 = np.arange(9).reshape((3, 3))
print('array1 기본')
print(array1)
print('array1[0:2, 0:2]')
print(array1[0:2, 0:2])
print('array1[1:3, 0:3]')
print(array1[1:3, 0:3])
print('array1[:, 1:3]')
print(array1[:, 1:3])
print('array1[:2, 1:]')
print(array1[:2, 1:])

array1 기본
[[0 1 2]
 [3 4 5]
 [6 7 8]]
array1[0:2, 0:2]
[[0 1]
 [3 4]]
array1[1:3, 0:3]
[[3 4 5]
 [6 7 8]]
array1[:, 1:3]
[[1 2]
 [4 5]
 [7 8]]
array1[:2, 1:]
[[1 2]
 [4 5]]


### numpy array 정렬  
* np.sort() 기본 오름차순, 내림차순 정렬 시 np.sort()[::-1]  
np.sort(array)

In [110]:
array1 = np.array([5, 1, 3, 9])
print('원본 array :', array1)
sorted_array1 = np.sort(array1)
print('정렬된 array :', sorted_array1)
sorted_array1 = np.sort(array1)[::-1]
print('내림차순 정렬된 array :', sorted_array1)

원본 array : [5 1 3 9]
정렬된 array : [1 3 5 9]
내림차순 정렬된 array : [9 5 3 1]


* axis 기반의 정렬  
np.sort(array, axis=n)

In [114]:
array1 = np.array([[8, 12], [7, 1]])
print('원본 array :\n', array1)
sorted_array1 = np.sort(array1, axis=0)
print('row 방향 정렬 :\n', sorted_array1)
sorted_array1 = np.sort(array1, axis=1)
print('col 방향 정렬 :\n', sorted_array1)

원본 array :
 [[ 8 12]
 [ 7  1]]
row 방향 정렬 :
 [[ 7  1]
 [ 8 12]]
col 방향 정렬 :
 [[ 8 12]
 [ 1  7]]


* 정렬된 array의 인덱스 반환  
argsort(array), 내림차순 정렬 시 np.argsort(array)[::-1]

In [118]:
array1 = np.array([5, 1, 3, 9])
print('원본 array :', array1)
array1 = np.argsort(array1, axis=0)
print('argsort를 사용한 array :', array1)

원본 array : [5 1 3 9]
argsort를 사용한 array : [1 2 0 3]


### 행렬 연산
* 행렬 내적  
np.dot(a, b)

In [120]:
a = np.array([[1, 2, 3],
             [4, 5, 6]])
b = np.array([[7, 8],
              [9, 10],
              [11, 12]])

dot_calc = np.dot(a, b)
print('행렬 내적 값 :\n', dot_calc)

행렬 내적 값 :
 [[ 58  64]
 [139 154]]


* 전치 행렬  
np.transpose(array)

In [123]:
array1 = np.array([[1, 2], [3, 4]])
print('원본 array1 :\n', array1)
array1 = np.transpose(array1)
print('Transpose된 array1 :\n', array1)

원본 array1 :
 [[1 2]
 [3 4]]
Transpose된 array1 :
 [[1 3]
 [2 4]]


### 조건 처리
np.where(조건, 참일시 값, else값)

In [127]:
array1 = np.arange(9).reshape(3, 3)
print('원본 array1 :\n', array1)
print('조건 처리된 array1 :\n', np.where(array1 < 5, 0, 1))

원본 array1 :
 [[0 1 2]
 [3 4 5]
 [6 7 8]]
조건 처리된 array1 :
 [[0 0 0]
 [0 0 1]
 [1 1 1]]


### 결측 값 처리
* 결측값이면 true, 아니면 false  
np.isnan(array)

In [132]:
array1 = np.array([[1, 2, 3, 4],
                   [np.nan, np.nan, np.nan, 8],
                   [9, 10, 11, np.nan]])
print('원본 array1 :\n', array1)
print('결측치 처리된 array1 :\n', np.isnan(array1))

원본 array1 :
 [[ 1.  2.  3.  4.]
 [nan nan nan  8.]
 [ 9. 10. 11. nan]]
결측치 처리된 array1 :
 [[False False False False]
 [ True  True  True False]
 [False False False  True]]


* 결측치 전부 0으로 변경  
np.nan_to_num(array, nan=value)

In [138]:
array1 = np.array([[1, 2, 3, 4],
                   [np.nan, np.nan, np.nan, 8],
                   [9, 10, 11, np.nan]])
print('결측치 변경된 array1(default) :\n', np.nan_to_num(array1))
print('결측치 변경된 array1(-1) :\n', np.nan_to_num(array1, nan=-1))

결측치 변경된 array1(default) :
 [[ 1.  2.  3.  4.]
 [ 0.  0.  0.  8.]
 [ 9. 10. 11.  0.]]
결측치 변경된 array1(-1) :
 [[ 1.  2.  3.  4.]
 [-1. -1. -1.  8.]
 [ 9. 10. 11. -1.]]


* 결측치를 평균으로 변경  
np.nan_to_num(array, nan=np.nanmean(array))

In [142]:
print('결측치 평균 array1 :\n', np.nan_to_num(array1, nan=np.nanmean(array1)))

결측치 평균 array1 :
 [[ 1.  2.  3.  4.]
 [ 6.  6.  6.  8.]
 [ 9. 10. 11.  6.]]


### any(), all()
* axis에 nan값이 하나라도 있으면 true, 아니면 false  
np.any()

In [150]:
print('원본 array1 :\n', array1)
print('np.any 사용(axis=0):\n', np.isnan(array1).any(axis=0))
print('np.any 사용(axis=1):\n', np.isnan(array1).any(axis=1))

원본 array1 :
 [[ 1.  2.  3.  4.]
 [nan nan nan  8.]
 [ 9. 10. 11. nan]]
np.any 사용(axis=0):
 [ True  True  True  True]
np.any 사용(axis=1):
 [False  True  True]


* 배열의 모든 데이터가 조건에 맞으면 true, 아니면 false  
np.all()

In [156]:
array1 = np.array([[1, 2, 3, 4],
                   [np.nan, np.nan, np.nan, np.nan],
                   [9, 10, 11, np.nan]])
print('원본 array1 :\n', array1)
print('np.all 사용(axis=0) :\n', np.isnan(array1).all(axis=0))
print('np.all 사용(axis=1) :\n', np.isnan(array1).all(axis=1))

원본 array1 :
 [[ 1.  2.  3.  4.]
 [nan nan nan nan]
 [ 9. 10. 11. nan]]
np.all 사용(axis=0) :
 [False False False False]
np.all 사용(axis=1) :
 [False  True False]
