* 배열의 크기 변형
* reshape

In [2]:
import numpy as np

In [3]:
def aryinfo(ary):
    print('type : {}'.format(type(ary)))
    print('shape : {}'.format(ary.shape))
    print('dimension : {}'.format(ary.ndim))
    print('dtype : {}'.format(ary.dtype))
    print('array data : \n', ary)

In [6]:
arr = np.arange(0,12,1)
aryinfo(arr)

type : <class 'numpy.ndarray'>
shape : (12,)
dimension : 1
dtype : int32
array data : 
 [ 0  1  2  3  4  5  6  7  8  9 10 11]


In [10]:
arr1 = arr.reshape(4,3) #행의 개수에 따라 자동으로 열배열되긴 함 
aryinfo(arr1)

type : <class 'numpy.ndarray'>
shape : (4, 3)
dimension : 2
dtype : int32
array data : 
 [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [11]:
arr1 = arr.reshape(2,2,-1)
aryinfo(arr1)

type : <class 'numpy.ndarray'>
shape : (2, 2, 3)
dimension : 3
dtype : int32
array data : 
 [[[ 0  1  2]
  [ 3  4  5]]

 [[ 6  7  8]
  [ 9 10 11]]]


* 무조건 1차원 배열로 변경하고 싶다면
* flatten()
* ravel()


In [12]:
arr = np.arange(5)
aryinfo(arr)

type : <class 'numpy.ndarray'>
shape : (5,)
dimension : 1
dtype : int32
array data : 
 [0 1 2 3 4]


In [16]:
arr1 = arr.reshape(5,1)  # 물리적인 메모리의 주소가 없음, view의 기능
aryinfo(arr1)

type : <class 'numpy.ndarray'>
shape : (5, 1)
dimension : 2
dtype : int32
array data : 
 [[0]
 [1]
 [2]
 [3]
 [4]]


In [17]:
arr1.flatten()

array([0, 1, 2, 3, 4])

In [18]:
arr1.ravel()

array([0, 1, 2, 3, 4])

In [19]:
arr2 = arr.reshape(1,5).copy() # copy()는 배열에 대한 다른 객체를 만듬
aryinfo(arr2)

type : <class 'numpy.ndarray'>
shape : (1, 5)
dimension : 2
dtype : int32
array data : 
 [[0 1 2 3 4]]


# 배열 연결(concatenate)
* hstack
* vstack
* dstack
* stack
* r_
* c_
* tile

In [28]:
# hstack 행의 수가 같은 두개 이상의 배열을 옆으로 연결 열의 수가 더 많은 배열을 만들 때
h_arr01 = np.ones((2,3))
aryinfo(h_arr01)
print("*"*50)

h_arr02 = np.zeros((2,2))
aryinfo(h_arr02)
print("*"*50)

np.hstack([h_arr01, h_arr02]) #행의 개수가 같을때만 가능하다


type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : float64
array data : 
 [[1. 1. 1.]
 [1. 1. 1.]]
**************************************************
type : <class 'numpy.ndarray'>
shape : (2, 2)
dimension : 2
dtype : float64
array data : 
 [[0. 0.]
 [0. 0.]]
**************************************************


array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

In [27]:
# vstack 열의 수가 같은 두개 이상의 배열을 위아래로 연결 열의 수가 더 많은 배열을 만들 때
h_arr01 = np.ones((2,3))
aryinfo(h_arr01)
print("*"*50)

h_arr02 = np.zeros((3,3))
aryinfo(h_arr02)
print("*"*50)

np.vstack([h_arr01, h_arr02]) #열의 개수가 같을때만 가능하다

type : <class 'numpy.ndarray'>
shape : (2, 3)
dimension : 2
dtype : float64
array data : 
 [[1. 1. 1.]
 [1. 1. 1.]]
**************************************************
type : <class 'numpy.ndarray'>
shape : (3, 3)
dimension : 2
dtype : float64
array data : 
 [[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
**************************************************


array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [30]:
# shape(3,4) -> 3차원 (3,4,2)
h_arr01 = np.ones((3,4))
aryinfo(h_arr01)
print("*"*50)

h_arr02 = np.zeros((3,4))
aryinfo(h_arr02)
print("*"*50)

aryinfo(np.dstack([h_arr01, h_arr02]) )

type : <class 'numpy.ndarray'>
shape : (3, 4)
dimension : 2
dtype : float64
array data : 
 [[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
**************************************************
type : <class 'numpy.ndarray'>
shape : (3, 4)
dimension : 2
dtype : float64
array data : 
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
**************************************************
type : <class 'numpy.ndarray'>
shape : (3, 4, 2)
dimension : 3
dtype : float64
array data : 
 [[[1. 0.]
  [1. 0.]
  [1. 0.]
  [1. 0.]]

 [[1. 0.]
  [1. 0.]
  [1. 0.]
  [1. 0.]]

 [[1. 0.]
  [1. 0.]
  [1. 0.]
  [1. 0.]]]


In [31]:
aryinfo(np.stack([h_arr01, h_arr02]))

type : <class 'numpy.ndarray'>
shape : (2, 3, 4)
dimension : 3
dtype : float64
array data : 
 [[[1. 1. 1. 1.]
  [1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]]


In [33]:
# 인덱서
aryinfo(np.r_[np.array([1,2,3]), np.array([4,5,6]) ] )
aryinfo(np.c_[np.array([1,2,3]), np.array([4,5,6]) ] )

type : <class 'numpy.ndarray'>
shape : (6,)
dimension : 1
dtype : int32
array data : 
 [1 2 3 4 5 6]
type : <class 'numpy.ndarray'>
shape : (3, 2)
dimension : 2
dtype : int32
array data : 
 [[1 4]
 [2 5]
 [3 6]]


In [35]:
aryinfo(np.tile(np.array([[1,2,3], [4,5,6] ]), (3,2)) ) # 행은 3번, 열은 2번만큼 반복시킴

type : <class 'numpy.ndarray'>
shape : (6, 6)
dimension : 2
dtype : int32
array data : 
 [[1 2 3 1 2 3]
 [4 5 6 4 5 6]
 [1 2 3 1 2 3]
 [4 5 6 4 5 6]
 [1 2 3 1 2 3]
 [4 5 6 4 5 6]]


# ndarray delete() 함수
* axis 기준 행과 열을 삭제 할 수 있다.
* axis 지정하지 않으면 1차원 변환 삭제
* 원본 배열을 변경하지 않고 새로운 배열 return


In [36]:
arr = np.random.randint(0, 10, (3,4))
aryinfo(arr)

type : <class 'numpy.ndarray'>
shape : (3, 4)
dimension : 2
dtype : int32
array data : 
 [[6 3 3 9]
 [6 0 8 5]
 [7 6 0 7]]


In [41]:
result = np.delete(arr,1) #1의 의미 인덱스번지인 3을 삭제시켜서 result에 보여줌
aryinfo(result)
print('*'*50)
aryinfo(arr)
print('*'*50)
result = np.delete(arr, 1, axis = 0) # 축값을 0으로 주면 행을 삭제
aryinfo(result)
result = np.delete(arr, 1, axis = 1) # 축값을 1로 주면 열을 삭제
aryinfo(result)

type : <class 'numpy.ndarray'>
shape : (11,)
dimension : 1
dtype : int32
array data : 
 [6 3 9 6 0 8 5 7 6 0 7]
**************************************************
type : <class 'numpy.ndarray'>
shape : (3, 4)
dimension : 2
dtype : int32
array data : 
 [[6 3 3 9]
 [6 0 8 5]
 [7 6 0 7]]
**************************************************
type : <class 'numpy.ndarray'>
shape : (2, 4)
dimension : 2
dtype : int32
array data : 
 [[6 3 3 9]
 [7 6 0 7]]
type : <class 'numpy.ndarray'>
shape : (3, 3)
dimension : 2
dtype : int32
array data : 
 [[6 3 9]
 [6 8 5]
 [7 0 7]]


# 배열의 연산
* vector operation(명시적으로 반복문을 사용하지 않더라도 모든 원소에 대해서 연산 가능)

In [68]:
image('c:/users/i/numpy_vectorized_operation_img.png', width = 700)

NameError: name 'image' is not defined

In [45]:
x = np.arange(1,10001)
print(x)
y = np.arange(10001,20001)
print(y)

[    1     2     3 ...  9998  9999 10000]
[10001 10002 10003 ... 19998 19999 20000]


In [48]:
%%time
z = np.zeros_like(x)
print(z)
for i in range(10000):
    z[i] = x[i] + y[i]
print(z[:10])

[0 0 0 ... 0 0 0]
[10002 10004 10006 10008 10010 10012 10014 10016 10018 10020]
Wall time: 7 ms


In [49]:
%%time
z = x + y
print(z[:10])

[10002 10004 10006 10008 10010 10012 10014 10016 10018 10020]
Wall time: 0 ns


In [54]:
# 비교, 논리 연산도 가능하다
x = np.array([1,2,3,4])
y = np.array([4,2,2,4])
z = np.array([1,2,3,4])

print(x == y)
print(x >= y)

# 배열의 모든 원소가 같은지 다른지를 판단하고 싶다면?
print( np.all(x == y) )
print( np.all(x == z) )

# 스칼라 연산
print( x * 10 )

[False  True False  True]
[False  True  True  True]
False
True
[10 20 30 40]


In [55]:
x = np.arange(12).reshape(3,4)
aryinfo(x)

type : <class 'numpy.ndarray'>
shape : (3, 4)
dimension : 2
dtype : int32
array data : 
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [56]:
print( x * 100)

[[   0  100  200  300]
 [ 400  500  600  700]
 [ 800  900 1000 1100]]


# broadcasting

In [66]:
image('c:/users/i/numpy_broadcasting_img.png', width = 700)

NameError: name 'image' is not defined

In [67]:
image('c:/users/i/numpy_broadcasting_diff_img.png', width = 700)

NameError: name 'image' is not defined

In [72]:
x = np.vstack([range(7)[i : i+3] for i in range(5) ] )
aryinfo(x)

type : <class 'numpy.ndarray'>
shape : (5, 3)
dimension : 2
dtype : int32
array data : 
 [[0 1 2]
 [1 2 3]
 [2 3 4]
 [3 4 5]
 [4 5 6]]


In [62]:
y = np.arange(5) [ : , np.newaxis]
aryinfo(y)

type : <class 'numpy.ndarray'>
shape : (5, 1)
dimension : 2
dtype : int32
array data : 
 [[0]
 [1]
 [2]
 [3]
 [4]]


In [63]:
x + y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

* 최대/최소 : min, max, argmin, argmax
* 통계 : sum, mean, median, std, var

In [74]:
x = np.array([1,2,3,4])
aryinfo(np.sum(x))

type : <class 'numpy.int32'>
shape : ()
dimension : 0
dtype : int32
array data : 
 10


In [75]:
aryinfo( x.sum() )

type : <class 'numpy.int32'>
shape : ()
dimension : 0
dtype : int32
array data : 
 10


In [78]:
print(x.min())
print(x.max())

1
4


In [90]:
print('최소값 인덱스 : ' , x.argmin())   
print('최대값 인덱스 : ', x.argmax())
print('최대값 : ', x[x.argmax()])
print('최소값 : ', x[x.argmin()])
print('중위수값 : ', np.median(x))
print('평균값 : ', np.mean(x))
print('합 값 : ', np.sum(x))

print('*' *50)

print(np.all([True, True, True]))

print(np.all([True, True, False]))


최소값 인덱스 :  0
최대값 인덱스 :  3
최대값 :  4
최소값 :  1
중위수값 :  2.5
평균값 :  2.5
합 값 :  10
**************************************************
True
False


In [94]:
all_matrix = np.zeros( (100,100) , dtype=np.int)
aryinfo(all_matrix)

print(np.any(all_matrix != 0 )) # 모든값이 0이 아니다
print(np.all(all_matrix == all_matrix)) # 모든값이 같다

type : <class 'numpy.ndarray'>
shape : (100, 100)
dimension : 2
dtype : int32
array data : 
 [[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]
False
True


In [96]:
x_vector = np.array([1,2,3,2])  #1,2 2,2 3,3 2,2 각각 비교
y_vector = np.array([2,2,3,2])
z_vector = np.array([6,4,4,5])

print( ((x_vector <= y_vector) & (y_vector <= z_vector)).all())

True


# 연산의 대상이 2차원이라면?
* axis = 0 열 연산
* axis = 1 행 연산 (생략 될 경우 디폴트 값으로 0)

In [97]:
x_matrix = np.arange(1, 21, 1).reshape(4,-1)

In [100]:
print(x_matrix.sum(axis=0))
print('*'*50)
print(x_matrix.sum(axis=1))

[34 38 42 46 50]
**************************************************
[15 40 65 90]


* 실수로 이루어진 5 * 6 행렬을 만들고 해당 데이터의 값을 구하시오
* 1. 전체의 최대값
* 2. 각 행의 합
* 3. 각 행의 최대값
* 4. 각 열의 평균
* 5. 각 열의 최대값

In [104]:
x = np.arange(30).reshape(5,6)
x

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [112]:
print(x.max()) 
print(x.sum(axis=1)) # print(np.sum(x, axis=1))해도 동일 
print(x.max(axis=1))
print(x.mean(axis=0))
print(x.max(axis=0))


29
[ 15  51  87 123 159]
[ 15  51  87 123 159]
[ 5 11 17 23 29]
[12. 13. 14. 15. 16. 17.]
[24 25 26 27 28 29]


# 정렬
* sort()
* axis = 0 행을 정렬, 1이면 열을 정렬
* inplace = T, F
* np.sort() : 정렬된 배열
* arr.sort() : 원본이 정렬(inplace = T) -> None

In [114]:
x = np.array([4,3,5,7])
print(np.sort(x))
print('*'*50)   
print(x)     #넘파이의 소트는 원본에 변화는 없다

[3 4 5 7]
**************************************************
[4 3 5 7]


In [122]:
x = np.array([[4,3,5,7], [1,12,11,9], [2,15,1,4]])
np.sort(x, axis = 1)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2,  4, 15]])

In [123]:
x.sort(axis = 1) #x의 소트는 배열자체가 바뀜
x

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2,  4, 15]])

* argsort

In [124]:
x = np.array([4,3,5,7])
idx = np.argsort(x)
print(idx) # 인덱스번호
print(x[idx]) #인덱스번호의 값

[1 0 2 3]
[3 4 5 7]


* 아래 추출한 값을 가지고 내림차순으로 상위 5%까지만 결과를 출력하라면?

In [128]:
# 내림차순
arr = np.arange(10)
print(arr)
np.random.shuffle(arr)
print(arr)
print(np.sort(arr))
print(np.sort(arr)[::-1])

[0 1 2 3 4 5 6 7 8 9]
[7 2 1 9 6 4 8 0 3 5]
[0 1 2 3 4 5 6 7 8 9]
[9 8 7 6 5 4 3 2 1 0]


In [133]:
arr = np.random.randn(200)
aryinfo(arr)
print('*'*50)

result = np.sort(arr)[::-1][:int(0.05 * len(arr))]
print(result)

type : <class 'numpy.ndarray'>
shape : (200,)
dimension : 1
dtype : float64
array data : 
 [-0.72378403  1.07639002  0.05921277  0.28878066 -0.24283232 -0.29423678
  1.06394327 -1.41386274 -0.29987571 -2.43785782  0.38369837  0.37884671
  0.01420209  0.98813509  0.20650049 -0.32196784  0.67185647  0.53544722
  1.37222394 -0.37094382 -0.14509128 -1.12894484 -0.15802399 -1.58229724
 -1.26476663  1.44009642 -1.44307968  0.83916602 -0.19015575 -1.23816388
  0.46329787  0.42484758 -0.08052796  0.10951978  1.44565232  0.17564201
  0.65549146 -0.81725485  0.84906458 -0.36018253  0.09618155  0.83334473
 -0.99315706  0.97842483 -1.04127316  2.72615827 -1.01931406  0.74117489
  0.38070739  0.48552844 -0.39801505  0.03388987  0.28878365 -0.03110166
  0.68878966  0.33347795  0.33604081 -0.50762889 -0.67152656 -1.18206864
  0.21152528  0.02198368  1.11407123 -0.93207967 -0.21734229  1.40902273
 -0.14070439 -1.02773689 -0.64436014 -1.63118284 -0.82197015 -0.93620508
 -0.17507    -0.6547443   0.18288