numpy 모듈을 import 해서 np라는 약어로 사용한다.

In [3]:
import numpy as np

이후 만들어 볼 배열들의 특징을 간편하게 확인하기 위해 함수를 정의해보자.

In [4]:
def aryInfo(array) :
    print("type : {}".format(type(array)))
    print("shape : {}, dimension : {}, dtype : {}".format(array.shape, array.ndim, array.dtype))
    print("Array's Data : \n", array)

1차원 배열 생성하기

In [5]:
array = np.array([0,1,2,3,4,5,6,7,8,9])
array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

생성한 aryInfo 함수를 사용하여 만들어 본 1차원 배열의 특징을 살펴보자

In [7]:
aryInfo(array)

type : <class 'numpy.ndarray'>
shape : (10,), dimension : 1, dtype : int32
Array's Data : 
 [0 1 2 3 4 5 6 7 8 9]


벡터화 연산 (Vectorized Operation)

In [8]:
data = [0,1,2,3,4,5,6,7,8,9]
# 리스트 자체로는 계산이 불가능하다. --> list comprehension이나 for loop를 활용해야 한다.
data * 2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [11]:
# for 문을 활용한 의도한 계산법
answer = []

for i in data :
    answer.append(i * 2)
print(answer)


[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]


In [12]:
# list comprehension을 활용한 의도한 계산법
answer = [i*2 for i in data]
print(answer)

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]


In [15]:
# 벡터화 연산을 이용하면 빠른 연산이 가능하다. 반복을 사용했을 때 보다 수행의 속도가 빠르고 메모리 절감효과
x = np.array(data)
answer = x * 2
print(answer, type(answer))

[ 0  2  4  6  8 10 12 14 16 18] <class 'numpy.ndarray'>


비교연산, 논리연산

In [16]:
oneAry = np.array([1,2,3])
twoAry = np.array([4,5,6])
oneAry + twoAry

array([5, 7, 9])

In [17]:
oneAry + twoAry * 2

array([ 9, 12, 15])

In [18]:
# boolean 형식으로 값이 들어있는지 확인 가능 boolean masking
oneAry == 2

array([False,  True, False])

In [19]:
twoAry > 10

array([False, False, False])

In [20]:
(oneAry == 2) & (twoAry > 10)

array([False, False, False])

2차원 배열 ( 행렬 , Matrix ) 

In [21]:
matrix = np.array([[1,2,3], [4,5,6]])
aryInfo(matrix)

type : <class 'numpy.ndarray'>
shape : (2, 3), dimension : 2, dtype : int32
Array's Data : 
 [[1 2 3]
 [4 5 6]]


In [24]:
print('행의 갯수 : ', len(matrix))
print('열의 갯수 : ', len(matrix[0]))

행의 갯수 :  2
열의 갯수 :  3


3차원 배열

In [26]:
threeDimAry = np.array([[[1,2,3,4],
                        [5,6,7,8],
                        [9,10,11,12]],
                        [[11,12,13,14],
                        [15,16,17,18],
                        [19,20,21,22]]])
aryInfo(threeDimAry)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4), dimension : 3, dtype : int32
Array's Data : 
 [[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[11 12 13 14]
  [15 16 17 18]
  [19 20 21 22]]]


In [28]:
# 3행 4열의 matrix가 2개의 layer로 구성되어 있는 모양
print( len(threeDimAry) , len(threeDimAry[0]) , len(threeDimAry[0][0]))

2 3 4


In [29]:
x = np.array([100, 'hello', 3.14])
x
# <U11 type은 문자열이라고 생각하면 된다.
print('array {}'.format(x))
print('type {}'.format(type(x)))
print('x.type {}'.format(x.dtype))
print('x[0] type {}'.format(type(x[0])))

array ['100' 'hello' '3.14']
type <class 'numpy.ndarray'>
x.type <U11
x[0] type <class 'numpy.str_'>


indexing에 대하여

vector indexing

In [30]:
data = np.array([0,1,2,3,4,5])
aryInfo(data)

type : <class 'numpy.ndarray'>
shape : (6,), dimension : 1, dtype : int32
Array's Data : 
 [0 1 2 3 4 5]


In [33]:
# 인덱스 값을 활용해서 값을 가져올 수 있다.
data[2], data[-1], data[3], data[0]

(2, 5)

matrix indexing

In [35]:
matrix = np.array([[1,2,3], [4,5,6]])
aryInfo(matrix)

type : <class 'numpy.ndarray'>
shape : (2, 3), dimension : 2, dtype : int32
Array's Data : 
 [[1 2 3]
 [4 5 6]]


In [36]:
# matrix[행, 열]
print(matrix[-1,-1])
print(matrix[1, -1])
print(matrix[1, 2])

6
6
6


slicing

In [42]:
matrix = np.array([[0,1,2], [3,4,5]])
aryInfo(matrix)

type : <class 'numpy.ndarray'>
shape : (2, 3), dimension : 2, dtype : int32
Array's Data : 
 [[0 1 2]
 [3 4 5]]


In [40]:
# 첫 번째 행의 전체
print(matrix[0,])
print(matrix[0, :])

[0 1 2]
[0 1 2]


In [41]:
# 두 번째 열의 전체
print(matrix[:, 1])

[1 4]


In [44]:
m = np.array([[ 0,  1,  2,  3,  4],
            [ 5,  6,  7,  8,  9],
            [10, 11, 12, 13, 14]])
aryInfo(m)

type : <class 'numpy.ndarray'>
shape : (3, 5), dimension : 2, dtype : int32
Array's Data : 
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [45]:
# 값 7을 인덱싱해보자
# 값 7의 위치 : 2행 3열

m[1,2]

7

In [46]:
# 값 14를 인덱싱해보자
print(m[2, 4])
print(m[2, -1])
print(m[-1, -1])
print(m[-1, 4])

14
14
14
14


In [48]:
# 배열 [6, 7]을 슬라이싱
# 2행 전체 중 --> 2번째부터 3번째까지 데이터를 가져오기
m[1 , 1:3]

array([6, 7])

In [50]:
# 배열 [7, 12]를 슬라이싱하라
m[1:3, 2]

array([ 7, 12])

In [51]:
# 배열[[3,4], [8,9]]를 슬라이싱하라
m[0:2 , 3:5]

array([[3, 4],
       [8, 9]])

boolean Indexing

In [52]:
odd_even = np.array([0,1,2,3,4,5,6,7,8,9])
idx = np.array([True, False, True, False, True, False, True, False, True, False])
aryInfo(odd_even)

type : <class 'numpy.ndarray'>
shape : (10,), dimension : 1, dtype : int32
Array's Data : 
 [0 1 2 3 4 5 6 7 8 9]


In [53]:
odd_even[idx] # True로 매칭되는 데이터만 출력

array([0, 2, 4, 6, 8])

In [54]:
odd_even[odd_even % 2 == 0]

array([0, 2, 4, 6, 8])

In [55]:
odd_even % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

fancing Indexing

In [56]:
data = np.array([1,2,3,4,5,6,7,8,9])
idx = np.array([0, 2, 4, 6, 8]) #index의 번지수를 의미
data[idx]

array([1, 3, 5, 7, 9])

In [57]:
idx = np.array([0,0,0,1,1,1,2,2,2]) #배열 요소의 크기와 상관이 없음
data[idx]

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

In [58]:
n_dim_ary = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
aryInfo(n_dim_ary)

type : <class 'numpy.ndarray'>
shape : (3, 4), dimension : 2, dtype : int32
Array's Data : 
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [59]:
n_dim_ary[:, [0, 3]] #배열 indexing 이용하여 가져올 수도 있다.

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [60]:
n_dim_ary[: , [True, False, False, True]] #boolean indexing을 이용한 방법

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [61]:
idx = np.array([0, 3])
n_dim_ary[: , idx]

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [62]:
# 행렬의 순서를 바꿔서 출력
n_dim_ary[[-1, 0, 1], :]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

In [64]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])
aryInfo(x)

type : <class 'numpy.ndarray'>
shape : (20,), dimension : 1, dtype : int32
Array's Data : 
 [ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]


In [65]:
# 3의 배수를 찾아라
print(x[x % 3 == 0])
# 4로 나눴을 때 나머지가 1인 수를 찾아라
print(x[x % 4 == 1])
# 3으로 나누면 나누어지고 4로 나누면 1이 남는 수를 찾아라
print(x[(x % 3 == 0) & (x % 4 == 1)], type(x[(x % 3 == 0) & (x % 4 == 1)])) # [9]가 list가 아님, ndarray이 타입이다.

[ 3  6  9 12 15 18]
[ 1  5  9 13 17]
[9] <class 'numpy.ndarray'>


배열의 생성과 변형

In [66]:
ary = np.arange(0,12,1).reshape(3,4) # arange는 1차원 배열을 만드는데 reshape을 통해 원하는 형태로 배열을 만들 수 있다.
aryInfo(ary)

type : <class 'numpy.ndarray'>
shape : (3, 4), dimension : 2, dtype : int32
Array's Data : 
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [67]:
# 10을 찾고자 한다면..?
print(ary[2, 2], type(ary[2,2]))

# 6을 찾고자 한다면..?
print(ary[1, 2], type(ary[1,2]))
print(ary[1:2, 2], type(ary[1:2, 2]))

# 5를 찾고자 한다면..?
print(ary[1:2, 1:2], type(ary[1:2, 1:2]))

10 <class 'numpy.int32'>
6 <class 'numpy.int32'>
[6] <class 'numpy.ndarray'>
[[5]] <class 'numpy.ndarray'>


ndarray가 포함하고 있는 것
- vector(1차원 - 배열) - pandas(Series)
- Matrix(N차원 - 행렬) - pandas(DataFrame)

In [68]:
print(ary[ : , [0, 2]], type(ary[ : , [0, 2]]))

[[ 0  2]
 [ 4  6]
 [ 8 10]] <class 'numpy.ndarray'>


In [69]:
# 2 와 10을 가져와보고 싶다? --> 결과값은 똑같지만 출력 결과 차원이 다르다.
aryInfo(ary[[0,2] , 2]) # 1차원 출력
aryInfo(ary[[0,2] , 2:3]) # 2차원 출력

type : <class 'numpy.ndarray'>
shape : (2,), dimension : 1, dtype : int32
Array's Data : 
 [ 2 10]
type : <class 'numpy.ndarray'>
shape : (2, 1), dimension : 2, dtype : int32
Array's Data : 
 [[ 2]
 [10]]


In [70]:
# 0, 8 , 2, 10을 2차원의 배열 형식으로 가져온다면?
# [[0 2]
#  [8 10]]

print(aryInfo(ary[[0, 2], [0, 2]])) # 초기 생각 --> 원하는 결과가 나오지 않음
print('*'*50)

# np.ix_ 를 이용한 해결 즉, 인덱스를 활용했을 때
print('np.ix_() --->')
print(ary[ np.ix_([0,2], [0,2])])
print('*'*50)

rowIdx = np.array([0,2])
print('rowIdx : ', rowIdx)
colIdx = np.array([0,2])
print('colIdx : ', colIdx)
print('*'*50)


print(ary[[rowIdx]])
print('*'*50)
print(ary[[rowIdx]] [: , colIdx])

type : <class 'numpy.ndarray'>
shape : (2,), dimension : 1, dtype : int32
Array's Data : 
 [ 0 10]
None
**************************************************
np.ix_() --->
[[ 0  2]
 [ 8 10]]
**************************************************
rowIdx :  [0 2]
colIdx :  [0 2]
**************************************************
[[ 0  1  2  3]
 [ 8  9 10 11]]
**************************************************
[[ 0  2]
 [ 8 10]]


  print(ary[[rowIdx]])
  print(ary[[rowIdx]] [: , colIdx])


In [71]:
x = np.array([1,2,3] , dtype='U')
aryInfo(x)

type : <class 'numpy.ndarray'>
shape : (3,), dimension : 1, dtype : <U1
Array's Data : 
 ['1' '2' '3']


In [72]:
x[0] + x[1] # 문자열로 형 변환을 했기 때문에 1과 2를 붙인 12가 출력

'12'

In [73]:
x = np.array([1,2,3] , dtype='f')
aryInfo(x)

type : <class 'numpy.ndarray'>
shape : (3,), dimension : 1, dtype : float32
Array's Data : 
 [1. 2. 3.]


In [74]:
x[0] + x[1] # float로 형변환을 했기 때문에 3.0 출력

3.0

In [75]:
np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])
  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])


array([  0.,  inf, -inf,  nan])

배열 생성시 사용할 수 있는 함수
- array()
- arange()
- zeros(), ones()
- zeros_like(), ones_like()
- empty()
- linspace

In [76]:
z = np.zeros(5)
aryInfo(z)

type : <class 'numpy.ndarray'>
shape : (5,), dimension : 1, dtype : float64
Array's Data : 
 [0. 0. 0. 0. 0.]


In [77]:
z = np.zeros((5,2), dtype='i')
aryInfo(z)

type : <class 'numpy.ndarray'>
shape : (5, 2), dimension : 2, dtype : int32
Array's Data : 
 [[0 0]
 [0 0]
 [0 0]
 [0 0]
 [0 0]]


In [78]:
o = np.ones((2, 3 ,4), dtype = 'i')
aryInfo(o)

type : <class 'numpy.ndarray'>
shape : (2, 3, 4), dimension : 3, dtype : int32
Array's Data : 
 [[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]


In [79]:
# 위에 만들어두었던 z 데이터 shape과 dimension을 사용
zl = np.zeros_like(z, dtype='f')
aryInfo(zl)

type : <class 'numpy.ndarray'>
shape : (5, 2), dimension : 2, dtype : float32
Array's Data : 
 [[0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]]


In [80]:
zl = np.ones_like(z, dtype='f')
aryInfo(zl)

type : <class 'numpy.ndarray'>
shape : (5, 2), dimension : 2, dtype : float32
Array's Data : 
 [[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]


In [81]:
e = np.empty((4,3))
aryInfo(e)

type : <class 'numpy.ndarray'>
shape : (4, 3), dimension : 2, dtype : float64
Array's Data : 
 [[9.32856628e-312 3.16202013e-322 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 3.62754605e+179]
 [3.73380082e-061 3.88826551e-033 1.04788523e+165]
 [4.27871831e-033 3.73239503e-033 9.43732746e+164]]


In [82]:
np.arange(10) # 0....n-1 까지 값 출력

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [83]:
np.arange(3, 21, 2) # 시작, 끝(포함하지 않는다), 단계

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

In [87]:
np.linspace(0, 100, 5) # 100을 5개의 구간으로 분리하겠다.

array([  0.,  25.,  50.,  75., 100.])

- 전치행렬(transpose matrix)
- 행렬의 행은 열로, 열은 행으로 바꾼 행렬을 의미한다.
- T (속성)

In [85]:
ary = np.array([ [1,2,3] , [4,5,6] ])

In [86]:
ary_t = ary.T
aryInfo(ary_t)

type : <class 'numpy.ndarray'>
shape : (3, 2), dimension : 2, dtype : int32
Array's Data : 
 [[1 4]
 [2 5]
 [3 6]]


In [88]:
# vector 에 transpose가 가능할까?
vec = np.arange(10)
aryInfo(vec)
print('*'*50)

vec_t = vec.T
aryInfo(vec_t)
print('*'*50)

vec_r_t = vec.reshape(1, 10).T
aryInfo(vec_r_t)

type : <class 'numpy.ndarray'>
shape : (10,), dimension : 1, dtype : int32
Array's Data : 
 [0 1 2 3 4 5 6 7 8 9]
**************************************************
type : <class 'numpy.ndarray'>
shape : (10,), dimension : 1, dtype : int32
Array's Data : 
 [0 1 2 3 4 5 6 7 8 9]
**************************************************
type : <class 'numpy.ndarray'>
shape : (10, 1), dimension : 2, dtype : int32
Array's Data : 
 [[0]
 [1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]
 [9]]


In [89]:
x = np.arange(12)
aryInfo(x)

type : <class 'numpy.ndarray'>
shape : (12,), dimension : 1, dtype : int32
Array's Data : 
 [ 0  1  2  3  4  5  6  7  8  9 10 11]


In [90]:
xx = x.reshape(3,4)
aryInfo(xx)

type : <class 'numpy.ndarray'>
shape : (3, 4), dimension : 2, dtype : int32
Array's Data : 
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [91]:
x_reshape = x.reshape(2, -1) #row가 결정이 됐으면 내부 요소에 따라서 col이 알아서 맞춰준다.
aryInfo(x_reshape)

type : <class 'numpy.ndarray'>
shape : (2, 6), dimension : 2, dtype : int32
Array's Data : 
 [[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


In [92]:
x_reshape = x.reshape(2, -1, 2) # (depth, row, col)
aryInfo(x_reshape)

type : <class 'numpy.ndarray'>
shape : (2, 3, 2), dimension : 3, dtype : int32
Array's Data : 
 [[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]


차원축소 flatten()

In [93]:
x_reshape.flatten() #1차원 벡터로 전환
aryInfo(x_reshape.flatten())

type : <class 'numpy.ndarray'>
shape : (12,), dimension : 1, dtype : int32
Array's Data : 
 [ 0  1  2  3  4  5  6  7  8  9 10 11]


In [94]:
# 변형할 때 주의점
x = np.arange(5)
aryInfo(x)

type : <class 'numpy.ndarray'>
shape : (5,), dimension : 1, dtype : int32
Array's Data : 
 [0 1 2 3 4]


In [95]:
x_re = x.reshape(1,5)
aryInfo(x_re)

type : <class 'numpy.ndarray'>
shape : (1, 5), dimension : 2, dtype : int32
Array's Data : 
 [[0 1 2 3 4]]


In [96]:
x_re = x.reshape(5,1)
aryInfo(x_re)

type : <class 'numpy.ndarray'>
shape : (5, 1), dimension : 2, dtype : int32
Array's Data : 
 [[0]
 [1]
 [2]
 [3]
 [4]]


1차원 배열에 대한 순차적 접근 --> ndarray iterator -nditer()

In [97]:
for temp in x :
    print( type(temp))
    print(temp, end=" ")

<class 'numpy.int32'>
0 <class 'numpy.int32'>
1 <class 'numpy.int32'>
2 <class 'numpy.int32'>
3 <class 'numpy.int32'>
4 

In [None]:
ite = np.nditer(x, flags=['c_index'])
while not ite.finished :
    print(x[ite.index] , end = " ")
    ite.iternext()