### Numpy 배열

많은 숫자 데이터를 하나의 변수에 넣고 관리할 때 리스트는 속도가 느리고 메모리를 많이 차지하는 문제가 있음

배열(array)를 사용하면 적은 메모리로 많은 데이터를 처리할 수 있다.

배열은 다음의 규칙을 따른다.

모든 원소가 같은 자료형이어야 한다.

원소의 갯수를 바꿀 수 없다.

Numpy는 수치해석용 파이썬 패키지로 다차원 배열 자료구조 클래스인 ndarray 클래스를 지원하며 벡터와 행렬을 사용하는 선형대수 계산에 주로 이용된다.

### Numpy 패키지 임포트

In [1]:
import numpy as np

### 1차원 배열 만들기

In [2]:
# numpy array 함수에 리스트를 넣으면 ndarray 클래스 객체인 배열로 변환됨
ar = np.array([0,1,2,3,4,5,6,7,8,9])
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
type(ar)

numpy.ndarray

### 벡터화 연산

In [5]:
data = [0,1,2,3,4,5,6,7,8,9]

answer = []
for di in data:
    answer.append(2 * di)
answer

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [6]:
x = np.array(data)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
2 * x

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [9]:
# 리스트 객체에 정수를 곱하면 객체의 크기가 정수배만큼 증가함
L = [0,1,2,3,4,5,6,7,8,9]
print(2*L)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


벡터화 연산은 비교 연산과 논리 연산을 포함한 모든 종류의 수학 연산에 대해 적용된다.

In [10]:
a = np.array([1,2,3])
b = np.array([10,20,30])

In [11]:
2 * a + b

array([12, 24, 36])

In [12]:
a == 2

array([False,  True, False])

In [13]:
b > 10

array([False,  True,  True])

In [14]:
(a == 2) & (b > 10)

array([False,  True, False])

### 2차원 배열 만들기

ndarray는 N-dimensional Array의 약자이다. 이름 그대로 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원한다. 2차원 배열은 행렬(matrix)이라고 하는데 행렬에서는 가로줄을 행(row)이라고 하고 세로줄을 열(column)이라고 부른다.

다음과 같이 리스트의 리스트 (list of list)를 이용하면 2차원 배열을 생성할 수 있다. 안쪽 리스트의 길이는 행렬의 열의 수, 가로 크기가 되고 바깥쪽 리스트의 길이는 행렬의 행의 수, 즉 세로 크기가 된다.

In [16]:
c = np.array([[0,1,2],[3,4,5]]) # 2 x 3 array
c

array([[0, 1, 2],
       [3, 4, 5]])

In [17]:
print(f'행의 갯수: {len(c)}')
print(f'열의 갯수: {len(c[0])}')

행의 갯수: 2
열의 갯수: 3


### 연습 문제 1

In [19]:
ar = np.array([[10, 20, 30, 40],[50, 60, 70 ,80]])
ar

array([[10, 20, 30, 40],
       [50, 60, 70, 80]])

### 3차원 배열 만들기

In [22]:
d = np.array([[[1,2,3,4],
               [5,6,7,8],
               [9,10,11,12]],
               [[11,12,13,14],
                [15,16,17,18],
                [19,20,21,22]]])
print(d)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[11 12 13 14]
  [15 16 17 18]
  [19 20 21 22]]]


In [24]:
len(d), len(d[0]), len(d[0][0])

(2, 3, 4)

### 배열의 차원과 크기 알아내기


In [27]:
# a = np.array([1,2,3])
print(a.ndim)
print(a.shape)

1
(3,)


In [28]:
# c = np.array([[0, 1, 2], [3, 4, 5]])
print(c.ndim)
print(c.shape)

2
(2, 3)


In [29]:
print(d.ndim)
print(d.shape)

3
(2, 3, 4)


### 배열의 인덱싱

In [30]:
a = np.array([0,1,2,3,4])
a[2]

2

In [31]:
a[-1]

4

In [33]:
a = np.array([[0,1,2],[3,4,5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [37]:
a[0,0]

0

In [38]:
a[0,1]

1

In [41]:
a[-1,-1]

5

### 배열 슬라이싱

In [42]:
a = np.array([[0,1,2,3],[4,5,6,7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [43]:
a[0,:]

array([0, 1, 2, 3])

In [44]:
a[:,1]

array([1, 5])

In [47]:
a[1,1:]

array([5, 6, 7])

In [49]:
a[:2,:2]

array([[0, 1],
       [4, 5]])

### 연습 문제 2

In [50]:
m = np.array([[ 0,  1,  2,  3,  4],
            [ 5,  6,  7,  8,  9],
            [10, 11, 12, 13, 14]])

In [52]:
#1
m[1,2]

7

In [54]:
#2
m[-1,-1]

14

In [56]:
#3
m[1,1:3]

array([6, 7])

In [58]:
#4
m[1:3,2]

array([ 7, 12])

In [60]:
#5
m[:2,-2:]

array([[3, 4],
       [8, 9]])

### 배열 인덱싱

numpy 배열 객체의 또다른 강력한 기능은 fancy indexing 이라고 부르는 방법이다. 인덱싱이라는 이름이 붙었지만 사실은 데이터베이스의 Query 기능을 수행한다. 배열 인덱싱에서는 대괄호 안의 인덱스 정보로 숫자나 슬라이스가 아니라 위치 정보를 나타내는 또 다른 ndarray 배열을 받을 수 있다. 여기에서는 이 배열을 편의상 인덱스 배열이라고 부르겠다. 배열 인덱싱의 방식에는 boolean 배열 방식과 정수 배열 방식 두가지가 있다.

Boolean 배열 인덱싱 방식은 인덱스 배열의 원소가 True, False 두 값으로만 구성되며 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 한다.

In [62]:
a = np.array([0,1,2,3,4,5,6,7,8,9])
idx = np.array([True,False,True,False,True,False,True,False,True,False])
a[idx]

array([0, 2, 4, 6, 8])

In [63]:
a % 2

array([0, 1, 0, 1, 0, 1, 0, 1, 0, 1], dtype=int32)

In [65]:
a % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [67]:
a[a % 2 == 0]

array([0, 2, 4, 6, 8])

정수 배열 인덱싱에서는 인덱스 배열의 원소 각각이 원래 ndarray 객체 원소 하나를 가리키는 인덱스 정수이여야 한다.

In [68]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 2, 4, 6, 8])
a[idx]

array([11, 33, 55, 77, 99])

In [70]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2])
a[idx]

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

In [71]:
a = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
a[:,[True, False, False, True]]

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [73]:
a[[2, 0 ,1],:]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

### 연습 문제 3

In [74]:
x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
             11, 12, 13, 14, 15, 16, 17, 18, 19, 20])

In [75]:
x[x % 3 == 0]

array([ 3,  6,  9, 12, 15, 18])

In [76]:
x[x % 4 == 1]

array([ 1,  5,  9, 13, 17])

In [77]:
x[(x % 3 ==0) & (x % 4 == 1)]

array([9])