In [8]:
import numpy as np
print('Numpy Version : {:s}'.format(np.__version__))

Numpy Version : 1.14.3


# Numpy 배열

* 많은 숫자 데이터를 하나의 변수에 넣고 관리하면 리스트는 속도가 느리고 메모리를 많이 차지한다
* 배열은 적은 메모리로 데이터를 빠르게 처리한다.


### 배열과 리스트 차이점
1. 모든 원소가 같은 자료형이어야한다.
2. 원소의 갯수를 바꿀 수 없다.

### Numpy 설명
* Numpy는 수치해석용 파이썬 패키지이다.
* 다차원 자료구조 클래스를 지원한다 (ndarray).
* 벡터와 행렬을 사용하여 선형대수 계산에 주로 사용된다.
* 내부적으로 BLAS , LAPACK 라이브러리 사용

### Numpy 특징
* Numpy의 배열 연산은 C로 구현되어서 속도가 빠르다.
* 벡터화 연산을 이용하여 간단하게 선형 대수 연산을 수행할 수 있다.
* 배열 인덱싱을 사용하여 간단한 코드로 계산할 수 있다.

### 1차원 배열 만들기
* Numpy의 array함수에 리스트를 넣으면 배열로 변환해줌

##### Example

In [9]:
ar = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
type(ar)

numpy.ndarray

** Numpy배열은 모든 원소가 같은 자료형이어야 한다. (연속적인 메모리 배치를 가지고 있기때문)**

### 벡터화 연산
* 배열의 각 원소에 대한 박복 연산을 하나의 명령어로 처리한다.

##### Example

In [13]:
### 일반적
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

answer = []
for di in data:
    answer.append(2 * di)
answer

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [16]:
### Numpy 
x = np.array(data)
x

2 * x

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [17]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

In [18]:
(a == 2) & (b > 10)

array([False,  True, False])

### 2차원 배열 만들기
* ndarray (N-dimensional Array)
    * 다차원 배열 자료 구조를 지원한다.

In [19]:
c = np.array([[0, 1, 2], [3, 4, 5]])  # 2 x 3 array
c

array([[0, 1, 2],
       [3, 4, 5]])

In [27]:
print('행 갯수 : {:d}, 열 갯수 : {:d}'.format(len(c) , len(c[0])))

행 갯수 : 2, 열 갯수 : 3


### 3차원 배열 만들기

In [29]:
d = np.array([[[1,2,3,4],
               [5,6,7,8],
               [9,10,11,12]],
              [[11,12,13,14],
               [15,16,17,18],
               [19,20,21,22]]])   # 2 x 3 x 4 array
d

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[11, 12, 13, 14],
        [15, 16, 17, 18],
        [19, 20, 21, 22]]])

In [31]:
print('3차원 배열 크기 : {:d} x {:d} x {:d}'.format(len(d), len(d[0]), len(d[0][0])))

3차원 배열 크기 : 2 x 3 x 4


### 배열의 차원과 크기 알아내기
* ndim : 배열의 차원
* shape : 배열의 크기

In [35]:
a = np.array([1,2,3])
print(a.ndim)
print(a.shape)

1
(3,)


### 배열의 인덱싱
* 일차원 배열의 인덱싱은 리스트의 인덱싱과 같다.

In [37]:
a = np.array([0,1,2,3,4])

In [38]:
a[2]

2

**다차원 배열일 때는 다음과 같이 콤마(comma ,)를 사용하여 접근할 수 있다. 콤마로 구분된 차원을 축(axis)이라고도 한다. 그래프의 x축과 y축을 떠올리면 될 것이다.**

In [39]:
a = np.array([[0, 1, 2], [3, 4, 5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [44]:
print('첫번째 행의 첫번째 열 : {:d}'.format(a[0,0])) 
print('첫번째 행의 두번째 열 : {:d}'.format(a[0,1])) 
print('마지막 행의 마지막 열 : {:d}'.format(a[-1,-1])) 

첫번째 행의 첫번째 열 : 0
첫번째 행의 두번째 열 : 1
마지막 행의 마지막 열 : 5


### 배열 슬라이싱
* 다차원 배여르이 원소 중 복수개를 접근 하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용하면 된다.

In [45]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [66]:
print(a[0, :])  # 첫번째 행 전체
print(a[:, 1])  # 두번째 열 전체
print(a[1, 1:])  # 두번째 행의 두번째 열부터 끝열까지

[0 1 2 3]
[1 5]
[5 6 7]


### 배열 인덱싱
* 팬시 인덱싱(fancy indexing)
    * 배열 인덱싱의 방식에은 불리안(Boolean) 배열 방식과 정수 배열 방식 두가지가 있다.

In [67]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx = np.array([True, False, True, False, True, False, True, False, True, False])
a[idx]

array([0, 2, 4, 6, 8])

In [68]:
a % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [69]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 2, 4, 6, 8])
a[idx]

array([11, 33, 55, 77, 99])

** 배열인덱스가 원래의 배열보다 더 커지기도 한다.**

In [70]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2])
a[idx]

array([11, 11, 11, 11, 11, 11, 22, 22, 22, 22, 22, 33, 33, 33, 33, 33])

** 배열 인덱싱은 다차원 배열의 각 차원에 대해서도 할 수 있다.**

In [71]:
a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
a

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [72]:
a[:, [True, False, False, True]]

array([[ 1,  4],
       [ 5,  8],
       [ 9, 12]])

In [73]:
a[[2, 0, 1], :]

array([[ 9, 10, 11, 12],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])