# Numpy 소개
3장과 함께 이번 장에서는 파이썬에서 인메모리 데이터를 효과적으로 적재하고 저장하고 가공하는 기법을 설명하겠다. 이 주제는 매우 광범위하다. 데이터세트는 광범위한 원천으로부터 문서나 이미지, 사운드 클립, 수치 측정값 등 거의 모든 것을 아우르는 매우 다양한 형식으로 들어올 수 있다. 이렇게 명백한 다양성에도 불구하고 모든 데이터를 근본적으로 숫자 배열로 간주하는 것이 도움이 될 것이다.
<br><br>
예를 들어, 이미지(특히, 디지털 이미지)는 단순히 해당 영역에 대한 픽셀 밝기를 나타내는 2차원 숫자 배열로 생각할 수 있다. 사운드 클립은 시간 대비 강도(intensity)를 나타내는 일차원 배열로 생각할 수 있다. 텍스트는 특정 단어나 단어 쌍의 빈도를 나타내는 이진수처럼 다양한 방식을 통해 수치로 전환할 수 있다. 데이터가 무엇이든 상관없이 그 데이터를 분석할 수 있게 만드는 첫 번째 단계는 데이터를 숫자 배열로 변환하는 것이다. (이 절차에 대한 몇 가지 예제를 429쪽 '특징 공학'에서 살펴본다.)
<br><br>
이러한 이유로 숫자 배열을 효과적으로 저장하고 가공하는 것은 데이터 과학을 수행하는 절차에서 가장 근본적인 작업이다. 잊 ㅔ파이썬이 이러한 숫자 배열을 다루기 위해 제공하는 전문 도구인 NumPy 패키지와 Pandas 패키지(3장)를 살펴보겠다.
<br><br>
이번 장에서는 NumPy에 대해 자세히 다룬다. NumPy(Numerical Python의 약자)는 조밀한 데이터 버퍼에서 저장하고 처리하는 효과적인 인터페이스를 제공한다. 어떤 면에서 보면 NumPy 배열은 파이썬 내장 타입인 list와 비슷하지만 배열의 규모가 커질수록 데이터 저장 및 처리에 훨씬 더 효율적이다. NumPy 배열은 파이썬의 데이터 과학 도구로 구성된 전체 생태계의 핵심을 이루고 있기 때문에 관심 있는 데이터 과학 측면이 무엇이든 상관없이 NumPy를 효과적으로 사용하는 법을 배워야 한다.
<br><br>
서문에서 권고했던 내용에 따라 아나콘다 스택을 설치했다면 이미 NumPy가 설치돼 있을 것이다. 뭐든 직접 해 보기를 좋아하는 독자라면 NumPy 웹사이트에 가서 설치 안내에 따라 설치하면 된다. 설치하고 나면 NumPy를 임포트하고 버전을 재확인할 수 있다.

In [1]:
import numpy
numpy.__version__

'1.15.1'

이 책에서는 NumPy 버전 1.8 이상을 추천한다. 관례상 SciPy와 PyData를 사용하는 대부분의 사용자는 NumPy를 별칭(alias)인 np를 사용해 임포트한다.

In [2]:
import numpy as np

이번 장을 비롯한 이 책의 나머지 부분에서도 이처럼 NumPy를 임포트하고 사용하는 것을 보게 될 것이다.

### 내장  문서가 있음을 기억하자!
이번 장을 읽을 때 IPython에서는 탭 자동 완성 기능을 사용해 패키지의 내용을 빠르게 탐색할 수 있고 ? 기호를 사용해 다양한 함수의 문서를 확인할 수 있다는 사실을 잊지 말자. 이 기능이 잘 기억나지 않는다면 3쪽'IPython의 도움말과 문서'를 참고하라

예를 들어, numpy 네임스페이스의 모든 내용을 표시하고 싶담녀 다음과 같이 입력하면 된다.
 np.<tab>
NumPy의 내장 문서를 표시하려면 다음 명령어를 사용하면 된다.
 np?
튜토리얼과 다른 참고자료와 함께 더 자세한 문서는 넘파이 홈페이지 에서 확인할 수 있다.

## 파이썬의 데이터 타입 이해하기
효과적인 데이터 기반 과학 및 계산을 위해서는 데이터가 어떻게 저장되고 가공되는지 이해해야 한다. 이번 절에서는 데이터 배열이 파이썬 언어 자체에서 어떻게 처리되는지 간단히 설명하고 비교한 뒤, NumPy가 이를 어떻게 개선하는지 알아볼 것이다. 이 차이점을 이해하는 것은 책 나머지에 등장하는 많은 자료를 이해하는데 기초가 될 것이다.
<br><br>
파이썬 사용자는 대채로 파이썬의 사용 편의성에 끌리는데 그중 하나가 동적 타이핑이다. C나 자바 같은 정적 타입 체계를 가진 언어는 모든 변수를 명시적으로 선언해야 하지만, 파이썬처럼 동적 타입 체계를 가진 언어는 타입을 지정하지 않아도 된다. 예를 들어, C에서는 특정 연산을 다음과 같이 지정할 것이다.

In [3]:
# int result=0;
# for(int i=0; i< 100; i++){
#     result += i;
# }

In [4]:
result = 0
for i in range(100):
    result += i

주요 차이점을 알겠는가? C에서는 각 변수의 데이터 타입을 명시적으로 선언했지만, 파이썬은 타입을 동적으로 추론한다. 이것은 곧 모든 변수에 어떤 종류의 데이터든 할당할 수 있다는 뜻이다.

In [5]:
x = 4
x = "four"

위 코드는 x의 내용을 정수에서 문자열로 바꾼 것이다. C에서 똑같이 작업을 하면 컴파일러 에러나 다른 의도하지 않은 결과가 발생할 수도 있다. 이러한 유연성은 파이썬과 다른 동적 타입 지정 언어를 사용하기 편하고 쉽게 만드는 특징 중 하나다. 이것이 어떻게 가능한지를 이해하는 것이 파이썬으로 효과적으로 효율적으로 데이터를 분석하는 법을 배우는데 중요한 부분이다. 그러나 이러한 유연성은 또한 파이썬 변수가 그 값 이상의 무언가를 나타낸다는 뜻이기도 하다. 즉, 변수는 그 값의 유형에 대한 부가 정보도 함께 담고 있다. 다음 절에서 이에 대해 더 자세히 살펴보자.

#### 파이썬 정수는 정수 이상이다
표준 파이썬은 C로 구현돼 잇다. 이 말은 곧 모든 파이썬 객체가 그 값뿐만 아니라 다른 정보까지 포함하는 똑똑하게 위장한 C 구조체라는 뜻이다. 예를 들어, x = 10000과 같이 파이썬에서 정수를 정의할 때 x는 단순히 있는 그대로의 정수를 의미하지 않는다. 실제로는 여러 값이 들어 있는 복합적인 C 구조체다. C 매크로를 확장하여 파이썬 3.6 소스코드를 보면 정수(long)타입 정의가 실제로 다음과 같이 돼있다.

    struct _longobject{
        long ob_refcnt;
        PyTypeObject *ob_type;
        size_t ob_size;
        long ob_digit[1];
    };

파이썬 3.6의 단일 정수는 실제로 다음 네 가지 구성요소를 갖는다.

- ob_refcnt: 파이썬이 조용히 메모리 할당과 해제를 처리할 수 있게 돕는 참조 횟수
- ob_type: 변수 타입을 인코딩
- ob_size: 다음 데이터 멤버의 크기를 지정
- ob_digit: 파이썬 변수가 나타내는 실제 정숫값을 포함
![그림 2-1](cint_vs_pyint.png)

이것은 그림 2-1처럼 C와 같은 컴파일 언어에서 정수를 저장하는 것에 비해 파이썬에서 정수를 저장할때 어느정도 오버헤드가 있다는 의미다.
여기서 PyObject_Head는 참조 횟수, 타입 코드, 그리고 전에 언급한 다른 정보를 포함한 구조체의 일부다.
<br><br>
차이점이라면 C 정수는 근본적으로 정숫값을 나타내는 바이트를 포함하는 메모리 위치를  가리키는 레이블이고 파이썬 정수는 정숫값을 담고 있는 바이트를 포함한 모든 파이썬 객체 정보를 포함하는 메모리의 위치를 가리키는 포인터라는 사실이다. 파이썬 정수 구조체의 이 추가 정보 덕분에 파이썬에서 그토록 자유롭게 동적을 코드를 작설할 수 있는 것이다. 하지만 파이썬 타입에 있는 모든 추가 정보에는 비용이 따르며, 특히 이 객체들을 여러 개 결합하는 구조에서 그 비용이 분명하게 드러난다.


#### 파이썬 리스트는 리스트 이상이다
이번에는 여러 개의 파이썬 객체를 담은 파이썬 자료 구조를 사용할 때 어떤 일이 벌어지는지 생각해 보자. 파이썬에서 여러 개의 요소를 담는 가변적인 표준 컨테이너는 리스트다. 다음과 같이 정수 리스트를 만들 수 있다.

In [6]:
L = list(range(10))
L

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [7]:
type(L[0])

int

In [8]:
L2 = [str(c) for c in L]
L2

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [9]:
type(L2[0])

str

파이썬의 동적 타이핑(dynamic typing) 덕북에 서로 다른 데이터 타입의 요소를 담는 리스트를 만들 수도 있다.

In [10]:
L3 = [True, "2", 3.0, 4]
[type(item) for item in L3]

[bool, str, float, int]

그러나 이 유연성에는 비용이 따른다. 이렇게 유연한 타입을 허용하려면 리스트의 각 항목에 타입 정보와 참조 횟수, 기타 정보가 들어가야 한다. 즉, 각 항목이 완전한 파이썬 객체인 셈이다. 모든 변수가 같은 타입인 경우에는 이 정보가 대부분 불필요하게 중복되므로 고정 타입 배열에 데이터를 저장하는 것이 더 효율적일 수 있다. 동적 타입 리스트와 고정 타입(NumPy 스타일) 배열의 차이는 그림 2-2에 그림 으로 나타냈다.
<br><br>
구현 레벨에서는 배열이 근본적으로 인접한 데이터 블록을 가리키는 단일 포인터를 담고 있다. 반면 파이썬 리스트는 앞에서 본 파이썬 정수와 같이 완전한 파이썬 객체를 차례로 가리키는 포인터의 블록을 가리키는 포인터를 담고 있다. 다시 말하지만, 리스트의 장점은 유연성이다. 각 리스트 요소가 데이터와 타입 정보를 포함하는 완전한 구조이기 때문에 리스트를 어떤 타입으로도 채울 수 있다. 고정 타입의 NumPy 스타일 배열은 이러한 유연성은 부족하지만 데이터를 저장하고 가공하기에는 훨씬 더 효율적이다.

![ ](figures/array_vs_list.png)- 이미지 추가

#### 파이썬의 고정 타입 배열
파이썬은 데이터를 효율적인 고정 타입 데이터 버퍼에 저장하는 다양한 방식을 제공한다. 내장 array 모듈은 단일 조합의 조밀한 배열(dense array)을 만드는 데 사용할 수 잇다.


In [11]:
import array
L =list(range(10))
A =array.array('i', L)
A

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

여기서 'i'는 내용이 정수임을 가리키는 타입 코드다.
<br><br>
그러나 훨씬 더 유용한 것은 NumPy 패키지의 ndarray 객체다. 파이썬의 array 객첸느 배열 기반의 데이터에 효율적인 저장소를 제공한느 반면, NumPy는 그 데이터에 효율적인 연산을 추갛나다. 이러한 연산에 대해서는 뒤에서 알아보고 여기서는 NumPy 배열을 생성하는 여러 방법을 살펴보자.
<br><br>
먼저 별칭 np로 표준 NumPy를 임포트하자.

In [12]:
import numpy as np

#### 파이썬 리스트에서 배열 만들기
우선 np.array를 사용해 파이썬 리스트에서 배열을 만들 수 있다.

In [13]:
#정수 배열
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

파이썬의 리스트와 달리 NumPy는 배열의 모든 요소가 같은 타입이어야 한다는 점을 기억하라. 타입이 일치하지 않으면 NumPy는 가능한 경우 상위 타입을 취하게 된다.(다음에서 정수는 상위 타입인 부동 소수점으로 변환된다)

In [14]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

명시적인 결과 배열의 데이터 타입을 설정하려면 dtype 키워드를 사용하면 된다.

In [15]:
np.array([1, 2, 3, 4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

마지막으로 파이썬 리스트와는 달리 NumPy 배열은 명시적으로 다차원이 가능하다. 다음은 리스트의 리스트를 사용해 다차원 배열을 초기화하는 한 가지 방법이다.

In [16]:
#리스트를 중첩하면 다차원 배열이 됨
np.array([range(i, i+3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

내부 리스트는 결과로 얻은 이차원 배열의 행으로 취급된다.

#### 처음부터 배열 만들기
특히 규모가 큰 배열의 경우에는 NumPy에 내장된 루틴을 사용해 처음부터 배열을 생성하는 것이 더 효율적이다.

In [17]:
# 0으로 채운 길이 10의 정수 배열 만들기
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [18]:
# 1로 채운 3x5 부동 소수점 배열 만들기
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [19]:
# 3.14로 채운 3x5 배열 만들기
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [20]:
#선형 수열로 채운 3x5 배열 만들기
# 0에서 시작해 2식 더해 20까지 채움
# 내장 함수인 range()와 유사
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [21]:
# 0과 1 사이에 일정한 간격을 가진 다섯 개의 값으로 채운 배열 만들기
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [22]:
# 균등하게 분포된 3x3 배열 만들기
# 0과 1 사이의 난수로 채움
np.random.random((3, 3))

array([[0.84844268, 0.18227314, 0.39818267],
       [0.91017243, 0.48397804, 0.52227182],
       [0.74134642, 0.56455043, 0.42392371]])

In [23]:
# 정규 분포(평균 = 0 표준 편차 = 1)의 난수로 채운 3x3 배열 만들기
np.random.normal(0, 1, (3,3))

array([[-0.06218452,  1.04838546, -1.51147032],
       [-0.84597028,  1.74056554,  0.77308332],
       [ 1.33557454, -1.2552278 ,  1.28068851]])

In [24]:
# [0, 10] 구간의 임의의 정수로 채운 3x3 배열 만들기
np.random.randint(0, 10, (3, 3))

array([[4, 5, 4],
       [9, 8, 8],
       [7, 4, 1]])

In [25]:
# 3x3 단위 행렬 만들기
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [26]:
# 세 개의 정수를 가지는 초기화 되지 않은 배열 만들기
# 값은 해당 메모리 위치에 이미 존재하고 있는 값으로 채움
np.empty(3)

array([1., 1., 1.])

#### NumPy 표준 데이터 타입
NumPy 배열은 한 가지 타입의 값을 담고 있으므로 해당 타입과 그 타입의 제약 사항을 자세히 아는 것이 중요하다. NumPy는 C로 구현됐기 때문에 NumPy 데이터 타입은 C와 포트란, 그 밖의 다른 관련 언어의 사용자에게 익숙할 것이다.
<br><br>
표준 NumPy 데이터 타입을 표 2-1에 정리했다. 배열을 구성할 때 데이터 타입은 문자열을 이용해 지정할 수 있다.

In [27]:
np.zeros(10, dtype='int16')

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int16)

또는 해당 데이터 타입과 관련된 NumPy 객체를 사용해 지정한다.

In [28]:
np.zeros(10, dtype=np.int16)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int16)

| Operator	    | Equivalent ufunc    | Description                           |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |Addition (e.g., ``1 + 1 = 2``)         |
|``-``          |``np.subtract``      |Subtraction (e.g., ``3 - 2 = 1``)      |
|``-``          |``np.negative``      |Unary negation (e.g., ``-2``)          |
|``*``          |``np.multiply``      |Multiplication (e.g., ``2 * 3 = 6``)   |
|``/``          |``np.divide``        |Division (e.g., ``3 / 2 = 1.5``)       |
|``//``         |``np.floor_divide``  |Floor division (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |Exponentiation (e.g., ``2 ** 3 = 8``)  |
|``%``          |``np.mod``           |Modulus/remainder (e.g., ``9 % 4 = 1``)|

빅 엔디언이나 리틀 엔디언 숫자처럼 고급 타입을 지정하는 것도 가능하다. 더 자세한 내용은 NumPy 문서를 참고하라. NumPy는 복합 데이터 타입(compound data type)도 지원한다. 이에 대해서는 106쪽'구조화된 데이터: NumPy의 구조화된 배열'에서 다루겠다.

## NumPy 배열의 기초
파이썬에서는 데이터 처리는 NumPy 배열과 처리와 거의 비슷하다. 더 최신 도구인 Pandas(3장)도 NumPy 배열을 기반으로 만들어졌다. 이번 절에서는 데이터와 하위 배열에 접근하고 배열을 분할, 재구성, 결합하기 위해 NumPy의 배열 조작을 사용하는 예제를 여러 개 소개한다. 여기서 소개하는 연산 유형이 다소 무미건조하고 현학적이 것처럼 보일 수 있지만, 이 책에 사용된 다른 많은 예제의 기초가 되니 잘 알아 두자!
<br><br>
여기서는 기본 배열 조작의 일부 범주를 다룰 것이다.

- **배열 속성 지정**
    - 배열의 크기, 모양, 메모리 소비량, 데이터 타입을 결정한다.
- **배열 인덱싱**
    - 개별 배열 요솟값을 가져오고 설정한다.
- **배열 슬라이싱**
    - 큰 배열 내에 있는 작은 하위 배열을 가져오고 설정한다.
- **배열 재구조화**
    - 해당 배열의 형상을 변경한다.
- **배열 결합 및 분할**
    - 여러 배열을 하나로 결합하고 하나의 배열을 여러 개로 분할한다.

#### NumPy 배열 속성 지정
우선 몇 가지 유용한 배열 속성을 알아보자. 먼저 1차원, 2차원, 3차원 난수 배열을 정의해 보자. NumPy 난수 생성기를 사용할 텐데, 이 코드가 실행될 때마다 똑같은 난수 배열이 생성되도록 시드 값을 설정할 것이다.

In [29]:
import numpy as np
np.random.seed(0) # 재현 가능성을 위한 시드값

x1 = np.random.randint(10, size=6) # 1차원 배열
x2 = np.random.randint(10, size=(3, 4)) # 2차원 배열
x3 = np.random.randint(10, size=(3, 4, 5)) # 3차원 배열

각 배열은 속성으로 ndim(차원의 개수), shape(각 차원의 크기), size(전체 배열 크기)를 가지고 있다.

In [30]:
print("x3: ndim: ", x3.ndim)
print("x3 shape: ", x3.shape)
print("x3 size: ", x3.size)

x3: ndim:  3
x3 shape:  (3, 4, 5)
x3 size:  60


다른 유용한 속성으로 배열의 데이터 타입인 dtype이 있으며, 이에 대해서는 40쪽 '파이썬의 데이터 타입 이해하기'에서 이미 논의했다.

In [31]:
print("dtype: ", x3.dtype)

dtype:  int32


그 밖의 속성으로는 각 배열 요소의 크기를 바이트 단위로 보여주는 itemsize와 배열 전체 크기를 바이트 단위로 보여주는 nbytes가 있다.

In [32]:
print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 4 bytes
nbytes: 240 bytes


일반적으로 nbytes는 itemsize를 size로 곱한 값과 같다고 볼 수 있다.

#### 배열 인덱싱: 단일 요소에 접근하기
파이썬의 표준 리스트 인덱싱에 익숙한 독자라면 NumPy의 인덱싱도 꽤 친숙하게 느껴질 것이다. 1차원 배열에서 i번째(0부터 시작) 값에 접근하려면 파이썬 리스트에서와 마찬가지로 꺽쇠괄호 안에 원하는 인덱스를 지정하면 된다.

In [33]:
x1

array([5, 0, 3, 3, 7, 9])

In [34]:
x1[0]

5

In [35]:
x1[4]

7

배열의 끝에서 부터 인덱싱하려면 음수 인덱스를 사용하면 된다.

In [36]:
x1[-1]

9

In [37]:
x1[-2]

7

다차원 배열에서는 콤마로 구분된 인덱스 튜플을 이용해 배열 항목에 접근할 수 있다.

In [38]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [39]:
x2[0, 0]

3

In [40]:
x2[2, 0]

1

In [41]:
x2[2, -1]

7

위 인덱스 표기법을 사용해 값을 수정할 수도 있다.

In [42]:
x2[0, 0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

파이썬 리스트와 달리 NumPy 배열은 고정 타입을 가진다는 점을 명심하라. 이 말은 가령 정수 배열에 부동 소수점 값을 삽입하려고 하면 아무 말 없이 그 값의 소수점 이하를 잘라버릴 거라는 뜻이다. 이러한 동작 방식에 주의하라!

In [43]:
x1[0] = 3.14159 # 이 값의 소수점 이하는 잘릴 것이다!
x1

array([3, 0, 3, 3, 7, 9])

#### 배열  슬라이싱: 하위 배열에 접근하기
꺾쇠괄호를 사용해 개별 배열 요소에 접근할 수 있는 것처럼 콜론(:) 기호로 표시되는 슬라이스(slice) 표기법으로 하위 배열에 접근할 수 있다. NumPy 슬라이싱 구문은 표준 파이썬 리스트의 구문을 따른다. 배열 x의 슬라이스에 접근하려면 다음 구문을 사용하면 된다.

    x[start:strop:step]

이 가운데 하나라도 지정되지 않으면 기본으로 start = 0, stop = 차원 크기, step = 1로 값이 설정된다. 이제 1차원과 다차원에서 하위 배열에 접근하는 방법을 살펴보자

In [44]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [45]:
x[:5] # 처음 다섯개 요소

array([0, 1, 2, 3, 4])

In [46]:
x[5:] # 인덱스 5 다음 요소들

array([5, 6, 7, 8, 9])

In [47]:
x[4:7] # 중간 하위 배열

array([4, 5, 6])

In [48]:
x[::2] # 하나 걸러 하나씩의 요소로 구성된 배열

array([0, 2, 4, 6, 8])

In [49]:
x[1::2] # 인덱스 1에서 시작해 하나 걸러 하나씩 요소로 구성된 배열

array([1, 3, 5, 7, 9])

혼동을 줄 수 있는 경우 step 값이 음수일 때다. 이 경우에는 start와 stop의 기본값이 서로 바뀐다. 이는 배열을 거꾸로 만드는 편리한 방법이 될 수 있다.

In [50]:
x[::-1] # 모든 요소를 거꾸로 나열

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [51]:
x[5::-2] # 인덱스 5부터 하나 걸러 하나씩 요소를 거꾸로 나열

array([5, 3, 1])

#### 다차원 하위 배열
다차원 슬라이싱도 콤마로 구분된 다중 슬라이스를 사용해 똑같은 방식으로 동작한다. 예를 들면 다음과 같다

In [52]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [53]:
x2[:2, :3] # 두개의 행, 세 개의 열

array([[12,  5,  2],
       [ 7,  6,  8]])

In [54]:
x2[:3, ::2] #모든 행, 한 열 걸러 하나씩

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

마지막 하위 배열 차원도 함께 역으로 변호나할 수 있다.

In [55]:
x2[::-1, ::-1]

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

배열의 행과 열에 접근하기 한 가지 공통으로 필요한 루틴은 배열의 단일 행이나 열에 접근하는 것이다. 이것은 단일 콜론으로 표시된 빈 슬라이스를 사용해 인덱싱과 슬라이싱을 결합함으로써 할 수 있다.

In [56]:
print(x2[:, 0]) # x2의 첫번째 열

[12  7  1]


In [57]:
print(x2[0, :]) # x2의 첫 번째 행

[12  5  2  4]


행에 접근하는 경우 더 간결한 구문을 위해 빈 슬라이스를 생략 할 수 있다.

In [58]:
print(x2[0]) #x2[0, :]와 동일

[12  5  2  4]


#### 사본이 아닌 뷰로서의 하위 배열
배열 슬라이스에 대해 알아야 할 중요하고 매우 유용한 사실 하나는 배열 슬라이스가 배열 데이터의 사본(copy)이 아니라 뷰(view)를 반환한다는 점이다. 이는 Numpy 배열 슬라이싱이 파이썬 리스트 슬라이싱과 다른 점 중 하나다. 리스트에서 슬라이스는 사본이다. 앞에서 본 2차원 배열을 생각해 보자.

In [59]:
print(x2)

[[12  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


이 배열에서 2x2 하위 배열을 추출해 보자.

In [64]:
x2_sub = x2[:2, :2]
print(x_sub)

[[99  5]
 [ 7  6]]


이제 이 하위 배열을 수정하면 원래 배열이 변경되는 것을 보게 될 것이다. 확인해 보자.

In [65]:
x2_sub[0, 0]=99
print(x2_sub)

[[99  5]
 [ 7  6]]


In [66]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


In [67]:
type(x2)

numpy.ndarray

이 기본 행위는 실제로 매우 유용하다. 이것은 곧 큰 데이터세트를 다룰 때 기반 데이터 버퍼를 복사하지 않아도 이 데이터의 일부에 접근하고 처리할 수 있다는 뜻이다

배열의 사본 만들기
배열 뷰의 훌륭한 기능에도 불구하고 때로는 배열이나 하위 배열 내의 데이터를 명시적으로 복사하는 것이 더 유용할 대가 있다. 그 작업은 copy() 메서드로 가장 쉽게 할 수 있다.

In [68]:
x2_sub_copy=x2[:2, :2].copy()
print(x2_sub_copy)

[[99  5]
 [ 7  6]]


이제 하위 배열을 수정해도 원래 배열이 그대로 유지된다.

In [69]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

[[42  5]
 [ 7  6]]


In [70]:
print(x2)

[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


#### 배열의 재 구조화
다른 유용한 조작 유형은 배열의 형상을 변경하는 것이다. 이를 가장 유연하게 하는 방법은 reshape()메서드를 사용하는 것이다. 가령 3x3 그리드에 숫자 1부터 9까지 넣고자 한다면 다음과 같이 하면 된다.

In [71]:
grid = np.arange(1, 10).reshape((3,3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


이 코드가 동작하려면 초기 배열의 규모가 형상이 변경된 배열의 규모와 일치해야 한다. 가능하다면 reshape 메서드가 초기 배열의 사본이 아닌 뷰를 사용하겠지만, 연속되지 않은 메모리 버퍼일 경우에는 그렇지 않을 수도 있다.
<br><br>
또 다른 일반적인 재구조화 패턴은 1차원 배열을 2차원 행이나 열 매트릭스로 전환하는 것이다. 이 작업은 reshape 메서드로 할 수 있으며, 그렇지 않으면 슬라이스 연산 내에 newaxis 키워드를 사용해 더 쉽게 할 수 있다.

In [72]:
x = np.array([1, 2, 3])
#reshape을 이용한 행 벡터
x.reshape((1,3))

array([[1, 2, 3]])

In [73]:
#newaxis를 이용한 행 벡터
x[np.newaxis, :]

array([[1, 2, 3]])

In [74]:
# reshape을 이용한 열 벡터
x.reshape((3, 1))

array([[1],
       [2],
       [3]])

In [75]:
# newaxis를 이용한 열 벡터
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

#### 배열 연결 및 분할
지금까지 본 루틴은 모두 단일 배열에서 동작한다. 아울러 여러 배열을 하나로 결합하거나 그 반대로 하나의 배열을 여러 개의 배열로 분할하는 것도 가능하다. 여기서는 그러한 연산을 알아보겠다.

#### 배열 연결
NumPy에서는 주로 np.concatenate, np.vstack, np.hstack 루틴을 이용해 두 배열을 결합하거나 연결한다. 여기서 보다시피 np.concatenate는 튜플이나 배열의 리스트를 첫 번째 인수로 취한다.

In [76]:
x = np.array([1,2,3])
y = np.array([3,2,1])
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

또 한 번에 두 개 이상의 배열을 연결할 수도 있다.

In [77]:
z=[99, 99, 99]
print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]


np.concatenate는 2차원 배열에서도 사용할 수 있다.

In [78]:
grid = np.array([[1,2,3],
               [4,5,6]])
# 첫번째 축을 따라 연결
np.concatenate([grid, grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [79]:
# 두번째 축을 따라 연결(0 부터 시작한느 인덱스 방식)
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

혼합된 차원의 배열로 작업할 때는 np.vstack(수직 스택, vertical stack)과 np. hstack(수평 스택, horizontal stack)함수를 사용하는 것이 더 명확하다.

In [80]:
x = np.array([1, 2, 3])
grid=np.array([[9, 8, 7],
              [6, 5, 4]])
# 배열을 수직으로 쌓음
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [82]:
# 배열을 수평으로 쌓음
y = np.array([[99],
           [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

이와 마찬가지로 np.dstack은 세 번째 축을 따라 배열을 쌓을 것이다.

#### 배열 분할하기
결합의 반대는 분할로, np.split, np.hsplit, np.vsplit 함수로 구현된다. 각 함수에 분할 지점을 알려주는 인덱스 목록을 전달할 수 있다.

In [84]:
x=[1,2,3,99,99,3,2,1]
x1, x2, x3=np.split(x,[3, 5])
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


N개의 분할점은 N+1개의 하위 배열을 만든다. 관련 함수인 np.hsplit과 np.vsplit은 서로 비슷하다.

In [85]:
grid = np.arange(16).reshape((4,4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [86]:
upper, lower= np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [87]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


비슷하게 np.dsplit은 세번째 축을 따라 배열을 분할할 것이다.

## NumPy 배열 연산: 유니버설 함수
지금까지 NumPy에 관한 기본 사항을 살펴봤다. 이어지는 몇 개의 절에서는 NumPy가 파이썬 데이터 과학 분야에서 중요한 위치를 차지하는 이용에 대해 깊이 있게 다루고자 한다. NumPy는 데이터 배열을 사용하여 최적화된 연산을 위한 쉽고 유연한 인터페이스를 제공한다.
<br><br>
NumPy 배열의 연산은 아주 빠르거나 아주 느릴 수 있다. 이 연산을 빠르게 만드는 핵심은 벡터화(vectorized) 연산을 사용하는 것인데, 그것은 일반적으로 NumPy의 유니버설 함수(universal function, ufuncs)를 통해 구현된다. 이번 절에서는 배열 요소에 대한 반복적인 계산을 더 효율적으로 수행하게 해주는 NumPy의 ufuncs의 필요성에 대해 생각해 보겠다. 그러고 나서 NumPy 패키지에서 사용할 수 있는 가장 보편적이면서 유용한 여러 가지 산술 유니버설 함수를 소개한다.
<br><br>
#### 루프는 느리다
파이썬의 기본 구현(CPython이라고도 함)에서 몇가지 연산은 매우 느리게 수행된다. 이는 부분적으로 파이썬이 동적인 인터프리터 언어이기 때문이다. 타입이 유연하다는 사실은 결국 일련의 연산들이 C와 포트란(Fortran)같은 언어에서처럼 효율적인 머신 코드로 컴파일될 수 없다는 뜻이다. 최근에 이러한 취약점을 해결하기 위한 다양한 시도가 있었다. 유명한 사례로 JIT(Just-In-Time) 컴파일 하는 파이썬을 구현하는 파이파이 프로젝트(PyPy project), 파이썬 코드를 컴파일 가능한 C 코드로 변한하는 사이썬(Cythosn)프로젝트, 파이썬 코드 조각을 빠른 LLVM 바이트 코드로 변환하는 넘바(Numba)프로젝트가 있다. 각 프로젝트가 장단점은 있짐나 세 가지 접근법 중 어느 것도 표준 CPython 엔진의 범위와 대중성을 넘어서지는 못했다고 하는 게 맞을 것 같다.
<br><br>

파이썬은 수 많은 작은 연산이 반복되는 상황에서 확연히 느리다. 배열을 반복해서 각 요소를 조작하는것을 예로 들 수 있다. 일례로 값으로 이뤄진 배열이 있고 각각의 역수를 계산하려고 한다고 가정하자. 직관적인 방식은 다음과 같을 것이다.

In [88]:
import numpy as np
np.random.seed(0)

def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output

values = np.random.randint(1, 10, size=5)
compute_reciprocals(values)

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

이 구현은 아마 C나 자바 경험을 가진 사람에게는 꽤 자연스러워 보일 것이다. 그러나 큰 입력값을 넣고 이 코드의 실행 시간을 측정해 보면 이 연산이 놀랑루 정도로 느리다는 것을 알게 될 것이다. 이번에는 IPython의 %timeit 매직함수로 측정해보자.

In [89]:
big_array = np.random.randint(1, 100, size=1000000)
%timeit compute_reciprocals(big_array)

1.7 s ± 10.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


이 경우에는 백만 번 연산하고 그 결과를 저장하는데 수 초가 걸린다. 휴대전화 처리 속도도 Giga-FLOPS(즉, 초당 수십억의 수치 연산)로 측정되는 상황에서 이것은 거의 터무니없을 정도로 느려 보인다. 여기서 병목은 연산 자체에 있는 것이 아니라 CPython이 루프의 사이클마다 수행해야 하는 타입 확인과 함수 디스패치에서 발생한다. 역수가 계산될 때마다 파이썬은 먼저 객체의 타입을 확인하고 해당 타입에 맞게 사용할 적절한 함수를 동적으로 검색한다. 만약 컴파일된 코드로 작업했다면 코드를 실행하기 전에 타입을 알았을 것이고 결괏값은 좀더 효율적으로 계산됐을 것이다.

#### UFuncs 소개
NumPy는 여러 종류의 연산에 대해 이러한 종류의 정적 타입 체계를 가진 컴파일된 루틴에 편리한 인터페이스를 제공한다. 이를 벡터화 연산이라고 한다. 벡터화 연산은 간단히 배열에 연산을 수행해 각 요소에 적용함으로써 수행할 수 있다. 이 벡터화 방식은 루프를 NumPy의 기저를 이루는 컴파일된 계층으로 밀어 넣음으로써 훨씬 빠르게 실행되도록 설계됐다.
<br><br>
다음 두 결과를 비교해보자

In [90]:
print(compute_reciprocals(values))
print(1.0 / values)

[0.16666667 1.         0.25       0.25       0.125     ]
[0.16666667 1.         0.25       0.25       0.125     ]


이 대규모 배열에 대한 실행 시간을 보면 이 코드가 파이썬 루프보다 수백 배 빠른 속도로 작업을 완료한다는 것을 알 수 있다.

In [91]:
%timeit (1.0 / big_array)

6.3 ms ± 406 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


NumPy에서 벡터화 연산은 NumPy 배열의 값에 반복된 연산을 빠르게 수행하는 것을 주목적으로 하는 ufuncs를 통해 구현된다. 유니버설 함수는 매우 유연해서 이전에 스칼라와 배열 사이의 연산을 봤지만 두 배열 간의 연산도 가능하다.

In [92]:
np.arange(5) / np.arange(1, 6)

array([0.        , 0.5       , 0.66666667, 0.75      , 0.8       ])

ufunc 연산은 1차원 배열에 국한되지 않고 다차원 배열에서도 동작한다.

In [93]:
x = np.arange(9).reshape((3,3))
2**x

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]], dtype=int32)

ufunc를 통한 벡터화를 이용한 연산은 파이썬 루프를 통해 구현된 연산보다 대부분 더 효율적이며, 특히 배열의 크기가 커질수록 그 차이가 확연하다. 파이썬 스크립트에서 그러한 루프를 보면 항상 벡터화 표현식으로 교체할 수 있을지 고민해야 한다.

## NumPy 유니버설 함수(UFuncs)
UFuncs에는 단일 입력값에 동작하는 단항 ufuncs와 두 개의 입력값에 동작하는 이항 ufunces로 두 종류가 있다. 이 두 유형의 함수 예제를 살펴보자

#### 배열 산술 연산
NumPy ufuncs는 파이썬의 기본 산술 연산자를 사용하기 때문에 자연스럽게 사용할 수 있다. 표준 덧셈, 뺄셈, 곱셈, 나눗셈 모두 사용할 수 있다.


In [97]:
x = np.arange(4)
print("x     =",x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2=", x //2)

x     = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2= [0 0 1 1]


또한, 음수를 만드는 단항 ufuncs와 지수 연산자 ``**``, 나머지 연산자 ``%``가 있다.


In [98]:
print("-x    =", -x)
print("x ** 2=", x**2)
print("x % 2 =", x%2)

-x    = [ 0 -1 -2 -3]
x ** 2= [0 1 4 9]
x % 2 = [0 1 0 1]


이 연산들은 원하는 만큼 함게 사용할 수 있으며 표준 연산 순서를 따른다.

In [99]:
-(-0.5 * x + 1) ** 2

array([-1.  , -0.25, -0.  , -0.25])

이 산술 연산은 모두 사용상 편의를 위해 NumPy에 내장된 특정 함수를 감싼 것이다. 예를 들어, + 연산자는 add 함수의 래퍼(wrapper) 함수다.

In [100]:
np.add(x, 2)

array([2, 3, 4, 5])

표 2-2는 NumPy에 구현된 산술 연산자를 정리한 것이다.
# TODO 표넣기 2-2
이 밖에도 부울/비트 단위 연산자가 있다. 이에 대해서는 나중에 알아본다.

#### 절댓값 함수
NumPy는 파이썬에 내장된 산술 연산자를 이해하는 것과 마찬가지로 파이썬에 내장된 절댓값 함수도 이해한다.

In [101]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)

array([2, 1, 0, 1, 2])

이 절댓값 함수에 대응하는 NumPy ufunc는 np.absolute로 np.abs라는 별칭으로도 사용할 수 있다.

In [102]:
np.absolute(x)

array([2, 1, 0, 1, 2])

In [103]:
np.abs(x)

array([2, 1, 0, 1, 2])

이 ufunc는 복소수 데이터도 처리할 수 있으며, 이 경우 절대값은 크기를 반환한다.

In [104]:
x = np.array([3, -4j, 4-3j, 2+0j, 0+1j])
np.abs(x)

array([3., 4., 5., 2., 1.])

#### 삼각함수
NumPy는 수많은 유용한 유니버설 함수를 제공하는데, 데이터 과학자에게 가장 유용한 함수 중 일부가 삼각함수다. 먼저 각도 배열을 정의하자.

In [105]:
theta = np.linspace(0, np.pi, 3)

In [None]:
이제는 이 값들로 몇 가지 삼각 함수를 계산할 수 있다.
print("theta =", theta)
print("sin(theta) =", np.sin(theta))
print("")