In [None]:
 # Chapter 4 Numpy 기본: 배열과 벡터 연산

In [None]:
# NumPy는 Numerical Python의 줄임말로, 파이썬에서 산술 계산을 위한 가장 중요한 필수 패키지 중 하나다. 

In [None]:
# 과학 계산을 위한 대부분의 패키지는 NumPy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다.

In [None]:
# NumPy에서 제공하는 것들은 다음과 같다.
# 효율적인 다차원 배열인 ndarray는 빠른 배열 계산과 유연한 브로드캐스팅 기능을 제공한다.
# 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
# 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
# 선형대수, 난수 생성기, 푸리에 변환 기능
# C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API

In [None]:
# NumPy 자체는 모델링이나 과학 계산을 위한 기능을 제공하지 않으므로 먼저 NumPy 배열과 배열 기반 연산에 대한 이해를 한 다음 pandas 같은 배열 기반 도구를 사용하면 훨씬 더 효율적이다. 

In [None]:
# NumPy는 일반적인 산술 데이터 처리를 위한 기반 라이브러리를 제공하기 때문에 많은 독자가 통계나 분석, 특히 표 형식의 데이터를 처리하기 위해 pandas를 사용하기 원할 것이다. 
# 또한 pandas는 NumPy에는 없는 시계열 처리 같은 다양한 도메인 특화 기능을 제공한다.

In [None]:
# NumPy가 파이썬 산술 계산 영역에서 중요한 위치를 차지하는 이유 중 하나는 대용량 데이터 배열을 효율적으로 다룰 수 있도록 설계되었다는 점이다. 

In [None]:
# 성능 차이를 확인하기 위해 백만 개의 정수를 저장하는 NumPy 배열과 파이썬 리스트를 비교해보자.

In [None]:
import numpy as np

In [None]:
my_arr = np.arange(1000000)

In [None]:
my_list = list(range(1000000))

In [None]:
# 이제 각각의 배열과 리스트 원소에 2를 곱해보자

In [None]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: user 14.6 ms, sys: 9.95 ms, total: 24.5 ms
Wall time: 25.3 ms


In [None]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 864 ms, sys: 190 ms, total: 1.05 s
Wall time: 1.08 s


In [None]:
# NumPy를 사용한 코드가 순수 파이썬으로 작성한 코드보다 열 배에서 백 배 이상 빠르고 메모리도 더 적게 사용하는 것을 확인할 수 있다.

In [None]:
# 4.1 NumPy ndarray: 다차원 배열 객체

In [None]:
# NumPy의 핵심 기능 중 하나는 ndarray라고 하는 N차원의 배열 객체인데 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조다.
# 배열은 스칼라 원소 간의 연산에 사용하는 문법과 비슷한 방식을 사용해서 전체 데이터 블록에 수학적인 연산을 수행할 수 있도록 해준다. 

In [None]:
# 파이썬 내장 객체의 스칼라 값을 다루는 것과 유사한 방법으로 에서 배치 계산을 처리하는 방법을 알아보기 위해 우선 NumPy 패키지를 임포트하고 임의의 값이 들어 있는 작은 배열을 만들어보겠다.

In [None]:
import numpy as np

In [None]:
data = np.random.randn(2, 3)

In [None]:
data

array([[ 1.68884059, -0.83568341,  0.11159039],
       [-0.51898111,  0.16502725,  1.24670349]])

In [None]:
# 그리고 그 값에 산술 연산을 해보자. 

In [None]:
data * 10

array([[16.88840589, -8.35683411,  1.11590389],
       [-5.18981106,  1.65027246, 12.46703491]])

In [None]:
data + data

array([[ 3.37768118, -1.67136682,  0.22318078],
       [-1.03796221,  0.33005449,  2.49340698]])

In [None]:
# 첫 번째 예제는 모든 원소의 값에 10을 곱했다. 두 번째 예제는 data 배열에서 같은 위치의 값끼리 서로 더했다.

In [None]:
# ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배옇이다.
# ndarray의 모든 원소는 같은 자료형이어야 한다. 
# 모든 배열은 각 차원의 크기를 알려주는 shape라는 튜플과 배열에 저장된 자료형을 알려주는 dtype이라는 객체를 가지고 있다.

In [None]:
data.shape

(2, 3)

In [None]:
data.dtype

dtype('float64')

In [None]:
# 4.1.1 ndarray 생성하기

In [None]:
# 배열을 생성하는 가장 쉬운 방법은 array 함수를 이용하는 것이다. 순차적인 객체(다른 배열도 포함하여)를 넘겨받고, 넘겨받은 데이터가 들어 있는 새로운 NumPy 배열을 생성한다. 

In [None]:
# 예를 들어 파이썬의 리스트는 변환하기 좋은 예다.

In [None]:
data1 = [6, 7.5, 8, 0, 1]

In [None]:
arr1 = np.array(data1)

In [None]:
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [None]:
# 같은 길이를 가지는 리스트를 내포하고 있는 순차 데이터는 다차원 배열로 변환 가능하다.

In [None]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

In [None]:
arr2 = np.array(data2)

In [None]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
# data2는 리스트를 담고 있는 리스트이므로 NumPy 배열인 arr2는 해당 데이터로부터 형태를 추론하여 2차원 형태로 생성된다. ndim과 shape 속성을 검사해서 이를 확인할 수 있다.

In [None]:
arr2.ndim

2

In [None]:
arr2.shape

(2, 4)

In [None]:
# 명시적으로 지정하지 않는 한 np.array는 생성될 때 적절한 자료형을 추론한다. 그렇게 추론된 자료형은 dtype 객체에 저장되는데 앞서 살펴본 예제에서 확인해보면 다음과 같다.

In [None]:
arr1.dtype  

dtype('float64')

In [None]:
arr2.dtype

dtype('int64')

In [None]:
# 또한 np.array는 새로운 배열을 생성하기 위한 여러 함수를 가지고 있는데, 예를 들어 zeros와 ones는 주어진 길이나 모양에 각각 0과 1이 들어있는 배열을 생성한다. 

In [None]:
# empty 함수는 초기화되지 않은 배열을 생성한다. 이런 메서드를 사용해서 다차원 배열을 생성하려면 원하는 형태의 튜플을 넘기면 된다.

In [None]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [None]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [None]:
np.zeros((2, 3, 2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [None]:
# np.empty는 0으로 초기화된 배열을 반환하지 않는다. 앞서 살펴본 바와 같이 대부분의 경우 np.empty는 초기화되지 않은 "가비지"값으로 채워진 배열을 반환한다.

In [None]:
# arange는 파이썬의 range 함수의 배열 버전이다.

In [None]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [None]:
# 표 4-1은 표준 배열 생성 함수의 목록이다. NumPy는 산술 연산에 초점이 맞춰져 있기 때문에 만약 자료형을 명시하지 않으면 float64(부동소수점)가 될 것이다. 페이지 139쪽

In [None]:
# 4.1.2 ndarray의 dtype

In [None]:
# dtype은 ndarray가 메모리에 있는 특정 데이터를 해석하기 위해 필요한 정보(또는 메타데이터)를 담고 있는 특수한 객체다. 

In [None]:
arr1 = np.array([1, 2, 3], dtype=np.float64)

In [None]:
arr2 = np.array([1, 2, 3], dtype=np.int32)

In [None]:
arr1.dtype

dtype('float64')

In [None]:
arr2.dtype

dtype('int32')

In [None]:
# dtype이 있기에 NumPy가 강력하면서도 유연한 도구가 될 수 있었는데, 대부분의 경우 데이터는 디스크에서 데이터를 읽고 쓰기 편하도록 하위 레벨의 표현에 직접적으로 맞춰져 있다.
# 따라서 C나 포트란 같은 저수준 언어로 작성된 코드와 쉽게 연동이 가능하다. 

In [None]:
# 산술 데이터의 dtype은 float나 int 같은 자료형의 이름과 하나의 원소가 차지하는 비트 수로 이루어진다.
# 파이썬의 float 객체에서 사용되는 표준 배정밀도 부동소수점 값은 8바이트 혹은 64비트로 이루어지는데 이 자료형은 NumPy에서 float64로 표현된다.

In [None]:
# 표 4-2는 NumPy가 지원하는 모든 자료형의 목록이다. 페이지 140쪽 NumPy 자료형

In [None]:
# ndarray의 astype 메서드를 사용해서 배열의 dtype을 다른 형으로 명시적으로 변환(또는 캐스팅) 가능하다. 

In [None]:
arr = np.array([1, 2, 3, 4, 5])

In [None]:
arr.dtype

dtype('int64')

In [None]:
float_arr = arr.astype(np.float64)

In [None]:
float_arr.dtype

dtype('float64')

In [None]:
# 위 예제에서는 정수형을 부동소수점으로 변환했다. 만약 부동소수점수를 정수형 dtype으로 변환하면 소수점 아래 자리는 버려진다.

In [None]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])

In [None]:
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [None]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

In [None]:
# 숫자 형식의 문자열을 담고 있는 배열이 있다면 astype을 사용하여 숫자로 변환할 수 있다. 

In [None]:
numeric_strings = np.array(["1.25", "-9.6", "42"], dtype = np.string_)

In [None]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

In [None]:
# 주의! NumPy에서 문자열 데이터는 고정 크기를 가지며 별다른 경고를 출력하지 않고 입력을 임의로 잘라낼 수 있으므로 numpy.string_형을 이용할 때는 주의하는 것이 좋다. 
# pandas는 숫자 형식이 아닌 경우에 좀 더 직관적인 사용성을 제공한다.

In [None]:
# 만일 어떤 이유(문자열이 float64형으로 변환되지 않는 경우와 같은)로 형변환이 실패하면 ValueError 예외가 발생한다. 
# 위 예에서 나는 귀찮아서 np.float64 대신 float라고 입력했는데 똑똑한 NumPy는 파이썬 자료형을 알맞은 dtype으로 맞춰준다.

In [None]:
# 다른 배열의 dtype 속성을 이용하는 것도 가능하다.

In [None]:
int_array = np.arange(10)

In [None]:
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype = np.float64)

In [None]:
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [None]:
# dtype으로 사용할 수 있는 축약 코드도 있다. 

In [None]:
empty_uint32 = np.empty(8, dtype = "u4")

In [None]:
empty_uint32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

In [None]:
# Note! astype을 호출하면 새로운 dtype이 이전 dtype과 동일해도 항상 새로운 배열을 생성(데이터를 복사)한다.

In [None]:
# 4.1.3 NumPy 배열의 산술 연산

In [None]:
# 배열의 중요한 특징은 for 문을 작성하지 않고 데이터를 일괄 처리할 수 있다는 것이다. 이를 벡터화라고 하는데, 같은 크기의 배열 간의 산술 연산은 배열의 각 원소 단위로 적용된다.

In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6]])

In [None]:
arr

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [None]:
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

In [None]:
# 스칼라 인자가 포함된 산술 연산의 경우 배열 내의 모든 원소에 스칼라 인자가 적용된다.

In [None]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [None]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [None]:
# 같은 크기를 가지는 배열 간의 비교 연산은 불리언 배열을 반환한다.

In [None]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

In [None]:
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [None]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

In [None]:
# 크기가 다른 배열 간의 연산은 브로드캐스팅이라고 하는데 12장에서 자세히 다루자. 이 책을 이해하기 위해 브로드캐스팅을 깊이 알고 있을 필요는 없다.

In [None]:
# 4.1.4 색인과 슬라이싱 기초

In [None]:
# NumPy 배열 색인에 대해서, 데이터의 부분집합이나 개별 요소를 선택하기 위한 수많은 방법이 존재한다. 1차원 배열은 단순한데, 표면적으로는 파이썬의 리스트와 유사하게 동작한다.

In [None]:
arr = np.arange(10)

In [None]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
arr[5]

5

In [None]:
arr[5:8]

array([5, 6, 7])

In [None]:
arr[5:8] = 12

In [None]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [None]:
# 위에서 볼 수 있듯이 arr[5:8] = 12처럼 배열 조각에 스칼라값을 대입하면 12가 선택 영역 전체로 전파(또는 브로드캐스팅)된다. 
# 리스트와의 차이점 중 중요한 점은 배열 조각은 원본 배열의 뷰라는 점이다. 즉, 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영된다. 

In [None]:
# 이에 대한 예제로 먼저 arr 배열의 슬라이스를 생성해보자.

In [None]:
arr_slice = arr[5:8]

In [None]:
arr_slice

array([12, 12, 12])

In [None]:
# 그리고 arr_slice의 값을 변경하면 원래 배열인 arr의 값도 바뀌어 있음을 확인할 수 있다.

In [None]:
arr_slice[1] = 12345

In [None]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [None]:
# 단순히 [:]로 슬라이스를 하면 배열의 모든 값을 할당한다.

In [None]:
arr_slice[:] = 64

In [None]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [None]:
# NumPy를 처음 접한다면, 특히 데이터 복사가 자주 일어나는 다른 배열 프로그래밍 언어를 사용해본 적이 있다면 데이터가 복사되지 않는다는 점은 놀랄 만한 사실이다. 
# NumPy는 대용량의 데이터 처리를 염두에 두고 설계되었기 때문에 만약 NumPy가 데이터 복사를 남발한다면 성능과 메모리 문제에 마주치게 될 것이다.

In [None]:
# 주의! 만약에 뷰 대신 ndarray 슬라이스의 복사본을 얻고 싶다면 arr[5:8].copy()를 사용해서 명시적으로 배열을 복사해야 한다.

In [None]:
# 다차원 배열을 다룰 때는 좀 더 많은 옵션이 있다. 2차원 배열에서 각 색인에 해당하는 요소는 스칼라값이 아니라 1차원 배열이다.

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [None]:
arr2d[2]

array([7, 8, 9])

In [None]:
# 따라서 개별 요소는 재귀적으로 접근해야 한다. 하지만 그렇게 하기는 귀찮기 때문에 콤마로 구분된 색인 리스트를 넘기면 된다. 그러므로 다음 두 표현은 동일하다.

In [None]:
arr2d[0][2]

3

In [None]:
arr2d[0, 2]

3

In [None]:
# 그림 [4-1](페이지 146)에 2차원 배열에 대한 색인을 나타냈다. 0번 축을 "로우"로 생각하고 1번 축을 "컬럼"으로 생각하면 이해하기 쉽다.

In [None]:
# 다차원 배열에서 마지막 색인을 생략하면 반환되는 객체는 상위 차원의 데이터를 포함하고 있는 한 차원 낮은 ndarray가 된다. 2x2x3 크기의 배열 arr3d가 있다면

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

In [None]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
# arr3d[0]은 2 x 3 크기의 배열이다.

In [None]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
# arr3d[0]에는 스칼라값과 배열 모두 대입할 수 있다. 

In [None]:
old_values = arr3d[0].copy()

In [None]:
arr3d[0] = 42

In [None]:
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
arr3d[0] = old_values

In [None]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
# 이런 식으로 arr3d[1, 0]은 (1, 0)으로 색인되는 1차원 배열과 그 값을 반환한다.

In [None]:
arr3d[1, 0]

array([7, 8, 9])

In [None]:
# 이 표현은 다음처럼 두 번에 걸쳐 인덱싱한 결과와 동일하다.

In [None]:
x = arr3d[1]

In [None]:
x

array([[ 7,  8,  9],
       [10, 11, 12]])

In [None]:
x[0]

array([7, 8, 9])

In [None]:
# 여기서 살펴본 선택된 배열의 부분집합은 모두 배열의 뷰를 반환한다는 점이다. 

In [None]:
# 슬라이스로 선택하기

In [None]:
# 파이썬의 리스트 같은 1차원 객체처럼 ndarray는 익숙한 문법으로 슬라이싱할 수 있다.

In [None]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [None]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

In [None]:
# 위에서 살펴본 arr2d를 생각해보자. 이 배열을 슬라이싱하는 방법은 조금 다르다.

In [None]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
# 확인한 것처럼 첫 번째 축인 0번 축을 기준으로 슬라이싱되었다. 따라서 슬라이스는 축을 따라 선택 영역 내의 요소를 선택한다. 
# 'arr2d의 시작부터 두 번째 로우까지의 선택'이라고 이해하면 쉽다. 

In [None]:
# 색인을 여러 개 넘겨서 다차원을 슬라이싱하는 것도 가능하다.

In [None]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [None]:
# 이렇게 슬라이싱하면 항상 같은 차원의 배열에 대한 뷰를 얻게 된다. 정수 색인과 슬라이스를 함께 사용해서 한 차원 낮은 슬라이스를 얻을 수 있다. 

In [None]:
# 예를 들어 두 번째 로우에서 처음 두 컬럼만 선택하고 싶다면 아래처럼 하면 된다. 

In [None]:
arr2d[1, :2]

array([4, 5])

In [None]:
# 이와 유사하게 처음 두 로우에서 세 번째 컬럼만 선택하고 싶다면 아래처럼 하면 된다.

In [None]:
arr2d[:2, 2]

array([3, 6])

In [None]:
# [그림 4-2] 참고(페이지 149), 그냥 콜론만 쓰면 전체 축을 선택한다는 의미이므로 이렇게 하면 원래 차원의 슬라이스를 얻게 된다.

In [None]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [None]:
# 물론 슬라이싱 구문에 값을 대입하면 선택 영역 전체에 값이 대입된다. 

In [None]:
arr2d[:2, 1:] = 0

In [None]:
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

In [None]:
# 4.1.5 불리언값으로 선택하기

In [None]:
# 중복된 이름이 포함된 배열이 있다고 하자. 그리고 numpy.random 모듈에 있는 randn 함수를 사용해서 임의의 표준 정규 분포 데이터를 생성하자.

In [None]:
names = np.array(["Bob", "Joe", "Will", "Bob", "Will", "Joe", "Joe"])

In [None]:
data = np.random.randn(7, 4)

In [None]:
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [None]:
data

array([[ 0.02287187,  1.17701301, -0.82842771, -1.40796673],
       [-0.67938006,  0.31423731,  0.1349388 , -0.38266892],
       [-0.08064794,  1.45240605,  0.72500895,  0.75220493],
       [-0.9989189 ,  1.73130626, -0.06067379,  0.58219994],
       [ 0.1997758 ,  0.7860199 ,  0.62715826,  1.47103107],
       [ 0.11458444, -1.21630849, -0.62560093,  0.13624245],
       [-0.06204462,  1.17436627,  0.2284095 , -0.33916824]])

In [None]:
# 각각의 이름은 data 배열의 각 로우에 대응한다고 가정하자. 
# 만약에 전체 로우에서 "Bob"과 같은 이름을 선택하려면 산술 연산과 마찬가지로 배열에 대한 비교 연산(== 같은)도 벡터화되므로 names를 "Bob" 문자열과 비교하면 불리언 배열을 반환한다.

In [None]:
names == "Bob"

array([ True, False, False,  True, False, False, False])

In [None]:
# 이 불리언 배열은 배열의 색인으로 사용할 수 있다. 

In [None]:
data[names == "Bob"]

array([[ 0.02287187,  1.17701301, -0.82842771, -1.40796673],
       [-0.9989189 ,  1.73130626, -0.06067379,  0.58219994]])

In [None]:
# 불리언 배열은 반드시 색인하려는 축의 길이와 동일한 길이를 가져야 한다. 불리언 배열 색인도 슬라이스나 요소를 선택하는 데 짜 맞출 수 있다. 

In [None]:
# Caution! 불리언값으로 배열을 선택할 때는 불리언 배열의 크기가 다르더라도 실패하지 않는다. 불리언 배열 색인도 슬라이스나 요소를 선택하는 데 짜맞출 수 있다.

In [None]:
# 다음 예제에서는 names == "Bob"인 로우에서 2: 컬럼을 선택했다. 

In [None]:
data[names == "Bob", 2:]

array([[-0.82842771, -1.40796673],
       [-0.06067379,  0.58219994]])

In [None]:
data[names == "Bob", 3]

array([-1.40796673,  0.58219994])

In [None]:
# "Bob"이 아닌 요소들을 선택하려는 != 연산자를 사용하거나 ~를 사용해서 조건절을 부인하면 된다.

In [None]:
names != "Bob"

array([False,  True,  True, False,  True,  True,  True])

In [None]:
data[~(names == "Bob")]

array([[-0.67938006,  0.31423731,  0.1349388 , -0.38266892],
       [-0.08064794,  1.45240605,  0.72500895,  0.75220493],
       [ 0.1997758 ,  0.7860199 ,  0.62715826,  1.47103107],
       [ 0.11458444, -1.21630849, -0.62560093,  0.13624245],
       [-0.06204462,  1.17436627,  0.2284095 , -0.33916824]])

In [None]:
# ~ 연산자는 일반적인 조건을 반대로 쓰고 싶을 때 유용하다.

In [None]:
cond = names == "Bob"

In [None]:
data[~cond]

array([[-0.67938006,  0.31423731,  0.1349388 , -0.38266892],
       [-0.08064794,  1.45240605,  0.72500895,  0.75220493],
       [ 0.1997758 ,  0.7860199 ,  0.62715826,  1.47103107],
       [ 0.11458444, -1.21630849, -0.62560093,  0.13624245],
       [-0.06204462,  1.17436627,  0.2284095 , -0.33916824]])

In [None]:
# 세 가지 이름 중에서 두 가지 이름을 선택하려면 &(and)나 |(or) 같은 논리 연산자를 사용한 여러 개의 불리언 조건을 사용하면 된다.

In [None]:
mask = (names == "Bob") | (names == "Will")

In [None]:
mask

array([ True, False,  True,  True,  True, False, False])

In [None]:
data[mask]

array([[ 0.02287187,  1.17701301, -0.82842771, -1.40796673],
       [-0.08064794,  1.45240605,  0.72500895,  0.75220493],
       [-0.9989189 ,  1.73130626, -0.06067379,  0.58219994],
       [ 0.1997758 ,  0.7860199 ,  0.62715826,  1.47103107]])

In [None]:
# 배열에 불리언 색인을 이용해서 데이터를 선택하면 반환되는 배열의 내용이 바뀌지 않더라도 항상 데이터 복사가 발생한다.

In [None]:
# Caution! 파이썬 예약어인 and와 or은 불리언 배열에서는 사용할 수 없다. 대신 &(and)와 |(or)을 사용한다.

In [None]:
# 불리언 배열에 값을 대입하는 것은 상식적으로 이루어진다. data에 저장된 모든 음수를 0으로 대입하려면 다음과 같이 하면 된다.

In [None]:
data[data < 0]

array([-0.82842771, -1.40796673, -0.67938006, -0.38266892, -0.08064794,
       -0.9989189 , -0.06067379, -1.21630849, -0.62560093, -0.06204462,
       -0.33916824])

In [None]:
data

array([[ 0.02287187,  1.17701301, -0.82842771, -1.40796673],
       [-0.67938006,  0.31423731,  0.1349388 , -0.38266892],
       [-0.08064794,  1.45240605,  0.72500895,  0.75220493],
       [-0.9989189 ,  1.73130626, -0.06067379,  0.58219994],
       [ 0.1997758 ,  0.7860199 ,  0.62715826,  1.47103107],
       [ 0.11458444, -1.21630849, -0.62560093,  0.13624245],
       [-0.06204462,  1.17436627,  0.2284095 , -0.33916824]])

In [None]:
# 1차원 불리언 배열을 사용해서 전체 로우나 컬럼을 선택하는 것은 쉽게 할 수 있다.

In [None]:
data[names != "Joe"] = 7

In [None]:
data

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [-0.67938006,  0.31423731,  0.1349388 , -0.38266892],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.11458444, -1.21630849, -0.62560093,  0.13624245],
       [-0.06204462,  1.17436627,  0.2284095 , -0.33916824]])

In [None]:
# 나중에 살펴보겠지만 2차원 데이터에 대한 이런 유형의 연산은 pandas를 이용해서 처리하는 것이 편리하다.