# NumPy 기본: 배열과 벡터 연산
---

In [2]:
import numpy as np
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

- Numericla Python
- 파이썬에서 산술 계산을 위한 가장 중요한 필수 패키지
- Numpy에서 제공하는 것들
    - 효율적인 다차원 배열 ndarray는 빠른 배열 계산과 유연한 **브로드캐스팅** 기능을 제공한다.
    - 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
    - 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
    - 선형대수, 난수 생성기, 푸리에 변환 기능
    - C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API
- NumPy 자체는 모델링이나 과학 계산을 위한 기능을 제공하지 않으므로 먼저 NumPy 배여과 배열 기반 연산에 대한 이해를 한 다음 pandas 같은 배열 기반 도구를 사용하면 더 효율적이다.
- NumPy는 대용량 데이터 배열을 효율적으로 다룰 수 있도록 설계되어 있다.
    - NumPy는 내부적으로 데이터를 다른 내장 파이썬 객체와 구분된 연속된 메모리 블록에 저장한다. NumPy의 각종 알고리즘은 모두 C로 작성되어 타입 검사나 다른 오버헤드 없이 메모리를 직접 조작할 수 있다.
    - NumPy 배열은 또한 내장 파이썬의 연속된 자료형들보다 훨씬 더 적은 메모리를 사용한다.
    - NumPy 연산은 파이썬 반복문을 사용하지 않고 전체 배열 대한 복잡한 계산을 수행할 수 있다.

- Numpy vs list

In [3]:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [4]:
print("NumPy 사용시 >>> ")
%time for _ in range(10): my_arr2 = my_arr * 2
    
print(f"\nlist 사용시 >>> ")
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

NumPy 사용시 >>> 
Wall time: 26.9 ms

list 사용시 >>> 
Wall time: 1.58 s


## 4.1 NumPy ndarray: 다차원 배열 객체

ndarray는 N차원 배열 객체인데 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조다. 배열은 스칼라 원소간의 연산에 사용하는 문법과 비슷한 방식을 사용해서 전체 데이터 블록에 수학적인 연산을 수행할 있다!

- 작은 배열을 만들어보자!

In [5]:
import numpy as np

# 임의의 값을 생성
# shape가 (2,3)인 랜덤 array 생성
data = np.random.randn(2, 3)
data

array([[-0.2047,  0.4789, -0.5194],
       [-0.5557,  1.9658,  1.3934]])

- 그걸 가지고 산술연산을 해보자!

In [6]:
# 모든 원소의 값에 10을 곱한다.
data * 10

array([[-2.0471,  4.7894, -5.1944],
       [-5.5573, 19.6578, 13.9341]])

In [7]:
# data 배열에서 같은 위치의 값끼리 더한다.
data + data

array([[-0.4094,  0.9579, -1.0389],
       [-1.1115,  3.9316,  2.7868]])

- ndarray의 모든 원소는 같은 자료형이어야 한다.

In [8]:
# ndarray.shape : 배열의 각 차원의 크기를 알려주는 튜플
data.shape

(2, 3)

In [9]:
# ndarray.dtype : 배열에 저장된 자료형을 알려주는 객체
data.dtype

dtype('float64')

#### 이 장의 목표! 
- NumPy 배열을 사용하는 기초 방법을 소개
- 대체로 데이터 분석에 있어서 NumPy의 깊은 이해가 필수 사항은 아니다.
- 하지만 배열 위주의 프로그래밍과 생각하는 방법에 능숙해지는것이 파이썬을 이용한 과학 계산의 고수가 되는 지름길이다!

### 4.1.1 ndarray 생성하기

순차적인 객체를 넘겨받고, 넘겨받은 데이터가 들어 있는 새로운 NumPy 배열을 생성
```python
numpy.ndarray(shape, dtype=float, buffer=None, offset=0, strides=None, order=None)
```


- list를 사용하여 ndarray 생성

In [10]:
# 일차원 리스트 -> 일차원 배열
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [11]:
# 내부 리스트의 길이가 같은 중첩 리스트 -> 다차원 배열
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [12]:
# 다차원 배열이 생성 된 것은 차원의 수와 차원들의 모양을 확인
print(arr2.ndim) # 배열의 차원의 수
print(arr2.shape)

2
(2, 4)


- **자료형** : dtype 파라미터로 명시적으로 지정해 주지 않는 이상 자료형은 추론을 통해 고정된다.

In [13]:
print(arr1.dtype)
print(arr2.dtype)

float64
int32


- 배열 생성 함수

| 함수 | 설명 |
|:---|:---|
| array | 입력 데이터(리스트, 튜플, 배열 또는 다른 순차형 데이터)를 ndarray로 변환하며 dtype을 명시하지 않은 경우 자료형을 추론하여 저장한다. 기본적으로 입력 데이터는 복사된다.  |
| asarray | 입력 데이터를 ndarray로 변화하지만 입력 데이터가 이미 ndaray일 경우 복사가 일어나지 않는다. |
| arange | 내장 range 함수와 유사하지만 리스트대신 ndarray를 반환한다. |
| ones, ones_like | 주어진 dtype과 모양을 가지는 배영을 생성하고 내용을 모두 1로 초기화한다. ones_like는 주어진 배열과 동일한 모양과 dtype를 가지는 배열을 새로 생성하여 내용을 모두 1로 초기화한다. |
| zeros, zeros_like | ones, ones_like와 동일하지만 내용을 0으로 채운다. |
| empty, empty_like | 메모리를 할당하여 새로운 배경을 생성하지만 ones나 zeros처럼 값을 초기화하지 않는다. |
| full, full_linke | 인자로 받은 dtype과 배열의 모양을 가지는 배열을 생성하고 인자로 받은 값으로 배열을 채운다. |
| eye, identity | NxN 크기의 단위행렬을 생성한다(좌상단에서 우하단을 잇는 대각선은 1로 채워지고 나머지는 0으로 채워진다.) |

In [14]:
# 주어진 길이/모양에 0이 들어있는 배열을 생성
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [15]:
# 주어진 길이/모양에 0이 들어있는 배열을 생성
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [16]:
# 초기화 되이 않은 배열을 생성
np.empty((2, 3, 2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [17]:
np.empty((2, 3))
# 책에 따르면 empty는 어러한 가비지 값으로 채워진 배열을 반환하는데
# 왜 np.empty((2, 3, 2))는 0으로 초기화가 되었을까?

array([[0.4094, 0.9579, 1.0389],
       [1.1115, 3.9316, 2.7868]])

In [18]:
# 파이썬 range 함수희 배열 버전
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### 4.1.2 ndarray의 dtype

**dtype** ndarray가 메모리에 있는 특정 데이터를 해석하기 위해 필요한 정보(또는 **메타데이터**)를 담고 있는 특수한 객체이다.

In [19]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
print(arr1.dtype)
print(arr2.dtype)

float64
int32


- NumPy 자료형

| 자료형 | 자료형 코드 | 설명 |
|:-------|:------------|:-----|
| int8, uint8 | i1, u1 | 부호가 있는 8비트(1바이트) 정수형과 부호가 없는 8비트 정수형 |
| int16, uint16 | i2, u2 | 부호가 있는 16비트 정수형과 부호가 없는 16비트 정수형 |
| int32, uint32 | i4, u4 | 부호가 있는 32비트 정수형과 부호가 없는 32비트 정수형 |
| int34, uint64 | i8, u8 | 부호가 있는 64비트 정수형과 부호가 없는 64비트 정수형 |
| float16 | f2 | 빈정밀도 부동소수점 |
| float32 | f4 또는 f | 단정밀도 부동소수점, C언어의 float 형과 호환 |
| float64 | f8 또는 d | 배정밀도 부동소수점, C언어의 double 형과 파이썬의 float 객체와 호환 |
| float128 | f16 또는 g | 확장정밀도 부동소수점 |
| complex64,complex128, complex256 | c8, c16, c32 | 각각 2개의 32, 64, 128비트 부동소수점형을 가지는 복소수 |
| bool | ? | True와 Flase 값을 저장하는 불리언형 |
| object | 0 | 파이썬 객체형 |
| string_ | S | 고정 길이 아스키 문자열형(각 문자는 1바이트), 길이가 10인 문자열 dtype은 S10이 된다. |
| unicode_ | U | 고정 길이 유니코드형(플랫폼에 다라 문자열 바이트 수가 다르가). string_ 형과 같은 형식을 쓴다(예: U10) |

- **astype** 배열의 dtype을 명시적을 변화/캐스팅
    - 형변화 실패시 ValueError 예외가 발생
    - np.float64와 같이 명확한 형타입이 아닌 'float' 같은 문자열 입력하는 것으로도 형변환 가능

In [20]:
arr = np.array([1, 2, 3, 4, 5])
print(arr)
print(arr.dtype)

[1 2 3 4 5]
int32


In [21]:
float_arr = arr.astype(np.float64) # int32 -> float64
print(float_arr)
print(float_arr.dtype)

[1. 2. 3. 4. 5.]
float64


In [22]:
# float64 -> int32 : 소수점 버림
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
print(f'캐스팅 전 : {arr}')
print(f'캐스팅 후 : {arr.astype(np.int32)}')

캐스팅 전 : [ 3.7 -1.2 -2.6  0.5 12.9 10.1]
캐스팅 후 : [ 3 -1 -2  0 12 10]


In [23]:
# string_ -> float
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

In [24]:
# 다른 배열의 dtype을 이용한 형변환도 가능
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [25]:
# dtype을 사용할 수 있는 축약 코드도 존재
empty_uint32 = np.empty(8, dtype='u4')
empty_uint32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

### 4.1.3 NumPy 배열의 산술 연산

- **벡터화** 
    - 벡터의 같은 인덱스에 위치한 원소들끼리 연산을 수행하는 기능, [link](https://ooyoung.tistory.com/141)
    - for 문을 작성하지 않고 데이터를 일괄 처리할 수 있다.
    - 같은 크기의 배열 간의 산술 연산은 배열의 각 원소 단위로 적용된다.

In [26]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [27]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [28]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [29]:
# 스칼라 인자가 포함된 산술 연산의 경우 배열 내의 모든 원소에 스칼라 인자가 적용
print(1 / arr)
print()
print(arr ** 0.5)

[[1.     0.5    0.3333]
 [0.25   0.2    0.1667]]

[[1.     1.4142 1.7321]
 [2.     2.2361 2.4495]]


In [30]:
# 같은 크기를 가지는 배열 간의 비교 연산은 bool 배열을 반환한다.
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
print(arr2)
arr2 > arr

[[ 0.  4.  1.]
 [ 7.  2. 12.]]


array([[False,  True, False],
       [ True, False,  True]])

- **브로드캐스팅** 크기가 다른 배열 간의 연산 -> 12장에서 다룸

### 4.1.4 색인과 슬라이싱 기초

- 색인 : 대괄호를 사용하여 원소에 접근하는 것
    - ref : http://blog.skby.net/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%83%89%EC%9D%B8-%EA%B2%80%EC%83%89indexing%EA%B3%BC-%EC%A0%95%EB%A0%ACsort/

- 1차원 배열은 표면적으로는 파이썬 리스트와 유사하게 동작

In [124]:
arr = np.arange(10)
print(f'arr : {arr}')
print(f'arr[5] : {arr[5]}') # arr에서 5번째에 있는 원소
print(f'arr[5:8] : {arr[5:8]}') # arr에서 5~7번째에 있는 원소

arr : [0 1 2 3 4 5 6 7 8 9]
arr[5] : 5
arr[5:8] : [5 6 7]


In [125]:
# 배열 조각에 스칼라 값을 대입하면
# 스칼라 값이 선택 영역 전체로 전파 된다(브로드 캐스팅)
arr[5:8] = 12 # arr에서 5~7번째에 12를 대입
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

- 리스트와의 차이점
    - 배열 조각은 원본의 **뷰**, 데이터가 복사되지 않고 조각의 변경사항이 그래로 원본에 반영된다.
    - NumPy는 대용량의 데이터 처리를 염두해 두고 설계되었기 때문에 데이터 복사가 남발되면 성능과 메모리 문제에 마주치게 될 것이다.

In [126]:
# 1. arr을 슬라이싱
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [127]:
# 2. 배열 조각의 값을 변경하고 arr을 확인
arr_slice[1] = 12345

# 배열 조각에서 변경된 내용이 원본 배열에서도 변경된 것을 확인 할 수 있음
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [128]:
id(arr_slice[1]), id(arr[6])

(2424755952272, 2424755952272)

- [:] 로 슬라이스하면 배열의 모든 값을 할당한다.

In [35]:
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

- 다차원 배열 : 0번 축 : row, 1번 축 : column

<img src="https://user-images.githubusercontent.com/16831323/125911880-286b61d6-df2c-4223-a8e6-28a8a0effa04.jpg" width=300px></img>

In [36]:
# 2차원 배열
# 색인에 해당하는 요소는 스칼라 값이 아니라 1차원 배열이다.
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [37]:
# 개별 요소 -> 재귀적으로 접근 혹은 콤마로 구분된 색인 리스트 전달
# 아래의 두개는 동일한 표현
print(arr2d[0][2])
print(arr2d[0, 2])

3
3


In [45]:
# 다차원 배열에서 마지막 색인을 생략하면 
# 반환되는 객체는 상위 차원의 데이터를 포함하고 
# 있는 한 차원 낮은 ndarray가 된다. 
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr3d)# 2x2x3 크기의 배열
print(f'\narr3d.shape : {arr3d.shape}')

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]

arr3d.shape : (2, 2, 3)


In [39]:
arr3d[0] # 2x3 배열

array([[1, 2, 3],
       [4, 5, 6]])

In [40]:
# arr3d[0]에는 스칼라값과 배열 모두 대입 가능!
old_values = arr3d[0].copy()

# 스칼라 대입
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [41]:
# 배열 대입
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [42]:
# (1, 0)으로 색인되는 1차원 배열
arr3d[1, 0]

array([7, 8, 9])

In [43]:
# 위의 결과는 아래와 같이 두번에 걸쳐 인덱싱한 결과와 동일하다.
x = arr3d[1]
print(x)
print()
print(x[0])

[[ 7  8  9]
 [10 11 12]]

[7 8 9]


#### 슬라이스로 선택하기

In [49]:
# 리스트 같은 1차원 객체처럼 ndarray는 익숙한 문법으로 슬라이싱 할 수 있다.
print(arr)
print(arr[1:6])

[ 0  1  2  3  4 64 64 64  8  9]
[ 1  2  3  4 64]


- 2차원 배열의 슬라이싱
<img src="https://user-images.githubusercontent.com/87588337/126070523-1488b4f8-b9cd-4ca1-8646-781bfe02533d.jpg" width=500px></img>

In [59]:
print(arr2d)

# 0번축을 기준으로 슬라이싱, arr2d의 시작부터 두 번째 로우까지의 선택
print(arr2d[:2])
print(arr2d[:2].ndim)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]]
2


In [54]:
# 색인을 여러개 넘겨서 다차원 슬라이싱하는 것도 가능
print(arr2d[:2, 1:])
print(arr2d[:2, 1:].ndim)

[[2 3]
 [5 6]]
2


- 이렇게 슬라이싱하면 항상 같은 차원의 배열에 대한 뷰를 얻게 됨
- 한 차원 낮은 뷰를 얻을려면 -> 정수 색인을 함께 사용한다.

In [55]:
# 두번째 로우에서 처음 두 컬럼을 선택
arr2d[1, :2]

array([4, 5])

In [58]:
# 처음 두 로우에서 세 번째 컬럼만 선택
arr2d[:2, 2]

array([3, 6])

In [74]:
# 그냥 콜론만 쓰는 경우 -> 축 전체를 선택
print(arr2d[:, :1]) # 슬라이싱을 사용하여 원래의 차원 유지
print(arr2d[:, 0]) # 색인을 써서 한 차원 낮은 결과를 얻음

[[1]
 [4]
 [7]]
[1 4 7]


- 슬라이싱 구문에 값을 대입하면 선택 영역 전체에 값이 대입된다.

In [75]:
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### 4.1.5 불리언값으로 선택하기

- 예시
    - `names` : 중복된 이름이 포함된 배열
    - `data` : 임의의 표준 정규 분포 데이터, 각각의 이름은 `data` 배열의 각 로우에 대응한다고 생각하자.

In [111]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
print(names)
print(data)

['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe']
[[-0.2723 -0.0171  0.6803  0.6355]
 [-0.7572  0.7181 -0.3043 -1.6778]
 [ 0.427  -1.5637 -0.3675  1.0459]
 [ 1.22   -0.2477 -0.4162 -0.1167]
 [-1.8448  2.0687 -0.777   1.4402]
 [-0.1106  1.2274  1.9208  0.7464]
 [ 2.2247 -0.6794  0.7274 -0.8687]]


In [112]:
# 배열에 대한 비교 연산(== 같은)도 벡터화 될 수 있다.
# names를 'Bob' 문자열과 비교하면 boolean 배열을 반환한다.
names == 'Bob'

array([ True, False, False,  True, False, False, False])

In [113]:
# 위에서 반환된 boolean 배열을 색인으로 사용할 수 있다.
# 이때 boolean 배열의 길이 == 색인하려는 축의 길이여야 한다.
data[names == 'Bob']
# 0 [[-0.2723 -0.0171  0.6803  0.6355]
#    [-0.7572  0.7181 -0.3043 -1.6778]
#    [ 0.427  -1.5637 -0.3675  1.0459]
# 3  [ 1.22   -0.2477 -0.4162 -0.1167]
#    [-1.8448  2.0687 -0.777   1.4402]
#    [-0.1106  1.2274  1.9208  0.7464]
#    [ 2.2247 -0.6794  0.7274 -0.8687]]

array([[-0.2723, -0.0171,  0.6803,  0.6355],
       [ 1.22  , -0.2477, -0.4162, -0.1167]])

In [114]:
# names == 'Bob'인 로우에서 2: 컬럼을 선택
data[names == 'Bob', 2:]
#      0        1      2        3
# 0 [[-0.2723 -0.0171  0.6803  0.6355]
#    [-0.7572  0.7181 -0.3043 -1.6778]
#    [ 0.427  -1.5637 -0.3675  1.0459]
# 3  [ 1.22   -0.2477 -0.4162 -0.1167]
#    [-1.8448  2.0687 -0.777   1.4402]
#    [-0.1106  1.2274  1.9208  0.7464]
#    [ 2.2247 -0.6794  0.7274 -0.8687]]

array([[ 0.6803,  0.6355],
       [-0.4162, -0.1167]])

In [115]:
data[names == 'Bob', 3]

array([ 0.6355, -0.1167])

- NOT : !=, ~ 사용하여 조건절을 부인

In [116]:
# 'Bob'이 아닌 요소들에 대해 선택
print(names != 'Bob')
print(data[~(names == 'Bob')])

[False  True  True False  True  True  True]
[[-0.7572  0.7181 -0.3043 -1.6778]
 [ 0.427  -1.5637 -0.3675  1.0459]
 [-1.8448  2.0687 -0.777   1.4402]
 [-0.1106  1.2274  1.9208  0.7464]
 [ 2.2247 -0.6794  0.7274 -0.8687]]


In [117]:
# ~ 연산자는 일반적을 조건을 반대로 쓰고 싶을 때 유용
cond = names == 'Bob'
print(cond)
print(data[~cond])

[ True False False  True False False False]
[[-0.7572  0.7181 -0.3043 -1.6778]
 [ 0.427  -1.5637 -0.3675  1.0459]
 [-1.8448  2.0687 -0.777   1.4402]
 [-0.1106  1.2274  1.9208  0.7464]
 [ 2.2247 -0.6794  0.7274 -0.8687]]


- AND, OR : 파이썬 예약어인 and와 or는 배열에서 사용할 수 없다. 대신 &(and)와 |(or)를 사용한다.

In [118]:
# 두가지 이름을 선택
mask = (names == 'Bob') | (names == 'Will')
print(mask)
print(data[mask])

[ True False  True  True  True False False]
[[-0.2723 -0.0171  0.6803  0.6355]
 [ 0.427  -1.5637 -0.3675  1.0459]
 [ 1.22   -0.2477 -0.4162 -0.1167]
 [-1.8448  2.0687 -0.777   1.4402]]


In [130]:
# boolean 색인을 이용해서 데이터를 선택하면 데이터 복사가 발생한다.
print(id(data[mask][0][0]), data[mask][0][0])
print(id(data[0][0]), data[0][0])

2424702013616 -0.2722929752403272
2424702013648 -0.2722929752403272


- boolean 배열에 값을 대입

In [131]:
# data에 저장된 모든 음수를 0으로 대입
data[data < 0] = 0
data

array([[0.    , 0.    , 0.6803, 0.6355],
       [0.    , 0.7181, 0.    , 0.    ],
       [0.427 , 0.    , 0.    , 1.0459],
       [1.22  , 0.    , 0.    , 0.    ],
       [0.    , 2.0687, 0.    , 1.4402],
       [0.    , 1.2274, 1.9208, 0.7464],
       [2.2247, 0.    , 0.7274, 0.    ]])

In [132]:
data[names != 'Joe'] = 7
data

array([[7.    , 7.    , 7.    , 7.    ],
       [0.    , 0.7181, 0.    , 0.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [7.    , 7.    , 7.    , 7.    ],
       [0.    , 1.2274, 1.9208, 0.7464],
       [2.2247, 0.    , 0.7274, 0.    ]])

👉 2차원 데이터에 대하 이런 유형의 연산은 pandas를 이용해 처리하는 것이 편리하다.

### 4.1.6 팬시 색인

- **팬시 색인 fancy indexing**
    - 정수 리스트(혹은 배열)를 이용하여 여러 개를 동시에 선택하는 방식이다
    - 정수배열을 사용한 색인을 설명하기 위해 NumPy에서 차용한 단어
    - boolean 배열을 이용한 색인과 마찬가지로 데이터가 복사된다.

In [136]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

- 특정한 순서로 row를 선택하고 싶은 경우 -> 원하는 순서가 명시된 정수가 담긴 ndarray나 리스트를 색인으로 사용

In [137]:
arr[[4, 3, 0, 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

- 음수를 사용한 색인은 끝에서부터 row를 선택한다.

In [138]:
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

- 다차원 색인 : 각각의 색인 튜플에 대응하는 1차원 배열이 선택

In [140]:
arr = np.arange(32).reshape((8, 4))
print(arr)
arr[[1, 5, 7, 2], [0, 3, 1, 2]]
# [arr[1, 0], arr[5, 3], arr[7, 1], arr[2, 2]]

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


array([ 4, 23, 29, 10])

### 4.1.7 배열 전치와 축 바꾸기

<img src="https://lh3.googleusercontent.com/proxy/KqQNwtR31jzacQfrTyOJ0TnXngm6qS3nCsmxQk9ObkYz1jPMpZ4UzKe2wVAEHnIv8CC-WWU5aEMW-CJVZupOyL_w6Q" width=200px></img>

- 배열 전치는 데이터를 복사하지 않고 데이터의 모양이 바뀐 뷰를 반환한다.
- `ndarray.T`, `ndarray.transpose`

In [155]:
arr = np.arange(15).reshape((3, 5))
print(arr)
print(arr.T)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


In [157]:
# 내적(np.dot)과 같이 행렬 계산에 자주 사용된다.
arr = np.random.randn(6, 3)
print(arr)
print(np.dot(arr.T, arr))

[[ 0.8388  0.2669  0.7212]
 [ 0.911  -1.0209 -1.4134]
 [ 1.2966  0.2523  1.1275]
 [-0.5684  0.3094 -0.5774]
 [-1.1686 -0.825  -2.6444]
 [-0.153  -0.7519 -0.1326]]
[[ 4.9268  0.5243  4.218 ]
 [ 0.5243  2.5189  4.0227]
 [ 4.218   4.0227 11.1329]]


- 다차원 배열의 경우 `transpose` 메서드를 사용하여 튜플로 축 번호를 받아 치환한다.

In [169]:
arr = np.arange(16).reshape((2, 2, 4))
print(arr)
print(arr.shape)
print('----------------------')
# 첫번째와 두번째 축의 순서가 바뀌었고 마지막 축은 그대로
print(arr.transpose((1, 0, 2)))
print(arr.transpose((1, 0, 2)).shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]
(2, 2, 4)
----------------------
[[[ 0  1  2  3]
  [ 8  9 10 11]]

 [[ 4  5  6  7]
  [12 13 14 15]]]
(2, 2, 4)


In [174]:
print(arr)
print(arr.shape)
print('----------------------')
print(arr.swapaxes(1, 2))
print(arr.swapaxes(1, 2).shape)

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]
(2, 2, 4)
----------------------
[[[ 0  4]
  [ 1  5]
  [ 2  6]
  [ 3  7]]

 [[ 8 12]
  [ 9 13]
  [10 14]
  [11 15]]]
(2, 4, 2)


## Summary
---
1. 배열 생성법
    - np.array : list -> ndarray
    - zeros, ones, empty, arange, ...
2. ndarray의 자료형
    - dtype으로 확인 가능
    - astype으로 변환/캐스팅 가능
3. ndarray에서의 산술연산
    - 같은 크기의 배열 간의 연산 -> 같은 위치에 원소끼리 연산 수행
    - 스칼라가 포함된 연산 -> 배열의 모든 원소에 스칼라 인자가 적용
4. 색인과 슬라이싱
    - 슬라이싱
        - 뷰를 반환 -> 슬라이싱 결과에 특정 값을 대입하면 원본에도 반영 됨
        - [:]로 슬라이싱 -> 해당 축의 모든 값
    - 다차원 배열
        - 재귀적으로 접근(arr[1][2]) 혹은 콤마로 구분(arr[1, 2])
5. boolean 배열을 이용한 색인 가능
6. 팬시 색인 : 정수 리스트 혹은 배열을 이용한 색인