# 4. NumPy 기본 : 배열과 벡터 연산

## 4.1 NumPy ndarray : 다차원 배열 객체

대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료 구조.

전체 데이터 블록에 대해 수학적인 연산 수행 가능

In [1]:
import numpy as np

In [23]:
# np.random.randn(x, y) : y개의 요소를 가진 x차원 배열 생성
data = np.random.randn(2,3)  # 2차원 배열, 3개의 요소

data

array([[ 0.83229611, -0.19596938,  1.0687938 ],
       [ 0.25490153, -1.05528013,  0.80291861]])

전체 데이터 블록에 수학적인 연산 가능

In [4]:
data*10

array([[ -2.64832637,   1.91957173,  -5.69947885],
       [ -5.00990687,  -2.58473473, -14.61861554]])

In [5]:
data + data

array([[-0.52966527,  0.38391435, -1.13989577],
       [-1.00198137, -0.51694695, -2.92372311]])

ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배열이며, ndarray의 모든 원소는 같은 자료형이어야한다.

* data.shape : ndarray 배열의 크기 값을 가진 '튜플' 값을 반환한다.

In [9]:
data.shape

(2, 3)

* data.dtype : 배열에 '자료형'을 반환 해 준다.

In [11]:
data.dtype

dtype('float64')

### 4.1.1 ndarray 생성

요소를 가진, 기존에 생성된 일반적인 컬렉션 타입(배열이나 튜플 같은..) 객체를 이용해 새로운 ndarray 배열을 생성.

#### np,array(컬렉션)

In [19]:
# 일반 컬렉션 객체
data1 = [6, 7.5, 8, 0, 1]

In [20]:
# 일반 컬렉션 객체를 이용해 ndarray 배열 생성
arr1 = np.array(data1)

In [21]:
# 결과
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [31]:
arr1.dtype

dtype('float64')

* 같은 길이의 리스트가 담겨있는 순차 데이터는 다차원 배열로 변환이 가능하다.

In [25]:
data2 = [[1,2,3,4], [5,6,7,8]]

In [26]:
arr2 = np.array(data2)

In [28]:
arr2   # 2차원 배열, 4개 요소.

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [29]:
arr2.ndim

2

In [30]:
arr2.shape

(2, 4)

In [32]:
arr2.dtype

dtype('int32')

* 0으로 이루어진 배열, 1로 이루어진 배열, 초기화되지 않은 값들로 이루어진 배열

#### np.zeros() : 0으로 이루어진 배열

In [34]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

#### np.ones() : 1로 이루어진 배열

In [36]:
np.ones([3,6]) # 3차원으로 6개 요소 가진 1로 이루어진 배열

array([[1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1.]])

#### np.empty() : 초기화되지 않은 값으로 이루어진 배열

In [42]:
# np.empty((x, y, z)) : z개의 요소를 가진 y차원 배열을 x개 생성.
np.empty((2, 4, 3))

array([[[6.23042070e-307, 4.67296746e-307, 1.69121096e-306],
        [1.37961641e-306, 7.56587584e-307, 1.37961302e-306],
        [1.05699242e-307, 8.01097889e-307, 1.78020169e-306],
        [7.56601165e-307, 1.02359984e-306, 1.15710088e-306]],

       [[6.23056330e-307, 1.60219578e-306, 7.56601165e-307],
        [6.23061763e-307, 9.34607074e-307, 8.90098127e-307],
        [8.90108313e-307, 6.23053954e-307, 8.90104239e-307],
        [1.86919513e-306, 1.11261570e-306, 1.42410974e-306]]])

### 4.1.2 ndarray의 자료형

In [45]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr1.dtype

dtype('float64')

In [46]:
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr2.dtype

dtype('int32')

* astype 메소드로 dtype을 변경할 수 있다.

In [48]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [51]:
float_arr = arr.astype(np.float64)
float_arr

array([1., 2., 3., 4., 5.])

In [52]:
float_arr.dtype

dtype('float64')

* 실수형 배열을 astype을 통해 정수형으로 변경할 경우, 데이터 요소들의 소수점 아랫자리들은 버려진다.

In [57]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [58]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

* 문자열로 된 배열이어도 숫자로 된 문자열일 경우, astype을 통해 형 변환을 시킬 수 있다.
* 일반적인 문자여서 형 변환에 실패할 경우, TypeError 예외를 발생시킨다.
* astype에 int32, float64 등 정확히 쓰지 않고 int, float 정도만 써주어도 NumPy는 알맞은 자료형을 찾아 dtype으로 변환 해 준다.

In [59]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings

array([b'1.25', b'-9.6', b'42'], dtype='|S4')

In [64]:
string_to_float = numeric_strings.astype(float)
string_to_float

array([ 1.25, -9.6 , 42.  ])

In [65]:
string_to_float.dtype # 위에서 astype에 float64라고 정확히 쓰지 않고 float만 써 주었다.

dtype('float64')

### 4.1.3 배열과 스칼라 간의 연산

배열은 for 반복문을 작성하지 않고 데이터를 일괄처리할 수 있는데, 이를 벡터화라고 한다.

깉은 크기의 배열 간 산술연산은 배열의 각 요소 단위로 적용된다.

In [66]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [67]:
# 곱 연산
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [68]:
# 뺄셈 연산
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [69]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [70]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

### 4.1.4 색인과 슬라이싱 기초

데이터의 부분 집합이나 개별 요소를 선택하는 법

In [73]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [76]:
arr[5] # index 5에 위치한 값. index는 0부터 시작

5

In [79]:
arr[5:8] # index 5부터 index 8 전까지. 즉, 7까지

array([5, 6, 7])

* 브로드캐스팅

배열의 인덱스 혹은 인덱스 범위에 값을 대입하면, 범위에 속하는 모든 요소들의 값이 바뀐다.

In [80]:
arr[5:8] = 12 # index 5 ~ 7 값 모두 12로 변경.
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

arr_slice 변수에 값으로 arr[5:8]를 초기화 시킨다.

arr_slice는 arr[5:8]의 범위에 해당하는 요소들을 값으로 가지는게 아니라,
arr[5:8] 범위의 주소 자체를 값으로 가지게 된다.

In [82]:
arr_slice = arr[5:8]
arr_slice[1] = 12345 # arr[6] = 12345

In [83]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [84]:
arr_slice[:] = 64 # arr[5] ~ arr[7] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

* 다차원 배열 색인

In [89]:
arr2d = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr2d[2]

array([7, 8, 9])

In [90]:
arr2d[0,2]

3

In [98]:
arr3d = np.array([[[1,2,3], [4,5,6]], [[7,8,9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [99]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [100]:
arr3d[0][1]

array([4, 5, 6])

In [101]:
arr3d[0][1][2]

6

* 다차원 배열 브로드캐스팅

In [106]:
old_values = arr3d[0].copy() # [[1,2,3], [4,5,6]]
old_values

array([[1, 2, 3],
       [4, 5, 6]])

In [107]:
arr3d[0] = 42 # [[1,2,3],[4,5,6]] 부분
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [108]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

#### 슬라이스 색인