## NumPy

In [6]:
import numpy as np

### 1. NumPy ndarray: 다차원 배열 객체

### 1.1 ndarray 생성

In [4]:
data1 = [6, 7.5, 8, 0, 1]

In [10]:
arr1 = np.array(data1)

print(arr1)

[ 6.   7.5  8.   0.   1. ]


In [21]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

In [22]:
arr2 = np.array(data2)

print(arr2)

[[1 2 3 4]
 [5 6 7 8]]


In [24]:
arr2.ndim

2

In [25]:
arr2.shape

(2, 4)

In [26]:
arr1.dtype

dtype('float64')

In [27]:
arr2.dtype

dtype('int32')

In [28]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [32]:
np.zeros((3, 6))

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

In [33]:
np.empty((2,3,2))

array([[[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]],

       [[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]]])

##### range 함수의 배열 버전
내장 range 함수와 유사하지만 리스트 대신 ndarray를 반환한다

In [35]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [36]:
np.eye(3,3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [38]:
np.identity(4)

array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

### 1.2 ndarray의 자료형

### NumPy의 모든 dtype을 외울 필요는 없다. 
주로 사용하게 될 자료형의 일반적인 종류(부동소수점, 복소수, 정수, 불리언, 문자열, 일반 파이썬 객체)만 신경쓰면 된다. 주로 대용량 데이터가 메모리나 디스크에 저장되는 방식을 제어해야 할 필요가 있을 때 알아두면 좋다.

In [42]:
arr1 = np.array([1,2,3], dtype=np.float64)
arr2 = np.array([1,2,3], dtype=np.int32)

In [43]:
arr1.dtype

dtype('float64')

In [44]:
arr2.dtype

dtype('int32')

ndarray의 astype 메서드를 사용해서 배열의 dtype을 다른 형으로 명시적 변경이 가능하다

In [46]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [48]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

만약 부동소수점 숫자를 정수형으로 변환하면 소수점 아랫자리는 버려진다

In [49]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([  3.7,  -1.2,  -2.6,   0.5,  12.9,  10.1])

In [50]:
arr.dtype

dtype('float64')

In [58]:
arr.astype(np.int32)

dtype('float64')

숫자 형식의 문자열을 담고 있는 배열이 있다면 astype을 사용하여 숫자로 변화할 수 있다

In [55]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype = np.string_)
numeric_strings.dtype

dtype('S4')

In [56]:
numeric_strings.astype(float)

array([  1.25,  -9.6 ,  42.  ])

In [59]:
numeric_strings.dtype

dtype('S4')

In [60]:
numeric_strings.astype(float) + 1

array([  2.25,  -8.6 ,  43.  ])

In [66]:
int_array = np.arange(10)
int_array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [64]:
calibers = np.array([.22, .240, .357, .44, .50], dtype = np.float64)

In [65]:
int_array.astype(calibers.dtype)

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])

astype을 호출하면 새로운 dtype이 이전 dtype과 같아도 항상 새로운 배열을 생성(데이터를 복사)한다

### 1.3 배열과 스칼라 간의 연산

배열을 for 반복문을 작성하지 않고 데이터를 일괄처리 할 수 있기 때문에 중요하다.
이를 "벡터화"라고 하는데, 같은 크기의 배열 간 산술연산은 배열의 각 요소 단뒤로 적용된다.

In [68]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

In [69]:
arr * arr

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [73]:
arr - arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [75]:
1 / arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

In [76]:
arr ** .5

array([[ 1.        ,  1.41421356,  1.73205081],
       [ 2.        ,  2.23606798,  2.44948974]])

크기가 다른 배열 간의 연산은 브로드캐스팅(broadcasting)이라고 한다.

### 1.4 색인과 슬라이싱 기초

1차원 배열은 단순하며 표면적으로는 파이썬의 리스트와 유사하게 동작한다

In [78]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [79]:
arr[5]

5

In [80]:
arr[5:8]

array([5, 6, 7])

In [81]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

배열 조각에 스칼라 값을 대입하면 12가 선택 영역 전체로 전파된다(이후로는 브로드캐스팅이라고 한다)

리스트와의 중요한 차이점은 배열 조각(slice)은 원본 배열의 뷰(views)라는 점이다. 즉, 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영된다는 것이다

In [84]:
arr_slice = arr[5:8]
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,     9])

In [85]:
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

NumPy는 대용량 데이터 처리를 염두에 두고 설계되었기 때문에 막약 NumPy가 데이터 복사를 남발한다면 성능과 메모리 문제에 직면하게 될 것이다

만약에 뷰 대신 ndarray 슬라이스의 복사본을 얻고 싶다면 arr[5:8].copy()를 사용해서 명시적으로 배열을 복사하면 된다