# NumPy 기본: 배열과 벡터 연산

In [None]:
NumPy는 Numerical Python의 줄임말로, 파이썬에서 산술 계산을 윟나 가장 중요한 필수 패키지 중 하나다. 과학 계산을 위한 대부분의 패키지는 NumPy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다. 
Numpy에서 제공하는 것들은 다음과 같다.
 - 효율적인 다차원 배열인 ndarray는 빠른 배열 계산과 유연한 브로드캐스팅 기능을 제공한다. 
 - 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
 - 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
 - 선형대수, 난수 생성기, 푸리에 변환 기능
 - C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API

In [15]:
# Numpy는 통계나 분석, 특히 표 형식의 데이터를 처리하기 위해 pandas를 사용하기 원할 것이다. 또한 pandas는 Numpy에는 없는 시계열 처리 같은 다양한 도메인 특화 기능을 제공한다. 
# 대용량 배열을 효율적으로 다룰 수 있도록 설계되었다는 점이 Numpy가 파이썬 산술 계산 영역에서 중요한 위치를 차지하는 이유 중 하나이다. 
# Numpy 배열은 내부적으로 데이터를 다른 내장 파이썬 객체와 구분된 연속된 메모리 블록에 저장한다. Numpy의 각종 알고리즘은 모두 C로 작성되어 타입 검사나 다른 오버헤드 없이 메모리를 직접 조작할 수 있다. 
# Numpy 연산은 파이썬 반복문을 사용하지 않고 전체 배열에 대한 복잡한 계산을 수행할 수 있다. 

In [3]:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

In [4]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: total: 46.9 ms
Wall time: 26.9 ms


In [5]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: total: 812 ms
Wall time: 823 ms


In [7]:
import numpy as np
# 임의의 값을 생성
data = np.random.randn(2, 3)
data

array([[ 0.20363465, -0.11624657, -0.16583529],
       [-0.21946347, -0.27621464,  0.07413789]])

In [9]:
# Numpy의 핵심 기능 중 하나는 ndarray라고 하는 N차원의 배열 객체인데 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조이다. 
# 배열은 스칼라 원소간의 연산에 사용하는 문법과 비슷한 방식을 사용해서 전체 데이터 블록에 수학적인 연산을 수행할 수 있도록 해준다. 
# 파이썬 내장 객체의 스칼라값을 다루는 것과 유사한 방법으로 배치 계산을 처리하는 방법을 알아보기 위해 우선 NumPy 패키지를 임포트하고 임의의 값이 들어 있는 작은 배열을 만들어보겠다. 

In [10]:
import numpy as np

In [11]:
data = np.random.randn(2, 3)
data

array([[-0.00855588, -0.25849671, -0.51756204],
       [ 0.56093447,  0.4279925 , -1.11647541]])

In [16]:
data * 10

array([[ -0.0855588 ,  -2.5849671 ,  -5.17562036],
       [  5.6093447 ,   4.27992504, -11.16475414]])

In [17]:
data + data

array([[-0.01711176, -0.51699342, -1.03512407],
       [ 1.12186894,  0.85598501, -2.23295083]])

In [18]:
# ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배열이다.
# nddarray의 모든 원소는 같은 자료형이어야 한다. 모든 배열은 각 차원의 크기를 알려주는 shape라는 튜플과 배열에 저장된 자료형을 알려주는 dtype이라는 객체를 가지고 있다. 

In [19]:
data.shape

(2, 3)

In [20]:
data.dtype

dtype('float64')

### ndarray 생성하기

In [21]:
# 배열을 생성하기 가장 쉬운 방법은 array 함수를 이용하는 것이다. 순차적인 객체를 넘겨받고, 넘겨받은 데이터가 들어 있는 새로운 Numpy 배열을 생성한다. 

In [22]:
data1 = [6, 7.5, 8, 0, 1]

In [23]:
arr1 = np.array(data1)

In [24]:
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [25]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

In [26]:
arr2 = np.array(data2)

In [27]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [28]:
arr2.ndim

2

In [29]:
arr2.shape

(2, 4)

In [30]:
arr1.dtype

dtype('float64')

In [31]:
arr2.dtype

dtype('int32')

In [32]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [33]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [34]:
np.zeros((2,3,2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [35]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [36]:
# float64(부동소수점)

array : 입력 데이터를 ndarray로 변환하며 dtype을 명시하지 않은 경우 자료형을 추론하여 저장한다. 기본적으로 입력 데이터는 복사된다. 
asarray : 입력 데이터를 ndarray로 변환하지만 입력 데이터가 이미 ndarray일 경우 복사가 일어나지 않는다. 
arange : 내장 range 함수와 유사하지만 리스트 대신 ndarray를 반환한다. 
ones, ones_like : 주어진 dtype과 모양을 가진 배열을 생성하고 내용을 모두 1로 초기화한다. ones_like는 주어진 배열과 동일한 모양과 dtype을 가지는 배열을 새로 생성하여 내용을 모두 1로 초기화한다. 
zeros, zeros_like : ones, ones_like와 동일하지만 내용을 0으로 채운다. 
empty, empty_like : 메모리를 할당하여 새로운 배열을 생성하지만 ones나 zeros처럼 값을 초기화하지 않는다. 
full, full_like : 인자로 받은 dtype과 배열의 모양을 가지는 배열을 생성하고 인자로 받은 값으로 배열을 채운다. 

### ndarray의 dtype

In [38]:
# dtype은 ndarray가 메모리에 있는 특정 데이터를 해석하기 위해 필요한 정보 또는 메타데이터를 담고 있는 툭수한 객체다. 

In [39]:
arr1= np.array([1, 2, 3], dtype=np.float64)

In [40]:
arr2 = np.array([1, 2, 3], dtype=np.int32) 

In [41]:
arr1.dtype

dtype('float64')

In [42]:
arr2.dtype

dtype('int32')

Numpy 의 모든 dtype을 외울 필요 없이, 주로 사용하게 될 자료형의 일반 종류인 부동소수점, 복소수, 정수, 불리언, 문자열, 일반 파이썬 객체만 신경쓰면 된다. 

In [44]:
arr = np.array([1, 2, 3, 4, 5])

In [45]:
arr.dtype

dtype('int32')

In [46]:
float_arr = arr.astype(np.float64)

In [47]:
float_arr.dtype

dtype('float64')

In [48]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])

In [49]:
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [50]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

In [51]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)

In [52]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

### NumPy 배열의 산술 연산

배열의 중요한 특징은 for 문을 작성하지 않고 데이터를 일괄 처리할 수 있다는 것이다. 이를 벡터화라고 하는데, 같은 크기의 배열 간의 산술 연산은 배열의 각 원소 단위로 적용된다. 

In [53]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [54]:
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [55]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [56]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [57]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [58]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [60]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

In [61]:
arr2 

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [62]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

In [64]:
# 크기가 다른 배열 간의 연산은 브로드캐스팅이라고 한다.

### 색인과 슬라이싱 기초

In [68]:
# Numpy 배열 색인에 대해서는 다룰 주제가 많다. 데이터의 부분집합이나 개별 요소를 선택하기 위한 수많은 방법이 존재한다.  

In [69]:
arr = np.arange(10)

In [70]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [71]:
arr[5]

5

In [72]:
arr[5:8]

array([5, 6, 7])

In [74]:
arr[5:8] = 12

In [75]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [77]:
# 위에서 볼 수 있듯이 arr[5:8] = 12 처럼 배열 조각에 스칼라값을 대입하면 12가 선택 영역 전체로 전파(브로드캐스팅)된다. 
# 리스트와의 중요한 차이점은 배열 조각은 원본 배열의 뷰라는 점이다. 즉, 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영된다. 

In [78]:
arr_slice = arr[5:8]

In [79]:
arr_slice

array([12, 12, 12])

In [80]:
arr_slice[1] = 12345

In [81]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [82]:
arr_slice[:] = 64 

In [83]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])