In [None]:
# Chapter 4 Numpy 기본: 배열과 벡터 연산

In [None]:
# NumPy는 Numerical Python의 줄임말로, 파이썬에서 산술 계산을 위한 가장 중요한 필수 패키지 중 하나다. 

In [None]:
# 과학 계산을 위한 대부분의 패키지는 NumPy의 배열 객체를 데이터 교환을 위한 공통 언어처럼 사용한다.

In [None]:
# NumPy에서 제공하는 것들은 다음과 같다.
# 효율적인 다차원 배열인 ndarray는 빠른 배열 계산과 유연한 브로드캐스팅 기능을 제공한다.
# 반복문을 작성할 필요 없이 전체 데이터 배열을 빠르게 계산할 수 있는 표준 수학 함수
# 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 적재된 파일을 다루는 도구
# 선형대수, 난수 생성기, 푸리에 변환 기능
# C, C++, 포트란으로 작성한 코드를 연결할 수 있는 C API

In [None]:
# NumPy 자체는 모델링이나 과학 계산을 위한 기능을 제공하지 않으므로 먼저 NumPy 배열과 배열 기반 연산에 대한 이해를 한 다음 pandas 같은 배열 기반 도구를 사용하면 훨씬 더 효율적이다. 

In [None]:
# NumPy는 일반적인 산술 데이터 처리를 위한 기반 라이브러리를 제공하기 때문에 많은 독자가 통계나 분석, 특히 표 형식의 데이터를 처리하기 위해 pandas를 사용하기 원할 것이다. 
# 또한 pandas는 NumPy에는 없는 시계열 처리 같은 다양한 도메인 특화 기능을 제공한다.

In [None]:
# NumPy가 파이썬 산술 계산 영역에서 중요한 위치를 차지하는 이유 중 하나는 대용량 데이터 배열을 효율적으로 다룰 수 있도록 설계되었다는 점이다. 

In [None]:
# 성능 차이를 확인하기 위해 백만 개의 정수를 저장하는 NumPy 배열과 파이썬 리스트를 비교해보자.

In [6]:
import numpy as np

In [7]:
my_arr = np.arange(1000000)

In [8]:
my_list = list(range(1000000))

In [9]:
# 이제 각각의 배열과 리스트 원소에 2를 곱해보자

In [10]:
%time for _ in range(10): my_arr2 = my_arr * 2

CPU times: user 18.3 ms, sys: 5.81 ms, total: 24.1 ms
Wall time: 28.6 ms


In [11]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 759 ms, sys: 167 ms, total: 925 ms
Wall time: 935 ms


In [12]:
# NumPy를 사용한 코드가 순수 파이썬으로 작성한 코드보다 열 배에서 백 배 이상 빠르고 메모리도 더 적게 사용하는 것을 확인할 수 있다.

In [13]:
# 4.1 NumPy ndarray: 다차원 배열 객체

In [14]:
# NumPy의 핵심 기능 중 하나는 ndarray라고 하는 N차원의 배열 객체인데 파이썬에서 사용할 수 있는 대규모 데이터 집합을 담을 수 있는 빠르고 유연한 자료구조다.
# 배열은 스칼라 원소 간의 연산에 사용하는 문법과 비슷한 방식을 사용해서 전체 데이터 블록에 수학적인 연산을 수행할 수 있도록 해준다. 

In [15]:
# 파이썬 내장 객체의 스칼라 값을 다루는 것과 유사한 방법으로 에서 배치 계산을 처리하는 방법을 알아보기 위해 우선 NumPy 패키지를 임포트하고 임의의 값이 들어 있는 작은 배열을 만들어보겠다.

In [16]:
import numpy as np

In [17]:
data = np.random.randn(2, 3)

In [18]:
data

array([[ 0.24180577,  1.46987764,  1.50816055],
       [-0.61241223,  1.4468216 ,  1.85540297]])

In [19]:
# 그리고 그 값에 산술 연산을 해보자. 

In [20]:
data * 10

array([[ 2.41805766, 14.69877638, 15.08160549],
       [-6.12412233, 14.46821598, 18.55402968]])

In [21]:
data + data

array([[ 0.48361153,  2.93975528,  3.0163211 ],
       [-1.22482447,  2.8936432 ,  3.71080594]])

In [22]:
# 첫 번째 예제는 모든 원소의 값에 10을 곱했다. 두 번째 예제는 data 배열에서 같은 위치의 값끼리 서로 더했다.

In [23]:
# ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차원 배옇이다.
# ndarray의 모든 원소는 같은 자료형이어야 한다. 
# 모든 배열은 각 차원의 크기를 알려주는 shape라는 튜플과 배열에 저장된 자료형을 알려주는 dtype이라는 객체를 가지고 있다.

In [24]:
data.shape

(2, 3)

In [25]:
data.dtype

dtype('float64')

In [26]:
# 4.1.1 ndarray 생성하기

In [27]:
# 배열을 생성하는 가장 쉬운 방법은 array 함수를 이용하는 것이다. 순차적인 객체(다른 배열도 포함하여)를 넘겨받고, 넘겨받은 데이터가 들어 있는 새로운 NumPy 배열을 생성한다. 

In [28]:
# 예를 들어 파이썬의 리스트는 변환하기 좋은 예다.

In [29]:
data1 = [6, 7.5, 8, 0, 1]

In [30]:
arr1 = np.array(data1)

In [31]:
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [32]:
# 같은 길이를 가지는 리스트를 내포하고 있는 순차 데이터는 다차원 배열로 변환 가능하다.

In [33]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

In [34]:
arr2 = np.array(data2)

In [35]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [37]:
# data2는 리스트를 담고 있는 리스트이므로 NumPy 배열인 arr2는 해당 데이터로부터 형태를 추론하여 2차원 형태로 생성된다. ndim과 shape 속성을 검사해서 이를 확인할 수 있다.

In [38]:
arr2.ndim

2

In [39]:
arr2.shape

(2, 4)

In [40]:
# 명시적으로 지정하지 않는 한 np.array는 생성될 때 적절한 자료형을 추론한다. 그렇게 추론된 자료형은 dtype 객체에 저장되는데 앞서 살펴본 예제에서 확인해보면 다음과 같다.

In [43]:
arr1.dtype  

dtype('float64')

In [45]:
arr2.dtype

dtype('int64')

In [46]:
# 또한 np.array는 새로운 배열을 생성하기 위한 여러 함수를 가지고 있는데, 예를 들어 zeros와 ones는 주어진 길이나 모양에 각각 0과 1이 들어있는 배열을 생성한다. 

In [47]:
# empty 함수는 초기화되지 않은 배열을 생성한다. 이런 메서드를 사용해서 다차원 배열을 생성하려면 원하는 형태의 튜플을 넘기면 된다.

In [48]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [49]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [50]:
np.zeros((2, 3, 2))

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [51]:
# np.empty는 0으로 초기화된 배열을 반환하지 않는다. 앞서 살펴본 바와 같이 대부분의 경우 np.empty는 초기화되지 않은 "가비지"값으로 채워진 배열을 반환한다.

In [52]:
# arange는 파이썬의 range 함수의 배열 버전이다.

In [53]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [54]:
# 표 4-1은 표준 배열 생성 함수의 목록이다. NumPy는 산술 연산에 초점이 맞춰져 있기 때문에 만약 자료형을 명시하지 않으면 float64(부동소수점)가 될 것이다. 페이지 139쪽

In [55]:
# 4.1.2 ndarray의 dtype

In [56]:
# dtype은 ndarray가 메모리에 있는 특정 데이터를 해석하기 위해 필요한 정보(또는 메타데이터)를 담고 있는 특수한 객체다. 

In [57]:
arr1 = np.array([1, 2, 3], dtype=np.float64)

In [58]:
arr2 = np.array([1, 2, 3], dtype=np.int32)

In [59]:
arr1.dtype

dtype('float64')

In [60]:
arr2.dtype

dtype('int32')