* NumPy의 핵심 기능 중 하나는 N차원의 배열 객체 또는 ndarray
* ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 타차원 배열
* ndarray의 모든 원소는 같은 자료형이어야만 한다.
* 모든 배열은 각 차원의 크기를 알려주는 shape라는 튜플과 배열에 저장된 자료형을 알려주는 dtype이라는 객체를 가지고 있다.

In [1]:
import numpy as np

In [2]:
data = np.random.randn(2, 3)
data

array([[ 1.27199532,  0.98558939,  0.83496577],
       [-0.13503857, -0.50201444, -0.13750264]])

In [3]:
data.shape

(2, 3)

In [4]:
data.dtype

dtype('float64')

* 대부분의 데이터 분석 애플리케이션을 작성하기 위해 NumPy에 대해 깊이 있게 이해할 필요는 없으며
* 배열 위주의 프로그래미오가 생각하는 방법에 능숙해지는 것이 좋다.

## ndarray 생성

* 배열을 생성하는 가장 쉬운 방법은 array 함수를 이용하는 것이다.

In [5]:
data1 = [6, 7,5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6, 7, 5, 8, 0, 1])

In [6]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [8]:
arr2.ndim

2

In [9]:
arr2.shape

(2, 4)

In [10]:
arr2.dtype

dtype('int32')

* zeros, ones는 주어진 길이나 모양에 각각 0과 1일 들어있는 배열을 생성한다.

In [11]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [13]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

* empty 함수는 초기화되지 않은 배열을 생성

In [14]:
np.empty((2, 3, 2))

array([[[1.50691231e-312, 0.00000000e+000],
        [8.76794447e+252, 2.15895723e+227],
        [6.48224638e+170, 3.67145870e+228]],

       [[8.98521058e-096, 9.03292329e+271],
        [9.08366793e+223, 1.41075687e+232],
        [1.16070543e-028, 2.98266052e+296]]])

* arange는 파이썬의 range 함수의 배열 버전이다.

In [16]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

## ndarray의 자료형

* dtype은 ndarray가 특정 데이터를 메모리에서 해석하기 위해 필요한 정보를 담고 있는 특수한 객체다.

In [18]:
arr1 = np.arange(5, dtype=np.int32)
arr1

array([0, 1, 2, 3, 4])

In [20]:
arr2 = np.arange(5, dtype=np.float64)
arr2

array([0., 1., 2., 3., 4.])

* ndarray의 astype 메서드를 사용하여 배열의 dtype을 다른 형으로 명시적 변경이 가능하다.

In [22]:
float_arr = arr1.astype(np.float32)
float_arr

array([0., 1., 2., 3., 4.], dtype=float32)

* 부동소수점 숫자를 정수형으로 변환하면 소수점 아랫자리는 버려진다.
* 숫자 형식의 문자열을 담고 있는 배열은 astype을 사용하여 숫자로 변환할 수 있다.
* **astype을 호출하면 새로운 dtype이 이전 dtype과 같아도 항상 새로운 배열(데이터를 복사)을 생성한다.**

## 배열과 스칼라 간의 연산

* 배열은 for문을 사용하지 않고 데이터를 일괄처리할 수 있다.
* 이를 벡터화라고 하는데, 같은 크기의 배열 간 산술연산은 배열의 각 요소 단위로 적용된다.

## 색인과 슬라이싱 기초

* 1차원 배열은 파이썬의 리스트와 유사하게 동작한다.

In [23]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [24]:
arr[5:8]

array([5, 6, 7])

In [25]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

* 슬라이싱 구문에 스칼라 값을 대입하면 선택 영역 전체로 전파된다.(브로드캐스팅이라도 한다.)
* slice는 원본 배열의 view다.
* 즉, 데이터는 복사되지 않고 뷰에 대한 변경은 그대로 원본 배열에 반영된다.
* 뷰 대신 ndarray 슬라이스의 복사본을 얻고 싶다면 arr[5:8].copy()를 사용하여 명시적으로 배열을 복사한다.

In [31]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [32]:
arr2d[2]

array([7, 8, 9])

In [33]:
arr2d[2][1]

8

In [34]:
arr2d[2, 1]

8

In [35]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [36]:
arr[1:6]

array([ 1,  2,  3,  4, 12])

In [37]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [38]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

* 첫 번째 축인 0번 축을 기준으로 슬라이싱 되었다.
* 색인을 여러 개 넘겨서 다차원을 슬라이싱하는 것도 가능하다.

In [40]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

* 정수 색인과 슬라이스를 함께 사용하면 한 차원 낮은 슬라이스를 얻을 수 있다.

In [41]:
arr2d[1, 1:]

array([5, 6])

* 콜론만 쓰면 전체 축을 선택한다는 의미가 된다.

In [42]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

* 슬라이싱 구문에 값을 대입하면 슬라이싱 선택 영역 전체에 값이 할당된다.