# A.5 구조화된 배열과 레코드 배열

In [1]:
# 이제 ndarray가 단일 데이터 저장소라는 사실을 눈치챘을 것이다. 
# 이 말은 각 원소가 dtype에 의해 결정된 같은 크기의 메모리를 차지하고 있다는 뜻이다.
# 표면적으로는 다중 데이터나 표 형식의 데이터를 표현할 수 없는 것처럼 보인다.
# 구조화된 배열은 배열의 각 원소가 C의 구조체 혹은 다양한 이름의 필드를 갖는 SQL 테이블의 한 로우로 표현되는 것으로 생각할 수 있는 ndarray다(그래서 구조화된 배열이라고 한다).

In [3]:
import numpy as np
dtype = [("x", np.float64), ("y", np.int32)]

In [4]:
sarr = np.array([(1.5, 6), (np.pi, -2)], dtype=dtype)

In [5]:
sarr

array([(1.5       ,  6), (3.14159265, -2)],
      dtype=[('x', '<f8'), ('y', '<i4')])

In [6]:
# 구조화된 dtype을 지정하는 방법은 여러가지다(NumPy 문서 참고). 
# 한 가지 일반적인 방법은 튜플(field_name, field_data_type)을 이용하는 것이다.
# 이제 배열의 원소는 사전처럼 접근할 수 있는 튜플 같은 객체다.

In [7]:
sarr[0]

(1.5, 6)

In [8]:
sarr[0]["y"]

6

In [9]:
# 필드 이름은 dtype.names 속성에 저장된다.
# 구조화된 배열의 필드에 접근하면 데이터의 뷰가 반환되며 그러므로 아무것도 복사되지 않는다.

In [10]:
sarr["x"]

array([1.5       , 3.14159265])

# A.5.1 중첩된 dtype과 다차원 필드

In [11]:
# 구조화된 dtype을 지정할 때 추가적으로 그 모양(정수나 튜플로)을 전달할 수 있다.

In [12]:
dtype = [("x", np.int64, 3), ("y", np.int32)]

In [13]:
arr = np.zeros(4, dtype=dtype)

In [14]:
arr

array([([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0)],
      dtype=[('x', '<i8', (3,)), ('y', '<i4')])

In [15]:
# 이 경우 x 필드는 각 원소에 대해 길이가 3인 배열을 참조하게 된다.

In [16]:
arr[0]["x"]

array([0, 0, 0], dtype=int64)

In [17]:
# 편리하게도 arr["x"]로 접근하면 이전 예제에서처럼 1차원 배열 대신 2차원 배열이 반환된다.

In [18]:
arr["x"]

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]], dtype=int64)

In [19]:
# 이를 통해 좀 더 복잡한 중첩 구조를 하나의 배열 안에서 단일 메모리로 표현할 수 있게 된다.
# dtype을 무한히 복잡하게 만들 수 있는데 중첩된 dtype도 가능하다. 예제를 살펴보자.

In [20]:
dtype = [("x", [("a", "f8"), ("b", "f4")]), ("y", np.int32)]

In [21]:
data = np.array([((1, 2), 5), ((3, 4), 6)], dtype=dtype)

In [22]:
data["x"]

array([(1., 2.), (3., 4.)], dtype=[('a', '<f8'), ('b', '<f4')])

In [23]:
data["y"]

array([5, 6])

In [24]:
data["x"]["a"]

array([1., 3.])

In [25]:
# pandas DataFrame의 계층적 색인은 이와 유사하긴 하지만 이런 기능을 직접 지원하지는 않는다.