In [1]:
# 데이터를 효율적으로 저장하기 위한 구조화된 배열과 레코드 배열
import numpy as np

# 다소 어설픈 방식
name = ["Alice", "Bob", "Cathy", "Doug"]
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

In [2]:
# 데이터 타입 예
x = np.zeros(4, dtype=int)

In [3]:
# 구조화된 배열을 위해 복합 데이터 타입 사용
# 딕셔너리 스타일
data = np.zeros(4, dtype = {"names": ("name", "age", "weight"),
                            "formats": ("U10", "i4", "f8")})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


In [4]:
# Empty data
data

array([('', 0, 0.), ('', 0, 0.), ('', 0, 0.), ('', 0, 0.)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [5]:
# 리스트 채우기
data["name"] = name
data["age"] = age
data["weight"] = weight

In [6]:
data

array([('Alice', 25, 55. ), ('Bob', 45, 85.5), ('Cathy', 37, 68. ),
       ('Doug', 19, 61.5)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [7]:
# 전체 이름 가져오기
data["name"]

array(['Alice', 'Bob', 'Cathy', 'Doug'], dtype='<U10')

In [8]:
# 데이터 첫 번째 행 가져오기
data[0]

('Alice', 25, 55.)

In [9]:
# 마지막 행의 이름 가져오기
data[-1]["name"]

'Doug'

In [10]:
# 부울 마스킹 -> 나이가 30 이하인 이름 가져오기
# mask = data["age"] < 30
data[data["age"] < 30]["name"]

array(['Alice', 'Doug'], dtype='<U10')

In [11]:
# 숫자 타입 -> Python type OR NumPy dtype
np.dtype({"names": ("name", "age", "weight"),
          "formats": ("U10", "i4", "f8")})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [12]:
# 숫자 타입 -> Python type OR NumPy dtype

np.dtype({"names": ("name", "age", "weight"),
          "formats": ((np.str_, 10), int, np.float32)})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f4')])

In [13]:
# 복합 타입은 튜플의 리스트로 지정가능
np.dtype([("name", "S10"), ("age", "i4"), ("weight", "f8")])

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

In [14]:
# 타입의 이름 중요하지 않다면, 타입만 지정가능
np.dtype("S10,i4,f8")

dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

In [15]:
# 고급 복합 타입 (ex. tp)
# 3x3 부동 소수점 행렬로 구성된 mat
tp = np.dtype([("id", "i8"), ("mat", "f8", (3,3))])

X = np.zeros(1, dtype=tp)
print(X[0])
print()

print(X["mat"][0])


(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [16]:
# 레코드 배열: 트위스트를 가진 구조화된 배열
# np.recarray
print(data["age"])
print()

data_rec = data.view(np.recarray)
data_rec.age

[25 45 37 19]



array([25, 45, 37, 19])

In [17]:
# 레코드 배열 -> 부가적인 오버헤드
%timeit data["age"]
%timeit data_rec["age"]
%timeit data_rec.age

99.8 ns ± 1.86 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)
1.93 µs ± 15.7 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
3.06 µs ± 76 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
