##### 구조화된 데이터: NumPy의 구조화된 배열

In [15]:
import numpy as np
name = ['Alice','Bob','Cathy','Doug']
age = [25,45,37,19]
weight = [55.0,85.5,68.0,61.5]

복합 데이터 타입을 가지는 배열인 구조화된 배열을 통해 이러한 경우를 처리할 수 있다

In [16]:
x = np.zeros(4, dtype=int)

In [17]:
# 빈 컨테이너 배열 4개 생성
# 구조화된 배열을 위해 복합 데이터 타입 사용 (평소에 하던대로 dtype arg를 이용해 설정)
data = np.zeros(4, dtype={'names':('name','age','weight'),
                          'formats':('U10','i4','f8')})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


In [18]:
# 배열에 값 리스트 채우기
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


- 데이터가 하나의 메모리 블록에 함께 정렬되어 있음
- 구조화된 배열의 편리한 점 중 하나는 값을 인덱스나 이름으로 참조할 수 있다는 것
- 부울 마스킹을 이용하면 나이로 필터를 적용하는 것과 같이 좀 더 복잡한 연산도 가능

In [19]:
data[data['age']<30]['name']

array(['Alice', 'Doug'], dtype='<U10')

##### 구조화된 배열 만들기

In [20]:
import numpy as np
np.dtype({'names':('name','age','weight'), # 딕셔너리 방식
          'formats':('U10','i4','f8')})

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [21]:
np.dtype({'names':('name','age','weight'),
          'formats':((np.str_,10),int,np.float32)}) 
# 파이썬이나 넘파이 dtype으로 지정  # 숫자 타입의 경우

dtype([('name', '<U10'), ('age', '<i8'), ('weight', '<f4')])

In [22]:
np.dtype([('name','S10'),('age','i4'),('weight','f8')]) # 튜플 리스트로 지정하는 경우

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

In [23]:
# 타입 이름이 중요하지 않다면 콤마로 구분된 문자열에 타입만 지정할 수도 있음
np.dtype('S10,i4,f8')

dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

##### 고급복합타입

In [24]:
tp = np.dtype([('id','i8'),('mat','f8',(3,3))])
# tp = np.dtype([('id','i8'),('mat','f8',(3,3)),('sam','f4',(2,2))])
X = np.zeros(1,dtype=tp)
X

array([(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])],
      dtype=[('id', '<i8'), ('mat', '<f8', (3, 3))])

In [25]:
print(X[0])

(0, [[0.0, 0.0, 0.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]])


In [26]:
print(X[0]['mat'])

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [27]:
print(X['mat'][0])

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


- 왜 간단한 다차원 배열이나 파이썬 딕셔너리 대신 이것을 사용할까? 그 이유는 NumPy dtype이  C 구조체(structure)정의에 직접 매핑되어 적절하게 작성된 C 프로그램에서 배열 내용을 포함하는 버퍼에 직접 접근할 수 있기 때문이다.
- 구조화된 데이터를 조작하는 C나 포트란 라이브러리에 파이썬 인터페이스를 작성한다면 아마 구조화된 배열이 상당히 유용할 것이다.

##### 레코드 배열: 트위스트를 가진 구조화된 배열

In [28]:
data['age']

array([25, 45, 37, 19], dtype=int32)

In [29]:
data_rec=data.view(np.recarray)
data_rec.age # 레코드 배열로 보면 약간 더 적은 키 입력으로 데이터에 접근 가능

array([25, 45, 37, 19], dtype=int32)

In [30]:
%timeit data['age']
%timeit data_rec['age']
%timeit data_rec.age # 하지만 시간이 더 많이 걸림

160 ns ± 4.38 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
2.43 μs ± 127 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
5.14 μs ± 808 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
