### ndarray의 dtype

- dtype : ndarray가 메모리에 있는 특정 데이터를 해석하기 위해 필요한 정보(또는 메타데이터)를 담고 있는 특수한 객체

In [1]:
arr1 = np.array([1,2,3], dtype = np.float64)

In [2]:
arr1

array([1., 2., 3.])

In [3]:
arr1.dtype

dtype('float64')

In [4]:
arr2 = np.array([1,2,3], dtype = np.int32)

In [5]:
arr2

array([1, 2, 3], dtype=int32)

In [6]:
arr2.dtype

dtype('int32')

- Numpy 자료형

|자료형|자료형코드|설명|
|:--|:--|:--|
|int8, uint8|i1, u1|부호가 있는 8비트(1바이트) 정수형과 부호가 없는 8비트 정수형|
|int16, uint16|i2, u2|부호가 있는 16비트 정수형과 부호가 없는 16비트 정수형|
|int32, uint32|i4, u4|부호가 있는 32비트 정수형과 부호가 없는 32비트 정수형|
|int64, uint64|i8, u8|부호가 있는 64비트 정수형과 부호가 없는 64비트 정수형|
|float16|f2|반정밀도 부동소수점|
|float32|f4 또는 f|단정밀도 부동소수점, C언어의 float형과 호환|
|float64|f5 또는 d|배정밀도 부동소수점, C언어의 double형과 파이썬의 float 객체와 호환|
|float128|f16 또는 g|확장정밀도 부동소수점|
|complex64, complex128, complex256|c8, c16,c32|각각 2개의 32, 64, 128비트 부동소수점을 가지는 복소수|
|bool|?|True와 False값ㅇ르 저장하는 불리언형|
|object|0|파이썬 객체형|
|string_|S|고정 길이 아스키 문자열형(각문자는 1바이트), 길이가 10인 문자열 dtype은 S10이 됨|
|unicode_|U|고정길이 유니코드형(플랫폼에 따라 문자별 바이트 수가 다름). string_형과 같은 형식을 사용(예:U10)|

#### casting

- `astype` : 배열의 dtype을 다른 형으로 명시적 변환, 새로운 dtype이 이전 dtype과 동일해도 항상 새로운 배열을 생성(데이터를 복사)

In [7]:
arr = np.array([1,2,3,4,5])

arr.dtype

dtype('int64')

In [8]:
float_arr = arr.astype(np.float64)

float_arr.dtype

dtype('float64')

- 부동소수점을 정수형 dtype으로 변환하면 소수점 아래 버림

In [9]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [11]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10], dtype=int32)

- 숫자 형식의 문자열 배열은 `astype`으로 숫자 변환 가능
- Numpy의 문자열 데이터는 고정크기 가지며 별다른 경고 없이 입력을 임의로 잘라낼 수 있음 주의!

In [14]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
numeric_strings

array([b'1.25', b'-9.6', b'42'], dtype='|S4')

In [15]:
numeric_strings.astype(float)  # np.float64 대신 float라 하였으나 Numpy가 자동으로 알맞은 dtype맞춰줌

array([ 1.25, -9.6 , 42.  ])

- 다른 예 - 다른 배열의 dtype을 astype로 복사

In [16]:
int_array = np.arange(10)

calibers = np.array([.22, .270, .357, .380, .44, .50], dtype = np.float64)

int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

- dtype으로 사용할 수 있는 축약 코드

In [22]:
empty_uint32 = np.empty(8, dtype = 'u4')

empty_uint32

array([ 943274337,  758276961,  808792166, 1664562221,  862072116,
       1663907685,  929249124, 1701131315], dtype=uint32)

참고 자료
> Python for Data Analysis(2019), 한빛미디어