# 넘파이 모듈의 자료형 이해하기 (Chapter 6)

In [1]:
import numpy as np

In [2]:
np.__version__

'1.26.4'

### dtype으로 자료형 객체 생성하기

- dtype 클래스 알아보기
    - 다차원 배열의 자료형을 관리하는 클래스가 dtype 입니다. 이 클래스로 객체를 만들어서 관리합니다. 배열을 생성할 때 자료형 클래스가 dtype 인자에 전달됩니다. 

In [3]:
np.dtype

numpy.dtype

In [5]:
d = np.dtype(np.int32)
d

dtype('int32')

In [6]:
a = np.array([1,2,3,4], dtype=d)
a

array([1, 2, 3, 4])

In [7]:
a.dtype

dtype('int32')

- 자료 클래스 알아보기
    - 넘파이 모듈의 대표적인 정수 클래스는 np.int_ 입니다. 이 클래스는 기본으로 int32입니다. 이 클래스의 상속관계를 mro 메소드로 확인할 수 있습니다

In [8]:
np.int_

numpy.int32

In [9]:
np.int_.mro()

[numpy.int32,
 numpy.signedinteger,
 numpy.integer,
 numpy.number,
 numpy.generic,
 object]

In [10]:
issubclass(np.int32,np.signedinteger)

True

In [11]:
issubclass(np.integer,np.number)

True

In [12]:
issubclass(np.number,np.generic)

True

In [13]:
p_i = int(100)
p_i

100

In [14]:
n_i = np.int32(100)
n_i

100

In [15]:
p_i + n_i

200

- 정수/실수 자료형
    - 정수와 실수, 복소수를 처리하는 자료형들입니다. 

### 날짜 자료형

- 날짜 자료형 1
    - 날짜는 년도(Y), 월(M), 일(D) 등의 기준을 만듭니다. 그 다음에 시간이 있으면 시, 분, 초 등을 넣어서 만들 수 있습니다

In [16]:
np.datetime64

numpy.datetime64

In [17]:
print(np.datetime64)

<class 'numpy.datetime64'>


In [18]:
y = np.datetime64('2018')
y, y.dtype

(numpy.datetime64('2018'), dtype('<M8[Y]'))

In [19]:
ym = np.datetime64('2018-11')
ym, ym.dtype

(numpy.datetime64('2018-11'), dtype('<M8[M]'))

In [20]:
ymd = np.datetime64('2018-11-15')
ymd, ymd.dtype

(numpy.datetime64('2018-11-15'), dtype('<M8[D]'))

- 날짜 자료형 2
    - 리스트에 날짜를 넣고 배열로 변경이 가능합니다. 또한 두 날짜간의 일자를 계산하는 뺄셈연산도 있습니다, 

In [21]:
a = np.array(['2018-11-15', '2018-12-15', '2010-01-15'],
             dtype=np.datetime64)
a

array(['2018-11-15', '2018-12-15', '2010-01-15'], dtype='datetime64[D]')

In [22]:
delta = np.datetime64('2018-11-15') - np.datetime64('2016-11-15')
delta, delta.dtype

(numpy.timedelta64(730,'D'), dtype('<m8[D]'))

In [23]:
print(delta)

730 days


### 문자 자료형

- 문자 자료형
    - 문자열도 하나의 자료형이 자료형입니다. 파이썬에는 두 종류의 문자열이 유니코드와 바이트가 있습니다

In [24]:
np.str_, np.unicode_

(numpy.str_, numpy.str_)

In [26]:
# np.str, np.unicode

In [29]:
np.str_ is str, np.unicode_ is str

(False, False)

In [30]:
np.str_ is bytes, np.unicode_ is bytes

(False, False)

- 문자 자료형 : 바이트 문자열
    - 다차원 배열의 원소가 문자열일 경우 dtype=‘S’로 처리하면 문자열 앞에 b가 붙어서 바이트 문자열로 처리됩니다. 

In [31]:
s = np.array([['a','b'],['c','d']], dtype='S')
s

array([[b'a', b'b'],
       [b'c', b'd']], dtype='|S1')

In [32]:
s[0,0]

b'a'

- 문자 자료형 : 문자열
    - 다차원 배열의 원소가 문자열일 경우 dtype=‘U’, np_str_ 등으로 처리하면 일반적인 문자열로 처리됩니다. 

In [34]:
u1 = np.array([['a','b'],['c','d']])
u1

array([['a', 'b'],
       ['c', 'd']], dtype='<U1')

In [35]:
u2 = np.array([['a','b'],['c','d']], dtype='U')
u2

array([['a', 'b'],
       ['c', 'd']], dtype='<U1')

In [36]:
ss = np.dtype(np.str_)

In [37]:
b = np.array([['a','b'],['c','d']], dtype=ss)
b

array([['a', 'b'],
       ['c', 'd']], dtype='<U1')

In [38]:
print(b.dtype)

<U1


- 문자 자료형 처리
    - 다차원 배열의 자료형은 파이썬 문자열을 처리하는 자료형은 object입니다.
    - 다차원 배열을 만들 때 문자의 길이에 따라 문자열을 수정할 수 있습니다. 

In [39]:
a = np.array(['abc', '12345'], dtype=object)
a

array(['abc', '12345'], dtype=object)

In [40]:
type(a[0])

str

In [41]:
b = np.array([b'abc',b'12345'], dtype=object)
b

array([b'abc', b'12345'], dtype=object)

In [42]:
type(b[0])

bytes

In [43]:
d5 = np.array(range(10), dtype='S5').reshape(2,5)
d5

array([[b'0', b'1', b'2', b'3', b'4'],
       [b'5', b'6', b'7', b'8', b'9']], dtype='|S5')

In [44]:
d5[0,0] = 'Hello'
d5

array([[b'Hello', b'1', b'2', b'3', b'4'],
       [b'5', b'6', b'7', b'8', b'9']], dtype='|S5')