## Numpy의 자료형

넘파이의 배열 즉, `ndarray` 클래스는 원소가 모두 같은 자료형이어야 합니다.

`array` 명령으로 배열을 만들 때 자료형을 명시적으로 적용하려면 `dtype` 파라미터를 사용합니다.

만약 `dtype` 파라미터가 없으면 주어진 데이터를 저장할 수 있는 자료형을 스스로 유추합니다.

만들어진 배열의 자료형을 알아내려면 `dtype` 속성을 보면 됩니다.

In [157]:
import numpy as np

x = np.array([1,2,3])
x.dtype

dtype('int32')

In [158]:
x = np.array([1.0,2.0,3.0])
x.dtype

dtype('float64')

In [159]:
x = np.array([1,2,3.0])
x.dtype

dtype('float64')

`dtype` 파라미터로 지정할 자료형은 아래 표에 보인것과 같은 `dtype 접두사`로 시작하는 문자열이고,

이 글자 뒤에 오는 숫자는 바이트 수 혹은 글자 수를 의미합니다.

예를 들어 `f8`은 8바이트(64비트) 부동소수점 실수를 뜻하고, `U4`는 4글자 유니코드 뮨자열을 뜻합니다.

숫자를 생략하면 OS에 따라 알맞은 크리를 지정합니다.

<br>

| **dtype 접두사** | **설명** | **사용 예시**   |
|---------------|--------|-------------|
| b             | 불리언    | b (참 혹은 거짓) |
|i|정수|i8(64비트)|
|u|부호 없는 정수|u8(64비트)|
|f|부동소수점|f8(64비트)|
|c|복소 부동소수점|c16(128비트)|
|O|객체|0(객체에 대한 포인터)|
|S|바이트 문자열|S24(24글자)|
|U|유니코드 문자열|U24(24 유니코드 글자)|

In [160]:
x = np.array([1,2,3], dtype='f')
x.dtype

dtype('float32')

In [161]:
x[0] + x[1]

3.0

In [162]:
x = np.array([1,2,3], dtype='U')
x.dtype

dtype('<U1')

In [163]:
x[0] + x[1]

'12'

## Inf와 NaN

넘파이에서는 무한대를 표현하기 위한 `np.inf(infinity)`와 정의할 수 없는 숫자를 나타내는 `np.nan(not a number)`을 사용할 수 있습니다.

다음 예와 같이 1을 0으로 나누려고 하거나, 0에 대한 로그값을 계산하면 무한대인 `np.inf`가 나오며,

0을 0으로 나누려고 시도하면 `np.nan`이 나옵니다.

In [164]:
np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])
  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])


array([  0.,  inf, -inf,  nan])

In [165]:
np.log(0)

  np.log(0)


-inf

In [166]:
np.exp(-np.inf)

0.0

## 배열 생성

Numpy는 몇가지 단순한 배열을 생성하는 명령을 제공합니다.

- zeros, ones
- zeros_like, ones_like
- empty
- arange
- linspace, logspace

크기가 정해져 있고 모든 값이 0인 배열을 생성하려면 zeros 명령을 사용하고, 파라미터로 배열의 크기를 넣어주면 됩니다.

In [167]:
a = np.zeros(5)
a

array([0., 0., 0., 0., 0.])

크기를 뜻하는 튜플을 입력하면 다차원 배열도 만들 수 있습니다.

In [168]:
b = np.zeros((2,3))
b

array([[0., 0., 0.],
       [0., 0., 0.]])

`array` 명령과 마찬가지로 `dtype` 파라미터를 명시하면 해당 자료형 원소를 가진 배열을 생성합니다.

In [169]:
c = np.zeros((5, 2), dtype="i")
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

문자열 배열도 가능하지만 모든 원소의 문자열 크기가 같아야 합니다.

만약 더 큰 크기의 문자열을 할당하면 문자열이 잘릴 수 있습니다.

In [170]:
d = np.zeros(5, dtype="U4")
d

array(['', '', '', '', ''], dtype='<U4')

In [171]:
d[0] = "abc"
d[1] = "abcd"
d[2] = "ABCDE"
d

array(['abc', 'abcd', 'ABCD', '', ''], dtype='<U4')

0이 아닌 1로 초기화된 배열을 생성하려면 zeros 대신 one를 사용합니다.

In [172]:
e = np.ones((2, 3, 4), dtype="i8")
e

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int64)

만약 크기를 튜플로 명시하지 않고 다른 배열과 같은 크기의 배열을 생성하고 싶다면 ones_list, zeros_like를 사용합니다.

In [173]:
# 정수 배열을 f 배열로 똑같이 복사
f = np.ones_like(b, dtype="f")
f

array([[1., 1., 1.],
       [1., 1., 1.]], dtype=float32)

배열의 크기가 커지면 배열을 초기화 하는데도 시간이 걸립니다.

이 시간을 단축하려면 배열을 생성만 하고 특정 값으로 초기화를 하지않는 `empty`를 사용하면 됩니다.

`empty`로 생성된 배열에는 기존에 메모리에 저장되어 있던 값이 있으므로 배열 원소의 값을 미리 알 수 있습니다.

In [174]:
g = np.empty((4, 3))
g

array([[1.33233796e-311, 2.86558075e-322, 0.00000000e+000],
       [0.00000000e+000, 2.12199579e-314, 2.46567317e+179],
       [6.81638214e-091, 4.91127527e-062, 2.32498096e-057],
       [4.85634396e-033, 6.48224660e+170, 5.82471487e+257]])

`arange`명령은 numpy 버전의 range 명령이라고 볼 수 있습니다. 특정 규칙에 따라 증가하는 수열을 만듭니다.

In [175]:
# 0 .. n-1
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [176]:
# 시작, 끝(포함하지 않음), 단계
# 3부터 2씩 증가하고 21은 포함하지 않음
np.arange(3, 21, 2)

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

`linspace`와 `logspace` 명령은 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할합니다.

- linspace : 지정된 범위 내에서 **동일한 간격**을 가진 숫자 생성
- logspace :  로그 스케일을 사용해 지정된 범위 내에서 동일한 간격을 가진 숫자 생성

In [177]:
# 시작, 끝(포함), 개수
# 0부터 100까지 동일한 간격(25)으로 숫자 생성
np.linspace(0, 100, 5)

array([  0.,  25.,  50.,  75., 100.])

In [178]:
# 10^0.1 에서 10^1 까지의 숫자를 로그 스케일로 10개 생성
np.logspace(0.1, 1, 10)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])