<span style="font-weight: bold; font-size:30px; color:#2196F3">2-2 ndarray</span><br><br>이번 절에서는 넘파이의 핵심 자료구조인 ndarray 객체에 대해 좀 더 자세히 공부해 보겠다. 파이썬에 리스트, 튜플, 딕셔너리와 같은 기본 데이터 타입이 있는 것처럼 넘파이에는 다차원 배열을 위한 ndarray 클래스(타입)을 제공한다. 1차원 리스트를 넘파이의 array 함수에 전달하면 쉽게 ndarray 객체로 변환할 수 있다. 범용적인 용도로 사용되는 파이썬 리스트 타입을 행렬과 다차원 배열에 최적화된 ndarray 타입으로 변환하는 것이다.

In [2]:
import numpy as np

data1 = [1, 2, 3, 4]

arr1 = np.array(data1)
print(arr1)
print(type(arr1))

[1 2 3 4]
<class 'numpy.ndarray'>


ndarray 객체는 리스트와 달리 데이터와 데이터 사이에 콤마 구분 기호 없이 출력된다. type을 출력한 결과를 참고하면 arr1은 ndarray 객체를 가리키고 있는 것을 알 수 있다.

2차원 리스트 또한 array함수에 전달하면 ndarray 객체로 변환된다.

In [3]:
data2 = [
    [1, 2],
    [3, 4]
]

arr2 = np.array(data2)
print(arr2)
print(type(arr2))

[[1 2]
 [3 4]]
<class 'numpy.ndarray'>


이차원 ndarray가 바인딩 된 arr2를 살펴보면, 행과 열이 모두 콤마 없이 표현됐다. 이차원 데이터는 ndarray 안에 다시 ndarray가 들어 있다. arr2[0]은 첫 번째 행을 가리키며, 저장된 [1 2]는 콤마 없이 표현된 것으로 미루어 ndarray임을 알 수 있다.

ndarray 객체의 인스턴스 변수를 사용해서 저장된 데이터의 정보를 조회할 수 있다. shape은 ndarray의 크기 정보를, ndim은 차원 정보, dtype은 데이터 타입을 표현한다.

In [11]:
print(arr2.shape)
print(arr2.ndim)
print(arr2.dtype)

(2, 2)
2
int64


shape에 저장된 튜플은 0번 인덱스에 로우의 길이, 1번 인덱스에 컬럼(column)의 길이 정보가 들어 있다. (2, 2)는 2행 2열로 데이터가 저장돼 있다는 뜻이 되겠다. ndim은 데이터의 차원을 의미한다. arr2는 가로축과 세로축이 있는 2차원 데이터이므로 2가 출력됐다. dtype의 int32는 ndarray에 저장된 각각의 데이터가 32비트로 표현할 수 있는 정수(integer)라는 의미이다.

arr1에 저장된 데이터의 shape도 출력해보자.

In [12]:
print(arr1.shape)

(4,)


1차원 데이터라 하나의 값이 들어있을 줄 알았는데 튜플로 값이 저장돼 있다. 튜플에 하나의 값이 들어 있을 때는 1차원 데이터를 뜻하며, 첫 번째 값이 로우의 길이가 아닌 데이터의 길이이다.

In [17]:
print(arr1[:])

4


4행 1열로 저장된 2차원 데이터의 shape은 어떻게 출력되는지 확인해보자.

In [18]:
data = [
    [1],
    [2],
    [3],
    [4]
]
c = np.array(data)
print(c.shape)

(4, 1)


shape은 로우의 길이와 컬럼의 길이가 저장된 튜플을 바인딩하고 있다. 이제는 shape만 보고 데이터의 형태를 구분할 수 있어야 한다.

넘파이는 특정 값으로 구성된 ndarray 객체를 생성하는 몇 가지 함수를 제공한다. 대표적으로 zeros와 ones 함수가 있다. zeros 함수는 이름에서도 알 수 있듯이 0으로 채워진 ndarray를 리턴하고, ones 함수는 1로 채워진 ndarray를 리턴한다.

In [22]:
print(np.zeros(3))
print(np.ones(3))

[0. 0. 0.]
[1. 1. 1.]


zeros와 ones 함수는 기본적으로 float 타입으로 데이터를 저장한다. 아래 출력된 결과에서 소수점(dot)은 저장된 데이터가 float 타입임을 알려준다. dtype 속성을 사용해서 데이터의 타입을 확인할 수 있다.

zeros와 ones 함수의 인자로 튜플을 전달하면 0 또는 1로 구성된 다차원 배열을 생성할 수 있다. 튜플의 첫 번째로는 로우의길이, 두 번째는 컬럼의 길이이다. 넘파이에서는 대부분의 경우 로우, 컬럼 순서로 값을 입력하니 기억해두면 좋다.다음 코드는 3행 4열 형태의 0으로 채워진 ndarray를 생성한다.

In [24]:
size = (3, 4)
print(np.zeros(size))

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [26]:
print(np.zeros((3, 4)))

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


코드가 간단하니 한 줄로 표현할 수 있다. 함수를 호출하는 괄호와 튜플을 정의하는 괄호가 중첩되어 있어 낯설기는 하다.

넘파이의 arrange 함수는 최대 세 개의 파라미터를 입력할 수 있으며, 지정된 범위의 규칙적인 숫자를 갖는 ndarray 객체를 반환한다. 하나의 파라미터를 입력하면 0부터 순차적으로 증가하는 숫자를 생성하며, 두 개를 사용하면 시작과 끝 범위를 표현해서 범위 내의 순차 증가하는 숫자를 만들 수 있다. 세 번째 파라미터는 증감폭을 의미한다. 파이썬 기본 문법의 range 함수와 비슷하지만 arrange 함수는 실수 범위도 생성할 수 있다.

In [30]:
print(np.arange(5))
print(np.arange(1, 5))
print(np.arange(1, 5, 2))

[0 1 2 3 4]
[1 2 3 4]
[1 3]


라인1: 0부터 4까지의 데이터가 포함된 ndarray를 생성한다.
라인2: 1부터 4까지의 데이터가 포함된 ndarray를 생성한다.
라인3: 1부터 4까지 2씩 증가하는 데이터를 ndarray를 생성한다.

넘파이는 배열의 형상(shape)을 변경할 수 있는 reshape 함수를 제공한다. 다음 예제와 같이 6개의 원소로 구성된 1차원 배열 ndarr1을 2행 3열의 ndarray로 변환한다.

In [33]:
ndarr1 = np.arange(6)
ndarr2 = ndarr1.reshape(2, 3)
print(ndarr2)

[[0 1 2]
 [3 4 5]]


ndarr2를 출력해보면 2차원 배열로 변경된 것을 확인할 수 있다. <br>
참고로 reshape 메서드의 행과 열의 개수는 원본 데이터를 고려해서 입력해야 한다. 6개의 데이터가 담긴 ndarr1을 reshape(4, 4)로 변환을 시도하면 데이터가 부족해서 에러가 발생한다.

<span style="font-weight: bold; font-size:20px; color:Gray">출처 : 금융 데이터 분석을 위한 파이썬 판다스</span>