# 넘파이 모듈의 다차원 배열

> 아래 내용은 다차원 배열이 어떻게 만들어지고 내부를 어떻게 구성하는지의 내용으로  
> 이해하지 않아도 사용하는데는 문제 될 것이 없다.

* 넘파이 모듈은 같은 클래스의 객체를 다차원적으로 표현하는 데이터 구조이다.
* 이로 인해 선형대수 등을 처리한다.
* 이 모듈에서 다차원 배열을 객체로 만드는 클래스는 ndarray이다.
* 또한 순환문 없이 원소를 계산하는 벡터화를 지원하는 유니버설 함수도 지원한다.

# 넘파이 모듈 import

In [1]:
import numpy as np

In [2]:
np.__version__

'1.21.5'

## 다차원 배열 생성

In [3]:
a = np.array([1, 2, 3, 4])

In [4]:
a

array([1, 2, 3, 4])

In [5]:
print(a)  # list와 구별되게 쉼표가 없음

[1 2 3 4]


In [6]:
type(a)

numpy.ndarray

In [7]:
import collections.abc as abc # 추상 클래스와의 관계를 알아보기 위해

In [8]:
issubclass(type(a), abc.MutableSequence)  # False = np.array는 변경이 가능한 MutableSequence 클래스를 상속하지 않는다.
# 추상 클래스의 모든 것을 구현하지 않아서 상속관계가 성립하지 않는다.

False

In [9]:
abc.MutableSequence.__abstractmethods__ # 반드시 구현해야 할 메소드

frozenset({'__delitem__', '__getitem__', '__len__', '__setitem__', 'insert'})

In [10]:
dir(np.ndarray).count('insert') # np.array 객체에서 insert attributes(속성)이 있는지 확인

0

In [11]:
dir(np.ndarray) # np.array 객체가 제공하는 attributes(속성) 확인

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_function__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__

## 다차원 배열의 구성

* 다차원 배열의 객체를 생성하는 ndarray 클래스는 데이터와 메타 정보를 분리해서 관리한다.
| 배열의 메타 정보 | 데이터 |
| :-------------: | :----: |
| dtype  | |
| ndim   | |
| shape  | |
| stides | |
| data   | 데이터1 데이터2 ... |

## 다차원 배열의 자료형 확인

In [12]:
a.dtype # 다차원 배열의 모든 원소는 하나의 자료형으로 구성

dtype('int32')

## 다차원 배열의 메타 정보 확인

In [13]:
a.ndim, a.shape, a.itemsize 
# ndim(차원): 다차원 배열의 축이 몇 개인지 확인하는 dimension(차원)
# shape(형상): 차원별로 몇 개의 원소로 구성되었는지 관리하는 형상
# itemsize : 원소 한개의 바이트 크기

(1, (4,), 4)

In [14]:
# 배열은 확장이나 특정 행이나 열을 검색할 때 사용하는 길이(strides:걸음걸이)정보도 제공한다.
a.strides  # 총 사이즈

(4,)

## 다차원 배열의 데이터 정보 확인

In [15]:
a.data  # 다차원 배열을 만들면 데이터는 메모리에 로딩된다. 메모리를 관리하는 속성이 data 이다.

<memory at 0x00000235F5305040>

In [16]:
a.data.obj  # 저장된 값 확인

array([1, 2, 3, 4])

In [17]:
a

array([1, 2, 3, 4])

## 다차원 배열을 리스트로 변환

In [18]:
a.tolist()

[1, 2, 3, 4]

In [19]:
print(a.tolist()) # list

[1, 2, 3, 4]


In [20]:
print(a)  # numpy.ndarray

[1 2 3 4]


In [21]:
type(a.tolist())

list

In [22]:
type(a)

numpy.ndarray

## 다차원 배열 자료형 처리

* 다차원 배열은 메모리에 데이터를 넣어서 처리한다.
* 파이썬 보다 더 다양한 자료형을 지원한다.

## 클래스 dtype 알아보기

In [23]:
# 다차원 배열의 자료형은 dtype 클래스의 객체로 만들어진다.
d = np.dtype(np.int32)  # dtype 클래스에 자료형(np.int32 클래스)을 인자로 전달해서 객체 생성

In [24]:
d

dtype('int32')

In [25]:
type(d) # 객체의 타입 확인

numpy.dtype[int32]

## 자료형 내의 속성 확인

In [26]:
d.char, d.kind, d.itemsize
# char, kind: 문자 속성
# itemsize:바이트 크기(4byte=32bit)

('l', 'i', 4)

## 문자열을 전달받아 자료형 객체 생성

* 자료형 클래스로 객체를 생성할 때 문자열을 인자로 전달할 수도 있다.
* 문자열은 정수를 나타내는 소문자 i이고, 원소의 길이를 나타내는 4로 구성된다.
* 맨 앞의 부등호 표시는 [byteorder](https://en.wikipedia.org/wiki/Endianness)로 실제 바이트 단위로 저장될 때 들어가는 순서를 알려준다.
* 저장되는 방식은 byteorder 속성으로 확인 할 수 있다.

In [27]:
dt = np.dtype('<i4') # 자료형('<i4'), <는 byteorder, i는 정수, 4는 4byte를 의미

In [28]:
dt.byteorder

'='

## 자료형 생성과 데이터 저장 순서

In [29]:
a.tobytes()  # 배열을 바이트로 변환해 보면 4바이트 단위로 정수 저장
# 가장 왼쪽부터 숫자가 들어가 있음
# b'\x01\x00\x00\x00\x02\x00\x00\x00\x03\x00\x00\x00\x04\x00\x00\x00'
#     ^               ^               ^                ^

b'\x01\x00\x00\x00\x02\x00\x00\x00\x03\x00\x00\x00\x04\x00\x00\x00'

In [30]:
dt1 = np.dtype('>i4')  # 숫자가 들어가는 순서를 확인하기 위해 부등호 기호를 반대로 지정해서 자료형 생성

In [31]:
dt1.byteorder

'>'

## 다차원 배열의 복사

* 다차원 배열의 객체를 만들면 메모리에 로딩해서 처리한다.
* a = np.array([1, 2, 3])
* b = np.asarray(a) # 같다.
* c = a.copy() # 다르다.
* d = np.array(a) # 다fm다.

In [32]:
c = np.array([1, 2, 3])

In [33]:
# np.asarray: 인자로 들어온 값을 이용해 새로운 다차원 배열을 만든다.
# 다만, 다차원 배열의 객체가 인자로 들어오면 들어온 인자와 동일하다.
d = np.asarray(c) 

In [34]:
# 두개의 배열이 같은지 확인
c is d

True

In [35]:
# [1, 2, 3]이라는 새로운 객체를 이용해서 다차원 배열을 만든다. 위에서 만든 객체와는 다르다.
e = np.asarray([1, 2, 3])

In [36]:
c is e

False

In [37]:
f = c.copy()  # 새로운 다차원 배열 생성

In [38]:
c is f

False

In [39]:
g = np.array(c) # 새로운 다차원 배열 생성

In [40]:
g is c

False