<a href="https://colab.research.google.com/github/prgmr99/deep_learning-pytorch-/blob/main/numpy_basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ndarray 개념

Numpy는 과학 컴퓨팅을 위한 기본 패키지.

다차원 배열 객체, 이로부터 유도한 마스크된 배열 및 행렬 등과 같은 객체, 논리, 배열 형태 조작, 정렬, 선택, I/O를 비롯한 배열에 대한 빠른 작업을 위한 다양한 루틴을 제공한다.

이외에도 이산 푸리에 변환, 기본 선형 대수학, 기본 통계 연산, 무작위 시뮬레이션 등등 다양한 기능을 가지고 있다.

In [None]:
# Numpy와 패키지의 핵심은 ndarray 객체이다.
# ndarray는 fixed-size homogeneous multidimensional array 정도로 이해할 수 있다.
# 기본적으로 vectorization 과 broadcasting을 지원


Python에서 제공하는 list, tuple 등의 시퀀스 자료형은 서로 다른 데이터타입을 저장할 수 있고
(heterogeneous sequence), 크기가 자동으로 커질 수 있다.

반면에 ndarray는 성능향상을 위해 같은 데이터타입만을 요소로 가질 수 있고, 크기 역시 고정되어 있다.
만약 크기를 변경하면 새로 메모리에 할당되고 이전 값은 삭제된다.

In [None]:
# ndarray는 list나 tuple 같은 시퀀스 자료형으로부터 생성한다.
import numpy as np
x=np.array((0.1,0.2,0.3))
x

(3,)

In [None]:
x.shape

(3,)

In [None]:
x.dtype

dtype('float64')

In [None]:
y=np.array(((1,2,3),(4,5,6)))
y

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
y.dtype

dtype('int64')

In [None]:
y.shape

(2, 3)

In [None]:
# x는 float64를 요소 타입으로 갖는 크기 3의 1차원 배열
# y는 int32을 요소 타입으로 하는 (2,3) 크기의 2차원 배열
# 요소 타입을 dtype 멤버에서 확인할 수 있으며, 차원 shape에서 확인할 수 있다.
# 1차원 배열의 shape은 (m,) 형태이고, 2차원 배열은 (m,n) 형태이다. 3차원은 (p,q,r)등과 같다.
# 생성시 입력된 값을 통해 dtype을 추정하는데, 강제로 지정하는 것은 다음과 같다.
z=np.array([1,2,3], dtype='float64')

narray의 중요 속성

*   shape: 배열의 형태
*   dtype: 요소의 데이터 타입, int32, float32 등등
*   ndim: 차원수. x.ndim=1, y.ndim=2 등이며 len(x.shape)와 동일
*   size: 요소의 개수. shape의 모든 값의 곲. x.size=3, y.size=6 등
*   itemsize: 요소 데이터 타입의 크기(byte 단위), x.itemsize=8 등
*   data: 실제 데이터, 직접 사용자가 접근할 필요는 없다.







**초기화 관련 편의함수**

zeros()는 모두 0으로 초기화한다.

ones()는 모두 1로 초기화한다.

empty()는 값을 초기화하지 않고(메모리 상태에 따라 다른 값이 들어감) 생성한다.

인자로 생성할 배열의 차원을 list, tuple로 지정한다.

dtype은 디폴트가 float64이고, 변경을 원하면 지정해야한다.

In [None]:
Y=np.zeros((3,3))
Y

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [None]:
Y=np.ones((3,3),dtype='int32')
Z=np.empty((3,3))

In [None]:
# 미리 크기를 지정하지 않고 순차적으로 만들어야 할 경우가 있다.
# 이때는 크기 0인 배열을 생성하고 append()를 수행한다.

import numpy as np
A=np.array([])
for i in range(3):
  A=np.append(A,[1,2,3])
A

array([1., 2., 3., 1., 2., 3., 1., 2., 3.])

In [None]:
A.dtype

dtype('float64')

In [None]:
# shape과 dtype 변경
# ndarray는 고정된 크기를 유지하면서 shape을 변경할 수 있다.
# (9,) -> (3,3)
# reshape() 함수를 이용하여 변경할 수 있다.
x=np.arange(0,9,1.)
x

array([0., 1., 2., 3., 4., 5., 6., 7., 8.])

In [None]:
y=np.reshape(x,(3,3))
y

array([[0., 1., 2.],
       [3., 4., 5.],
       [6., 7., 8.]])

In [None]:
# 만약 자기 자신을 대상으로 변경하면 shape 속성을 강제로 변경하면 된다.
x.shape=(3,3)
x

array([[0., 1., 2.],
       [3., 4., 5.],
       [6., 7., 8.]])

In [None]:
# astype() 메서드를 사용하면 배열에서 dtype을 바꿀 수 있다.
a=np.arange(3);
a.astype(int)

array([0, 1, 2])

In [None]:
a.astype('int64')

array([0, 1, 2])

In [None]:
a.astype('float64')

array([0., 1., 2.])



---

# **인덱싱과 합치기**


In [None]:
# ndarray에서 인덱싱하는 것은 A[2], A[2,3]등과 같은 [] 연산자를 사용
# A[1:3,1:2]등과 같이 :를 이용한 범위 지정을 통해 부분 배열을 얻어낸다.
a=np.array([1.2,-1.3,2.2,5.3,3.7])
a

array([ 1.2, -1.3,  2.2,  5.3,  3.7])

In [None]:
a[0]

1.2

In [None]:
a[0:3]

array([ 1.2, -1.3,  2.2])

In [None]:
a[-1]

3.7

In [None]:
a[-2]

5.3

In [None]:
a[0:-1]

array([ 1.2, -1.3,  2.2,  5.3])

In [None]:
a=np.array([1.2,-1.3,2.2,5.3,3.7])
idx=[0,3]
a[idx]

array([1.2, 5.3])

**불린 배열**

True와 False로 구성된 boolean array 역시 인덱스 배열처럼 사용가능.
아래 코드에서 x>2와 같이 ndarray에 조건식을 부과하면 boolean array가 계산된다.

In [None]:
x=np.array([1.2,-1.3,0.,2.2,0.,5.3,3.7])
x[x>2]

array([2.2, 5.3, 3.7])

In [None]:
x=np.array([1.2,-1.3,0.,2.2,0.,5.3,3.7])
x>2

array([False, False, False,  True, False,  True,  True])

In [None]:
idx=x>2
idx

array([False, False, False,  True, False,  True,  True])

In [None]:
x[idx]

array([2.2, 5.3, 3.7])

In [None]:
# np.nonzero(x)는 배열 x의 원소가 0이 아닌 인덱스를 배열형태로 리턴해주는 함수.
x=np.array([1.2,-1.3,0.,2.2,0.,5.3,3.7])
np.nonzero(x)

(array([0, 1, 3, 5, 6]),)

In [None]:
x=np.array([1.2,-1.3,0.,2.2,0.,5.3,3.7])
np.nonzero(x>2)

(array([3, 5, 6]),)

In [None]:
# 합치기
# concatenate((A,B,...),axis=0), hstack((A,B,...)),vstack((A,B,...))
# 위의 함수를 통해 배열을 합칠 수 있다.
a=np.array([[1,2],[3,4]])
b=np.array([[5,6]])
np.concatenate((a,b),axis=0) # 행으로 추가

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
np.concatenate((a,b.T),axis=1) # 열로 추가

array([[1, 2, 5],
       [3, 4, 6]])

In [None]:
# 2차원 행렬을 대상으로 한다면 hstack나 vstack이 더 편리하다.
a=np.array([1,2,3])
b=np.array([4,5,6])
np.vstack((a,b))

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
np.hstack((a,b))

array([1, 2, 3, 4, 5, 6])

In [None]:
c=np.append(a,b)

In [None]:
c

array([1, 2, 3, 4, 5, 6])

In [None]:
b=np.array([5,6]) # 1차원 배열
b.shape # 위에서 1차원 배열의 형태였으면 에러 발생.

(2,)

In [None]:
b=np.array([[5,6]]) # 2차원 배열
b.shape

(1, 2)