넘파이는 수치계산, 행렬계산할 때 사용하는 유용한 라이브러리
파이썬의 리스트에서 제공하지 않는 여러가지 기능을 제공하고 있고, 그에 맞는 여러가지 함수들도 제공을 함.
numpy.org

# 배열 생성

In [1]:
# numpy 임포트 / 관례적으로 np로 임포트한다.
import numpy as np # 코랩에는 numpy가 이미 내장되어 있음 

In [2]:
# np.zeros 함수는 0으로 채워진 배열을 만듭니다.
np.zeros(5)

array([0., 0., 0., 0., 0.])

2D 배열(즉, 행렬)을 만들려면 원하는 행과 열의 크기를 튜플로 전달합니다.  
예를 들어 다음은 3 X 4 크기의 행렬입니다.

In [3]:
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

## 용어
- 넘파이에서 각 차원을 축(axis) 라고 합니다.
- 축의 개수를 랭크(rank)라고 합니다.
  - 예를 들어, 위의 3 X 4 행렬은 랭크 2인 배열입니다. (즉, 2차원입니다.)
  - 첫 번째 축의 길이는 3이고, 두 번째 축의 길이느 ㄴ4입니다.
- 배열의 축 길이를 배열의 크기(shape)라고 합니다.
  - 예를 들어, 위 행렬의 크기는 (3, 4)입니다.
  - 랭크는 크기의 길이와 같습니다.
- 배열의 사이즈(size)는 전체 원소의 개수입니다. 축의 길이를 모두 곱해서 구할 수 있습니다. (가령, 3 x 4 = 12)

In [4]:
a = np.zeros((3,4))
a

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [5]:
a.shape

(3, 4)

In [6]:
a.ndim # len(a.shape)와 같습니다

2

In [7]:
a.size

12

## N-차원 배열
일반적으로 2D로 다루는데, 딥러닝은 3.. 4.. 5..차원으로 된 데이터를 다루는데...  
임의의 랭크 수를 가진 N-차원 배열을 만들 수 있습니다. 예를 들어, 다음은 크기가 (2,3,4)인 3D 배열(랭크=3)입니다

In [8]:
np.zeros((2,3,4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

## 배열 타입
넘파이 배열의 타입은 ndarray입니다:

In [9]:
type(np.zeros((3,4)))

numpy.ndarray

In [11]:
# ndarray를 만들 수 있는 또 다른 넘파이 함수. 1로 채워진 3 x 4 크기의 행렬
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [13]:
# 주어진 값으로 지정된 크기의 배열을 초기화합니다. 다음은 파이로 채워진 3 x 4 크기의 행렬입니다.
np.full((3,4), np.pi)

array([[3.14159265, 3.14159265, 3.14159265, 3.14159265],
       [3.14159265, 3.14159265, 3.14159265, 3.14159265],
       [3.14159265, 3.14159265, 3.14159265, 3.14159265]])

In [20]:
# np.array : array 함수는 파이썬 리스트를 사용하여 ndarray를 초기화합니다
data = np.array(
    [[1,2,3,4],
    [5,6,7,8]]
)

data

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [21]:
list(data)

[array([1, 2, 3, 4]), array([5, 6, 7, 8])]

In [22]:
# np.arange : 파이썬의 기본 range 함수와 비슷한 arange 함수를 사용하여 ndarray를 만들 수 있습니다.
np.arange(1, 5)

array([1, 2, 3, 4])

In [23]:
# 부동 소수(float)도 가능합니다.
np.arange(1.0, 5.0)

array([1., 2., 3., 4.])

In [24]:
# 파이썬의 기본 range 함수처럼 건너 뛰는 정도를 지정할 수도 있습니다 
np.arange(1, 5, 0.5)

array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [26]:
# 부동 소수를 사용하면 원소의 개수가 일정하지 않을 수 있습니다. 예를 들면 다음과 같습니다.
print(np.arange(0, 5/3, 1/3)) # 부동 소수 오차 때문에, 최댓값은 4/3 또는 5/3이 됩니다.
print(np.arange(0, 5/3, 0.33333333))
print(np.arange(0, 5/3, 0.33333334))

[0.         0.33333333 0.66666667 1.         1.33333333 1.66666667]
[0.         0.33333333 0.66666666 0.99999999 1.33333332 1.66666665]
[0.         0.33333334 0.66666668 1.00000002 1.33333336]


In [27]:
# np.linspace : 이런 이유로 부동 소수를 사용할 땐 arange 대신에 linspace 함수를 사용하는 것이 좋습니다. linspace 함수는 지정된 개수만큼 두 값 사이를 나눈 배열을 반환합니다. (arange와는 다르게 최댓값이 포함됩니다.)
print(np.linspace(0, 5/3, 6))

[0.         0.33333333 0.66666667 1.         1.33333333 1.66666667]


In [28]:
'''
np.rand와 np.randn
: 넘파이 random 모듈에는 ndarray를 랜던함 값으로 초기화할 수 있는 함수들이 많이 있습니다.
예를 들어, 다음은 (균등 분포인) 0과 1사이의 랜덤한 부동 소수로 3 x 4 행렬을 초기화합니다.
랜덤이기 때문에 실행할 때 마다 값은 달라집니다.
'''
np.random.rand(3,4)

array([[0.34038426, 0.10093397, 0.56510179, 0.16033343],
       [0.27191406, 0.9871193 , 0.36861824, 0.75702013],
       [0.52908955, 0.47893332, 0.2360483 , 0.83730973]])

In [29]:
# 다음은 평균이 0이고 분산이 1인 일변량 정규 분포(가우시안 분포)에서 샘플링한 랜덤한 부동 소수를 담은 3 x 4 행렬입니다.
np.random.randn(3,4)

array([[ 0.30005054,  0.12436571,  0.87453875, -0.55995106],
       [-0.04862849, -0.61618781, -1.30096986,  0.25844792],
       [ 1.09956983,  1.05802083,  1.0423656 , -0.7608351 ]])

In [37]:
# 이러한 분포의 모양을 보기 위해선 matplotlib을 사용해 그려볼 수 있습니다. (더 자세한 것은 matplotlib.org를 참고하세요.)

In [38]:
def my_func(z, y, x):
    return x * y + z

np.fromfunction(my_func, (3,2,10))

array([[[ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
        [ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.]],

       [[ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.]],

       [[ 2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.,  2.],
        [ 2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.]]])

In [None]:
import matplotlib.pyplt as plt
plt.hist(np.random.rand(1000000), density=)
