# NumPy 소개

**NumPy**는 Numerical Python의 약자로 내장타입의 list와 비슷하다. 그러나, 데이터 배열을 사용하여 최적화된 연산을 위한 쉽고 유연한 인터페이스를 제공하여 배열의 규모가 커질수록 데이터 저장 및 처리에 훨씬 효과적이다. 자세한 사항은 https://numpy.org 에 나타나 있다.

**NumPy**를 사용하기 위해서는 ``import``를 이용하여 불러와야 한다. 다음은 별칭(alias) **np**를 사용하여 **NumPy**불러오는 코드이다.

In [2]:
!pip install numpy

import numpy as np
np.__version__



'1.26.4'

## Python List를 이용한 NumPy 배열 만들기

가장 기본적으로 **NumPy**배열을 생성하는 방법은 리스트를 이용하는 것이다.

In [None]:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

**주의. list와 달리 NumPy는 배열의 모든 요소가 같은 타입이어야 한다.**

In [None]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

참고. ``dtype``키워드를 사용하면 데이터 타입을 설정할 수 있다.

In [None]:
np.array([1, 2, 3, 4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

참고. 리스트와 달리 **NumPy** 배열은 명시적으로 다차원이 가능하다. 내부 리스트는 결과로 얻은 이차원 배열의 행으로 취급된다.

In [None]:
np.array([range(i, i + 3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

range(2,5), range(4,7), range(6,9)를 각각 행 구조로 입력함

## NumPy에 내장된 메소드를 사용하여 배열 만들기

다음의 예제들은 내장된 메소드를 이용하여 **NumPy**배열을 만드는 방법을 나타낸다.

In [None]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

np.ones, np.zeros 는 모든 원소의 값을 0이나 1로 하고 차원과 값의 유형을 지정한다.




In [None]:
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [None]:
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

0이나 1이 아닌 특정값을 채우고 싶다면 이 구문을 이용

In [None]:
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [None]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

그리드를 잡고 싶을 때 이용, 1부터 1까지 5개의 값으로 분할

In [None]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Identity 행렬을 만듬

In [None]:
np.empty(1)

array([1.])


참고. ``np.empty``는 해당 메모리 위치에 이미 존재하고 있는 값으로 채운다. 메모리 번호를 알고 있어야 함

## NumPy 표준 데이터 타입

**NumPy**는 **C**로 구현되어 있기 때문에 **NumPy**의 데이터 타입은 **C**와 **Fortran**언어 혹은 관련된 다른언어와 비슷하다.

| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)|
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)|
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)|
| ``int8``      | Byte (-128 to 127)|
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)|
| ``uint8``     | Unsigned integer (0 to 255)|
| ``uint16``    | Unsigned integer (0 to 65535)|
| ``uint32``    | Unsigned integer (0 to 4294967295)|
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)|
| ``float_``    | Shorthand for ``float64``.|
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa|
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa|
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa|
| ``complex_``  | Shorthand for ``complex128``.|
| ``complex64`` | Complex number, represented by two 32-bit floats|
| ``complex128``| Complex number, represented by two 64-bit floats|

## NumPy 배열 속성 지정

배열의 속성을 지정해서 배열의 크기 혹은 데이터 타입을 정할 수 있다.

In [None]:
np.random.seed(0)  # 재현 가능성을 위한 시드 값

x3 = np.random.randint(10, size=(3, 4, 5))
print(x3)

[[[5 0 3 3 7]
  [9 3 5 2 4]
  [7 6 8 8 1]
  [6 7 7 8 1]]

 [[5 9 8 9 4]
  [3 0 3 5 0]
  [2 3 8 1 3]
  [3 3 7 0 1]]

 [[9 9 0 4 7]
  [3 2 7 2 0]
  [0 4 5 5 6]
  [8 4 1 4 9]]]


random.randint는 지정된 개수의 정수를 (0부터 시작) 랜덤하게 추출함

In [None]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60


dim: 배열의 차원, shape: 배열의 구조, size: 총 원소의 개수

In [None]:
print("dtype:", x3.dtype)
xx3 = np.array(x3, dtype='int32')
print(xx3.dtype)
xx3 = np.array([ [[3,4],[4,5]],[[3,4],[2,1]] ] )
print(xx3[1,1,range(2)])

dtype: int64
int32
[2 1]


dtype 문을 이용하여 값의 유형을 지정

## 배열 인덱싱: 단일 요소에 접근하기

일차원 배열

In [None]:
np.random.seed(0)  # 재현 가능성을 위한 시드 값

x1 = np.random.randint(10, size=6)
print(x1)

[5 0 3 3 7 9]


In [None]:
x1[0]

5

In [None]:
x1[4]

7

In [None]:
x1[-1]

9

In [None]:
x1[-2]

7

인덱싱의 규칙은 리스트와 동일

다차원 배열

In [None]:
np.random.seed(0)  # 재현 가능성을 위한 시드 값
x2 = np.random.randint(10, size=(3, 4))
print(x2)

[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]


In [None]:
x2[0,0]

5

리스트와 다르게 2차원 인덱싱이 가능함

In [None]:
x2[2,0]

2

In [None]:
print(x2[range(2),0])
print(x2[0,range(2)])
print(x1[range(2),range(2)])

[5 7]
[5 0]


IndexError: too many indices for array: array is 1-dimensional, but 2 were indexed

범위를 지정하는 경우 반드시 한 차원에서만 해야 함 (전체만 예외)



In [None]:
print(x2[range(2),range(2)])
print(x2[range(2),range(2)].shape)
# 총 4개의 원소를 불러오려고 하나 두 개만 가져옴

print(x2[range(2),:][:,range(2)])
print(x2[range(2),:][:,range(2)].shape)
# 영역을 설정할때는 반드시 쪼개서 해야 함

[5 9]
(2,)
[[5 0]
 [7 9]]
(2, 2)


In [None]:
x2 = np.random.randint(10, size=(3, 4))
x2[2,3] = 12
x2[0:2,:][:,0:3] = np.array([[0,0,0],[2,2,2]])
x2

array([[ 0,  0,  0,  1],
       [ 2,  2,  2,  4],
       [ 7,  3,  2, 12]])

값을 배열 단위로 입력하는 것도 가능하나 전체를 제외한 범위 지정의 경우 한 차원에서만 가능함

**주의. list와 달리 NumPy 배열은 고정 타입을 가진다.**
- 값의 유형이 같아야 한다는 의미


In [None]:
import numpy as np
x1 = np.array([2,3,4])
print(x1)

x2 = x1
x2[0] = 4
print(x2)

[2 3 4]
[4 3 4]


## 배열 슬라이싱: 하위 배열에 접근하기

기본 접근 방법은 아래와 같다.
``` python
x[start:stop:step] start:시작, stop-start:길이, step:잘라낼 배수


### 1차원 하위 배열

In [None]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
x[:5]

array([0, 1, 2, 3, 4])

In [None]:
x[5:]

array([5, 6, 7, 8, 9])

In [None]:
x[4:7]

array([4, 5, 6])

In [None]:
x[::2] # 2칸씩 뛰어서 반환

array([0, 2, 4, 6, 8])

In [None]:
x[1::2] #시작점을 첨자 1로 해서 2칸씩 뛰어서 반환

array([1, 3, 5, 7, 9])

``step``이 음수일 때는 ``start``와 ``stop``이 기본값이 서로 바뀐다.

시작점에서 뒤로 가는 것으로 이해해도 됨.



In [None]:
x[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [None]:
x[5::-2] #첨자 5에서 시작해서 뒤로 감 (-2배수로 자름)

array([5, 3, 1])

### 다차원 하위 배열

In [None]:
np.random.seed(0)  # 재현 가능성을 위한 시드 값

x2 = np.random.randint(10, size=(3, 4))
print(x2)

[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]


In [None]:
x2[:2, :3]

array([[5, 0, 3],
       [7, 9, 3]])

슬라이싱이 범위로 되는 것은 :을 사용했기 때문임

In [None]:
x2[:3, ::2]

array([[5, 3],
       [7, 3],
       [2, 7]])

첫번째 첨자는 0에서 시작해 2까지, 두번째 처음부터 끝까지 가되 2배씩 자름

In [None]:
x2[::-1, ::-1]
#1차원, 2차원 모드 끝에서 앞으로 정렬

array([[6, 7, 4, 2],
       [5, 3, 9, 7],
       [3, 3, 0, 5]])

#### 배열의 행과 열에 접근하기

In [None]:
print(x2[:, 0].shape)

(3,)


In [None]:
print(x2[0, :])

[5 0 3 3]


In [None]:
print(x2[0].shape)  # == x2[0, :]

(4,)


### 사본이 아닌 뷰로서의 하위 배열

In [None]:
print(x2)

[[99  0  3  3]
 [ 7  9  3  5]
 [ 2  4  7  6]]


In [None]:
x2_sub = x2[:2, :2]
print(x2_sub)

[[99  0]
 [ 7  9]]


In [None]:
x2_sub[0, 0] = 99
print(x2_sub)

[[99  0]
 [ 7  9]]


In [None]:
print(x2)

[[99  0  3  3]
 [ 7  9  3  5]
 [ 2  4  7  6]]


여기에서 사본의 값이 바뀌는 것이 원래 배열에도 영향을 줌

### 배열의 사본 만들기

In [None]:
x2_sub_copy = x2[:2, :2].copy()
print(x2_sub_copy)

[[99  0]
 [ 7  9]]


In [None]:
x2_sub_copy[0, 0] = 42
print(x2_sub_copy)

[[42  0]
 [ 7  9]]


In [None]:
print(x2)

[[99  0  3  3]
 [ 7  9  3  5]
 [ 2  4  7  6]]


이제 더이상 사본 배열이 원 배열에 영향을 안 줌

## 배열 재구조화

``reshape`` 메소드와 ``newaxis`` 메소드를 이용하여 배열의 구조를 바꿀 수 있다.

In [None]:
grid = np.arange(1, 10).reshape((3, 3))
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


기본 방식은 꺽쇠의 위치를 바꾸는 방식임에 유의

In [None]:
x = np.array([1, 2, 3])
print(x)
x.shape

[1 2 3]


(3,)

In [None]:
# 행 벡터
x.reshape((1, 3))

array([[1, 2, 3]])

In [None]:
# newaxis을 이용한 행 벡터
print(x[np.newaxis, :].shape)

(1, 3)


In [None]:
# 열 벡터
x.reshape((3, 1))

array([[1],
       [2],
       [3]])

In [None]:
# newaxis을 이용한 열 벡터
x[:, np.newaxis]

array([[1],
       [2],
       [3]])

## 배열 연결 및 분할

여러 배열을 하나로 결합(**배열 연결**)하거나 그 반대로 하나의 배열을 여러 개의 배열로 분할(**배열 분할**)할 수 있다.

### 배열 연결

배열 연결은 ``concatenate``, ``vstack``(vertical stack), ``hstack``(horizontal stack)메소드를 이용하여 할 수 있다.

In [None]:
import numpy as np
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

배열을 합칠때 최소 차원의 일치성이 필요함

In [None]:
z = [99, 99, 99]
print(np.concatenate([x, y, z]))

[ 1  2  3  3  2  1 99 99 99]


In [None]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])
print(grid)

[[1 2 3]
 [4 5 6]]


In [None]:
# 첫 번째 축: 두개의 배열을 합칠때 0(첫번째) 첨자를 늘림
np.concatenate([grid, grid], axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [None]:
# 두 번째 축: 두개의 배열을 합칠때 1(두번째) 첨자를 늘림
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

혼합된 차원 배열

In [None]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])

np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

수직축으로 통합, 0번 축을 늘림

In [None]:
y = np.array([[99],
              [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

수평축으로 통합, 1번축을 늘림

### 배열 분할

배열 분할은 ``split``, ``vsplit``, ``hsplit``메소드를 이용한다.

In [None]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [2, 5])
print(x1, x2, x3)

[1 2] [ 3 99 99] [3 2 1]


2번째 위치, 5번째 위치가 분할점이 됨

In [None]:
grid = np.arange(16).reshape((4, 4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [None]:
upper, lower = np.vsplit(grid, [2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


수직축으로 2개로 쪼갬

In [None]:
left, right = np.hsplit(grid, [2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


수평축으로 두개로 쪼갬

## NumPy 배열 연산: 유니버설 함수

인터프리터 언어에서 루프(반복문)를 이용한 연산은 매우 느리게 수행될 수 있다. 따라서 연산을 빠르게 하기 위해서는 벡터화(vectorized)연산을 사용해야 한다. 일반적으로 **Python**의 **NumPy**는 유니버설 함수(universal function, ufuncs)을 통해 구현된다.   

### UFuncs  소개

In [None]:
import numpy as np

def compute_reciprocals(values):
    output = np.empty(len(values)) #메모리 값을 불러옴#
    for i in range(len(values)):
        output[i] = 1.0 / values[i] #받은 배열 값의 역수를 계산
    return output

In [None]:
np.random.seed(0)

values = np.random.randint(1, 10, size=5)
print(values)

[6 1 4 4 8]


In [None]:
print(compute_reciprocals(values))
print(1.0 / values) # 역수를 확인

[0.16666667 1.         0.25       0.25       0.125     ]
[0.16666667 1.         0.25       0.25       0.125     ]


In [None]:
np.arange(5) / np.arange(1, 6)
# 각 원소별로 연산이 이루어짐

array([0.        , 0.5       , 0.66666667, 0.75      , 0.8       ])

In [None]:
x = np.arange(9).reshape((3, 3))
print(x)
2 ** x

[[0 1 2]
 [3 4 5]
 [6 7 8]]


array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]])

### NumPy의 다양한 유니버설 함수

#### 배열 산술 연산

**NumPy**의 **ufuncs**는 **Python**의 기본 산술 연산자를 사용한다.

In [None]:
x = np.arange(4)
print("x     =", x)
print("x + 5 =", x + 5)
print("x - 5 =", x - 5)
print("x * 2 =", x * 2)
print("x / 2 =", x / 2)
print("x // 2 =", x // 2)  # floor division (나누고 나서 값을 버림, 3.45 -> 3)

x     = [0 1 2 3]
x + 5 = [5 6 7 8]
x - 5 = [-5 -4 -3 -2]
x * 2 = [0 2 4 6]
x / 2 = [0.  0.5 1.  1.5]
x // 2 = [0 0 1 1]


In [None]:
print("-x     = ", -x)
print("x ** 2 = ", x ** 2)
print("x % 2  = ", x % 2)   # remainder (나누고 나서 남은 값을 반환, 5/4 ->1)

-x     =  [ 0 -1 -2 -3]
x ** 2 =  [0 1 4 9]
x % 2  =  [0 1 0 1]


In [None]:
-(0.5*x + 1) ** 2

array([-1.  , -2.25, -4.  , -6.25])

다음은 **NumPy**에 구현된 산술 연산자이다.

| Operator	    | Equivalent ufunc    | Description                           |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |Addition (e.g., ``1 + 1 = 2``)         |
|``-``          |``np.subtract``      |Subtraction (e.g., ``3 - 2 = 1``)      |
|``-``          |``np.negative``      |Unary negation (e.g., ``-2``)          |
|``*``          |``np.multiply``      |Multiplication (e.g., ``2 * 3 = 6``)   |
|``/``          |``np.divide``        |Division (e.g., ``3 / 2 = 1.5``)       |
|``//``         |``np.floor_divide``  |Floor division (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |Exponentiation (e.g., ``2 ** 3 = 8``)  |
|``%``          |``np.mod``           |Modulus/remainder (e.g., ``9 % 4 = 1``)|



#### 절댓값 함수

**Python**에 내장된 절대값 함수 ``abs``도 사용할 수 있다.

In [None]:
x = np.array([-2, -1, 0, 1, 2])
abs(x)

array([2, 1, 0, 1, 2])

In [None]:
np.absolute(x)

array([2, 1, 0, 1, 2])

In [None]:
np.abs(x)

array([2, 1, 0, 1, 2])

#### 삼각함수

In [None]:
theta = np.linspace(0, np.pi, 3)

In [None]:
print("theta      = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

theta      =  [0.         1.57079633 3.14159265]
sin(theta) =  [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta) =  [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta) =  [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


In [None]:
x = [-1, 0, 1]
print("x         = ", x)
print("arcsin(x) = ", np.arcsin(x))
print("arccos(x) = ", np.arccos(x))
print("arctan(x) = ", np.arctan(x))

x         =  [-1, 0, 1]
arcsin(x) =  [-1.57079633  0.          1.57079633]
arccos(x) =  [3.14159265 1.57079633 0.        ]
arctan(x) =  [-0.78539816  0.          0.78539816]


#### 지수와 로그

In [None]:
x = [1, 2, 3]
print("x     =", x)
print("e^x   =", np.exp(x))
print("2^x   =", np.power(2, x))
print("3^x   =", np.power(3, x))

x     = [1, 2, 3]
e^x   = [ 2.71828183  7.3890561  20.08553692]
2^x   = [2 4 8]
3^x   = [ 3  9 27]


In [None]:
x = [1, 2, 4, 10]
print("x        =", x)
print("ln(x)    =", np.log(x))
print("log2(x)  =", np.log2(x))
print("log10(x) =", np.log10(x))

x        = [1, 2, 4, 10]
ln(x)    = [0.         0.69314718 1.38629436 2.30258509]
log2(x)  = [0.         1.         2.         3.32192809]
log10(x) = [0.         0.30103    0.60205999 1.        ]


#### 특화된 유니버설 함수

통계학에서 자주 사용되는 전문적인 함수는 **scipy**패키지의 **special**모듈을 사용해서 계산할 수 있다.

In [None]:
from scipy import special

In [None]:
x = [1, 5, 10]
print("gamma(x)     =", special.gamma(x))
print("ln|gamma(x)| =", special.gammaln(x))
print("beta(x, 2)   =", special.beta(x, 2))

gamma(x)     = [1.0000e+00 2.4000e+01 3.6288e+05]
ln|gamma(x)| = [ 0.          3.17805383 12.80182748]
beta(x, 2)   = [0.5        0.03333333 0.00909091]


## 요약 통계량 계산

자료의 특성을 파악하는 첫 번째 단계는 요약 통계를 계산하는 것이다. **NumPy**에서는 다양한 내장 집계 함수를 제공한다.

### 배열의 합

배열의 합은 내장함수 ``sum``을 이용해서도 구할 수 있다.

In [None]:
np.random.seed(1)

L = np.random.random(100)
print(L)
sum(L)

[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01
 1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01
 3.96767474e-01 5.38816734e-01 4.19194514e-01 6.85219500e-01
 2.04452250e-01 8.78117436e-01 2.73875932e-02 6.70467510e-01
 4.17304802e-01 5.58689828e-01 1.40386939e-01 1.98101489e-01
 8.00744569e-01 9.68261576e-01 3.13424178e-01 6.92322616e-01
 8.76389152e-01 8.94606664e-01 8.50442114e-02 3.90547832e-02
 1.69830420e-01 8.78142503e-01 9.83468338e-02 4.21107625e-01
 9.57889530e-01 5.33165285e-01 6.91877114e-01 3.15515631e-01
 6.86500928e-01 8.34625672e-01 1.82882773e-02 7.50144315e-01
 9.88861089e-01 7.48165654e-01 2.80443992e-01 7.89279328e-01
 1.03226007e-01 4.47893526e-01 9.08595503e-01 2.93614148e-01
 2.87775339e-01 1.30028572e-01 1.93669579e-02 6.78835533e-01
 2.11628116e-01 2.65546659e-01 4.91573159e-01 5.33625451e-02
 5.74117605e-01 1.46728575e-01 5.89305537e-01 6.99758360e-01
 1.02334429e-01 4.14055988e-01 6.94400158e-01 4.14179270e-01
 4.99534589e-02 5.358964

48.58779276001459

In [None]:
np.sum(L)

48.587792760014565

합, 합연산은 배열의 차원과 관계없이 전체 원소의 합을 반환

**NumPy**의 경우 연산이 컴파일된 코드에서 계산되기
때문에 계산시간을 단축할 수 있다.

In [None]:
np.random.seed(2)

big_array = np.random.rand(100)
%timeit sum(big_array)
%timeit np.sum(big_array)

11.3 µs ± 636 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
4.74 µs ± 1.45 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


시간이 훨씬 적게 걸림을 확인할 수 있음

In [None]:
min(big_array), max(big_array)

(0.01301733669455063, 0.9938520114212729)

In [None]:
%timeit min(big_array)
%timeit np.min(big_array)

9.38 µs ± 2.94 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)
4.24 µs ± 495 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


**NumPy** 배열의 객체는 자체 메서드를 가지고 있다.  

In [None]:
print(big_array.min(), big_array.max(), big_array.sum())

0.01301733669455063 0.9938520114212729 46.002824535219375


일반적으로 .ftn 형태를 가지게 됨

### 다차원 요약 통계량

In [None]:
np.random.seed(1)
M = np.random.random((3, 4)) # 3*4 차원 #
print(M)

[[4.17022005e-01 7.20324493e-01 1.14374817e-04 3.02332573e-01]
 [1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01]
 [3.96767474e-01 5.38816734e-01 4.19194514e-01 6.85219500e-01]]


In [None]:
M.sum()

4.250707092634627

축의 지정을 통해 열별 계산을 할 수 있다. 열에 대한 축 지정은 ``axis=0``를 이용한다.

In [None]:
M.min(axis=0)

array([1.46755891e-01, 9.23385948e-02, 1.14374817e-04, 3.02332573e-01])

axis 지정은 연산이 이루어지는 축임, 이는 R과 규칙이 다름

행별 계산은 ``axis=1``을 이용한다.

In [None]:
M.max(axis=1)

array([0.72032449, 0.34556073, 0.6852195 ])

### 기타 요약 통계량 함수


다음은 **NumPy**에서 사용할 수 있는 함수의 목록을 나타낸다.

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |



In [None]:
print(M)
M[0,0] = np.log(0)
print(M)
np.max(M,axis=0)
# -Inf 로 오류가 발생하지는 않으나 오류 발생시 np.nanmax 이용

[[          -inf 7.20324493e-01 1.14374817e-04 3.02332573e-01]
 [1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01]
 [3.96767474e-01 5.38816734e-01 4.19194514e-01 6.85219500e-01]]
[[          -inf 7.20324493e-01 1.14374817e-04 3.02332573e-01]
 [1.46755891e-01 9.23385948e-02 1.86260211e-01 3.45560727e-01]
 [3.96767474e-01 5.38816734e-01 4.19194514e-01 6.85219500e-01]]


  M[0,0] = np.log(0)


array([0.39676747, 0.72032449, 0.41919451, 0.6852195 ])

## 배열연산 : Broadcasting

**Broadcasting**은 다른 크기의 배열에 이항 ufuncs함수(덧셈, 뺄셈, 곱셈등)를 적용하기 위한 규칙의 집합이다.

### Broadcasting 소개

일차원 배열

In [None]:
a = np.array([0, 1, 2])
b = np.array([5, 5, 5])
print(a)
print(b)
print(a + b)

[0 1 2]
[5 5 5]
[5 6 7]


In [None]:
a + 5 #배열과 상수의 연산은 각 원소와 상수의 연산으로 됨

array([5, 6, 7])

이차원 배열

In [None]:
M = np.ones((3, 3))
M

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [None]:
print(M.shape)
print(a[0:2].shape)
print(M+a)
print(M+a[0:2])

(3, 3)
(2,)
[[1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]]


ValueError: operands could not be broadcast together with shapes (3,3) (2,) 

In [None]:
a = np.arange(3)
b = np.arange(3)[:,np.newaxis]
print(a)
print(b)

[0 1 2]
[[0]
 [1]
 [2]]


1차원으로 (d,)와 2차원으로 (d,1)은 엄격히 구분됨

In [None]:
a + b
# 이 경우 외적의 형태로 연산
# a의 모든 원소와 b의 모든 원소들 간의 연산이 이루어짐

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

In [None]:
a = np.arange(3)
aa = a[:,np.newaxis]
print(aa)
print(np.min(aa,axis=0))

[[0]
 [1]
 [2]]
[0]


### Broadcasting 규칙

- 규칙 1: 두 배열의 차원 수가 다르면 더 작은 수의 차원을 가진 배열 형상의 차원 수를 늘린다 (이 때 1차원의 수를 1로 한다).
- 규칙 2: 두 배열의 형상이 어떤 차원에서도 일치하지 않는다면 해당 차원의 형상이 1인 배열이 다른 형상과 일치하도록 늘린다.
- 규칙 3: 임의의 차원에서 크기가 일치하지 않고 1도 아니라면 오류가 발생한다.

#### Broadcasting 예제 1

1차원 배열에 2차원 배열 더하기

In [None]:
M = np.ones((2, 3))
a = np.arange(3)

print(M)
print(a)

[[1. 1. 1.]
 [1. 1. 1.]]
[0 1 2]


배열의 형상:

- ``M.shape = (2, 3)``
- ``a.shape = (3,)``

규칙 1을 따라 배열 a가 더 작은 차원을 가지므로 왼쪽을 1로 채운다:

- ``M.shape -> (2, 3)``
- ``a.shape -> (1, 3)``

규칙 2에 따라 첫 번째 차원이 일치하지 않으므로 차원을 일치하도록 늘린다:

- ``M.shape -> (2, 3)``
- ``a.shape -> (2, 3)``

In [None]:
print(M)
print(a)
print(M+a)

[[1. 1. 1.]
 [1. 1. 1.]]
[0 1 2]
[[1. 2. 3.]
 [1. 2. 3.]]


[0,1,2]가 반복될 때, 열 단위로 반복됨에 주의

#### Broadcasting 예제 2

두 배열 모두 broadcasting이 필요한 예제

In [None]:
a = np.arange(3).reshape((3, 1))
b = np.arange(3)

print(a)
print(b)

[[0]
 [1]
 [2]]
[0 1 2]


배열의 형상:
- ``a.shape = (3, 1)``
- ``b.shape = (3,)``

규칙 1을 따라 ``b``의 형상에 1을 덧붙여야 한다:

- ``a.shape -> (3, 1)``
- ``b.shape -> (1, 3)``

규칙 2을 따라 각 차원을 그에 대응하는 다른 배열의 크기에 일치하도록 늘린다:

- ``a.shape -> (3, 3)``
- ``b.shape -> (3, 3)``

In [None]:
a + b

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

확장은 열 단위로 이루어짐

#### Broadcasting 예제 3

두 개의 배열이 호환되지 않는 경우

In [None]:
M = np.ones((3, 2))
a = np.arange(3)

print(M)
print(a)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[0 1 2]


배열 형상:

- ``M.shape = (3, 2)``
- ``a.shape = (3,)``

규칙 1:

- ``M.shape -> (3, 2)``
- ``a.shape -> (1, 3)``

규칙 2:

- ``M.shape -> (3, 2)``
- ``a.shape -> (3, 3)``

규칙 3:

In [None]:
M + a

ValueError: operands could not be broadcast together with shapes (3,2) (3,) 

 ``np.newaxis`` 를 이용한 형상 변경:

In [None]:
print(a[:, np.newaxis].shape)
M.shape

(3, 1)


(3, 2)

a: (3, ) -> (3,1) -> (3,2)
b: (3, 2)

In [None]:
print(M)
print(a[:, np.newaxis])
M + a[:, np.newaxis]

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[0]
 [1]
 [2]]


array([[1., 1.],
       [2., 2.],
       [3., 3.]])

In [None]:
a[:, np.newaxis]

array([[0],
       [1],
       [2]])

참고. broadcasting 규칙은 모든 이항 ufunc에 적용이 된다.

### 실전 Broadcasting

다음의 예는 통계학에서 자주 사용되는 배열을 표준화(Standardization)하는 것이다.
$$ Z = \frac{X - \bar{X}}{S},$$
식에서 $\bar{X}$는 평균, $S$는 표준편차를 나타낸다.

In [None]:
import numpy as np
np.random.seed(1)

X = np.random.random((10, 3))
print(X)

[[4.17022005e-01 7.20324493e-01 1.14374817e-04]
 [3.02332573e-01 1.46755891e-01 9.23385948e-02]
 [1.86260211e-01 3.45560727e-01 3.96767474e-01]
 [5.38816734e-01 4.19194514e-01 6.85219500e-01]
 [2.04452250e-01 8.78117436e-01 2.73875932e-02]
 [6.70467510e-01 4.17304802e-01 5.58689828e-01]
 [1.40386939e-01 1.98101489e-01 8.00744569e-01]
 [9.68261576e-01 3.13424178e-01 6.92322616e-01]
 [8.76389152e-01 8.94606664e-01 8.50442114e-02]
 [3.90547832e-02 1.69830420e-01 8.78142503e-01]]


In [None]:
Xmean = X.mean(0)
Xmean

array([0.43434437, 0.45032206, 0.42167713])

In [None]:
X_centered = X - Xmean

In [None]:
X_centered.mean(0)

array([ 3.33066907e-17, -4.44089210e-17, -1.11022302e-17])

In [None]:
Xstd = X.std(0)
Xstd

array([0.30363266, 0.26823818, 0.32697313])

In [None]:
Xstand = X_centered/Xstd

In [None]:
Xstand.std(0)

array([1., 1., 1.])

In [None]:
Xstand.mean(0)

array([ 1.33226763e-16, -1.77635684e-16,  2.22044605e-17])

## 비교, 마스크, 부울 로직

**NumPy**는 배열 내의 값을 검사하고 조작하는 데 부울 마스크를 사용한다. 여기서, 마스킹은 특정 기준에 따라 배열의 값을 추출하거나 수정, 계산, 조작하는 것을 의미한다.

### ufuncs으로서의 비교 연산자

In [None]:
x = np.array([1, 2, 3, 4, 5])
print(x)

[1 2 3 4 5]


In [None]:
x < 3  # less than

array([ True,  True, False, False, False])

In [None]:
x > 3  # greater than

array([False, False, False,  True,  True])

In [None]:
x <= 3  # less than or equal

array([ True,  True,  True, False, False])

In [None]:
x >= 3  # greater than or equal

array([False, False,  True,  True,  True])

In [None]:
x != 3  # not equal

array([ True,  True, False,  True,  True])

In [None]:
x == 3  # equal

array([False, False,  True, False, False])

두 배열을 항목별로 비교할 수 있으며 복합 표현식을 적용할 수도 있다.

In [None]:
(2 * x) == (x ** 2)

array([False,  True, False, False, False])

비교 연산자와 그에 대응하는 ``ufunc``함수:

| Operator	    | Equivalent ufunc    || Operator	   | Equivalent ufunc    |
|---------------|---------------------||---------------|---------------------|
|``==``         |``np.equal``         ||``!=``         |``np.not_equal``     |
|``<``          |``np.less``          ||``<=``         |``np.less_equal``    |
|``>``          |``np.greater``       ||``>=``         |``np.greater_equal`` |

2차원 예제:

In [None]:
rng = np.random.RandomState(100) # random seed 와 비슷하게 기능 #
x = rng.randint(10, size=(3, 4))
x

array([[8, 8, 3, 7],
       [7, 0, 4, 2],
       [5, 2, 2, 2]])

In [None]:
x < 6

array([[False, False,  True, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

### 부울 배열을 이용한 작업

부울 배열에서 참인 요소의 개수를 셀 수 있다.

In [None]:
# how many values less than 6?
np.count_nonzero(x < 6)

8

In [None]:
np.sum(x < 6)

8

In [None]:
# 각 행별로 6보다 작은 값들을 세어봄 (연산은 열단위로 이루어짐)
print(np.sum(x < 6, axis=1))
print(x<6)

[1 3 4]
[[False False  True False]
 [False  True  True  True]
 [ True  True  True  True]]


In [None]:
x == 6

array([[False, False, False, False],
       [False, False, False, False],
       [False, False, False, False]])

값 중 하나라도 참이 있는 지나 모든 값이 참인지 빠르게 확인할 수 있다.

In [None]:
# are there any values greater than 8?
np.any(x > 8)

False

In [None]:
# are there any values less than zero?
np.any(x < 0)

False

In [None]:
# are all values less than 10?
np.all(x < 10)

True

In [None]:
# are all values equal to 6?
np.all(x == 6)

False

In [None]:
# are all values in each row less than 8?
np.all(x < 8, axis=1)

array([False,  True,  True])

부울연산자는 동시에 여러식을 비교할때 사용하는 연산자이다.

In [None]:
np.sum((x > 3) & (x < 8))

4

다음은 부울 연산자와 그에 상응하는 ``ufuncs``이다.

| Operator	    | Equivalent ufunc    || Operator	    | Equivalent ufunc    |
|---------------|---------------------||---------------|---------------------|
|``&``          |``np.bitwise_and``   ||&#124;         |``np.bitwise_or``    |
|``^``          |``np.bitwise_xor``   ||``~``          |``np.bitwise_not``   |

### 마스크로서의 부울 배열

부울 배열을 마스크로 사용해 데이터 자체의 특정 부분 집합을 선택할 수 있다.

In [None]:
x

array([[8, 8, 3, 7],
       [7, 0, 4, 2],
       [5, 2, 2, 2]])

In [None]:
x < 5

array([[False, False,  True, False],
       [False,  True,  True,  True],
       [False,  True,  True,  True]])

부울 배열을 인덱스로 사용 (마스킹 연산):

In [None]:
x[x < 5]

array([3, 0, 4, 2, 2, 2, 2])

### 키워드 and/or vs 연산자 &/|


``and/or``는 전체 객체에 대해 단일 부울 평가를 수행한다.

In [None]:
bool(42), bool(0)

(True, False)

bool 문은 0이 거짓, 양수는 참으로 반환

In [None]:
bool(42 and 0)

False

In [None]:
bool(42 or 0)

True

``&/|``는 객체의 내용에 대해 여러 번 부울 평가를 수행한다.

In [None]:
bin(42)

'0b101010'

In [None]:
bin(59)

'0b111011'

In [None]:
bin(42 & 59) # 각 원소별로 평가

'0b101010'

In [None]:
bin(42 | 59) # 각 원소별로 평가

'0b111011'

In [None]:
A = np.array([1, 0, 1, 0, 1, 0], dtype=bool)
B = np.array([1, 1, 1, 0, 1, 1], dtype=bool)
A | B

array([ True,  True,  True, False,  True,  True])

In [None]:
x = np.arange(10)
(x > 4) & (x < 8)

array([False, False, False, False, False,  True,  True,  True, False,
       False])

**주의. ``or``와 ``and``연산자는 전체 객체에 대해 단일 부울 평가를 수행한다.**

In [None]:
A or B

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [None]:
(x > 4) & (x < 8)

array([False, False, False, False, False,  True,  True,  True, False,
       False])

## 펜시 인덱싱

**NumPy** 배열의 팬시 인덱싱은 정수 리스트(혹은 배열)를 이용하여 여러 개를 동시에 선택하는 방식이다.

### 펜시 인덱싱 개념

In [None]:
rand = np.random.RandomState(42)
x = rand.randint(100, size=10)
print(x)

[51 92 14 71 60 20 82 86 74 74]


세 개의 다른 요소에 접근할 수 있다.

In [None]:
[x[3], x[7], x[2]]

[71, 86, 14]

인덱스의 단일 리스트나 배열을 전달해 접근할 수 있다.

In [None]:
x[x > 70]

array([92, 71, 82, 86, 74, 74])

In [None]:
ind = np.where(x>70)[0]
ind

array([1, 3, 6, 7, 8, 9])

In [None]:
x[ind]

array([92, 71, 82, 86, 74, 74])

In [None]:
ind = [3, 7, 4]
x[ind]

array([71, 86, 60])

펜시 인덱싱을 이용하면 인덱스 배열의 형상을 반영할 수 있다.

In [None]:
ind = np.array([[3, 7],
                [4, 5]])
print(x)
x[ind]

[51 92 14 71 60 20 82 86 74 74]


array([[71, 86],
       [60, 20]])

index로 형상이 따라가게 됨

다차원 예제:

In [None]:
X = np.arange(12).reshape((3, 4))
X

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
X[row, col]

array([ 2,  5, 11])

2차원 인덱싱을 하고 있음에 유의

In [None]:
X[row[:,np.newaxis], col] #[0,1,2]^T [2,1,3]: 첨자행렬#

array([[ 2,  1,  3],
       [ 6,  5,  7],
       [10,  9, 11]])

(0,0) 원소의 인텍싱은 (0,2), (2,2) 원소의 인텍싱은 (2,3)과 같이 됨

In [None]:
print(row)
row[:,np.newaxis]  #[0,1,2]^T [2,1,3]: 왼쪽#

[0 1 2]


array([[0],
       [1],
       [2]])

In [None]:
col #[0,1,2]^T [2,1,3]: 오른쪽#

array([2, 1, 3])

### 결합 인덱싱

In [None]:
print(X)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [None]:
X[2, [2, 0, 1]]

array([10,  8,  9])

In [None]:
X[1:, [2, 0, 1]]

array([[ 6,  4,  5],
       [10,  8,  9]])

2차원 인덱싱 방법

In [None]:
row = np.array([0, 1, 2])
print(row[:, np.newaxis])

print(X)
mask = np.array([1, 0, 1, 0], dtype=bool) # (0,2) 만 유효함
X[row[:, np.newaxis], mask] #[0,1,2]^T [0,2]

[[0]
 [1]
 [2]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

In [None]:
mask #[0,2] 와 동일 #

array([ True, False,  True, False])

### 펜시 인덱싱으로 값 변경

In [None]:
x = np.arange(10)
i = np.array([2, 1, 8, 4])
x[i] = 99
print(x)

[ 0 99 99  3 99  5  6  7 99  9]


In [None]:
x[i] -= 10
print(x)

[ 0 89 89  3 89  5  6  7 89  9]


다음의 예는 반복되는 인덱스를 사용했을 때의 결과이다. 먼저 ``x[0] = 4``가 할당되고 ``x[1] = 6``이 할당된다.

In [None]:
x = np.zeros(10)
x[[0, 1]] = [4, 6]
print(x)

[4. 6. 0. 0. 0. 0. 0. 0. 0. 0.]


In [None]:
i = [2, 3, 3, 4, 4, 4, 5]
x[i] += 1
print(x)
## 중복이 영향을 안줌 (위치만 확인하고 비중은 없음)

[4. 6. 1. 1. 1. 1. 0. 0. 0. 0.]


In [None]:
x = np.zeros(10)
print(i)
np.add.at(x, i, 1)
print(x)
# 중복이 영향을 주는 경우

[2, 3, 3, 4, 4, 4, 5]
[0. 0. 1. 2. 3. 1. 0. 0. 0. 0.]


## 배열 정렬

**NumPy**에서는 배열의 값을 정렬하는 알고리즘을 제공한다.

### 빠른 정렬 : ``np.sort`` and ``np.argsort``

기본적으로 퀵 정렬(quick sorts) 알고리즘을 사용한다.

In [None]:
x = np.array([2, 1, 4, 3, 5])
np.sort(x)

array([1, 2, 3, 4, 5])

In [None]:
x.sort()
print(x)

[1 2 3 4 5]


참고. 옵션을 사용하면 병합정렬(mergesort)와 힙정렬(heapsort)도 사용할 수 있다 (알고리즘의 구분).

정렬된 요소의 인덱스를 반환

In [None]:
x = np.array([2, 1, 4, 3, 5])
i = np.argsort(x)
print(i)

[1 0 3 2 4]


In [None]:
x[i]

array([1, 2, 3, 4, 5])

### 행 혹은 열 기준 정렬

In [None]:
rand = np.random.RandomState(42)
X = rand.randint(0, 10, (4, 6))
print(X)

[[6 3 7 4 6 9]
 [2 6 7 4 3 7]
 [7 2 5 4 1 7]
 [5 1 4 0 9 5]]


In [None]:
# sort each column of X
np.sort(X, axis=0)

array([[2, 1, 4, 0, 1, 5],
       [5, 2, 5, 4, 3, 7],
       [6, 3, 7, 4, 6, 7],
       [7, 6, 7, 4, 9, 9]])

In [None]:
# sort each row of X
np.sort(X, axis=1)

array([[3, 4, 6, 6, 7, 9],
       [2, 3, 4, 6, 7, 7],
       [1, 2, 4, 5, 7, 7],
       [0, 1, 4, 5, 5, 9]])

## 부분 정렬 : 파티션

배열과 숫자 K를 취해 새로운 배열을 반환할 수 있다. 이때, K개의 가장 작은 값이 왼쪽에 있고 오른쪽에는 나머지 값이 채워진다. 순서는 임의로 정해진다.

In [None]:
x = np.array([7, 2, 3, 1, 6, 5, 4])
print(np.partition(x, 2))

[1 2 3 7 6 5 4]


(2,1,3) / (4,6,5,7) = (1,2,3) / (4,5,6,7)

참고. 인덱스를 반환하는 ``np.argpartition`` 함수가 있다.