# **Numpy 배열 프로그래밍**

## **학습 목표**

- 배열과 리스트의 차이점을 알고 배열을 사용하는 이유를 이해한다.
- 배열을 생성하고 다루는 방법을 익힌다.
- 넘파이를 사용하여 기술 통계를 낼 수 있다.
- 난수를 발생시키고 그 결과를 분석하는 방법을 공부한다. 방법을 공부한다.

# 1. Numpy 배열

많은 숫자 데이터를 하나의 변수에 넣고 관리 할 때 리스트는 속도가 느리고 메모리를 많이 차지하는 단점이 있다.  
배열(array)을 사용하면 적은 메모리로 많은 데이터를 빠르게 처리할 수 있다. 배열은 리스트와 비슷하지만 다음과 같은 점에서 다르다.

- 모든 원소가 같은 자료형이어야 한다.
- 원소의 갯수를 바꿀 수 없다.

**파이썬은 자체적으로 배열 자료형을 제공하지 않는다.**  
따라서 배열을 구현한 다른 패키지를 임포트해야 한다. 파이썬에서 배열을 사용하기 위한 표준 패키지는 넘파이(NumPy)다.

넘파이는 수치해석용 파이썬 패키지이다.  
다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원하며 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용된다.  

넘파이의 배열 연산은 C로 구현된 내부 반복문을 사용하기 때문에 파이썬 반복문에 비해 속도가 빠르며 벡터화 연산(vectorized operation)을 이용하여 간단한 코드로도 복잡한 선형 대수 연산을 수행할 수 있다. 또한 배열 인덱싱(array indexing)을 사용한 질의(Query) 기능을 이용하여 간단한 코드로도 복잡한 수식을 계산할 수 있다.

## Numpy 패키지 임포트


In [4]:
!pip install numpy

[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.2.1[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [5]:
import numpy as np

## 1차원 배열 만들기

넘파이의 array 함수에 리스트를 넣으면 ndarray 클래스 객체 즉, 배열로 변환해 준다.  


In [6]:
ar = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
ar

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

리스트와 비슷해 보이지만 type 명령으로 자료형을 살펴보면 ndarray임을 알 수 있다.

In [7]:
type(ar)

numpy.ndarray

>**Note**  
>만들어진 ndarray 객체의 표현식(representation)을 보면 바깥쪽에 array()란 것이 붙어 있을 뿐 리스트와 동일한 구조처럼 보인다.  
>그러나 배열 객체와 리스트 객체는 많은 차이가 있다.  
>우선 리스트 클래스 객체는 각각의 원소가 다른 자료형이 될 수 있다.  
>그러나 배열 객체 객체는 C언어의 배열처럼 연속적인 메모리 배치를 가지기 때문에 모든 원소가 같은 자료형이어야 한다.  
>이러한 제약사항이 있는 대신 원소에 대한 접근과 반복문 실행이 빨라진다.  

## 벡터화 연산

배열 객체는 배열의 각 원소에 대한 반복 연산을 하나의 명령어로 처리하는 벡터화 연산(vectorized operation)(덧셈, 뺄셈, 스칼라 곱)을 지원한다.

예를 들어 다음처럼 여러개의 데이터를 모두 2배 해야 하는 경우를 생각하자.


In [8]:
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [10]:
data * 2

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [11]:
data = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

answer = []

for di in data:
    answer.append(2 * di)
answer

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

하지만 벡터화 연산을 사용하면 다음과 같이 for 반복문이 없이 한번의 연산으로 할 수 있다. 계산 속도도 반복문을 사용할 때 보다 훨씬 빠르다.

In [12]:
x = np.array(data)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [13]:
2 * x

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [14]:
x * 2

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [15]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])

In [16]:
2 * a + b

array([12, 24, 36])

In [17]:
a == 2

array([False,  True, False])

In [18]:
b > 10

array([False,  True,  True])

In [19]:
(a == 2) & (b > 10)

array([False,  True, False])

## 2차원 배열 만들기

ndarray 는 N-dimensional Array의 약자이다.  
이름 그대로 1차원 배열 이외에도 2차원 배열, 3차원 배열 등의 다차원 배열 자료 구조를 지원한다.  
2차원 배열은 행렬(matrix)이라고 하는데 행렬에서는 가로줄을 행(row)이라고 하고 세로줄을 열(column)이라고 부른다.

다음과 같이 리스트의 리스트(list of list)를 이용하면 2차원 배열을 생성할 수 있다.  
안쪽 리스트의 길이는 행렬의 열의 수 즉, 가로 크기가 되고 바깥쪽 리스트의 길이는 행렬의 행의 수, 즉 세로 크기가 된다.  

예를 들어 2개의 행과 3개의 열을 가지는 2 x 3 배열은 다음과 같이 만든다.

In [20]:
c = np.array([[0, 1, 2], [3, 4, 5]])  # 2 x 3 array
c

array([[0, 1, 2],
       [3, 4, 5]])

## 3차원 배열 만들기

리스트의 리스트의 리스트를 이용하면 3차원 배열도 생성할 수 있다.  
크기를 나타낼 때는 가장 바깥쪽 리스트의 길이부터 가장 안쪽 리스트 길이의 순서로 표시한다.  

예를 들어 2 x 3 x 4 배열은 다음과 같이 만든다.


In [21]:
d = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])   # 2 x 3 x 4 array

## 배열의 차원과 크기 알아내기

배열의 차원 및 크기를 구하는 더 간단한 방법은 배열의 ndim 속성과 shape 속성을 이용하는 것이다.  
ndim 속성은 배열의 차원, shape 속성은 배열의 크기를 반환한다.


In [22]:
# a = np.array([1, 2, 3])
print(a.ndim)
print(a.shape)

1
(3,)


In [23]:
# c = np.array([[0, 1, 2], [3, 4, 5]])
print(c.ndim)
print(c.shape)

2
(2, 3)


In [24]:
print(d.ndim)
print(d.shape)

3
(2, 3, 4)


## 배열의 인덱싱

일차원 배열의 인덱싱은 리스트의 인덱싱과 같다.  
다차원 배열일 때는 다음과 같이 콤마(comma ,)를 사용하여 접근할 수 있다.  
콤마로 구분된 차원을 축(axis)이라고도 한다.  
그래프의 x축과 y축을 떠올리면 될 것이다.


In [25]:
a = np.array([[0, 1, 2], [3, 4, 5]])
a

array([[0, 1, 2],
       [3, 4, 5]])

In [26]:
a[0, 0]  # 첫번째 행의 첫번째 열

0

In [27]:
a[0, 1]  # 첫번째 행의 두번째 열

1

In [28]:
a[-1, -1]  # 마지막 행의 마지막 열

5

## 배열 슬라이싱

배열 객체로 구현한 다차원 배열의 원소 중 복수 개를 접근하려면 일반적인 파이썬 슬라이싱(slicing)과 comma(,)를 함께 사용하면 된다.


In [29]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
a

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [30]:
a[0, :]  # 첫번째 행 전체

array([0, 1, 2, 3])

In [31]:
a[:, 1]  # 두번째 열 전체

array([1, 5])

In [32]:
a[1, 1:]  # 두번째 행의 두번째 열부터 끝열까지

array([5, 6, 7])

In [33]:
a[:2, :2]

array([[0, 1],
       [4, 5]])

# 2. 배열의 생성과 변형

## 넘파이의 자료형
넘파이의 배열 즉, ndarray클래스는 원소가 모두 같은 자료형이어야 한다.  
array 명령으로 배열을 만들 때 자료형을 명시적으로 적용하려면 dtype 인수를 사용한다.  
만약 dtype 인수가 없으면 주어진 데이터를 저장할 수 있는 자료형을 스스로 유추한다.  
만들어진 배열의 자료형을 알아내려면 dtype 속성을 보면 된다.


In [35]:
x = np.array([1, 2, 3])
x.dtype

dtype('int64')

In [36]:
x = np.array([1.0, 2.0, 3.0])
x.dtype

dtype('float64')

In [37]:
x = np.array([1, 2, 3.0])
x.dtype

dtype('float64')

| dtype 접두사 | 설명            | 사용 예                |
|--------------|-----------------|------------------------|
| b            | 불리언          | b (참 혹은 거짓)       |
| i            | 정수            | i8 (64비트)            |
| u            | 부호 없는 정수  | u8 (64비트)            |
| f            | 부동소수점      | f8 (64비트)            |
| c            | 복소 부동소수점 | c16 (128비트)          |
| O            | 객체            | 0 (객체에 대한 포인터) |
| S            | 바이트 문자열   | S24 (24 글자)          |
| U            | 유니코드 문자열 | U24 (24 유니코드 글자) |

In [38]:
x = np.array([1, 2, 3], dtype='f')
x.dtype

dtype('float32')

In [39]:
x[0] + x[1]

3.0

In [40]:
x = np.array([1, 2, 3], dtype='U')
x.dtype

dtype('<U1')

In [41]:
x[0] + x[1]

'12'

## Inf와 NaN

넘파이에서는 무한대를 표현하기 위한 np.inf(infinity)와 정의할 수 없는 숫자를 나타내는 np.nan(not a number)을 사용할 수 있다.  

다음 예와 같이 1을 0으로 나누려고 하거나 0에 대한 로그 값을 계산하면 무한대인 np.inf이 나온다. 0을 0으로 나누려고 시도하면 np.nan이 나온다.

In [42]:
np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])
  np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])


array([  0.,  inf, -inf,  nan])

In [43]:
np.log(0)

  np.log(0)


-inf

In [44]:
np.exp(-np.inf)

0.0

## 배열 생성

NumPy는 몇가지 단순한 배열을 생성하는 명령을 제공한다.
- zeros, ones
- zeros_like, ones_like
- empty
- arange
- linspace, logspace

크기가 정해져 있고 모든 값이 0인 배열을 생성하려면 zeros 명령을 사용한다. 

In [45]:
a = np.zeros(5)
a

array([0., 0., 0., 0., 0.])

In [46]:
b = np.zeros((2, 3))
b

array([[0., 0., 0.],
       [0., 0., 0.]])

In [47]:
c = np.zeros((5, 2), dtype="i")
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

In [48]:
d = np.zeros(5, dtype="U4")
d

array(['', '', '', '', ''], dtype='<U4')

In [49]:
d[0] = "abc"
d[1] = "abcd"
d[2] = "ABCDE"
d

array(['abc', 'abcd', 'ABCD', '', ''], dtype='<U4')

0이 아닌 1로 초기화된 배열을 생성하려면 ones 명령을 사용한다.

In [50]:
e = np.ones((2, 3, 4), dtype="i8")
e

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]])

만약 크기를 튜플로 명시하지 않고 다른 배열과 같은 크기의 배열을 생성하고 싶다면 ones_like, zeros_like 명령을 사용한다.

In [51]:
f = np.ones_like(b, dtype="f")
f

array([[1., 1., 1.],
       [1., 1., 1.]], dtype=float32)

배열의 크기가 커지면 배열을 초기화하는데도 시간이 걸린다.  
이 시간을 단축하려면 배열을 생성만 하고 특정한 값으로 초기화를 하지 않는 empty 명령을 사용할 수 있다.  
empty 명령으로 생성된 배열에는 기존에 메모리에 저장되어 있던 값이 있으므로 배열의 원소의 값을 미리 알 수 없다.

In [53]:
g = np.empty((4, 3))
g

array([[4.64493201e-310, 0.00000000e+000, 1.01855798e-312],
       [9.54898106e-313, 1.10343781e-312, 1.01855798e-312],
       [1.23075756e-312, 1.06099790e-312, 1.12465777e-312],
       [9.76118064e-313, 1.12465777e-312, 1.90979621e-312]])

arange 명령은 NumPy 버전의 range 명령이라고 볼 수 있다. 특정한 규칙에 따라 증가하는 수열을 만든다.

In [54]:
np.arange(10)  # 0 .. n-1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [55]:
np.arange(3, 21, 2)  # 시작, 끝(포함하지 않음), 단계

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

linspace 명령이나 logspace 명령은 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할한다.

In [56]:
np.linspace(0, 100, 5)  # 시작, 끝(포함), 갯수

array([  0.,  25.,  50.,  75., 100.])

In [57]:
np.logspace(0.1, 1, 10)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

## 전치 연산

2차원 배열의 전치(transpose) 연산은 행과 열을 바꾸는 작업이다.  
이는 배열의 T 속성으로 구할 수 있다. 메서드가 아닌 속성이라는 점에 유의 한다.

In [58]:
A = np.array([[1, 2, 3], [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [59]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

## 배열의 크기 변형

일단 만들어진 배열의 내부 데이터는 보존한 채로 형태만 바꾸려면 reshape 명령이나 메서드를 사용한다.  
예를 들어 12개의 원소를 가진 1차원 행렬은 3x4 형태의 2차원 행렬로 만들 수 있다.

In [60]:
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [61]:
b = a.reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

사용하는 원소의 갯수가 정해저 있기 때문에 reshape 명령의 형태 튜플의 원소 중 하나는 -1이라는 숫자로 대체할 수 있다.  
-1을 넣으면 해당 숫자는 다를 값에서 계산되어 사용된다.

In [62]:
a.reshape(3, -1)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [63]:
a.reshape(2, 2, -1)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [64]:
a.reshape(2, -1, 2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

In [68]:
a.reshape(2, -1, 4)

ValueError: cannot reshape array of size 12 into shape (2,newaxis,4)

다차원 배열을 무조건 1차원으로 만들기 위해서는 flatten 나 ravel 메서드를 사용한다.

In [69]:
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [70]:
b.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [71]:
b.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

배열 사용에서 주의할 점은 길이가 5인 1차원 배열과 행, 열의 갯수가 (5,1)인 2차원 배열 또는 행, 열의 갯수가 (1, 5)인 2차원 배열은 데이터가 같아도 엄연히 다른 객체라는 점이다.

In [72]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [73]:
x.reshape(1, 5)

array([[0, 1, 2, 3, 4]])

In [74]:
x.reshape(5, 1)

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [75]:
x[:, np.newaxis]

array([[0],
       [1],
       [2],
       [3],
       [4]])

## 배열 연결

행의 수나 열의 수가 같은 두 개 이상의 배열을 연결하여(concatenate) 더 큰 배열을 만들 때는 다음과 같은 명령을 사용한다.

- hstack
- vstack
- dstack
- stack
- tile

hstack 명령은 행의 수가 같은 두 개 이상의 배열을 옆으로 연결하여 열의 수가 더 많은 배열을 만든다.  
연결할 배열은 하나의 리스트에 담아야 한다.

In [76]:
a1 = np.ones((2, 3))
a1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [77]:
a2 = np.zeros((2, 2))
a2

array([[0., 0.],
       [0., 0.]])

In [78]:
np.hstack([a1, a2])

array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

vstack 명령은 열의 수가 같은 두 개 이상의 배열을 위아래로 연결하여 행의 수가 더 많은 배열을 만든다.  
연결할 배열은 마찬가지로 하나의 리스트에 담아야 한다.

In [79]:
b1 = np.ones((2, 3))
b1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [80]:
b2 = np.zeros((3, 3))
b2

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [81]:
np.vstack([b1, b2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

dstack 명령은 제3의 축 즉, 행이나 열이 아닌 깊이(depth) 방향으로 배열을 합친다.  
가장 안쪽의 원소의 차원이 증가한다. 즉 가장 내부의 숫자 원소가 배열이 된다.  
shape 정보로 보자면 가장 끝에 값이 2인 차원이 추가되는 것이다.  
이 예제의 경우에는 shape 변화가 2개의 (3 x 4) -> 1개의 (3 x 4 x 2)가 된다.

In [82]:
c1 = np.ones((3, 4))
c1

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [83]:
c2 = np.zeros((3, 4))
c2

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [84]:
np.dstack([c1, c2])

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [85]:
(np.dstack([c1, c2])).shape

(3, 4, 2)

In [86]:
c3 = np.zeros((3, 5))
c3

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [87]:
np.dstack([c1, c3])

ValueError: all the input array dimensions except for the concatenation axis must match exactly, but along dimension 1, the array at index 0 has size 4 and the array at index 1 has size 5

stack 명령은 dstack의 기능을 확장한 것으로 dstack처럼 마지막 차원으로 연결하는 것이 아니라 사용자가 지정한 차원(축으로) 배열을 연결한다.  
axis 인수(디폴트 0)를 사용하여 연결후의 회전 방향을 정한다.  
디폴트 인수값은 0이고 가장 앞쪽에 차원이 생성된다.  
즉, 배열 두 개가 겹치게 되므로 연결하고자 하는 배열들의 크기가 모두 같아야 한다.

다음 예에서는 axis=0 이므로 가장 바깥에 값이 2인 차원이 추가된다.  
즉, shape 변화는 2개의 (3 x 4) -> 1개의 (2 x 3 x 4) 이다.

In [88]:
c = np.stack([c1, c2])
c

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [89]:
c.shape

(2, 3, 4)

axis 인수가 1이면 두번째 차원으로 새로운 차원이 삽입된다.  
다음 예에서 즉, shape 변화는 2개의 (3 x 4) -> 1개의 (3 x 2 x 4) 이다.

In [90]:
c = np.stack([c1, c2], axis=1)
c

array([[[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]]])

In [91]:
c.shape

(3, 2, 4)

tile 명령은 동일한 배열을 반복하여 연결한다.

In [92]:
a = np.array([[0, 1, 2], [3, 4, 5]])
np.tile(a, 2)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

In [93]:
np.tile(a, (3, 2))

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

# 3. 배열의 연산

## 벡터화 연산

벡터화 연산을 쓰면 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복연산을 할 수 있다.  
이 코드에서 %%time은 셀 코드의 실행시간을 측정하는 아이파이썬(IPython) 매직(magic) 명령이다.

In [94]:
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

In [95]:
%%time
z = np.zeros_like(x)
for i in range(10000):
    z[i] = x[i] + y[i]

CPU times: user 10.6 ms, sys: 0 ns, total: 10.6 ms
Wall time: 10.2 ms


In [96]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

그러나 벡터화 연산을 사용하면 덧셈 연산 하나로 끝난다.  
위에서 보인 선형 대수의 벡터 기호를 사용한 연산과 결과가 완전히 동일하다.  
연산 속도도 벡터화 연산이 훨씬 빠르다.

In [97]:
%%time
z = x + y

CPU times: user 66 µs, sys: 21 µs, total: 87 µs
Wall time: 93.7 µs


In [98]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

사칙 연산뿐 아니라 비교 연산과 같은 논리 연산도 벡터화 연산이 가능하다.

In [99]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [100]:
a == b

array([False,  True, False,  True])

In [101]:
a >= b

array([False,  True,  True,  True])

만약 배열의 각 원소들을 일일히 비교하는 것이 아니라 배열의 모든 원소가 다 같은지 알고 싶다면 all 명령을 사용하면 된다.

In [102]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [103]:
np.all(a == b)

False

In [104]:
np.all(a == c)

True

지수 함수, 로그 함수 등의 수학 함수도 벡터화 연산을 지원한다.

In [105]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [106]:
np.exp(a)

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [107]:
10 ** a

array([    1,    10,   100,  1000, 10000])

In [108]:
np.log(a + 1)

array([0.        , 0.69314718, 1.09861229, 1.38629436, 1.60943791])

## 스칼라와 벡터/행렬의 곱셈

스칼라와 벡터/행렬의 곱도 선형 대수에서 사용하는 식과 넘파이 코드가 일치한다.

In [109]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [110]:
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [111]:
x = np.arange(12).reshape(3, 4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [112]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## 정렬

sort 함수나 메서드를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열을 만들 수도 있다.  
2차원 이상인 경우에는 행이나 열을 각각 따로따로 정렬하는데 axis 인수를 사용하여 행을 정렬할 것인지 열을 정렬한 것인지 결정한다.

In [117]:
a = np.array([[4,  3,  5,  7],
              [1, 12, 11,  9],
              [2, 15,  1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [118]:
np.sort(a)  # axis=-1 또는 axis=1 과 동일

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [119]:
np.sort(a, axis=0)

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

In [120]:
a.sort(axis=1)
a

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

만약 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 argsort 명령을 사용한다.

In [121]:
a = np.array([42, 38, 12, 25])
j = np.argsort(a)
j

array([2, 3, 1, 0])

In [122]:
a[j]

array([12, 25, 38, 42])

In [123]:
np.sort(a)

array([12, 25, 38, 42])

# 4. 기술 통계

넘파이는 다음과 같은 데이터 집합에 대해 간단한 통계를 계산하는 함수를 제공한다. 이러한 값들을 통틀어 기술 통계(descriptive statistics)라고 한다.

- 데이터의 개수(count)
- 평균(mean, average)
- 분산(variance)
- 표준 편차(standard deviation)
- 최댓값(maximum)
- 최솟값(minimum)
- 중앙값(median)
- 사분위수(quartile)

예를 들어 다음과 같은 데이터 x가 있다고 하자.

### <center>$x=\{18,5,10,23,19,−8,10,0,0,5,2,15,8,2,5,4,15,−1,4,−7,−24,7,9,−6,23,−13\}$<center>

In [124]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

## 데이터의 개수

In [125]:
len(x)  # 갯수

26

## 평균

## <center>$\bar{x}=\frac{1}{N}\sum_{i=1}^N x_i$<center>

In [126]:
np.mean(x)  # 평균

4.8076923076923075

## 표본 분산

## <center>$s^2=\frac{1}{N}\sum_{i=1}^N (x_i-\bar{x})^2$<center>

In [127]:
np.var(x)  # 분산

115.23224852071006

## 표준 편차

## <center>$s=\sqrt{s^2}$<center>

In [128]:
np.std(x)  # 표준 편차

10.734628476137871

## 최댓값과 최솟값

In [129]:
np.max(x)  # 최댓값

23

In [130]:
np.min(x)  # 최댓값

-24

## 중앙값

In [131]:
np.median(x)  # 중앙값

5.0

# 5. 난수 발생과 카운팅

파이썬을 이용하여 데이터를 무작위로 섞거나 임의의 수 즉, 난수(random number)를 발생시키는 방법에 대해 알아본다.  
이 기능은 주로 NumPy의 random 서브패키지에서 제공한다.

## 시드 설정하기

>**Note**
>컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아니다.  
>어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성한다.  
>이런 시작 숫자를 시드(seed)라고 한다.

파이썬에서 시드를 설정하는 함수는 seed이다. 인수로는 0과 같거나 큰 정수를 넣어준다.

In [147]:
np.random.seed(0) # 시드를 0으로 설정

In [148]:
np.random.rand(5) # 난수 생성

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [149]:
np.random.rand(10) # 난수 생성

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [150]:
np.random.rand(10) # 난수 생성

array([0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215,
       0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443])

In [151]:
np.random.seed(5) # 시드를 5로 설정

In [152]:
np.random.rand(5) # 난수 생성

array([0.22199317, 0.87073231, 0.20671916, 0.91861091, 0.48841119])

In [153]:
np.random.rand(10) # 난수 생성

array([0.61174386, 0.76590786, 0.51841799, 0.2968005 , 0.18772123,
       0.08074127, 0.7384403 , 0.44130922, 0.15830987, 0.87993703])

In [154]:
np.random.rand(10) # 난수 생성

array([0.27408646, 0.41423502, 0.29607993, 0.62878791, 0.57983781,
       0.5999292 , 0.26581912, 0.28468588, 0.25358821, 0.32756395])

In [155]:
np.random.seed(0) # 시드를 다시 0으로 설정

In [156]:
np.random.rand(5) # 난수 생성

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [157]:
np.random.rand(10) # 난수 생성

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [158]:
np.random.rand(10) # 난수 생성

array([0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215,
       0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443])

## 데이터의 순서 바꾸기

데이터의 순서를 바꾸려면 shuffle 함수를 사용한다.  
shuffle 함수도 자체 변환(in-place) 함수로 한 번 사용하면 변수의 값이 바뀌므로 사용에 주의해야 한다.

In [159]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [160]:
np.random.shuffle(x)
x

array([3, 6, 4, 5, 2, 9, 7, 8, 1, 0])

## 데이터 샘플링

이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 표본선택 혹은 샘플링(sampling)이라고 한다.  
샘플링에는 choice 함수를 사용한다.  
choice 함수는 다음과 같은 인수를 가질 수 있다.

> **numpy.random.choice**(a, size=None, replace=True, p=None)
> - a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
> - size : 정수. 샘플 숫자
> - replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능
> - p : 배열. 각 데이터가 선택될 수 있는 확률 있는 확률

In [161]:
np.random.choice(5, 5, replace=False)  # shuffle 명령과 같다.

array([1, 4, 0, 3, 2])

In [162]:
np.random.choice(5, 3, replace=False)  # 3개만 선택

array([2, 1, 3])

In [163]:
np.random.choice(5, 10)  # 반복해서 10개 선택

array([0, 4, 1, 4, 1, 2, 2, 0, 1, 1])

In [164]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])  # 선택 확률을 다르게 해서 10개 선택

array([0, 3, 3, 2, 2, 3, 3, 2, 0, 3])

In [165]:
np.random.rand(10)

array([0.95894927, 0.65279032, 0.63505887, 0.99529957, 0.58185033,
       0.41436859, 0.4746975 , 0.6235101 , 0.33800761, 0.67475232])

In [166]:
np.random.rand(3, 5)

array([[0.31720174, 0.77834548, 0.94957105, 0.66252687, 0.01357164],
       [0.6228461 , 0.67365963, 0.971945  , 0.87819347, 0.50962438],
       [0.05571469, 0.45115921, 0.01998767, 0.44171092, 0.97958673]])

In [167]:
np.random.randn(3, 5)

array([[-0.30237513, -2.2244036 ,  0.72400636,  0.35900276,  1.07612104],
       [ 0.19214083,  0.85292596,  0.01835718,  0.42830357,  0.99627783],
       [-0.49114966,  0.71267817,  1.11334035, -2.15367459, -0.41611148]])