# 3.3배열의 연산

## 벡터화 연산

벡터화 연산을 쓰면 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복연산을 할 수 있다. 벡터화 연산의 또 다른 장점은 선형 대수 공식과 동일한 아주 간단한 파이썬 코드를 작성할 수 있다는 점이다.

만약 벡터화 연산을 사용하지 않는다면 이 연산은 반복문을 사용하여 다음과 같이 만들어야 한다. 이 코드에서` %%time`은 셀 코드의 실행시간을 측정하는 `아이파이썬(IPython) 매직(magic) `명령이다.

In [1]:
import numpy as np

In [8]:
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

In [9]:
%%time
z = np.zeros_like(x)
for i in range(10000):
    z[i] = x[i] + y[i]

Wall time: 11 ms


In [10]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

In [11]:
%%time
z = x + y

Wall time: 0 ns


In [12]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

사칙 연산뿐 아니라 비교 연산과 같은 논리 연산도 벡터화 연산이 가능

In [13]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [14]:
a == b

array([False,  True, False,  True])

만약 배열의 각 원소들을 일일히 비교하는 것이 아니라 배열의 모든 원소가 다 같은지 알고 싶다면 `all` 명령을 사용하면 된다.

In [15]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [16]:
np.all(a == b)

False

지수 함수, 로그 함수 등의 수학 함수도 벡터화 연산을 지원

In [17]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [18]:
np.exp(a)

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [19]:
10 ** a

array([    1,    10,   100,  1000, 10000], dtype=int32)

## 스칼라와 벡터/행렬의 곱셈  
---

In [20]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [22]:
x = np.arange(12).reshape(3, 4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [23]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## 브로드캐스팅  
---

벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 한다. 넘파이에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원한다. 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방벙이다.

In [24]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [25]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [26]:
x + y

array([1, 2, 3, 4, 5])

In [27]:
x + 1

array([1, 2, 3, 4, 5])

In [28]:
x = np.vstack([range(7)[i:i + 3] for i in range(5)])
x

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [29]:
y = np.arange(5)[:, np.newaxis]
y

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [30]:
x + y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

In [31]:
y = np.arange(3)
y

array([0, 1, 2])

In [32]:
x + y

array([[0, 2, 4],
       [1, 3, 5],
       [2, 4, 6],
       [3, 5, 7],
       [4, 6, 8]])

## 차원 축소 연산  
---

행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다. 예를 들어 10x5 크기의 2차원 배열에 대해 행-평균을 구하면 10개의 숫자를 가진 1차원 벡터가 나오게 된다. 이러한 연산을 차원 축소(dimension reduction) 연산이라고 한다.

In [33]:
x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [34]:
np.sum(x)

10

In [35]:
x = np.array([1, 3, 2])

In [36]:
x.min()

1

In [37]:
x.max()

3

In [38]:
x.argmin()  # 최솟값의 위치

0

In [39]:
x.argmax()  # 최댓값의 위치

1

In [40]:
x = np.array([1, 2, 3, 1])

In [41]:
x.mean()

1.75

In [42]:
np.median(x)

1.5

In [43]:
np.all([True, True, False])

False

In [44]:
np.any([True, True, False])

True

In [46]:
a = np.zeros((100, 100), dtype=np.int)
a

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

In [47]:
np.any(a != 0)

False

In [48]:
np.all(a == a)

True

In [49]:
a = np.array([1, 2, 3, 2])
b = np.array([2, 2, 3, 2])
c = np.array([6, 4, 4, 5])

In [50]:
((a <= b) & (b <= c)).all()

True

연산의 대상이 2차원 이상인 경우에는 어느 차원으로 계산을 할 지를 `axis` 인수를 사용하여 지시한다. `axis=0`인 경우는 열 연산, `axis=1`인 경우는 행 연산이다. 디폴트 값은 `axis=0`이다. `axis` 인수는 대부분의 차원 축소 명령에 적용할 수 있다.

In [53]:
x = np.array([[1, 1], [2, 2]])
x

array([[1, 1],
       [2, 2]])

In [54]:
x.sum()

6

In [55]:
x.sum(axis=0)   # 열 합계

array([3, 3])

In [56]:
x.sum(axis=1)   # 행 합계

array([2, 4])

## 정렬  
---

`sort` 함수나 메서드를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열을 만들 수도 있다. 2차원 이상인 경우에는 행이나 열을 각각 따로따로 정렬하는데 `axis` 인수를 사용하여 행을 정렬할 것인지 열을 정렬한 것인지 결정한다. `axis=0`이면 각각의 행을 따로따로 정렬하고 `axis=1`이면 각각의 열을 따로따로 정렬한다. 디폴트 값은 -1 즉 가장 안쪽(나중)의 차원이다.

In [57]:
a = np.array([[4,  3,  5,  7],
              [1, 12, 11,  9],
              [2, 15,  1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [58]:
np.sort(a)  # axis=-1 또는 axis=1 과 동일

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [59]:
np.sort(a, axis=0)

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

In [60]:
a.sort(axis=1)
a

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

![array](https://user-images.githubusercontent.com/105963819/172995394-4ede10ca-ad7b-4572-b5d7-016ce3e7998f.jpg)

만약 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 `argsort` 명령을 사용

In [13]:
a = np.array([56, 23, 12, 48])

In [14]:
j = np.argsort(a)
j

array([2, 1, 3, 0], dtype=int64)

In [15]:
a[j]

array([12, 23, 38, 56])

In [16]:
np.sort(a)

array([12, 23, 38, 56])

# 3.4 기술 통계  
---

## 데이터의 개수  
---

In [18]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

In [19]:
len(x)

26

## 표본 평균  
---

$\bar{x}=\frac{1}{N}\sum x_i$

In [20]:
np.mean(x)

4.8076923076923075

## 표본 분산  
---

$s^2=\frac{1}{N}\sum (x_i-\bar{x})^2$

In [21]:
np.var(x)

115.23224852071006

In [22]:
np.var(x, ddof=1)  # 비편향 분산

119.84153846153846

## 표본 표준편차  
---

$s=\sqrt(s^2)$

In [23]:
np.std(x)

10.734628476137871

## 최댓값과 최솟값  
---

In [24]:
np.max(x)  # 최댓값

23

In [25]:
np.min(x)  # 최솟값

-24

## 중앙값  
---

In [26]:
np.median(x)  # 중앙값

5.0

## 사분위수
---

In [27]:
np.percentile(x, 0)  # 최소값

-24.0

In [28]:
np.percentile(x, 100)  # 최댓값

23.0

# 3.5 난수 발생과 카운팅  
---

## 시드 설정하기  
---

컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아니다. 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성한다. 이런 시작 숫자를 시드(seed)라고 한다. 일단 생성된 난수는 다음번 난수 생성을 위한 시드값이 된다. 따라서 시드값은 한 번만 정해주면 된다. 시드는 보통 현재 시각등을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있다. 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있다. 

In [2]:
import numpy as np

In [3]:
np.random.seed(0)

넘파이 `random` 서브패키지에 있는 `rand` 함수로 5개의 난수를 생성해 보자. `rand` 함수는 0과 1사이의 난수를 발생시키는 함수로 인수로 받은 숫자 횟수만큼 난수를 발생시킨다.

In [4]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

## 데이터의 순서 바꾸기  
---

데이터의 순서를 바꾸려면 `shuffle` 함수를 사용한다. `shuffle` 함수도 자체 변환(in-place) 함수로 한 번 사용하면 변수의 값이 바뀌므로 사용에 주의해야 한다.

In [5]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [6]:
np.random.shuffle(x)
x

array([3, 1, 8, 7, 9, 0, 6, 4, 2, 5])

## 데이터 샘플링  
---

이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 표본선택 혹은 샘플링(sampling)이라고 한다. 샘플링에는 `choice` 함수를 사용한다. `choice` 함수는 다음과 같은 인수를 가질 수 있다.

In [7]:
np.random.choice(5, 5, replace=False)  # shuffle 명령과 같다.

array([4, 2, 3, 1, 0])

In [8]:
np.random.choice(5, 3, replace=False)  # 3개만 선택

array([2, 3, 4])

In [9]:
np.random.choice(5, 10)  # 반복해서 10개 선택

array([0, 3, 0, 2, 3, 0, 1, 3, 3, 3])

In [10]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])  # 선택 확률을 다르게 해서 10개 선택

array([2, 3, 2, 3, 3, 3, 2, 3, 3, 3])

## 난수 생성  
---

`rand` 함수는 0부터 1사이에서 균일한 확률 분포로 실수 난수를 생성한다. 숫자 인수는 생성할 난수의 크기이다. 여러개의 인수를 넣으면 해당 크기를 가진 행렬을 생성

In [11]:
np.random.rand(10)

array([0.0187898 , 0.6176355 , 0.61209572, 0.616934  , 0.94374808,
       0.6818203 , 0.3595079 , 0.43703195, 0.6976312 , 0.06022547])

`randn` 함수는 기댓값이 0이고 표준편차가 1인 표준 정규 분포(standard normal distribution)를 따르는 난수를 생성

In [12]:
np.random.randn(10)

array([ 1.23029068,  1.20237985, -0.38732682, -0.30230275, -1.04855297,
       -1.42001794, -1.70627019,  1.9507754 , -0.50965218, -0.4380743 ])

`randint` 함수는 다음과 같은 인수를 가진다.  
`numpy.random.randint(low, high=None, size=None)`  
만약 `high`를 입력하지 않으면 `0`과 `low`사이의 숫자를, `high`를 입력하면 `low`와 `high`는 사이의 숫자를 출력한다.   
`size`는 난수의 숫자이다.

In [13]:
np.random.randint(10, size=10)

array([4, 4, 8, 4, 3, 7, 5, 5, 0, 1])

In [14]:
np.random.randint(10, 20, size=10)

array([15, 19, 13, 10, 15, 10, 11, 12, 14, 12])

In [15]:
np.random.randint(10, 20, size=(3, 5))

array([[10, 13, 12, 10, 17],
       [15, 19, 10, 12, 17],
       [12, 19, 12, 13, 13]])

## 정수 데이터 카운팅  
---

이렇게 발생시킨 난수가 실수값이면 히스토그램 등을 사용하여 분석하면 된다.   
만약 난수가 정수값이면 `unique` 명령이나 `bincount` 명령으로 데이터 값을 분석할 수 있다.  
`unique` 함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력한다. `return_counts` 인수를 `True` 로 설정하면 각 값을 가진 데이터 갯수도 출력한다.

In [16]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [17]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
index, count = np.unique(a, return_counts=True)

In [18]:
index

array(['a', 'b', 'c'], dtype='<U1')

In [19]:
count

array([2, 2, 1], dtype=int64)

그러나 `unique` 함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않는다. 예를 들어 주사위를 10번 던졌는데 6이 한 번도 나오지 않으면 이 값을 0으로 세어주지 않는다. 따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 `bincount` 함수에 `minlength` 인수를 설정하여 쓰는 것이 더 편리하다. `bincount` 함수는 `0` 부터 `minlength - 1` 까지의 숫자에 대해 각각 카운트를 한다. 데이터가 없을 경우에는 카운트 값이 `0`이 된다

In [20]:
np.bincount([1, 1, 2, 2, 2, 3], minlength=6)

array([0, 2, 3, 1, 0, 0], dtype=int64)