# 배열의 연산

### Numpy 자료형

In [9]:
import numpy as np

- numpy 자료형
- default 타입인 float64가 반영되는 함수 : ones()/zeros()
- array()생성시 특정 데이터로 배열 생성, 사용자가 제시한 데이터(타입)는 수정이 안되게 하는게 기본 마인드

In [313]:
x = np.array([1, 2, 3], dtype='f')
x.dtype

dtype('float32')

In [314]:
x=np.array(['a','b','c'], dtype='U')
x.dtype
x

array(['a', 'b', 'c'], dtype='<U1')

In [315]:
x = np.array([1, 2, 3], dtype='U')
x.dtype
x

array(['1', '2', '3'], dtype='<U1')

In [316]:
x = np.array([1, 2, 3], dtype='i')
x.dtype

dtype('int32')

Inf와 NaN

> 무한대를 표현하기 위한 np.inf(infinity)와 정의할 수 없는 숫자를 나타내는 np.nan(not a number)을 사용할 수 있음
- 1을 0으로 나누려고 하거나 0에 대한 로그 값을 계산하면 무한대인 np.inf이  나옴
- 0을 0으로 나누려고 시도하면 np.nan이 나옴

In [68]:
np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


array([  0.,  inf, -inf,  nan])

### 벡터화 연산

1. 벡터화 연산을 쓰면 명시적으로 반복문을 사용하지 않고도 배열의 모든 원소에 대해 반복연산을 할 수 있음
- 장점 : 선형 대수 공식과 동일한 아주 간단한 파이썬 코드를 작성할 수 있음

3. 예시 : 선형 대수에서 두 벡터의 합 구하는 방식

$$ 
x = \begin{bmatrix}1 \\ 2 \\ 3 \\ \vdots \\ 10000 \end{bmatrix}, \;\;\;\;
y = \begin{bmatrix}10001 \\ 10002 \\ 10003 \\ \vdots \\ 20000 \end{bmatrix},
$$
일 때, 두 벡터의 합
$$ z = x + y $$
은 다음과 같이 구한다.
$$
\begin{bmatrix}1 \\ 2 \\ 3 \\ \vdots \\ 10000 \end{bmatrix} + 
\begin{bmatrix}10001 \\ 10002 \\ 10003 \\ \vdots \\ 20000 \end{bmatrix} 
= \begin{bmatrix}1+10001 \\ 2+10002 \\ 3+10003 \\ \vdots \\ 10000+20000 \end{bmatrix}
= \begin{bmatrix}10002 \\ 10004 \\ 10006 \\ \vdots \\ 30000 \end{bmatrix}
$$

4. 만약 벡터화 연산을 사용하지 않는다면 이 연산은 반복문을 사용하여 다음과 같이 구성
5. `%%time`은 셀 코드의 실행시간을 측정하는 IPython 매직 명령.

In [317]:
import numpy as np

In [320]:
x = np.arange(1, 10001)
y = np.arange(10001, 20001)

In [321]:
x

array([    1,     2,     3, ...,  9998,  9999, 10000])

In [322]:
y

array([10001, 10002, 10003, ..., 19998, 19999, 20000])

In [324]:
%%time
z = np.zeros_like(x)

Wall time: 0 ns


In [325]:
z

array([0, 0, 0, ..., 0, 0, 0])

In [326]:
%%time
for i in range(10000):
    z[i] = x[i] + y[i]

Wall time: 5 ms


In [342]:
z

array([10002, 10004, 10006, ..., 29996, 29998, 30000])

In [343]:
%%timeit
for i in range(10000):
    z[i] = x[i] + y[i]

4.59 ms ± 144 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [344]:
z

array([10002, 10004, 10006, ..., 29996, 29998, 30000])

In [341]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

>벡터화 연산을 사용하면 덧셈 연산 하나로 관리
- 선형 대수의 벡터 기호를 사용한 연산과 결과가 완전히 동일
- 연산 속도도 벡터화 연산이 훨씬 빠름

In [345]:
%%time 
z = x + y

Wall time: 0 ns


In [346]:
z[:10]

array([10002, 10004, 10006, 10008, 10010, 10012, 10014, 10016, 10018,
       10020])

> 사칙 연산뿐 아니라 비교 연산과 같은 논리 연산도 벡터화 연산이 가능

In [347]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])

In [348]:
a

array([1, 2, 3, 4])

In [30]:
b

array([4, 2, 2, 4])

In [31]:
a == b

array([False,  True, False,  True])

In [32]:
a >= b

array([False,  True,  True,  True])

> 배열의 각 원소들 비교가 아닌 배열의 모든 원소가 다 같은지 알고 싶다면 `all` 명령을 사용<br>
비교 대상의 각 1차원 배열(벡터)의 각 index별 비교

In [40]:
a = np.array([1, 2, 3, 4])
b = np.array([4, 2, 2, 4])
c = np.array([1, 2, 3, 4])

In [41]:
np.all(a == b)

False

In [42]:
np.all(a == c)

True

1 = 스칼라<br>
[1, 2] = 1차원, 벡터<br>
[[1, 3], [2, 5]] = 2차원 배열, 매트릭스<br>

## 스칼라와 벡터/행렬의 곱셈

> 스칼라와 벡터/행렬의 곱도 선형 대수에서 사용하는 식과 NumPy 코드가 일치

In [53]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [54]:
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

In [55]:
x = np.arange(12).reshape(3, 4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [56]:
100 * x

array([[   0,  100,  200,  300],
       [ 400,  500,  600,  700],
       [ 800,  900, 1000, 1100]])

## 브로드캐스팅

1. 벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 함
- 브로드캐스팅(broadcasting)이란? NumPy에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원
- 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방법
<br><br>

- 규칙<br>
a. 두 배열의 차원수가 다르면 더 작은 수의 차원을 가진 배열 형상의 앞쪽을(왼쪽) 1로 채운다<br>
b. 두 배열의 형상이 어떤 차원에서도 일치하지 않는다면 해당 차원의 형상이 1인 배열이 다른 형상과 일치하도록 늘어난다<br>
c. 임의의 차원에서 크기가 일치하지 않고 1도 아니라면 오류가 발생한다<br>

- 예시 : 다음과 같이 벡터와 스칼라를 더하는 경우

$$ 
x = \begin{bmatrix}0 \\ 1 \\ 2 \\ 3 \\ 4 \end{bmatrix}, \;\;\;\; 
x + 1 = \begin{bmatrix}0 \\ 1 \\ 2 \\ 3 \\ 4 \end{bmatrix} + 1 = ?
$$


- 브로드캐스팅은 다음과 같이 스칼라를 벡터와 같은 크기로 확장시켜서 덧셈 계산

$$ 
\begin{bmatrix}0 \\ 1 \\ 2 \\ 3 \\ 4 \end{bmatrix} + 1 = 
\begin{bmatrix}0 \\ 1 \\ 2 \\ 3 \\ 4 \end{bmatrix} +  \begin{bmatrix}1 \\ 1 \\ 1 \\ 1 \\ 1 \end{bmatrix} = 
\begin{bmatrix}1 \\ 2 \\ 3 \\ 4 \\ 5 \end{bmatrix}
$$

In [360]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [361]:

y= np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [362]:
z=np.zeros_like(x)
z

array([0, 0, 0, 0, 0])

In [363]:
x + y

array([1, 2, 3, 4, 5])

In [364]:
x + z

array([0, 1, 2, 3, 4])

In [365]:
x + 1

array([1, 2, 3, 4, 5])

In [366]:
x=np.arange(25)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [367]:
x.reshape(5,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

- 브로드캐스팅은 다음처럼 더 차원이 높은 경우에도 적용

$$ 
\begin{bmatrix}0 & 1 & 2 \\ 1 & 2 & 3 \\ 2 & 3 & 4 \\ 3 & 4 & 5 \\ 4 & 5 & 6 \end{bmatrix}
+
\begin{bmatrix}0 \\ 1 \\ 2 \\ 3 \\ 4 \end{bmatrix} 
=
\begin{bmatrix}0 & 1 & 2 \\ 1 & 2 & 3 \\ 2 & 3 & 4 \\ 3 & 4 & 5 \\ 4 & 5 & 6 \end{bmatrix}
+
\begin{bmatrix}0 & 0 & 0 \\ 1 & 1 & 1 \\ 2 & 2 & 2 \\ 3 & 3 & 3 \\ 4 & 4 & 4 \end{bmatrix}
$$

$$ 
\begin{bmatrix}0 & 1 & 2 \\ 1 & 2 & 3 \\ 2 & 3 & 4 \\ 3 & 4 & 5 \\ 4 & 5 & 6 \end{bmatrix}
+
\begin{bmatrix}0 & 1 & 2 \end{bmatrix} 
=
\begin{bmatrix}0 & 1 & 2 \\ 1 & 2 & 3 \\ 2 & 3 & 4 \\ 3 & 4 & 5 \\ 4 & 5 & 6 \end{bmatrix}
+
\begin{bmatrix}0 & 1 & 2 \\ 0 & 1 & 2 \\ 0 & 1 & 2 \\ 0 & 1 & 2 \\ 0 & 1 & 2 \end{bmatrix} 
$$

In [106]:
x = np.vstack([range(10)[i:i + 3] for i in range(5)]) #첫번째 range: 숫자 범위, 두번째 range:col수, 세번째 range:row수
x

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [107]:
[range(10)[i:i + 3] for i in range(5)]

[range(0, 3), range(1, 4), range(2, 5), range(3, 6), range(4, 7)]

In [108]:
x[2][0]

2

In [109]:
x.ndim

2

In [110]:
x.shape

(5, 3)

In [117]:
y = np.arange(5)[:, np.newaxis]
y

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [118]:
x

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [119]:
x+y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

In [99]:
y=np.arange(5)[:]
y

array([0, 1, 2, 3, 4])

In [100]:
y.ndim

1

In [101]:
y.shape

(5,)

In [44]:
x + y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

In [45]:
y = np.arange(3)
y

array([0, 1, 2])

In [28]:
x + y

array([[0, 2, 4],
       [1, 3, 5],
       [2, 4, 6],
       [3, 5, 7],
       [4, 6, 8]])

## 차원 축소 연산(집계)

1. 행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다. 
 <br>
 예 : 10x5 크기의 2차원 배열에 대해 행-평균을 구하면 10개의 숫자를 가진 1차원 벡터가 생성(차원 축소(dimension reduction) 연산)
 <br><br>

2. NumPy는 다음과 같은 차원 축소 연산 명령 혹은 메서드를 지원<br><br>
a. 최대/최소: min, max, argmin(최소값의 index), argmax(최대값의 index)<br>
b. 통계: sum(합계), mean(평균), median(중앙값), std(표준 편처 계산), var(분산)<br>
c. 불리언: all(모든 요소가 참인지 검사), any(요소 중 참이 있는지 검사)<br>

In [133]:
x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [134]:
x.max()

4

In [135]:
x.min()

1

In [138]:
'''
    배열의 데이터가 짝수인 경우
    1단계 - 오름차순 정렬
    2단계 - 중앙 두개의 데이터 착출
    3단계 - 두개의 데이터 더하기 -> 2로 나누기

'''
np.median(x)

2.5

In [140]:
'''
    배열의 데이터가 홀수인 경우
    1단계 - 오름차순 정렬
    2단계 - 중앙 두개의 데이터 착출

'''
x2=np.array([1,2,10,3,4,20,30])
np.median(x2)

4.0

In [143]:
np.mean(x2)

10.0

In [145]:
np.mean(x)

2.5

In [149]:
x.mean()

2.5

> 연산의 대상이 2차원 이상인 경우
1. 어느 차원으로 계산을 할 지를 axis 인수 사용
- axis=0인 경우는 열 연산(디폴트)
- axis=1인 경우는 행 연산 
- axis 인수는 대부분의 차원 축소 명령에 적용할 수 있음

In [231]:
x = np.array([[1, 1], [2, 2]])
x

array([[1, 1],
       [2, 2]])

In [232]:
x.sum()

6

In [233]:
np.sum(x)

6

In [234]:
x[0][0]+x[1][1]

3

In [235]:
x.sum(axis=1)

array([2, 4])

In [236]:
'''
3차원으로 열의 합, 행의 합 구상해 보기

'''

'\n3차원으로 열의 합, 행의 합 구상해 보기\n\n'

In [283]:
x=np.array([[[1,2,3],[4,5,6],[5,4,3]],
           [[7,8,9],[10,11,12],[3,2,1]],
           [[13,14,15],[16,17,18],[17,16,15]]])
x

array([[[ 1,  2,  3],
        [ 4,  5,  6],
        [ 5,  4,  3]],

       [[ 7,  8,  9],
        [10, 11, 12],
        [ 3,  2,  1]],

       [[13, 14, 15],
        [16, 17, 18],
        [17, 16, 15]]])

In [368]:
x=np.random.randint(10, size=(3,3,3))

In [369]:
x.shape

(3, 3, 3)

sum(0) sum(1) sum(2)  <br>
  3   *  3   *   3  
axis 기준으로 합치면 해당 axis 가 사라집니다.

In [370]:
x.sum(axis=2) #depth의 합 :자기 내 행끼리 합

array([[14, 19, 17],
       [18, 10, 12],
       [13, 15,  4]])

In [377]:
x

array([[[2, 9, 3],
        [3, 9, 7],
        [0, 8, 9]],

       [[1, 8, 9],
        [7, 2, 1],
        [5, 6, 1]],

       [[4, 2, 7],
        [2, 9, 4],
        [2, 1, 1]]])

In [378]:
x.ndim

3

In [379]:
x.sum(axis=0) #열의합 : 다른행렬이랑 위치 맞춰서 더해!

array([[ 7, 19, 19],
       [12, 20, 12],
       [ 7, 15, 11]])

In [380]:
x.sum(axis=1) #행의합 : 자기 내에서만 더해!

array([[ 5, 26, 19],
       [13, 16, 11],
       [ 8, 12, 12]])

In [381]:
x.sum(axis=2)

array([[14, 19, 17],
       [18, 10, 12],
       [13, 15,  4]])

In [382]:
print(x[0].sum(axis=1))
print(x[1].sum(axis=1))
print(x[2].sum(axis=1))

[14 19 17]
[18 10 12]
[13 15  4]


# 정렬 

1. sort명령이나 메서드를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열 구성
- 2차원 이상인 경우에는 행이나 열을 각각 따로따로 정렬하는데 `axis` 인수를 사용하여 행을 정렬할 것인지 열을 정렬한 것인지 결정
- axis=0 이면 각각의 행을 따로따로 정렬하고 axis=1이면 각각의 열을 따로따로 정렬 -> 결과값 보고 이해해
- 디폴트 값은 -1 즉 가장 안쪽(나중)의 차원

In [247]:
a = np.array([[4,  3,  5,  7],
              [1, 12, 11,  9],
              [2, 15,  1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [248]:
a.shape

(3, 4)

In [250]:
np.sort(a)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [251]:
np.sort(a, axis=0)

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

In [253]:
np.sort(a, axis=1)

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [None]:
'''
1. 각 row별 자체 정렬(오름차순):axis?
2. 2차원 내부에 존재하는 모든 데이터들을 오름차순으로 정렬하는 기준은? axis=?
3. 1,2번 문제를 자기주도로 재 정리해서 답안 도출
'''

In [303]:
x=np.random.randint(12, size=(3,4))

In [304]:
x

array([[ 2,  8,  9,  1],
       [ 3,  3,  7,  7],
       [ 9, 11, 10,  1]])

In [305]:
np.argsort(x)

array([[3, 0, 1, 2],
       [0, 1, 2, 3],
       [3, 0, 2, 1]], dtype=int64)

In [277]:
x.shape

(3, 4)

In [278]:
np.sort(x, axis=0)

array([[1, 5, 0, 4],
       [2, 7, 6, 4],
       [3, 7, 7, 7]])

In [279]:
np.sort(x, axis=1)

array([[1, 6, 7, 7],
       [0, 3, 4, 5],
       [2, 4, 7, 7]])