# Python NumPy Operation <br> 파이썬 NumPy 연산

In [2]:
import numpy as np

## 1. 산술연산

1. 더하기: `+`, `add()`

2. 빼기: `-`, `subtract()`

3. 나누기: `/`, `divide()`

4. 곱하기: `*`, `multiply()`

5. 지수곱: `exp()`

6. 제곱근: `sqru()`

7. 로그: `log()`

8. 내적(행렬곱): `dot()`

In [4]:
# Numpy 객체 정보를 확인하기 위한 사용자 함수 정의 : 객체타입, 구조, 차원, 데이터타입
def np_print(arr):
    text="""
    type : {}
    shape : {}
    dimension : {}
    dtype : {}
    data : \n {}""".format(type(arr), arr.shape, arr.ndim, arr.dtype, arr)
    print(text)

<br>

- -1 <= x < 10 지정범위에서 1씩 증가하는 숫자를 데이터로 가진 3행 * 3열 배열

In [39]:
ndarr_10 = np.arange(1, 10).reshape(3, 3)

np_print(ndarr_10)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : int32
    data : 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


<br>

- 4이상 13미만, 1씩 증가하는 정수 data, 3행 * 3열 배열

In [40]:
ndarr_13 = np.arange(4, 13).reshape(3, 3)

np_print(ndarr_13)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : int32
    data : 
 [[ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


<br>

- 10 ~ 21, 1씩 증가하는 정수, 3행 * 4열 배열

In [51]:
ndarr_21 = np.arange(10, 22).reshape(3, 4)

np_print(ndarr_21)


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    dimension : 2
    dtype : int32
    data : 
 [[10 11 12 13]
 [14 15 16 17]
 [18 19 20 21]]


<br>

### 1.1. 더하기

- 산술연산자: `+`

- numpy method: `np.add(ndarr1, ndarr2)`

In [19]:
print(ndarr_10)

print(ndarr_13)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


<br>

- 산술 연산자 `+`

In [20]:
ndarr_10 + ndarr_13

array([[ 5,  7,  9],
       [11, 13, 15],
       [17, 19, 21]])

<br>

- numpy method `np.add(ndarr1, ndarr2)`

In [22]:
np.add(ndarr_10, ndarra_13)

array([[ 5,  7,  9],
       [11, 13, 15],
       [17, 19, 21]])

<br>

- `shape`(행 * 열)이 다른 `ndarray`끼리 합연산 > **VauleError**

In [23]:
ndarr_10 + ndarr_21

ValueError: operands could not be broadcast together with shapes (3,3) (3,4) 

### 1.3. 빼기

- 산술연산자 `-`

- numpy method `np.subtract(ndarr1, ndarr2)`


<br>

- 산술연산자 `-`

In [76]:
ndarr_10 - ndarr_13

array([[-3, -3, -3],
       [-3, -3, -3],
       [-3, -3, -3]])

<br>

- numpy method `np.subtract()`

In [27]:
np.subtract(ndarr_10, ndarr_13)

array([[-3, -3, -3],
       [-3, -3, -3],
       [-3, -3, -3]])

<br>

- 뺄셈: parameter 순서에 따라 결과 다름 

\> `(np.subtract(a, b) == a - b) != (np.subtract(b, a) == b - a)`

In [28]:
np.subtract(ndarr_13, ndarr_10)

array([[3, 3, 3],
       [3, 3, 3],
       [3, 3, 3]])

<br>

### 1.3. 나누기

In [33]:
ndarr_10 / ndarr_13

array([[0.25      , 0.4       , 0.5       ],
       [0.57142857, 0.625     , 0.66666667],
       [0.7       , 0.72727273, 0.75      ]])

- $n → ∞$에서, $(n-3)/n → 1$

<br>

- 산술method `np.divide(ndarray1, ndarray2)`

In [34]:
np.divide(ndarr_13, ndarr_10)

array([[4.        , 2.5       , 2.        ],
       [1.75      , 1.6       , 1.5       ],
       [1.42857143, 1.375     , 1.33333333]])

- $n → ∞$에서, $n/(n-3) → 1$

<br>

### 1.4. 곱하기

- 산술연산자

- 산술method

<br>

### 1.5. 지수곱 표현

- 지수(exponent): 부동 소수점(floating point)로 숫자를 표시할 때, 거듭제곱을 사용하여 표현   
\> 2.14e+2 = 2.14

- `np.exp(ndarray)`: 밑(base)이 자연상수 e인 지수함수로 변환 (y = e ** x)

<br>

- 지수곱 산술method: `np.exp(ndarray)`

In [37]:
print(ndarr_10)
np.exp(ndarr_10)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([[2.71828183e+00, 7.38905610e+00, 2.00855369e+01],
       [5.45981500e+01, 1.48413159e+02, 4.03428793e+02],
       [1.09663316e+03, 2.98095799e+03, 8.10308393e+03]])

<br>

### 1.6. 제곱근

- 산술method `np.sqrt(ndarr)`

<img src='img/sqrt.gif' width='400' height='200' align='left'>

- **n이하의 소수 개수** 구하기 > **n의 제곱근이하의 소수개수**와 동일한 결과    
\> 소인수분해 할 때, 제곱근이 중심이 되어 양쪽이 역방향 대칭 > 제곱근까지만 구해도 된다

<br>

- "_에라토스테네스의 체_": n 이하의 소수 개수 구하기 > 2 이상 n 이하의 소수의 배수를 제외하면 소수만 남는다



### 1.7. 내적(행렬곱)

- `np.dot(a, b)`

<img src='img/dotProduct.png' width='400' height='200' align='left'>

In [42]:
print(np.dot(ndarr_10, ndarr_13))

[[ 48  54  60]
 [111 126 141]
 [174 198 222]]


<br>

## 2. Numpy 배열 연산 Numpy `ndarray` operator

### 2.2. 비교 연산

1. 요소
   
   - 값에 대한 비교: `==`, `!=`
   
   - 크기에 대한 비교 : `>`, `<`, `>=`, `<=`
   
2. 배열

    - 두 배열 전체에 대한 비교: `array_equal(ndarr1, ndarr2)`


<br>

- 값에 대한 비교 > `==`, `!=`

- 두 배열 item에 대하여 값이 동일한지 비교

- return값: 각 item마다의 비교 결과(bool type)가 배열로 표현

In [43]:
ndarr_10 == ndarr_13

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

In [44]:
ndarr_10 != ndarr_13

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [53]:
ndarr_10 == ndarr_21

  ndarr_10 == ndarr_21


False

- `ndarray shape`이 같은 대상에 대해서만 비교해야 함

<br>

- 크기에 대한 비교 > 배열의 item별로 각각 비교 > bool type 배열 return

In [46]:
ndarr_10 > ndarr_13

array([[False, False, False],
       [False, False, False],
       [False, False, False]])

<br>

- 두 배열 전체에 대한 비교: `array_equal(ndarr1, ndarr2)` > 하나의 True/False로 반환

In [48]:
np.array_equal(ndarr_10, ndarr_13)

False

In [49]:
np.array_equal(ndarr_10, ndarr_10)

True

<br>

## 3. 집계 함수

    - Numpy 배열에 대해 집계 함수를 적용할 때는 반드시 axis로 설정된 기준에 따라 연산 수행
    - 별도로 값을 지정하지 않으면 기본값은 axis = None으로 지정
    - axis
        - axis = None   
        전체 데이터를 하나의 배열로 간주하고 집계 함수의 연산 범위를 전체 배열로 지정

<br>

<img src='img/axis_None.jpg' width='150' height='150' align='left'>       
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        - axis = 0 <br>
        열을 기준으로 동일한 열에 있는 요소를 하나의 그룹으로 묶어 집계 함수의 연산 범위로 지정
        <br>
        <img src='img/axis_0.jpg' width='150' height='150' align='left'>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        - axis = 1 <br>
        행을 기준으로 동일한 행에 있는 요소를 하나의 그룹으로 묶어 집계 함수의 연산 범위로 지정
        <br>
        <img src='img/axis_1.jpg' width='150' height='150' align='left'>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
        <br>
    - 집계 함수 : 배열객체에 대한 메소드로 사용하거나 Numpy 라이브러리의 메소드로 사용하는 두 가지 방법
        - 합계 : sum()
        - 최소값 : min()
        - 최대값 : max()
        - 누적 합계 : cumsum()
        - 평균 : mean()
        - 중앙값 : median()
            - 크기 순으로 나열된 데이터에 대해 중앙에 위치하는 값
        - 상관계수 : corrcoef()
            - 데이터 간의 상관관계를 나타내는 수치(-1 <= r <= 1)
        - 표준편차 : std()
            - 분산의 제곱근, 데이터가 평균으로부터 흩어져 있는 정도
            - 분산 = 편차(요소-전체평균)제곱의 평균
        - 고유값 : unique()

### 3.1. 합계

합계: 전체 기준 > 모든 요소에 대한 합

1. 배열 타입의 method: `ndarr.sum()`

2. numpy method: `np.sum(ndarr)`

In [54]:
ndarr_10.sum()

45

In [55]:
np.sum(ndarr_10)

45

<br>

- 합계 > row, 행별, 가로축별 합산

- method`ndarr.sum()`, np method`np.sum(ndarr)`의 parameter: `axis=1`

- return값: \[0번 row의 합, 1번 row의 합, 2번 row의 합, ..., n번 row의 합\]

In [58]:
print(ndarr_21.sum(axis=1))

print(ndarr_21)

[46 62 78]
[[10 11 12 13]
 [14 15 16 17]
 [18 19 20 21]]


<br>

- 합계 > column, 열별, 세로축별 합산 > `axis=0`

- method `ndarr.sum()`, numpy method`np.sum(ndarr)` parameter: **`axis=0`**

- return값: \[0번 col의 합, 1번 col의 합, 2번 col의 합, ..., n번 col의 합\]

In [60]:
print(ndarr_10.sum(axis=0))

print(ndarr_10)

[12 15 18]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


### 3.2. 최소값, 최대값

<br>

- 최소값 > 전체 기준

1. `ndarray` method: `ndarr.min()`
    
2. numpy method: `np.min(ndarr)`

In [61]:
print(ndarr_21.min())

print(np.min(ndarr_10))

10
1


<br>

- c.f. Python list에서 최소값 찾기

In [62]:
x_list = [1, 2, 3, 4]

min(x_list)

1

<br>

- 최소값 > 각 가로축(row)별 최소값 찾기 > `axis=1`

- return값 > \[0번 row min, 1번 row min, ... n번 row min\]

- `ndarr.min(axis=1)`

- `np.min(ndarr, axis=1)`

In [81]:
print(ndarr_13)

print(ndarr_13.min(axis=1))

print(np.min(ndarr_13, axis=1))

[[ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[ 4  7 10]
[ 4  7 10]


<br>

- 최소값 > 각 세로축(col)별 최소값 찾기 > `axis=0`

- return값 > \[0번 col min, 1번 col min, ... n번 col min\]

- `ndarr.min(axis=0)`

- `np.min(ndarr, axis=0)`

In [82]:
print(ndarr_10.min(axis=0))

print(np.min(ndarr_10, axis=0))

[1 2 3]
[1 2 3]


In [None]:
### 3.3. 최대값

<br>

- 최대값 > 전체 기준

<br>

- 최대값 > 가로축(row) 기준 > `axis=1`

<br>

- 최대값 > 세로축(col) 기준 > `axis=0`

### 3.3. 누적 합계

<br>

- 누적 합계 > 전체 기준

1. `ndarray` method: `ndarr.cumsum()`

2. numpy method: `np.cumsum()`
   
    \> return: 누적합 요소를 가진 `ndarray`

In [77]:
np_print(ndarr_21)
print()

print(ndarr_21.sum())
print()

print(ndarr_21.cumsum())


    type : <class 'numpy.ndarray'>
    shape : (3, 4)
    dimension : 2
    dtype : int32
    data : 
 [[10 11 12 13]
 [14 15 16 17]
 [18 19 20 21]]

186

[ 10  21  33  46  60  75  91 108 126 145 165 186]


- 누적 합계: 가로축(row) 기준

1. `ndarray` method: `ndarr.cumsum(axis=1)`

2. numpy method: `np.cumsum(ndarr, axis=1)`

In [80]:
ndarr_10

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [78]:
ndarr_10.cumsum(axis=1)

array([[ 1,  2,  3],
       [ 5,  7,  9],
       [12, 15, 18]], dtype=int32)

In [79]:
np.cumsum(ndarr_10, axis=1)

array([[ 1,  2,  3],
       [ 5,  7,  9],
       [12, 15, 18]], dtype=int32)

### 3.4. 평균

<br>

- 평균: 전체 기준
    
1. `ndarray` method: `ndarr.mean()`

2. `numpy` method: `np.mean(ndarr)`

- 평균: 가로축(row) 기준 > `axis=1`

1. `ndarray` method: `ndarr.mean(axis=1)`

2. `numpy` method: `np.mean(ndarr, axis=1)`

- return > `[row 0 mean, row 1 mean, ..., row n mean]`

In [85]:
print(ndarr_21)

print(ndarr_21.mean(axis=1))

print(np.mean(ndarr_21, axis=1))

[[10 11 12 13]
 [14 15 16 17]
 [18 19 20 21]]
[11.5 15.5 19.5]
[11.5 15.5 19.5]


<br>

- 평균: 세로축(col) 기준 > `axis=0`
    
- `ndarr.mean(axis=0)`

- `np.mean(ndarr, axis=0)`

In [86]:
print(ndarr_13)

print(ndarr_13.mean(axis=0))

print(np.mean(ndarr_13, axis=0))

[[ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[7. 8. 9.]
[7. 8. 9.]


### 3.5. 중앙값

- 중앙값: 전체 기준

- `numpy` method: `np.median()` > `ndarr.mean()` 사용 불가

- 중앙값 > ((첫 index + 끝 index) / 2) index value

- 짝수 index 중앙값 > index $n.5$ > (index $n$ value) + (index $n+1$ value) $ / 2$

<br>

- 중앙값: 가로축(row) 기준 > exis=1

- `np.median(ndarr, exis=1)`

In [89]:
print(ndarr_13)

print(np.median(ndarr_13, axis=1))

[[ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[ 5.  8. 11.]


### 3.6. 상관계수

- 상관계수: 두 data간의 상관관계 (positive and negative)를 수치화 $-1 \leq x \leq 1$

- `numpy` method: `np.corrcoef(ndarr1, ndarr2)`

<br>

e.g.   
**성적** 에 대해 _사교육비_ 와 _공부시간_ 의 증감추세선의 관계 == 상관관계    
data **A** 에 대해 _B_ data set과 _C_ data set의 영향력의 관계 == 상관관계

<br>

- 서로 다른 배열 2개를 활용한 상관계수 matrix

- return > 대칭형 matrix > 대각성분을 경계로 상-하위 삼각형 중 하나만 따져도 됨

- 우하향 대각선 > 자기 자신과의 상관관계

In [96]:
x = [15, 12, 27, 37, 29]
y = [1, 4, 2, 9, 7]


print(np.corrcoef(x, y), "\n")

y.reverse()
print(y, "\n")

print(np.corrcoef(x, y))

[[1.         0.72615657]
 [0.72615657 1.        ]] 

[7, 9, 2, 4, 1] 

[[ 1.         -0.77648425]
 [-0.77648425  1.        ]]


- (상관계수) $\le 0.3$: 의미 없는 두 data
- (상관계수) $\ge 0.9$: 같은 data set인지 check 필요

<br>

- `numpy` > 3개 data set을 이용한 상관관계 비교 불가능

<br>

### 3.7. 표준편차

1. `ndarray` method: `ndarr.std()`

2. `numpy` method: `np.std(ndarr)`

In [98]:
ndarr_10

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

<br>

- 전체 표준편차

In [99]:
print(ndarr_10.std())

print(np.std(ndarr_10))

2.581988897471611
2.581988897471611


<br>

- 가로축(row, x축) > `axis=1`

In [103]:
print(ndarr_10.std(axis=1))

print(np.std(ndarr_10, axis=1))

[0.81649658 0.81649658 0.81649658]
[0.81649658 0.81649658 0.81649658]


<br>

- 세로축(col, y축) > `axis=0`

#### 3.8. 브로드캐스팅(BroadCasting)

- 서로 다른 구조(shape)를 가진 배열에 대해 연산을 수행할 때   
\> 구조(shape)를 맞추는 과정

- 배열과 스칼라값 간의 연산 or 배열과 배열 간의 연산

- BroadCasting Rule: 두 배열 사이 관계: 축의 길이($y = row, x = col$)    
\> 일치 or 하나의 길이 == 1

<img src='img/broadcast.png' width='600' height='400' align='left'>

- **배열과 값(single value, scalar)**

   \> scalar를 배열의 구조와 동일한 배열로 변형하여 연산 수행

<br>

- 구조가 다른 배열간의 연산

- `ndarr_10` 배열의 모든 요소에 각각 10씩 더하기

In [105]:
ndarr_10 + 10

array([[11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

<br>

- scalar > 배열 변형

- 3행 * 3열 shape: 모든 요소가 10인 배열

In [107]:
scalar_ndarr = np.full_like(ndarr_10, 10)

np_print(scalar_ndarr)


    type : <class 'numpy.ndarray'>
    shape : (3, 3)
    dimension : 2
    dtype : int32
    data : 
 [[10 10 10]
 [10 10 10]
 [10 10 10]]


In [108]:
ndarr_10 + scalar_ndarr

array([[11, 12, 13],
       [14, 15, 16],
       [17, 18, 19]])

- **서로 다른 구조의 배열**

- 행, 열의 최대 길이(col, row)를 기준으로 구조 생성한 배열로 변형해 연산 수행

- 확장된 행, 열에 대해 기존 배열과 동일한 데이터로 구성

<br>

- 1 * 4, value = 1 ~ 4, ndarr_x

- 4 * 1, value = 1 ~ 4, ndarr_y

In [110]:
ndarr_x = np.arange(1, 5).reshape(1, 4)

ndarr_y = np.arange(1, 5).reshape(4, 1)

In [111]:
np_print(ndarr_x)

np_print(ndarr_y)


    type : <class 'numpy.ndarray'>
    shape : (1, 4)
    dimension : 2
    dtype : int32
    data : 
 [[1 2 3 4]]

    type : <class 'numpy.ndarray'>
    shape : (4, 1)
    dimension : 2
    dtype : int32
    data : 
 [[1]
 [2]
 [3]
 [4]]


<br>

- 배열 `ndarr_x`를 동일한 값, 4행으로 확장한 새로운 배열 생성

- 행 증가 방향(y축) 배열 추가(세로길이 증가) method: `np.append(ndarr1, ndarr2, axis=0)`

In [116]:
new_x = np.append(ndarr_x, ndarr_x, axis=0)

np_print(new_x)


    type : <class 'numpy.ndarray'>
    shape : (2, 4)
    dimension : 2
    dtype : int32
    data : 
 [[1 2 3 4]
 [1 2 3 4]]


<br>

- 배열을 4행으로 확장하기

In [117]:
new_x = np.append(new_x, new_x, axis=0)

np_print(new_x)


    type : <class 'numpy.ndarray'>
    shape : (4, 4)
    dimension : 2
    dtype : int32
    data : 
 [[1 2 3 4]
 [1 2 3 4]
 [1 2 3 4]
 [1 2 3 4]]


<br>

- 배열 `ndarr_y` > 위와 동일한 수순으로 4열까지 확장 > `axis=1`

In [118]:
new_y = np.append(ndarr_y, ndarr_y, axis=1)
new_y = np.append(new_y, new_y, axis=1)

np_print(new_y)


    type : <class 'numpy.ndarray'>
    shape : (4, 4)
    dimension : 2
    dtype : int32
    data : 
 [[1 1 1 1]
 [2 2 2 2]
 [3 3 3 3]
 [4 4 4 4]]


<br>

(1 * 4) + (4 * 1) vs. (4 * 4) + (4 * 4)

In [119]:
np_print(ndarr_x + ndarr_y)


    type : <class 'numpy.ndarray'>
    shape : (4, 4)
    dimension : 2
    dtype : int32
    data : 
 [[2 3 4 5]
 [3 4 5 6]
 [4 5 6 7]
 [5 6 7 8]]


In [120]:
np_print(new_x + new_y)


    type : <class 'numpy.ndarray'>
    shape : (4, 4)
    dimension : 2
    dtype : int32
    data : 
 [[2 3 4 5]
 [3 4 5 6]
 [4 5 6 7]
 [5 6 7 8]]
