# numpy 의 기본연산, 기본함수
자주 사용되는 함수들, 연산들

In [1]:
import numpy as np

## numpy documentation
 - [numpy 공식 문서 링크](https://www.numpy.org/devdocs/reference/)
 - numpy에서 제공되는 함수등에 대한 문서
 - 검색(search) 기능 적극 활용

In [23]:
x = np.arange(15).reshape(3, 5)
y = np.random.rand(15).reshape(3, 5)
y2 = np.arange(0, 150, 10).reshape(3, 5)

In [24]:
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [25]:
y

array([[0.28578167, 0.19227651, 0.04305392, 0.11974257, 0.74907804],
       [0.22242984, 0.09970887, 0.40276575, 0.18951898, 0.51220887],
       [0.44697225, 0.34420965, 0.61489798, 0.02460462, 0.12168014]])

In [26]:
y2

array([[  0,  10,  20,  30,  40],
       [ 50,  60,  70,  80,  90],
       [100, 110, 120, 130, 140]])

In [7]:
a = [10, 20, 30, 40]
b = 2
c = [100, 200, 300, 400]

In [8]:
a * b

[10, 20, 30, 40, 10, 20, 30, 40]

In [9]:
a + c

[10, 20, 30, 40, 100, 200, 300, 400]

In [11]:
# 위 list 연산과는 다른 array 연산!!

In [28]:
x + y2

array([[  0,  11,  22,  33,  44],
       [ 55,  66,  77,  88,  99],
       [110, 121, 132, 143, 154]])

In [29]:
x - y2

array([[   0,   -9,  -18,  -27,  -36],
       [ -45,  -54,  -63,  -72,  -81],
       [ -90,  -99, -108, -117, -126]])

In [30]:
x * y2

array([[   0,   10,   40,   90,  160],
       [ 250,  360,  490,  640,  810],
       [1000, 1210, 1440, 1690, 1960]])

In [31]:
x / y2

  x / y2


array([[nan, 0.1, 0.1, 0.1, 0.1],
       [0.1, 0.1, 0.1, 0.1, 0.1],
       [0.1, 0.1, 0.1, 0.1, 0.1]])

#### 단일값 과의 연산 가능
스칼라값, 단일값 객체와 array  연산 가능

In [32]:
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [33]:
x + 10

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [34]:
x - 20

array([[-20, -19, -18, -17, -16],
       [-15, -14, -13, -12, -11],
       [-10,  -9,  -8,  -7,  -6]])

In [35]:
x ** 2

array([[  0,   1,   4,   9,  16],
       [ 25,  36,  49,  64,  81],
       [100, 121, 144, 169, 196]], dtype=int32)

In [36]:
10 + x  # 교환법칙이 성립

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [38]:
# 단일값만 갖고 있는 array는 shape 관계없이 scalar 연산된다.
x + np.array(10)

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [39]:
x + np.array([[[10]]])

array([[[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24]]])

In [40]:
x + np.array([10, 20])

ValueError: operands could not be broadcast together with shapes (3,5) (2,) 

In [42]:
x + [10]

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [43]:
x + (10,)

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [44]:
x + [10, 20]

ValueError: operands could not be broadcast together with shapes (3,5) (2,) 

# 기본 함수
 - add(), substract(), multiply(), divide() : array 간 행렬 4칙연산. 
 - array 요소간 연산 (element wise operation) 이 이루어짐
 - 기본적으론 shape 이 같은 array 끼리 가능.

In [47]:
np.add(x, y2)  # 행렬 요소간 연산

array([[  0,  11,  22,  33,  44],
       [ 55,  66,  77,  88,  99],
       [110, 121, 132, 143, 154]])

In [48]:
x + y2

array([[  0,  11,  22,  33,  44],
       [ 55,  66,  77,  88,  99],
       [110, 121, 132, 143, 154]])

In [51]:
np.subtract(x, y2)

array([[   0,   -9,  -18,  -27,  -36],
       [ -45,  -54,  -63,  -72,  -81],
       [ -90,  -99, -108, -117, -126]])

In [52]:
np.multiply(x, y2)

array([[   0,   10,   40,   90,  160],
       [ 250,  360,  490,  640,  810],
       [1000, 1210, 1440, 1690, 1960]])

In [53]:
np.divide(x, y2)

  np.divide(x, y2)


array([[nan, 0.1, 0.1, 0.1, 0.1],
       [0.1, 0.1, 0.1, 0.1, 0.1],
       [0.1, 0.1, 0.1, 0.1, 0.1]])

In [54]:
y3 = np.arange(15).reshape(5, 3)
y3

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [55]:
np.add(x, y3)  # shape 이 다른건끼린 '기본적으론' 연산 불가

ValueError: operands could not be broadcast together with shapes (3,5) (5,3) 

## 통계함수
- 평균, 분산, 중앙, 최대, 최솟값 등등 통계관련된 기본함수들

In [56]:
y

array([[0.28578167, 0.19227651, 0.04305392, 0.11974257, 0.74907804],
       [0.22242984, 0.09970887, 0.40276575, 0.18951898, 0.51220887],
       [0.44697225, 0.34420965, 0.61489798, 0.02460462, 0.12168014]])

#### meam(), np.mean()
평균

In [57]:
np.mean(y)

0.29126197653052904

In [58]:
y.mean()

0.29126197653052904

In [59]:
# 모든 numpy 함수가 위와 같이 두가지 방법이 제공되는건 아님..
# 웬만한건 np 안에 함수로 있고.
# 멤버함수로는 없는 것들도 있고, 혹은 멤버함수로만 제공되는 것도 있다.

# 편한 방법 사용하면 된다.

#### max(), min()
#### np.max(), np.min()
최댓값, 최솟값

In [60]:
np.max(y2), y2.max()

(140, 140)

In [61]:
np.min(y), y.min()

(0.024604615948947806, 0.024604615948947806)

#### argmax(), argmin()

- 최대, 최솟값의 index 
- 기본적으론 flatten 한 상태의 index 값을 리턴함

In [63]:
x

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [64]:
np.argmax(x)

14

In [65]:
y

array([[0.28578167, 0.19227651, 0.04305392, 0.11974257, 0.74907804],
       [0.22242984, 0.09970887, 0.40276575, 0.18951898, 0.51220887],
       [0.44697225, 0.34420965, 0.61489798, 0.02460462, 0.12168014]])

In [66]:
y.argmax()

4

In [67]:
y.argmin()

13

In [68]:
# ↑ 분명히 y 는 2차원 배열인데.   index 값이 걍 정수 가 나왔다???
# argmax() 는 flatten 한 상태로 가정하고 index 값을 가져옵니다.

In [69]:
y

array([[0.28578167, 0.19227651, 0.04305392, 0.11974257, 0.74907804],
       [0.22242984, 0.09970887, 0.40276575, 0.18951898, 0.51220887],
       [0.44697225, 0.34420965, 0.61489798, 0.02460462, 0.12168014]])

In [70]:
np.argmax(y, axis=0)

# axis = 0
#  ↓       ↓
# [0, 0]  [0, 1]  ..
# [1, 0]  [1, 1]  ..
# [2, 0]  [2, 1]  ..

array([2, 2, 2, 1, 0], dtype=int64)

In [71]:
np.argmax(y, axis=1)

# axis = 1
#     ↓        ↓
# [0, 0]   [1, 0]   ...
# [0, 1]   [1, 1]   ...
# [0, 2]   [1, 2]   ...
# [0, 3]   [1, 3]   ...
# [0, 4]   [1, 4]   ...

array([4, 4, 2], dtype=int64)

In [72]:
# array의 수많은 연산에서 axis(축) 파라미터를 사용한다 
# numpy 의 많은 연산들이 axis 를 기준으로 연산한다.

# 기본값이 axis=None 이며, 이 경우 축 없이 전체원소에 대해 연산

**var()** 분산 (variance) 값

**std()** 표준편차 (standard deviation) 값

**median()** 중앙값

In [74]:
np.var(y), np.std(y), np.median(y)

(0.04367574152825905, 0.20898741954543354, 0.22242984180577152)

# 집계함수
 - 합계(**sum**), 누적합계(**cumsum**) 등등 계산 가능

In [75]:
y

array([[0.28578167, 0.19227651, 0.04305392, 0.11974257, 0.74907804],
       [0.22242984, 0.09970887, 0.40276575, 0.18951898, 0.51220887],
       [0.44697225, 0.34420965, 0.61489798, 0.02460462, 0.12168014]])

In [76]:
np.sum(y)

4.368929647957936

In [77]:
y.sum()

4.368929647957936

In [78]:
sum([10, 20, 30])

60

In [79]:
sum(y)

array([0.95518376, 0.63619503, 1.06071764, 0.33386616, 1.38296706])

In [82]:
# np.sum() 연산도 axis 사용
np.sum(y, axis = 0)

array([0.95518376, 0.63619503, 1.06071764, 0.33386616, 1.38296706])

In [83]:
np.sum(y, axis = 1)

array([1.38993271, 1.4266323 , 1.55236464])

In [85]:
y

array([[0.28578167, 0.19227651, 0.04305392, 0.11974257, 0.74907804],
       [0.22242984, 0.09970887, 0.40276575, 0.18951898, 0.51220887],
       [0.44697225, 0.34420965, 0.61489798, 0.02460462, 0.12168014]])

In [84]:
# 누적합계 (cumulative sum)
np.cumsum(y)

array([0.28578167, 0.47805818, 0.5211121 , 0.64085467, 1.38993271,
       1.61236255, 1.71207142, 2.11483717, 2.30435614, 2.81656501,
       3.26353726, 3.60774691, 4.22264489, 4.2472495 , 4.36892965])

In [86]:
np.sum(y)

4.368929647957936

In [87]:
# 누적된 값의 그래프 등을 그릴때 유용하다

# ndarray 와의 비교 연산 
bool 값이 나오는 비교 연산을 하면 True, False 로 이루어진 ndarray 결과값 

In [89]:
z = np.random.randn(10)
z   # 양수, 음수 포함된 랜덤 표준편차 

array([ 1.31573938, -1.32982017,  1.01619766,  1.07317629, -0.67088094,
        0.7566689 , -1.90826172,  0.8543375 , -1.26185788,  0.15345494])

In [90]:
z > 0

array([ True, False,  True,  True, False,  True, False,  True, False,
        True])

In [91]:
z < 0

array([False,  True, False, False,  True, False,  True, False,  True,
       False])

In [92]:
p = np.arange(1, 13).reshape(3, 4)
p

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [93]:
p % 2

array([[1, 0, 1, 0],
       [1, 0, 1, 0],
       [1, 0, 1, 0]], dtype=int32)

In [95]:
p % 2 == 0  # 동일한 shape 의 True, False 로 이루어진 결과 생성됨

array([[False,  True, False,  True],
       [False,  True, False,  True],
       [False,  True, False,  True]])

In [96]:
p % 3 == 0

array([[False, False,  True, False],
       [False,  True, False, False],
       [ True, False, False,  True]])

# any, all 함수
 - any: 특정 조건을 만족하는 것이 하나라도 있으면 True, 아니면 False
 - all: 모든 원소가 특정 조건을 만족한다면 True, 아니면 False

In [97]:
z

array([ 1.31573938, -1.32982017,  1.01619766,  1.07317629, -0.67088094,
        0.7566689 , -1.90826172,  0.8543375 , -1.26185788,  0.15345494])

In [98]:
np.any(z > 0)  # 주어진 조건이 '하나라도 True' 이면 True

True

In [99]:
np.all(z > 0)  # 주어진 조건과 '모두 True' 이어야 True

False

In [100]:
np.all(z != 0)

True

# where 함수
 - 조건에 따라 선별적으로 값을 선택 가능
 - 사용 예) 음수인경우는 0, 나머지는 그대로 값을 쓰는 경우
 - where(condition, [x, y])  조건이 True 혹은 False 일때의 값 x, y 명시

In [102]:
q = np.random.randn(10)
q

array([ 0.93104787, -1.47606833, -0.63350632, -0.68753134, -0.79091836,
       -0.09561646,  0.37148247, -0.15075263, -0.49119834,  0.07231742])

In [103]:
np.where(q > 0, q, 0)  # 0보다 크면(조건) True이면 그대로, False 이면 0

array([0.93104787, 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.37148247, 0.        , 0.        , 0.07231742])

In [104]:
# 이또한 파이썬으로 하려면 for 돌려야 겠었죠?
# numpy 로 하면 함수로 간단하게 되죠 (심지어 더 빠릅니다)
# numpy 를 사용하면 파이썬 프로그래밍의 패러다임이 바뀝니다.