## 학습목표
 1. axis의 이해
 2. axis를 파라미터로 갖는 함수 이해하기

**axis 이해하기**
- 몇몇 함수에는 axis keyword 파라미터가 존재
- axis값이 없는 경우에는 전체 데이처에 대해 적용
- axis값이 있는 경우에는, 해당 axis를 **따라서** 연산 적용

- axis를 파라미터로 갖는 함수를 이용하기
 - 거의 대부분의 연산 함수들이 axis 파라미터를 사용
 - 이 경우, 해당 값이 주어졌을 때 해당 axis를 **따라서** 연산 적용
   - 따라서 결과는 해당 axis가 제외된 나머지 차원의 데이터만 남게 됨
 - 예) np.sum, np.mean, np.any 등

In [2]:
import numpy as np

In [4]:
x = np.arange(15)
print(x)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


- 1차원 데이터에 적용하기

In [7]:
np.sum(x, axis=0)

105

- 행렬에 적용하기

In [9]:
y = x.reshape(3, 5)
print(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [11]:
np.sum(y, axis=0) #열의 합

array([15, 18, 21, 24, 27])

In [12]:
np.sum(y, axis=1) #행의 합

array([10, 35, 60])

- 3차원 텐서에 적용하기

In [16]:
z = np.arange(36).reshape(3, 4, 3)
print(z)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]


In [17]:
np.sum(z, axis=0)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

In [19]:
np.sum(z, axis=1)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [20]:
np.sum(z, axis=2)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

In [21]:
np.sum(z, axis=-1)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

- axis값이 튜플인 경우
 - 해당 튜플에 명시된 모든 axis에 대해서 연산

In [22]:
np.sum(z, axis=(0,1))

array([198, 210, 222])

In [24]:
np.sum(z, axis=(0,2))

array([117, 144, 171, 198])

In [26]:
np.sum(z, axis=(1,2))

array([ 66, 210, 354])

## 학습목표
1. 브로드캐스팅의 이해

In [27]:
import numpy as np

### 브로드캐스팅
- Shape이 같은 두 ndarray에 대한 연산은 각 원소별로 진행
- 연산되는 두 ndarray가 다른 shape을 갖는 경우 브로드캐스팅(shape을 맞춤) 후 진행

**브로드캐스팅 Rule**
- [공식문서](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#general-broadcasting-rules)
- 뒷 차원에서부터 비교하여 shape이 같거나, 차원 중 값이 1인 것이 존재하면 가능

![브로드캐스팅 예](https://www.tutorialspoint.com/numpy/images/array.jpg)
    - 출처: https://www.tutorialspoint.com/numpy/images/array.jpg 

- shape이 같은 경우의 연산

In [29]:
x = np.arange(15).reshape(3, 5)
y = np.random.rand(15).reshape(3, 5)

print(x)
print(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[0.17189758 0.47765036 0.16372914 0.39998938 0.36200153]
 [0.87883343 0.56724129 0.75448442 0.53090711 0.18863771]
 [0.20768535 0.33548317 0.7389815  0.61173011 0.60519087]]


- scalar(상수)와의 연산

In [31]:
x + 0.1

array([[ 0.1,  1.1,  2.1,  3.1,  4.1],
       [ 5.1,  6.1,  7.1,  8.1,  9.1],
       [10.1, 11.1, 12.1, 13.1, 14.1]])

In [32]:
x ** 2

array([[  0,   1,   4,   9,  16],
       [ 25,  36,  49,  64,  81],
       [100, 121, 144, 169, 196]], dtype=int32)

In [33]:
x % 2 == 0

array([[ True, False,  True, False,  True],
       [False,  True, False,  True, False],
       [ True, False,  True, False,  True]])

- shape이 다른 경우 연산

In [43]:
a = np.arange(12).reshape(4, 3)
b = np.arange(100,103)
c = np.arange(1000,1004)
d = b.reshape(1,3)

print(a, a.shape)
print(b, b.shape)
print(c, c.shape)
print(d, d.shape)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]] (4, 3)
[100 101 102] (3,)
[1000 1001 1002 1003] (4,)
[[100 101 102]] (1, 3)


In [35]:
a + b

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [38]:
a + c #열의 길이가 같아야 함

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [44]:
a + d    

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

**Boolean indexcing**
- ndarray 인덱싱 시, bool 리스트를 전달하여 True인 경우만 필터링

- 브로드캐스팅을 활용하여 ndarray로부터 bool list 얻기
 - 예) 짝수인 경우만 찾아보기

In [1]:
import numpy as np

In [2]:
x = np.random.randint(1, 100, size=10)
print(x)

[26 77 56 73 38 61 34 69 48 18]


In [10]:
even_mask = x % 2 == 0
print(even_mask)

[ True False  True False  True False  True False  True  True]


- bool 리스트를 인덱스로 전달

In [6]:
x[even_mask]

array([26, 56, 38, 34, 48, 18])

In [7]:
x[x % 2 == 0]

array([26, 56, 38, 34, 48, 18])

In [9]:
x[x > 30]

array([77, 56, 73, 38, 61, 34, 69, 48])

**다중조건 사용하기**
- 파이썬 논리 연산자인 and, or, not 키워드 사용 불가
- & - AND
- | - OR

In [13]:
x[(x % 2 == 0) & (x < 30)]

array([26, 18])

In [14]:
x[(x < 30) | (x > 50)]

array([26, 77, 56, 73, 61, 69, 18])

**예제) 2019년 7월 서울 평균기온 데이터**
- 평균기온이 25도를 넘는 날의 수는?
- 평균기온이 25도를 넘는 날의 평균 기온은?

In [15]:
temp = np.array (
        [23.9, 24.4, 24.1, 25.4, 27.6, 29.7,
         26.7, 25.1, 25.0, 22.7, 21.9, 23.6,
         24.9, 25.9, 23.8, 24.7, 25.6, 26.9,
         28.6, 28.0, 25.1, 26.7, 28.1, 26.5,
         26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])

In [16]:
len(temp)

31

In [17]:
len(temp[temp > 25])

21

In [19]:
np.sum(temp > 25)

21

In [20]:
np.mean(temp[temp > 25])

26.857142857142858

## 학습목표
1. linalg 서브모듈 함수 활용하여 선형대수 연산하기

In [4]:
import numpy as np

**np.linalg.inv**
- 역행렬을 구할 떄 사용
- 모든 차원의 값이 같아야 함 (정방행렬)

In [7]:
x = np.random.rand(3, 3)
print(x)

y = np.linalg.inv(x)
print(y)

x @ y
np.matmul(x, y)

[[0.80176437 0.84854488 0.13075266]
 [0.30891628 0.00095395 0.46983615]
 [0.79844645 0.03816225 0.06501894]]
[[-0.06195666 -0.17400336  1.38196759]
 [ 1.23113711 -0.18124156 -1.16613131]
 [ 0.03823667  2.24317639 -0.90627307]]


array([[ 1.00000000e+00, -2.51187229e-17, -5.77120232e-17],
       [-8.99856789e-18,  1.00000000e+00,  4.24945371e-17],
       [-6.80145363e-17, -8.28775641e-19,  1.00000000e+00]])

**np.linalg.solve**
- Ax = B 형태의 선형대수식 솔루션을 제공
- 예제) 호랑이와 홍학의 합: 25, 호랑이 다리와 홍학 다리의 합:64
   - x + y = 25
   - 2x + 4y = 64

$$\begin{pmatrix} 1 & 1 \\ 2 & 4 \end{pmatrix}\begin{pmatrix} x \\ y \end{pmatrix}= \begin{pmatrix} 25 \\ 64 \end{pmatrix}$$


In [9]:
A = np.array([[1, 1], [2, 4]])
B = np.array([[25], [64]])
x = np.linalg.solve(A, B)
print(x)

np.allclose(A@x, B) #np.allclose함수로 실수값 비교

[[18.]
 [ 7.]]


True