In [3]:
import numpy as np

## 1. axis 이해하기
 - 몇몇 함수에는 axis keyword 파라미터가 존재
 - axis값이 없는 경우에는 전체 데이터에 대해 적용
 - axis값이 있는 경우에는, 해당 axis를 **따라서** 연산 적용

### 1.1. axis를 파라미터로 갖는 함수를 이용하기
 - 거의 대부분의 연산 함수들이 axis 파라미터를 사용
 - 이 경우, 해당 값이 주어졌을 때, 해당 axis를 **따라서** 연산이 적용
 - 예) np.sum, np.mean, np.any 등등
 

In [4]:
x = np.arange(15)
print(x)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


### 1.2. 1차원 데이터에 적용하기

In [5]:
np.sum(x)

105

In [6]:
#  축이 하나인 배열이라 결과가 같다. 1차원은 별 차이 없다.
# 1차원이기때문에 axix는 0값만 올 수 있다.
np.sum(x, axis=0)

105

### 1.3. 2차원 array에 적용하기

In [9]:
y = x.reshape(3, 5)
print(y)

np.sum(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


105

In [8]:
np.sum(y,axis=0)

array([15, 18, 21, 24, 27])

In [10]:
np.sum(y, axis=1)

array([10, 35, 60])

### 1.4. 3차원 array에 적용하기

In [12]:
z = np.arange(36).reshape(3,4,3)
print(z)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]


In [13]:
np.sum(z)

630

In [14]:
np.sum(z, axis=0)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

In [15]:
np.sum(z, axis=1)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [16]:
np.sum(z, axis=2)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

In [17]:
np.sum(z, axis=-1)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

In [18]:
np.sum(z, axis=-2)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [19]:
np.sum(z, axis=-3)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

### 1.5. axis의 값이 튜플일 경우
 - 해당 튜플에 명시된 모든 axis에 대해서 연산

In [29]:
print(z)
print(z.shape)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]
(3, 4, 3)


In [20]:
# 0,1번째 축을 동시에 합쳐라 3만 남는다.
# axis =0 에서 행들의 합
np.sum(z, axis=(0,1))
# 0+3+6+...27+30+33

array([198, 210, 222])

In [22]:
np.sum(z, axis=(0,2))
# 0+1+2+12+13+14...25+26

array([117, 144, 171, 198])

In [23]:
np.sum(z, axis=(1,2))

array([ 66, 210, 354])

In [29]:
z.reshape(3, 6, 2)
print(np.sum(z, axis=(1,2)))

[ 66 210 354]


In [31]:
# Numpy array의 모든 원소의 합을 구하는 함수

def cal_sum(values):
    total = 0
    for num in values:
        total += num
    return total

In [34]:
big_array = np.random.randint(1, 100, size = 10000000)
print(big_array)

[27 82 82 ... 67 71 41]


In [35]:
%pwd


'C:\\Users\\qwe\\Documents\\python_pbd'

In [37]:
%timeit cal_sum(big_array)

1.06 s ± 38 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [38]:
%timeit np.sum(big_array) # np가 얼마나 빠른지를 잘 알수 있는 예이다.

4.12 ms ± 18 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 2. Broadcasting
- shape이 같은 두 ndarray에 대한 연산은 각 원소별로 진행
- 연산되는 두 ndarray가 다른 shape을 갖는 경우 broadcasting(shape을 맞춤)후 진행

### 2.1. 브로드캐스팅 Rule
 - [공식문서](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#general-broadcasting-rules)
 - 뒷 차원에서 부터 비교하여 Shape이 같거나, 차원 중 값이 1인 것이 존재하면 가능

![브로드캐스팅 예](https://www.tutorialspoint.com/numpy/images/array.jpg)
    - 출처: https://www.tutorialspoint.com/numpy/images/array.jpg 

### 2.2. Shape이 같은 경우의 연산

In [58]:
x = np.arange(15).reshape(3,5)
y = np.random.rand(15).reshape(3,5)
print(x)
print(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[1.44143334e-01 9.44513514e-02 2.16233926e-04 3.11999734e-01
  2.79289988e-01]
 [5.46681719e-01 4.73829801e-01 8.08423686e-01 6.62969859e-01
  8.48174212e-01]
 [6.69519844e-01 4.27361924e-01 9.31578050e-01 7.90926560e-01
  7.20487164e-01]]


In [59]:
x+y

array([[ 0.14414333,  1.09445135,  2.00021623,  3.31199973,  4.27928999],
       [ 5.54668172,  6.4738298 ,  7.80842369,  8.66296986,  9.84817421],
       [10.66951984, 11.42736192, 12.93157805, 13.79092656, 14.72048716]])

In [60]:
x*y

array([[0.00000000e+00, 9.44513514e-02, 4.32467851e-04, 9.35999201e-01,
        1.11715995e+00],
       [2.73340859e+00, 2.84297881e+00, 5.65896581e+00, 5.30375887e+00,
        7.63356791e+00],
       [6.69519844e+00, 4.70098117e+00, 1.11789366e+01, 1.02820453e+01,
        1.00868203e+01]])

In [61]:
x-y

array([[-0.14414333,  0.90554865,  1.99978377,  2.68800027,  3.72071001],
       [ 4.45331828,  5.5261702 ,  6.19157631,  7.33703014,  8.15182579],
       [ 9.33048016, 10.57263808, 11.06842195, 12.20907344, 13.27951284]])

In [62]:
x/y

array([[0.00000000e+00, 1.05874610e+01, 9.24924243e+03, 9.61539282e+00,
        1.43220315e+01],
       [9.14608963e+00, 1.26627747e+01, 8.65882596e+00, 1.20669136e+01,
        1.06110276e+01],
       [1.49360771e+01, 2.57393076e+01, 1.28813683e+01, 1.64364186e+01,
        1.94312969e+01]])

### 2.3. Scalar(상수)와의 연산 
- 모든 연산이 가능하다.

In [63]:
# a라는 array에 일괄적으로 3으로 더하고 싶다면?
a = np.array([[1, 2, 3], 
              [2, 3, 4]])

b = np.array([[3,3,3],
             [3,3,3]])
a+b

array([[4, 5, 6],
       [5, 6, 7]])

In [64]:
# broadcating 기능을 이용하면...

a+3

array([[4, 5, 6],
       [5, 6, 7]])

In [65]:
x+2

array([[ 2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16]])

In [69]:
x**2 == 0

array([[ True, False, False, False, False],
       [False, False, False, False, False],
       [False, False, False, False, False]])

In [70]:
x%2

array([[0, 1, 0, 1, 0],
       [1, 0, 1, 0, 1],
       [0, 1, 0, 1, 0]], dtype=int32)

### 2.4. Shape이 다른 경우 연산

In [77]:
a = np.arange(12).reshape(4,3)
b = np.arange(100,103)
c = np.arange(1000, 1004)
d = b.reshape(1,3)

print(a, a.shape)
print(b, b.shape) # 벡터
print(c, c.shape)
print(d, d.shape) # 1행 3열의 행열

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]] (4, 3)
[100 101 102] (3,)
[1000 1001 1002 1003] (4,)
[[100 101 102]] (1, 3)


In [78]:
a+b

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [79]:
a+c

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [80]:
a+d

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

## 3. Boolean Indexing

- 조건 필터링을 통하여 Boolean 값을 이용한 indexing
- bool리스트를 전달하여 True인 경우만 필터링!!

In [86]:
arr = np.random.choice(np.arange(101), size = 10, replace = False)
arr

array([51, 91, 18, 67, 92,  9, 72, 25, 90, 42])

### 3.1. True와 False 값으로 색인하기

In [87]:
myTrueFalse = [True, False, True]

In [88]:
arr[myTrueFalse]

IndexError: boolean index did not match indexed array along dimension 0; dimension is 10 but corresponding boolean dimension is 3

In [89]:
myTrueFalse = [True, False, True, False, True, False, True, True, False, True]

In [90]:
arr[myTrueFalse]

array([51, 18, 92, 72, 25, 42])

### 3.2. 조건필터

- 조건 연산자를 활용하여 필터를 생성
- 필터를 활용하여 필터에 True 조건만 색인
- **arr2d[조건필터]** : 조건에 맞는 값만 1차원 array로 반환

In [98]:
arr2d = np.random.randint(1, 100, size = 10).reshape(2,5)
print(arr2d)

# 조건을 만족하는 boolen index를 만들 수 있다
# python list에서는 불가능. 50, 2 는 상수라서 numpy의 broadcasting기능으로 가능

print(arr2d > 50)
print(arr2d % 2 ==0)

# lista = [1,4,6,3,5,7,9]
# lista % 2==0 오류가 뜬다.

[[90 38 77 96 78]
 [24  4  7 68 10]]
[[ True False  True  True  True]
 [False False False  True False]]
[[ True  True False  True  True]
 [ True  True False  True  True]]


TypeError: unsupported operand type(s) for %: 'list' and 'int'

In [109]:
# index 자리에 조건 필터를 넣으면 1차원 array로 반환해준다.
# 파이썬 기존 문법으로는 loop를 돌면서 일일이 계산해서 새로운 리스트를 생성해야 하다.
print(arr2d)
print(arr2d[arr2d>50])
print(arr2d[arr2d%2==0])
print(arr2d[arr2d%2 == 1])

[[90 38 77 96 78]
 [24  4  7 68 10]]
[90 77 96 78 68]
[90 38 96 78 24  4 68 10]
[77  7]


### 3.3. 다중조건 사용하기
- 논리 연산자인 and, or, not 키워드 사용불가
- & : AND
- | : OR

In [113]:
# 짝수면서 60보다 작은 수
print(arr2d)
print(arr2d%2 ==0)
print(arr2d < 60)

arr2d[(arr2d%2 ==0) & (arr2d < 60)]

[[90 38 77 96 78]
 [24  4  7 68 10]]
[[ True  True False  True  True]
 [ True  True False  True  True]]
[[False  True False False False]
 [ True  True  True False  True]]


array([38, 24,  4, 10])

In [114]:
# 30보다 작거나 70보다 큰 수
print(arr2d)

arr2d[(arr2d < 30) | (arr2d > 70)]

[[90 38 77 96 78]
 [24  4  7 68 10]]


array([90, 77, 96, 78, 24,  4,  7, 10])

**연습문제)2020년 7월 서울 평균기온 데이터**
- 평균기온이 25도를 넘는 날수는?
- 평균기온이 25를 넘는 날의 평균기온은?

In [40]:
temp = np.array(
        [23.9, 24.4, 24.1, 25.4, 27.6, 29.7,
         26.7, 25.1, 25.0, 22.7, 21.9, 23.6, 
         24.9, 25.9, 23.8, 24.7, 25.6, 26.9, 
         28.6, 28.0, 25.1, 26.7, 28.1, 26.5, 
         26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])

In [117]:
day = temp[temp>25]
len(day)

21

In [122]:
average = int(np.mean(day))
average

26

In [126]:
temp>25

array([False, False, False,  True,  True,  True,  True,  True, False,
       False, False, False, False,  True, False, False,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True])

In [134]:
len(temp[temp>25])
print('평균기온이 넘는 날 수는 ', end='')
print(len(temp[temp>25]), end='')
print('입니다')

평균기온이 넘는 날 수는 21입니다


In [139]:
np.mean(temp[temp>25])
print('평균기온이 넘는 기온은 ', end='')
print(round(np.mean(temp[temp>25]), 2), end='')
print('도 입니다')

평균기온이 넘는 기온은 26.86도 입니다


In [142]:
# 반올림을 해주기 때문에 결과값이 달라질 수 있다.
a = round(np.mean(temp[temp>25]), 2)
print(a, type(a))

26.86 <class 'numpy.float64'>
