In [1]:
import numpy as np

## 1. axis 이해하기
 - 몇몇 함수에는 axis keyword 파라미터가 존재
 - axis값이 없는 경우에는 전체 데이터에 대해 적용
 - axis값이 있는 경우에는, 해당 axis를 **따라서** 연산 적용

### 1.1. axis를 파라미터로 갖는 함수 이용하기
 - 거의 대부분의 연산 함수들이 axis 파라미터를 사용
 - 이 경우, 해당 값이 주어졌을 때, 해당 axis를 **따라서** 연산이 적용
 - 예) np.sum, np.mean, np.any 등등
 

In [2]:
x = np.arange(15)
print(x)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


### 1.2. 1차원 데이터에 적용하기

In [3]:
np.sum(x)

105

In [6]:
#  축이 하나인 배열이라 결과가 같다. 1차원은 별 차이 없다.
# 1차원이기때문에 axix는 0값만 올 수 있다.
np.sum(x, axis=0)


105

### 1.3. 2차원 array에 적용하기

In [9]:
y = x.reshape(3,5)
print(y)

np.sum(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


105

In [10]:
np.sum(y, axis=0)

array([15, 18, 21, 24, 27])

In [12]:
np.sum(y, axis=1)

array([10, 35, 60])

### 1.4. 3차원 array에 적용하기

In [13]:
z = np.arange(36).reshape(3,4,3)
print(z)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]


In [14]:
np.sum(z)

630

In [15]:
np.sum(z, axis=0)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

In [16]:
np.sum(z, axis=1)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [17]:
np.sum(z, axis=2)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

In [18]:
np.sum(z, axis=-1)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

In [19]:
np.sum(z, axis=-2)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [20]:
np.sum(z, axis=-3)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

### 1.5. axis의 값이 튜플일 경우
 - 해당 튜플에 명시된 모든 axis에 대해서 연산

In [21]:
print(z)
print(z.shape)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]
(3, 4, 3)


In [22]:
# 0,1번째 축을 동시에 합쳐라 3만 남는다.
# axis =0 에서 행들의 합
np.sum(z, axis=(0,1))
# 세로로 다 더한 값

array([198, 210, 222])

In [23]:
np.sum(z, axis=(0,2))

array([117, 144, 171, 198])

In [24]:
np.sum(z, axis=(1,2))

array([ 66, 210, 354])

In [29]:
# numpy array의 모든 원소의 합을 구하는 함수

def cal_sum(values):
    total = 0
    for num in values :
        total += num
    return total


In [30]:
big_array = np.random.randint(1,100, size = 10000000)

In [27]:
%pwd  #현재 파이썬 실행되고 있는 폴더 경로

'C:\\Users\\ict06\\Documents\\sd_python\\Numpy'

In [31]:
%timeit cal_sum(big_array)

1.05 s ± 19.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [32]:
%timeit np.sum(big_array)  # numpy가 데이터처리 속도 훨씬 빠름

4.09 ms ± 20.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 2. Broadcasting
- shape이 같은 두 ndarray에 대한 연산은 각 원소별로 진행
- 연산되는 두 ndarray가 다른 shape을 갖는 경우 broadcasting(shape을 맞춤)후 진행

### 2.1. 브로드캐스팅 Rule
 - [공식문서](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#general-broadcasting-rules)
 - 뒷 차원에서 부터 비교하여 Shape이 같거나, 차원 중 값이 1인 것이 존재하면 가능

![브로드캐스팅 예](https://www.tutorialspoint.com/numpy/images/array.jpg)
    - 출처: https://www.tutorialspoint.com/numpy/images/array.jpg 

### 2.2. Shape이 같은 경우의 연산

In [34]:
x = np.arange(15).reshape(3,5)
y = np.random.rand(15).reshape(3,5)
print(x)
print(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[0.77254145 0.79817331 0.65388243 0.8099381  0.84742219]
 [0.0713093  0.3974336  0.7699853  0.50068181 0.19323789]
 [0.02057386 0.28423579 0.87695397 0.69447374 0.24529605]]


In [35]:
x+y

array([[ 0.77254145,  1.79817331,  2.65388243,  3.8099381 ,  4.84742219],
       [ 5.0713093 ,  6.3974336 ,  7.7699853 ,  8.50068181,  9.19323789],
       [10.02057386, 11.28423579, 12.87695397, 13.69447374, 14.24529605]])

In [36]:
x*y

array([[ 0.        ,  0.79817331,  1.30776486,  2.4298143 ,  3.38968878],
       [ 0.35654648,  2.3846016 ,  5.38989713,  4.00545445,  1.73914101],
       [ 0.20573855,  3.12659371, 10.52344763,  9.02815861,  3.43414472]])

### 2.3. Scalar(상수)와의 연산 
- 모든 연산이 가능하다.

In [40]:
# a라는 array에 일괄적으로 3으로 더하고 싶다면?
a = np.array([[1, 2, 3], 
              [2, 3, 4]])

b = np.array([[3,3,3],
            [3,3,3]])
a+b

array([[4, 5, 6],
       [5, 6, 7]])

In [41]:
# broadcating 기능을 이용하면...

a+3

array([[4, 5, 6],
       [5, 6, 7]])

In [42]:
x+2

array([[ 2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16]])

In [44]:
print(x)
x**2 == 0

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


array([[ True, False, False, False, False],
       [False, False, False, False, False],
       [False, False, False, False, False]])

In [45]:
x%2

array([[0, 1, 0, 1, 0],
       [1, 0, 1, 0, 1],
       [0, 1, 0, 1, 0]], dtype=int32)

### 2.4. Shape이 다른 경우 연산

In [51]:
a = np.arange(12).reshape(4,3)
b = np.arange(100,103)
c = np.arange(1000, 1004)
d = b.reshape(1,3)

print(a, a.shape)
print(b, b.shape) # 벡터
print(c, c.shape)
print(d, d.shape) # 1행 3열의 행열

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]] (4, 3)
[100 101 102] (3,)
[1000 1001 1002 1003] (4,)
[[100 101 102]] (1, 3)


In [47]:
a+b


array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [50]:
a+c

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [52]:
a+d

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

## 3. Boolean Indexing

- 조건 필터링을 통하여 Boolean 값을 이용한 indexing
- bool리스트를 전달하여 True인 경우만 필터링!!

In [54]:
arr = np.random.choice(np.arange(101), size =10, replace = False)
arr

array([98,  4, 93, 53, 65, 87, 67, 42, 51, 96])

### 3.1. True와 False 값으로 색인하기

In [55]:
myTrueFalse = [True, False, True]

In [56]:
arr[myTrueFalse]

IndexError: boolean index did not match indexed array along dimension 0; dimension is 10 but corresponding boolean dimension is 3

In [57]:
myTrueFalse = [True, False, True, False, True, False, True, True, False, True]

In [58]:
arr[myTrueFalse]

array([98, 93, 65, 67, 42, 96])

### 3.2. 조건필터

- 조건 연산자를 활용하여 필터를 생성
- 필터를 활용하여 필터에 True 조건만 색인
- **arr2d[조건필터]** : 조건에 맞는 값만 1차원 array로 반환

In [64]:
arr2d = np.random.randint(1, 100, size = 10).reshape(2,5)
print(arr2d)

# 조건을 만족하는 boolen index를 만들 수 있다
# python list에서는 불가능. 50, 2 는 상수라서 numpy의 broadcasting기능으로 가능

print(arr2d > 50)
print(arr2d %2 ==0)

# lista = [44, 33, 24, 43, 57, 68, 89, 40]
# lista %2 ==0                              >> list에서는 원래 안되는데 브로드캐스팅 기능이 있기 때문에 numpy에서는 가능**

[[ 6 76 69 13 49]
 [80 36 27 39 59]]
[[False  True  True False False]
 [ True False False False  True]]
[[ True  True False False False]
 [ True  True False False False]]


In [68]:
# index 자리에 조건 필터를 넣으면 1차원 array로 반환해준다.
# 파이썬 기존 문법으로는 loop를 돌면서 일일이 계산해서 새로운 리스트를 생성해야 하다.
print(arr2d)
print(arr2d[arr2d > 50])
print(arr2d[arr2d <50])
print(arr2d[arr2d%2 ==1])

[[ 6 76 69 13 49]
 [80 36 27 39 59]]
[76 69 80 59]
[ 6 13 49 36 27 39]
[69 13 49 27 39 59]


### 3.3. 다중조건 사용하기
- 논리 연산자인 and, or, not 키워드 사용불가
- & : AND
- | : OR

In [69]:
# 짝수면서 60보다 작은 수
print(arr2d)
arr2d % 2 ==0 
arr2d < 60

arr2d[(arr2d % 2 ==0)&(arr2d < 60)]

[[ 6 76 69 13 49]
 [80 36 27 39 59]]


array([ 6, 36])

In [72]:
# 30보다 작거나 70보다 큰 수
print(arr2d)
arr2d[(arr2d<30)|(arr2d>70)]

[[ 6 76 69 13 49]
 [80 36 27 39 59]]


array([ 6, 76, 13, 80, 27])

**연습문제)2020년 7월 서울 평균기온 데이터**
- 평균기온이 25도를 넘는 날수는?
- 평균기온이 25를 넘는 날의 평균기온은?

In [73]:
temp = np.array(
        [23.9, 24.4, 24.1, 25.4, 27.6, 29.7,
         26.7, 25.1, 25.0, 22.7, 21.9, 23.6, 
         24.9, 25.9, 23.8, 24.7, 25.6, 26.9, 
         28.6, 28.0, 25.1, 26.7, 28.1, 26.5, 
         26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])

In [77]:
# 평균기온이 25도를 넘는 날의 수
temp25 = temp[temp>25]
(temp25).size

21

In [81]:
len(temp[temp>25])
print('평균 기온이 25도를 넘는 날 수는',end=' ')
print(len(temp[temp>25]), end='')
print('일 입니다.')

평균 기온이 25도를 넘는 날 수는 21일 입니다.


In [85]:
#평균기온이 25를 넘는 날의 평균기온
np.mean(temp[temp>25])
print('평균 기온이 25도를 넘는 날의 평균기온은',end=' ')
print(round(np.mean(temp[temp>25]),2), end='')                # round(  ,_) 소수점 _자리까지 나타내줌 > 자료형 그대로 float, 값이 바뀌어버림
print('도 입니다.')
#sum(temp25)/(temp25).size

평균 기온이 25도를 넘는 날의 평균기온은 26.86도 입니다.
