In [40]:
import numpy as np

## 1. axis 이해하기
 - 몇몇 함수에는 axis keyword 파라미터가 존재
 - axis값이 없는 경우에는 전체 데이터에 대해 적용
 - axis값이 있는 경우에는, 해당 axis를 **따라서** 연산 적용

### 1.1. axis를 파라미터로 갖는 함수 이용하기
 - 거의 대부분의 연산 함수들이 axis 파라미터를 사용
 - 이 경우, 해당 값이 주어졌을 때, 해당 axis를 **따라서** 연산이 적용
 - 예) np.sum, np.mean, np.any 등등
 

In [2]:
x = np.arange(15)
print(x)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


### 1.2. 1차원 데이터에 적용하기

In [3]:
np.sum(x)

105

In [4]:
#  축이 하나인 배열이라 결과가 같다. 1차원은 별 차이 없다.
# 1차원이기때문에 axix는 0값만 올 수 있다.

np.sum(x, axis=0)

105

### 1.3. 2차원 array에 적용하기

In [7]:
y = x.reshape(3,5)
print(y)

print(np.sum(y))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
105


In [8]:
np.sum(y, axis=0)

array([15, 18, 21, 24, 27])

In [9]:
np.sum(y, axis=1)

array([10, 35, 60])

### 1.4. 3차원 array에 적용하기

In [10]:
z = np.arange(36).reshape(3,4,3)
print(z)                               #3차원에서는 행,열,높이 순이다.

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]


In [11]:
np.sum(z)

630

In [12]:
np.sum(z, axis=0)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

In [13]:
np.sum(z, axis=1)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [14]:
np.sum(z, axis=2)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

In [15]:
np.sum(z, axis=-1)

array([[  3,  12,  21,  30],
       [ 39,  48,  57,  66],
       [ 75,  84,  93, 102]])

In [17]:
np.sum(z, axis=-2)

array([[ 18,  22,  26],
       [ 66,  70,  74],
       [114, 118, 122]])

In [22]:
np.sum(z, axis=-3)

array([[36, 39, 42],
       [45, 48, 51],
       [54, 57, 60],
       [63, 66, 69]])

In [42]:
#numpy array의 모든 원소의 합을 구하는 함수

def cal_sum(values):          #numpy의 cumsum 기능을 사용하지 않는다면 파이썬 일반 기능으로 다음과 같이 만들어야한다.
    total = 0                  
    for num in values:
        total+=num
    return total

In [37]:
big_array = np.random.randint(1,100, size=10000000)


In [28]:
%pwd # % <<<<<<<< 주피터 매직 커맨드


'C:\\Users\\Josanghun\\Documents\\Numpy'

In [44]:
%timeit cal_sum(big_array)

1.06 s ± 25.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [45]:
%timeit np. sum(big_array)

4.13 ms ± 65.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


### 1.5. axis의 값이 튜플일 경우
 - 해당 튜플에 명시된 모든 axis에 대해서 연산

In [19]:
print(z)
print(z.shape)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]
  [ 9 10 11]]

 [[12 13 14]
  [15 16 17]
  [18 19 20]
  [21 22 23]]

 [[24 25 26]
  [27 28 29]
  [30 31 32]
  [33 34 35]]]
(3, 4, 3)


In [20]:
# 0,1번째 축을 동시에 합쳐라 3만 남는다.
# axis =0 에서 행들의 합

np.sum(z, axis=(0,1))
# 0+3+6+9+12+15+18+....+33=198

array([198, 210, 222])

In [21]:
np.sum(z, axis=(0,2))
# 0+1+2+12+13+14+24+25+26

array([117, 144, 171, 198])

## 2. Broadcasting
- shape이 같은 두 ndarray에 대한 연산은 각 원소별로 진행
- 연산되는 두 ndarray가 다른 shape을 갖는 경우 broadcasting(shape을 맞춤)후 진행

### 2.1. 브로드캐스팅 Rule
 - [공식문서](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html#general-broadcasting-rules)
 - 뒷 차원에서 부터 비교하여 Shape이 같거나, 차원 중 값이 1인 것이 존재하면 가능

![브로드캐스팅 예](https://www.tutorialspoint.com/numpy/images/array.jpg)
    - 출처: https://www.tutorialspoint.com/numpy/images/array.jpg 

### 2.2. Shape이 같은 경우의 연산

In [46]:
x = np.arange(15).reshape(3,5)
y = np.random.rand(15).reshape(3,5)
print(x)
print(y)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[0.3971147  0.32128419 0.99847282 0.19782985 0.20655338]
 [0.66233304 0.49714643 0.51018513 0.60140069 0.53572486]
 [0.22724781 0.38141287 0.98028058 0.81500851 0.78953176]]


In [47]:
x+y

array([[ 0.3971147 ,  1.32128419,  2.99847282,  3.19782985,  4.20655338],
       [ 5.66233304,  6.49714643,  7.51018513,  8.60140069,  9.53572486],
       [10.22724781, 11.38141287, 12.98028058, 13.81500851, 14.78953176]])

In [48]:
x*y

array([[ 0.        ,  0.32128419,  1.99694563,  0.59348955,  0.82621354],
       [ 3.31166519,  2.98287859,  3.57129593,  4.81120552,  4.8215237 ],
       [ 2.27247813,  4.19554161, 11.76336698, 10.59511059, 11.05344459]])

### 2.3. Scalar(상수)와의 연산 
- 모든 연산이 가능하다.

In [50]:
# a라는 array에 일괄적으로 3으로 더하고 싶다면?
a = np.array([[1, 2, 3], 
              [2, 3, 4]])

b = np.array([[3,3,3,],
              [3,3,3]])

a+b

array([[4, 5, 6],
       [5, 6, 7]])

In [51]:
# broadcating 기능을 이용하면...

a+3

array([[4, 5, 6],
       [5, 6, 7]])

In [52]:
x+2

array([[ 2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16]])

In [54]:
x**2==0               #조건식처럼 되어서 true, false의 반환값을 나타낸다.

array([[ True, False, False, False, False],
       [False, False, False, False, False],
       [False, False, False, False, False]])

In [53]:
x**2

array([[  0,   1,   4,   9,  16],
       [ 25,  36,  49,  64,  81],
       [100, 121, 144, 169, 196]], dtype=int32)

In [55]:
x%2

array([[0, 1, 0, 1, 0],
       [1, 0, 1, 0, 1],
       [0, 1, 0, 1, 0]], dtype=int32)

### 2.4. Shape이 다른 경우 연산

In [60]:
a = np.arange(12).reshape(4,3)
b = np.arange(100,103)
c = np.arange(1000, 1004)
d = b.reshape(1,3)

print(a, a.shape)
print(b, b.shape) # 벡터
print(c, c.shape)
print(d, d.shape) # 1행 3열의 행열

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]] (4, 3)
[100 101 102] (3,)
[1000 1001 1002 1003] (4,)
[[100 101 102]] (1, 3)


In [57]:
a+b


array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

In [59]:
a+c

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [61]:
a+d

array([[100, 102, 104],
       [103, 105, 107],
       [106, 108, 110],
       [109, 111, 113]])

## 3. Boolean Indexing

- 조건 필터링을 통하여 Boolean 값을 이용한 indexing
- bool리스트를 전달하여 True인 경우만 필터링!!

In [65]:
arr = np.random.choice(np.arange(101),size=10, replace = False) #원소 10개의 중복되지 않는 값 랜덤으로 생성
arr

array([88, 66, 14, 38, 44,  8, 48, 33, 49, 25])

### 3.1. True와 False 값으로 색인하기

In [68]:
myTrueFalse = [True, False, True]

In [69]:
arr[myTrueFalse]

IndexError: boolean index did not match indexed array along dimension 0; dimension is 10 but corresponding boolean dimension is 3

In [70]:
myTrueFalse = [True, False, True, False, True, False, True, True, False, True]

In [71]:
arr[myTrueFalse]

array([88, 14, 44, 48, 33, 25])

### 3.2. 조건필터

- 조건 연산자를 활용하여 필터를 생성
- 필터를 활용하여 필터에 True 조건만 색인
- **arr2d[조건필터]** : 조건에 맞는 값만 1차원 array로 반환

In [76]:
arr2d = np.random.randint(1, 100, size = 10).reshape(2,5)
print(arr2d)

# 조건을 만족하는 boolen index를 만들 수 있다
# python list에서는 불가능. 50, 2 는 상수라서 numpy의 broadcasting기능으로 가능

print(arr2d>50)
print(arr2d %2==0)                  #넘파이에서는 가능

#lista = [1,3,5,6,23,245,511,13] 
#lista %2 ==0                       #파이썬리스트에서는 당연히 다음과 같은 연산이 되지 않는다.

[[86 16 27 10 14]
 [13  1 82 71 19]]
[[ True False False False False]
 [False False  True  True False]]
[[ True  True False  True  True]
 [False False  True False False]]


TypeError: unsupported operand type(s) for %: 'list' and 'int'

In [90]:
# index 자리에 조건 필터를 넣으면 1차원 array로 반환해준다.
# 파이썬 기존 문법으로는 loop를 돌면서 일일이 계산해서 새로운 리스트를 생성해야 하다.
print(arr2d)
print("-"*20)
print(arr2d[arr2d>50])


[[86 16 27 10 14]
 [13  1 82 71 19]]
--------------------
[86 82 71]


### 3.3. 다중조건 사용하기
- 논리 연산자인 and, or, not 키워드 사용불가
- & : AND
- | : OR

In [95]:
# 짝수면서 60보다 작은 수
print(arr2d)
arr2d[(arr2d %2 ==0) & (arr2d <60)]

[[86 16 27 10 14]
 [13  1 82 71 19]]


array([16, 10, 14])

In [98]:
# 30보다 작거나 70보다 큰 수
arr2d[(arr2d <30)|(arr2d >70)]

array([86, 16, 27, 10, 14, 13,  1, 82, 71, 19])

**연습문제)2020년 7월 서울 평균기온 데이터**
- 평균기온이 25도를 넘는 날수는?
- 평균기온이 25를 넘는 날의 평균기온은?

In [100]:
temp = np.array(
        [23.9, 24.4, 24.1, 25.4, 27.6, 29.7,
         26.7, 25.1, 25.0, 22.7, 21.9, 23.6, 
         24.9, 25.9, 23.8, 24.7, 25.6, 26.9, 
         28.6, 28.0, 25.1, 26.7, 28.1, 26.5, 
         26.3, 25.9, 28.4, 26.1, 27.5, 28.1, 25.8])

In [107]:
np.size(temp[temp >25])

21

In [103]:
np.mean(temp[temp >25])

26.857142857142858

In [108]:
np.size(temp)

31

In [109]:
len(temp)

31

In [112]:
np.mean(temp[temp>25])
print("평균기온이 25도를 넘는 날의 평균기온은",end="")
print(round(np.mean(temp[temp>25]),2), end="")
print("도 입니다.")

평균기온이 25도를 넘는 날의 평균기온은26.86도 입니다.


In [114]:
a = round(np.mean(temp[temp>25]),2)
print(a, type(a))

26.86 <class 'numpy.float64'>
