<a href="https://colab.research.google.com/github/kdmid/Class_Python/blob/main/Practice/NumPy_Broadcasting.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 모듈 Import
- 패키지 설치방법은 [설치 문서](https://pypi.org/project/numpy/)를 확인한다.

In [1]:
import numpy as np
print(np.__version__)

1.18.5


# NumPy 기본 활용법
- NumPy 객체 생성을 한 뒤에, 파일 저장, 서로 다른 배열끼리의 사칙연산 등을 수행할 수 있다.

## (1) NumPy 객체 파일 저장 및 불러오기
- `savetxt`, `loadtxt`, 그리고 `genfromtxt` 함수를 활용하여 객체를 불러오는 예제를 실습한다.

In [2]:
# 객체 생성 후 저장하기
x = np.arange(0.0, 50.0, 1.0)
print(x)
np.savetxt('data.out', x, delimiter=',')

[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17.
 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49.]


In [3]:
!ls

data.out  sample_data


- 현재 폴더에 `data.out` 파일이 생성된 것을 확인할 수 있다.

In [4]:
# `data.out` 불러오기
z = np.loadtxt('data.out', unpack=True)
print(z)

[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17.
 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49.]


- 정상적으로 `data.out`을 불러와서 `z`객체에 저장된 것을 확인할 수 있다.

In [5]:
# genfromtxt 활용
my_array2 = np.genfromtxt('data.out', 
                          skip_header=1, 
                          filling_values=-999)
print(my_array2)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36.
 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49.]


- `z`객체와 마찬가지로 `my_array2`도 객체가 정상적으로 생성된 것을 확인할 수 있다.

- `loadtxt`와 `genfromtxt`의 차이점이 있기는 하다. 결론부터 말하면, `genfromtxt`가 다양한 옵션을 제공한다. 간단한 예를 들면, `genfromtxt`의 경우 열들의 자료형을 자동으로 결정해주어 사용자들이 좀 더 편안하게 사용할 수 있도록 도와준다 (Clinton, 2016, p. 281-2).

## (2) 2차원 배열 Inspection
- `ndim`, `size`, `flags`, `itemsize`, `nbytes`를 활용하여 배열의 정보를 획득한다.
- 특히, 딥러닝 모형 정의 및 학습할 때, NumPy 배열 에러 등이 종종 발생하기 때문에 기본 개념은 학습하는 것을 추천한다.

In [6]:
my2D_Array = np.array([[1,2,3,4], [2,4,6,8], [3,6,9,12]])
print(my2D_Array)

[[ 1  2  3  4]
 [ 2  4  6  8]
 [ 3  6  9 12]]


In [7]:
# ndim (차원의 수)
print(my2D_Array.ndim)

2


In [8]:
# size (각 item의 개수를 의미)
print(my2D_Array.size)

12


In [9]:
# 2차원 배열의 memory layout 확인 
print(my2D_Array.flags)

  C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False
  UPDATEIFCOPY : False



In [10]:
# 1차원의 길이 in bytes (예. 숫자는 2bytes)
print(my2D_Array.itemsize)

8


In [11]:
# 전체 bytes
print(my2D_Array.nbytes)

96


# Broadcasting(=브로드 캐스팅)

- 브로드캐스팅(Broadcasting)은 모양이 다른 배열들 간의 사칙연산도 가능하게끔 도와주는 일종의 mechanism이다. 그런데, 여기에는 기본적인 Rule이 있다.

## (1) Rule 1. Eqaul Dimensions between A and B
- 우선 모양이 같은 A와 B NumPy 객체를 생성한다.
- A + B를 연산하여 출력한다.

In [12]:
# A 객체
A = np.ones((5,3))
print(A)
print(A.shape)

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
(5, 3)


In [13]:
# B 객체
B = np.random.random((5,3))
print(B)
print(B.shape)

[[0.235073   0.8136112  0.45680428]
 [0.5772974  0.94320458 0.76099305]
 [0.63310807 0.11558155 0.91393433]
 [0.1004616  0.41683365 0.83358061]
 [0.26939634 0.73924856 0.34511621]]
(5, 3)


In [14]:
print(A+B)

[[1.235073   1.8136112  1.45680428]
 [1.5772974  1.94320458 1.76099305]
 [1.63310807 1.11558155 1.91393433]
 [1.1004616  1.41683365 1.83358061]
 [1.26939634 1.73924856 1.34511621]]


## (2) Rule 2. Compatible Dimensions when one of them is 1

- 이번에는 X와 Y 객체를 생성하고 shape를 통해 차원이 어떻게 다른지 확인한다.

In [15]:
x = np.ones((3,4))
print(x)
print(x.shape)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]
(3, 4)


In [16]:
y = np.arange(4)
print(y)
print(y.shape)

[0 1 2 3]
(4,)


In [17]:
# 뺄셈 연산 수행 (x-y)
print(x-y)

[[ 1.  0. -1. -2.]
 [ 1.  0. -1. -2.]
 [ 1.  0. -1. -2.]]


- 위 코드에서 중요한 것은 숫자 4이다. 즉, 1차원 길이가 다르면 연산은 에러가 발생한다.
- y의 숫자 4 대신 5를 대입해서 적용해보자.

In [18]:
x = np.ones((3,4))
y = np.arange(5)
print(x-y)

ValueError: ignored

- 위 에러 문구(operands could not be broadcast together with shapes (3,4) (5,))에서 확인 할 수 있는 것처럼 1차원 길이가 다르면 에러가 발생한다.

## (3) Rule 3. Compatitble in all of the dimensions
- 이번에는 서로 다른 모양의 객체를 확인한다.
- 그리고 덧셈을 수행해보자.

In [19]:
x = np.ones((6,5))
print(x)
print(x.shape)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]
(6, 5)


In [20]:
y = np.random.random((3, 1, 5))
print(y)
print(y.shape)

[[[0.36993111 0.57054523 0.3862333  0.71433547 0.65219714]]

 [[0.21984544 0.71155734 0.3055025  0.50731473 0.39183974]]

 [[0.06131    0.42006409 0.42250123 0.19589596 0.94938726]]]
(3, 1, 5)


In [21]:
print(x+y)

[[[1.36993111 1.57054523 1.3862333  1.71433547 1.65219714]
  [1.36993111 1.57054523 1.3862333  1.71433547 1.65219714]
  [1.36993111 1.57054523 1.3862333  1.71433547 1.65219714]
  [1.36993111 1.57054523 1.3862333  1.71433547 1.65219714]
  [1.36993111 1.57054523 1.3862333  1.71433547 1.65219714]
  [1.36993111 1.57054523 1.3862333  1.71433547 1.65219714]]

 [[1.21984544 1.71155734 1.3055025  1.50731473 1.39183974]
  [1.21984544 1.71155734 1.3055025  1.50731473 1.39183974]
  [1.21984544 1.71155734 1.3055025  1.50731473 1.39183974]
  [1.21984544 1.71155734 1.3055025  1.50731473 1.39183974]
  [1.21984544 1.71155734 1.3055025  1.50731473 1.39183974]
  [1.21984544 1.71155734 1.3055025  1.50731473 1.39183974]]

 [[1.06131    1.42006409 1.42250123 1.19589596 1.94938726]
  [1.06131    1.42006409 1.42250123 1.19589596 1.94938726]
  [1.06131    1.42006409 1.42250123 1.19589596 1.94938726]
  [1.06131    1.42006409 1.42250123 1.19589596 1.94938726]
  [1.06131    1.42006409 1.42250123 1.19589596 1.949

만약에 여기에서 y 값을 (3,2,5) 또는 (3,1,6)으로 바꾸면 어떻게 될까?

In [22]:
[[[0.95042186 0.52979398 0.30549682 0.93579665 0.03784094]
  [0.27023327 0.19952522 0.68376492 0.11982131 0.45394735]]

 [[0.69797278 0.85359121 0.01493669 0.06111047 0.25285451]
  [0.57293653 0.28453573 0.18296577 0.12696192 0.28530794]]

 [[0.75410798 0.88487199 0.78635143 0.05059668 0.48753369]
  [0.65395856 0.74907103 0.47013049 0.14938089 0.36961655]]]
(3, 2, 5)

SyntaxError: ignored

- 에러가 나는 것을 확인할 수 있다.
- 왜 에러가 날까? x의 2차원 배열의 숫자가 앞에 6으로 되어 있기 때문이다.
- y값은 그대로 놔둔채, x의 값 6 대신 2로 바꿔주고 덧셈을 하면 성공적으로 연산이 수행됨을 알 수 있다.

In [23]:
x = np.ones((2,5))
print(x)
print(x.shape)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]
(2, 5)


In [24]:
print(x+y)

[[[1.36993111 1.57054523 1.3862333  1.71433547 1.65219714]
  [1.36993111 1.57054523 1.3862333  1.71433547 1.65219714]]

 [[1.21984544 1.71155734 1.3055025  1.50731473 1.39183974]
  [1.21984544 1.71155734 1.3055025  1.50731473 1.39183974]]

 [[1.06131    1.42006409 1.42250123 1.19589596 1.94938726]
  [1.06131    1.42006409 1.42250123 1.19589596 1.94938726]]]


# 결론
- 머신러닝 & 딥러닝을 수행할 때, NumPy을 활용한 객체 생성은 매우 빈번하다.
- 대부분은 서로 다른 차원으로 인해 연산 오류가 자주 발생하는데, 이 때 Broadcasting의 개념을 알고 있으면 연산 오류를 줄일 수 있다.

# Reference
Brownley, Clinton W. Foundations for Analytics with Python. O’Reilly Media, Inc., 2016.

Mukhiya, Suresh Kumar, and Usman Ahmed. “Hands-On Exploratory Data Analysis with Python.” Packt Publishing, Mar. 2020, www.packtpub.com/data/hands-on-exploratory-data-analysis-with-python.