# Numpy 101

## What is numpy?

- python을 위한 array 연산 package
- 거의 모든 과학 연산 package의 기본 package

<center>
<img src="./img/chp0/numpy-support-pkg.png" alt="numpy-support-pkg" width="600"/>

*numpy가 지원하는 package (numpy가 직접 지원하지 않아도 잘 사용되는 package도 많음)*
</center>

- Python list와 numpy array의 다른 점
    - 고정된 크기로 생성된다: pop(element 제거),append(element 추가)와 같은 함수 사용의 overhead는 커지지만 계산 overhead가 크게 줄어듦
    - 모든 element가 같은 type을 가진다: list는 각 element마다 type check를 해야하는 overhead가 있지만, numpy array는 그런 시간이 줄어든다
    - 위와 같은 overhead와 data 규칙성을 제공하여 더 높은 수준의 최적화를 가능케 한다.
    - 행렬연산 함수를 지원한다.

## 설치 방법
Python이 이미 설치되어 있다는 가정하에 아래 명령어 중 하나를 실행한다.
```
conda install numpy 
```
or
```
pip install numpy
```

In [7]:
# package 호출 방법
import numpy as np

## Array 생성 방법
- array-like 데이터를 변환하는 방법
- 특수 함수를 사용하는 방법

더 다양한 함수를 보고 싶으면 [링크](https://numpy.org/doc/stable/reference/routines.array-creation.html#) 를 참고하자.

In [8]:
'''
numpy array 생성 방법
- array-like 데이터를 변환하는 방법
- 특수 함수를 사용하는 방법
'''
def print_all(array):
    print(array,f'shape: {array.shape}, data type: {array.dtype}')

print("1. array-like 데이터를 변환")
a = np.array([[1,2,3],[4,5,6]],dtype=int) # list 
print_all(a)
b = np.array(a,dtype=float) # np.ndarray
print_all(b)

print("2. 특수 함수를 사용")
a = np.random.rand(2,3) # 0~1 random array
print_all(a)
b = np.eye(3) # identity matrix
print_all(b)



1. array-like 데이터를 변환
[[1 2 3]
 [4 5 6]] shape: (2, 3), data type: int32
[[1. 2. 3.]
 [4. 5. 6.]] shape: (2, 3), data type: float64
2. 특수 함수를 사용
[[0.68404997 0.47150031 0.42757368]
 [0.58474049 0.01274247 0.68389204]] shape: (2, 3), data type: float64
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]] shape: (3, 3), data type: float64


위의 결과에서 data type이 단순한 int/float가 아닌 int32/float64임을 볼수 있다.

numpy array는 각 type을 표현할 bit 개수까지 정한다.
<center>
<img src="./img/chp0/int32.png" alt="numpy-support-pkg" width="600"/>
</center>

Quiz) np.ones((3,2),dtype=np.int32)가 차지하는 bit 개수를 생각해보자. 아래 python 코드를 돌리면 답을 확인할 수 있다.
```
a = np.ones((3,2),dtype=np.int32)
ans = a.nbytes * 8 # 1byte = 8bit
print(ans)
```

## Numpy unary operation
 - array의 상태 반환: shape, size, dtype
 - array 복사: copy, copyto
 - array의 모양 변환: reshape, ravel
 - transpose: T
 
 더 다양한 함수를 보고 싶으면 [링크](https://numpy.org/doc/stable/reference/routines.array-manipulation.html) 를 참고하자.

In [9]:
x = np.arange(6).reshape(2,3)

# array status
print(f"shape:{x.shape}, size: {x.size}, dtype: {x.dtype}")

# array copy
y =x
print("\n---array sharing---")
print(f"Is each elements of x is the same as those of y?: {np.array_equal(y,x)}")
print(f"is x and y the same?: {y is x}")

y = x.copy() # y = np.empty_like(x, dtype=x.dtype);np.copyto(y,x)
print("\n---array copy---")
print(f"Is each elements of x is the same as those of y?: {np.array_equal(y,x)}")
print(f"is x and y the same?: {y is x}")

# array reshape - WARNING: they do not copy the data
print("\nDo reshape methods copy data? Let's see...")
y = x.reshape(3,2)
y[0,0] =10
print(x)
y = x.ravel()
y[0] =0
print(x)

# array transpose - WARNING: it does not copy the data
print("\nHow about transpose? Let's see...")
y = x.T
y[0,0] =10
print(x)


shape:(2, 3), size: 6, dtype: int32

---array sharing---
Is each elements of x is the same as those of y?: True
is x and y the same?: True

---array copy---
Is each elements of x is the same as those of y?: True
is x and y the same?: False

Do reshape methods copy data? Let's see...
[[10  1  2]
 [ 3  4  5]]
[[0 1 2]
 [3 4 5]]

How about transpose? Let's see...
[[10  1  2]
 [ 3  4  5]]


위의 결과로 보아, numpy array는 data와 index 방법을 바꾸는 방법에 대해서는 copy를 진행하지 않음을 알 수 있다. 이런 성질로 **불필요한 copy를 줄여 계산 속도를 올리기 때문에** 잘 활용하여야 한다.

## Numpy binary operation
 Numpy는 +,-,*,/,%,//...와 같은 기본 연산자에 대해서는 element-wise operation을 취한다. 즉, matrix multiplication이나 inner product, outer product는 그에 맞는 함수를 사용해서 수행한다.

In [10]:
x = np.arange(1,7) # [1,2,3,4,5,6]
y = np.ones(6) # [1,1,1,1,1,1]

print('basic operations')
print(x+y)
print(x-y)
print(x*y)
print(y/x)

print('matrix operations')
print(np.matmul(x,y.T))
print(np.inner(x,y))
print(np.outer(x,y))


basic operations
[2. 3. 4. 5. 6. 7.]
[0. 1. 2. 3. 4. 5.]
[1. 2. 3. 4. 5. 6.]
[1.         0.5        0.33333333 0.25       0.2        0.16666667]
matrix operations
21.0
21.0
[[1. 1. 1. 1. 1. 1.]
 [2. 2. 2. 2. 2. 2.]
 [3. 3. 3. 3. 3. 3.]
 [4. 4. 4. 4. 4. 4.]
 [5. 5. 5. 5. 5. 5.]
 [6. 6. 6. 6. 6. 6.]]


## Advanced performance tips
1. 환경변수 OMP_NUM_THREADS에 thread 개수를 설정하자.
2. Linux 환경에서는 transparent hugepage를 사용하자

[링크](https://numpy.org/doc/stable/reference/global_state.html)를 통해 자세한 이유를 볼 수 있다.

