# 파이썬으로 계산하기 - Numpy

### 파이썬은 인터프리터!

리스트 계산은 매우 늦기 때문에 적절한 패키지를 이용해야 한다!

⇒ **파이썬 과학 처리 패키지 : Numpy**

## Numpy

### 넘파이란?

- Numerical Python
- 파이썬의 고성능 과학 계산용 패키지
- Matrix와 Vector와 같은 Array 연산의 사실상의 표준
- 한글로 넘파이로 주로 통칭, 넘피/늄파이라고 부르기도 함

### Numpy 특징

- 일반 List에 비해 빠르고, 메모리 효율적
- 반복문 없이 데이터 배열에 대한 처리를 지원함
- 선형대수와 관련된 다양한 기능을 제공함
- C, C++, 포트란 등의 언어와 통합 가능

### Numpy 호출하기

 일반적으로 numpy는 np라는 alias(별칭) 이용해서 호출함

In [1]:
# import numpy

import numpy as np

### Array Creation

- numpy는 np.array 함수를 활용하여 배열을 생성함 => ndarray
- numpy는 **하나의 데이터 type**만 배열에 넣을 수 있음
- List와 가장 큰 차이점, **Dynamic typing not supported**
  - Dynamic typing: 하나의 리스트에 다양한 데이터를 허락. 런타임시간에 타입 변동 가능한 것.

- C의 Array를 사용하여 배열을 생성함


참고: 파이썬의 list handling에 관한 자세한 성능을 이해하면 더 좋다고 함.

In [3]:
test_array = np.array(["1", "4", 5, 8], float)  # "1", "4" 등등 모든 원소가 float type이 됨.
test_array

array([1., 4., 5., 8.])

In [5]:
type(test_array[0])

numpy.float64

- shape: numpy array의 dimension의 구성을 반환
  - 주의) 행 몇개, 열 몇개 느낌으로 정해져있는 것이 아니라 **가장 큰 단위부터 세면서 몇개인지 바라보는** 느낌
- dtype: numpy array의 데이터 type을 반환

In [6]:
test_array.shape # array dimension 반환. - tuple 형태

(4,)

In [7]:
test_array.dtype

dtype('float64')

- 다음과 같이 가장 큰 단위부터 4, 3, 4 임을 알 수 있음

In [8]:
tensor  = [[[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]]]
np.array(tensor, int).shape

(4, 3, 4)

- ndim: number of dimension
- size: number of data

In [14]:
tensor_array = np.array(tensor, dtype = int)
tensor_array.ndim

3

In [15]:
tensor_array.size # 4*3*4 = 48

48

In [16]:
tensor_array.dtype

dtype('int64')

### Array dtype
- Ndarray의 single element가 가지는 data type
- 각 element가 차지하는 memory의 크기가 결정됨

``` python
tensor_array = np.array(tensor, dtype = int) # Data type을 integer로 선언
```

- nbytes - ndarray object의 메모리 크기를 반환함

In [17]:
tensor_array.nbytes # 48(총 48개)*8(int64)

384

## Handling shape
### reshape
- Array의 shape의 크기를 변경함.
  - number of element의 크기만 동일하게 맞춰주면 됨.
  - Array의 size만 동일하다면 다차원으로 자유로이 변형 가능

In [20]:
test_matrix = np.array([[1,2,3,4], [1,2,3,4], [1,2,3,4], [1,2,3,4] ], dtype=int)
test_matrix.shape

(4, 4)

In [25]:
reshape_matrix = test_matrix.reshape(8, 2)

reshape_matrix

array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4],
       [1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])

In [27]:
reshape_matrix.shape # (8,2)

(8, 2)

In [26]:
test_matrix # 원본은 바뀌지 않는 듯

array([[1, 2, 3, 4],
       [1, 2, 3, 4],
       [1, 2, 3, 4],
       [1, 2, 3, 4]])

- reshape의 인수를 -1로?
  - size를 기반으로 row 개수를 선정해줌.

In [28]:
test_matrix.reshape(-1, 2).shape # -1: size를 기반으로 row 개수 선정

(8, 2)

In [30]:
test_matrix.reshape(4, -1).shape

(4, 4)

### flatten
- 다차원 array를 1차원 array로 변환함.

In [31]:
test_array  = [[[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]], 
           [[1,2,5,8],[1,2,5,8],[1,2,5,8]]]
np.array(test_array).flatten()

array([1, 2, 5, 8, 1, 2, 5, 8, 1, 2, 5, 8, 1, 2, 5, 8, 1, 2, 5, 8, 1, 2,
       5, 8, 1, 2, 5, 8, 1, 2, 5, 8, 1, 2, 5, 8, 1, 2, 5, 8, 1, 2, 5, 8,
       1, 2, 5, 8])

## Index & Slicing
### Indexing
- List와 달리 이차원 배열에서 [0,0] 과 같은 표기법을 제공함
- Matrix 일경우 앞은 row 뒤는 column을 의미함

In [32]:
a = np.array([[1, 2, 3], [4.5, 5, 6]], int)
print(a)

print(a[0,0]) # Two dimensional array representation #1
print(a[0][0]) # Two dimensional array representation #2

a[0,0] = 12 # Matrix 0,0 에 12 할당
print(a)

a[0][0] = 5 # Matrix 0,0 에 12 할당
print(a)


[[1 2 3]
 [4 5 6]]
1
1
[[12  2  3]
 [ 4  5  6]]
[[5 2 3]
 [4 5 6]]


### Slicing

- List와 달리 행과 열 부분을 나눠서 slicing이 가능함
- Matrix의 부분 집합을 추출할 때 유용함

참고) , (콤마) 위치만 잘 보면 해석은 전부 가능함.
- `::2` 표현을 통해 2step씩 떨어진 데이터를 가져올 수도 있음. 



In [35]:
a = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]], int)

a[:,2:] # 전체 Row의 2열 이상

array([[ 3,  4,  5],
       [ 8,  9, 10]])

In [36]:
a[1,1:3] # 1 Row의 1열 ~ 2열 

array([7, 8])

In [37]:
a[1:3] # 1 Row ~ 2Row의 전체

array([[ 6,  7,  8,  9, 10]])

## Creation function
### arange
- array의 범위를 지정하여, 값의 list를 생성하는 명령어

In [38]:
np.arange(30)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [39]:
np.arange(0, 5, 0.5) # 시작, 끝, step

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5])

In [40]:
np.arange(30).reshape(5, 6)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29]])

In [41]:
np.arange(0, 10, 0.5).reshape(2, -1)

array([[0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5],
       [5. , 5.5, 6. , 6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5]])

### ones, zeros and empty
- zeros – 0으로 가득찬 ndarray 생성
  - np.zeros(shape, dtype, order)

- ones – 1로 가득찬 ndarrary 생성
  - np.ones(shape, dtype, order)

- empty – shape만 주어지고 비어있는 ndarray 생성
  - (memory initialization 이 되지 않음)

In [42]:
np.zeros(shape=(10,), dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [44]:
np.ones(shape=(2, 5, 3), dtype=float)

array([[[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]])

### something_like
- 기존 ndarray의 shape 크기 만큼 1, 0 또는 empty array를 반환


In [45]:
test_matrix = np.arange(30).reshape(5, 6)
np.ones_like(test_matrix)

array([[1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1]])

In [46]:
np.zeros_like(test_matrix)

array([[0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0]])

### identity
- 단위 행렬(i 행렬)을 생성함
  - n => number of rows


In [47]:
np.identity(n=3, dtype=np.int8)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]], dtype=int8)

In [48]:
np.identity(n=5, dtype=float)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### eye
- 대각선인 1인 행렬, k값의 시작 index의 변경이 가능
  - N(int): Number of rows in the output.
  - M(int, optional): Number of columns in the output. If None, defaults to N.
  - k(int, optional): Index of the diagonal: 0 (the default) refers to the main diagonal, a positive value refers to an upper diagonal, and a negative value
to a lower diagonal.

In [49]:
np.eye(N=3, M=5, dtype=int)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0]])

In [50]:
np.eye(N=4, M=5, k=1, dtype=int)

array([[0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

### diag
- 대각 행렬의 위치를 추출함.

In [53]:
matrix = np.arange(9).reshape(3,3)
matrix

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [54]:
np.diag(matrix)

array([0, 4, 8])

In [56]:
np.diag(matrix, k=1) # k = start index

array([1, 5])

### random sampling 
- 데이터 분포에 따른 sampling으로 array를 생성

In [59]:
np.random.uniform(0,1,10).reshape(2,5)  # 균등분포

array([[0.28281497, 0.50690911, 0.28097565, 0.37773111, 0.93082627],
       [0.84838406, 0.84200774, 0.2348714 , 0.59241724, 0.096603  ]])

In [60]:
np.random.normal(0,1,10).reshape(2,5) # 정규분포

array([[-0.82969572, -1.14764573, -0.0253177 ,  0.37668061, -0.13319926],
       [-0.52202325, -1.01429819, -1.56354048, -0.65462835, -0.93945401]])

## Operation functions

### sum
- ndarray의 element들 간의 합을 구함, list의 sum 기능과 동일

In [61]:
test_array = np.arange(1,11)
test_array

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [63]:
test_array.sum(dtype=float)

55.0

### axis
- 모든 operation function을 실행할 때, 기준이 되는 dimension 축
  - 항상 먼저 생긴 dimension이 0부터 시작함을 알아야 함!!
  - dimension의 개수에 따라 행이 될 수도, 열이 될 수도, 높이가 될 수도 있는 것.

In [65]:
test_array = np.arange(1,13).reshape(3,4)
test_array

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [66]:
test_array.sum(axis=1) # 여기서 axis 1 은? "열"!! => 열 기준으로 sum을 해준 것.

array([10, 26, 42])

In [68]:
test_array.sum(axis=0) # 여기서 axis 1 은? "행"

array([15, 18, 21, 24])

In [69]:
third_order_tensor = np.array([test_array,test_array,test_array])
third_order_tensor

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]])

In [70]:
third_order_tensor.sum(axis=2)  # 여기서 axis=2는 열

array([[10, 26, 42],
       [10, 26, 42],
       [10, 26, 42]])

### 그 외 수학 함수
- mean & std
  - ndarray의 element들 간의 평균 또는 표준 편차를 반환

- Mathematical functions
  - 그 외에도 다양한 수학 연산자를 제공함



In [71]:
test_array.mean(), test_array.mean(axis=0)

(6.5, array([5., 6., 7., 8.]))

In [72]:
test_array.std(), test_array.std(axis=0)

(3.452052529534663, array([3.26598632, 3.26598632, 3.26598632, 3.26598632]))

### concatenate
붙이다!
- Numpy Array를 합치는 함수
  - vstack: vertical stack: 세로 결합
    - 배열의 열 개수가 일치하여야 함.
  - hstack: horizontal stack: 가로 결합
    - 배열의 행 개수가 일치하여야 함.

if) dimenson이 3이라면?

In [73]:
a = np.array([1, 2, 3])
b = np.array([2, 3, 4])
np.vstack((a,b))

array([[1, 2, 3],
       [2, 3, 4]])

In [74]:
a = np.array([ [1], [2], [3]])
b = np.array([ [2], [3], [4]])
np.hstack((a,b))

array([[1, 2],
       [2, 3],
       [3, 4]])

In [75]:
a = np.array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])
b = np.array([[2, 3, 4], [2, 3, 4], [2, 3, 4]])
np.vstack((a,b))

array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3],
       [2, 3, 4],
       [2, 3, 4],
       [2, 3, 4]])

In [81]:
tensor1 = np.array([
[[1, 2, 3], [1, 2, 3]], [[1, 2, 3], [1, 2, 3]], 
[[1, 2, 3], [1, 2, 3]], [[1, 2, 3], [1, 2, 3]]
])

tensor2 = np.array([
[[4, 5, 6], [4, 5, 6]], [[4, 5, 6], [4, 5, 6]], 
[[4, 5, 6], [4, 5, 6]], [[4, 5, 6], [4, 5, 6]]
])

np.hstack((tensor1, tensor2))

array([[[1, 2, 3],
        [1, 2, 3],
        [4, 5, 6],
        [4, 5, 6]],

       [[1, 2, 3],
        [1, 2, 3],
        [4, 5, 6],
        [4, 5, 6]],

       [[1, 2, 3],
        [1, 2, 3],
        [4, 5, 6],
        [4, 5, 6]],

       [[1, 2, 3],
        [1, 2, 3],
        [4, 5, 6],
        [4, 5, 6]]])

In [82]:
np.vstack((tensor1, tensor2))

array([[[1, 2, 3],
        [1, 2, 3]],

       [[1, 2, 3],
        [1, 2, 3]],

       [[1, 2, 3],
        [1, 2, 3]],

       [[1, 2, 3],
        [1, 2, 3]],

       [[4, 5, 6],
        [4, 5, 6]],

       [[4, 5, 6],
        [4, 5, 6]],

       [[4, 5, 6],
        [4, 5, 6]],

       [[4, 5, 6],
        [4, 5, 6]]])

- axis를 기준으로 concate도 가능

In [84]:
a = np.array([[1, 2, 3]])
b = np.array([[2, 3, 4]])
np.concatenate((a,b) ,axis=0)

array([[1, 2, 3],
       [2, 3, 4]])

In [85]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])

np.concatenate( (a,b.T) ,axis=1)

array([[1, 2, 5],
       [3, 4, 6]])

## array operations
### Operations b/t arrays
- Numpy는 array간의 기본적인 사칙 연산을 지원함


In [86]:
test_a = np.array([[1,2,3],[4,5,6]], float)

In [87]:
test_a + test_a # Matrix + Matrix 연산

array([[ 2.,  4.,  6.],
       [ 8., 10., 12.]])

In [88]:
test_a - test_a # Matrix - Matrix 연산

array([[0., 0., 0.],
       [0., 0., 0.]])

In [89]:
test_a * test_a # Matrix내 element들 간 같은 위치에 있는 값들끼리 연산

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [90]:
matrix_a = np.arange(1,13).reshape(3,4)
matrix_a * matrix_a

array([[  1,   4,   9,  16],
       [ 25,  36,  49,  64],
       [ 81, 100, 121, 144]])

### Dot product
- Matrix의 기본 연산
- dot 함수 사용

In [91]:
test_a = np.arange(1,7).reshape(2,3)
test_b = np.arange(7,13).reshape(3,2)

In [92]:
test_a.dot(test_b)

array([[ 58,  64],
       [139, 154]])

### transpose - 전체 행렬 구하기
- transpose 또는 T attribute 사용


In [93]:
test_a = np.arange(1,7).reshape(2,3)
test_a

array([[1, 2, 3],
       [4, 5, 6]])

In [95]:
test_a.transpose() 

array([[1, 4],
       [2, 5],
       [3, 6]])

### broadcasting
- Shape이 다른 배열 간 연산을 지원하는 기능


In [96]:
test_matrix = np.array([[1,2,3],[4,5,6]], float)
scalar = 3

In [97]:
test_matrix + scalar # Matrix - Scalar 덧셈

array([[4., 5., 6.],
       [7., 8., 9.]])

In [98]:
test_matrix - scalar # Matrix - Scalar 뺄셈

array([[-2., -1.,  0.],
       [ 1.,  2.,  3.]])

In [99]:
test_matrix * 5 # Matrix - Scalar 곱셈

array([[ 5., 10., 15.],
       [20., 25., 30.]])


- Scalar–vector 외에도 vector–matrix 간의 연산도 지원

In [101]:
test_matrix = np.arange(1,13).reshape(4,3)
test_vector = np.arange(10,40,10)
print(test_matrix)
print(test_vector)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[10 20 30]


In [102]:
test_matrix+ test_vector

array([[11, 22, 33],
       [14, 25, 36],
       [17, 28, 39],
       [20, 31, 42]])

## Performance 
- timeit: jupyter 환경에서 코드의 퍼포먼스를 체크하는 함수

```python
def sclar_vector_product(scalar, vector):
 result = []
 for value in vector:
  result.append(scalar * value)
 return result 

iternation_max = 100000000

vector = list(range(iternation_max))
scalar = 2

%timeit sclar_vector_product(scalar, vector) # for loop을 이용한 성능
%timeit [scalar * value for value in range(iternation_max)] # list comprehension을 이용한 성능
%timeit np.arange(iternation_max) * scalar # numpy를 이용한 성능
```


- 일반적으로 속도는 다음과 같은 순서임.
  - for loop < list comprehension < numpy
- 100,000,000 번의 loop이 돌 때 약 약 4배 이상의 성능 차이를 보임
- Numpy는 C로 구현되어 있어, 성능을 확보하는 대신
- 파이썬의 가장 큰 특징인 dynamic typing을 포기함
- 대용량 계산에서는 가장 흔히 사용됨
- Concatenate 처럼 계산이 아닌, 할당에서는 연산 속도의 이점이 없음

## Comparison
### All & Any
- Array의 데이터 전부(and) 또는 일부(or)가 조건에 만족 여부 반환
  - all: 모두가 조건에 만족할 때 True
  - any: 하나라도 조건에 만족하면 True
  - 그 외에도 logical_and, logical_not, logical_or 등이 있음.

In [105]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [106]:
a>5

array([False, False, False, False, False, False,  True,  True,  True,
        True])

In [108]:
np.all(a>5) , np.all(a < 10)

(False, True)

In [107]:
np.any(a>5), np.any(a<0)

(True, False)

### np.where
조건에 만족하는 인덱스를 반환함.

In [112]:
a = np.array([1, 3, 0], float)
a

array([1., 3., 0.])

In [113]:
np.where(a > 0, 3, 2) # a > 0 에 따라 True이면 3을, False이면 2를 반환한다.

array([3, 3, 2])

In [114]:
np.where(a>0) # 인덱스 값 반환

(array([0, 1]),)

### argmax & argmin
- array 내 최대값 또는 최소값의 index를 반환함
- axis 기반의 반환도 가능

**numpy에 for문을 쓰지 말고 이런 함수들을 적용하도록 노력해라!!!**

In [115]:
a = np.array([1,2,4,5,8,78,23,3])
np.argmax(a) , np.argmin(a)

(5, 0)

In [118]:
a = np.array([[1,2,4,7],[9,88,6,45],[9,76,3,4]])
np.argmax(a, axis=1) , np.argmin(a, axis=0)

(array([3, 1, 1]), array([0, 0, 2, 2]))

## Boolean & Fancy index
### boolean index
- numpy는 배열은 특정 조건에 따른 값을 배열 형태로 추출 할 수 있음
- Comparison operation 함수들도 모두 사용가능 



In [119]:
test_array = np.array([1, 4, 0, 2, 3, 8, 9, 7], float)
test_array > 3

array([False,  True, False, False, False,  True,  True,  True])

In [120]:
test_array[test_array > 3] # 조건이 True인 index의 element만 추출

array([4., 8., 9., 7.])

In [121]:
condition = test_array < 3 
test_array[condition]

array([1., 0., 2.])

### fancy index
- numpy는 array를 index value로 사용해서 값을 추출하는 방법

In [123]:
a = np.array([2, 4, 6, 8], float)
a

array([2., 4., 6., 8.])

In [125]:
b = np.array([0, 0, 1, 3, 2, 1], int) # 반드시 integer로 선언한다.
b

array([0, 0, 1, 3, 2, 1])

In [126]:
a[b] # bracket index, b 배열의 값을 index로 하여 a의 값을 추출한다.

array([2., 2., 4., 8., 6., 4.])

In [127]:
a.take(b) # take 함수: bracket index와 같은 효과 

array([2., 2., 4., 8., 6., 4.])

- Matrix 형태의 데이터로 가능

In [128]:
a = np.array([[1, 4], [9, 16]], float)
b = np.array([0, 0, 1, 1, 0], int)
c = np.array([0, 1, 1, 1, 1], int)
a[b,c] # b를 row index, c를 column index로 변환하여 표시함

array([ 1.,  4., 16., 16.,  4.])

## numpy data i/o
### loadtxt & savetxt
- Text type의 데이터를 읽고, 저장하는 기능

```python
a = np.loadtxt("./populations.txt")
a_int = a.astype(int)  # int type 변환
np.savetxt('int_data.csv',a_int, delimiter=",") # int_data.csv로 저장
```

### numpy object - npy
- Numpy object (pickle) 형태로 데이터를 저장하고 불러옴
- Binary 파일 형태로 저장함

```python
np.save("npy_test", arr=a_int)
npy_array = np.load(file="npy_test.npy")
npy_array[:3]
```
