# 1. What is Numpy?
<small>and how to use it? </small>

- numpy는 <b>"numerical python"</b>의 약자입니다.


- numpy는 다양한 머신러닝 라이브러리들에 의존성을 가지고 있고, 일반 파이썬 리스트에 비해 강력한 성능을 자랑합니다.


- python list와 비슷한 개념을 numpy에서는 **numpy array**라고 부른다.


- C언어와 JAVA에서 사용하는 array와 비슷한 개념이며, 동적 할당(dynamic type binding)을 지원하는 파이썬의 리스트와 구조가 다릅니다.


- Numpy의 특징
<br>
<br>

**1) numpy array는 모든 원소의 자료형이 동일해야 한다.**

(아래는 numpy array가 지원하는 data types)

![numpy_data_type](../images/numpy/numpy_datatypes.png)

**2) numpy array는 선언할 때 크기를 지정한 뒤, 변경할 수 없다. list.append(), pop()을 통해 자유롭게 원소 변경 및 크기 변경이 가능하지만, numpy array는 만들어지고 나면 원소의 update는 가능하지만, array의 크기를 변경할 수는 없다.**

**3) 사실 numpy array는 C, C++로 구현이 되어 있다. 이는 high performance를 내기 위해서이며, python이 Numerical computing에 취약하다는 단점을 보완한다.**

(아래 예시는 C언어와 파이썬의 코드 비교)

```C
/* C 코드 */
int result = 0;
for(int i=0; i<100; i++){
    result += i;
}
```

```python
# 파이썬 코드
result = 0
for i in range(100):
    result += i
```

**4) numpy array가 python list보다 빠른 이유 중에 하나는 원소의 type checking을 할 필요가 없기 때문이다.**

(아래 예시를 보자)

```C
/* C 코드 */
int x = 4;
x = "four";  // 실패
```
-> It is called, "Static type binding"



```python
# 파이썬 코드
x = 4
x = "four"
```

-> It is called, "Dynamic type binding"

(python list와 numpy array의 내부 구현 비교)

![Integer Memory Layout](../images/numpy/cint_vs_pyint.png)

![Array Memory Layout](../images/numpy/array_vs_list.png)

<small> (Referenced by Data Science Handbook) </small>

**5) numpy array는 universal function(through broadcast)를 제공하기 때문에 같은 연산 반복에 대해 훨씬 빠르다. 데이터의 크기가 클수록 차이가 더 크다.**

- 아래는 big_array라는 1000000개의 원소를 가지는 array를 만든 뒤에 for문을 돌면서 각 원소를 뒤집는 연산을 했을 때의 걸리는 시간과, numpy array에 있는 UFuncs(Universal function)을 사용했을 때 걸리는 시간을 측정한 것이다.


- 거의 1000배정도 차이가 나는 것을 볼 수 있다.

![speed_comparison](../images/numpy/list_vs_nparray.png)

# 2. Numpy Basics 

- numpy의 기본적인 사용법에 대해서 배워봅니다.


- numpy에서 numpy.array를 만드는 여러가지 방법과 지원하는 연산자에 대해서 공부합니다.

## 2.1 Numpy array Creation

In [1]:
# numpy 라이브러리를 불러옵니다.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# 파이썬 리스트 선언
data = [1, 2, 3, 4, 5]
data

[1, 2, 3, 4, 5]

In [3]:
# 파이썬 2차원 리스트(행렬) 선언
data2 = [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]
        ]
data2

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [5]:
# 파이썬 list를 numpy array로 변환합니다.
arr = np.array(data)
arr.shape
# numpy array를 만드는 방식의 대부분은 파이썬 리스트를 np.array로 변환하는 방식입니다.
# np.array([1, 2, 3, 4, 5])
# np.array.shape은 np.array의 크기를 알려줍니다.

(5,)

In [6]:
# 2차원 리스트를 np.array로 만듭니다.
arr2 = np.array(data2)
arr2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [10]:
arr2.shape
# arr2의 차원
arr2.ndim
# arr2의 행, 열의 크기
arr2.dtype
# arr2의 행 x 열
arr2.nbytes
# arr2의 원소의 타입.
# arr2의 원소의 사이즈(bytes)
# itemsize * size

72

## 2.2 Array Initialization 

- numpy array를 초기값과 함께 생성하는 방법도 있습니다.


- 원소가 0인 array를 생성하는 np.zeros()

- 원소가 1인 array를 생성하는 np.ones()

- 특정 범위의 원소를 가지는 np.arange()

In [13]:
# 0이 5개 있는 array
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [15]:
# 0이 3x3인 array
np.zeros((3, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [16]:
# 1이 3개 있는 array
np.ones(3)

array([1., 1., 1.])

In [17]:
# 1이 2x2인 array
np.ones((2, 2))

array([[1., 1.],
       [1., 1.]])

In [19]:
# 0부터 9까지 숫자를 자동으로 생성한 array
np.array(range(0, 10))
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
# 10부터 99까지 숫자를 자동으로 생성한 array
np.arange(10, 100)

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60,
       61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77,
       78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,
       95, 96, 97, 98, 99])

## 2.3. Array Operation (like vector) --> Universal Function

- numpy array를 쓰는 가장 큰 이유는 vector처럼 사용할 수 있기 때문입니다.


- 그렇기 때문에 scipy, matplotlib, scikit-learn, pandas, tensorflow, pytorch 등 대부분의 데이터분석 라이브러리들이 numpy array를 사용합니다.


- 데이터 분석은 99.9% 데이터를 벡터로 표현하여 분석하기 때문에, 이 특징은 ***굉장히*** 중요합니다.

![Vector operation](../images/numpy/vector_operations.png)

- 두 벡터 A = (1, 2), B = (2, 1)이라고 할 때, 벡터의 연산은 다음과 같이 정의됩니다.

A + B = (3, 3)


A - B = (1, -1)


A o B = 1x2 + 2x1 = 4 (dot product)

![Vector product](../images/numpy/vector_product.png)

In [21]:
# v1 = (1, 2, 3), v2 = (4, 5, 6) 벡터 2개 생성하기.
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])

In [22]:
# 리스트로 더하기 연산해보기
L = [1, 2, 3]
L2 = [4, 5, 6]
L + L2

[1, 2, 3, 4, 5, 6]

In [23]:
#  vector addition
v1 + v2

array([5, 7, 9])

In [24]:
#  vector subtraction
v1 - v2

array([-3, -3, -3])

In [25]:
# (not vector operation) elementwise multiplication
v1 * v2

array([ 4, 10, 18])

In [26]:
# (not vector operation) elementwise division
v1 / v2

array([0.25, 0.4 , 0.5 ])

In [27]:
# dot product
v1 @ v2

32

## 2.4. Broadcast

- 서로 크기가 다른 numpy array를 연산할 때, 자동으로 연산을 전파(broadcast)해주는 기능. 행렬곱 연산을 할 때 편리하다.

In [32]:
arr1 = np.array(
    [
    [[1, 2, 3],
    [4, 5, 6]],
    
    [[3, 2, 1],
    [7, 8, 9]]
    ]
)
# 1차원 array -> vector
# 2차원 array -> matrix
# 3차원 이상 array -> tensor

(100, 32, 28, 28) # 28x28 이미지가 32개씩(batch) 100개 묶음

In [34]:
arr1 = np.array(
    [[1, 2, 3],
    [4, 5, 6]])

In [35]:
arr1.shape

(2, 3)

In [30]:
arr2 = np.array([7, 8, 9])

In [31]:
arr2.shape

(3,)

In [36]:
# 2개의 array를 더해보면?
arr1 + arr2

array([[ 8, 10, 12],
       [11, 13, 15]])

In [37]:
# 2개의 array를 곱해보면? (**)
arr1 * arr2

array([[ 7, 16, 27],
       [28, 40, 54]])

In [39]:
# arr1에 10을 곱해보면?
arr1 + 2

array([[3, 4, 5],
       [6, 7, 8]])

In [40]:
# arr1을 제곱해보면?
arr1 * arr1

array([[ 1,  4,  9],
       [16, 25, 36]])

## 2.5. Universal Functions 

- numpy array는 하나의 함수를 모든 원소에 자동으로 적용해주는 Universal Function이라는 기능을 제공한다. 이 덕분에 모든 원소에 대해 같은 작업을 처리할 때 엄청나게 빠른 속도를 낼 수 있다.

In [43]:
arr1 = np.array([1, 2, 3])
arr1 / 1 # int -> float
#arr1.dtype

dtype('float64')

In [44]:
# 모든 원소를 역수를 취하려면 어떻게 해야할까?
1 / arr1

array([1.        , 0.5       , 0.33333333])

In [45]:
# 모든 원소에 2를 더하려면 어떻게 해야할까?
arr1 + 2

array([3, 4, 5])

## 2.6. Indexing (same as python list) 

In [2]:
import numpy as np

arr1 = np.arange(10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
# 첫번째 원소
arr1[0]

0

In [4]:
# 마지막 원소
arr1[-1]

9

In [5]:
# 앞에서부터 원소 3개 slicing
arr1[:3]

array([0, 1, 2])

In [6]:
arr2 = np.array([[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]])
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [9]:
# arr2의 2행 3열의 원소 == 7
arr2[1][2]
arr2[1, 2] # [행, 열]

7

In [11]:
# arr2의 세번째 column == [3, 7, 11]
arr2[0, 2]
arr2[1, 2]
arr2[2, 2]
arr2[:, 2] # 위에 3줄을 한번에 표현.

array([ 3,  7, 11])

In [13]:
# arr2의 두번째 row
arr2[1, :]

array([5, 6, 7, 8])

## 2.7. Masking 

In [31]:
mask = np.array([1, 0, 0, 1, 1, 0, 1]) # bit mask

In [15]:
data = np.random.randn(7, 4) # (7, 4)의 shape을 가지는 numpy array를 생성합니다. 각 원소는 표준정규분포를 따르는 샘플링을 통해 생성됩니다.
data

array([[-0.96229028, -0.57629277,  1.37976773,  0.73932101],
       [-0.07815445, -0.4278629 , -0.62037149, -0.0224938 ],
       [-1.27605691, -0.87213141, -0.86216347, -0.55913008],
       [ 1.09017893,  1.36706025, -0.89348428, -0.55512265],
       [ 1.39683787, -1.1547771 , -1.00619604, -0.71176629],
       [ 0.51773852, -0.24930635, -0.34349178, -1.54547164],
       [ 0.14354891,  0.90122875,  1.33948468, -1.72364917]])

In [16]:
data.shape

(7, 4)

In [32]:
# mask 만들기
bitmask = (mask == 1)
bitmask # boolean type의 numpy array

array([ True, False, False,  True,  True, False,  True])

In [33]:
# 위에서 생성한 data에 mask를 적용해본다.
data[bitmask] # bitmask가 True인 원소만 출력.

array([[-0.96229028, -0.57629277,  1.37976773,  0.73932101],
       [ 1.09017893,  1.36706025, -0.89348428, -0.55512265],
       [ 1.39683787, -1.1547771 , -1.00619604, -0.71176629],
       [ 0.14354891,  0.90122875,  1.33948468, -1.72364917]])

In [21]:
# 마스크를 0으로 바꿔본다.
data[mask == 0]

array([[-0.07815445, -0.4278629 , -0.62037149, -0.0224938 ],
       [-1.27605691, -0.87213141, -0.86216347, -0.55913008],
       [ 0.51773852, -0.24930635, -0.34349178, -1.54547164],
       [ 0.14354891,  0.90122875,  1.33948468, -1.72364917]])

In [27]:
# fancy indexing을 이용해서 masking
# 요청사항 : data라는 2차원 numpy array에서 첫번째 column에 있는 원소가 0보다 큰 row를 뽑고 싶다.
#data[data[:, 0] > 0]
data[data[:, 0] > 0]

array([[ 1.09017893,  1.36706025, -0.89348428, -0.55512265],
       [ 1.39683787, -1.1547771 , -1.00619604, -0.71176629],
       [ 0.51773852, -0.24930635, -0.34349178, -1.54547164],
       [ 0.14354891,  0.90122875,  1.33948468, -1.72364917]])

In [35]:
data2 = np.random.randn(4, 4) # (7, 4)의 shape을 가지는 numpy array를 생성합니다. 각 원소는 표준정규분포를 따르는 샘플링을 통해 생성됩니다.
data2

array([[ 0.03992895, -0.09505517,  2.44183701, -0.96657556],
       [ 2.07499268,  1.65761679, -0.22259582,  1.17251724],
       [-0.63432502,  1.5743012 , -0.8935377 , -1.07630579],
       [-0.94808037, -0.0868788 , -1.53267136, -0.82552786]])

In [39]:
#data[mask] # row 우선 적용
data2[:, data2[0, :] > 0]

array([[ 0.03992895,  2.44183701],
       [ 2.07499268, -0.22259582],
       [-0.63432502, -0.8935377 ],
       [-0.94808037, -1.53267136]])

In [34]:
# fancy indexing의 또 다른 방법
data[행, 열]
data[data[:, 0]<0, 0]

array([-0.96229028, -0.07815445, -1.27605691])

In [46]:
#data[data[:, 0]<0, 0] = 0
data[data < 0] = 0
data

array([[0.        , 0.        , 1.37976773, 0.73932101],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [1.09017893, 1.36706025, 0.        , 0.        ],
       [1.39683787, 0.        , 0.        , 0.        ],
       [0.51773852, 0.        , 0.        , 0.        ],
       [0.14354891, 0.90122875, 1.33948468, 0.        ]])

## 2.8. Numpy Methods 

In [48]:
# 표준정규분포에서 random sampling을 한 원소를 가지는 5x3 행렬을 만든다.
mat1 = np.random.randn(5, 3)
mat1

array([[-0.89869612, -0.35817429,  1.25603589],
       [-1.6233045 ,  1.6596743 , -0.97658382],
       [-0.96074815,  2.1262026 , -0.64570651],
       [ 0.12666476, -1.23357169, -0.1260428 ],
       [-0.61964842,  0.49645795, -0.08557869]])

In [49]:
# mat1에 절대값 씌우기
np.abs(mat1)

array([[0.89869612, 0.35817429, 1.25603589],
       [1.6233045 , 1.6596743 , 0.97658382],
       [0.96074815, 2.1262026 , 0.64570651],
       [0.12666476, 1.23357169, 0.1260428 ],
       [0.61964842, 0.49645795, 0.08557869]])

In [50]:
# mat1의 square root(제곱근) 구하기
np.sqrt(mat1)
# imagnary numbers = nan

  np.sqrt(mat1)


array([[       nan,        nan, 1.12073007],
       [       nan, 1.28828347,        nan],
       [       nan, 1.4581504 ,        nan],
       [0.35589993,        nan,        nan],
       [       nan, 0.70459772,        nan]])

In [51]:
# mat1 제곱하기
np.square(mat1)

array([[0.80765472, 0.12828882, 1.57762616],
       [2.63511751, 2.75451877, 0.95371597],
       [0.923037  , 4.52073749, 0.41693689],
       [0.01604396, 1.52169913, 0.01588679],
       [0.38396416, 0.2464705 , 0.00732371]])

In [52]:
# mat1의 지수값 구하기
np.exp(mat1)

array([[0.40710012, 0.69895125, 3.511474  ],
       [0.19724582, 5.25759815, 0.37659542],
       [0.38260653, 8.38297278, 0.524292  ],
       [1.13503645, 0.29125046, 0.88157711],
       [0.5381336 , 1.64289175, 0.9179809 ]])

In [53]:
# mat의 log값(자연로그) 구하기
np.log(mat1)
# log의 밑이 음수가 될 수 없다. (자연로그)

  np.log(mat1)


array([[        nan,         nan,  0.22796064],
       [        nan,  0.50662138,         nan],
       [        nan,  0.75433757,         nan],
       [-2.06621134,         nan,         nan],
       [        nan, -0.70025649,         nan]])

In [54]:
# 상용로그
np.log10(mat1)

  np.log10(mat1)


array([[        nan,         nan,  0.09900205],
       [        nan,  0.22002287,         nan],
       [        nan,  0.32760464,         nan],
       [-0.89734418,         nan,         nan],
       [        nan, -0.30411753,         nan]])

In [55]:
# 이진로그
np.log2(mat1)

  np.log2(mat1)


array([[        nan,         nan,  0.32887769],
       [        nan,  0.73090015,         nan],
       [        nan,  1.08827907,         nan],
       [-2.98091286,         nan,         nan],
       [        nan, -1.01025657,         nan]])

In [56]:
# 부호찾기
np.sign(mat1)

array([[-1., -1.,  1.],
       [-1.,  1., -1.],
       [-1.,  1., -1.],
       [ 1., -1., -1.],
       [-1.,  1., -1.]])

In [57]:
# 올림
np.ceil(mat1)

array([[-0., -0.,  2.],
       [-1.,  2., -0.],
       [-0.,  3., -0.],
       [ 1., -1., -0.],
       [-0.,  1., -0.]])

In [58]:
# 내림
np.floor(mat1)

array([[-1., -1.,  1.],
       [-2.,  1., -1.],
       [-1.,  2., -1.],
       [ 0., -2., -1.],
       [-1.,  0., -1.]])

In [59]:
# NaN인지 아닌지 (NaN = Not a Number)
np.isnan(mat1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [60]:
np.isnan(np.log(mat1))

  np.isnan(np.log(mat1))


array([[ True,  True, False],
       [ True, False,  True],
       [ True, False,  True],
       [False,  True,  True],
       [ True, False,  True]])

In [62]:
np.isinf(np.log(mat1))

  np.isinf(np.log(mat1))


array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [63]:
np.sin(mat1)

array([[-0.78251574, -0.35056497,  0.95087057],
       [-0.99862176,  0.99605295, -0.82858964],
       [-0.81962042,  0.84968629, -0.60176286],
       [ 0.12632633, -0.94367658, -0.12570933],
       [-0.58074898,  0.4763141 , -0.08547427]])

In [64]:
np.cos(mat1)

array([[ 0.6226308 ,  0.93653842,  0.30958868],
       [-0.05248405, -0.088761  ,  0.55985642],
       [ 0.57290695, -0.52728855,  0.79867482],
       [ 0.99198874,  0.33086932,  0.99206712],
       [ 0.81408269,  0.8792752 ,  0.99634038]])

In [65]:
np.tan(mat1)

array([[ -1.25678932,  -0.3743199 ,   3.07139964],
       [ 19.02714684, -11.22174046,  -1.48000383],
       [ -1.43063444,  -1.61142565,  -0.75345165],
       [  0.12734654,  -2.85211268,  -0.12671454],
       [ -0.71337836,   0.54171219,  -0.08578823]])

In [66]:
np.tanh(mat1)

array([[-0.7156624 , -0.34360488,  0.84996755],
       [-0.92510214,  0.9301733 , -0.75158326],
       [-0.74461039,  0.97193937, -0.56877252],
       [ 0.12599168, -0.84361222, -0.12537954],
       [-0.55088319,  0.45932696, -0.08537039]])

In [67]:
mat2 = np.random.randn(5, 3)
mat2

array([[-0.70716329,  0.55263447,  0.28981943],
       [ 1.31004348, -0.80004582,  1.3847787 ],
       [ 0.49774064, -0.50713854,  1.44531914],
       [-0.89206887, -0.84867858,  1.83404324],
       [ 0.57491982, -0.6159794 , -0.02201062]])

In [68]:
np.maximum(mat1, mat2)

array([[-0.70716329,  0.55263447,  1.25603589],
       [ 1.31004348,  1.6596743 ,  1.3847787 ],
       [ 0.49774064,  2.1262026 ,  1.44531914],
       [ 0.12666476, -0.84867858,  1.83404324],
       [ 0.57491982,  0.49645795, -0.02201062]])

## 2.9. Reshaping array

In [72]:
x = np.array([[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]])
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [70]:
# x1를 3x3 행렬로 변형합니다.
x1 = np.arange(1, 10).reshape(3, 3)
x1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [73]:
x == x1

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [75]:
x2.shape # (3,)와 (3, 1)은 다릅니다.

(3,)

In [77]:
# (1, 2, 3)을 transpose 해봅니다.
x2 = np.array([1, 2, 3])
x2.reshape(-1, 1)#.shape # reshape 함수에서 -1은 해당 위치를 자동으로 계산해서 채워달라는 뜻입니다.

array([[1],
       [2],
       [3]])

## 2.10. Concatenation of arrays

In [78]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
# arr1와 arr2를 합칩니다
# arr1 + arr2?
arr1 + arr2

array([5, 7, 9])

In [79]:
# stacking vertically
np.vstack([arr1, arr2])

array([[1, 2, 3],
       [4, 5, 6]])

In [80]:
# stacking horizontally
np.hstack([arr1, arr2])

array([1, 2, 3, 4, 5, 6])

## 2.10. Aggregation functions 

In [81]:
mat1

array([[-0.89869612, -0.35817429,  1.25603589],
       [-1.6233045 ,  1.6596743 , -0.97658382],
       [-0.96074815,  2.1262026 , -0.64570651],
       [ 0.12666476, -1.23357169, -0.1260428 ],
       [-0.61964842,  0.49645795, -0.08557869]])

In [83]:
# 다른 축으로 더해보기
#mat1.sum()
np.sum(mat1, axis=0) # row? column? column 방향(세로)으로 더하기, row끼리 더하기

array([-3.97573242,  2.69058886, -0.57787593])

In [84]:
# 다른 축으로 더해보기
np.sum(mat1, axis=1) # row 방향(가로)으로 더하기, column끼리 더하기

array([-8.34515322e-04, -9.40214032e-01,  5.19747946e-01, -1.23294973e+00,
       -2.08769161e-01])

In [85]:
# 평균
#np.mean(mat1)
mat1.mean()

-0.12420129956342361

In [86]:
mat3 = np.random.rand(5, 3)
mat3

array([[0.15831454, 0.97006691, 0.24604903],
       [0.92532951, 0.97616689, 0.39453183],
       [0.2424501 , 0.73008724, 0.84270656],
       [0.39253884, 0.4957412 , 0.67395745],
       [0.47863926, 0.07855379, 0.30203484]])

In [87]:
np.mean(mat3)

0.5271445323695542

In [88]:
np.mean(mat3, axis=0)

array([0.43945445, 0.6501232 , 0.49185594])

In [89]:
np.mean(mat3, axis=1)

array([0.45814349, 0.76534274, 0.6050813 , 0.52074583, 0.2864093 ])

In [90]:
np.std(mat3)

0.29503951073222867

In [91]:
np.min(mat3, axis=0)

array([0.15831454, 0.07855379, 0.24604903])

In [92]:
np.max(mat3, axis=1)

array([0.97006691, 0.97616689, 0.84270656, 0.67395745, 0.47863926])

In [94]:
mat3

array([[0.15831454, 0.97006691, 0.24604903],
       [0.92532951, 0.97616689, 0.39453183],
       [0.2424501 , 0.73008724, 0.84270656],
       [0.39253884, 0.4957412 , 0.67395745],
       [0.47863926, 0.07855379, 0.30203484]])

In [93]:
# 최소값이 있는 Index
np.argmin(mat3, axis=0)

array([0, 4, 0])

In [95]:
# 최대값이 있는 Index
np.argmax(mat3, axis=1)

array([1, 1, 2, 2, 0])

In [96]:
np.cumsum(mat3)

array([0.15831454, 1.12838145, 1.37443047, 2.29975998, 3.27592686,
       3.67045869, 3.9129088 , 4.64299604, 5.4857026 , 5.87824144,
       6.37398265, 7.04794009, 7.52657936, 7.60513314, 7.90716799])

In [97]:
np.cumsum(mat3, axis=1)

array([[0.15831454, 1.12838145, 1.37443047],
       [0.92532951, 1.90149639, 2.29602822],
       [0.2424501 , 0.97253734, 1.8152439 ],
       [0.39253884, 0.88828005, 1.56223749],
       [0.47863926, 0.55719305, 0.85922789]])

In [98]:
np.cumprod(mat3, axis=0)

array([[0.15831454, 0.97006691, 0.24604903],
       [0.14649311, 0.94694719, 0.09707417],
       [0.03551727, 0.69135406, 0.08180504],
       [0.01394191, 0.34273269, 0.05513312],
       [0.00667314, 0.02692295, 0.01665212]])

In [100]:
# 그냥 정렬, axis=-1은 the last axis을 의미합니다. axis=1
np.sort(mat3, axis=0)

array([[0.15831454, 0.07855379, 0.24604903],
       [0.2424501 , 0.4957412 , 0.30203484],
       [0.39253884, 0.73008724, 0.39453183],
       [0.47863926, 0.97006691, 0.67395745],
       [0.92532951, 0.97616689, 0.84270656]])

In [102]:
mat3

array([[0.15831454, 0.97006691, 0.24604903],
       [0.92532951, 0.97616689, 0.39453183],
       [0.2424501 , 0.73008724, 0.84270656],
       [0.39253884, 0.4957412 , 0.67395745],
       [0.47863926, 0.07855379, 0.30203484]])

In [101]:
# index를 정렬
np.argsort(mat3, axis=0)

array([[0, 4, 0],
       [2, 3, 4],
       [3, 2, 1],
       [4, 0, 3],
       [1, 1, 2]])

## 3. Powerful Numpy 

- 맨 처음에도 봤듯이 numpy는 파이썬 리스트에 비해 연산이 빠릅니다.


- 직접 실험을 통해 그 차이를 확인해보겠습니다.

In [103]:
np.random.seed(0)

def reverse_num(values):
    output = np.empty(len(values))
    
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    
    return output

In [104]:
# 1부터 100까지 범위에서 1000000개를 랜덤으로 뽑아서 array를 만듭니다.
big_array = np.random.randint(1, 100, size=10000000)

In [105]:
%timeit reverse_num(big_array)

20.5 s ± 939 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [106]:
%timeit 1.0 / big_array

24.8 ms ± 252 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


### Q. 왜 numpy가 파이썬(정확히는 CPython)으로 구현한 함수를 통해 반복문을 수행한것보다 빠를까?

A. 매번 반복할 때마다 ***"type matching"*** 과 ***"function dispatching"*** 을 파이썬 interpreter가 수행하기 때문에 **"performance bottleneck"** 이 생깁니다.