# 1. What is Numpy?
<small>and how to use it? </small>

- numpy는 <b>"numerical python"</b>의 약자입니다.


- numpy는 다양한 머신러닝 라이브러리들에 의존성을 가지고 있고, 일반 파이썬 리스트에 비해 강력한 성능을 자랑합니다.


- python list와 비슷한 개념을 numpy에서는 **numpy array**라고 부른다.


- C언어와 JAVA에서 사용하는 array와 비슷한 개념이며, 동적 할당(dynamic type binding)을 지원하는 파이썬의 리스트와 구조가 다릅니다.


- Numpy의 특징
<br>
<br>

**1) numpy array는 모든 원소의 자료형이 동일해야 한다.**

(아래는 numpy array가 지원하는 data types)

![numpy_data_type](../images/numpy/numpy_datatypes.png)

**2) numpy array는 선언할 때 크기를 지정한 뒤, 변경할 수 없다. list.append(), pop()을 통해 자유롭게 원소 변경 및 크기 변경이 가능하지만, numpy array는 만들어지고 나면 원소의 update는 가능하지만, array의 크기를 변경할 수는 없다.**

> numpy의 경우에는 append라는 함수가 있으나, 의미가 다릅니다. 

> numpy array의 크기를 변경하는 경우에는 복사가 일어난다. 

**3) 사실 numpy array는 C, C++로 구현이 되어 있다. 이는 high performance를 내기 위해서이며, python이 Numerical computing에 취약하다는 단점을 보완한다.**

(아래 예시는 C언어와 파이썬의 코드 비교)

```C
/* C 코드 */
int result = 0;
for(int i=0; i<100; i++){
    result += i;
}
```

```python
# 파이썬 코드
result = 0
for i in range(100):
    result += i
```

**4) numpy array가 python list보다 빠른 이유 중에 하나는 원소의 type checking을 할 필요가 없기 때문이다.**

(아래 예시를 보자)

```C
/* C 코드 */
int x = 4;
x = "four";  // 실패
```
-> It is called, "Static type binding"



```python
# 파이썬 코드
x = 4
x = "four"
```

-> It is called, "Dynamic type binding"

(python list와 numpy array의 내부 구현 비교)

![Integer Memory Layout](../images/numpy/cint_vs_pyint.png)

![Array Memory Layout](../images/numpy/array_vs_list.png)

<small> (Source from Data Science Handbook) </small>

**5) numpy array는 universal function(through broadcast)를 제공하기 때문에 같은 연산 반복에 대해 훨씬 빠르다. 데이터의 크기가 클수록 차이가 더 크다.**

- 아래는 big_array라는 1000000개의 원소를 가지는 array를 만든 뒤에 for문을 돌면서 각 원소를 뒤집는 연산을 했을 때의 걸리는 시간과, numpy array에 있는 UFuncs(Universal function)을 사용했을 때 걸리는 시간을 측정한 것이다.


- 거의 1000배정도 차이가 나는 것을 볼 수 있다.

![speed_comparison](../images/numpy/list_vs_nparray.png)

# 2. Numpy Basics 

- numpy의 기본적인 사용법에 대해서 배워봅니다.


- numpy에서 numpy.array를 만드는 여러가지 방법과 지원하는 연산자에 대해서 공부합니다.

## 2.1 Numpy array Creation

In [1]:
# numpy 라이브러리를 불러옵니다.
import numpy as np

In [2]:
# 파이썬 리스트 선언
data = [1, 2, 3, 4, 5]
data, type(data)

([1, 2, 3, 4, 5], list)

In [4]:
# 파이썬 2차원 리스트(행렬) 선언
data2 = [[1,2,3],
        [4,5,6],
        [7,8,9]]
data2

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [8]:
# 파이썬 list를 numpy array로 변환합니다.
arr1 = np.array(data)
arr1, type(arr1)  #
# numpy array를 만드는 방식의 대부분은 파이썬 리스트를 np.array로 변환하는 방식입니다.
# np.array.shape은 np.array의 크기를 알려줍니다.
arr1.shape
# 5 x 1


(5,)

In [10]:
# 2차원 리스트를 np.array로 만듭니다.
arr2 = np.array(data2)
arr2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [56]:
print(arr2.shape)
print('arr의 차원 : ',arr2.ndim)   # arr2의 차원

print('arr2의 행, 열 크기 :', arr2.shape)  # arr2의 행, 열의 크기

print('arr2의 크기 : ', arr2.size)        # arr2의 행 x 열

print('arr2의 datatype : ', arr2.dtype)
# arr2의 원소의 타입. # int64 : integer + 64bits

print('arr2의 원소의사이즈', arr2.itemsize)
# arr2의 원소의 사이즈(bytes) # 64bits = 8B

print('arr2의 nbytes : ', arr2.nbytes)
# itemsize * size # numpy array가 차지하는 메모리 공간.

(3,)
arr의 차원 :  1
arr2의 행, 열 크기 : (3,)
arr2의 크기 :  3
arr2의 datatype :  int32
arr2의 원소의사이즈 4
arr2의 nbytes :  12


## 2.2 Array Initialization 

- numpy array를 초기값과 함께 생성하는 방법도 있습니다.


- 원소가 0인 array를 생성하는 np.zeros()

- 원소가 1인 array를 생성하는 np.ones()

- 특정 범위의 원소를 가지는 np.arange()

In [24]:
# 0이 5개 있는 array
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [25]:
# 0이 5개 있는 array
np.zeros(5)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [26]:
# 1이 3개 있는 array
np.ones(3)

array([1., 1., 1.])

In [27]:
# 1이 2x2인 array
np.ones((2,2))

array([[1., 1.],
       [1., 1.]])

In [29]:
# 0부터 9까지 숫자를 자동으로 생성한 array
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
# 10부터 99까지 숫자를 자동으로 생성한 array
np.arange(10, 100)

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60,
       61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77,
       78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,
       95, 96, 97, 98, 99])

## 2.3. Array Operation (like vector) --> Universal Function

- numpy array를 쓰는 가장 큰 이유는 vector처럼 사용할 수 있기 때문입니다.
> e.g. arr1 = np.array([1, 2, 3, 4, 5]) --> (1, 2, 3, 4, 5) # vector

- 그렇기 때문에 scipy, matplotlib, scikit-learn, pandas, tensorflow, pytorch 등 대부분의 데이터분석 라이브러리들이 numpy array를 사용합니다.
> 대부분의 데이터 분석 라이브러리들은 벡터를 사용하는데, 그 벡터가 바로 numpy array로 표현되기 때문입니다.


- 데이터 분석은 99.9% 데이터를 벡터로 표현하여 분석하기 때문에, 이 특징은 ***굉장히*** 중요합니다.
> 벡터 == numpy array

![Vector operation](../images/numpy/vector_operations.png)


- 두 벡터 A = (1, 2), B = (2, 1)이라고 할 때, 벡터의 연산은 다음과 같이 정의됩니다.

A + B = (3, 3)


A - B = (-1, 1)


A o B = 1x2 + 2x1 = 4 (dot product)

![Vector product](../images/numpy/vector_product.png)

In [34]:
# v1 = (1, 2, 3), v2 = (4, 5, 6) 벡터 2개 생성하기.
v1 = np.array((1, 2, 3))
v2 = np.array((4, 5, 6))
type(v1), type(v2)

(numpy.ndarray, numpy.ndarray)

In [35]:
# 리스트로 더하기 연산해보기
t1 = (1, 2, 3)
t2 = (4, 5, 6)
t1 + t2

(1, 2, 3, 4, 5, 6)

In [36]:
#  vector addition
v1 + v2

array([5, 7, 9])

In [37]:
#  vector subtraction
v1 - v2

array([-3, -3, -3])

In [38]:
# (not vector operation) elementwise multiplication
v1 * v2

array([ 4, 10, 18])

In [39]:
# (not vector operation) elementwise division
v1 / v2

array([0.25, 0.4 , 0.5 ])

In [40]:
# dot product
v1 @ v2   # 1x4 + 2x5 + 3x6 = 32

32

## 2.4. Broadcast

- 서로 크기가 다른 numpy array를 연산할 때, 자동으로 연산을 전파(broadcast)해주는 기능. 행렬곱 연산을 할 때 편리하다.

In [41]:
arr1 = np.array([[1, 2, 3],
               [4, 5, 6]])

In [42]:
arr1.shape

(2, 3)

In [43]:
arr2 = np.array([7, 8, 9])

In [44]:
arr2.shape

(3,)

In [45]:
# 2개의 array를 더해보면?
arr1 + arr2            #[1, 2, 3] + [7, 8, 9] // [4, 5, 6] + [7, 8, 9]

array([[ 8, 10, 12],
       [11, 13, 15]])

In [48]:
# 2개의 array를 곱해보면? (**)
arr1 * arr2           # [1, 2, 3] * [7, 8, 9] // [4, 5, 6] * [7, ,8, 9]

# [1, 2, 3] x [7]
#[4, ,5, 6]   [8]
#            [9]



array([[ 7, 16, 27],
       [28, 40, 54]])

In [49]:
# arr1에 10을 곱해보면?
arr1 *10          

array([[10, 20, 30],
       [40, 50, 60]])

In [51]:
# arr1을 제곱해보면?
arr1 * arr1

array([[ 1,  4,  9],
       [16, 25, 36]])

## 2.5. Universal Functions 

- numpy array는 하나의 함수를 모든 원소에 자동으로 적용해주는 Universal Function이라는 기능을 제공한다. 이 덕분에 모든 원소에 대해 같은 작업을 처리할 때 엄청나게 빠른 속도를 낼 수 있다.

In [53]:
arr1 = np.array([1, 2, 3])
arr1 / 1            #데이터 타입 변경

[1. 2. 3.]


In [54]:
# 모든 원소를 역수를 취하려면 어떻게 해야할까?
1 / arr1

array([1.        , 0.5       , 0.33333333])

In [55]:
# 모든 원소에 2를 더하려면 어떻게 해야할까?
arr1 + 2

array([3, 4, 5])

## 2.6. Indexing (same as python list, but more powerful) 

In [57]:
arr1 = np.arange(10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [58]:
# 첫번째 원소
arr1[0]

0

In [59]:
# 마지막 원소
arr1[-1]

9

In [60]:
# 앞에서부터 원소 3개 slicing
arr1[:3]

array([0, 1, 2])

In [61]:
arr2 = np.array([[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]])
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [63]:
# arr2의 2, 3 원소 = 7
arr2[1, 2]

7

In [65]:
# arr2의 세번째 columnm (3, 7, 11)
arr2[ :, 2 ]  
# arr2[ 0, 2]
# arr2[ 1, 2]
# arr2[2, 2]

array([ 3,  7, 11])

In [66]:
# arr2의 두번째 row
#arr2[1]
arr2[1, :]

array([5, 6, 7, 8])

## 2.7. Masking 

In [1]:
import numpy as np

In [2]:
mask = np.array([1, 0, 0, 1, 1, 0, 0])
mask

array([1, 0, 0, 1, 1, 0, 0])

In [3]:
data = np.random.randn(7, 4)
data

array([[-0.19469081, -0.49001679, -0.21289962, -0.69027704],
       [ 0.91515707, -0.15068038, -2.34420984, -0.00613862],
       [ 0.14348808, -1.89482866,  1.03997493,  0.83409545],
       [ 0.09214703, -0.57031676, -1.99129437,  1.17122066],
       [ 0.01620573, -0.04872312,  0.42040323,  0.57294254],
       [ 0.52318753,  0.54763607,  0.49722651,  0.60267398],
       [-1.71815302,  1.17926143, -0.83214331, -1.97197496]])

In [4]:
data.shape

(7, 4)

In [5]:
# mask 만들기
masked_data = (mask == 1)
masked_data

array([ True, False, False,  True,  True, False, False])

In [6]:
# 위에서 생성한 data에 mask를 적용해본다.
data[masked_data, :]

array([[-0.19469081, -0.49001679, -0.21289962, -0.69027704],
       [ 0.09214703, -0.57031676, -1.99129437,  1.17122066],
       [ 0.01620573, -0.04872312,  0.42040323,  0.57294254]])

In [7]:
# 마스크를 0으로 바꿔본다.
data[mask == 0,:]

array([[ 0.91515707, -0.15068038, -2.34420984, -0.00613862],
       [ 0.14348808, -1.89482866,  1.03997493,  0.83409545],
       [ 0.52318753,  0.54763607,  0.49722651,  0.60267398],
       [-1.71815302,  1.17926143, -0.83214331, -1.97197496]])

In [12]:
# fancy indexing을 이용해서 masking
data[:,0]<0    
# 7 x 1의 mask == 첫번째 column의 원소중에 0보다 작은 원소들의 위치가 True

array([False, False, False, False, False, False, False])

In [9]:
# fancy indexing의 또 다른 방법
data[data[:, 0]<0 , 0]

array([-0.19469081, -1.71815302])

In [10]:
# 2차원 data에서 첫번째 column에 0보다 작은 원소들을 0으로 치환해주세요.
data[data[:, 0] < 0, 0] = 0
data

array([[ 0.        , -0.49001679, -0.21289962, -0.69027704],
       [ 0.91515707, -0.15068038, -2.34420984, -0.00613862],
       [ 0.14348808, -1.89482866,  1.03997493,  0.83409545],
       [ 0.09214703, -0.57031676, -1.99129437,  1.17122066],
       [ 0.01620573, -0.04872312,  0.42040323,  0.57294254],
       [ 0.52318753,  0.54763607,  0.49722651,  0.60267398],
       [ 0.        ,  1.17926143, -0.83214331, -1.97197496]])

In [14]:
#전체 데이터에 대해서
data[data < 0] = 0
data

array([[0.        , 0.        , 0.        , 0.        ],
       [0.91515707, 0.        , 0.        , 0.        ],
       [0.14348808, 0.        , 1.03997493, 0.83409545],
       [0.09214703, 0.        , 0.        , 1.17122066],
       [0.01620573, 0.        , 0.42040323, 0.57294254],
       [0.52318753, 0.54763607, 0.49722651, 0.60267398],
       [0.        , 1.17926143, 0.        , 0.        ]])

In [17]:

data > 0

array([[False, False, False, False],
       [ True, False, False, False],
       [ True, False,  True,  True],
       [ True, False, False,  True],
       [ True, False,  True,  True],
       [ True,  True,  True,  True],
       [False,  True, False, False]])

## 2.8. Numpy Methods 

In [19]:
# 표준정규분포에서 random sampling을 한 원소를 가지는 5x3 행렬을 만든다.
mat1 = np.random.randn(5,3)
mat1

array([[ 0.82684346, -0.52591434,  0.20477099],
       [ 2.06211252,  1.78343274,  0.05135273],
       [ 0.66784779,  0.25663029,  0.15319139],
       [ 1.41079275, -1.32201506, -0.89521941],
       [ 0.58238607, -1.40922826, -0.8604017 ]])

In [20]:
# mat1에 절대값 씌우기
np.abs(mat1)

array([[0.82684346, 0.52591434, 0.20477099],
       [2.06211252, 1.78343274, 0.05135273],
       [0.66784779, 0.25663029, 0.15319139],
       [1.41079275, 1.32201506, 0.89521941],
       [0.58238607, 1.40922826, 0.8604017 ]])

In [21]:
# mat1의 square root(제곱근) 구하기
comp1 = 
np.sqrt(mat1)
#루트 안에는 0보다 커야하니까 경고가 뜸 

  np.sqrt(mat1)


array([[0.90930933,        nan, 0.45251629],
       [1.43600575, 1.33545226, 0.22661141],
       [0.81721955, 0.50658691, 0.39139672],
       [1.18776797,        nan,        nan],
       [0.76314223,        nan,        nan]])

In [22]:
#그래서 숫자를 허수 complex로 바꿔줌
comp1 = np.array(mat1, dtype = complex)
print(np.sqrt(comp1))

[[0.90930933+0.j         0.        +0.72519952j 0.45251629+0.j        ]
 [1.43600575+0.j         1.33545226+0.j         0.22661141+0.j        ]
 [0.81721955+0.j         0.50658691+0.j         0.39139672+0.j        ]
 [1.18776797+0.j         0.        +1.14978914j 0.        +0.94616035j]
 [0.76314223+0.j         0.        +1.1871092j  0.        +0.92757841j]]


In [23]:
# mat1 제곱하기
np.square(mat1)

array([[6.83670100e-01, 2.76585893e-01, 4.19311591e-02],
       [4.25230805e+00, 3.18063234e+00, 2.63710320e-03],
       [4.46020665e-01, 6.58591083e-02, 2.34676035e-02],
       [1.99033618e+00, 1.74772381e+00, 8.01417783e-01],
       [3.39173535e-01, 1.98592429e+00, 7.40291091e-01]])

In [25]:
# mat1의 지수값 구하기
np.exp(mat1)

array([[2.28609119, 0.59101473, 1.22724398],
       [7.86256212, 5.95024706, 1.05269415],
       [1.95003591, 1.29256717, 1.16554804],
       [4.09920375, 0.26659755, 0.40851796],
       [1.79030513, 0.24433177, 0.42299213]])

In [26]:
# mat의 log값(자연로그) 구하기
np.log(mat1)

  np.log(mat1)


array([[-0.19013989,         nan, -1.58586304],
       [ 0.72373095,  0.57854001, -2.96903712],
       [-0.403695  , -1.36011877, -1.87606719],
       [ 0.34415178,         nan,         nan],
       [-0.5406217 ,         nan,         nan]])

In [27]:
# 상용로그
np.log10(mat1)

  np.log10(mat1)


array([[-0.08257671,         nan, -0.68873157],
       [ 0.31431236,  0.25125674, -1.28943644],
       [-0.17532251, -0.59069208, -0.81476563],
       [ 0.14946322,         nan,         nan],
       [-0.23478902,         nan,         nan]])

In [28]:
# 이진로그
np.log2(mat1)

  np.log2(mat1)


array([[-0.27431388,         nan, -2.28791674],
       [ 1.04412306,  0.83465681, -4.28341513],
       [-0.58240877, -1.96223661, -2.70659283],
       [ 0.49650606,         nan,         nan],
       [-0.77995225,         nan,         nan]])

In [29]:
# 부호찾기
np.sign(mat1)

array([[ 1., -1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1., -1., -1.],
       [ 1., -1., -1.]])

In [30]:
# 올림
np.ceil(mat1)

array([[ 1., -0.,  1.],
       [ 3.,  2.,  1.],
       [ 1.,  1.,  1.],
       [ 2., -1., -0.],
       [ 1., -1., -0.]])

In [31]:
# 내림
np.floor(mat1)

array([[ 0., -1.,  0.],
       [ 2.,  1.,  0.],
       [ 0.,  0.,  0.],
       [ 1., -2., -1.],
       [ 0., -2., -1.]])

In [32]:
# 존재하지 않는 값이 있는지 없는지 # nan = not a number
np.isnan(mat1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [33]:
np.isnan(np.log(mat1))

  np.isnan(np.log(mat1))


array([[False,  True, False],
       [False, False, False],
       [False, False, False],
       [False,  True,  True],
       [False,  True,  True]])

In [34]:
# 무한대
np.isinf(mat1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [35]:
np.sin(mat1)

array([[ 0.73579742, -0.502004  ,  0.20334294],
       [ 0.88171266,  0.97747793,  0.05133017],
       [ 0.6192976 ,  0.25382265,  0.15259293],
       [ 0.98722671, -0.96921322, -0.7803463 ],
       [ 0.55001823, -0.98697625, -0.75810459]])

In [36]:
np.cos(mat1)

array([[ 0.67720171,  0.8648653 ,  0.97910758],
       [-0.4717868 , -0.21103767,  0.99868174],
       [ 0.78515634,  0.96725078,  0.98828913],
       [ 0.15932174,  0.24622293,  0.62534762],
       [ 0.83515265,  0.16086605,  0.65213299]])

In [37]:
np.tan(mat1)

array([[ 1.08652624, -0.58044183,  0.20768192],
       [-1.86887945, -4.63176996,  0.05139792],
       [ 0.78875704,  0.26241659,  0.1544011 ],
       [ 6.1964344 , -3.9363239 , -1.24786004],
       [ 0.65858408, -6.13539187, -1.16249998]])

In [38]:
np.tanh(mat1)

array([[ 0.67877745, -0.4822518 ,  0.2019561 ],
       [ 0.96816295,  0.94506316,  0.05130764],
       [ 0.58356238,  0.25114104,  0.15200419],
       [ 0.88766236, -0.86728417, -0.71396213],
       [ 0.52439751, -0.88733014, -0.69646458]])

In [39]:
mat2 = np.random.randn(5, 3)
mat2

array([[-1.44449846, -0.64975235, -1.12412968],
       [ 0.7239684 ,  0.12078638,  1.24558133],
       [-0.65531455, -0.04686504,  0.0289282 ],
       [-0.09344498,  2.33548245, -2.16627697],
       [ 0.15636438,  1.88371925,  0.6159577 ]])

In [40]:
np.maximum(mat1, mat2)

array([[ 0.82684346, -0.52591434,  0.20477099],
       [ 2.06211252,  1.78343274,  1.24558133],
       [ 0.66784779,  0.25663029,  0.15319139],
       [ 1.41079275,  2.33548245, -0.89521941],
       [ 0.58238607,  1.88371925,  0.6159577 ]])

## 2.9. Reshaping array

In [50]:
x = np.array([[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]])
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [47]:
# x를 3x3 행렬로 변형합니다.
x=np.arange(1, 10)
x

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [51]:
x1 = np.arange(1,10).reshape(3, 3)
x1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [52]:
x == x1

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [55]:
# (1, 2, 3)을 transpose 해봅니다.
x2 = np.array([1, 2, 3]).reshape(3,1)   
x2

array([[1],
       [2],
       [3]])

## 2.10. Concatenation of arrays

In [56]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
# arr1와 arr2를 합칩니다
# arr1 + arr2?
arr1 + arr2

array([5, 7, 9])

In [59]:
np.concatenate((arr1, arr2))

array([1, 2, 3, 4, 5, 6])

In [62]:
# stacking vertically
np.vstack([arr1,arr2])

array([[1, 2, 3],
       [4, 5, 6]])

In [63]:
# stacking horizontally
np.hstack([arr1,arr2])

array([1, 2, 3, 4, 5, 6])

## 2.11. Aggregation functions 

In [64]:
mat1

array([[ 0.82684346, -0.52591434,  0.20477099],
       [ 2.06211252,  1.78343274,  0.05135273],
       [ 0.66784779,  0.25663029,  0.15319139],
       [ 1.41079275, -1.32201506, -0.89521941],
       [ 0.58238607, -1.40922826, -0.8604017 ]])

In [65]:
# 15개 숫자의 총합.

np.sum(mat1)

2.9865819734523478

In [66]:
# 다른 축으로 더해보기

np.sum(mat1, axis = 0)  # column별 총합 (위, 아래로)

array([ 5.54998258, -1.21709462, -1.34630599])

In [67]:
# 다른 축으로 더해보기

np.sum(mat1, axis = 1)  # row 별 총합 (옆으로 )

array([ 0.50570011,  3.896898  ,  1.07766948, -0.80644171, -1.68724389])

In [68]:
# 평균

np.mean(mat1)

0.19910546489682318

In [72]:
mat3 = np.random.rand(5, 3)   #rand 는 0과 1사이의 양수값
mat3

array([[0.90430649, 0.85071772, 0.81742126],
       [0.40886355, 0.55706722, 0.1134084 ],
       [0.4155881 , 0.68586787, 0.23814607],
       [0.63899363, 0.95026116, 0.88203326],
       [0.97713665, 0.77682903, 0.14023853]])

In [73]:
np.mean(mat3)

0.6237919293339336

In [74]:
np.mean(mat3, axis=0)

array([0.66897769, 0.7641486 , 0.4382495 ])

In [75]:
np.mean(mat3, axis=1)

array([0.85748182, 0.35977972, 0.44653401, 0.82376268, 0.6314014 ])

In [76]:
np.std(mat3) # 표준편차

0.28639568700950396

In [79]:
np.min(mat3, axis=0)      #최소값

array([0.40886355, 0.55706722, 0.1134084 ])

In [80]:
np.max(mat3, axis=1)

array([0.90430649, 0.55706722, 0.68586787, 0.95026116, 0.97713665])

In [83]:
# 최소값이 있는 Index

np.argmin(mat3, axis=0)

array([1, 1, 1], dtype=int64)

In [82]:
# 최대값이 있는 Index

np.argmax(mat3, axis=1)

array([0, 1, 1, 1, 0], dtype=int64)

In [84]:
# 누적합
np.cumsum(mat3)


array([0.90430649, 1.75502421, 2.57244546, 2.98130902, 3.53837624,
       3.65178464, 4.06737274, 4.75324061, 4.99138668, 5.63038031,
       6.58064147, 7.46267473, 8.43981138, 9.21664041, 9.35687894])

In [85]:
np.cumsum(mat3, axis=1) # row별 누적합.

array([[0.90430649, 1.75502421, 2.57244546],
       [0.40886355, 0.96593078, 1.07933917],
       [0.4155881 , 1.10145597, 1.33960204],
       [0.63899363, 1.58925479, 2.47128805],
       [0.97713665, 1.75396568, 1.89420421]])

In [86]:
np.cumprod(mat3, axis=0)

array([[0.90430649, 0.85071772, 0.81742126],
       [0.36973797, 0.47390696, 0.09270243],
       [0.1536587 , 0.32503755, 0.02207672],
       [0.09818693, 0.30887056, 0.0194724 ],
       [0.09594205, 0.23993962, 0.00273078]])

In [87]:
# 그냥 정렬
np.sort(mat3)

array([[0.81742126, 0.85071772, 0.90430649],
       [0.1134084 , 0.40886355, 0.55706722],
       [0.23814607, 0.4155881 , 0.68586787],
       [0.63899363, 0.88203326, 0.95026116],
       [0.14023853, 0.77682903, 0.97713665]])

In [88]:
# index를 정렬
np.argsort(mat3, axis=0) # argument sorting에서 정렬된 값의 원래 위치를 보여줍니다.
# 정렬된 다음의 index를 원래 원소의 위치에 표시해줍니다.

array([[1, 1, 1],
       [2, 2, 4],
       [3, 4, 2],
       [0, 0, 0],
       [4, 3, 3]], dtype=int64)

## 3. Powerful Numpy 

- 맨 처음에도 봤듯이 numpy array는 파이썬 리스트에 비해 연산이 빠릅니다.
> broadcast, static type binding, fixed array size, ... --> vectorize
> 조건 : 원소의 개수가 많을 때.

- 직접 실험을 통해 그 차이를 확인해보겠습니다.

In [90]:
np.random.seed(0)
# Numpy array의 각 원소의 역수를 취하는 함수.
def reverse_num(values):
    output = np.empty(len(values))
    
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    

    return output

# Numpy array의 모든 원소의 합을 구하는 함수.
def cum_sum(values):
    total = 0
    
    for num in values:
        total += num
        
    return total

In [92]:
# 1부터 100까지 범위에서 1000000개를 랜덤으로 뽑아서 array를 만듭니다.
big_array = np.random.randint(1, 100, size=1000000)

In [93]:
big_array.shape

(1000000,)

In [94]:
# %timeit 걸린는 시간 측정

%timeit reverse_num(big_array)

1.48 s ± 31.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [95]:
%timeit 1.0 / big_array

2.73 ms ± 419 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [96]:
%timeit cum_sum(big_array)

58.2 ms ± 408 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [97]:
%timeit np.sum(big_array)

332 µs ± 3.99 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### Q. 왜 numpy가 파이썬(정확히는 CPython)으로 구현한 함수를 통해 반복문을 수행한것보다 빠를까?

A1. 매번 반복할 때마다 ***"type matching"*** 과 ***"function dispatching"*** 을 파이썬 interpreter가 수행하기 때문에 **"performance bottleneck"** 이 생깁니다.

A2.