# 1. What is Numpy?
<small>and how to use it? </small>

- numpy는 <b>"numerical python"</b>의 약자입니다.


- numpy는 다양한 머신러닝 라이브러리들에 의존성을 가지고 있고, 일반 파이썬 리스트에 비해 강력한 성능을 자랑합니다.


- python list와 비슷한 개념을 numpy에서는 **numpy array**라고 부른다.


- C언어와 JAVA에서 사용하는 array와 비슷한 개념이며, 동적 할당(dynamic type binding)을 지원하는 파이썬의 리스트와 구조가 다릅니다.


- Numpy의 특징
<br>
<br>

**1) numpy array는 모든 원소의 자료형이 동일해야 한다.**

(아래는 numpy array가 지원하는 data types)

![numpy_data_type](../images/numpy/numpy_datatypes.png)

**2) numpy array는 선언할 때 크기를 지정한 뒤, 변경할 수 없다. list.append(), pop()을 통해 자유롭게 원소 변경 및 크기 변경이 가능하지만, numpy array는 만들어지고 나면 원소의 update는 가능하지만, array의 크기를 변경할 수는 없다.**

**3) 사실 numpy array는 C, C++로 구현이 되어 있다. 이는 high performance를 내기 위해서이며, python이 Numerical computing에 취약하다는 단점을 보완한다.**

(아래 예시는 C언어와 파이썬의 코드 비교)

```C
/* C 코드 */
int result = 0;
for(int i=0; i<100; i++){
    result += i;
}
```

```python
# 파이썬 코드
result = 0
for i in range(100):
    result += i
```

**4) numpy array가 python list보다 빠른 이유 중에 하나는 원소의 type checking을 할 필요가 없기 때문이다.**

(아래 예시를 보자)

```C
/* C 코드 */
int x = 4;
x = "four";  // 실패
```
-> It is called, "Static type binding"



```python
# 파이썬 코드
x = 4
x = "four"
```

-> It is called, "Dynamic type binding"

(python list와 numpy array의 내부 구현 비교)

![Integer Memory Layout](../images/numpy/cint_vs_pyint.png)

![Array Memory Layout](../images/numpy/array_vs_list.png)

<small> (Referenced by Data Science Handbook) </small>

**5) numpy array는 universal function(through broadcast)를 제공하기 때문에 같은 연산 반복에 대해 훨씬 빠르다. 데이터의 크기가 클수록 차이가 더 크다.**

- 아래는 big_array라는 1000000개의 원소를 가지는 array를 만든 뒤에 for문을 돌면서 각 원소를 뒤집는 연산을 했을 때의 걸리는 시간과, numpy array에 있는 UFuncs(Universal function)을 사용했을 때 걸리는 시간을 측정한 것이다.


- 거의 1000배정도 차이가 나는 것을 볼 수 있다.

![speed_comparison](../images/numpy/list_vs_nparray.png)

# 2. Numpy Basics 

- numpy의 기본적인 사용법에 대해서 배워봅니다.


- numpy에서 numpy.array를 만드는 여러가지 방법과 지원하는 연산자에 대해서 공부합니다.

## 2.1 Numpy array Creation

In [1]:
# numpy 라이브러리를 불러옵니다.
import numpy as np

In [2]:
# 파이썬 리스트 선언
data1 = [1, 2, 3, 4, 5]
data1, type(data1)

([1, 2, 3, 4, 5], list)

In [3]:
# 파이썬 2차원 리스트(행렬) 선언
data2 = [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]
data2, type(data2)

([[1, 2, 3], [4, 5, 6], [7, 8, 9]], list)

In [4]:
# 파이썬 list를 numpy array로 변환합니다.
# numpy array를 만드는 방식의 대부분은 파이썬 리스트를 np.array로 변환하는 방식입니다.
arr1 = np.array(data1) # np.array([1, 2, 3, 4, 5])
arr1, type(arr1), arr1.shape # np.array.shape은 np.array의 크기를 알려줍니다.

(array([1, 2, 3, 4, 5]), numpy.ndarray, (5,))

In [5]:
arr2 = np.array(data2)
arr2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [6]:
print("arr2 ndim :", arr2.ndim) # arr2의 차원 
print("arr2 shape :", arr2.shape) # arr2의 행, 열의 크기
print("arr2 size :", arr2.size) # arr2의 행 x 열
print("arr2 dtype :", arr2.dtype) # arr2의 원소의 타입.
print("arr2 itemsize :", arr2.itemsize) # arr2의 원소의 사이즈(bytes)
print("arr2 nbytes :", arr2.nbytes) # itemsize * size

arr2 ndim : 2
arr2 shape : (3, 3)
arr2 size : 9
arr2 dtype : int64
arr2 itemsize : 8
arr2 nbytes : 72


## 2.2 Array Initialization 

- numpy array를 초기값과 함께 생성하는 방법도 있습니다.


- 원소가 0인 array를 생성하는 np.zeros()

- 원소가 1인 array를 생성하는 np.ones()

- 특정 범위의 원소를 가지는 np.arange()

In [7]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [8]:
np.zeros((3, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [9]:
np.ones(3)

array([1., 1., 1.])

In [10]:
np.ones((2, 2))

array([[1., 1.],
       [1., 1.]])

In [11]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
np.arange(10, 100)

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60,
       61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77,
       78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,
       95, 96, 97, 98, 99])

## 2.3. Array Operation (like vector) --> Universal Function

- numpy array를 쓰는 가장 큰 이유는 vector처럼 사용할 수 있기 때문입니다.


- 그렇기 때문에 scipy, matplotlib, scikit-learn, pandas, tensorflow, pytorch 등 대부분의 데이터분석 라이브러리들이 numpy array를 사용합니다.


- 데이터 분석은 99.9% 데이터를 벡터로 표현하여 분석하기 때문에, 이 특징은 ***굉장히*** 중요합니다.

![Vector operation](../images/numpy/vector_operations.png)

- 두 벡터 A = (1, 2), B = (2, 1)이라고 할 때, 벡터의 연산은 다음과 같이 정의됩니다.

A + B = (3, 3)


A - B = (1, -1)


A o B = 1x2 + 2x1 = 4 (dot product)

![Vector product](../images/numpy/vector_product.png)

In [13]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

In [14]:
arr1 + arr2 #  vector addition

array([5, 7, 9])

In [15]:
arr1 - arr2 #  vector subtraction

array([-3, -3, -3])

In [16]:
arr1 * arr2  # (not vector operation) elementwise multiplication

array([ 4, 10, 18])

In [17]:
arr1 / arr2  # (not vector operation) elementwise division

array([0.25, 0.4 , 0.5 ])

In [18]:
arr1 @ arr2 # dot product

32

## 2.4. Broadcast

- 서로 크기가 다른 numpy array를 연산할 때, 자동으로 연산을 전파(broadcast)해주는 기능. 행렬곱 연산을 할 때 편리하다.

In [19]:
arr1 = np.array([[1, 2, 3,],
               [4, 5, 6]])

In [20]:
arr1.shape

(2, 3)

In [21]:
arr2 = np.array([7, 8, 9])

In [22]:
arr2.shape

(3,)

In [23]:
arr1 + arr2

array([[ 8, 10, 12],
       [11, 13, 15]])

In [24]:
arr1 * arr2 # 2x3 행렬인 arr1에 3x1인 arr2 행렬을 곱한 결과와 같다. (2x1 행렬)

array([[ 7, 16, 27],
       [28, 40, 54]])

In [25]:
arr1 * 10

array([[10, 20, 30],
       [40, 50, 60]])

In [26]:
arr1 ** 2

array([[ 1,  4,  9],
       [16, 25, 36]])

## 2.5. Universal Functions 

- numpy array는 하나의 함수를 모든 원소에 자동으로 적용해주는 Universal Function이라는 기능을 제공한다. 이 덕분에 모든 원소에 대해 같은 작업을 처리할 때 엄청나게 빠른 속도를 낼 수 있다.

In [27]:
arr1 = np.array([1, 2, 3])
arr1 / 1

array([1., 2., 3.])

In [28]:
1 / arr1

array([1.        , 0.5       , 0.33333333])

In [29]:
arr1 + 2

array([3, 4, 5])

## 2.6. Indexing (same as python list) 

In [30]:
arr1 = np.arange(10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [31]:
arr1[0]

0

In [32]:
arr1[-1]

9

In [33]:
arr1[:3]

array([0, 1, 2])

In [34]:
arr2 = np.array([[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]])
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [35]:
arr2[1, 2]

7

In [36]:
arr2[:, 2]

array([ 3,  7, 11])

In [37]:
arr2[1, :]

array([5, 6, 7, 8])

## 2.7. Masking 

In [38]:
mask = np.array([1, 0, 0, 1, 1, 0, 0])

In [39]:
data = np.random.randn(7, 4)
data

array([[ 0.09311334, -0.25303728, -0.45724005,  0.35342906],
       [ 0.65149024, -0.25451442, -0.7026898 ,  0.04729726],
       [ 0.8272316 ,  0.13549374,  2.1538641 , -1.31112897],
       [ 1.90117132, -0.01130987, -0.81663146, -1.58777593],
       [-0.0693784 ,  0.50687188,  1.14395097,  0.56689636],
       [-0.64988665,  2.26699367, -1.34023985, -1.58539537],
       [ 2.40302708, -1.07718833,  1.92258334,  0.77334174]])

In [40]:
data.shape

(7, 4)

In [41]:
masked_data = (mask == 1)
masked_data

array([ True, False, False,  True,  True, False, False])

In [42]:
data[masked_data, :]

array([[ 0.09311334, -0.25303728, -0.45724005,  0.35342906],
       [ 1.90117132, -0.01130987, -0.81663146, -1.58777593],
       [-0.0693784 ,  0.50687188,  1.14395097,  0.56689636]])

In [43]:
data[mask == 0, :]

array([[ 0.65149024, -0.25451442, -0.7026898 ,  0.04729726],
       [ 0.8272316 ,  0.13549374,  2.1538641 , -1.31112897],
       [-0.64988665,  2.26699367, -1.34023985, -1.58539537],
       [ 2.40302708, -1.07718833,  1.92258334,  0.77334174]])

In [44]:
data[:, 0] < 0

array([False, False, False, False,  True,  True, False])

In [45]:
data[data[:, 0]<0, 0]

array([-0.0693784 , -0.64988665])

In [46]:
data[data[:, 0]<0, 0] = 0
data

array([[ 0.09311334, -0.25303728, -0.45724005,  0.35342906],
       [ 0.65149024, -0.25451442, -0.7026898 ,  0.04729726],
       [ 0.8272316 ,  0.13549374,  2.1538641 , -1.31112897],
       [ 1.90117132, -0.01130987, -0.81663146, -1.58777593],
       [ 0.        ,  0.50687188,  1.14395097,  0.56689636],
       [ 0.        ,  2.26699367, -1.34023985, -1.58539537],
       [ 2.40302708, -1.07718833,  1.92258334,  0.77334174]])

## 2.8. Numpy Methods 

In [47]:
mat1 = np.random.randn(5, 3)
mat1

array([[ 0.20345002,  0.59176233, -1.68881699],
       [-0.19018913,  0.17849384,  0.83715619],
       [-1.26341831, -1.13290432,  0.89467704],
       [ 0.92252654, -0.93673665, -0.4215764 ],
       [ 0.5582947 , -0.08534243,  0.27933536]])

In [48]:
np.abs(mat1)

array([[0.20345002, 0.59176233, 1.68881699],
       [0.19018913, 0.17849384, 0.83715619],
       [1.26341831, 1.13290432, 0.89467704],
       [0.92252654, 0.93673665, 0.4215764 ],
       [0.5582947 , 0.08534243, 0.27933536]])

In [49]:
np.sqrt(mat1) # imagnary numbers = nan

  """Entry point for launching an IPython kernel.


array([[0.45105434, 0.7692609 ,        nan],
       [       nan, 0.42248531, 0.9149624 ],
       [       nan,        nan, 0.94587369],
       [0.96048245,        nan,        nan],
       [0.7471912 ,        nan, 0.52852186]])

In [50]:
np.square(mat1)

array([[0.04139191, 0.35018265, 2.85210282],
       [0.03617191, 0.03186005, 0.70083049],
       [1.59622584, 1.2834722 , 0.80044701],
       [0.85105522, 0.87747554, 0.17772666],
       [0.31169297, 0.00728333, 0.07802824]])

In [51]:
np.exp(mat1)

array([[1.2256239 , 1.80717044, 0.18473794],
       [0.82680274, 1.19541552, 2.30978903],
       [0.28268606, 0.32209643, 2.44654553],
       [2.51563824, 0.39190467, 0.65601187],
       [1.74768961, 0.91819782, 1.3222507 ]])

In [52]:
np.log(mat1) # log의 밑이 음수가 될 수 없다. (자연로그)

  """Entry point for launching an IPython kernel.


array([[-1.59233491, -0.52465019,         nan],
       [        nan, -1.7232012 , -0.17774462],
       [        nan,         nan, -0.11129247],
       [-0.08063913,         nan,         nan],
       [-0.58286833,         nan, -1.27534221]])

In [53]:
np.log10(mat1)

  """Entry point for launching an IPython kernel.


array([[-0.69154226, -0.22785268,         nan],
       [        nan, -0.74837677, -0.07719351],
       [        nan,         nan, -0.04833371],
       [-0.03502113,         nan,         nan],
       [-0.2531365 ,         nan, -0.55387408]])

In [54]:
np.log2(mat1)

  """Entry point for launching an IPython kernel.


array([[-2.29725368, -0.75691023,         nan],
       [        nan, -2.48605383, -0.25643128],
       [        nan,         nan, -0.1605611 ],
       [-0.11633767,         nan,         nan],
       [-0.84090125,         nan, -1.83992988]])

In [55]:
np.sign(mat1)

array([[ 1.,  1., -1.],
       [-1.,  1.,  1.],
       [-1., -1.,  1.],
       [ 1., -1., -1.],
       [ 1., -1.,  1.]])

In [56]:
np.ceil(mat1)

array([[ 1.,  1., -1.],
       [-0.,  1.,  1.],
       [-1., -1.,  1.],
       [ 1., -0., -0.],
       [ 1., -0.,  1.]])

In [57]:
np.floor(mat1)

array([[ 0.,  0., -2.],
       [-1.,  0.,  0.],
       [-2., -2.,  0.],
       [ 0., -1., -1.],
       [ 0., -1.,  0.]])

In [58]:
np.isnan(mat1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [59]:
np.isnan(np.log(mat1))

  """Entry point for launching an IPython kernel.


array([[False, False,  True],
       [ True, False, False],
       [ True,  True, False],
       [False,  True,  True],
       [False,  True, False]])

In [60]:
np.isinf(mat1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [61]:
np.sin(mat1)

array([[ 0.20204939,  0.55782455, -0.99304364],
       [-0.18904462,  0.17754754,  0.74274198],
       [-0.95313016, -0.90564753,  0.78000702],
       [ 0.79712971, -0.80562912, -0.40919934],
       [ 0.5297406 , -0.08523887,  0.27571683]])

In [62]:
np.cos(mat1)

array([[ 0.97937533,  0.8299589 , -0.11774687],
       [ 0.9819685 ,  0.98411222,  0.66957775],
       [ 0.30256058,  0.42403131,  0.62577076],
       [ 0.6038081 ,  0.59242023,  0.91244501],
       [ 0.84815971,  0.99636054,  0.9612389 ]])

In [63]:
np.tan(mat1)

array([[ 0.20630435,  0.67211105,  8.43371584],
       [-0.19251597,  0.18041392,  1.10926921],
       [-3.15021257, -2.13580344,  1.24647407],
       [ 1.32017061, -1.35989468, -0.44846466],
       [ 0.62457647, -0.08555022,  0.28683487]])

In [64]:
np.tanh(mat1)

array([[ 0.20068867,  0.53116191, -0.93399636],
       [-0.18792867,  0.17662208,  0.68429985],
       [-0.85200377, -0.81201092,  0.71369613],
       [ 0.72709046, -0.73371931, -0.39825763],
       [ 0.50671107, -0.08513584,  0.27228983]])

In [65]:
mat2 = np.random.randn(5, 3)
mat2

array([[-0.25115296, -1.92578718,  1.10675882],
       [-0.51804327, -2.54795266, -0.01830075],
       [ 0.56205393,  0.3325909 ,  0.47341489],
       [ 0.09664118, -0.64184971,  0.12972147],
       [-0.02554735,  0.4739289 ,  1.57408734]])

In [66]:
np.maximum(mat1, mat2)

array([[ 0.20345002,  0.59176233,  1.10675882],
       [-0.19018913,  0.17849384,  0.83715619],
       [ 0.56205393,  0.3325909 ,  0.89467704],
       [ 0.92252654, -0.64184971,  0.12972147],
       [ 0.5582947 ,  0.4739289 ,  1.57408734]])

## 2.9. Reshaping array

In [67]:
x = np.array([[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]])
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [68]:
x1 = np.arange(1, 10).reshape(3, 3)
x1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [69]:
x == x1

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [70]:
x2 = np.array([1, 2, 3]).reshape(3, 1)
x2

array([[1],
       [2],
       [3]])

## 2.10. Concatenation of arrays

In [71]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
np.concatenate([arr1, arr2])

array([1, 2, 3, 4, 5, 6])

In [72]:
# stacking vertically
np.vstack([arr1, arr2])

array([[1, 2, 3],
       [4, 5, 6]])

In [73]:
# stacking horizontally
np.hstack([arr1, arr2])

array([1, 2, 3, 4, 5, 6])

## 2.10. Aggregation functions 

In [74]:
np.sum(mat1)

-1.2532882091993527

In [75]:
np.sum(mat1, axis=0)

array([ 0.23066381, -1.38472723, -0.09922479])

In [76]:
np.sum(mat1, axis=1)

array([-0.89360464,  0.8254609 , -1.50164559, -0.4357865 ,  0.75228763])

In [77]:
np.mean(mat1)

-0.08355254727995684

In [78]:
mat3 = np.random.rand(5, 3)
mat3

array([[0.17528842, 0.72210908, 0.27014355],
       [0.19207945, 0.33732366, 0.33329234],
       [0.15605508, 0.31996287, 0.09397758],
       [0.01786119, 0.05956848, 0.41893724],
       [0.35594345, 0.65923261, 0.14755958]])

In [79]:
np.mean(mat3)

0.2839556394012291

In [80]:
np.mean(mat3, axis=0)

array([0.17944552, 0.41963934, 0.25278206])

In [81]:
np.mean(mat3, axis=1)

array([0.38918035, 0.28756515, 0.18999851, 0.16545564, 0.38757855])

In [82]:
np.std(mat3)

0.19586437722474914

In [83]:
np.min(mat3, axis=0)

array([0.01786119, 0.05956848, 0.09397758])

In [84]:
np.max(mat3, axis=1)

array([0.72210908, 0.33732366, 0.31996287, 0.41893724, 0.65923261])

In [85]:
np.argmin(mat3, axis=0)

array([3, 3, 2])

In [86]:
np.argmax(mat3, axis=1)

array([1, 1, 1, 2, 1])

In [87]:
np.cumsum(mat3)

array([0.17528842, 0.8973975 , 1.16754106, 1.35962051, 1.69694416,
       2.0302365 , 2.18629159, 2.50625446, 2.60023204, 2.61809323,
       2.67766171, 3.09659895, 3.4525424 , 4.11177501, 4.25933459])

In [88]:
np.cumsum(mat3, axis=1)

array([[0.17528842, 0.8973975 , 1.16754106],
       [0.19207945, 0.52940311, 0.86269545],
       [0.15605508, 0.47601795, 0.56999554],
       [0.01786119, 0.07742967, 0.49636691],
       [0.35594345, 1.01517606, 1.16273564]])

In [89]:
np.cumprod(mat3, axis=0)

array([[1.75288423e-01, 7.22109079e-01, 2.70143553e-01],
       [3.36693042e-02, 2.43584475e-01, 9.00367764e-02],
       [5.25426606e-03, 7.79379883e-02, 8.46143873e-03],
       [9.38474535e-05, 4.64264756e-03, 3.54481176e-03],
       [3.34043861e-05, 3.06058466e-03, 5.23070950e-04]])

In [90]:
np.sort(arr1)

array([1, 2, 3])

In [91]:
np.sort(arr2)

array([4, 5, 6])

## 3. Powerful Numpy 

- 맨 처음에도 봤듯이 numpy는 파이썬 리스트에 비해 연산이 빠릅니다.


- 직접 실험을 통해 그 차이를 확인해보겠습니다.

In [92]:
np.random.seed(0)

def reverse_num(values):
    output = np.empty(len(values))
    
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    
    return output

In [94]:
big_array = np.random.randint(1, 100, size = 1000000)

In [95]:
%timeit reverse_num(big_array)

3.92 s ± 142 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [96]:
%timeit 1.0 / big_array

2.93 ms ± 89.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


### Q. 왜 numpy가 파이썬(정확히는 CPython)으로 구현한 함수를 통해 반복문을 수행한것보다 빠를까?

A. 매번 반복할 때마다 ***"type matching"*** 과 ***"function dispatching"*** 을 파이썬 interpreter가 수행하기 때문에 **"performance bottleneck"** 이 생깁니다.