# 1. What is Numpy?
<small>and how to use it? </small>

- numpy는 <b>"numerical python"</b>의 약자입니다.
> Numerical Computing : 컴퓨터가 실수값을 효과적으로 계산할 수 있도록 하는 연구 분야.
> Vector Arithmetic : 벡터 연산 --> 데이터가 벡터로 표현되기 때문이다. 벡터 (숫자 모음)


- numpy는 다양한 머신러닝 라이브러리들에 의존성을 가지고 있고, 일반 파이썬 리스트에 비해 강력한 성능을 자랑합니다.
> 성능 : numpy array >> python list(or tuple) 


- python list와 비슷한 개념을 numpy에서는 **numpy array**라고 부른다.
> 파이썬 리스트처럼 여러 데이터를 한번에 다룰 수 있으나, 모든 데이터가 동일한 data type을 가져야합니다.


- C언어와 JAVA에서 사용하는 array와 비슷한 개념이며, 동적 할당(dynamic type binding)을 지원하는 파이썬의 리스트와 구조가 다릅니다.


- Numpy의 특징
<br>
<br>

**1) numpy array는 모든 원소의 자료형이 동일해야 한다.**

(아래는 numpy array가 지원하는 data types)

![numpy_data_type](../images/numpy/numpy_datatypes.png)

**2) numpy array는 선언할 때 크기를 지정한 뒤, 변경할 수 없다. list.append(), pop()을 통해 자유롭게 원소 변경 및 크기 변경이 가능하지만, numpy array는 만들어지고 나면 원소의 update는 가능하지만, array의 크기를 변경할 수는 없다.**

> numpy의 경우에는 append라는 함수가 있으나, 의미가 다릅니다.

> numpy array의 크기를 변경하는 경우에는 복사가 일어난다.

**3) 사실 numpy array는 C, C++로 구현이 되어 있다. 이는 high performance를 내기 위해서이며, python이 Numerical computing에 취약하다는 단점을 보완한다.**

(아래 예시는 C언어와 파이썬의 코드 비교)

```C
/* C 코드 */
int result = 0;
for(int i=0; i<100; i++){
    result += i;
}
```

```python
# 파이썬 코드
result = 0
for i in range(100):
    result += i
```

**4) numpy array가 python list보다 빠른 이유 중에 하나는 원소의 type checking을 할 필요가 없기 때문이다.**

(아래 예시를 보자)

```C
/* C 코드 */
int x = 4;
x = "four";  // 실패
```
-> It is called, "Static type binding"



```python
# 파이썬 코드
x = 4
x = "four"
```

-> It is called, "Dynamic type binding"

(python list와 numpy array의 내부 구현 비교)

![Integer Memory Layout](../images/numpy/cint_vs_pyint.png)

![Array Memory Layout](../images/numpy/array_vs_list.png)

<small> (Source from Data Science Handbook) </small>

**5) numpy array는 universal function(through broadcast)를 제공하기 때문에 같은 연산 반복에 대해 훨씬 빠르다. 데이터의 크기가 클수록 차이가 더 크다.**

- 아래는 big_array라는 1000000개의 원소를 가지는 array를 만든 뒤에 for문을 돌면서 각 원소를 뒤집는 연산을 했을 때의 걸리는 시간과, numpy array에 있는 UFuncs(Universal function)을 사용했을 때 걸리는 시간을 측정한 것이다.


- 거의 1000배정도 차이가 나는 것을 볼 수 있다.

![speed_comparison](../images/numpy/list_vs_nparray.png)

# 2. Numpy Basics 

- numpy의 기본적인 사용법에 대해서 배워봅니다.


- numpy에서 numpy.array를 만드는 여러가지 방법과 지원하는 연산자에 대해서 공부합니다.

## 2.1 Numpy array Creation

In [1]:
# numpy 라이브러리를 불러옵니다.
# 넘파이 공식 문서에서 이렇게 사용함. 전 세계 동일 함.
# numpy를 np로 하겠다.

import numpy as np
import numpy as np

In [3]:
# 파이썬 리스트 선언
data = [1, 2, 3, 4, 5]
data, type(data)

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
data, type(data)

([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], list)

In [4]:
# 파이썬 2차원 리스트(행렬) 선언
data2 = [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9],
        [10, 11, 12]
        ]
data2

[[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]

In [7]:
# 파이썬 list를 numpy array로 변환합니다.
# numpy에 있는 array란 함수를 불러와서 생성됐다.
# arr1 = np.array()
arr1 = np.array(data)
arr1, type(arr1) # numpy.ndarray : ndarray(n-dimensional array)


(array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10]), numpy.ndarray)

In [8]:
# numpy array를 만드는 방식의 대부분은 파이썬 리스트를 np.array로 변환하는 방식입니다.
np.array([1, 2, 3, 4, 5]) # list okay

array([1, 2, 3, 4, 5])

In [9]:
np.array((1, 2, 3, 4, 5)) # tuple okay

array([1, 2, 3, 4, 5])

In [10]:
np.array(1, 2, 3 ,4 ,5) # 직접 입력하는 것은 오류.

TypeError: array() takes from 1 to 2 positional arguments but 5 were given

In [11]:
arr1.shape # np.array.shape은 np.array의 크기를 알려줍니다.
# 5 x 1 (5, )
# 10 x 1(10, ) 1은 생략 됨.

(10,)

In [5]:
# 2차원 리스트를 np.array로 만듭니다.
arr2 = np.array(data2)
arr2, type(arr2)

(array([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]),
 numpy.ndarray)

In [13]:
arr2 = np.array(data2)
arr2, type(arr2)

(array([[ 1,  2,  3],
        [ 4,  5,  6],
        [ 7,  8,  9],
        [10, 11, 12]]),
 numpy.ndarray)

In [17]:
print("arr2의 ndim : ", arr2.ndim) # arr2의 차원
print("arr2의 shape : ", arr2.shape)# arr2의 행, 열의 크기
print("arr2의 size : ", arr2.size) # arr2의 행 x 열
print("arr2의 dtype : ", arr2.dtype) # arr2의 원소의 타입. # int64 : integer + 64bits
print("arr2의 itemsize : ", arr2.itemsize) # arr2의 원소의 사이즈(bytes) # 64bits = 8B
print("arr2의 nbytes : ", arr2.nbytes) # itemsize * size # numpy array가 차지하는 메모리 공간.

arr2의 ndim :  2
arr2의 shape :  (4, 3)
arr2의 size :  12
arr2의 dtype :  int32
arr2의 itemsize :  4
arr2의 nbytes :  48


## 2.2 Array Initialization 

- numpy array를 초기값과 함께 생성하는 방법도 있습니다.


- 원소가 0인 array를 생성하는 np.zeros()

- 원소가 1인 array를 생성하는 np.ones()

- 특정 범위의 원소를 가지는 np.arange()

In [19]:
# 0이 5개 있는 array
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [20]:
# 0이 3x3인 array
np.zeros((3, 3)) #tuple로 해줘야 한다!

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [21]:
# 1이 3개 있는 array
np.ones(3)

array([1., 1., 1.])

In [22]:
# 1이 2x2인 array
np.ones((2, 2))

array([[1., 1.],
       [1., 1.]])

In [23]:
# 0부터 9까지 숫자를 자동으로 생성한 array
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
list(range(0, 10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [29]:
[x for x in range(0, 10)]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [31]:
np.array(list(range(0,10)))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [32]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
# 10부터 99까지 숫자를 자동으로 생성한 array
np.arange(10, 100) # python range 함수와 동일한데, np.array 생성까지 자동으로 해줍니다.

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60,
       61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77,
       78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,
       95, 96, 97, 98, 99])

## 2.3. Array Operation (like vector) --> Universal Function

- numpy array를 쓰는 가장 큰 이유는 vector처럼 사용할 수 있기 때문입니다.
-벡터의 컨셉: 수치의 모음, 숫자의 모음, 이 수치의 모음을 이 숫자들이 나열되어 있는 형태임. 
-이 숫자들의나열은 특정 정보들의 나열들 이다.
> e.g. arr1 = np.array([1, 2, 3, 4, 5]) --> (1, 2, 3, 4, 5) # vector

- 그렇기 때문에 scipy, matplotlib, scikit-learn, pandas, tensorflow, pytorch 등 대부분의 데이터분석 라이브러리들이 numpy array를 사용합니다.
> 대부분의 데이터 분석 라이브러리들은 벡터를 사용하는데, 그 벡터가 바로 numpy array로 표현되기 때문입니다.


- 데이터 분석은 99.9% 데이터를 벡터로 표현하여 분석하기 때문에, 이 특징은 ***굉장히*** 중요합니다.
> 벡터 == numpy array

![Vector operation](../images/numpy/vector_operations.png)

- 두 벡터 A = (1, 2), B = (2, 1)이라고 할 때, 벡터의 연산은 다음과 같이 정의됩니다.

A + B = (3, 3)


A - B = (-1, 1)


A o B = 1x2 + 2x1 = 4 (dot product) #내적

![Vector product](../images/numpy/vector_product.png)

In [34]:
# v1 = (1, 2, 3), v2 = (4, 5, 6) 벡터 2개 생성하기.
v1 = np.array((1, 2, 3))
v2 = np.array((4, 5, 6))
type(v1), type(v2)

(numpy.ndarray, numpy.ndarray)

In [58]:
v1 = np.array((1, 2, 3))
v2 = np.array((4, 5))
type(v1), type(v2)
v1 + v2
# shape 같아야 한다. 

ValueError: operands could not be broadcast together with shapes (3,) (2,) 

In [39]:
# 리스트로 더하기 연산해보기
t1 = (1, 2, 3, 4)
t2 = (5, 6, 7, 8)
#type(t1), type(t2)
t1 + t2

(1, 2, 3, 4, 5, 6, 7, 8)

In [40]:
#  vector addition
v1 + v2

array([5, 7, 9])

In [50]:
L = []
for x, y in zip(v1, v2):
    a = x - y
    L.append(a)    
L    

[-3, -3, -3]

In [51]:
L1 = []
for x, y in zip(v1, v2):
    a = x + y
    L1.append(a)    
L1    

[5, 7, 9]

In [53]:
#  vector subtraction
v1 - v2

array([-3, -3, -3])

In [54]:
# (not vector operation) elementwise multiplication
# 원소별 곱하기.
v1 * v2

array([ 4, 10, 18])

In [55]:
# (not vector operation) elementwise division
v1 / v2

array([0.25, 0.4 , 0.5 ])

In [56]:
# dot product
v1 @ v2 # 1x4 + 2x5 + 3x6 = 32

32

## 2.4. Broadcast

-연산을 전파해주세요! 뿌린다. 연산을 뿌려준다.
- 서로 크기가 다른 numpy array를 연산할 때, 자동으로 연산을 전파(broadcast)해주는 기능. 행렬곱 연산을 할 때 편리하다.

In [59]:
arr1 = np.array([[1, 2, 3],
               [4, 5, 6]])

In [60]:
arr1.shape
#수학적으로 행, 열 
#컴퓨터 공학적으로 리스트 2개 그 안에 3개 리스트

(2, 3)

In [61]:
arr2 = np.array([7, 8, 9])

In [67]:
arr2.shape

(3,)

In [68]:
# 2개의 array를 더해보면?
arr1 + arr2 # [1, 2, 3] + [7, 8, 9] // [4, 5, 6] + [7, 8, 9]

array([[ 8, 10, 12],
       [11, 13, 15]])

In [74]:
# 2개의 array를 곱해보면? (**)
arr1 * arr2 # [1, 2, 3] * [7, 8, 9] // [4, 5, 6] * [7, 8, 9]
# [1, 2, 3]  X  [7]
# [4, 5, 6]     [8]
#               [9]

array([[ 7, 16, 27],
       [28, 40, 54]])

In [70]:
# arr1에 10을 곱해보면?
arr1 * 10 # vector scalar multiplication

array([[10, 20, 30],
       [40, 50, 60]])

In [71]:
# arr1을 제곱해보면?
arr1 * arr1
#  arr1^2

array([[ 1,  4,  9],
       [16, 25, 36]])

## 2.5. Universal Functions 

- numpy array는 하나의 함수를 모든 원소에 자동으로 적용해주는 Universal Function이라는 기능을 제공한다. 이 덕분에 모든 원소에 대해 같은 작업을 처리할 때 엄청나게 빠른 속도를 낼 수 있다.

In [77]:
arr1 = np.array([1, 2, 3])
arr1.dtype

dtype('int32')

In [78]:
arr1 = arr1 / 1

In [79]:
arr1 / 1

array([1., 2., 3.])

In [80]:
arr1.dtype

dtype('float64')

In [83]:
# 모든 원소를 역수를 취하려면 어떻게 해야할까?
1 / arr1 # 각 원소에 1 / x 라는 operation을 모두 적용하는 연산이 됩니다.

array([1.        , 0.5       , 0.33333333])

In [82]:
for x in arr1:
    x = 1 / x
    L.append(x)
np.array(L)

array([-3.        , -3.        , -3.        ,  1.        ,  0.5       ,
        0.33333333])

In [84]:
# 모든 원소에 2를 더하려면 어떻게 해야할까?
arr1 + 2

array([3., 4., 5.])

## 2.6. Indexing (same as python list, but more powerful) 

In [85]:
arr1 = np.arange(10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [124]:
# 첫번째 원소
arr1[0]
arr1[0]

0

In [127]:
# 마지막 원소
arr1[-1]
arr1[-1]

9

In [128]:
# 앞에서부터 원소 3개 slicing
arr1[:3]

array([0, 1, 2])

In [131]:
arr2 = np.array([[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]])
arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [132]:
# arr2의 2, 3 원소 = 7
arr2[1, 2] # 인덱스는 0부터 시작하는 거 잊지 말자 !!

7

In [140]:
for i in arr2:
    for j in i:
        print(i)

[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[5 6 7 8]
[5 6 7 8]
[5 6 7 8]
[5 6 7 8]
[ 9 10 11 12]
[ 9 10 11 12]
[ 9 10 11 12]
[ 9 10 11 12]


In [141]:
for i in arr2:
    print(i[2])

3
7
11


In [142]:
for row in arr2:
    print(row[2])

3
7
11


In [143]:
# arr2에 있는 모든 row에 대해서
arr2[0,2]
arr2[1,2]
arr2[2,2]

11

In [144]:
arr2[:,2]

array([ 3,  7, 11])

In [145]:
# arr2의 세번째 columnm (3, 7, 11)
arr2[:, 2] # arr2에 있는 모든 row에 대해서 3번째 원소를 indexing --> numpy array
# arr2[0, 2]
# arr2[1, 2]
# arr2[2, 2]

array([ 3,  7, 11])

In [92]:
# arr2의 두번째 row
#arr2[1]
arr2[1, :] # arr2에 있는 두번째 row에 대해서 모든 원소를 indexing --> numpy array

array([5, 6, 7, 8])

In [None]:
# slicing은 확장하면 filtering이 됨
# indexing을 확장하면 searching 기능

## 2.7. Masking
-일부 필터링해서 가려준다. 말 그대로 마스크

In [147]:
mask = np.array([1, 0, 0, 1, 1, 0, 0])
mask

array([1, 0, 0, 1, 1, 0, 0])

In [159]:
data = np.random.randn(7, 4) # 랜덤 넘버 생성 됨.  7개의 row 4개의 컬럼
data

array([[ 0.16435863,  2.26468105,  1.15557849,  0.41738906],
       [ 3.01413363, -2.22762346, -1.17213135, -0.81917302],
       [-1.98073311,  0.04618807, -0.23488922,  1.3418606 ],
       [ 1.87645066,  0.83430175, -1.111176  , -1.41849696],
       [-0.61098309, -1.21679034,  1.06737272, -0.93316941],
       [ 0.63331146, -0.83196919, -1.60213591, -0.76994579],
       [ 2.9823581 ,  0.34194009,  1.0742514 , -2.19181439]])

In [160]:
data.shape

(7, 4)

In [161]:
# mask 만들기
masked_data = (mask == 1)
masked_data

array([ True, False, False,  True,  True, False, False])

In [162]:
# 위에서 생성한 data에 mask를 적용해본다.
data[masked_data, :]

array([[ 0.16435863,  2.26468105,  1.15557849,  0.41738906],
       [ 1.87645066,  0.83430175, -1.111176  , -1.41849696],
       [-0.61098309, -1.21679034,  1.06737272, -0.93316941]])

In [163]:
# 마스크를 0으로 바꿔본다.
data[mask == 0, :]

array([[ 3.01413363, -2.22762346, -1.17213135, -0.81917302],
       [-1.98073311,  0.04618807, -0.23488922,  1.3418606 ],
       [ 0.63331146, -0.83196919, -1.60213591, -0.76994579],
       [ 2.9823581 ,  0.34194009,  1.0742514 , -2.19181439]])

In [153]:
# fancy indexing을 이용해서 masking
#data[:, 0] < 0
data[:, 0] < 0 # 7 x 1의 mask == 첫번째 column의 원소중에 0보다 작은 원소들의 위치가 True.

array([ True,  True,  True,  True,  True,  True,  True])

In [154]:
# fancy indexing의 또 다른 방법
data[data[:, 0]<0, 0]

array([-0.28254498, -0.19462247, -0.88434567, -0.74962355, -0.31056503,
       -0.57700512, -0.96538046])

In [155]:
data < 0

array([[ True,  True,  True,  True],
       [ True,  True, False, False],
       [ True, False, False,  True],
       [ True,  True,  True, False],
       [ True, False,  True,  True],
       [ True, False, False,  True],
       [ True, False,  True, False]])

In [164]:
data[data < 0] = 0 # 2차원 data에서 첫번째 column에 0보다 작은 원소들을 0으로 치환해주세요.
data

array([[0.16435863, 2.26468105, 1.15557849, 0.41738906],
       [3.01413363, 0.        , 0.        , 0.        ],
       [0.        , 0.04618807, 0.        , 1.3418606 ],
       [1.87645066, 0.83430175, 0.        , 0.        ],
       [0.        , 0.        , 1.06737272, 0.        ],
       [0.63331146, 0.        , 0.        , 0.        ],
       [2.9823581 , 0.34194009, 1.0742514 , 0.        ]])

## 2.8. Numpy Methods 

In [217]:
# 표준정규분포에서 random sampling을 한 원소를 가지는 5x3 행렬을 만든다.

mat1 = np.random.randn(5, 3)
mat1

array([[ 1.51902497,  0.75597591, -1.5697609 ],
       [-0.44150337, -0.66162637, -0.74112867],
       [ 1.54345144, -1.49533138, -0.38729976],
       [ 0.90898697, -0.80846432, -1.55328005],
       [ 1.09581535,  1.0034082 , -0.96307811]])

In [218]:
# mat1에 절대값 씌우기
np.abs(mat1)

array([[1.51902497, 0.75597591, 1.5697609 ],
       [0.44150337, 0.66162637, 0.74112867],
       [1.54345144, 1.49533138, 0.38729976],
       [0.90898697, 0.80846432, 1.55328005],
       [1.09581535, 1.0034082 , 0.96307811]])

In [219]:
# mat1의 square root(제곱근) 구하기
comp1 = np.array(mat1, dtype=complex)
print(np.sqrt(comp1))
# imagnary numbers = nan
# 루트 안에 -1 은 허수 i 

[[1.23248731+0.j         0.86946875+0.j         0.        +1.25290099j]
 [0.        +0.6644572j  0.        +0.81340419j 0.        +0.8608883j ]
 [1.24235721+0.j         0.        +1.22283743j 0.        +0.62233412j]
 [0.95340808+0.j         0.        +0.89914644j 0.        +1.24630656j]
 [1.04681199+0.j         1.00170265+0.j         0.        +0.98136543j]]


In [168]:
# mat1 제곱하기
np.square(mat1)

array([[0.01867468, 1.21714935, 0.05152029],
       [0.75309506, 0.48437611, 0.17665815],
       [1.21536271, 0.35990862, 0.7801269 ],
       [1.2901119 , 0.14663145, 0.04434706],
       [4.38974377, 1.78509235, 0.02491396]])

In [169]:
# mat1의 지수값 구하기
np.exp(mat1)

array([[0.87227082, 0.33179269, 1.25480578],
       [0.41986985, 2.00565632, 0.656845  ],
       [3.01148979, 0.54885343, 2.41874286],
       [0.32115515, 0.68186413, 0.81010824],
       [0.12304913, 0.26287583, 1.17098065]])

In [170]:
# mat의 log값(자연로그) 구하기
np.log(mat1)
# log의 밑이 음수가 될 수 없다. (자연로그)

  np.log(mat1)


array([[        nan,         nan, -1.48288982],
       [        nan, -0.36244679,         nan],
       [ 0.09752128,         nan, -0.12414934],
       [        nan,         nan,         nan],
       [        nan,         nan, -1.84616352]])

In [171]:
# 상용로그
np.log10(mat1)

  np.log10(mat1)


array([[        nan,         nan, -0.64401087],
       [        nan, -0.15740864,         nan],
       [ 0.04235295,         nan, -0.05391737],
       [        nan,         nan,         nan],
       [        nan,         nan, -0.80177863]])

In [172]:
# 이진로그
np.log2(mat1)

  np.log2(mat1)


array([[        nan,         nan, -2.13935779],
       [        nan, -0.52290018,         nan],
       [ 0.14069347,         nan, -0.17910964],
       [        nan,         nan,         nan],
       [        nan,         nan, -2.66345096]])

In [173]:
# 부호찾기
np.sign(mat1)

array([[-1., -1.,  1.],
       [-1.,  1., -1.],
       [ 1., -1.,  1.],
       [-1., -1., -1.],
       [-1., -1.,  1.]])

In [174]:
# 올림
np.ceil(mat1)

array([[-0., -1.,  1.],
       [-0.,  1., -0.],
       [ 2., -0.,  1.],
       [-1., -0., -0.],
       [-2., -1.,  1.]])

In [175]:
# 내림
np.floor(mat1)

array([[-1., -2.,  0.],
       [-1.,  0., -1.],
       [ 1., -1.,  0.],
       [-2., -1., -1.],
       [-3., -2.,  0.]])

In [176]:
# 존재하지 않는 값이 있는지 없는지 # nan = not a number
np.isnan(mat1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [177]:
np.isnan(np.log(mat1))

  np.isnan(np.log(mat1))


array([[ True,  True, False],
       [ True, False,  True],
       [False,  True, False],
       [ True,  True,  True],
       [ True,  True, False]])

In [178]:
np.isinf(mat1)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [179]:
np.sin(mat1)

array([[-0.1362304 , -0.89267455,  0.2250368 ],
       [-0.76291526,  0.64113118, -0.40804094],
       [ 0.89230918, -0.56457962,  0.77280423],
       [-0.90688462, -0.3736351 , -0.20903437],
       [-0.86563693, -0.97257884,  0.15718697]])

In [180]:
np.cos(mat1)

array([[ 0.99067718,  0.45070184,  0.97435026],
       [ 0.6464985 ,  0.7674313 ,  0.91296363],
       [ 0.45142478,  0.82537861,  0.63464449],
       [ 0.42137902,  0.92757577,  0.97790829],
       [-0.50067226,  0.23257344,  0.98756886]])

In [181]:
np.tan(mat1)

array([[-0.1375124 , -1.98063213,  0.23096089],
       [-1.18007275,  0.83542485, -0.44694107],
       [ 1.97665087, -0.68402501,  1.21769628],
       [-2.15218267, -0.40280817, -0.21375662],
       [ 1.72894924, -4.18181391,  0.15916558]])

In [182]:
np.tanh(mat1)

array([[-0.13581098, -0.80166158,  0.22316146],
       [-0.70025999,  0.6018044 , -0.39718921],
       [ 0.80137194, -0.53699537,  0.70804271],
       [-0.81300547, -0.36524485, -0.20752868],
       [-0.97016949, -0.87072591,  0.15654368]])

In [183]:
mat2 = np.random.randn(5, 3)
mat2

array([[ 1.2014246 , -0.27984427, -0.53820316],
       [ 0.29538536,  1.33119288,  0.05864635],
       [ 1.11612197, -0.01682623,  0.27040765],
       [ 0.82414408, -2.52642867, -0.18762725],
       [-0.93436378, -0.15259281, -1.48111056]])

In [184]:
np.maximum(mat1, mat2)

array([[ 1.2014246 , -0.27984427,  0.22698081],
       [ 0.29538536,  1.33119288,  0.05864635],
       [ 1.11612197, -0.01682623,  0.88324792],
       [ 0.82414408, -0.38292486, -0.18762725],
       [-0.93436378, -0.15259281,  0.15784156]])

## 2.9. Reshaping array

In [185]:
x = np.array([[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]])
x

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [242]:
# x를 3x3 행렬로 변형합니다.
x1 = np.arange(1, 10).reshape(3,3)
x1 = np.arange(1, 10).reshape(3, 3)
x1

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [187]:
x == x1

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [188]:
# (1, 2, 3)을 transpose 해봅니다.
x2 = np.array([1, 2, 3]).reshape(3, 1) # row vector -> column vector
x2

array([[1],
       [2],
       [3]])

## 2.10. Concatenation of arrays

In [189]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
# arr1와 arr2를 합칩니다
# arr1 + arr2?
np.concatenate([arr1, arr2])
#arr1 + arr2 # array([1, 2, 3, 4, 5, 6])

array([1, 2, 3, 4, 5, 6])

In [190]:
# stacking vertically
np.vstack([arr1, arr2])

array([[1, 2, 3],
       [4, 5, 6]])

In [191]:
# stacking horizontally
np.hstack([arr1, arr2])

array([1, 2, 3, 4, 5, 6])

## 2.11. Aggregation functions 

In [232]:
mat1
mat1

array([[ 1.51902497,  0.75597591, -1.5697609 ],
       [-0.44150337, -0.66162637, -0.74112867],
       [ 1.54345144, -1.49533138, -0.38729976],
       [ 0.90898697, -0.80846432, -1.55328005],
       [ 1.09581535,  1.0034082 , -0.96307811]])

In [234]:
np.sum(mat1)# 15개 숫자의 총합.
np.sum(mat1)

-1.794810075952288

In [236]:
new = np.random.rand(3,3)
new

array([[0.78986544, 0.99105381, 0.28137886],
       [0.01765187, 0.6559858 , 0.61765416],
       [0.17973144, 0.84749539, 0.46820265]])

In [222]:
# 다른 축으로 더해보기
np.sum(mat1, axis=0) # column별 총합. axis=0 0은 컬럼을 의미한다. 

array([ 4.62577536, -1.20603796, -5.21454747])

In [223]:
# 다른 축으로 더해보기
np.sum(mat1, axis=1) # row별 총합. axis=1 은 로우를 의미한다.

array([ 0.70523998, -1.8442584 , -0.3391797 , -1.4527574 ,  1.13614545])

In [233]:
# 평균
np.mean(mat1)
np.mean(mat1)

-0.11965400506348586

In [244]:
new2 = np.random.randn(3,3) # randn이 랜덤한 실수 음수 포함
new2

array([[ 0.38494418,  0.07241575,  0.33357085],
       [ 1.00721029, -1.45513944, -0.16697217],
       [ 0.56036131, -0.14447744,  1.0850662 ]])

In [225]:
mat3 = np.random.rand(5, 3) #rand 는 0과 1사이의 숫자, 양수 값. 
mat3

array([[0.91796933, 0.02800916, 0.53171561],
       [0.34500616, 0.80695872, 0.07155939],
       [0.20794804, 0.24551118, 0.77437728],
       [0.45116519, 0.08043329, 0.09711552],
       [0.06215684, 0.16934182, 0.468866  ]])

In [237]:
np.mean(mat3)
np.mean(mat3)

0.3505422358751959

In [238]:
np.mean(mat3, axis=0) # column별 총합. axis=0 0은 컬럼을 의미한다. 
np.mean(mat3, axis=0)

array([0.39684911, 0.26605083, 0.38872676])

In [228]:
np.mean(mat3, axis=1)

array([0.4925647 , 0.40784142, 0.40927884, 0.20957133, 0.23345488])

In [248]:
np.std(mat3) # 표준편차
np.std(mat3)

0.2867418003725478

In [245]:
np.min(mat3, axis= 0)  # column별 총합. axis=0 0은 컬럼을 의미한다. 
np.min(mat3, axis = 0)

array([0.06215684, 0.02800916, 0.07155939])

In [246]:
np.max(mat3, axis=1) # row별 총합. axis=1 은 로우를 의미한다.
np.max(mat3, axis = 1)

array([0.91796933, 0.80695872, 0.77437728, 0.45116519, 0.468866  ])

In [247]:
# 최소값이 있는 Index
np.argmin(mat3, axis=0)  # column별 총합. axis=0 0은 컬럼을 의미한다. 
np.argmin(mat3, axis = 0)

array([4, 0, 1], dtype=int64)

In [250]:
# 최대값이 있는 Index
np.argmax(mat3, axis=1) # row별 총합. axis=1 은 로우를 의미한다.

array([0, 1, 2, 0, 2], dtype=int64)

In [251]:
np.cumsum(mat3)
np.cumsum(mat3) # indx 순서대로 누적합이 된다. 어큐뮬레이션 약자

array([0.91796933, 0.94597849, 1.47769411, 1.82270027, 2.62965899,
       2.70121838, 2.90916642, 3.1546776 , 3.92905489, 4.38022007,
       4.46065336, 4.55776888, 4.61992573, 4.78926754, 5.25813354])

In [207]:
np.cumsum(mat3, axis=1) # row별 누적합.

array([[0.06043975, 0.73553341, 0.77283668],
       [0.2510609 , 0.79516323, 1.54093837],
       [0.58099768, 0.70338616, 1.67369081],
       [0.31165734, 0.54899054, 1.41253141],
       [0.60085345, 0.7754567 , 1.04208484]])

In [252]:
np.cumprod(mat3, axis=0) # 컬럼별 곱하기! 컬럼별 누적 곱.

array([[9.17969330e-01, 2.80091602e-02, 5.31715614e-01],
       [3.16705075e-01, 2.26022360e-02, 3.80492456e-02],
       [6.58581998e-02, 5.54910175e-03, 2.94644715e-02],
       [2.97129270e-02, 4.46332513e-04, 2.86145752e-03],
       [1.84686171e-03, 7.55827579e-05, 1.34164013e-03]])

In [253]:
# 그냥 정렬
np.sort(mat3)
np.sort(mat3, axis=1)

array([[0.02800916, 0.53171561, 0.91796933],
       [0.07155939, 0.34500616, 0.80695872],
       [0.20794804, 0.24551118, 0.77437728],
       [0.08043329, 0.09711552, 0.45116519],
       [0.06215684, 0.16934182, 0.468866  ]])

In [254]:
# index를 정렬
np.argsort(mat3, axis=0) # argument sorting에서 정렬된 값의 원래 위치를 보여줍니다.
# 정렬된 다음의 index를 원래 원소의 위치에 표시해줍니다.

array([[4, 0, 1],
       [2, 3, 3],
       [1, 4, 4],
       [3, 2, 0],
       [0, 1, 2]], dtype=int64)

## 3. Powerful Numpy 

- 맨 처음에도 봤듯이 numpy는 파이썬 리스트에 비해 연산이 빠릅니다.


- 직접 실험을 통해 그 차이를 확인해보겠습니다.

In [255]:
np.random.seed(0)

def reverse_num(values):
    output = np.empty(len(values))
    
    for i in range(len(values)): 
        output[i] = 1.0 / values[i] # 역수를 취해 준다. 
    
    return output

# Numpy array의 모든 원소의 합을 구하는 함수.
def cum_sum(values):
    total = 0.0
    for num in values:
        total += num
    return total


In [257]:
np.random.seed(0)

In [None]:


def reverse_num(values):
    output = np.empty(len(values))
    
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
        
    return output

def cum_sum(values):
    total = 0.0
    for num in values:
        total += num
    return total

In [258]:
# 1부터 100까지 범위에서 1000000개를 랜덤으로 뽑아서 array를 만듭니다.
# np.random.randn
# np.random.rand

big_array = np.random.randint(1, 100, size=1000000)

In [259]:
big_array

array([45, 48, 65, ..., 93, 62, 19])

In [260]:
big_array.shape

(1000000,)

In [261]:
# %timeit 해당 셀을 실행하는데 시간이 얼마나 걸리는지 
# 주피터 노트북에 내장된 함수
%timeit reverse_num(big_array)
# 루프 1번 돌렸을때, 7번돌렸을 때

1.77 s ± 33.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [214]:
%timeit 1.0 / big_array
# 1000배 빠름
# 7번 실행 , 700번 실행 한 결과

3.04 ms ± 61.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [215]:
%timeit cum_sum(big_array)

163 ms ± 3.38 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [216]:
%timeit np.sum(big_array)

446 µs ± 14.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### Q. 왜 numpy가 파이썬(정확히는 CPython)으로 구현한 함수를 통해 반복문을 수행한것보다 빠를까?

A1. 매번 반복할 때마다 ***"type matching"*** 과 ***"function dispatching"*** 을 파이썬 interpreter가 수행하기 때문에 **"performance bottleneck"** 이 생깁니다.

A2.