## Vectorization과 Numpy 라이브러리

In [2]:
import numpy as np    # it is an unofficial standard to use np for numpy(벡터를 만들 때 활용)
import time #속도를 재기 위해 time 모듈을 가져옴

numpy의 기본 데이터 구조는 동일한 유형(dtype)의 요소를 포함하는 색인 가능한, n-차원 배열(array)
- 차원(dimension): 배열의 인덱스 수  
    ex) 1-D 배열, shape(n,): [0]부터 [n-1]까지 인덱스가 있는 n개 요소


### 배열(array) 생성

In [8]:
# NumPy routines which allocate memory and fill arrays with value
a = np.zeros(4)
print(a)
a.shape #tuple 형식으로 dimension을 표시(크기 반환)

[0. 0. 0. 0.]


(4,)

In [9]:
a = np.zeros((4,)) #일반적으로 numpy에서 dimension을 지정할 때, tuple로 줌(일차원만 예외)
a

array([0., 0., 0., 0.])

In [17]:
#0과 1 사이의 랜덤한 숫자를 4개 가져오는 것
a = np.random.random_sample(4) 
print(a)
print(a.shape)

b = np.random.rand(4) #균등분포의 값을 줌
print(b)

[0.16967262 0.76996995 0.56291145 0.53785221]
(4,)
[0.68043308 0.84167688 0.87635471 0.85401098]


In [16]:
# NumPy routines which allocate memory and fill arrays with value but do not accept shape as input argument
a = np.arange(4); #arange => array range (python의 range와는 다름)
print(a)
a.dtype

[0 1 2 3]


dtype('int64')

In [20]:
a = np.array([5,4,3,2]) #list를 줌
print(a)

#하나라도 실수값을 주면 모든 요소가 다 실수로 바뀐다 => numpy 배열의 규칙
b = np.array([5.,4,3,2])
print(b)

[5 4 3 2]
[5. 4. 3. 2.]


### 요소 접근
: 벡터의 요소는 인덱싱 및 슬라이싱을 통해 액세스  
: Numpy는 0부터 인덱싱이 시작한다
- **Indexing**: 배열 내의 위치를 기준으로 배열의 요소 참조(배열 안의 다양한 element에 하나씩 접근)

In [22]:
a = np.arange(10)
print(a)
print(a.shape)

[0 1 2 3 4 5 6 7 8 9]
(10,)


In [23]:
a[2]#인덱스 번호

2

In [24]:
print(a[-1]) #음수는 맨 끝에서부터 끄집어냄
print(a[-2])

9
8


In [25]:
#indexs must be within the range of the vector or they will produce and error
try:
    c = a[10]
except Exception as e:
    print("The error message you'll see is:")
    print(e)

The error message you'll see is:
index 10 is out of bounds for axis 0 with size 10


- **Slicing**: 인덱스 기반으로 배열에서 요소의 하위집합(일정한 양, 일부분을 잘라낸 것)을 가져오는 것  
    => (start:stop:step)

In [28]:
print(a)
print(a[2:7:1]) #2번부터 7번 이전까지 , 1씩 증가
print(a[2:7:2]) #2번부터 7번 이전까지, 2씩 증가

[0 1 2 3 4 5 6 7 8 9]
[2 3 4 5 6]
[2 4 6]


In [31]:
print(a[3:]) #3부터 끝까지 모두 다 
print(a[:3]) #맨 앞부터 3번 이전까지(맨 끝은 exclusive - 포함 X)

[3 4 5 6 7 8 9]
[0 1 2]


In [32]:
a[:] #몽땅 다 달라는 것 => a를 달라는 것과 동일

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Single vector operations(단일 벡터 연산)
: 배열 연산에서 기본적인 연산은 그 배열 element 하나하나에 따로따로 다 해주는 것

In [33]:
a = np.array([1,2,3,4])
b = -a #element에 '-'를 붙이는 연산
b

array([-1, -2, -3, -4])

In [34]:
np.sum(a) #모든 요소를 다 더해주는 것

10

In [35]:
np.mean(a) #평균 값 계산

2.5

In [36]:
a ** 2 #모든 요소에 제곱연산을 해주는 것

array([ 1,  4,  9, 16])

### Numpy의 벡터끼리의 산술 연산
: 이 연산자들은 요소별로 작동하여 각각의 element 하나씩하나씩 계산되는 연산 작용을 한다

In [40]:
#더하기
a = np.array([1,2,3,4])
b = np.array([-1,-2,3,4])
print(a+b)

[0 0 6 8]


In [41]:
#벡터끼리 크기가 다르면 연산을 할 수 없음
#try a mismatched vector operation
c = np.array([1, 2])
try:
    d = a + c
except Exception as e:
    print("The error message you'll see is:")
    print(e)

The error message you'll see is:
operands could not be broadcast together with shapes (4,) (2,) 


### Numpy의 스칼라와 벡터끼리의 연산
: 벡터는 스칼라 값으로 '크기 조정' 될 수 있다
- 스칼라(scalar): 숫자 값

In [43]:
print(a * 5)
print(a + 5)

[ 5 10 15 20]
[6 7 8 9]


### 벡터끼리의 dot product(내적)
: 우리가 가장 신경써야하는 연산  
: 선형 대수학(Linear Algebra)과 Numpy의 핵심  
: 내적은 두 벡터의 값을 요소별로 곱한 다음 결과를 합산하여 스칼라 값을 반환한다  
: 벡터 내적은 두 벡터의 차원이 동일해야 한다
![내적](https://nbviewer.org/github/junji64/Machine-Learning-2023/blob/main/C1/week2/Optional%20Labs/images/C1_W2_Lab04_dot_notrans.gif)

In [44]:
def my_dot(a,b):
    x = 0
    for i in range(a.shape[0]): #0번째 index가 벡터의 길이
        x = x + a[i]*b[i]
    return x

In [45]:
print(a)
b = np.array([-1,4,3,2])
print(b)

[1 2 3 4]
[-1  4  3  2]


In [46]:
my_dot(a,b)

24

In [47]:
#numpy에는 my_dot이라는 함수를 만들 필요 없이 자체적으로 함수가 있다
np.dot(a,b)

24

In [48]:
#벡터 두 개끼리는 교환법칙 성립
np.dot(b,a)

24

### Speed Checking: 
: 왜 dot 함수를 만들었을까?의 답

In [49]:
np.random.seed(1) #항상 일관성 있는 랜덤 넘버가 나옴
a = np.random.rand(10000000)
b = np.random.rand(10000000)

In [55]:
#numpy의 dot 함수 활용
tic = time.time() #현재 시간 저장 =>10의 -6승 sec(100만분의 1초)
c = np.dot(a,b) #천만개의 덧셈과 곱셈을 함
toc = time.time()
print(f"np.dot(a, b) =  {c:.4f}")
print(f"Vectorized version duration: {1000*(toc-tic):.4f} ms ")

np.dot(a, b) =  2501072.5817
Vectorized version duration: 8.2138 ms 


In [58]:
#python에서 for loop로 만든 my_dot 함수 활용
tic = time.time()  # capture start time
c = my_dot(a,b)
toc = time.time()  # capture end time

print(f"my_dot(a, b) =  {c:.4f}")
print(f"loop version duration: {1000*(toc-tic):.4f} ms ")

del(a);del(b)  #remove these big arrays from memory

my_dot(a, b) =  2501072.5817
loop version duration: 2700.5079 ms 


: Numpy가 GPU나 최신 CPU에 있는 SIMD(Single Instruction, Multiple Data) 파이프 라인을 구현하여 기본 하드웨어에서 사용 가능한 데이터 병렬성을 더 잘 활용하여 여러 작업을 병렬로 실행하기 때문에 벡터화를 통해 속도가 크게 향상됨  
: 이는 데이터 세트가 매우 큰 경우가 많은 기계 학습에서 매우 중요

In [60]:
X = np.array([[1],[2],[3],[4]])#훈련 자료: X - numpy array 형태 => 각각의 행이 하나하나의 독립적인 훈련자료를 넣어 2차원인 경우가 많음
w = np.array([2]) #하나의 element니까 1차원
c = np.dot(X[1], w) #사이즈가 안 맞으니까 X의 요소 하나와 w를 내적 시켜야 한다

In [61]:
X.shape #요소 4개에 각각의 element 1개

(4, 1)

In [62]:
w.shape

(1,)

In [63]:
c.shape #숫자 하나 => array가 아닌 스칼라 => 0차원 벡터

()

### 행렬(Matrix)
: 행렬은 2차원 배열(행과 열로 구성)
- m: 행 수
- n: 열 수

In [66]:
a = np.zeros((1,5)) #tuple로 주면 행렬이 만들어짐
print(a)
print(a.shape)

[[0. 0. 0. 0. 0.]]
(1, 5)


In [67]:
a = np.zeros((2,1))
print(a)
print(a.shape)

[[0.]
 [0.]]
(2, 1)


In [85]:
#random 벡터
a = np.random.random_sample((1,1)) #1x1 짜리 리턴
print(a) #대괄호 안에 들어가 있으므로 array인데 그냥 길이가 짧은 것
print(a.shape) 

[[0.77390955]]
(1, 1)


In [86]:
#데이터 수동 타이핑
a = np.array([[5], [4], [3]]); #3x1 (행x열)짜리
print(a)
print(a.shape)

[[5]
 [4]
 [3]]
(3, 1)


In [87]:
#-1은 몰라라는 의미(*과 같다고 생각하면 됨) => 보류 / 스스로 알아서 계산하는 것(-1 인수는 배열 크기와 열 수에 따라 행 수를 계산하도록 루틴에 지시함)
a = np.arange(6).reshape(-1,2) #즉, 열의 숫자만 결정해주고 행 계산은 알아서 하라고 하는 문법
print(a)
print(a.shape)

[[0 1]
 [2 3]
 [4 5]]
(3, 2)


In [88]:
a = np.arange(6).reshape(-1,3)
print(a)
print(a.shape)

[[0 1 2]
 [3 4 5]]
(2, 3)


In [89]:
a = np.arange(6).reshape(3,2) #이렇게도 만들 수 있음
print(a)
print(a.shape)

[[0 1]
 [2 3]
 [4 5]]
(3, 2)


### Matrices Indexing & Slicing
: 두 개의 인덱스는 [행, 열]을 설명

In [75]:
a = np.arange(20).reshape(-1,10) #2x10
print(a)
print(a.shape)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]]
(2, 10)


In [90]:
a[0,2:7:1] #0번째 행의 2에서 7번째 전까지의 값을 1씩 증가로 달라는 뜻(start:stop:step)

array([], dtype=int64)

In [91]:
a[:,:] #모두 다 달라는 의미

array([[0, 1],
       [2, 3],
       [4, 5]])

In [92]:
a[1:,:] #첫 번째 행의 모든 열 가져오기

array([[2, 3],
       [4, 5]])

In [93]:
a[:,:1] #모든 행의 첫번째 열만 가져오기

array([[0],
       [2],
       [4]])