# 2주차: Training/Test/Validation Set, Numpy

## 목차
1. 지도 학습, 비지도 학습
2. Training/Test/Validation Set
3. Numpy

# 1. 지도 학습, 비지도 학습

- 머신러닝 알고리즘은 크게 지도학습(supervised learning)과 비지도 학습(unsupervised learning)으로 나눌 수 있다.

### 지도학습(supervised learning)
- 지도 학습은 말 그대로 정답이 있는 데이터를 활용해 데이터를 학습시키는 것을 말한다. 입력 값(X data)이 주어지면 입력값에 대한 Label(Y data)를 주어 학습시킨다.
- 대표적으로 분류(classification), 회귀(Regression) 문제가 있다.

* 분류: <br> <br> ![ic](./ic.png)
* 회귀: 주어진 데이터(x)를 기반으로 정답(Y)를 잘 맞추는 함수 찾기 문제
<br> <br> ![fa](./fa.png)

### 비지도학습(unsupervised learning)
- 지도 학습과는 달리 정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화 하여 새로운 데이터에 대한 결과를 예측하는 방법을 비지도학습이라고  한다.
- 대표적으로 클러스터링(clustering)을 들 수 있다.
<br>
* Clustering: 기계가 스스로 데이터들을 보고 비슷한 특징의 데이터들끼리 군집화 시키는 기술
<br>
<br>
- 최근 각광받고 있는 GAN(generative Adversarial Network) 모델도 비지도 학습에 해당한다.
<br> \* GAN: 실제에 가까운 이미지나 사람이 쓴 것과 같은 글 등 여러 가짜 데이터들을 생성하는 모델로 서로 다른 두 개의 네트워크를 적대적으로 학습시키며 실제 데이터와 비슷한 데이터를 생성(generative)해내는 모델

https://www.thedatahunt.com/trend-insight/gan-algorithm-guide

# 2. Training/Validation/Test Set


### Training set
- 모델을 학습시키기 위한 dataset

### Validation set
- 학습이 이미 완료된 모델을 검증하기 위한 dataset

### Test set
- 학습과 검증이 완료된 모델의 성능을 평가하기 위한 dataset



보통 Train : Validation : Test을 일반적으로 6:2:2로 이용한다.


# 3.Numpy

배열(array)을 통해 효율적으로 데이터를 처리하기 위해 만들어진 패키지
<br>
리스트보다 적은 메모리로 빠르게 데이터를 처리할 수 있다. 

In [4]:
# import numpy package
import numpy as np

## 배열(Array)

### 1차원 배열

array1은 1차원 배열 구조다. 배열 객체는 모든 원소가 같은 자료형이어야 되지만, 리스트 객체는 각각의 원소가 다른 자료형이 될 수 있다.

1. 모든 원소가 같은 자료형이어야 한다.
2. 원소의 개수를 바꿀 수 없다. 

In [5]:
array1 = np.array([0, 1, 2, 3, 4])
array1

array([0, 1, 2, 3, 4])

In [6]:
print(type(array1)) # 자료구조 알기

<class 'numpy.ndarray'>


In [7]:
list1 = [0, 1, 2, 3.0, "4"]
list1

[0, 1, 2, 3.0, '4']

In [8]:
print(type(list1))

<class 'list'>


### 2차원 배열

In [9]:
array2 = np.array([[0, 1, 2], [3, 4, 5]]) #2 x 3 array

In [10]:
print(len(array2)) # 행의 개수
print(len(array2[0])) # 열의 개수

2
3


In [11]:
print(array2.ndim) # 배열의 차원
print(array2.shape) # 배열의 크기

2
(2, 3)


### 3차원 배열

In [12]:
array3 = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]]) # 2 x 3 x 4 array

In [13]:
len(array3), len(array3[0]), len(array3[0][0]) # 깊이, 행, 열

(2, 3, 4)

In [14]:
print(array3.ndim) # 배열의 차원
print(array3.shape) # 배열의 크기

3
(2, 3, 4)


### 벡터화 연산

In [15]:
array1 = np.array([0, 1, 2, 3, 4])
2 * array1

array([0, 2, 4, 6, 8])

벡터의 연산은 논리적 연산도 가능하다.

In [16]:
array1 > 3

array([False, False, False, False,  True])

list 연산과 얼마나 다른지 살펴보자.(리스트 객체에 정수를 곱하면 객체의 크기가 정수배만큼 증가한다.)

In [17]:
# vs. list 연산
list1 = [0, 1, 2, 3, 4]
2 * list1

[0, 1, 2, 3, 4, 0, 1, 2, 3, 4]

list 연산을 array 연산과 같이 하려면 다음과 같은 방법을 활용할 수 있겠다.


In [18]:
answer = list(map(lambda x:2*x,list1)) #리스트의 각 요소에 함수 적용
print(answer)

[0, 2, 4, 6, 8]


### Indexing

1차원 배열의 인덱싱은 리스트의 인덱싱과 같다.

In [19]:
array1 = np.array([0, 1, 2, 3, 4])

In [20]:
print(array1[2]) # 3번째 요소
print(array1[-1]) # 마지막 요소

2
4


다차원 배열의 인덱싱은 ','를 사용해 각 차원의 인덱스를 지정한다.

In [21]:
array2 = np.array([[0, 1, 2], [3, 4, 5]])

In [22]:
print(array2[0, 0]) # 1번째 행의 1번째 열
print(array2[-1, 1]) # 마지막 행의 2번째 열

0
4


### Slicing

In [23]:
array2 = np.array([[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]])

In [24]:
print(array2[0, :]) # 1번째 행 전체

[0 1 2 3 4]


In [25]:
print(array2[:, 1]) # 2번째 열 전체

[1 6]


In [26]:
print(array2[:2, :2]) # 모든 행과 열에서 첫째, 두째 요소만 출력

[[0 1]
 [5 6]]


### Array Indexing

불리언(Boolean) 배열 인덱싱은 인덱스 배열 원소가 True, False 두 값으로 구성되어, True에 해당하는 배열 원소만을 출력한다. 이 때, 인덱스 배열의 크기가 원래 ndarray 객체의 크기와 같아야 한다.

In [27]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx = np.array([True, False, True, False, True,
               False, True, False, True, False])
a[idx]

array([0, 2, 4, 6, 8])

새로운 조건으로 불리언 배열 인덱싱 조건을 생성해보자.

In [28]:
a % 3 == 0  # array([ True, False, False,  True, False, False,  True, False, False, True])
a[a % 3 == 0]

array([0, 3, 6, 9])

## 배열 생성 및 변형

### 배열 생성

모든 값이 0인 배열을 생성하려면 **.zeros()** 를, 모든 값이 1인 배열을 생성하려면 **.ones()** 를 사용하면 된다.

In [29]:
a = np.zeros((2, 3))
a

array([[0., 0., 0.],
       [0., 0., 0.]])

In [30]:
a = np.ones((2, 3, 4))
a

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

배열의 크기가 커지면 배열을 초기화하는데도 시간이 걸리므로, **.empty()** 을 배열을 생성만 하고 특정한 값으로 초기화 하지 않게 할 수 있다.

\* 단, empty명령으로 생성된 배열은 원소 값 미리 알 수 없음.

In [31]:
a = np.empty((4, 3))
a

array([[7.59826799e-312, 2.47032823e-322, 0.00000000e+000],
       [0.00000000e+000, 1.08221785e-312, 1.33664410e+160],
       [6.87272140e-091, 1.43692988e-051, 2.38204057e+179],
       [9.05044034e-067, 3.99910963e+252, 5.10741847e-038]])

**.arange()** 은 특정한 규칙에 따라 증가하는 수열을 만든다.

In [32]:
np.arange(3, 21, 2)  # 시작, 끝(포함하지 않음), 단계

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

**.linspace()** 는 구간 시작점, 구간 끝점, 구간 내 숫자 개수를 입력해, 개수만큼의 배열을 만들어준다.

In [33]:
np.linspace(1, 3, 5)

array([1. , 1.5, 2. , 2.5, 3. ])

### Transpose matrix

2차원 배열의 전치(transpose) 연산은 행과 열을 바꾸는 속성이다.

In [34]:
A = np.array([[1, 2, 3], [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [35]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### Diagonal matrix

**.diag()** 를 통해 대각행렬을 만들 수 있다.

In [36]:
np.diag([4,5,8])

array([[4, 0, 0],
       [0, 5, 0],
       [0, 0, 8]])

### Identity matrix

**.eye()** 를 통해 항등행렬을 만들 수 있다.

In [37]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### 배열의 크기 변형

18개의 원소를 가진 1차원 행렬 a를 **.reshape()** 를 통해 3x6 형태의 2차원 행렬로 만들 수 있다.

In [38]:
a = np.arange(18)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17])

In [39]:
a = a.reshape(3, 6)
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [40]:
a = a.reshape(-1,6)
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

In [41]:
a = a.reshape(3, -1) #3행으로 재배열.
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17]])

-1을 넣으면 원래 배열 원소의 개수(18개)에서 -1 말고 입력한 다른 인수(3)를 자동으로 계산해서 자리수를 맞춰준다.

In [42]:
a.reshape(3, 2, -1) #3개의 묶음으로 2개의 행을 갖고 나머지 차원의 크기는 자동으로 계산.

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]],

       [[12, 13, 14],
        [15, 16, 17]]])

## 배열 연산

우리가 행렬 계산에서 사용하는 방식으로 계산하려면, list가 아니라 array 클래스로 연산해야한다.

In [38]:
array1 = np.array([1, 2, 3, 4])
array2 = np.array([2, 2, 2, 2])
array1 + array2

array([3, 4, 5, 6])

In [39]:
list1 = [1, 2, 3, 4]
list2 = [2, 2, 2, 2]
list1 + list2

[1, 2, 3, 4, 2, 2, 2, 2]

다양한 사칙 연산뿐만 아니라 비교 연산도 벡터화 연산이 가능하다.

In [40]:
array1 >= array2

array([False,  True,  True,  True])

In [41]:
a = np.arange(5) #array([0, 1, 2, 3, 4]) 
np.exp(a) # 지수함수

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

## 벡터/행렬 곱셈

스칼라 * 벡터/행렬의 계산은 우리가 행렬 계산에서 사용하는 방식이랑 동일하다.

In [42]:
x = np.arange(10)
100 * x

array([  0, 100, 200, 300, 400, 500, 600, 700, 800, 900])

### 브로드캐스팅

벡터/행렬끼리 덧셈 혹은 뺄셈을 하려면 두 벡터/행렬의 크기가 같아야 한다. 하지만 Numpy에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원한다. 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방법이다.

x에 x와 크기가 같으면서 1로만 구성되어 있는 y를 더하나, 그냥 x에 스칼라 1을 더하나 결과는 동일하게 나온다.

In [43]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [44]:
y = np.ones_like(x)
y

array([1, 1, 1, 1, 1])

In [45]:
x + y

array([1, 2, 3, 4, 5])

In [46]:
x + 1

array([1, 2, 3, 4, 5])

In [43]:
#크기가 다른 두 배열의 덧셈
array3d = np.array([[[0,1], [2,3],  [4,5],  [6,7]],

         [[8,9],  [10,11],[12,13],[14,15]],

      [[16,17],[18,19],[20,21],[22,23]]])

array2d = np.array([[0,1],[2,3],[4,5],[6,7]])

array3d + array2d



array([[[ 0,  2],
        [ 4,  6],
        [ 8, 10],
        [12, 14]],

       [[ 8, 10],
        [12, 14],
        [16, 18],
        [20, 22]],

       [[16, 18],
        [20, 22],
        [24, 26],
        [28, 30]]])

### Matrix Multiplication Vs. Multiplication

numpy에서 진행하는 단순 배열 곱셉은 우리가 흔히 선형대수학에서의 행렬의 곱셈과 다르다. 같은 위치에 있는 요소들끼리 곱해주기만 한다.

In [47]:
X = np.array([[1.0,2.0],
              [3.0,4.0]])

X

array([[1., 2.],
       [3., 4.]])

In [48]:
np.multiply(X, X)



array([[ 1.,  4.],
       [ 9., 16.]])

따라서 우리가 흔히 아는 선형대수학에서의 행렬의 곱셈을 하기 위해서는 **.matmul()** 을 활용해야 한다. (X@X으로도 가능합니다.)

In [49]:
np.matmul(X, X)

print(X,X.T, sep="\n\n")
print('\n\n')
print(np.matmul(X,X))

[[1. 2.]
 [3. 4.]]

[[1. 3.]
 [2. 4.]]



[[ 7. 10.]
 [15. 22.]]


### 기타 연산

- 개수 : <code>len()</code>
- 평균 : <code>.mean()</code>
- 합 : <code>.sum()</code>
- 분산, 표준편차 : <code>.var(), .std()</code>
- 최댓값, 최솟값, 중앙값 : <code>.max(), .min(), .median()</code>
- 최댓값, 최솟값의 위치 : <code>.argmax(), argmin()</code>

In [45]:
x = np.array([[1, 2], [3, 4]])
x

array([[1, 2],
       [3, 4]])

In [46]:
x.sum(axis=0) # 열 합계

array([4, 6])

In [47]:
x.sum(axis=1) # 행 합계

array([3, 7])

In [56]:
x.max() #값 반환

4

In [55]:
#argmax: 배열을 1차원으로 평탄화하여 인덱스를 계산. -> [1,2,3,4]
np.argmax(x) #배열의 최대값의 인덱스를 반환

3

## 난수 설정

### 시드 설정

컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아니다. 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성한다. 따라서 이런 시작 숫자를 시드(seed)라고 하며, 수동적으로 시드를 지정하면 그 다음에 만들어지는 난수들은 모두 예측할 수 있다.

In [53]:
np.random.seed(0)

넘파이 random.rand()로 난수를 발생시킬 수 있다.

(아래 셀을 실행시키고 나서, 아래 셀을 한 번 더 실행시키면 다른 값이 나온다. 하지만 위의 np.random.seed(0)를 다시 실행시키고 아래 np.random.rand(5)를 실행시키면 처음 나왔던 array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])과 같은 값이 나온다.)




In [57]:
np.random.rand(5)

array([0.12778782, 0.50929364, 0.1865703 , 0.39052462, 0.88357818])

### 데이터 순서 바꾸기

In [58]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [59]:
np.random.shuffle(x)
x

array([6, 3, 0, 2, 8, 5, 9, 4, 1, 7])

### 난수 생성

- <code>.rand()</code>: 0~1 사이의 균일 분포
- <code>.randn()</code>: 표준 정규 분포
- <code>.randint()</code>: 균일 분포의 정수 난수

In [57]:
np.random.rand(10)

array([0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606,
       0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215])

In [58]:
np.random.rand(3,5) # 3X5의 2차원 배열 (무작위로)

array([[0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443],
       [0.63992102, 0.14335329, 0.94466892, 0.52184832, 0.41466194],
       [0.26455561, 0.77423369, 0.45615033, 0.56843395, 0.0187898 ]])