## 1. 기초



### 머신 러닝 워크플로우

**1. 수집**
- 자연어 데이터를 말뭉치 또는 코퍼스(corpus)라 부른다.
- 특정 도메인에서 수집된 텍스트(txt, csv, xml 등) 파일을 의미한다.


**2. 점검 및 탐색**
- 탐색적 데이터 분석 (EDA, Exploratory Data Analysis) 필요
- 데이터의 구조, 노이즈 데이터, 데이터 정제 방식 등을 파악한다
- 이 과정에서 시각화와 간단한 통계 테스트를 진행하기도 한다.


**3. 전처리 및 정제**
- 토큰화, 정제, 정규화, 불용어 제거 등
- 머신 러닝에서 가장 까다로우며, 다양한 라이브러리 지식이 필요하다.


**4. 모델링 및 훈련**
- 적절한 알고리즘을 선택해 기계에게 학습(=훈련)시킨다.
- 훈련용 / 테스트용 / 검증용으로 데이터를 쪼갠 다음 학습시킨다
- 이렇게 해야 제대로 훈련되었는지 확인할 수 있다

**5. 평가**
- 기계 학습 이후 테스트용 데이터로 성능 평가

**6. 배포**
- 기계가 제대로 훈련이 되었다면 배포한다
- 피드백을 통해 업데이트해야 한다면 수집 단계로 돌아간다

### 데이터의 분리

지도 학습을 위한 데이터 분리
- 지도 학습: 데이터(문제)와 레이블(정답)으로 구성됨
- 문제를 X에, 정답을 y에 저장함
  - 문제지와 답지로 나누기 위해
- X와 y의 일부 데이터를 분리
  - **훈련용** : X_train / y_train
  - **테스트용** : X_test / y_test
  - 이 분리는 zip 함수를 통해 할 수 있다.


In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [4]:
X, y = zip(['a', 1], ['b', 2], ['c', 3])
print('X 데이터: ', X)
print('y 데이터: ', y)

X 데이터:  ('a', 'b', 'c')
y 데이터:  (1, 2, 3)


In [5]:
sequences = [['a', 1], ['b', 2], ['c', 3]]
X, y = zip(*sequences)
print('X data: ', X)
print('y data: ', y)

X data:  ('a', 'b', 'c')
y data:  (1, 2, 3)


데이터프레임을 이용해 분리하기

In [6]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [7]:
X = df['메일 본문']
y = df['스팸 메일 유무']

In [8]:
print('X data:', X.to_list())
print('y data:', y.to_list())

X data: ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y data: [1, 0, 0, 1]


Numpy를 이용해 분리

In [9]:
np_array = np.arange(0, 16).reshape((4,4))
print('전체 데이터:')
print(np_array)

전체 데이터:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [10]:
X = np_array[:, :3]
y = np_array[:,3]

print('X 데이터 :')
print(X)
print('y 데이터 :',y)


X 데이터 :
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


테스트 데이터 분리
  1. 사이킷 런
     - 학습용과 테스트용 데이터를 쉽게 분리할 수 있게 도와 준다
     - train_size와 test_size는 둘 중 하나만 기재해도 된다

In [11]:
# 임의로 X와 y 데이터를 생성
X, y = np.arange(10).reshape((5, 2)), range(5)

print('X 전체 데이터 :')
print(X)
print('y 전체 데이터 :')
print(list(y))


X 전체 데이터 :
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y 전체 데이터 :
[0, 1, 2, 3, 4]


In [12]:
# 7:3의 비율로 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1234)

In [13]:
print('X train:', X_train)
print('X test:', X_test)

X train: [[2 3]
 [4 5]
 [6 7]]
X test: [[8 9]
 [0 1]]


In [14]:
print('y train: ', y_train)
print('y test: ', y_test)

y train:  [1, 2, 3]
y test:  [4, 0]


랜덤으로 섞이면서 데이터가 분리된 것을 볼 수 있다

In [15]:
# random_state를 1로 설정
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

In [16]:
print('X train:', X_train)
print('X test:', X_test)

X train: [[8 9]
 [0 1]
 [6 7]]
X test: [[4 5]
 [2 3]]


In [17]:
print('y train: ', y_train)
print('y test: ', y_test)

y train:  [4, 0, 3]
y test:  [2, 1]


random_state의 값을 고정해 두면 항상 동일한 순서로 데이터를 섞기 때문에, 여러번 테스트할 때 활용할 수 있다

2. 수동으로 분리하기

In [18]:
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
X, y = np.arange(0,24).reshape((12,2)), range(12)

print('X 전체 데이터 :')
print(X)
print('y 전체 데이터 :')
print(list(y))

X 전체 데이터 :
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y 전체 데이터 :
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [19]:
num_of_train = int(len(X) * 0.8) # 전체 길이의 8할

num_of_test = int(len(X) - num_of_train) # 전체 길이 - train 길이
# 0.2를 곱하면 반올림 때문에 데이터 누락이 발생할 수 있으므로 len(X) * 0.2로 진행하면 안 됨!!!

print("size of train:", num_of_train)
print("size of test:", num_of_test)

size of train: 9
size of test: 3


In [20]:
# test 데이터는 0.8 이후로 선정
X_test = X[num_of_train:]
y_test = y[num_of_train:]

# train은 앞에서부터 0.8까지
X_train = X[:num_of_train]
y_train = y[:num_of_train]

In [21]:
print('X 테스트 데이터 :')
print(X_test)
print('y 테스트 데이터 :')
print(list(y_test))

X 테스트 데이터 :
[[18 19]
 [20 21]
 [22 23]]
y 테스트 데이터 :
[9, 10, 11]


### 파이토치 패키지 구성

1. torch
- 메인 네임스페이스
- numpy와 유사한 구조를 가짐

2. torch.autograd
- 자동 미분을 위한 함수가 포함됨
- enable_grad나 no_grad 등 자동 미분의 on/off 제어함
- 혹은 자체 미분 기능 함수 정의 시 사용하는 Function 포함


3. torch.nn
- 신경망을 구축하기 위한 데이터 구조나 레이어의 정의
- 레이어: RNN / LSTM
- 활성화 함수: ReLU
- 손실 함수: MSELoss

4. torch.optim
- 확률적 경사 하강법(Stochastic Gradient Descent, SGD)를 중심으로 한 파라미터 최적화 알고리즘 구현

5. torch.utils.data
- SGD의 반복 연산 실행 시 사용하는 미니 배치용 유틸리티 함수를 포함

6. torch.onnx
- Open Neural Network Exchange 포맷으로 모델 export
- 서로 다른 딥러닝 프레임워크 간에 모델 공유 시 사용

백터, 행렬 그리고 텐서 (Vector, Matrix and Tensor)

1. 벡터
- 1차원으로 구성된 값
  - 차원이 없으면 스칼라라고 함

2. 행렬 Matrix
- 2차원으로 구성된 값

3. 텐서
- 3차원으로 구성된 값

#### Tensor - numpy

In [22]:
# numpy로 텐서 만들기
import numpy as np

In [23]:
tensor = np.array([0., 1., 2., 3., 4., 5., 6.])
print(tensor)

[0. 1. 2. 3. 4. 5. 6.]


In [24]:
print('Rank of Tensor: ', tensor.ndim) # 몇차원인지
print('Shape of Tensor: ', tensor.shape) # 크기가 몇인지

Rank of Tensor:  1
Shape of Tensor:  (7,)


In [25]:
print('t[0], t[1], t[-1] ', tensor[0], tensor[1], tensor[-1])

t[0], t[1], t[-1]  0.0 1.0 6.0


In [26]:
print('t[2:5] t[4:-1] ', tensor[2:5], tensor[4:-1])

t[2:5] t[4:-1]  [2. 3. 4.] [4. 5.]


In [27]:
print('t[:2] t[3:] ', tensor[:2], tensor[3:]) # 시작 번호를 생략한 경우와 끝 번호를 생략한 경우

t[:2] t[3:]  [0. 1.] [3. 4. 5. 6.]


In [28]:
# numpy로 2차원 행렬 만들기
t = np.array([[1., 2., 3.], [4., 5., 6.], [7., 8., 9.], [10., 11., 12.]])
print(t)

[[ 1.  2.  3.]
 [ 4.  5.  6.]
 [ 7.  8.  9.]
 [10. 11. 12.]]


In [29]:
print('Rank  of t: ', t.ndim)
print('Shape of t: ', t.shape)

Rank  of t:  2
Shape of t:  (4, 3)


#### Tensor - PyTorch

In [30]:
# pytorch로 tensor 만들기
import torch

In [31]:
t = torch.FloatTensor([0., 1., 2., 3., 4., 5., 6.])
print(t)

tensor([0., 1., 2., 3., 4., 5., 6.])


In [32]:
print(t.dim()) # rank. 몇차원인지
print(t.shape)
print(t.size()) # shape와 동일

1
torch.Size([7])
torch.Size([7])


In [33]:
print(t[0], t[1], t[-1])  # 인덱스로 접근
print(t[2:5], t[4:-1])    # 슬라이싱
print(t[:2], t[3:])       # 슬라이싱

tensor(0.) tensor(1.) tensor(6.)
tensor([2., 3., 4.]) tensor([4., 5.])
tensor([0., 1.]) tensor([3., 4., 5., 6.])


In [34]:
# 2차원 행렬 만들기
t = torch.FloatTensor([[1., 2., 3.],
                       [4., 5., 6.],
                       [7., 8., 9.],
                       [10., 11., 12.]
                      ])
print(t)

tensor([[ 1.,  2.,  3.],
        [ 4.,  5.,  6.],
        [ 7.,  8.,  9.],
        [10., 11., 12.]])


In [35]:
print(t.dim())  # rank. 즉, 차원
print(t.size()) # shape

2
torch.Size([4, 3])


In [36]:
print(t[:, 1]) # 첫번째 차원을 전체 선택한 상황에서 두번째 차원의 첫번째 것만 가져온다.
print(t[:, 1].size()) # ↑ 위의 경우의 크기

tensor([ 2.,  5.,  8., 11.])
torch.Size([4])


In [37]:
print(t[:, :-1]) # 맨 마지막 것 제외하고 전부 가져온다

tensor([[ 1.,  2.],
        [ 4.,  5.],
        [ 7.,  8.],
        [10., 11.]])


#### broadcasting - 벡터의 연산

In [38]:
# broadcasting: 자동으로 크기를 맞춰서 연산
m1 = torch.FloatTensor([[3,3]])
m2 = torch.FloatTensor([[2,2]])
print(m1+m2)

tensor([[5., 5.]])


In [39]:
# vector + scalar
m1 = torch.FloatTensor([[1,2]])
m2 = torch.FloatTensor([3]) # broadcasting으로 [3,3] 만들어서 연산 수행함
print(m1+m2)

tensor([[4., 5.]])


In [40]:
# 2 x 1 vector + 1 x 2 vector
m1 = torch.FloatTensor([[1,2]]) # [[1,2],[1,2]]
m2 = torch.FloatTensor([[3], [4]]) #[[3,3], [4,4]]
m1+m2

tensor([[4., 5.],
        [5., 6.]])

#### mamul / mul - 벡터의 연산

In [41]:
# 행렬곱셈(.matmul)과 곱셈(.mul)의 차이
# 1. matmul
m1 = torch.FloatTensor([[1,2],
                        [3,4]])
m2 = torch.FloatTensor([[1],[2]])

print('shape of m1:', m1.shape)
print('shape of m2:', m2.shape)
print(m1.matmul(m2))
# 1 * 1 + 2 * 2 = 5
# 3 * 1 + 4 * 2 = 11

shape of m1: torch.Size([2, 2])
shape of m2: torch.Size([2, 1])
tensor([[ 5.],
        [11.]])


In [42]:
# 2. mul
m1*m2, m1.mul(m2)

# m2가 [[1, 1], [2, 2]] 형태가 됨

(tensor([[1., 2.],
         [6., 8.]]),
 tensor([[1., 2.],
         [6., 8.]]))

In [43]:
# 평균 구하기
t = torch.FloatTensor([1,2])
t.mean()

tensor(1.5000)

In [44]:
t = torch.FloatTensor([[1,2], [3,4]])
t.mean()

tensor(2.5000)

In [45]:
t.mean(dim=0) # 첫 번째 차원(행)을 제거함 == 열만 남김
# 열의 평균을 구하면?
# [[1, 2], -> (1 + 3) / 2 = 2
#  [3, 4]] -> (2 + 4) / 2 = 3

tensor([2., 3.])

In [46]:
t.mean(dim=1)
# 행의 평균
# [[1, 2], -> (1 + 2) / 2 = 1.5
#  [3, 4]] -> (3 + 4) / 2 = 3.5

tensor([1.5000, 3.5000])

In [47]:
t = torch.FloatTensor([[1,2], [3,4]])
t

tensor([[1., 2.],
        [3., 4.]])

In [48]:
t.sum(), t.sum(dim=0), t.sum(dim=1), t.sum(dim=-1)

(tensor(10.), tensor([4., 6.]), tensor([3., 7.]), tensor([3., 7.]))

In [49]:
t.max() # 최대값

tensor(4.)

In [50]:
t.max(dim=0) # 행을 제거했을 때 최대값

torch.return_types.max(
values=tensor([3., 4.]),
indices=tensor([1, 1]))

[1, 1]은 무슨 의미인가? 기존 행렬을 다시 보자

```
[[1, 2],
 [3, 4]]
```

- 첫번째 열에서 0번 인덱스는 1, 1번 인덱스는 3입니다.
- 두번째 열에서 0번 인덱스는 2, 1번 인덱스는 4입니다.
- 다시 말해 3과 4의 인덱스는 [1, 1]입니다.


In [51]:
(t.max(dim=0)[0], # max
t.max(dim=0)[1]) # argmax

(tensor([3., 4.]), tensor([1, 1]))

In [52]:
(t.max(dim=1), t.max(dim=-1))

(torch.return_types.max(
 values=tensor([2., 4.]),
 indices=tensor([1, 1])),
 torch.return_types.max(
 values=tensor([2., 4.]),
 indices=tensor([1, 1])))

#### View
- 원소의 수를 유지하면서 텐서 크기 변경함
- numpy의 Reshape와 같은 역할을 한다

In [53]:
t = np.array([[[0,1,2],
               [3,4,5]],
              [[6,7,8],
               [9,10,11]]])
ft = torch.FloatTensor(t)

In [54]:
ft.shape

torch.Size([2, 2, 3])

In [55]:
torch.Size([2,2,3])

torch.Size([2, 2, 3])

[2, 3] 크기의 배열이 2개 있으니까 [2, 2, 3]

In [59]:
print(ft.view([-1, 3])) # ft라는 텐서를 (?, 3) 크기로 변경
print(ft.view([-1, 3]).shape) # 크기를 임의로 설정할 때 -1이라고 작성함

tensor([[ 0.,  1.,  2.],
        [ 3.,  4.,  5.],
        [ 6.,  7.,  8.],
        [ 9., 10., 11.]])
torch.Size([4, 3])


[2, 2, 3] 짜리 배열을 [4, 3]으로 변경함

In [60]:
print(ft.view([-1, 1, 3]))
print(ft.view([-1, 1, 3]).shape)

tensor([[[ 0.,  1.,  2.]],

        [[ 3.,  4.,  5.]],

        [[ 6.,  7.,  8.]],

        [[ 9., 10., 11.]]])
torch.Size([4, 1, 3])


2 * 2 * 3을 만족해야 하므로 -1이 4가 됨

#### Squeeze / UnSqueeze

In [61]:
ft = torch.FloatTensor([[0], [1], [2]])
ft, ft.shape

(tensor([[0.],
         [1.],
         [2.]]),
 torch.Size([3, 1]))

In [62]:
ft.squeeze(), ft.squeeze().shape

(tensor([0., 1., 2.]), torch.Size([3]))

In [63]:
ft = torch.Tensor([0, 1, 2])
ft.shape

torch.Size([3])

In [64]:
ft.unsqueeze(0), ft.unsqueeze(0).shape

(tensor([[0., 1., 2.]]), torch.Size([1, 3]))

[0., 1., 2.]의 1차원 벡터가 [[0., 1., 2.]]의 2차원 텐서로 변경됨!

In [65]:
# view로도 unsqueeze 가능
ft.view(1, -1), ft.view(1, -1).shape

(tensor([[0., 1., 2.]]), torch.Size([1, 3]))

In [66]:
# 두 번째 차원에 1 추가
ft.unsqueeze(1), ft.unsqueeze(1).shape

(tensor([[0.],
         [1.],
         [2.]]),
 torch.Size([3, 1]))

In [67]:
# 마지막 차원에 추가
ft.unsqueeze(-1), ft.unsqueeze(-1).shape

(tensor([[0.],
         [1.],
         [2.]]),
 torch.Size([3, 1]))

#### Type Casting

In [68]:
lt = torch.LongTensor([1, 2, 3, 4])
lt

tensor([1, 2, 3, 4])

In [69]:
lt.float() # float 붙이면 실수형으로 변경됨

tensor([1., 2., 3., 4.])

In [70]:
bt = torch.ByteTensor([True, False, False, True])
bt

tensor([1, 0, 0, 1], dtype=torch.uint8)

In [71]:
bt.long(), bt.float()

(tensor([1, 0, 0, 1]), tensor([1., 0., 0., 1.]))

#### 연결하기

In [72]:
x = torch.FloatTensor([[1, 2], [3, 4]])
y = torch.FloatTensor([[5, 6], [7, 8]])

In [73]:
torch.cat([x, y], dim=0) # cat을 통해 연결하고 dim=0으로 첫 차원 늘리기

tensor([[1., 2.],
        [3., 4.],
        [5., 6.],
        [7., 8.]])

(2 * 2) 텐서에서 (4 * 2) 텐서로

In [74]:
torch.cat([x, y], dim=1) # 두 번째 차원 늘리기

tensor([[1., 2., 5., 6.],
        [3., 4., 7., 8.]])

(2 * 2) 텐서에서 (2 * 4) 텐서로

#### Stacking

In [75]:
x = torch.FloatTensor([1, 4])
y = torch.FloatTensor([2, 5])
z = torch.FloatTensor([3, 6])

In [77]:
torch.stack([x, y, z])

tensor([[1., 4.],
        [2., 5.],
        [3., 6.]])

벡터가 순차적으로 쌓여서 (3 * 2) 텐서 됨

In [79]:
torch.cat([x.unsqueeze(0), y.unsqueeze(0), z.unsqueeze(0)], dim=0)
# stack이랑 이거랑 같은 작업임

tensor([[1., 4.],
        [2., 5.],
        [3., 6.]])

In [80]:
print(torch.stack([x, y, z], dim=1))
# (2 * 3) 텐서 되도록 변경

tensor([[1., 2., 3.],
        [4., 5., 6.]])


#### 0으로 채워진 텐서

In [82]:
x = torch.FloatTensor([[0, 1, 2], [2, 1, 0]])
x

tensor([[0., 1., 2.],
        [2., 1., 0.]])

In [83]:
torch.ones_like(x) # 동일한 크기지만 값은 1로 채우기

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [84]:
torch.zeros_like(x) # 동일한 크기지만 값은 0으로 채우기

tensor([[0., 0., 0.],
        [0., 0., 0.]])

덮어쓰기

In [85]:
x = torch.FloatTensor([[1, 2], [3, 4]])

In [86]:
print(x.mul(2.)) # 곱하기 2를 수행한 결과를 출력
print(x) # 기존의 값 출력

tensor([[2., 4.],
        [6., 8.]])
tensor([[1., 2.],
        [3., 4.]])


In [87]:
print(x.mul_(2.))  # mul 뒤에 언더바 붙이면 덮어쓰기 됨
print(x) # 기존의 값 출력

tensor([[2., 4.],
        [6., 8.]])
tensor([[2., 4.],
        [6., 8.]])
