파이토치에서 딥러닝을 수행하는 과정
1. nn.Module 클래스를 상속받아 (forward 함수를 통해) 모델 아키텍처 클래스 선언
2. 해당 클래스 객체 생성
3. SGD나 Adam 등의 옵티마이저를 생성하고, 생성한 모델의 파라미터를 최적화 대상으로 등록
4. 데이터를 미니배치로 구성하여 피드포워드 연산 그래프 생성
5. 손실 함수를 통해 최종 결과값(scaler)과 손실값(loss) 계산
6. 손실에 대해서 backward()호출 -> 연산 그래프상의 텐서 기울기(gradient)가 채워짐
7. 3번의 옵팀이저에서 step()을 호출하여 경사하강법 1 스텝 수행
8. 4번으로 돌아가 수렴 조건이 만족할 때까지 반복 수행

# 4장 전처리

## 4.1 전처리

### 4.1.1 코퍼스란?
* 코퍼스(corpus)
  * 말뭉치를 의미한다.
  * 여러 단어들로 이루어진 문장을 말한다.
* 여러 종류의 코퍼스
  * 단일(monoligual) 코퍼스: 한 가지 언어로 구성된 코퍼스
  * 이중 언어(bilingual) 코퍼스 : 두 개의 언어로 구성된 코퍼스
  * 다중 언어(multilingual) 코퍼스 : 더 많은 수의 언어로 구성된 코퍼스
  * 병렬(parallel) 코퍼스 : 언어 간에 쌍으로 구성되는 코퍼스
* 코퍼스가 많고 오류가 없을수록 자연어 처리 머신러닝의 모델은 더 정교해지고 정확도가 높아진다

### 4.1.2 전처리 과정 개요
1. 코퍼스 수집
2. 정제
3. 문장 단위 분절
4. 분절
5. 병렬 코퍼스 정렬(생략 가능)
6. 서브워드 분절

## 4.2 코퍼스 수집
* 코퍼스를 수집하는 방법은 여러 가지가 있으나 여기서는 웹크롤링을 통해 데이터를 수집하는 방법을 다룰 예정이다.
* 해당 웹사이트의 크롤링 허용 여부는 사이트의 robots.txt를 보면 확인할 수 있다.

### 4.2.1 단일 언어 코퍼스 수집
* 가장 손쉽게 구할 수 있는 종류의 코퍼스이다.
* 도메인에 따른 대표적인 코퍼스 수집 방법

### 4.2.2 다중 언어 코퍼스 수집
* 자동 기계번역을 위해서 수집하는 경우가 있다.
* 주로 자막을 사용하는 듯하다.

## 4.3 정제
* 정제(normalization)은 필수적인 과정이다.
* 주어진 task에 따라서 정제를 다르게 할 필요하고, 개인정보나 민감한 정보들은 제거하거나 변조해서 모델링해야 한다.

### 4.3.1 전각 문자 제거
* 전각 문자 : 특수문자 기호. !@#와 같이 shift+숫자가 아닌 윈로우의 경우 자음+한자로 생성되는 특수문자를 의미한다. (쉽게 말해서 이렇다는 거지 진짜 이런 의미는 아님!)
* 반각 문자 : 흔히 우리가 쓰는 기호
* 조금 더 자세한 설명은 여기 참고 https://brownbears.tistory.com/120
* 전각 문자를 반각 문자로 바꿔주는 작업이 필요하다.

### 4.3.2 대소문자 통일
* 일부 영어 코퍼스에서는 약자 등에서의 대소문자 표현이 통일되지 않을 때가 있다. ex) NYC, nyc, N.Y.C
* 다양한 표현의 일원화는 하나의 의미를 지니는 여러 단어를 하나의 형태로 통일해 희소성(sparsity)을 줄이는 효과를 기대할 수 있다. -> 지금은 단어 임베딩을 통해서 효율적으로 표현가능하기 때문에 대소문자 통일 같은 전체 코퍼스에서 차지하는 비율이 낮은 문제를 해결할 필요성이 줄어들었다.

### 4.3.3 정규 표현식을 사용한 정제
* 생략

## 4.4 문장 단위 분절
* 여러 문장이 한 라인에 있거나, 한 문장이 여러 라인에 걸쳐 있는 경우에는 문장 단위 분절이 필요하다.
* 근데 단순히 마침표로 문장 단위 분절하면 안됨! -> 약자, 소수점 등의 문제를 마주칠 수 있음 => 자연어 처리 툴킷인 NLTK의 분절 모듈을 사용하기를 권장한다.

### 4.4.1 문장 단위 분절 예제


In [None]:
!pip install 

In [8]:
import sys, fileinput, re
from nltk.tokenize import sent_tokenize

if __name__ == "__main__":
  for line in fileinput.FileInput('./sentence.txt'):
    if line.strip() != "":
      line = re.sub(r'([a-z)\.([A-Z])', r'\1. \2', line.strip())
      sentences = sent_tokenize(line.strip())

      for s in sentences:
        if s != "":
          sys.stdout.write(s + "\n")

error: ignored

### 4.2.2 문장 합치기 및 분절 예제
* 여러 라인에 걸쳐 한 문장이 들어 있는 경우에 대해서 처리

## 4.5 분절
* 생략

### 4.5.1 한국어 분절
* 생략

### 4.5.2 영어 분절
* 생략

## 4.6 병렬 코퍼스 정렬

### 4.6.1 병렬 코퍼스 제작 프로세스 개요
