# 2. 자연어 전처리

## 강의 소개

인공지능에서 가장 중요한 **데이터**!! “Garbage in, garbage out” 이라는 말이 있습니다.  
일반적으로 좋은 데이터를 학습해야 좋은 성능의 모델을 기대할 수 있습니다.  
또한 데이터 전처리는 단순히 '정제' 의 개념이 아니라, 어떤 문제를 해결하겠다는 task 정의의 의미도 포함하고 있습니다!  
**반드시 날 것의 데이터와 친하게 지내세요!!!**
 
이번 강의에는 다양한 한국어에 특화된 전처리 기법을 배우고 실습합니다.😎  
한국어로 할 수 있는 거의 모든 전처리를 포함하고 있습니다! 😀


<br>

## 실습 코드 링크

- [0. 한국어 전처리](https://drive.google.com/file/d/17BDV1MYUNOYoyddnpXI2kNyS1sVAc_Oi/view?usp=sharing)
- [1. 한국어 토크나이징](https://drive.google.com/file/d/1_7FLI-WW6r1VY0sb9AVT03-qaue_DIm1/view?usp=sharing)

<br>

## Further Reading

- [청와대 국민청원 데이터 전처리 (소개)](https://www.youtube.com/watch?v=9QW7QL8fvv0)
- [청와대 국민청원 데이터 전처리 (실습)](https://www.youtube.com/watch?v=HIcXyyzefYQ)

<br>

## Further Questions

- 텍스트 정제라는 것이 정말 필요할까요?
  - 어쩌라는거야? 싶으시죠? ☺️☺️
  - 실제로 우리가 웹이나 메신저를 통해 사용하는 언어는 '정제 되지 않은 언어' 입니다.
  - 해당 데이터가 적용되는 방향에 따라 정제가 필요할 수도, 필요하지 않을 수도 있습니다.
  - 오히려 더욱 어려운 데이터로 학습한 모델의 성능이 좋을 수도 있죠 ☺️

<br>

## Reference

### huggingface Tokenizer

- [서브워드 구축하기](https://keep-steady.tistory.com/37)
- [Huggingface Transformers의 attention mask 문서](https://huggingface.co/transformers/glossary.html#attention-mask)
- [Huggingface Transformers의 attention mask 구현](https://github.com/huggingface/tokenizers/tree/2fbd6779f6bdeb55c0fb9cceb3716ec20fc92646/bindings/python/py_src/tokenizers/implementations)

<br>

### KoNLPy

- [한국어 전처리 위한 Huggingface + KoNLPy 실습](https://www.notion.so/259bc1d236d78a77f044d638d0df300c)

<br>

## 2.1 자연어 전처리

### 2.1.1 전처리란?

- 원시 데이터(raw data)를 기계 학습 모델이 학습하는데 적합하게 만드는 프로세스
- 학습에 사용될 데이터를 **수집&가공**하는 모든 프로세스

<br>

### 2.1.2 전처리가 필요한 이유

- 전처리는 task의 성능을 가장 확실하게 올릴 수 있는 방법이다.
- 모델을 아무리 바꾸고, 튜닝하더라도, 데이터 자체가 문제가 있다면 성능이 나올 수 없다.
- 가장 중요한 것은 데이터이다.
- 단, 저작권에 유의해야 한다.

<br>

### 2.1.3 자연어처리의 단계

- Task 설계
- 필요 데이터 수집
- 통계학적 분석
- 전처리
- Tagging
- Tokenizing
- 모델 설계
- 모델 구현
- 성능 평가
- 완료

<br>

#### 2.1.3.1 Task 설계

- ex) 유튜브 라이브에서 악성 댓글을 필터링해주세요 -> 악성 댓글 classifier를 만들자!

<br>

#### 2.1.3.2 필요 데이터 수집

- ex) 댓글 데이터를 수집

<br>

#### 2.1.3.3 통계학적 분석

- Token 개수 -> outlier(ex. 빈도수가 적은 토큰) 제거
- 빈도 확인 -> 사전(dictionary) 정의

<br>

#### 2.1.3.4 전처리

- 개행문자 제거
- 특수문자 제거
- 공백 제거
- 중복 표현 제어 (ex. "ㅋㅋㅋㅋㅋ", "ㅠㅠㅠㅠ", ...)
- 이메일, 링크 제거
- 제목 제거
- 불용어(의미가 없는 용어) 제거
- 조사 제거
- 띄어쓰기, 문장분리 보정

<br>

#### 2.1.3.5 Tagging

- classification을 위한 labeling

<br>

#### 2.1.3.6 Tokenizing

- 토큰의 단위 결정
- 자연어를 어떤 단위로 살펴볼 것인가
- 어절 tokenizing
  - "오렌지는", "맛있다"
- 형태소 tokenizing
  - "오렌지/Noun", "는/Subject case marker", "맛있/Verb", "다/for declarative form"
- WordPiece tokenizing

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1RgafRnfO2XXgHpdYD9ETozbu-oMZceST' width=600/>

<br>

#### 2.1.3.7 실제 문제에서는...

- 위와 같은 방법으로 한 번에 처리되는 경우는 거의 없다.

<br>

### 2.1.4 Python string 관련 함수

#### 2.1.4.1 대소문자의 변환

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1RiuiDdasXXHiOQfMSkK4pACMQ6ZVKwfr' width=800/>

<br>

#### 2.1.4.2 편집, 치환

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1RlRb6_bcAxNlbq7Df5xV8iBIP3_WQIhZ' width=800/>

<br>

#### 2.1.4.3 분리, 결합

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1Rn87wCUhzUYcSOR2OOOmxvLvfUDrfEz3' width=800/>

<br>

#### 2.1.4.4 구성 문자열 판별

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1RpPaWCjpE7xjnUSmYVeDLScE56C1SROt' width=800/>

<br>

#### 2.1.4.5 검색

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1RuBvoIk3JDQYHgG2pxnGzcDJRgkHsZ9u' width=800/>

<br>

## 2.2 한국어 토큰화

- 자연어를 어떤 단위로 관찰할 것인지 확인

<br>

### 2.2.1 토큰화 (Tokenizing)

- 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업
- 토큰이 되는 기준은 다를 수 있음
  - 어절, 단어, 형태소, 음절, 자소 등

<br>

### 2.2.2 문장 토큰화 (Sentence Tokenizing)

- 문장 분리

<br>

### 2.2.3 단어 토큰화 (Word Tokenizing)

- 구두점 분리 및 단어 분리
  -  "Hello, World!" -> "Hello", ",", "World", "!"

<br>

### 2.2.4 한국어 토큰화

- 영어는 "New York"과 같은 합성어 처리와 "it's"와 같은 줄임말 예외처리만 하면 띄어쓰기를 기준으로도 잘 동작하는 편
- 한국어는 조사나 어미를 붙여서 말을 만드는 교착어로 띄어쓰기만으로는 부족
  - ex) he/him -> 그, 그가, 그는, 그를, 그에게
- 한국어에서는 어절의 의미를 가지는 최소 단위인 형태소로 분리
  - ex) "안녕하세요" -> "안녕/NNG", "하/XSA", "세/EP", "요/EC"