---
layout: post  
current: post  
cover:  assets/built/images/NLPwikidocs-logo.png  
navigation: True  
title: 머신러닝 워크플로우  
date: 2023-02-03 17:05:31 +0900  
tags: [AI]  
class: post-template  
subclass: 'post tag-python'  
author: chanp5660  
---

{% include AI-table-of-contents.html %}

---

- 워크 플로우 

<img src="https://wikidocs.net/images/page/31947/%EB%A8%B8%EC%8B%A0_%EB%9F%AC%EB%8B%9D_%EC%9B%8C%ED%81%AC%ED%94%8C%EB%A1%9C%EC%9A%B0.PNG" width="100%">  

\* 내용 및 이미지 참조 링크 [https://wikidocs.net/31947](https://wikidocs.net/31947)  

본 블로그 내용은 워크 플로우에서 **"전처리 및 정제"** 부분에 해당 된다.

# NLP 자연어처리(1) - 텍스트 전처리

- 본 블로그는 위키독스에 나와있는 [**딥 러닝을 이용한 자연어 처리 입문**](https://wikidocs.net/book/2155)을 따라하고 실행하면서 나만의 추가 정보들을 넣어가면 진행하기 위한 글이다. 배우려고 하는 사람은 제공된 링크를 타고 가서 배우는게 본 블로그보다 정리가 잘되어 있어 깔끔하고 좋다.

- 나만의 해석 
    - 모든 부분들에서 잘하면 좋겠지만 "텍스트 전처리" 부분은 자연어 처리에서 **가장 중요**하다고 생각한다. 이 부분에서 결과가 만족되지 못한다면 다음 모든 부분에서 절대 만족할 수 없을 것이다.

- 텍스트 전처리(Text Preprocessing) [https://wikidocs.net/21694](https://wikidocs.net/21694)  
    - <a href="#Tokenization">토큰화(Tokenization)</a>  
    - <a href="#Cleaning_Normalization">정제(Cleaning) and 정규화(Normalization)</a>  
    - <a href="#Stemming_Lemmatization">어간 추출(Stemming) and 표제어 추출(Lemmatization)</a>  
    - <a href="#Stopword">불용어(Stopword)</a>
    - <a href="#Regular_Expression">정규 표현식(Regular Expression)</a>
    - <a href="#Integer_Encoding">정수 인코딩(Integer Encoding)</a>
    - <a href="#Padding">패딩(Padding)</a>
    - <a href="#One-Hot_Encoding">원-핫 인코딩(One-Hot Encoding)</a>
    - <a href="#Splitting_Data">데이터의 분리(Splitting Data)</a>
    - <a href="#Text_Preprocessing_Tools_for_Korean_Text">한국어 전처리 패키지(Text Preprocessing Tools for Korean Text)</a>

<p id="Tokenization"></p>  


## 토큰화(Tokenization)

[https://wikidocs.net/21698](https://wikidocs.net/21698)

- 주어진 코퍼스(corpus)에서 토큰(token)이라고 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 한다.
- 코퍼스(corpus) : 말뭉치; 글자들이 묶여있는 단락, 문단 등이라고 생각한다.
- 토큰(token) : 상황에 따라 다르지만 의미 있는 부분을 말한다.

### _ 1. 단어 토큰화(Word Tokenization)  

- 단어를 기준으로 토큰화 작업을 하는 것
- 간단한 예시
    - "토큰화! 작업을 하는 것은, 보통 사람마다 기준이 다릅니다."
    - "토큰화", "작업을", "하는", "것은", "보통", "사람마다", "기준이", "다릅니다"


### _ 2. 토큰화 중 생기는 선택의 순간

- 어떤 용도로 사용할건지에 따라 토큰화할 기준을 직접 정해야한다.

- 간단한 예시
    - Don't에 아포스트로피(')가 있는데 어떤 기준으로 토큰화 하는지에 따른 여러 결과가 있다.
      - Don't, Don t, Dont, Do n't ( 단어 기준 )
      - Jone's, Jone s, Jone, Jones ( 해석 기준 : 가르키는 대상 )
      
- 기존에 공개된 도구들이 존재하면 이용하는게 좋다. 혹시 원하는 작업이 없다면 직접 설계하여 추가하는 방법도 있다.  

- 예시
    - NLTK : 영어 코퍼스를 토큰화 하기 위한 도구
    ```python
    import nltk
    nltk.download('punkt') # 처음 하시는 분은 실행해 놔야합니다.
    ```

In [5]:
from nltk.tokenize import word_tokenize # 도구 토큰화1
from nltk.tokenize import WordPunctTokenizer # 도구 토큰화2
from tensorflow.keras.preprocessing.text import text_to_word_sequence # 도구 토큰화3

In [8]:
print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [9]:
print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [10]:
print('단어 토큰화3 :',text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- 관찰
    - word_tokenize는 Don't를 Do와 n't로 분리하였으며, 반면 Jone's는 Jone과 's로 분리한 것을 확인
    - WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 가지고 있어 Don't를 Don과 '와 t로 분리, Jone's를 Jone과 '와 s로 분리한 것을 확인
    - text_to_word_sequence(케라스 도구) 에서는 모든 영문을 소문자로 바꾸고 마침표나 컴마, 느낌표 등의 구두점을 제거하지만 단어내에 있는 Don't와 jone's와 같은 경우 아포스트로피는 존재한다.


### _ 3. 토큰화에서 고려해야할 사항  

- 어떻게 해결해야 할지는 정해진 것이 아니라 본인의 목적에 따라 결정해야한다.

1. 구두점이나 특수 문자를 단순 제외해서는 안 된다.  
2. 줄임말과 단어 내에 띄어쓰기가 있는 경우.

- 표준 토큰화 예제  
    Penn Treebank Tokenization의 규칙에 대해서 소개
    - 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
    - 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.

In [4]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

print(text)
print()
print('트리뱅크 워드토크나이저\n',tokenizer.tokenize(text))

Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own.

트리뱅크 워드토크나이저
 ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


- 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
    - 'home-based'
- 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.
    - 'does', "n't"

### _ 4. 문장 토큰화(Sentence Tokenization)  

- 보통 정제되지 않은 코퍼스 내에서 문장 단위로 구분할 때 사용된다.
- 어떻게 구분할까?
    - 특수문자(., ?, !, 등) 으로 구분한다면?
        - 문장의 끝이 아닌 경우도 많다. ex) aaa@naver.com, ph.D, i'm
        - 따라서 특수문자로만 구분하는 것은 어려운 일이다.

- 제공하는 도구
    - NLTK : 영어 문장의 토큰화 pip install NLTK
    - KSS : 한국어 문장의 토큰화 pip install KSS



In [5]:
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [6]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [11]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 즉, 이제. 해보면 알걸요?'
print('한국어 문장 토큰화 :',kss.split_sentences(text))

한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '즉, 이제. 해보면 알걸요?']


- 관찰
    - 문장 토큰화1 : \["Finally,", "about,"\] 처럼 쉼표를 문장구분으로 인정하지 않는다.
    - 문장 토큰화2 ; \["ph.D.", "ph.D"\] 처럼 온점(.)을 문장구분으로 인정하지 않는다.
    - KSS : \["즉, 이제. 해보면 알걸요?"\] 위 두개 처럼 쓰임은 다르지만 올바르게 구분해주는 것을 볼 수 있다.

### _ 5. 한국어에서의 토큰화의 어려움

- 영어는 웬만하면 띄어쓰기를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동한다. (예외도 있다.) 
- 한국어의 경우에는 띄어쓰기를 기준으로 하는 것은 "어절 토큰화"는 단어 단위가 아닌 경우가 많아서 사용하기 어렵다.
- 한국어는 교착어 : 조사, 어미 등을 붙여서 말을 만드는 언어를 말합니다.

#### __ 5-1) 교착어의 특성
- 한국어는 어절이 독립적인 단어로 구성되는 것이 아니라 조사 등의 무언가가 붙어있는 경우가 많아서 이를 전부 분리해줘야 한다는 의미
- 형태소 : 뜻을 가진 가장 작은 말의 단위를 말합니다. 
    - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
    - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.

- 예시 : 에디가 책을 읽었다 => ['에디가', '책을', '읽었다']
- 자립 형태소 : 에디, 책
- 의존 형태소 : -가, -을, 읽-, -었, -다

- 결론 : 한국어에서는 어절 토큰화보다는 형태소 토큰화를 수행하는게 더 의미있다.

#### __ 5-2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.
- 한국어의 경우 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있는 언어라는 점
- 예시 
    - EX1) 제가이렇게띄어쓰기를전혀하지않고글을썼다고하더라도글을이해할수있습니다.
    - EX2) Tobeornottobethatisthequestion
- 한국어(모아쓰기 방식)와 영어(풀어쓰기 방식)라는 언어적 특성의 차이에 기인
- 결론 : 한국어는 수많은 코퍼스에서 띄어쓰기가 무시되는 경우가 많아 자연어 처리가 어려워졌다는 것입니다.

### _ 6. 품사 태깅(Part-of-speech tagging)

- 동음이의어 : 단어 표기는 같지만 단어의 의미가 다르다.
- 따라서 단어가 어떤 품사로 쓰였는지 구분한다.
- 품사 : 한 언어의 단어들을 그 의미, 형식, 기능에 따라 크게 분류한 것.

### _ 7. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습 
- NLTK에서는 Penn Treebank POS Tags라는 기준을 사용하여 품사를 태깅합니다.

In [4]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :',tokenized_sentence)
print('품사 태깅 :',pos_tag(tokenized_sentence))

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


- Penn Treebank POG Tags에서 PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사

- 한국어는 [KoNLPy(코엔엘파이)](https://konlpy.org/ko/latest/)라는 파이썬 패키지
    - Okt(Open Korea Text)
    - 메캅(Mecab)
    - 코모란(Komoran)
    - 한나눔(Hannanum)
    - 꼬꼬마(Kkma)

- 기본적인 명령어
    - morphs : 형태소 추출
    - pos : 품사 태깅(Part-of-speech tagging)
    - nouns : 명사 추출

In [12]:
from konlpy.tag import Okt
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from konlpy.tag import Hannanum

okt = Okt()
kkma = Kkma()
komoran = Komoran()
hannanum = Hannanum()

In [13]:
print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [4]:
print('꼬꼬마 형태소 분석 :',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [14]:
print('꼬꼬마 형태소 분석 :',komoran.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',komoran.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',komoran.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

꼬꼬마 형태소 분석 : ['열심히', '코', '딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가', '아', '보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코', 'NNG'), ('딩', 'MAG'), ('하', 'XSV'), ('ㄴ', 'ETM'), ('당신', 'NNP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKB'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가', 'VV'), ('아', 'EC'), ('보', 'VX'), ('아요', 'EC')]
꼬꼬마 명사 추출 : ['코', '당신', '연휴', '여행']


In [15]:
print('꼬꼬마 형태소 분석 :',hannanum.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',hannanum.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',hannanum.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에는', '여행', '을', '가', '아', '보', '아']
꼬꼬마 품사 태깅 : [('열심히', 'M'), ('코딩', 'N'), ('하', 'X'), ('ㄴ', 'E'), ('당신', 'N'), (',', 'S'), ('연휴', 'N'), ('에는', 'J'), ('여행', 'N'), ('을', 'J'), ('가', 'P'), ('아', 'E'), ('보', 'P'), ('아', 'E')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']


- Mecab은 실행하는데 추가 설치가 필요한 부분들이 있다. 전에 해본적이 있었는데 환경이 바뀌면서 다시 설치하려니 부딪히는 부분들이 있어 아직 해결하지 못했다.

```python
from konlpy.tag import Mecab
mecab = Mecab()
```


<p id="Cleaning_Normalization"></p>  


## 정제(Cleaning) and 정규화(Normalization)

[https://wikidocs.net/21693](https://wikidocs.net/21693)

- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

- 토큰화 : 코퍼스에서 용도에 맞게 토큰을 분류하는 작업
- 토큰화 작업 **전, 후**에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)하는 일이 항상 함께

- 결론적으로 정제와 정규화는 일종의 합의점을 찾기도 한다.

### _ 1. 규칙에 기반한 표기가 다른 단어들의 통합
- 직접 정한 규칙 적용
- 같은 의미를 같은 다른 표기를 하나의 단어로 표기하는 방법
- 예시 : US 와 USA는 같은 의미이므로 같은 표기로 나타내는게 좋다.

### _ 2. 대, 소문자 통합
- 영어권에서 사용하는 방법으로 대,소문자를 통합하여 단어의 개수를 줄이는 방법이다.
- 예외도 있다. 대문자의 의미가 있을 때인데, US와 us는 다른 뜻을 가지고 있다. 고유 이름은 대문자로 유지되는 것이 옳다.
- 만약 예외 사항에 대한 큰 고려가 없을 때는 전체 소문자로 바꾸는 것이 실용적일 수 있다.

### _ 3. 불필요한 단어의 제거
- 불필요한 단어는 자연어가 아닌 글자(특수 문자)도 있지만 분석하는 목적에 맞지 않은 불필요한 데이터도 말한다.

#### __ 3-1) 등장 빈도가 적은 단어
- 텍스트 데이터에서 너무 적게 등장해서 자연어 처리에 도움이 되지 않는 단어들이 존재한다. 스팸 메일 분류에서 전체 데이터에 5번 정도 나온 단어는 분류하는데 도움이 될 가능성이 적다. (물론 확실히 스팸 또는 정상 메일인지 알 수 있는 단어일수도 있다.)

#### __ 3-2) 길이가 짧은 단어
- 영어권과 한국어는 언어의 특징에 따라 다른 관점이 존재한다.
- 영어권
    - 길이가 짧은 단어는 대부분 불용어에 해당되므로 의미없는 단어들을 제거하는데 효과를 볼 수 있다.
    - 구두점들까지도 한꺼번에 제거할 수 있다.
- 한국어
    - 영어권에 상대적으로 한국어는 한 단어에 대한 글자수는 

<p id="Stemming_Lemmatization"></p>  


## 어간 추출(Stemming) and 표제어 추출(Lemmatization)

[https://wikidocs.net/21707](https://wikidocs.net/21707)

<p id="Stopword"></p>  


## 불용어(Stopword)

[https://wikidocs.net/22530](https://wikidocs.net/22530)

<p id="Regular_Expression"></p>  


## 정규 표현식(Regular Expression)

[https://wikidocs.net/21703](https://wikidocs.net/22530)

<p id="Integer_Encoding"></p>  


## 정수 인코딩(Integer Encoding)

[https://wikidocs.net/31766](https://wikidocs.net/31766)

<p id="Padding"></p>  


## 패딩(Padding)

[https://wikidocs.net/83544](https://wikidocs.net/83544)

<p id="One-Hot_Encoding"></p>  


## 원-핫 인코딩(One-Hot Encoding)

[https://wikidocs.net/22647](https://wikidocs.net/22647)

<p id="Splitting_Data"></p>  


## 데이터의 분리(Splitting Data)

[https://wikidocs.net/33274](https://wikidocs.net/33274)

<p id="Text_Preprocessing_Tools_for_Korean_Text"></p>  


## 한국어 전처리 패키지(Text Preprocessing Tools for Korean Text)

[https://wikidocs.net/92961(https://wikidocs.net/92961)