## 텍스트 전처리 개념

### 자연어 처리
  * 준비 단계: 자연어로 쓰여진 글을 전처리
  * 변환 단계: 전처리된 결과를 컴퓨터가 다루고 이해할 수 있는 형태로 변환
  * 분석 단계: 변환된 형태를 이용하여 다양한 분석을 수행하는 단계

#### 전처리 단계
  * 텍스트 전처리(Text Preprocessing): 
    - 정제(cleaning): 주어진 텍스트에서 노이즈와 같이 불필요한 부분을 제거
      * 노이즈 제거는 보통 토큰화 전에 이루어지지만 토큰화 후에도 필요한 경우 정제가 지속적으로 이루어짐
    - 토큰화(tokenization): 주어진 텍스트를 원하는 단위(토큰, token)로 나누는 작업
      * 원하는 단위가 문장인 경우: 문장 토큰화(sentence tokenization)
      * 원하는 단위가 단어인 경우: 단어 토큰화(word tokenization)
      * 보통 단어 토큰화를 통칭하는 표현으로 사용됨
    - 정규화: 같은 의미를 가진 동일한 단어임에도 불구, 다른 형태로 쓰인 단어를 통일시켜 표준 단어로 만드는 작업
      * e.g. 'go'는 3인칭 단수형에서 'goes'로 사용되는데, 여기서 'go'와 'goes'는 같은 단어로 봐야할 때가 있음
      * go의 다양한 변형(3인칭 단수, 과거형, 과거분사형 등)을 원형의 형태로 통일하는 작업
      * 정규화 방법: 어간 추출, 표제어 추출(lemmatization)
    - 품사 태깅: 토큰화한 단어에 대하여 품사를 파악해 부착하는 것

### 토큰화

In [1]:
import nltk

nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\YWIS\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     C:\Users\YWIS\AppData\Roaming\nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\YWIS\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\YWIS\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\YWIS\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

#### 문장 토큰화

In [2]:
from nltk.tokenize import sent_tokenize

para = 'Hello everyone. It\'s good to see you. Let\'s start our text mining class!'

# 주어진 텍스트를 문장 단위로 토큰화함. 주로 ". ! ?" 등을 이용함
print(sent_tokenize(para))

['Hello everyone.', "It's good to see you.", "Let's start our text mining class!"]


In [3]:
# 프랑스어 사용 예
import nltk.data

paragraph_french = """Je t'ai demand si tu m'aimais bien, Tu m'a r pondu non.
Je t'ai demand si j' tais jolie, Tu m'a r pondu non.
Je t'ai demand si j' tai dans ton coeur, Tu m'a r pondu non.
"""

tokenizer = nltk.data.load('tokenizers/punkt/french.pickle')
print(tokenizer.tokenize(paragraph_french))

["Je t'ai demand si tu m'aimais bien, Tu m'a r pondu non.", "Je t'ai demand si j' tais jolie, Tu m'a r pondu non.", "Je t'ai demand si j' tai dans ton coeur, Tu m'a r pondu non."]


In [4]:
# 한국어
para_korean = '안녕하세요, 여러분. 만나서 반갑습니다. 이제 텍스트마이닝 클래스를 시작해봅시다!'

print(sent_tokenize(para_korean))

['안녕하세요, 여러분.', '만나서 반갑습니다.', '이제 텍스트마이닝 클래스를 시작해봅시다!']


#### 단어 토큰화

In [5]:
from nltk.tokenize import word_tokenize

print(word_tokenize(para))

"""
여기서는 It's와 Let's에서 's가 붙어서 출력
"""

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']


"\n여기서는 It's와 Let's에서 's가 붙어서 출력\n"

In [6]:
from nltk.tokenize import WordPunctTokenizer

print(WordPunctTokenizer().tokenize(para))

"""
여기서는 It's와 Let's에서 '와 s가 분리되어 출력됨
"""

['Hello', 'everyone', '.', 'It', "'", 's', 'good', 'to', 'see', 'you', '.', 'Let', "'", 's', 'start', 'our', 'text', 'mining', 'class', '!']


"\n여기서는 It's와 Let's에서 '와 s가 분리되어 출력됨\n"

In [7]:
print(WordPunctTokenizer().tokenize(para_korean))

['안녕하세요', ',', '여러분', '.', '만나서', '반갑습니다', '.', '이제', '텍스트마이닝', '클래스를', '시작해봅시다', '!']


#### 정규표현식을 이용한 토큰화

In [8]:
import re

re.findall('[abc]', 'How are you, boy?')
# [abc] 와 같이 쓰면 a, b, c 중 하나라도 일치하는 문자들을 가져옴

['a', 'b']

In [9]:
re.findall('[0123456789]', '3a7b5c9d')

['3', '7', '5', '9']

In [10]:
re.findall('[\w]', '3a 7b_ \'.^&5c9d')
# [\w] 는 [a-zA-Z0-9_] 와 같은 표현

['3', 'a', '7', 'b', '_', '5', 'c', '9', 'd']

In [11]:
re.findall('[_]+', 'a_b, c__d, e___f')

# + 는 한 번 이상의 반복을 나타냄

['_', '__', '___']

In [13]:
re.findall('[\w]+', 'How are you, boy?')

['How', 'are', 'you', 'boy']

In [14]:
re.findall('[o]{2,4}', 'oh, hoow are yoooou, boooooooy?')

# {}을 이용하여 반복 횟수 지정

['oo', 'oooo', 'oooo', 'ooo']

In [15]:
from nltk.tokenize import RegexpTokenizer

# regular expression(정규식)을 이용한 tokenizer
# 단어 단위로 tokenize \w: 문자나 숫자를 의미. 다시 말해 문자나 숫자 또는 '가 반복되는 것을 찾음
tokenizer = RegexpTokenizer('[\w\']+')

# can't 를 하나의 단어로 인식
print(tokenizer.tokenize('Sorry, I can\'t go there.'))

['Sorry', 'I', "can't", 'go', 'there']


In [16]:
tokenizer = RegexpTokenizer('[\w]+')
print(tokenizer.tokenize('Sorry, I can\'t go there.'))
# 여기서는 can't를 can과 t로 나누어 인식

['Sorry', 'I', 'can', 't', 'go', 'there']


In [17]:
text1 = 'Sorry, I can\'t go there.'
tokenizer = RegexpTokenizer('[\w\']{3,}')
print(tokenizer.tokenize(text1.lower()))

['sorry', "can't", 'there']


#### 노이즈와 불용어 제거

In [18]:
from nltk.corpus import stopwords

english_stops = set(stopwords.words('english'))

text1 = 'Sorry, I couldn\'t go to movie yesterday.'

tokenizer = RegexpTokenizer('[\w\']+')
tokens = tokenizer.tokenize(text1.lower()) # word_tokenize로 토큰화

# stopwords(불용어) 제외한 어휘만으로 list 생성
results = [word for word in tokens if word not in english_stops]

print(results)


['sorry', 'go', 'movie', 'yesterday']


In [19]:
# nltk 제공 stopwords

print(english_stops)

{"wasn't", 'there', 'them', 'until', 'him', "doesn't", 'he', 'own', 'yourselves', 'themselves', 'where', 'being', 'had', 'more', 'ours', 'herself', 'no', 'these', 'any', "isn't", 'after', "you're", "aren't", 'mustn', 'our', 'yourself', "wouldn't", 'above', 'that', 'doesn', 'how', "she's", 'off', 'once', 're', 'at', 'here', 'not', 'does', 'am', 'for', 'a', 'was', 'is', 'itself', 'both', 'into', 'wouldn', "needn't", 'below', 'o', 'weren', 'or', 'didn', 'by', 'are', 'myself', 'with', 'hasn', 'their', 'needn', "you've", "mightn't", 'too', 'because', "haven't", 'all', "didn't", 'y', 'against', 'now', 'me', 'under', 'did', 'out', 'your', 'been', 'i', 'some', 'hers', 'what', 'which', 'doing', 'her', 'just', 'when', 'were', "hadn't", 'isn', 'in', 'having', "hasn't", 'than', 'up', "won't", 'himself', 'ain', 'the', 'from', 'it', 'while', 'm', 'has', 'few', 't', 'be', "shouldn't", 'don', 'ourselves', 'an', 'you', 'down', 'if', 'shan', 'as', 'can', 'those', 'very', 'over', 'further', "weren't", 'd