In [None]:
# 토큰화(tokenization): 문서를 토큰(token)이라 불리는 단위로 나누는 작업
# 정제(cleaning): 불필요한 단어 또는 문자를 제거
# 정규화(normalization): 같은 의미이면서 표현이 다른 단어를 통합

### 1. 토큰화(Tokenization)


```
토큰의 기준:
- 보통 단어(word)를 기준, 이외에도 문자(철자) 또는 구(phase)
- 문장(sentence), 단락(paragraph) 등을 기준으로 할 수 있음
```

#### 1) 단어기준 토큰나이징

In [2]:
import nltk
nltk.download('punkt')  # Error: Resource punkt not found. 
from nltk.tokenize import word_tokenize

text="Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text."
word_tokenize(text) # 공백기준으로 나누는 듯

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\heo\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


['Text',
 'mining',
 ',',
 'also',
 'referred',
 'to',
 'as',
 'text',
 'data',
 'mining',
 ',',
 'similar',
 'to',
 'text',
 'analytics',
 ',',
 'is',
 'the',
 'process',
 'of',
 'deriving',
 'high-quality',
 'information',
 'from',
 'text',
 '.']

#### 2) 문장기준 토큰나이징

In [3]:
from nltk.tokenize import sent_tokenize

text="""It involves the discovery by computer of new, previously unknown information, by automatically extracting information from different written resources. 
Written resources may include websites, books, emails, reviews, and articles. 
High-quality information is typically obtained by devising patterns and trends by means such as statistical pattern learning. 
According to Hotho et al. (2005) we can differ three different perspectives of text mining: information extraction, data mining, and a KDD (Knowledge Discovery in Databases) process."""
sent_tokenize(text) # 줄바꿈 기준으로 나누는 듯

['It involves the discovery by computer of new, previously unknown information, by automatically extracting information from different written resources.',
 'Written resources may include websites, books, emails, reviews, and articles.',
 'High-quality information is typically obtained by devising patterns and trends by means such as statistical pattern learning.',
 'According to Hotho et al.',
 '(2005) we can differ three different perspectives of text mining: information extraction, data mining, and a KDD (Knowledge Discovery in Databases) process.']

#### 3) 한글 토큰나이징

In [4]:
from konlpy.tag import Okt  

s = "텍스트 분석을 위해서 파이썬을 이용합니다. 한글 문장에서 단어를 추출하는 패키지는 konlpy입니다."
okt=Okt()  
okt.morphs(s) # 형태소까지 나눠줌

['텍스트',
 '분석',
 '을',
 '위해',
 '서',
 '파이썬',
 '을',
 '이용',
 '합니다',
 '.',
 '한글',
 '문장',
 '에서',
 '단어',
 '를',
 '추출',
 '하는',
 '패키지',
 '는',
 'konlpy',
 '입니다',
 '.']

### 2. 정제(Cleaning) / 정규화(Normalization)

In [None]:
# 규칙기반 통합 : "US", "USA", "United States", …
# 대, 소문자 통합 : "Automobile” = “automobile”
# 불필요 단어 제거: 출현빈도가 작은 단어 또는 길이가 짧은 단어

#### 1) 텍스트 정규화
- ```replace(a, aaa)``` : a를 aaa로 변환

In [5]:
sentence = 'I visited US from UK on 22-10-18'
normalized_sentence = sentence.replace("US", "United State").replace("UK", "United Kingdom").replace("-18","-2018")
print(normalized_sentence)

I visited United State from United Kingdom on 22-10-2018


#### 2) 불용어, 불필요 단어 제거
- 불용어 제거 : 문장의 의미에 영향을 미치지 않는 불필요한 용어를 제거하는 작업 ex) a, am, the

In [7]:
import nltk
nltk.download('stopwords')

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop_words = stopwords.words('english')  #영어 stopword, 한국어 지원 안됨
print(stop_words[:10])

sentence = ' I am learning Python. It is one of the most popular programming language.'
word_tokens = word_tokenize(sentence)

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result) 

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]
['I', 'am', 'learning', 'Python', '.', 'It', 'is', 'one', 'of', 'the', 'most', 'popular', 'programming', 'language', '.']
['I', 'learning', 'Python', '.', 'It', 'one', 'popular', 'programming', 'language', '.']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\heo\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


In [None]:
# 한국어 불용어는 지원하지 않으므로 리스트 가져와 따로 작업해야 함
# https://bab2min.tistory.com/544

#### 3) 철자 수정

In [8]:
# 철자 오류 예 : Procesing, insightes

In [10]:
# pip install autocorrect
from autocorrect import Speller # 필요 패키지 로드

spell = Speller()
sentence = "Natral Language Procesing deals with the art of extracting insightes from Natural Languages."

spell(sentence)

'Natural Language Processing deals with the art of extracting insights from Natural Languages.'

In [17]:
# 한국어 맞춤법 검사기1
# https://hleecaster.com/speller-cs-pusan-ac-kr/

import requests
import json
# 1. 텍스트 준비 & 개행문자 처리
# with open('text.txt', 'r', encoding='utf-8') as f:
#     text = f.read()
# text = text.replace('\n', '\r\n')
text = "텍스트 분석을 위해서 파이썬을 리용합니다. 한글 문장에서 단어를 추출하능 패키지는 konlpy입니다."


# 2. 맞춤법 검사 요청 (requests)
response = requests.post('http://164.125.7.61/speller/results', data={'text1': text})

# 3. 응답에서 필요한 내용 추출 (html 파싱)
data = response.text.split('data = [', 1)[-1].rsplit('];', 1)[0]

# 4. 파이썬 딕셔너리 형식으로 변환
data = json.loads(data)

# 5. 교정 내용 출력
for err in data['errInfo']:
    print(f"입력 내용 : {err['orgStr']}")
    print(f"대치어 : {err['candWord']}")
    print(f"도움말 : {err['help']}")
    print("\n")


입력 내용 : 파이썬을
대치어 : 파이선을
도움말 : 외래어 표기법 오류(일반)입니다. 대치어를 보고 바르게 쓰십시오.


입력 내용 : 리용합니다
대치어 : 이용합니다|리룡합니다
도움말 : 입력 오류입니다.


입력 내용 : 추출하능
대치어 : 추출하는
도움말 : 어미의 사용이 잘못되었습니다. 문서 작성시 필요에 의해 잘못된 어미를 제시하는 상황이 아니라면 검사기의 대치어로 바꾸도록 합니다.


입력 내용 : konlpy입니다
대치어 : 
도움말 : 철자 검사를 해 보니 이 어절은 분석할 수 없으므로 틀린 말로 판단하였습니다.<br/><br/>후보 어절은 이 철자검사/교정기에서 띄어쓰기, 붙여 쓰기, 음절대치와 같은 교정방법에 따라 수정한 결과입니다.<br/><br/>후보 어절 중 선택하시거나 오류 어절을 수정하여 주십시오.<br/><br/>* 단, 사전에 없는 단어이거나 사용자가 올바르다고 판단한 어절에 대해서는 통과하세요!!




#### 4) 어간추출 (Stemming), 표제어(기본형) 추출 (Lemmatization)
- 어간 추출: 단어의 의미를 담고 있는 단어의 핵심 부분을 추출

In [14]:
import nltk
from nltk.stem import PorterStemmer, LancasterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
text="working works worked happier happiest"
words=word_tokenize(text)

for w in words :
    print(ps.stem(w))

work
work
work
happier
happiest


In [15]:
ls = LancasterStemmer()
text="working works worked happier happiest"
words=word_tokenize(text)

for w in words :
    print(ls.stem(w))

work
work
work
happy
happiest


- 표제어 추출 : 일반적으로 어간추출보다 더 정확히 어근 단어를 찾아주기 때문에 시간이 더 오래 걸리며, 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있음

In [25]:
nltk.download('wordnet')
from nltk.stem.wordnet import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
text="working works worked happier happiest"
words=word_tokenize(text)

for w in words :
    print(lemmatizer.lemmatize(w, 'v')) # v : 동사

print('--------------')    
    
for w in words :
    print(lemmatizer.lemmatize(w, 'a')) # a : 형용사    

work
work
work
happier
happiest
--------------
working
works
worked
happy
happy


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\heo\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


### 3. 한국어 전처리
- Py-Hanspell

In [27]:
# 한국어 맞춤법 검사기2 
# https://github.com/ssut/py-hanspell
# pip install git+https://github.com/ssut/py-hanspell.git

# Error : JSONDecodeError
# https://github.com/ssut/py-hanspell/issues/31

from hanspell import spell_checker

sent = '안녕 하세요. 저는 한국인 입니다. 이문장은 한글로 작성됬습니다.'
result = spell_checker.check(sent)
result.as_dict()  # dict로 출력

{'result': True,
 'original': '안녕 하세요. 저는 한국인 입니다. 이문장은 한글로 작성됬습니다.',
 'checked': '안녕하세요. 저는 한국인입니다. 이 문장은 한글로 작성됐습니다.',
 'errors': 4,
 'words': OrderedDict([('<em', 0),
              ("class='green_text'>안녕하세요.</em>", 0),
              ('저는', 0),
              ("class='green_text'>한국인입니다.</em>", 0),
              ("class='green_text'>이", 0),
              ('문장은</em>', 0),
              ('한글로', 0),
              ("class='red_text'>작성됐습니다.</em>", 0)]),
 'time': 0.10454583168029785}