# HW5: Pre-tokenization


*   본 실습에서는 자연어 처리 데이터 전처리 과정에 필요한 다양한 module 을 사용해봅니다.


> Reference: https://wikidocs.net/21703




### Regular Expression

In [None]:
import re

. 기호

In [None]:
# 임의의 한 개의 문자를 나타내는 . 
r = re.compile("a.c")
r.search("ab")

In [None]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

? 기호

In [None]:
# ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우
r = re.compile("a?c")
r.search("bc")

In [None]:
# 존재 하는 경우의 매칭
r.search("ac")

In [None]:
# 존재하지 않는 경우의 매칭
r.search("abc")

\* 기호

In [None]:
# * 은 바로 앞의 문자가 0개 이상일 경우를 나타냄.
r = re.compile("ab*c") # b 가 하나도 없거나, 여러 개인 경우
r.search("a")

In [None]:
r.search("ac")

In [None]:
r.search("abc")

In [None]:
r.search("abbbbc")

\+ 기호

In [None]:
# + 앞의 문자가 최소 1개 이상 있어야 함. 
r = re.compile("ab+c")
r.search("ac")

In [None]:
r.search("abc")

In [None]:
r.search("abbbc")

^ 기호

In [None]:
# ^ 시작되는 글자를 지정함. 
r = re.compile("^a")
r.search("bbc")

In [None]:
r.search("ab")

{숫자} 기호

In [None]:
# 앞 문자를 해당 숫자만큼 반복해야 함.
r = re.compile("ab{2}c")
r.search("ac")

In [None]:
r.search("abc")

In [None]:
r.search("abbc")

{숫자1, 숫자2} 기호

In [None]:
# 앞 문자를 숫자1 이상 숫자2 이하 만큼 반복해야 함.
r = re.compile("ab{2,8}c")
r.search("ac")

In [None]:
r.search("abc")

In [None]:
r.search("abbc")

In [None]:
r.search("abbbbbbbbc")

In [None]:
r.search("abbbbbbbbbc")

{숫자,} 기호

In [None]:
# 앞 문자를 숫자 이상 만큼 반복해야 함.
r = re.compile("a{2,}bc")
r.search("abc")

In [None]:
r.search("aabc")

[ ] 기호

In [None]:
# [] 안에 있는 문자들 중 한 개의 문자와 매치
# 범위를 지정할 수도 있음. 예) a-z, A-Z, 0-9
r = re.compile('[abc]')
r.search("dd")

In [None]:
r.search("ad")

In [None]:
r.search("adb")

[^문자] 기호

In [None]:
# ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치함.
r = re.compile("[^abc]") # abc 제외 모든 문자
r.search("ab")

In [None]:
r.search("abcd")

### KoNLPy

In [None]:
!pip install konlpy

한나눔(Hannanum)

In [None]:
from konlpy.tag import Hannanum
hannanum = Hannanum()
text = '환영합니다! 자연어 처리 수업은 재미있게 듣고 계신가요?'
print(hannanum.morphs(text))  # Parse phrase to morphemes
print(hannanum.nouns(text))   # Noun extractors
print(hannanum.pos(text))     # POS tagger

In [None]:
from konlpy.tag import Kkma
kkma = Kkma()
text = '환영합니다! 자연어 처리 수업은 재미있게 듣고 계신가요?'
print(kkma.morphs(text))  # Parse phrase to morphemes
print(kkma.nouns(text))   # Noun extractors
print(kkma.pos(text))     # POS tagger

### Khaiii

In [None]:
!git clone https://github.com/kakao/khaiii.git
!pip install cmake
!mkdir build
!cd build && cmake /content/khaiii
!cd /content/build/ && make all
!cd /content/build/ && make resource
!cd /content/build && make install
!cd /content/build && make package_python
!pip install /content/build/package_python

In [None]:
from khaiii import KhaiiiApi
khaiiApi = KhaiiiApi()

In [None]:
tokenized = khaiiApi.analyze('구름 자연어 처리 전문가 양성 과정 1기에 오신 여러분을 환영합니다!')
tokens = []
for word in tokenized:
    tokens.extend([str(m).split('/')[0] for m in word.morphs])

print(tokens)

### PyKoSpacing

In [None]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [None]:
sent = '구름 자연어 처리 전문가 양성 과정 1기에 오신 여러분을 환영합니다!'

In [None]:
new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)

In [None]:
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent) 

print('띄어쓰기가 없는 문장 :\n', new_sent) 
print('정답 문장:\n', sent) 
print('띄어쓰기 교정 후:\n', kospacing_sent)

### Py-Hanspell

In [None]:
!pip install git+https://github.com/ssut/py-hanspell.git

In [None]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)


### Crawling

네이버 영화 감상평을 크롤링하고 정제해봅시다.
Crawling 파트 강의를 들으면서 함께 실습을 진행하시면 됩니다.

In [None]:
from urllib.request import urlopen # 웹서버에 접근 모듈 
from bs4 import BeautifulSoup # 웹페이지 내용구조 분석 모듈

In [None]:
url='https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=187348&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page=1'
html=urlopen(url)
html_source = BeautifulSoup(html,'html.parser',from_encoding='utf-8') # 댓글 페이지를 utf-8형식으로 html 소스가져오기

In [None]:
print(html_source)

댓글 부분에 해당하는 요소를 확인하고 내용을 추출합니다.

In [None]:
# 첫 번째 리뷰
html_reviews = html_source.find('span',{'id': '_filtered_ment_0'}) 
print(html_reviews)

In [None]:
# 10명 리뷰 확인
for i in range(10):
    html_reviews = html_source.find('span',{'id': '_filtered_ment_'+str(i)}) 
    print(html_reviews)

In [None]:
# 10명 리뷰 확인, 불필요한 HTML 태그 제거하기
for i in range(10):
    html_reviews = html_source.find('span',{'id': '_filtered_ment_'+str(i)}) 
    print(html_reviews.text.strip())

In [None]:
# 10 페이지에 대해 댓글 수집
from urllib.request import urlopen # 웹서버에 접근 모듈 
from bs4 import BeautifulSoup # 웹페이지 내용구조 분석 모듈

reviews_list = []
for j in range(1, 11):
    url='https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=187348&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page='+str(j)
    html=urlopen(url)
    html_source = BeautifulSoup(html,'html.parser',from_encoding='utf-8') # 댓글 페이지를 utf-8형식으로 html 소스가져오기

    for i in range(10):
        html_reviews = html_source.find('span',{'id': '_filtered_ment_'+str(i)}) 
        reviews_list.append(html_reviews.text.strip())

file = open('reviews.txt', 'w', encoding='utf-8')
for review in reviews_list: # 요소를 1개의 행으로 저장되도록 개행문자 추가
    file.write(review + '\n') # 개행 문자 추가 --> Enter, 줄바꿈 효과 
file.close()

크롤링한 데이터 전처리

In [None]:
with open('reviews.txt', 'r', encoding='utf-8') as f:
    review_data = f.readlines()

f.close()

In [None]:
len(review_data)

In [None]:
review_data

한글만 남기고 다른 글자 제거

In [None]:
import re

tmp = re.sub('[^ 가-힣]', '', review_data[8])
print(tmp)

In [None]:
tmp = re.sub(' +', ' ', tmp)
print(tmp)

In [None]:
from pykospacing import Spacing

spacing = Spacing()
kospacing_sent = spacing(tmp) 

print(kospacing_sent)

In [None]:
from hanspell import spell_checker

spelled_sent = spell_checker.check(tmp)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)