# HW5: Pre-tokenization


*   본 실습에서는 자연어 처리 데이터 전처리 과정에 필요한 다양한 module 을 사용해봅니다.


> Reference: https://wikidocs.net/21703




### Regular Expression

In [1]:
import re

. 기호

In [2]:
# 임의의 한 개의 문자를 나타내는 . 
r = re.compile("a.c")
r.search("ab")

In [3]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

? 기호

In [4]:
# ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우
r = re.compile("a?c")
r.search("bc")

<re.Match object; span=(1, 2), match='c'>

In [5]:
# 존재 하는 경우의 매칭
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [6]:
# 존재하지 않는 경우의 매칭
r.search("abc")

<re.Match object; span=(2, 3), match='c'>

\* 기호

In [7]:
# * 은 바로 앞의 문자가 0개 이상일 경우를 나타냄.
r = re.compile("ab*c") # b 가 하나도 없거나, 여러 개인 경우
r.search("a")

In [8]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [9]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [10]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

\+ 기호

In [11]:
# + 앞의 문자가 최소 1개 이상 있어야 함. 
r = re.compile("ab+c")
r.search("ac")

In [12]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [13]:
r.search("abbbc")

<re.Match object; span=(0, 5), match='abbbc'>

^ 기호

In [14]:
# ^ 시작되는 글자를 지정함. 
r = re.compile("^a")
r.search("bbc")

In [15]:
r.search("ab")

<re.Match object; span=(0, 1), match='a'>

{숫자} 기호

In [16]:
# 앞 문자를 해당 숫자만큼 반복해야 함.
r = re.compile("ab{2}c")
r.search("ac")

In [17]:
r.search("abc")

In [18]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

{숫자1, 숫자2} 기호

In [19]:
# 앞 문자를 숫자1 이상 숫자2 이하 만큼 반복해야 함.
r = re.compile("ab{2,8}c")
r.search("ac")

In [20]:
r.search("abc")

In [22]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [23]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [24]:
r.search("abbbbbbbbbc")

{숫자,} 기호

In [25]:
# 앞 문자를 숫자 이상 만큼 반복해야 함.
r = re.compile("a{2,}bc")
r.search("abc")

In [26]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

[ ] 기호

In [27]:
# [] 안에 있는 문자들 중 한 개의 문자와 매치
# 범위를 지정할 수도 있음. 예) a-z, A-Z, 0-9
r = re.compile('[abc]')
r.search("dd")

In [28]:
r.search("ad")

<re.Match object; span=(0, 1), match='a'>

In [29]:
r.search("adb")

<re.Match object; span=(0, 1), match='a'>

[^문자] 기호

In [30]:
# ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치함.
r = re.compile("[^abc]") # abc 제외 모든 문자
r.search("ab")

In [31]:
r.search("abcd")

<re.Match object; span=(3, 4), match='d'>

### KoNLPy

In [32]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.4 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 42.9 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


한나눔(Hannanum)

In [33]:
from konlpy.tag import Hannanum
hannanum = Hannanum()
text = '환영합니다! 자연어 처리 수업은 재미있게 듣고 계신가요?'
print(hannanum.morphs(text))  # Parse phrase to morphemes
print(hannanum.nouns(text))   # Noun extractors
print(hannanum.pos(text))     # POS tagger

['환영', '하', 'ㅂ니다', '!', '자연어', '처리', '수업', '은', '재미있', '게', '듣', '고', '계시', 'ㄴ가', '요', '?']
['환영', '자연어', '처리', '수업']
[('환영', 'N'), ('하', 'X'), ('ㅂ니다', 'E'), ('!', 'S'), ('자연어', 'N'), ('처리', 'N'), ('수업', 'N'), ('은', 'J'), ('재미있', 'P'), ('게', 'E'), ('듣', 'P'), ('고', 'E'), ('계시', 'P'), ('ㄴ가', 'E'), ('요', 'J'), ('?', 'S')]


In [34]:
from konlpy.tag import Kkma
kkma = Kkma()
text = '환영합니다! 자연어 처리 수업은 재미있게 듣고 계신가요?'
print(kkma.morphs(text))  # Parse phrase to morphemes
print(kkma.nouns(text))   # Noun extractors
print(kkma.pos(text))     # POS tagger

['환영', '하', 'ㅂ니다', '!', '자연어', '처리', '수업', '은', '재미있', '게', '듣', '고', '계시', 'ㄴ가요', '?']
['환영', '자연어', '처리', '수업']
[('환영', 'NNG'), ('하', 'XSV'), ('ㅂ니다', 'EFN'), ('!', 'SF'), ('자연어', 'NNG'), ('처리', 'NNG'), ('수업', 'NNG'), ('은', 'JX'), ('재미있', 'VA'), ('게', 'ECD'), ('듣', 'VV'), ('고', 'ECE'), ('계시', 'VXA'), ('ㄴ가요', 'EFQ'), ('?', 'SF')]


### Khaiii

In [35]:
!git clone https://github.com/kakao/khaiii.git
!pip install cmake
!mkdir build
!cd build && cmake /content/khaiii
!cd /content/build/ && make all
!cd /content/build/ && make resource
!cd /content/build && make install
!cd /content/build && make package_python
!pip install /content/build/package_python

Cloning into 'khaiii'...
remote: Enumerating objects: 1024, done.[K
remote: Counting objects: 100% (8/8), done.[K
remote: Compressing objects: 100% (8/8), done.[K
remote: Total 1024 (delta 3), reused 0 (delta 0), pack-reused 1016[K
Receiving objects: 100% (1024/1024), 33.03 MiB | 20.97 MiB/s, done.
Resolving deltas: 100% (436/436), done.
-- [hunter] Initializing Hunter workspace (70287b1ffa810ee4e952052a9adff9b4856d0d54)
-- [hunter]   https://github.com/ruslo/hunter/archive/v0.23.34.tar.gz
-- [hunter]   -> /root/.hunter/_Base/Download/Hunter/0.23.34/70287b1
-- The C compiler identification is GNU 7.5.0
-- The CXX compiler identification is GNU 7.5.0
-- Check for working C compiler: /usr/bin/cc
-- Check for working C compiler: /usr/bin/cc -- works
-- Detecting C compiler ABI info
-- Detecting C compiler ABI info - done
-- Detecting C compile features
-- Detecting C compile features - done
-- Check for working CXX compiler: /usr/bin/c++
-- Check for working CXX compiler: /usr/bin/c++

In [36]:
from khaiii import KhaiiiApi
khaiiApi = KhaiiiApi()

In [38]:
tokenized = khaiiApi.analyze('구름 자연어 처리 전문가 양성 과정 1기에 오신 여러분을 환영합니다!')
tokens = []
for word in tokenized:
    print(f"word: {word}")
    tokens.extend([str(m).split('/')[0] for m in word.morphs])

print(tokens)

word: 구름	구름/NNG
word: 자연어	자연어/NNG
word: 처리	처리/NNG
word: 전문가	전문가/NNG
word: 양성	양성/NNG
word: 과정	과정/NNG
word: 1기에	1/SN + 기/NNG + 에/JKB
word: 오신	오/VV + 시/EP + ㄴ/ETM
word: 여러분을	여러분/NP + 을/JKO
word: 환영합니다!	환영/NNG + 하/XSV + ㅂ니다/EF + !/SF
['구름', '자연어', '처리', '전문가', '양성', '과정', '1', '기', '에', '오', '시', 'ㄴ', '여러분', '을', '환영', '하', 'ㅂ니다', '!']


### PyKoSpacing

In [1]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-4ubsc4m6
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-4ubsc4m6
Collecting tensorflow==2.5.3
  Downloading tensorflow-2.5.3-cp37-cp37m-manylinux2010_x86_64.whl (460.3 MB)
[K     |████████████████████████████████| 460.3 MB 7.6 kB/s 
Collecting argparse>=1.4.0
  Downloading argparse-1.4.0-py2.py3-none-any.whl (23 kB)
Collecting tensorflow-estimator<2.6.0,>=2.5.0
  Downloading tensorflow_estimator-2.5.0-py2.py3-none-any.whl (462 kB)
[K     |████████████████████████████████| 462 kB 68.5 MB/s 
Collecting wrapt~=1.12.1
  Downloading wrapt-1.12.1.tar.gz (27 kB)
Collecting keras-nightly~=2.5.0.dev
  Downloading keras_nightly-2.5.0.dev2021032900-py2.py3-none-any.whl (1.2 MB)
[K     |████████████████████████████████| 1.2 MB 45.0 MB/s 
[?25hCollecting absl-py~=0.10
  Downloading absl_py-0.15.0-py3-none-any.

In [1]:
sent = '구름 자연어 처리 전문가 양성 과정 1기에 오신 여러분을 환영합니다!'

In [2]:
new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)

구름자연어처리전문가양성과정1기에오신여러분을환영합니다!


In [3]:
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent) 

print('띄어쓰기가 없는 문장 :\n', new_sent) 
print('정답 문장:\n', sent) 
print('띄어쓰기 교정 후:\n', kospacing_sent)

띄어쓰기가 없는 문장 :
 구름자연어처리전문가양성과정1기에오신여러분을환영합니다!
정답 문장:
 구름 자연어 처리 전문가 양성 과정 1기에 오신 여러분을 환영합니다!
띄어쓰기 교정 후:
 구름자연어 처리 전문가 양성과정 1기에 오신 여러분을 환영합니다!


### Py-Hanspell

In [13]:
!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-5o2qa4zy
  Running command git clone -q https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-5o2qa4zy
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25l[?25hdone
  Created wheel for py-hanspell: filename=py_hanspell-1.1-py3-none-any.whl size=4868 sha256=7f8ba5a2f6f3006e7d6e035f6ce83c35bca024f4d50b8e341f5c53b845b2d34d
  Stored in directory: /tmp/pip-ephem-wheel-cache-8unwe81o/wheels/ab/f5/7b/d4124bb329c905301baed80e2ae45aa14e824f62ebc3ec2cc4
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1


In [7]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지



### Crawling

네이버 영화 감상평을 크롤링하고 정제해봅시다.
Crawling 파트 강의를 들으면서 함께 실습을 진행하시면 됩니다.

In [4]:
from urllib.request import urlopen # 웹서버에 접근 모듈 
from bs4 import BeautifulSoup # 웹페이지 내용구조 분석 모듈

In [9]:
url='https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=187348&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page=1'
html=urlopen(url)
html_source = BeautifulSoup(html,'html.parser',from_encoding='utf-8') # 댓글 페이지를 utf-8형식으로 html 소스가져오기

In [10]:
print(html_source)


<!DOCTYPE html>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<title>네이버 영화</title>
<link href="https://ssl.pstatic.net/static/m/movie/icons/naver_movie_favicon.ico" rel="shortcut icon" type="image/x-icon"/>
<link href="/css/common.css?20220127220412" rel="stylesheet" type="text/css">
<link href="/css/movie_tablet.css?20220127220412" rel="stylesheet" type="text/css"/>
<link href="/css/movie_end.css?20220127220412" rel="stylesheet" type="text/css"/>
<script src="/js/deploy/movie.all.js?20220127220412" type="text/javascript"></script>
</link></head>
<body>
<!-- content -->
<input id="movieCode" name="movieCode" type="hidden" value="187348"/>
<input id="onlyActualPointYn" name="onlyActualPointYn" type="hidden" value="N"/>
<input id="includeSpoilerYn" name="includeSpoilerYn" type="hidden" value="N"/>
<input id="order" name="order" type="hidden" value="sympathyScore"/>
<input id="page" name="page" type="hidden" value="1"/>
<div clas

댓글 부분에 해당하는 요소를 확인하고 내용을 추출합니다.

In [11]:
# 첫 번째 리뷰
html_reviews = html_source.find('span',{'id': '_filtered_ment_0'}) 
print(html_reviews)

<span id="_filtered_ment_0">
														
															
															
																명품 브랜드라 믿고 샀는데 안에 made in china가 적혀있었다 
															
														
														
													</span>


In [12]:
# 10명 리뷰 확인
for i in range(10):
    html_reviews = html_source.find('span',{'id': '_filtered_ment_'+str(i)}) 
    print(html_reviews)

<span id="_filtered_ment_0">
														
															
															
																명품 브랜드라 믿고 샀는데 안에 made in china가 적혀있었다 
															
														
														
													</span>
<span id="_filtered_ment_1">
<span class="_unfold_ment" id="_unfold_ment1">
<a data-src="자세히 보면 중국 문화 올려치는 영화입니다. 초반부터 똥양계는 무조건 한국인 취급하는데 우리는 당당히 중국인이다. ㅇㅈㄹ하고요. 깊고 정통한 중국 문화는 대를 이어서 간다. 마카오에서 K-POP 댄스 추는 거 보고 무조건 힙하지? 우리 중국 문화야 ㅋ 구미호, 기린, 용은 우리 문화다. 사람 죽으면 물에 연등 띄우는 거? 우리 중국 문화다. 동북공정 영화입니다. 영화는 자세히 보세요. 의도가 있습니다. " href="javascript:void(0);" onclick="unfoldPointMent(this);">
																		자세히 보면 중국 문화 올려치는 영화입니다. 초반부터 똥양계는 무조건 한국인 취급하는데 우리는 당당히 중국인이다. ㅇㅈㄹ하고요. 깊고 정통한 중국 문화는 대를 이어서 간다. 마카오에서 K-POP 댄스 추는 거 보고 ...
																	</a>
</span>
</span>
<span id="_filtered_ment_2">
														
															
															
																마블의 중국산 D-War 
															
														
														
													</span>
<span id="_filtered_ment_3">
<span class="_unfold_

In [13]:
# 10명 리뷰 확인, 불필요한 HTML 태그 제거하기
for i in range(10):
    html_reviews = html_source.find('span',{'id': '_filtered_ment_'+str(i)}) 
    print(html_reviews.text.strip())

명품 브랜드라 믿고 샀는데 안에 made in china가 적혀있었다
자세히 보면 중국 문화 올려치는 영화입니다. 초반부터 똥양계는 무조건 한국인 취급하는데 우리는 당당히 중국인이다. ㅇㅈㄹ하고요. 깊고 정통한 중국 문화는 대를 이어서 간다. 마카오에서 K-POP 댄스 추는 거 보고 ...
마블의 중국산 D-War
세계관이나 설정들이 너무 붕 떠있고 개연성은 밥말아 먹어놓고 억지 신파 끼워넣기에 주인공은 무색무취 아무 매력 없음. 10초전 까지 죽일듯이 싸우던 애들이 갑자기 우리 함께 싸우자 ㅇㅈㄹ 하질 않나. 아부지 행동들 ...
마블의 탈을 쓴 중국 무협영화. 중국 시장과 자본을 지나치게 의식한 디즈니의 연이은 헛발질. CG 범벅에 협소한 공간에서 몇 안되는 인원들의 액션 등 스케일마저 왜 이리 작아진 건지...
하 정말 재미없네요..
마블 영화를 본 건지 중국 영화를 본 건지 모르겠지만 양조위는 너무 멋있더라....
마블의 새로운 시작이다… 재밌어요
아부지를 왜케 미워하는거지 훈련빡시케 시켰다고 그러는건가아부지를 죽인댔다가 갑자기 필요하다하고 개연성이 좀 부족..텐링즈의 전설이란 제목도 뭐 굳이...
마블영화보면서 처음으로 졸았습니다 ㅜㅜ


In [5]:
# 10 페이지에 대해 댓글 수집
from urllib.request import urlopen # 웹서버에 접근 모듈 
from bs4 import BeautifulSoup # 웹페이지 내용구조 분석 모듈

reviews_list = []
for j in range(1, 11):
    url='https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=187348&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page='+str(j)
    html=urlopen(url)
    html_source = BeautifulSoup(html,'html.parser',from_encoding='utf-8') # 댓글 페이지를 utf-8형식으로 html 소스가져오기

    for i in range(10):
        html_reviews = html_source.find('span',{'id': '_filtered_ment_'+str(i)}) 
        reviews_list.append(html_reviews.text.strip())

file = open('reviews.txt', 'w', encoding='utf-8')
for review in reviews_list: # 요소를 1개의 행으로 저장되도록 개행문자 추가
    file.write(review + '\n') # 개행 문자 추가 --> Enter, 줄바꿈 효과 
file.close()

크롤링한 데이터 전처리

In [6]:
with open('reviews.txt', 'r', encoding='utf-8') as f:
    review_data = f.readlines()

f.close()

In [7]:
len(review_data)

100

In [8]:
review_data

['명품 브랜드라 믿고 샀는데 안에 made in china가 적혀있었다\n',
 '자세히 보면 중국 문화 올려치는 영화입니다. 초반부터 똥양계는 무조건 한국인 취급하는데 우리는 당당히 중국인이다. ㅇㅈㄹ하고요. 깊고 정통한 중국 문화는 대를 이어서 간다. 마카오에서 K-POP 댄스 추는 거 보고 ...\n',
 '마블의 중국산 D-War\n',
 '세계관이나 설정들이 너무 붕 떠있고 개연성은 밥말아 먹어놓고 억지 신파 끼워넣기에 주인공은 무색무취 아무 매력 없음. 10초전 까지 죽일듯이 싸우던 애들이 갑자기 우리 함께 싸우자 ㅇㅈㄹ 하질 않나. 아부지 행동들 ...\n',
 '마블의 탈을 쓴 중국 무협영화. 중국 시장과 자본을 지나치게 의식한 디즈니의 연이은 헛발질. CG 범벅에 협소한 공간에서 몇 안되는 인원들의 액션 등 스케일마저 왜 이리 작아진 건지...\n',
 '하 정말 재미없네요..\n',
 '마블 영화를 본 건지 중국 영화를 본 건지 모르겠지만 양조위는 너무 멋있더라....\n',
 '마블의 새로운 시작이다… 재밌어요\n',
 '아부지를 왜케 미워하는거지 훈련빡시케 시켰다고 그러는건가아부지를 죽인댔다가 갑자기 필요하다하고 개연성이 좀 부족..텐링즈의 전설이란 제목도 뭐 굳이...\n',
 '마블영화보면서 처음으로 졸았습니다 ㅜㅜ\n',
 '일라오이 VS 사일러스\n',
 '진짜 개노잼이다 와 이렇게 재미없는 마블영화도 첨\n',
 '마블 영화라 믿기지 않을 정도로 지루해.. 졸려 죽는 줄 알았다ㅠ\n',
 '노잼, 개연성 제로, 중국산 웹툰 느낌\n',
 '보는내내ㅠ드는 생각....왜 총안씀...?\n',
 '전형적인 서양에서 생각하는 온갖 동양 클리셰는 몽따 넣은 영화 .. 보면서 불편\n',
 '자기 어머니를 죽인 집단을, 다시 복수하는건데, 그걸 굳이 아버지를 미워하게 되는 관점이 좀 웃기긴함. 훈련과정속에서는 딱히 미워할요소가 없는데. 그리고 젤 황당했던게, 천년간 텐링즈끼고 잘 살아왔는데 난데없이 싸우...\n',
 '솔직히 샹치 캐릭터

한글만 남기고 다른 글자 제거

In [9]:
import re

tmp = re.sub('[^ 가-힣]', '', review_data[8])
print(tmp)

아부지를 왜케 미워하는거지 훈련빡시케 시켰다고 그러는건가아부지를 죽인댔다가 갑자기 필요하다하고 개연성이 좀 부족텐링즈의 전설이란 제목도 뭐 굳이


In [10]:
tmp = re.sub(' +', ' ', tmp)
print(tmp)

아부지를 왜케 미워하는거지 훈련빡시케 시켰다고 그러는건가아부지를 죽인댔다가 갑자기 필요하다하고 개연성이 좀 부족텐링즈의 전설이란 제목도 뭐 굳이


In [11]:
from pykospacing import Spacing

spacing = Spacing()
kospacing_sent = spacing(tmp) 

print(kospacing_sent)

아부지를 왜 케 미워하는 거지 훈련 빡시 케 시켰다고 그러는 건가 아부지를 죽인 댔다가 갑자기 필요하다 하고 개연성이 좀 부족 텐링즈의 전설이란 제목도 뭐 굳이


In [14]:
from hanspell import spell_checker

spelled_sent = spell_checker.check(tmp)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

아버지를 왜 이렇게 미워하는 거지 훈련빡시케 시켰다고 그러는 건가 아버지를 죽인댔다가 갑자기 필요하다 하고 개연성이 좀 부족텐링즈의 전설이란 제목도 뭐 굳이
