# 텍스트 전처리
1. 특수 문자 처리 등 간단한 전처리
2. 문장 교정
2. POS tag 활용하기
3. 불용어 제거

In [3]:
# 구글 드라이브 마운트
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# 한국어 토큰화를 위해 konlpy를 설치합니다
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip3 install konlpy

In [6]:
# 라이브러리 로드
import pandas as pd
import re
from konlpy.tag import Komoran

## 01 간단한 전처리

In [141]:
# 데이터 오픈
train_path = "/content/drive/MyDrive/05_강의자료/210719_SDS/nsmc_train.csv"
test_path = "/content/drive/MyDrive/05_강의자료/210719_SDS/nsmc_test.csv"

In [192]:
train = pd.read_csv(train_path)
test = pd.read_csv(test_path)

In [193]:
train.head(5)

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [194]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        150000 non-null  int64 
 1   document  149995 non-null  object
 2   label     150000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.4+ MB


In [195]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        50000 non-null  int64 
 1   document  49997 non-null  object
 2   label     50000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.1+ MB


In [196]:
train = train.dropna().loc[:100]
test = test.dropna()

#### 본격적인 전처리를 하겠습니다.
1. 특수 문자 제거
2. 숫자 제거
3. 공백 제거

In [197]:
# 예시 문장입니다
review = " 으아아~~~ 너무 재미있느 ㄴㄴㄴㄴ 영화였다*^_^*,,,,,별점 9999"

In [198]:
# 특수 문자만 제거하겠습니다
re.sub(r'[@%\\*=()/~#&\+á?\xc3\xa1\-\|\.\:\;\!\-\,\_\~\$\'\"\^]', '', review)

' 으아아 너무 재미있느 ㄴㄴㄴㄴ 영화였다별점 9999'

In [199]:
# 한글, 영어, 숫자빼고 다 제거하겠습니다
temp = re.sub('[^가-힣a-zA-Z0-9\s]', '', review)
re.sub(r'\s+', ' ', temp)

' 으아아 너무 재미있느 영화였다별점 9999'

In [151]:
# 숫자도 제거해볼까요?
re.sub(r'\d+', '', review)

' 으아아~~~ 너무 재미있느 ㄴㄴㄴㄴ 영화였다*^_^*,,,,,별점 '

In [200]:
# 특수 문자를 제거하는 파이프라인을 만들겠습니다.
def remove_punct(documents):
    cleaned_sents = []
    for sentence in documents:
        # 한글, 영어, 숫자빼고 제거
        sentence = re.sub('[^가-힣a-zA-Z0-9\s]', '', str(sentence))
        # 2개 이상의 공백 제거
        sentence = re.sub(r'\s+', ' ', sentence)
        # 시작이 공백인 경우 제거
        sentence = re.sub(r'^\s+', '', sentence)
        # 마지막이 공백인 경우 제거
        sentence = re.sub(r'\s+$', '', sentence)
        cleaned_sents.append(sentence)
    return cleaned_sents

In [201]:
train['document'] = remove_punct(train['document'])

In [202]:
train.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙 진짜 짜증나네요 목소리,0
1,3819312,흠포스터보고 초딩영화줄오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 솔직히 재미는 없다평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화스파이더맨에서 늙어보이기만 했던 커스틴 던...,1


## 02 띄어쓰기 교정

In [None]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [204]:
from pykospacing import Spacing

In [205]:
spacing = Spacing()

In [206]:
sent = train.loc[2, 'document']
print(sent)

너무재밓었다그래서보는것을추천한다


In [207]:
spacing.get_spaced_sent(sent)

'너무 재밓었다 그래서 보는 것을 추천한다 '

In [210]:
def space_check(documents):
    checked_sentences = []
    for sentence in documents:
        checked_sentences.append(spacing.get_spaced_sent(sentence))
    return checked_sentences

In [211]:
train['document'] = space_check(train['document'])

In [212]:
train.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙 진짜 짜증나네요 목소리,0
1,3819312,흠포스터 보고 초딩 영화 줄오버 연기조차 가볍지 않구나,1
2,10265843,너무 재밓었다 그래서 보는 것을 추천한다,0
3,9045019,교도소 이야기구먼 솔직히 재미는 없다 평점 조정,0
4,6483659,사이몬 페그의 익살스런 연기가 돋보였던 영화 스파이더맨에서 늙어 보이기만 했던 커스...,1


## 02 POS tag 활용하기

In [213]:
# Komoran 객체 정의
komoran = Komoran()

In [214]:
review = train['document'][0]

In [215]:
review

'아 더빙 진짜 짜증나네요 목소리 '

In [216]:
komoran.pos(review)

[('아', 'IC'),
 ('더빙', 'NNP'),
 ('진짜', 'MAG'),
 ('짜증', 'NNG'),
 ('나', 'VV'),
 ('네요', 'EC'),
 ('목소리', 'NNG')]

한글 형태소 품사를 참고하여 중요 품사만 필터링하겠습니다.  
http://kkma.snu.ac.kr/documents/?doc=postag

In [217]:
significant_tags = ['NNG', 'NNP', 'NNB', 'VV', 'VA', 'VX', 'MAG', 'MAJ', 'XSV', 'XSA']

In [218]:
def pos_filtering(documents):
    '''
    입력 문장: 더빙 진짜 짜증나네요 목소리 
    출력 문장: 더빙/NNP 진짜/MAG 짜증/NNG 나/VV 목소리/NNG
    '''
    filtered_docu = []
    for sent in documents:
        filtered_sent = ""
        for token, tag in komoran.pos(sent):
            filtered_sent += token + '/' + tag + ' '
        filtered_docu.append(filtered_sent.strip())
    return filtered_docu

In [219]:
train['document'] = pos_filtering(train['document'])

In [220]:
train.head()

Unnamed: 0,id,document,label
0,9976970,아/IC 더빙/NNP 진짜/MAG 짜증/NNG 나/VV 네요/EC 목소리/NNG,0
1,3819312,흠/NNG 포스터/NNP 보/VV 고/EC 초딩/NNP 영화/NNG 줄/NNB 오버...,1
2,10265843,너무/MAG 재밓었다/NA 그래서/MAJ 보/VV 는/ETM 것/NNB 을/JKO ...,0
3,9045019,교도소/NNP 이야기/NNG 이/VCP 구먼/EC 솔직히/MAG 재미/NNG 는/J...,0
4,6483659,사이몬/NNP 페그의/NA 익살/NNG 스럽/XSA ㄴ/ETM 연기/NNG 가/JK...,1


In [221]:
def pos_filtering(documents):
    '''
    입력 문장: 더빙 진짜 짜증나네요 목소리 
    출력 문장: 더빙/NNP 진짜/MAG 짜증/NNG 나/VV 목소리/NNG
    '''
    filtered_docu = []
    for sent in documents:
        filtered_sent = ""
        for token, tag in komoran.pos(sent):
            if tag in significant_tags:
                filtered_sent += token + '/' + tag + ' '
        filtered_docu.append(filtered_sent.strip())
    return filtered_docu

In [222]:
train['document'] = pos_filtering(train['document'])

In [223]:
train.head()

Unnamed: 0,id,document,label
0,9976970,IC/NNP 더빙/NNP 진짜/NNG 짜증/NNP VV/NNP 요/NNP EC/NN...,0
1,3819312,포스터/NNP 보/NNG VV/NNP 고/NNG EC/NNP 초딩/NNP 영화/NN...,1
2,10265843,너무/MAG 그래서/MAJ 보/NNG VV/NNP 것/NNB 을/NNG 추천/NNG...,0
3,9045019,교도소/NNP 이야기/NNG 이/NNP EC/NNP 솔직히/MAG 재미/NNP JX...,0
4,6483659,사이몬/NNP 익살/NNG 연기/NNG 가/VV 돋보이/VV VV/NNP 덜/VV ...,1


## 03 Stopwords
* 이미 POS tag를 활용하는 단계에서 조사같은 불용어가 삭제되었습니다.
* 하지만, 각 도메인에서의 불용어 집합이 다를 수 있기 때문에, 추가적으로 불용어를 정의해서 삭제하는 방법을 알아봅니다.

In [224]:
# 불용어 정의
stopwords = ['흠/NNG', '좀/MAG', '수/NNB', '등/NNB', '데/NNB']

In [226]:
def remove_stopwords(documents):
    removed_sentences = []
    for sent in documents:
        modi_sent = []
        for word in sent.split(' '):
            if word not in stopwords:
                modi_sent.append(word)
        removed_sentences.append(' '.join(modi_sent))
    return removed_sentences

In [227]:
removed_stopwords_corpus = remove_stopwords(train['document'])

In [228]:
removed_stopwords_corpus[:5]

['IC/NNP 더빙/NNP 진짜/NNG 짜증/NNP VV/NNP 요/NNP EC/NNP 목소리/NNG',
 '포스터/NNP 보/NNG VV/NNP 고/NNG EC/NNP 초딩/NNP 영화/NNG 줄/NNB 오버/NNP 연기/NNG 조차/NNP JX/NNP 지/NNG EC/NNP 않/VV VX/NNP 굴/VV EC/NNP',
 '너무/MAG 그래서/MAJ 보/NNG VV/NNP 것/NNB 을/NNG 추천/NNG 하/NNG EC/NNP',
 '교도소/NNP 이야기/NNG 이/NNP EC/NNP 솔직히/MAG 재미/NNP JX/NNP 없/VV VA/NNP 다/MAG EC/NNP 평점/NNG 조정/NNG',
 '사이몬/NNP 익살/NNG 연기/NNG 가/VV 돋보이/VV VV/NNP 덜/VV 영화/NNG 스파이더맨/NNP 늙/VV VV/NNP EC/NNP 보이/NNP VV/NNP 기/NNG ETN/NNP JX/NNP 하/NNG VV/NNP 덜/VV 커스틴 던스트/NNP 가/VV 너무나/MAG 도/NNG JX/NNP 이/NNP MM/NNP']

## 04 전처리 파이프라인 만들기

In [243]:
# 특수 문자를 제거하는 파이프라인을 만들겠습니다.
def remove_punct(documents):
    cleaned_sents = []
    for sentence in documents:
        # 한글, 영어, 숫자빼고 제거
        sentence = re.sub('[^가-힣a-zA-Z0-9\s]', '', str(sentence))
        # 2개 이상의 공백 제거
        sentence = re.sub(r'\s+', ' ', sentence)
        # 시작이 공백인 경우 제거
        sentence = re.sub(r'^\s+', '', sentence)
        # 마지막이 공백인 경우 제거
        sentence = re.sub(r'\s+$', '', sentence)
        cleaned_sents.append(sentence)
    return cleaned_sents

def space_check(documents):
    checked_sentences = []
    for sentence in documents:
        checked_sentences.append(spacing.get_spaced_sent(sentence))
    return checked_sentences


def pos_filtering(documents):
    '''
    입력 문장: 더빙 진짜 짜증나네요 목소리 
    출력 문장: 더빙/NNP 진짜/MAG 짜증/NNG 나/VV 목소리/NNG
    '''
    filtered_docu = []
    for sent in documents:
        filtered_sent = ""
        for token, tag in komoran.pos(sent):
            if tag in significant_tags:
                filtered_sent += token + ' '
                # filtered_sent += token + '/' + tag + ' '
        filtered_docu.append(filtered_sent.strip())
    return filtered_docu

def remove_stopwords(documents):
    removed_sentences = []
    for sent in documents:
        modi_sent = []
        for word in sent.split(' '):
            if word not in stopwords:
                modi_sent.append(word)
        removed_sentences.append(' '.join(modi_sent))
    return removed_sentences


In [235]:
train = pd.read_csv(train_path)
tes = pd.read_csv(test_path)

train = train.dropna().loc[:100]
test = test.dropna()

In [241]:
def preprocessing(df):
    '''
    입력: DataFrame의 document column
    출력: 전처리된 리스트 (cleaned_corpus)
    '''
    cleaned_corpus = remove_punct(df)
    print(cleaned_corpus)
    cleaned_corpus = space_check(cleaned_corpus)
    print(cleaned_corpus)
    cleaned_corpus = pos_filtering(cleaned_corpus)
    print(cleaned_corpus)
    cleaned_corpus = remove_stopwords(cleaned_corpus)
    print(cleaned_corpus)
    return cleaned_corpus

In [237]:
train_cleaned_document = preprocessing(train['document'])

In [238]:
train_cleaned_document[:5]

['더빙 진짜 짜증 나 목소리',
 '흠 포스터 보 초딩 영화 줄 오버 연기 가볍 않',
 '너무 그래서 보 것 추천 하',
 '교도소 이야기 솔직히 재미 없 평점 조정',
 '사이몬 익살 스럽 연기 돋보이 영화 스파이더맨 늙 보이 하 커스틴 던스트 너무나']

In [245]:
review = [" 으아아~~~ 흠좀너무재미있는ㄴㄴㄴㄴ영화였다*^_^*,,,,,별점9999"]

In [246]:
preprocessing(review)

['으아아 흠좀너무재미있는영화였다별점9999']
['으아 아 흠 좀 너무 재미있는 영화였다 별점 9999 ']
['흠/NNG 좀/MAG 너무/MAG 재미있/VA 영화/NNG 별점/NNG']
['너무/MAG 재미있/VA 영화/NNG 별점/NNG']


['너무/MAG 재미있/VA 영화/NNG 별점/NNG']