In [10]:
import MeCab
import pandas as pd
import numpy as np

mecab = MeCab.Tagger()

In [11]:
import re

def mecab_nouns(text):
    nouns = []
    
    # 우리가 원하는 TOKEN\tPOS의 형태를 추출하는 정규표현식.
    pattern = re.compile('.*\t[A-Z]+')
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정.
    temp = [tuple(pattern.match(token).group(0).split('\t')) for token in mecab.parse(text).splitlines()[:-1]]    
        
    # 추출한 token중에 POS가 명사 분류에 속하는 토큰만 선택.
    for token in temp:
        if re.match('N[A-Z]+', token[1]):
            nouns.append(token[0])
    return nouns

def mecab_morphs(text):
    morphs = []
    
    # 우리가 원하는 TOKEN\tPOS의 형태를 추출하는 정규표현식.
    pattern = re.compile(".*\t[A-Z]+")
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정.
    temp = [tuple(pattern.match(token).group(0).split("\t")) for token in mecab.parse(text).splitlines()[:-1]] 
    
    # 추출한 token중에 문자열만 선택.
    for token in temp:
        morphs.append(token[0])
    
    return morphs

def mecab_morphs_to_string(text):
    morphs = ""
    # 우리가 원하는 TOKEN\tPOS의 형태를 추출하는 정규표현식.
    pattern = re.compile(".*\t[A-Z]+")
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정.
    temp = [tuple(pattern.match(token).group(0).split("\t")) for token in mecab.parse(text).splitlines()[:-1]] 

    # 추출한 token중에 문자열만 선택.
    for token in temp:
        morphs += token[0]
        morphs += ' '
    return morphs

def mecab_pos(text):
    pos = []
    
    # 우리가 원하는 TOKEN\tPOS의 형태를 추출하는 정규표현식.
    # re()보다 re.compile()로 해서 미리 컴파일해두면 속도가 더 빠름
    pattern = re.compile(".*\t[A-Z]+") # 토큰이름, 탭, 품사종류
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정.
    # group(0) -> 생성된 객체에서 스트링만 뽑아줌
    pos = [tuple(pattern.match(token).group(0).split("\t")) for token in mecab.parse(text).splitlines()[:-1]]
    
    return pos

In [12]:
aa = "아빠가 방에 들어가신다 사과는 맛있다 나는 배가고프다"

mecab_morphs_to_string(aa)

'아빠 가 방 에 들어가 신다 사과 는 맛있 다 나 는 배 가 고프 다 '

### .TSV 파일 읽고 쓰기 참고
https://swlock.blogspot.com/2018/12/python-tsv.html

In [13]:
dataset = pd.read_csv("review.sorted.uniq.refined.tsv", delimiter='\t', header=None)

In [14]:
dataset.head()

Unnamed: 0,0,1
0,negative,!
1,negative,! 다녹아서 왓어요 .. 짜증
2,negative,!!!!!!!!!!!!!
3,negative,!!!!이게뭐야?진짜이게뭐야?리뷰보고구매했는데!나원참!
4,negative,싼 게 비지떡.200ml라고 판매하는데 내가 보기엔 절대 이거 100ml도 안된다....


In [15]:
dataset[1] = dataset[1].apply(mecab_morphs_to_string)

In [16]:
dataset

Unnamed: 0,0,1
0,negative,!
1,negative,! 다 녹 아서 왓 어요 . . 짜증
2,negative,!!!!!!!!!!!!!
3,negative,!!!! 이게 뭐 야 ? 진짜 이게 뭐 야 ? 리뷰 보고 구매 했 는데 ! 나원참 !
4,negative,싼 게 비지떡 . 200 ml 라고 판매 하 는데 내 가 보 기 엔 절대 이거 10...
...,...,...
302673,positive,만족 이 에요 ㅇㅇ ㅇㅇ ㅇㅇ ㅇㅇ ㅇㅇ ㅇㅇ ㅇㅇ ㅇㅇ ㅇㅇ ㅇㅇ ㅇㅇ ㅇㅇ ㅇㅇ...
302674,positive,좋 아요 좋 아요 좋 아요 좋 아요 좋 아요 좋 아요 좋 아요 좋 아요 좋 아요 좋...
302675,positive,굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 굿 ...
302676,positive,무 좋 습니다 너무 좋 습니다 너무 좋 습니다 너무 좋 습니다 너무 좋 습니다 너무...


In [29]:
dataset.to_csv('review.sorted.uniq.refined.tok.tsv', index=False, header=None, sep="\t")