### Mecab 기본 사용법

In [1]:
from ekonlpy.tag import Mecab

In [2]:
Mecab = Mecab()

sentence = '데이콘에서 다양한 컴피티션을 즐기면서 실력있는 데이터 분석가로 성장하세요!!.'

print("형태소 단위로 문장 분리")
print("----------------------")
print(Mecab.morphs(sentence))
print(" ")
print("문장에서 명사 추출")
print("----------------------")
print(Mecab.nouns(sentence))
print(" ")
print("품사 태깅(PoS)")
print("----------------------")
print(Mecab.pos(sentence))

형태소 단위로 문장 분리
----------------------
['데', '이콘', '에서', '다양', '한', '컴', '피티', '션', '을', '즐기', '면서', '실력', '있', '는', '데이터', '분석가', '로', '성장', '하', '세요', '!', '!.']
 
문장에서 명사 추출
----------------------
['다양', '피티', '션', '실력', '데이터', '분석가', '성장']
 
품사 태깅(PoS)
----------------------
[('데', 'MAJ'), ('이콘', 'NNP'), ('에서', 'JKB'), ('다양', 'NNG'), ('한', 'XSA'), ('컴', 'NNP'), ('피티', 'NNG'), ('션', 'NNG'), ('을', 'JKO'), ('즐기', 'VV'), ('면서', 'EC'), ('실력', 'NNG'), ('있', 'VV'), ('는', 'ETM'), ('데이터', 'NNG'), ('분석가', 'NNG'), ('로', 'JKB'), ('성장', 'NNG'), ('하', 'XSV'), ('세요', 'EP'), ('!', 'SF'), ('!.', 'SY')]


[('데', 'MAJ'), ('이콘', 'NNP'), ('에서', 'JKB'), ('다양', 'XR'), ('한', 'XSA+ETM'), ('컴', 'NNP'), ('피티', 'NNG'), ('션', 'NNG'), ('을', 'JKO'), ('즐기', 'VV'), ('면서', 'EC'), ('실력', 'NNG'), ('있', 'VV'), ('는', 'ETM'), ('데이터', 'NNG'), ('분석가', 'NNG'), ('로', 'JKB'), ('성장', 'NNG'), ('하', 'XSV'), ('세요', 'EP+EF'), ('!', 'SF'), ('!.', 'SY')]

### 경로 설정

In [1]:
import os
os.getcwd()

'/Users/daniel/Desktop/Dacon - NH competition/Submission/Code'

In [2]:
os.chdir('/Users/daniel/Desktop/Dacon - NH competition/Data')

### 불용어 설정

In [5]:
import pandas as pd

stopwords_ls = pd.read_csv('한국어불용어.txt', sep = '\t', header = None)
stopwords = list(stopwords_ls[0].values) + ['null']

### 1. Text Preprocessing

In [1]:
from ekonlpy.tag import Mecab

In [6]:
# train용

import pandas as pd
import re
from ekonlpy.tag import Mecab

train = pd.read_csv('news_train.csv')

def text_preprocessing(text_list, stopwords_list):
    tokenizer = Mecab()   # 형태소 분석기
    token_list = []
    token_list_str = []

    for text in text_list:
        txt = re.sub('[^가-힣a-z]', ' ', text.lower())    # 한글과 영어 알파벳 전부만 남기고 다른 글자 모두 제거
        token = tokenizer.morphs(txt)                    # 형태소 분석
        token = [t for t in token if t not in stopwords_list]   # 형태소 분석 결과 중 stopwords에 해당하지 않는 것만 추출
        token_str = ' '.join(token)                      # 띄어쓰기로 구분된 문자열
        token_list.append(token)                         # 형태소 분석된 토큰이 리스트 안에 담겨있는 형태
        token_list_str.append(token_str)

    return token_list, token_list_str, tokenizer

# 형태소 분석기를 따로 저장한 이유는 후에 test 데이터 전처리를 진행할 때 이용해야하므로
train['new_article'], train['text'], Mecab = text_preprocessing(train['content'], stopwords)

In [7]:
train.head()

Unnamed: 0,n_id,date,title,content,ord,info,new_article,text
0,NEWS02580,20200605,[마감]코스닥 기관 678억 순매도,[이데일리 MARKETPOINT]15:32 현재 코스닥 기관 678억 순매도,1,0,"[이데일리, marketpoint, 현재, 코스닥, 기관, 억, 순매도]",이데일리 marketpoint 현재 코스닥 기관 억 순매도
1,NEWS02580,20200605,[마감]코스닥 기관 678억 순매도,"""실적기반"" 저가에 매집해야 할 8월 급등유망주 TOP 5 전격공개",2,1,"[실적, 기반, 저가, 매집, 해야, 할, 급등, 유망주, top, 전격, 공개]",실적 기반 저가 매집 해야 할 급등 유망주 top 전격 공개
2,NEWS02580,20200605,[마감]코스닥 기관 678억 순매도,"하이스탁론, 선취수수료 없는 월 0.4% 최저금리 상품 출시",3,1,"[하이스, 탁론, 선취, 수수료, 최저, 금리, 상품, 출시]",하이스 탁론 선취 수수료 최저 금리 상품 출시
3,NEWS02580,20200605,[마감]코스닥 기관 678억 순매도,종합 경제정보 미디어 이데일리 - 무단전재 & 재배포 금지,4,0,"[종합, 경제, 정보, 미디어, 이데일리, 무단, 전재, 재, 배포, 금지]",종합 경제 정보 미디어 이데일리 무단 전재 재 배포 금지
4,NEWS09727,20200626,"롯데·공영 등 7개 TV 홈쇼핑들, 동행세일 동참",전국적인 소비 붐 조성에 기여할 예정,1,0,"[전국, 인, 소비, 붐, 조성, 기여, 할, 예정]",전국 인 소비 붐 조성 기여 할 예정


In [8]:
# train.to_csv('news_train_preprocessing_Mecab_12.24.csv', index=False)

In [9]:
# test용

import pandas as pd
import re

test = pd.read_csv('news_test.csv')

def text_preprocessing(text_list, pre_tokenizer, stopwords_list):
    tokenizer = pre_tokenizer   # 형태소 분석기
    token_list = []
    token_list_str = []

    for text in text_list:
        txt = re.sub('[^가-힣a-z]', ' ', text.lower())   # 한글과 영어 알파벳 전부만 남기고 다른 글자 모두 제거
        token = tokenizer.morphs(txt)                   # 형태소 분석
        token = [t for t in token if t not in stopwords_list]   # 형태소 분석 결과 중 stopwords에 해당하지 않는 것만 추출
        token_str = ' '.join(token)                     # 띄어쓰기로 구분된 문자열
        token_list.append(token)                        # 형태소 분석된 토큰이 리스트 안에 담겨있는 형태
        token_list_str.append(token_str)

    return token_list, token_list_str

# 형태소 분석기를 따로 저장한 이유는 후에 test 데이터 전처리를 진행할 때 이용해야하므로
test['new_article'], test['text'] = text_preprocessing(test['content'], Mecab, stopwords)

In [10]:
test.head()

Unnamed: 0,n_id,date,title,content,ord,id,new_article,text
0,NEWS00237,20200118,"[주목!e스몰캡]코세스, 마이크로LED 시장 개화 최대수혜 기대",마이크로 LED TV 장비 양산 돌입- 전방업체 투자 확대로 본업도 호조연일 '신고가',1,NEWS00237_1,"[마이크로led, tv, 장비, 양산, 돌입, 전방, 업체, 투자, 확대, 본업, ...",마이크로led tv 장비 양산 돌입 전방 업체 투자 확대 본업 호조 연일 신고
1,NEWS00237,20200118,"[주목!e스몰캡]코세스, 마이크로LED 시장 개화 최대수혜 기대",[이데일리 김대웅 기자] 반도체 장비 업체 코세스(089890)의 기술력이 마이크로...,2,NEWS00237_2,"[이데일리, 김대웅, 기자, 반도체장비, 업체, 코, 세스, 기술력, 마이크로, 발...",이데일리 김대웅 기자 반도체장비 업체 코 세스 기술력 마이크로 발광다이오드 led ...
2,NEWS00237,20200118,"[주목!e스몰캡]코세스, 마이크로LED 시장 개화 최대수혜 기대",최근 대형 업체들과 거래를 맺고 관련 장비들의 양산에 돌입하면서 주가도 연일 신고가...,3,NEWS00237_3,"[최근, 대형업체, 거래, 맺, 고, 관련, 장비, 양산, 돌입, 면서, 주가, 연...",최근 대형업체 거래 맺 고 관련 장비 양산 돌입 면서 주가 연일 신고가 달리 고
3,NEWS00237,20200118,"[주목!e스몰캡]코세스, 마이크로LED 시장 개화 최대수혜 기대",TV를 필두로 올해부터 마이크로 LED의 시대가 본격적으로 개화할 것으로 예상되면서...,4,NEWS00237_4,"[tv, 필두, 올해, 마이크로led, 시대, 본격, 화, 할, 예상, 면서, 수주...",tv 필두 올해 마이크로led 시대 본격 화 할 예상 면서 수주 더욱 늘어날 이란 ...
4,NEWS00237,20200118,"[주목!e스몰캡]코세스, 마이크로LED 시장 개화 최대수혜 기대","코세스는 반도체 장비를 제조, 판매하는 업체로 지난 2006년 11월 코스닥 시장에...",5,NEWS00237_5,"[코, 세스, 반도체장비, 제조, 판매, 업체, 지난, 코스닥, 시장, 상장, 했,...",코 세스 반도체장비 제조 판매 업체 지난 코스닥 시장 상장 했 고 창업주 인 박명순...


In [11]:
# test.to_csv('news_test_preprocessing_Mecab_12.24.csv', index=False)

### 2. Text Preprocessing with numbers

In [12]:
# train용

import pandas as pd
import re
from ekonlpy.tag import Mecab

train = pd.read_csv('news_train.csv')

def text_preprocessing(text_list):
    stopwords = ['을', '를', '이', '가', '은', '는', 'null']    # 불용어 설정
    tokenizer = Mecab()   # 형태소 분석기
    token_list = []
    token_list_str = []

    for text in text_list:
        txt = re.sub('[^가-힣a-zA-Z0-9]', ' ', text)      # 한글과 영어 알파벳 전부, 숫자만 남기고 다른 글자 모두 제거
        token = tokenizer.morphs(txt)                    # 형태소 분석
        token = [t for t in token if t not in stopwords]   # 형태소 분석 결과 중 stopwords에 해당하지 않는 것만 추출
        token_str = ' '.join(token)                      # 띄어쓰기로 구분된 문자열
        token_list.append(token)                         # 형태소 분석된 토큰이 리스트 안에 담겨있는 형태
        token_list_str.append(token_str)

    return token_list, token_list_str, tokenizer

# 형태소 분석기를 따로 저장한 이유는 후에 test 데이터 전처리를 진행할 때 이용해야하므로
train['new_article'], train['text'], Mecab = text_preprocessing(train['content'])

In [13]:
train.head()

Unnamed: 0,n_id,date,title,content,ord,info,new_article,text
0,NEWS02580,20200605,[마감]코스닥 기관 678억 순매도,[이데일리 MARKETPOINT]15:32 현재 코스닥 기관 678억 순매도,1,0,"[이데일리, MARKETPOINT, 15, 32, 현재, 코스닥, 기관, 678, ...",이데일리 MARKETPOINT 15 32 현재 코스닥 기관 678 억 순매도
1,NEWS02580,20200605,[마감]코스닥 기관 678억 순매도,"""실적기반"" 저가에 매집해야 할 8월 급등유망주 TOP 5 전격공개",2,1,"[실적, 기반, 저가, 에, 매집, 해야, 할, 8, 월, 급등, 유망주, TOP,...",실적 기반 저가 에 매집 해야 할 8 월 급등 유망주 TOP 5 전격 공개
2,NEWS02580,20200605,[마감]코스닥 기관 678억 순매도,"하이스탁론, 선취수수료 없는 월 0.4% 최저금리 상품 출시",3,1,"[하이스, 탁론, 선취, 수수료, 없, 월, 0, 4, 최저, 금리, 상품, 출시]",하이스 탁론 선취 수수료 없 월 0 4 최저 금리 상품 출시
3,NEWS02580,20200605,[마감]코스닥 기관 678억 순매도,종합 경제정보 미디어 이데일리 - 무단전재 & 재배포 금지,4,0,"[종합, 경제, 정보, 미디어, 이데일리, 무단, 전재, 재, 배포, 금지]",종합 경제 정보 미디어 이데일리 무단 전재 재 배포 금지
4,NEWS09727,20200626,"롯데·공영 등 7개 TV 홈쇼핑들, 동행세일 동참",전국적인 소비 붐 조성에 기여할 예정,1,0,"[전국, 적, 인, 소비, 붐, 조성, 에, 기여, 할, 예정]",전국 적 인 소비 붐 조성 에 기여 할 예정


In [14]:
# train.to_csv('news_train_preprocessing_Mecab(with num)_12.31.csv', index=False)

In [15]:
# test용

import pandas as pd
import re

test = pd.read_csv('news_test.csv')

def text_preprocessing(text_list, pre_tokenizer):
    stopwords = ['을', '를', '이', '가', '은', '는', 'null']    # 불용어 설정
    tokenizer = pre_tokenizer   # 형태소 분석기
    token_list = []
    token_list_str = []

    for text in text_list:
        txt = re.sub('[^가-힣a-zA-Z0-9]', ' ', text)      # 한글과 영어 알파벳 전부만 남기고 다른 글자 모두 제거
        token = tokenizer.morphs(txt)                    # 형태소 분석
        token = [t for t in token if t not in stopwords]   # 형태소 분석 결과 중 stopwords에 해당하지 않는 것만 추출
        token_str = ' '.join(token)                      # 띄어쓰기로 구분된 문자열
        token_list.append(token)                         # 형태소 분석된 토큰이 리스트 안에 담겨있는 형태
        token_list_str.append(token_str)

    return token_list, token_list_str

# 형태소 분석기를 따로 저장한 이유는 후에 test 데이터 전처리를 진행할 때 이용해야하므로
test['new_article'], test['text'] = text_preprocessing(test['content'], Mecab)

In [16]:
test.head()

Unnamed: 0,n_id,date,title,content,ord,id,new_article,text
0,NEWS00237,20200118,"[주목!e스몰캡]코세스, 마이크로LED 시장 개화 최대수혜 기대",마이크로 LED TV 장비 양산 돌입- 전방업체 투자 확대로 본업도 호조연일 '신고가',1,NEWS00237_1,"[마이크로LED, TV, 장비, 양산, 돌입, 전방, 업체, 투자, 확대, 로, 본...",마이크로LED TV 장비 양산 돌입 전방 업체 투자 확대 로 본업 도 호조 연일 신고
1,NEWS00237,20200118,"[주목!e스몰캡]코세스, 마이크로LED 시장 개화 최대수혜 기대",[이데일리 김대웅 기자] 반도체 장비 업체 코세스(089890)의 기술력이 마이크로...,2,NEWS00237_2,"[이데일리, 김대웅, 기자, 반도체장비, 업체, 코, 세스, 089890, 의, 기...",이데일리 김대웅 기자 반도체장비 업체 코 세스 089890 의 기술력 마이크로 발광...
2,NEWS00237,20200118,"[주목!e스몰캡]코세스, 마이크로LED 시장 개화 최대수혜 기대",최근 대형 업체들과 거래를 맺고 관련 장비들의 양산에 돌입하면서 주가도 연일 신고가...,3,NEWS00237_3,"[최근, 대형업체, 들, 과, 거래, 맺, 고, 관련, 장비, 들, 의, 양산, 에...",최근 대형업체 들 과 거래 맺 고 관련 장비 들 의 양산 에 돌입 하 면서 주가 도...
3,NEWS00237,20200118,"[주목!e스몰캡]코세스, 마이크로LED 시장 개화 최대수혜 기대",TV를 필두로 올해부터 마이크로 LED의 시대가 본격적으로 개화할 것으로 예상되면서...,4,NEWS00237_4,"[TV, 필두, 로, 올해, 부터, 마이크로LED, 의, 시대, 본격, 적, 으로,...",TV 필두 로 올해 부터 마이크로LED 의 시대 본격 적 으로 개 화 할 것 으로 ...
4,NEWS00237,20200118,"[주목!e스몰캡]코세스, 마이크로LED 시장 개화 최대수혜 기대","코세스는 반도체 장비를 제조, 판매하는 업체로 지난 2006년 11월 코스닥 시장에...",5,NEWS00237_5,"[코, 세스, 반도체장비, 제조, 판매, 하, 업체, 로, 지난, 2006, 년, ...",코 세스 반도체장비 제조 판매 하 업체 로 지난 2006 년 11 월 코스닥 시장 ...


In [17]:
# test.to_csv('news_test_preprocessing_Mecab(with num)_12.31.csv', index=False)