#### [ 자연어 - 한국어 형태소 모델 Spacy ]

[1] 모듈 로딩<hr>

In [1]:
import spacy                        ## 행태소 분석기 모듈 로딩
from konlpy.corpus import *         ## konlpy 내 말뭉치 로딩
import string                       ## 파이썬 문자열 관련 모듈 로딩

[2] 데이터 및 모델 로딩<hr>

In [2]:
## 파일명 
LAW_FILE = kolaw.fileids()[0]

### 한국어 모델 설정
KO_MODEL = 'ko_core_news_sm'

### 구두점 및 불필요 기호
PUNC    = string.punctuation + "★"

In [3]:
## 데이터 로딩 => 줄 단위로 읽어오기 
LAW_CORPUS = kolaw.open(LAW_FILE).readlines()

In [4]:
## 형태소 모델 로딩
MORPH_MODEL = spacy.load(KO_MODEL)

[2] 데이터 확인 및 불필요 데이터 처리<hr>

In [5]:
print(f'[정리 전] {len(LAW_CORPUS)}개')
NUMS = len(LAW_CORPUS)

for idx in range(NUMS-1, 0, -1):
    LAW_CORPUS[idx] = LAW_CORPUS[idx].strip()
    LAW_CORPUS[idx] = LAW_CORPUS[idx].replace('\n','')

    if not len(LAW_CORPUS[idx]): del LAW_CORPUS[idx]

print(f'[정리 후] {len(LAW_CORPUS)}개')

[정리 전] 356개
[정리 후] 344개


In [6]:
LAW_CORPUS[:10]

['대한민국헌법\n',
 '유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, 모든 사회적 폐습과 불의를 타파하며, 자율과 조화를 바탕으로 자유민주적 기본질서를 더욱 확고히 하여 정치·경제·사회·문화의 모든 영역에 있어서 각인의 기회를 균등히 하고, 능력을 최고도로 발휘하게 하며, 자유와 권리에 따르는 책임과 의무를 완수하게 하여, 안으로는 국민생활의 균등한 향상을 기하고 밖으로는 항구적인 세계평화와 인류공영에 이바지함으로써 우리들과 우리들의 자손의 안전과 자유와 행복을 영원히 확보할 것을 다짐하면서 1948년 7월 12일에 제정되고 8차에 걸쳐 개정된 헌법을 이제 국회의 의결을 거쳐 국민투표에 의하여 개정한다.',
 '제1장 총강',
 '제1조 ① 대한민국은 민주공화국이다.',
 '②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.',
 '제2조 ① 대한민국의 국민이 되는 요건은 법률로 정한다.',
 '②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.',
 '제3조 대한민국의 영토는 한반도와 그 부속도서로 한다.',
 '제4조 대한민국은 통일을 지향하며, 자유민주적 기본질서에 입각한 평화적 통일 정책을 수립하고 이를 추진한다.',
 '제5조 ① 대한민국은 국제평화의 유지에 노력하고 침략적 전쟁을 부인한다.']

[3] 형태소 분석 모델 사용<hr>

In [7]:
## [3-1] 형태소 분석 언어별 모델 로딩
nlpModel = spacy.load(KO_MODEL)

In [8]:
## [3-2] 기본 사용법
text = "일만 하고 놀지 않으면 바보가 된다." 

## 분석결과 Doc 타입으로 반환
doc = nlpModel(text)

## Doc 타입은 token으로 구성 => token 객체.속성명
save_tokens=[]
for token in doc:
    # 표제어, 단어 품사, 자세한 품사, 불용어 여부 
    print(f'text     : {token.text:6}') 
    print(f'lemma_   : {token.lemma_:6}') 
    print(f'pos_     : {token.pos_:6} ') 
    print(f'tag_     : {token.tag_:6}') 
    print(f'is_stop  : {token.is_stop}') 
    print(f'is_punct : {token.is_punct}\n') 

print(f'save_tokens : {len(save_tokens)}개')

text     : 일만    
lemma_   : 일+만   
pos_     : ADV    
tag_     : ncpa+jxc
is_stop  : False
is_punct : False

text     : 하고    
lemma_   : 하+고   
pos_     : CCONJ  
tag_     : pvg+ecc
is_stop  : False
is_punct : False

text     : 놀지    
lemma_   : 놀+지   
pos_     : VERB   
tag_     : pvg+ecx
is_stop  : False
is_punct : False

text     : 않으면   
lemma_   : 않+으면  
pos_     : SCONJ  
tag_     : px+ecs
is_stop  : False
is_punct : False

text     : 바보가   
lemma_   : 바보+가  
pos_     : VERB   
tag_     : pvg+ecx
is_stop  : False
is_punct : False

text     : 된다    
lemma_   : 되+ㄴ다  
pos_     : AUX    
tag_     : px+ef 
is_stop  : False
is_punct : False

text     : .     
lemma_   : .     
pos_     : PUNCT  
tag_     : sf    
is_stop  : False
is_punct : True

save_tokens : 0개


In [9]:
## [3-3] 토큰 추출 => 형태소 분리 + 불용어/구두점 제거 토큰만 추가 
SAVE_TOKENS1=[]
for token in doc:
    # 표제어, 단어 품사, 자세한 품사, 불용어 여부 
    if not (token.is_stop or token.is_punct) :  
        SAVE_TOKENS1.append(token)

print(f'SAVE_TOKENS1 : {len(SAVE_TOKENS1)}개\n{SAVE_TOKENS1}')

SAVE_TOKENS1 : 6개
[일만, 하고, 놀지, 않으면, 바보가, 된다]


In [10]:
## [3-3] 토큰 추출 =>  형태소 분리 + 불용어/구두점 제거 + 표제어 분리된 토큰 추가 
SAVE_TOKENS2=[]
for token in doc:
    # 표제어, 단어 품사, 자세한 품사, 불용어 여부 
    if not (token.is_stop or token.is_punct) :  
        wlist = token.lemma_.split('+')
        #print(wlist, wlist[0],wlist[1])
        SAVE_TOKENS2.append(wlist[0])

print(f'SAVE_TOKENS2 : {len(SAVE_TOKENS2)}개\n{SAVE_TOKENS2}')

SAVE_TOKENS2 : 6개
['일', '하', '놀', '않', '바보', '되']
