In [1]:
import nltk

<br>
<br>

# 어간 추출(Stemming)

In [2]:
from nltk.stem import PorterStemmer, LancasterStemmer

st1 = PorterStemmer()
st2 =  LancasterStemmer()

words = ["fly", "flies", "flying", "flew", "flown"]

print("Porter Stemmer   :", [st1.stem(w) for w in words])
print("Lancaster Stemmer:", [st2.stem(w) for w in words])


Porter Stemmer   : ['fli', 'fli', 'fli', 'flew', 'flown']
Lancaster Stemmer: ['fly', 'fli', 'fly', 'flew', 'flown']


<br>
<br>

# 원형 복원(Lemmatizing)

In [3]:
from nltk.stem import WordNetLemmatizer

lm = WordNetLemmatizer()

# 품사(pos)를 동사(v)로 원형 복원
[lm.lemmatize(w, pos="v") for w in words]


['fly', 'fly', 'fly', 'fly', 'fly']

<br>
<br>

# 형태소분석(Part of Speech)

In [4]:
nltk.download('averaged_perceptron_tagger')


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [5]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

sentence = "Emma refused to permit us to obtain the refuse permit"

# 토큰 분리
tokens = word_tokenize(sentence)
print(tokens)
print()

# 형태소분석
tagged_list = pos_tag(tokens)
print(tagged_list)


['Emma', 'refused', 'to', 'permit', 'us', 'to', 'obtain', 'the', 'refuse', 'permit']

[('Emma', 'NNP'), ('refused', 'VBD'), ('to', 'TO'), ('permit', 'VB'), ('us', 'PRP'), ('to', 'TO'), ('obtain', 'VB'), ('the', 'DT'), ('refuse', 'NN'), ('permit', 'NN')]


In [6]:
nltk.download('tagsets')


[nltk_data] Downloading package tagsets to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package tagsets is already up-to-date!


True

In [7]:
nltk.help.upenn_tagset("NNP")


NNP: noun, proper, singular
    Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
    Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
    Shannon A.K.C. Meltex Liverpool ...


In [8]:
nltk.help.upenn_tagset("VBD")


VBD: verb, past tense
    dipped pleaded swiped regummed soaked tidied convened halted registered
    cushioned exacted snubbed strode aimed adopted belied figgered
    speculated wore appreciated contemplated ...


In [9]:
nltk.help.upenn_tagset("DT")


DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those


In [10]:
# 품사가 NN인 것만 추출
nouns_list = [t[0] for t in tagged_list if t[1] == "NN"]
nouns_list


['refuse', 'permit']

In [11]:
from nltk.tag import untag

# 품사 태그 제거
untag(tagged_list)


['Emma',
 'refused',
 'to',
 'permit',
 'us',
 'to',
 'obtain',
 'the',
 'refuse',
 'permit']

In [12]:
# 단어와 품사를 합쳐서 하나의 토큰으로 변환
word_tag = ["/".join(p) for p in tagged_list]
word_tag


['Emma/NNP',
 'refused/VBD',
 'to/TO',
 'permit/VB',
 'us/PRP',
 'to/TO',
 'obtain/VB',
 'the/DT',
 'refuse/NN',
 'permit/NN']

<br>
<br>

# 구문분석(Syntax Analysis)

In [13]:
# 품사 정보가 있는 문장 설정
sentence = [("the", "DT"), ("little", "JJ"), ("yellow", "JJ"), ("dog", "NN"), 
            ("barked", "VBD"), ("at", "IN"),  ("the", "DT"), ("cat", "NN")]

# 문법 정의
grammar = "NP: {<DT>?<JJ>*<NN>}"

# 정규표현식 파서
cp = nltk.RegexpParser(grammar)
result = cp.parse(sentence)

# 결과 출력
print(result)

# 결과를 트리로 표시
result.draw()


(S
  (NP the/DT little/JJ yellow/JJ dog/NN)
  barked/VBD
  at/IN
  (NP the/DT cat/NN))


<br>
<br>

# 한글 형태소분석

파이썬에서는 보통 KoNLPy(코엔엘파이)를 사용하여 한글 형태소분석을 합니다. Hannanum, Kkma, Komoran, Mecab, Okt(Twitter) 등 여러가지 라이브러리를 동일한 인터페이스로 실행이 가능합니다. 

KoNLPy는 자바로 구현이 되어 있습니다. 윈도우 아나콘다는 아래와 같은 작업을 거쳐야 합니다. 설치 후 주피터 노트북을 다시 시작해야 자바가 실행됩니다.

< 1. 자바 설치 ><br>
커맨드창에서 'java -version' 명령어를 실행하여 버전이 1.7 이상이어야 합니다.<br>

< 2. JPype1 설치 ><br>
파이썬에서 자바를 호출할 수 있는 라이브러리입니다.

< 3. KoNLPy 설치 ><br>
위의 두 가지가 미리 완료되어 있어야만 가능합니다.

아래 링크에서 좀 더 자세한 방법을 확인하시기 바랍니다.<br>
https://ericnjennifer.github.io/python_visualization/2018/01/21/PythonVisualization_Chapt1.html<br>
https://zetawiki.com/wiki/%EC%9C%88%EB%8F%84%EC%9A%B0_JAVA_HOME_%ED%99%98%EA%B2%BD%EB%B3%80%EC%88%98_%EC%84%A4%EC%A0%95
<br>
<br>
<br>

In [14]:
sentence = '자연어처리는 컴퓨터가 인간의 언어를 처리하도록 하는 인공지능입니다.'

# 꼬꼬마 형태소분석기 사용
from konlpy.tag import Kkma
kkma = Kkma()

print(kkma.nouns(sentence))    # 명사
print(kkma.morphs(sentence))   # 형태소
print(kkma.pos(sentence))      # 형태소와 품사


-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


['자연어', '자연어처리', '처리', '컴퓨터', '인간', '언어', '인공', '인공지능', '지능']
['자연어', '처리', '는', '컴퓨터', '가', '인간', '의', '언어', '를', '처리', '하', '도록', '하', '는', '인공지능', '이', 'ㅂ니다', '.']
[('자연어', 'NNG'), ('처리', 'NNG'), ('는', 'JX'), ('컴퓨터', 'NNG'), ('가', 'JKS'), ('인간', 'NNG'), ('의', 'JKG'), ('언어', 'NNG'), ('를', 'JKO'), ('처리', 'NNG'), ('하', 'XSV'), ('도록', 'ECD'), ('하', 'VV'), ('는', 'ETD'), ('인공지능', 'NNG'), ('이', 'VCP'), ('ㅂ니다', 'EFN'), ('.', 'SF')]


In [15]:
# 코모란 형태소분석기 사용
from konlpy.tag import Komoran
komoran = Komoran()

print(komoran.nouns(sentence))    # 명사
print(komoran.morphs(sentence))   # 형태소
print(komoran.pos(sentence))      # 형태소와 품사


['자연어', '처리', '컴퓨터', '인간', '언어', '처리', '인공지능']
['자연어', '처리', '는', '컴퓨터', '가', '인간', '의', '언어', '를', '처리', '하', '도록', '하', '는', '인공지능', '이', 'ㅂ니다', '.']
[('자연어', 'NNP'), ('처리', 'NNP'), ('는', 'JX'), ('컴퓨터', 'NNG'), ('가', 'JKS'), ('인간', 'NNG'), ('의', 'JKG'), ('언어', 'NNG'), ('를', 'JKO'), ('처리', 'NNG'), ('하', 'XSV'), ('도록', 'EC'), ('하', 'VV'), ('는', 'ETM'), ('인공지능', 'NNP'), ('이', 'VCP'), ('ㅂ니다', 'EF'), ('.', 'SF')]


<br>
<br>

# KoNLPy 말뭉치

In [16]:
from konlpy.corpus import kolaw

# 한국 법률 말뭉치
text = kolaw.open('constitution.txt').read()
print(text[:1000])


대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, 모든 사회적 폐습과 불의를 타파하며, 자율과 조화를 바탕으로 자유민주적 기본질서를 더욱 확고히 하여 정치·경제·사회·문화의 모든 영역에 있어서 각인의 기회를 균등히 하고, 능력을 최고도로 발휘하게 하며, 자유와 권리에 따르는 책임과 의무를 완수하게 하여, 안으로는 국민생활의 균등한 향상을 기하고 밖으로는 항구적인 세계평화와 인류공영에 이바지함으로써 우리들과 우리들의 자손의 안전과 자유와 행복을 영원히 확보할 것을 다짐하면서 1948년 7월 12일에 제정되고 8차에 걸쳐 개정된 헌법을 이제 국회의 의결을 거쳐 국민투표에 의하여 개정한다.

       제1장 총강
  제1조 ① 대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.
  제2조 ① 대한민국의 국민이 되는 요건은 법률로 정한다.
②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.
  제3조 대한민국의 영토는 한반도와 그 부속도서로 한다.
  제4조 대한민국은 통일을 지향하며, 자유민주적 기본질서에 입각한 평화적 통일 정책을 수립하고 이를 추진한다.
  제5조 ① 대한민국은 국제평화의 유지에 노력하고 침략적 전쟁을 부인한다.
②국군은 국가의 안전보장과 국토방위의 신성한 의무를 수행함을 사명으로 하며, 그 정치적 중립성은 준수된다.
  제6조 ① 헌법에 의하여 체결·공포된 조약과 일반적으로 승인된 국제법규는 국내법과 같은 효력을 가진다.
②외국인은 국제법과 조약이 정하는 바에 의하여 그 지위가 보장된다.
  제7조 ① 공무원은 국민전체에 대한 봉사자이며, 국민에 대하여 책임을 진다.
②공무원의 신분과 정치적 중립성은 법률이 정하는 바에 의하여 보장된다.
  제8조 ① 정당의 설립은 자유이며, 복수정당제

In [17]:
from konlpy.corpus import kobill

# 대한민국 국회 의안 말뭉치
text = kobill.open('1809890.txt').read()
print(text[:300])


지방공무원법 일부개정법률안

(정의화의원 대표발의 )

 의 안
 번 호

9890

발의연월일 : 2010.  11.  12.  

발  의  자 : 정의화․이명수․김을동 

이사철․여상규․안규백

황영철․박영아․김정훈

김학송 의원(10인)

제안이유 및 주요내용

  초등학교 저학년의 경우에도 부모의 따뜻한 사랑과 보살핌이 필요

한 나이이나, 현재 공무원이 자녀를 양육하기 위하여 육아휴직을 할 

수 있는 자녀의 나이는 만 6세 이하로 되어 있어 초등학교 저학년인 

자녀를 돌보기 위해서는 해당 부모님은 일자리를 그만 두어야


<br>
<br>

# 한글 구문분석

In [18]:
from konlpy.tag import Okt

# 형태소분석
sentence = "만 6세 이하의 초등학교 취학 전 자녀를 양육하기 위해서는"
words = Okt().pos(sentence)

# 문법 정의
grammar = """
NP: {<N.*>*<Suffix>?}   # Noun phrase
VP: {<V.*>*}            # Verb phrase
AP: {<A.*>*}            # Adjective phrase
"""
# 정규표현식 파서
parser = nltk.RegexpParser(grammar)
chunks = parser.parse(words)

# 결과 출력
print(chunks)

# 결과를 트리로 표시
chunks.draw()


(S
  (NP 만/Noun 6/Number 세/Noun 이하/Noun)
  의/Josa
  (NP 초등학교/Noun 취학/Noun 전/Noun 자녀/Noun)
  를/Josa
  (NP 양육/Noun)
  (VP 하기/Verb)
  (NP 위/Noun)
  (VP 해서는/Verb))
