In [2]:
import nltk
from nltk.tokenize import word_tokenize

# 단어 단위 토크나이징
sentence = """Natural Language Processing(NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with
 the interactions between computers and human(natural) languages, in particular how to program computers to process and analyze large amounts of natural language data"""

print(word_tokenize(sentence))

['Natural', 'Language', 'Processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data']


In [3]:
# 문장 단위 토크나이징
from nltk.tokenize import sent_tokenize

paragraph = """Natural Language Processing(NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with
 the interactions between computers and human(natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.
 Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation."""

print(sent_tokenize(paragraph))

['Natural Language Processing(NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with\n the interactions between computers and human(natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.', 'Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.']


# Spacy
- 상업용 오픈소스 라이브러리 (NLTK: 교육,연구용)
- 8개 국어, 빠른 속도, 딥러닝 언어모델 개발 지원

In [7]:
import spacy

nlp = spacy.load('en_core_web_sm')

sentence = """Natural Language Processing(NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with
 the interactions between computers and human(natural) languages, in particular how to program computers to process and analyze large amounts of natural language data"""

doc = nlp(sentence)
print(doc)

word_tokenized_sentence = [token.text for token in doc]
sentence_tokenized_list = [sent.text for sent in doc.sents]
print(word_tokenized_sentence)
print(sentence_tokenized_list)

Natural Language Processing(NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with
 the interactions between computers and human(natural) languages, in particular how to program computers to process and analyze large amounts of natural language data
['Natural', 'Language', 'Processing(NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', '\n ', 'the', 'interactions', 'between', 'computers', 'and', 'human(natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data']
['Natural Language Processing(NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with\n the interactions between computers and human(natural) languages, in particular how to program computers to pro

In [10]:
doc.sents

<generator at 0x1bc5c6b6728>

In [11]:
for sent in doc.sents:
    print(sent)

Natural Language Processing(NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with
 the interactions between computers and human(natural) languages, in particular how to program computers to process and analyze large amounts of natural language data


In [12]:
for sent in doc.sents:
    print(sent.text)

Natural Language Processing(NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with
 the interactions between computers and human(natural) languages, in particular how to program computers to process and analyze large amounts of natural language data


# 한국어 형태소 분석: konlpy

In [13]:
import konlpy
from konlpy.tag import Okt

okt = Okt()

text = "한글 자연어 처리는 재밌다. 이제부터 열심히 해야지ㅎㅎㅎㅎ"

print(okt.morphs(text))
print(okt.morphs(text, stem=True)) # 어간 기본형

['한글', '자연어', '처리', '는', '재밌다', '.', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎㅎ']
['한글', '자연어', '처리', '는', '재밌다', '.', '이제', '부터', '열심히', '하다', 'ㅎㅎㅎㅎ']


In [14]:
print(okt.nouns(text))
print(okt.phrases(text))

['한글', '자연어', '처리', '이제']
['한글', '한글 자연어', '한글 자연어 처리', '이제', '자연어', '처리']


In [15]:
print(okt.pos(text))
print(okt.pos(text, join=True))

[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재밌다', 'Adjective'), ('.', 'Punctuation'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎㅎ', 'KoreanParticle')]
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재밌다/Adjective', './Punctuation', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎㅎ/KoreanParticle']


In [16]:
from konlpy.corpus import kolaw
# 한국 법률 말뭉치 : constitution.txt
from konlpy.corpus import kobill
# 대한민국 국회 의안 말뭉치. 각 id값을 가지는 의안으로 구성. 
# 1809890.txt  ~  1809899.txt 파일

kolaw.open('constitution.txt').read()[:20]

'대한민국헌법\n\n유구한 역사와 전통에 '

In [17]:
kobill.open('1809890.txt').read()

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이사철․여상규․안규백\n\n황영철․박영아․김정훈\n\n김학송 의원(10인)\n\n제안이유 및 주요내용\n\n  초등학교 저학년의 경우에도 부모의 따뜻한 사랑과 보살핌이 필요\n\n한 나이이나, 현재 공무원이 자녀를 양육하기 위하여 육아휴직을 할 \n\n수 있는 자녀의 나이는 만 6세 이하로 되어 있어 초등학교 저학년인 \n\n자녀를 돌보기 위해서는 해당 부모님은 일자리를 그만 두어야 하고 \n\n이는 곧 출산의욕을 저하시키는 문제로 이어질 수 있을 것임.\n\n  따라서 육아휴직이 가능한 자녀의 연령을 만 8세 이하로 개정하려\n\n는 것임(안 제63조제2항제4호).\n\n- 1 -\n\n\x0c법률  제        호\n\n지방공무원법 일부개정법률안\n\n지방공무원법 일부를 다음과 같이 개정한다.\n\n제63조제2항제4호 중 “만 6세 이하의 초등학교 취학 전 자녀를”을 “만 \n\n8세 이하(취학 중인 경우에는 초등학교 2학년 이하를 말한다)의 자녀를”\n\n로 한다.\n\n부      칙\n\n이 법은 공포한 날부터 시행한다.\n\n- 3 -\n\n\x0c신 ·구조문대비표\n\n현      행\n\n개   정   안\n\n제63조(휴직) ① (생  략)\n\n제63조(휴직) ① (현행과 같음)\n\n  ② 공무원이 다음 각 호의 어\n\n  ② -------------------------\n\n느 하나에 해당하는 사유로 휴\n\n----------------------------\n\n직을 원하면 임용권자는 휴직\n\n----------------------------\n\n을 명할 수 있다. 다만, 제4호\n\n-------------.---------------\n\n의 경우에는 대통령령으로 정\n\n---------------------------

In [18]:
help(konlpy.corpus)

Help on module konlpy.corpus in konlpy:

NAME
    konlpy.corpus - # -*- coding: utf-8 -*-

CLASSES
    builtins.object
        CorpusLoader
    
    class CorpusLoader(builtins.object)
     |  CorpusLoader(name=None)
     |  
     |  Loader for corpora.
     |  For a complete list of corpora available in KoNLPy,
     |  refer to :ref:`corpora`.
     |  
     |  .. code-block:: python
     |  
     |      >>> from konlpy.corpus import kolaw
     |      >>> fids = kolaw.fileids()
     |      >>> fobj = kolaw.open(fids[0])
     |      >>> print fobj.read(140)
     |      대한민국헌법
     |  
     |      유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·인도와 동포애로써 민족의 단결을 공고히 하고, 모든 사회적 폐습과 불의를 타파하며, 자율과 조화를 바 바
     |  
     |  Methods defined here:
     |  
     |  __init__(self, name=None)
     |      Initialize self.  See help(type(self)) for accurate signature.
     |  
     |  abspath(self, filename=None)
     |      Absolute path of c

In [19]:
kolaw.fileids()

['constitution.txt']

In [20]:
kobill.fileids()

['1809890.txt',
 '1809891.txt',
 '1809892.txt',
 '1809893.txt',
 '1809894.txt',
 '1809895.txt',
 '1809896.txt',
 '1809897.txt',
 '1809898.txt',
 '1809899.txt']