### 꼬꼬마 형태소 분석기 사용

In [1]:
# 1. 형태소 모듈 가져오기
from konlpy.tag import Kkma

In [2]:
# 2. 형태소 객체 생성
kkma = Kkma()

In [4]:
# 3. 문장 <- 재료(텍스트)
test_text = '''
일본이 한국을 백색국가(수출 심사 우대국)에서 제외하는 수출무역관리령 개정안 시행일이 열흘도 채 남지 않았다
19일 전략물자관리원과 코트라 등에 따르면 일본 내 ICP 인증 기업은 1300여곳으로 추정된다 이 가운데 사명을 공개한 기업은 632곳에 불과하다
'''

In [5]:
# 4. 함수들을 적용하면서 텍스트를 분해해보기
kkma.sentences(test_text)

['일본이 한국을 백색국가( 수출 심사 우 대국 )에서 제외하는 수출무역관리령 개정안 시행 일이 열흘도 채 남지 않았다 19일 전략 물자 관리원과 코 트라 등에 따르면 일본 내 ICP 인증 기업은 1300여 곳으로 추정된다 이 가운데 사명을 공개한 기업은 632 곳에 불과 하다']

In [6]:
# 문장에 '.(마침표)'가 있다면
test_text = '''
일본이 한국을 백색국가(수출 심사 우대국)에서 제외하는 수출무역관리령 개정안 시행일이 열흘도 채 남지 않았다.
19일 전략물자관리원과 코트라 등에 따르면 일본 내 ICP 인증 기업은 1300여곳으로 추정된다. 이 가운데 사명을 공개한 기업은 632곳에 불과하다.
'''

In [8]:
# 마침표를 기준점으로 문장의 끝을 판별한다(예외 존재)
# But, 실제 real 데이터들은 마침표가 없을 가능성이 크다
# 문장의 분해라는 관점에서는 부적절함이 보인다
tmp = kkma.sentences(test_text)
tmp

['일본이 한국을 백색국가( 수출 심사 우 대국 )에서 제외하는 수출무역관리령 개정안 시행 일이 열흘도 채 남지 않았다.',
 '19일 전략 물자 관리원과 코 트라 등에 따르면 일본 내 ICP 인증 기업은 1300여 곳으로 추정된다.',
 '이 가운데 사명을 공개한 기업은 632 곳에 불과 하다.']

In [9]:
len(tmp)

3

In [13]:
for sen in tmp :
    # 명사 추출
    words = kkma.nouns(sen)
    print(words)
    # 형태소 분석
    popes = kkma.pos(sen)
    print(popes)
    morphses = kkma.morphs(sen)
    print(morphses)
    print('-'*130)

['일본', '한국', '백색', '백색국가', '국가', '수출', '심사', '우', '대국', '제외', '수출무역관리', '무역', '관리', '개정안', '시행', '일', '열흘']
[('일본', 'NNG'), ('이', 'JKS'), ('한국', 'NNG'), ('을', 'JKO'), ('백색', 'NNG'), ('국가', 'NNG'), ('(', 'SS'), ('수출', 'NNG'), ('심사', 'NNG'), ('우', 'NNG'), ('대국', 'NNG'), (')', 'SS'), ('에서', 'JKM'), ('제외', 'NNG'), ('하', 'XSV'), ('는', 'ETD'), ('수출', 'NNG'), ('무역', 'NNG'), ('관리', 'NNG'), ('령', 'XSN'), ('개정안', 'NNG'), ('시행', 'NNG'), ('일', 'NNG'), ('이', 'JKS'), ('열흘', 'NNG'), ('도', 'JX'), ('채', 'MAG'), ('남', 'VV'), ('지', 'ECD'), ('않', 'VXV'), ('았', 'EPT'), ('다', 'EFN'), ('.', 'SF')]
['일본', '이', '한국', '을', '백색', '국가', '(', '수출', '심사', '우', '대국', ')', '에서', '제외', '하', '는', '수출', '무역', '관리', '령', '개정안', '시행', '일', '이', '열흘', '도', '채', '남', '지', '않', '았', '다', '.']
----------------------------------------------------------------------------------------------------------------------------------
['19', '19일', '일', '전략', '물자', '관리원', '코', '트라', '등', '일본', '내', '인증', '기업', '1300', '1300여', '여', '곳', '

### 한나눔

In [14]:
from konlpy.tag import Hannanum
hannanum = Hannanum()

In [15]:
# pos 분석을 진행하여 계층 구조 정립
hannanum.analyze(test_text)

[[[('일', 'nnc'), ('본', 'nbu'), ('이', 'jcc')],
  [('일', 'nnc'), ('본', 'nbu'), ('이', 'jcs')]],
 [[('한국', 'ncn'), ('을', 'jco')],
  [('한국을', 'ncn')],
  [('한국', 'nqq'), ('을', 'jco')],
  [('한국을', 'nqq')]],
 [[('백색국가', 'ncn'), ('(', 'sl'), ('수출', 'ncpa')],
  [('백색국가(수출', 'ncn')],
  [('백색국가', 'nqq'), ('(', 'sl'), ('수출', 'ncpa')],
  [('백색국가(수출', 'nqq')]],
 [[('심사', 'ncn')], [('심사', 'ncpa')]],
 [[('우대', 'ncpa'), ('국', 'ncn'), (')', 'sr'), ('에서', 'jca')]],
 [[('제외', 'ncpa'), ('하', 'xsva'), ('는', 'etm')],
  [('제외', 'ncpa'), ('하', 'xsva'), ('어', 'ecs'), ('는', 'jxc')],
  [('제외', 'ncpa'), ('하', 'xsva'), ('어', 'ef'), ('는', 'etm')]],
 [[('수출', 'ncpa'), ('무역', 'ncpa'), ('관리', 'ncn'), ('령', 'ncn')],
  [('수출', 'ncpa'), ('무역', 'ncpa'), ('관리', 'ncpa'), ('령', 'ncn')]],
 [[('개정안', 'ncn')],
  [('개정', 'ncpa'), ('안', 'ncn')],
  [('개정', 'ncpa'), ('안', 'xsnx')]],
 [[('시행', 'ncpa'), ('일', 'ncn'), ('이', 'jcc')],
  [('시행', 'ncpa'), ('일', 'ncn'), ('이', 'jcs')],
  [('시행', 'ncpa'), ('일', 'ncpa'), ('이', 'jcc')],
  [('시행'

In [16]:
hannanum.nouns(test_text)

['일본',
 '한국',
 '백색국가(수출',
 '심사',
 '우대국',
 '제외',
 '수출무역관리령',
 '개정안',
 '시행일',
 '열흘',
 '채',
 '19',
 '전략물자관리원',
 '코트',
 '등',
 '일본',
 '내',
 '인증',
 '기업',
 '1300',
 '곳',
 '추정',
 '가운데',
 '사명',
 '공개',
 '기업',
 '632곳',
 '불과']

In [17]:
hannanum.morphs(test_text)

['일본',
 '이',
 '한국',
 '을',
 '백색국가(수출',
 '심사',
 '우대국',
 ')',
 '에서',
 '제외',
 '하',
 '는',
 '수출무역관리령',
 '개정안',
 '시행일',
 '이',
 '열흘',
 '도',
 '채',
 '남',
 '지',
 '않',
 '아다',
 '.',
 '19',
 '이',
 'ㄹ',
 '전략물자관리원',
 '과',
 '코트',
 '이',
 '라',
 '등',
 '에',
 '따르',
 '면',
 '일본',
 '내',
 'ICP',
 '인증',
 '기업',
 '은',
 '1300',
 '여',
 '곳',
 '으로',
 '추정',
 '되',
 'ㄴ다',
 '.',
 '이',
 '가운데',
 '사명',
 '을',
 '공개',
 '하',
 'ㄴ',
 '기업',
 '은',
 '632곳',
 '에',
 '불과',
 '하',
 '다',
 '.']

In [18]:
hannanum.pos(test_text)

[('일본', 'N'),
 ('이', 'J'),
 ('한국', 'N'),
 ('을', 'J'),
 ('백색국가(수출', 'N'),
 ('심사', 'N'),
 ('우대국', 'N'),
 (')', 'S'),
 ('에서', 'J'),
 ('제외', 'N'),
 ('하', 'X'),
 ('는', 'E'),
 ('수출무역관리령', 'N'),
 ('개정안', 'N'),
 ('시행일', 'N'),
 ('이', 'J'),
 ('열흘', 'N'),
 ('도', 'J'),
 ('채', 'N'),
 ('남', 'P'),
 ('지', 'E'),
 ('않', 'P'),
 ('아다', 'E'),
 ('.', 'S'),
 ('19', 'N'),
 ('이', 'J'),
 ('ㄹ', 'E'),
 ('전략물자관리원', 'N'),
 ('과', 'J'),
 ('코트', 'N'),
 ('이', 'J'),
 ('라', 'E'),
 ('등', 'N'),
 ('에', 'J'),
 ('따르', 'P'),
 ('면', 'E'),
 ('일본', 'N'),
 ('내', 'N'),
 ('ICP', 'F'),
 ('인증', 'N'),
 ('기업', 'N'),
 ('은', 'J'),
 ('1300', 'N'),
 ('여', 'X'),
 ('곳', 'N'),
 ('으로', 'J'),
 ('추정', 'N'),
 ('되', 'X'),
 ('ㄴ다', 'E'),
 ('.', 'S'),
 ('이', 'M'),
 ('가운데', 'N'),
 ('사명', 'N'),
 ('을', 'J'),
 ('공개', 'N'),
 ('하', 'X'),
 ('ㄴ', 'E'),
 ('기업', 'N'),
 ('은', 'J'),
 ('632곳', 'N'),
 ('에', 'J'),
 ('불과', 'N'),
 ('하', 'X'),
 ('다', 'E'),
 ('.', 'S')]

### 트위터

In [19]:
from konlpy.tag import Okt
# from konlpy.tag import Twitter
# Twitter -> Okt

In [20]:
t = Okt()

In [22]:
# 어구 추출
t.phrases(test_text), len(t.phrases(test_text))

(['일본',
  '한국',
  '백색국가',
  '수출',
  '수출 심사',
  '수출 심사 우대국',
  '제외',
  '제외하는 수출무역관리령',
  '제외하는 수출무역관리령 개정안',
  '제외하는 수출무역관리령 개정안 시행일',
  '열흘',
  '채 남지',
  '19일',
  '19일 전략물자관리원',
  '19일 전략물자관리원과 코트라',
  '19일 전략물자관리원과 코트라 등',
  '일본 내',
  '일본 내 ICP',
  '일본 내 ICP 인증',
  '일본 내 ICP 인증 기업',
  '1300여곳',
  '추정',
  '이 가운데',
  '이 가운데 사명',
  '공개',
  '기업',
  '632곳',
  '백색',
  '국가',
  '심사',
  '우대',
  '무역',
  '관리',
  '개정안',
  '시행일',
  '남지',
  '전략물자관리원',
  '코트라',
  'ICP',
  '인증',
  '1300',
  '여곳',
  '가운데',
  '사명',
  '632'],
 45)

In [23]:
t.nouns(test_text),

(['일본',
  '한국',
  '백색',
  '국가',
  '수출',
  '심사',
  '우대',
  '국',
  '제외',
  '수출',
  '무역',
  '관리',
  '령',
  '개정안',
  '시행일',
  '열흘',
  '채',
  '남지',
  '전략물자관리원',
  '코트라',
  '등',
  '일본',
  '내',
  '인증',
  '기업',
  '곳',
  '추정',
  '이',
  '가운데',
  '사명',
  '공개',
  '기업',
  '곳'],)

In [25]:
t.pos(test_text)

[('\n', 'Foreign'),
 ('일본', 'Noun'),
 ('이', 'Josa'),
 ('한국', 'Noun'),
 ('을', 'Josa'),
 ('백색', 'Noun'),
 ('국가', 'Noun'),
 ('(', 'Punctuation'),
 ('수출', 'Noun'),
 ('심사', 'Noun'),
 ('우대', 'Noun'),
 ('국', 'Noun'),
 (')', 'Punctuation'),
 ('에서', 'Josa'),
 ('제외', 'Noun'),
 ('하는', 'Verb'),
 ('수출', 'Noun'),
 ('무역', 'Noun'),
 ('관리', 'Noun'),
 ('령', 'Noun'),
 ('개정안', 'Noun'),
 ('시행일', 'Noun'),
 ('이', 'Josa'),
 ('열흘', 'Noun'),
 ('도', 'Josa'),
 ('채', 'Noun'),
 ('남지', 'Noun'),
 ('않았다', 'Verb'),
 ('.', 'Punctuation'),
 ('\n', 'Foreign'),
 ('19일', 'Number'),
 ('전략물자관리원', 'Noun'),
 ('과', 'Josa'),
 ('코트라', 'Noun'),
 ('등', 'Noun'),
 ('에', 'Josa'),
 ('따르면', 'Verb'),
 ('일본', 'Noun'),
 ('내', 'Noun'),
 ('ICP', 'Alpha'),
 ('인증', 'Noun'),
 ('기업', 'Noun'),
 ('은', 'Josa'),
 ('1300', 'Number'),
 ('여', 'Modifier'),
 ('곳', 'Noun'),
 ('으로', 'Josa'),
 ('추정', 'Noun'),
 ('된다', 'Verb'),
 ('.', 'Punctuation'),
 ('이', 'Noun'),
 ('가운데', 'Noun'),
 ('사명', 'Noun'),
 ('을', 'Josa'),
 ('공개', 'Noun'),
 ('한', 'Josa'),
 ('기업', 'No