데이터 전처리
- tokenize
- ngrams (여기까지가 surface(lexical) level)
- pos tagging
- semantic
- etc. (stopwords, autocorrection)

# POS Tagging  
- POS(Part-Of-Speech): 품사  
  - 동사, 형용사, 명사, ...
  - 언어마다 다르다.
  - tagset마다 다르다.
- Tagging: 태그를 단다.
- why중요? WSD(word sense disambiguation; 중의성 해소)를 위함
  - ex) fly: v.날다, n.파리 --> 이런 단어를 포착하기 위하여

In [2]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [3]:
text = "I am a fly. I'm flying"
tokens = word_tokenize(text)
tokens

['I', 'am', 'a', 'fly', '.', 'I', "'m", 'flying']

In [4]:
nltk.download('averaged_perceptron_tagger')
nltk.pos_tag(tokens)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[('I', 'PRP'),
 ('am', 'VBP'),
 ('a', 'DT'),
 ('fly', 'NN'),
 ('.', '.'),
 ('I', 'PRP'),
 ("'m", 'VBP'),
 ('flying', 'VBG')]

In [5]:
# 구문분석: syntax -> tree

### tagged corpus

In [6]:
nltk.download('brown')
from nltk.corpus import brown
corpus = brown

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.


In [7]:
corpus.tagged_words(categories='news')   # word, pos 튜플로 구성

[('The', 'AT'), ('Fulton', 'NP-TL'), ...]

In [8]:
# tagger: noun
# universal

nltk.download('universal_tagset')
news = corpus.tagged_words(tagset='universal', categories='news')

[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Unzipping taggers/universal_tagset.zip.


In [9]:
news

[('The', 'DET'), ('Fulton', 'NOUN'), ...]

### Quiz  
brown의 뉴스 카테고리에서 가장 빈번한 태그 10개 출력하시오.

In [10]:
# 내 답
from collections import Counter
counts = [pos for _, pos in news]
Counter(counts)

Counter({'.': 11928,
         'ADJ': 6706,
         'ADP': 12355,
         'ADV': 3349,
         'CONJ': 2717,
         'DET': 11389,
         'NOUN': 30654,
         'NUM': 2166,
         'PRON': 2535,
         'PRT': 2264,
         'VERB': 14399,
         'X': 92})

In [11]:
# 1. tag로 바꾼다
tagset = [tag for (_, tag) in news]
print(tagset)

# 2. fdist 출력
fdist = nltk.FreqDist(tagset)
fdist.most_common(10)

['DET', 'NOUN', 'NOUN', 'ADJ', 'NOUN', 'VERB', 'NOUN', 'DET', 'NOUN', 'ADP', 'NOUN', 'ADJ', 'NOUN', 'NOUN', 'VERB', '.', 'DET', 'NOUN', '.', 'ADP', 'DET', 'NOUN', 'VERB', 'NOUN', '.', 'DET', 'NOUN', 'ADV', 'VERB', 'ADP', 'NOUN', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADJ', 'NOUN', '.', 'DET', 'VERB', 'ADJ', 'NOUN', 'ADP', 'DET', 'NOUN', '.', '.', 'VERB', 'DET', 'NOUN', 'CONJ', 'NOUN', 'ADP', 'DET', 'NOUN', 'ADP', 'NOUN', '.', 'ADP', 'DET', 'NOUN', 'ADP', 'DET', 'DET', 'NOUN', 'VERB', 'VERB', '.', 'DET', 'NOUN', 'NOUN', 'NOUN', 'VERB', 'VERB', 'VERB', 'ADP', 'NOUN', 'ADJ', 'NOUN', 'NOUN', 'NOUN', 'NOUN', 'PRT', 'VERB', 'NOUN', 'ADP', 'ADJ', '.', 'NOUN', '.', 'ADP', 'DET', 'ADJ', 'NOUN', 'DET', 'VERB', 'VERB', 'ADP', 'NOUN', 'NOUN', 'NOUN', 'NOUN', '.', '.', 'ADV', 'DET', 'ADJ', 'NOUN', 'ADP', 'ADJ', 'NOUN', 'VERB', 'VERB', '.', '.', 'DET', 'NOUN', 'VERB', '.', '.', 'ADP', 'DET', 'ADJ', 'NOUN', 'ADP', 'DET', 'NOUN', '.', 'DET', 'NOUN', 'ADP', 'NOUN', 'CONJ', 'DET', 'NOUN', 'ADP', 'DET', 'NOUN', 

[('NOUN', 30654),
 ('VERB', 14399),
 ('ADP', 12355),
 ('.', 11928),
 ('DET', 11389),
 ('ADJ', 6706),
 ('ADV', 3349),
 ('CONJ', 2717),
 ('PRON', 2535),
 ('PRT', 2264)]

### Quiz  
brown, learned에서 'often' 뒤에 나오는 품사 중 가장 빈도수가 높은 것은?

In [12]:
# list(bigrams(learned))
#  (('Venus', 'NOUN'), ('has', 'VERB')),

In [13]:
import nltk
from nltk.corpus import brown

# corpus 정의
learned = brown.tagged_words(categories='learned', tagset='universal')

# bigram
from nltk.util import bigrams
sorted(set(b for a, b in list(bigrams(learned)) if a == "often"))

[]

In [14]:
bi_grams = list(bigrams(learned))
learned_bigrams = [d for (a,b), (c,d) in bi_grams if a == "often"]
nltk.FreqDist(learned_bigrams).most_common(1)

[('VERB', 37)]

In [15]:
nltk.FreqDist(learned_bigrams).tabulate()

VERB  ADV  ADP  ADJ    .  PRT 
  37    8    7    6    4    2 


# Korean POS tagging

In [16]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 81.2 MB/s 
[?25hCollecting colorama
  Downloading colorama-0.4.4-py2.py3-none-any.whl (16 kB)
Collecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 6.8 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 48.1 MB/s 
Installing collected packages: JPype1, colorama, beautifulsoup4, konlpy
  Attempting uninstall: beautifulsoup4
    Found existing installation: beautifulsoup4 4.6.3
    Uninstalling beautifulsoup4-4.6.3:
      Successfully uninstalled beautifulsoup4-4.6.3
Successfully installed JPype1-1.3.0 beautifulsoup4-4.6.0 colorama-0.4.4 konlpy-0.5.2


In [17]:
from konlpy.tag import Kkma, Okt
kkma = Kkma()

In [18]:
kkma.tagset

{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN': "부정 지정사, 형용사 '아니다'",
 'VC

In [19]:
okt = Okt()
okt.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

In [20]:
text = """국민의힘 대권 주자인 홍준표 의원이 27일 윤석열 전 검찰총장을 향해 "작전계획 5015는 대통령이 될 사람이라면 기본적으로 알고 있어야 할 안보 상식"이라고 비판했다."""
kkma.pos(text)   # [('', '')] 형태 -> 리스트 안에 튜플로 단어, pos 묶임

[('국민', 'NNG'),
 ('의', 'JKG'),
 ('힘', 'NNG'),
 ('대권', 'NNG'),
 ('주자', 'NNG'),
 ('이', 'VCP'),
 ('ㄴ', 'ETD'),
 ('홍', 'NNG'),
 ('주', 'VV'),
 ('ㄴ', 'ETD'),
 ('표', 'NNG'),
 ('의원', 'NNG'),
 ('이', 'JKS'),
 ('27', 'NR'),
 ('일', 'NNM'),
 ('윤', 'NNG'),
 ('석', 'XSN'),
 ('열', 'NNG'),
 ('전', 'NNG'),
 ('검찰', 'NNG'),
 ('총장', 'NNG'),
 ('을', 'JKO'),
 ('향하', 'VV'),
 ('어', 'ECS'),
 ('"', 'SS'),
 ('작전', 'NNG'),
 ('계획', 'NNG'),
 ('5015', 'NR'),
 ('는', 'JX'),
 ('대통령', 'NNG'),
 ('이', 'JKC'),
 ('되', 'VV'),
 ('ㄹ', 'ETD'),
 ('사람', 'NNG'),
 ('이', 'VCP'),
 ('라면', 'ECD'),
 ('기본적', 'NNG'),
 ('으로', 'JKM'),
 ('알', 'VV'),
 ('고', 'ECE'),
 ('있', 'VXV'),
 ('어야', 'ECD'),
 ('하', 'VV'),
 ('ㄹ', 'ETD'),
 ('안보', 'NNG'),
 ('상식', 'NNG'),
 ('"', 'SS'),
 ('이', 'VCP'),
 ('라고', 'ECD'),
 ('비판', 'NNG'),
 ('하', 'XSV'),
 ('었', 'EPT'),
 ('다', 'EFN'),
 ('.', 'SF')]

In [21]:
kkma.pos(text, join=True)   # ['/'] 형태 -> 리스트 안에 / 앞뒤로 단어, pos묶임

['국민/NNG',
 '의/JKG',
 '힘/NNG',
 '대권/NNG',
 '주자/NNG',
 '이/VCP',
 'ㄴ/ETD',
 '홍/NNG',
 '주/VV',
 'ㄴ/ETD',
 '표/NNG',
 '의원/NNG',
 '이/JKS',
 '27/NR',
 '일/NNM',
 '윤/NNG',
 '석/XSN',
 '열/NNG',
 '전/NNG',
 '검찰/NNG',
 '총장/NNG',
 '을/JKO',
 '향하/VV',
 '어/ECS',
 '"/SS',
 '작전/NNG',
 '계획/NNG',
 '5015/NR',
 '는/JX',
 '대통령/NNG',
 '이/JKC',
 '되/VV',
 'ㄹ/ETD',
 '사람/NNG',
 '이/VCP',
 '라면/ECD',
 '기본적/NNG',
 '으로/JKM',
 '알/VV',
 '고/ECE',
 '있/VXV',
 '어야/ECD',
 '하/VV',
 'ㄹ/ETD',
 '안보/NNG',
 '상식/NNG',
 '"/SS',
 '이/VCP',
 '라고/ECD',
 '비판/NNG',
 '하/XSV',
 '었/EPT',
 '다/EFN',
 './SF']