## 형태소 분석
※NLP(Natural Language Processing) [자연어 처리]

- 자연어 의미를 분석해 컴퓨터가 처리할 수 있도록 하는 일(챗봇 엔진에 자주 사용된다.)

 

※토큰(token)

- 어떤 문장을 일정한 의미가 있는 가장 작은 단어들로 나눈다. 그다음 나눠진 단어를 이용해 의미를 분석한다.

이때 가장 기본이 되는 단어를 토큰(token)이라 한다.

 

※토크나이징(tokenizing)

- 주어진 문장에서 토큰 단위로 정보를 나누는 작업

- 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업(텍스트 전처리 과정)

### [학습 내용]
#### 1. 품사태깅 : okt.pos(텍스트)
#### 2. 형태소 단위 추출 : okt.morphs(텍스트)
#### 3. 명사 추출: okt.nouns(텍스트)
#### 4. 어절 추출: okt.phrases(텍스트)
#### 5. 명사, 형용사, 동사 추출
#### 6. stopword 지정


### 1. 품사 태깅
- okt.pos(텍스트)

In [3]:
# 참고 사이트 : https://truman.tistory.com/112

In [1]:
from konlpy.tag import Okt,Kkma,Hannanum

In [2]:
txt = "아버지가방에들어가신다."

In [3]:
# 인스턴스 생성
# 인스턴스 : 클래스를 사용하기 위해 메모리 구조를 만든다.

okt = Okt()
# 형태소 분석

okt.pos(txt)

okt.pos("이것도 되나욬ㅋㅋㅋㅋ")

[('이', 'Determiner'),
 ('것', 'Noun'),
 ('도', 'Josa'),
 ('되나욬', 'Noun'),
 ('ㅋㅋㅋㅋ', 'KoreanParticle')]

In [4]:
# norm = True : 품사 태깅(기본값 False)

okt.pos("이것도 되나욬ㅋㅋㅋㅋ",norm = True)

[('이', 'Determiner'),
 ('것', 'Noun'),
 ('도', 'Josa'),
 ('되나요', 'Verb'),
 ('ㅋㅋㅋ', 'KoreanParticle')]

In [6]:
kkma=Kkma()

In [8]:
# stem=True : 원형 글자로 바꿔준다. (기본값 False)

okt.pos("이것도 되나욬ㅋㅋㅋㅋ",norm = True,stem=True)

[('이', 'Determiner'),
 ('것', 'Noun'),
 ('도', 'Josa'),
 ('되다', 'Verb'),
 ('ㅋㅋㅋ', 'KoreanParticle')]

### 2. 형태소 단위 추출

- okt.morphs(텍스트)

In [8]:
# 텍스트를 형태소 단위로 나눈다.
txt = "아버지가방에들어가신다."
okt.morphs(txt)

['아버지', '가방', '에', '들어가신다', '.']

In [9]:
# 텍스트를 형태소 단위로 나눈다.
okt.morphs("이것도 되나욬ㅋㅋㅋㅋ")

['이', '것', '도', '되나욬', 'ㅋㅋㅋㅋ']

### 3. 명사 추출
- okt.nouns(텍스트)

In [14]:
# 텍스트에서 명사만 추출
txt = "아버지가방에들어가신다."
okt.nouns(txt)

['아버지', '가방']

In [12]:
okt.nouns("이것도 되나욬ㅋㅋㅋㅋ")

['것', '되나욬']

### 4. 어절 추출
- okt.phrases(텍스트)

In [15]:
txt = "아버지가방에들어가신다."
okt.phrases(txt)

['아버지가방', '아버지', '가방']

In [16]:
okt.phrases("이것도 되나욬ㅋㅋㅋㅋ")

['이것', '되나욬']

In [19]:
# kk=Kkma()
# kk.nouns(txt)

### (실습)문장에서  명사 추출
https://wikidocs.net/33799

In [33]:
sample= [
    '스토리가 진짜 너무 노잼',
    '심오한 똥이란 말이 딱이다',
    '쓰레기같은 영화 ㄹㅇ 시간아깝다',
    '점도 아깝다 ㄹㅇ쓰레기 영화',
    '이 드러운 기분을 어쩌지',
    '이건 명작임',
    '이런 느낌 영화 좋아요',
    '죽기전에 봐야할 영화',
    '뻔한 로코가아님 대사가 아주 좋아요',
    '안봤으면 후회했을거같다감동이다'
]

### - 모든 문서 =>  한 문서로 처리해서 명사 추출

In [34]:
document=' '.join(sample)
document

'스토리가 진짜 너무 노잼 심오한 똥이란 말이 딱이다 쓰레기같은 영화 ㄹㅇ 시간아깝다 점도 아깝다 ㄹㅇ쓰레기 영화 이 드러운 기분을 어쩌지 이건 명작임 이런 느낌 영화 좋아요 죽기전에 봐야할 영화 뻔한 로코가아님 대사가 아주 좋아요 안봤으면 후회했을거같다감동이다'

In [36]:
okt=Okt()
noun=okt.nouns(document)
print(noun)

['스토리', '진짜', '노잼', '똥', '말', '쓰레기', '영화', '시간', '점도', '쓰레기', '영화', '이', '기분', '이건', '명작', '임', '느낌', '영화', '영화', '로코', '대사', '아주', '후회', '감동']


### - 각 문서에서 명사 추출

In [42]:
sample_nouns=[okt.nouns(i) for i in sample]
sample_nouns

[['스토리', '진짜', '노잼'],
 ['똥', '말'],
 ['쓰레기', '영화', '시간'],
 ['점도', '쓰레기', '영화'],
 ['이', '기분'],
 ['이건', '명작', '임'],
 ['느낌', '영화'],
 ['영화'],
 ['로코', '대사', '아주'],
 ['후회', '감동']]

In [46]:
sample_res=[' '.join(i) for i in sample_nouns]
sample_res

['스토리 진짜 노잼',
 '똥 말',
 '쓰레기 영화 시간',
 '점도 쓰레기 영화',
 '이 기분',
 '이건 명작 임',
 '느낌 영화',
 '영화',
 '로코 대사 아주',
 '후회 감동']

### 5. (실습)문장에서  명사(Noun), 형용사(Adjective), 동사(Verb) 추출

##### - 모든 문서 =>  한 문서로 처리해서 명사, 형용사, 동사 추출

In [51]:
document

'스토리가 진짜 너무 노잼 심오한 똥이란 말이 딱이다 쓰레기같은 영화 ㄹㅇ 시간아깝다 점도 아깝다 ㄹㅇ쓰레기 영화 이 드러운 기분을 어쩌지 이건 명작임 이런 느낌 영화 좋아요 죽기전에 봐야할 영화 뻔한 로코가아님 대사가 아주 좋아요 안봤으면 후회했을거같다감동이다'

In [47]:
# 품사태깅(pos), stem=True 어간추출
pos=okt.pos(document, stem=True)
pos

[('스토리', 'Noun'),
 ('가', 'Josa'),
 ('진짜', 'Noun'),
 ('너무', 'Adverb'),
 ('노잼', 'Noun'),
 ('심오하다', 'Adjective'),
 ('똥', 'Noun'),
 ('이란', 'Josa'),
 ('말', 'Noun'),
 ('이', 'Josa'),
 ('딱이다', 'Adjective'),
 ('쓰레기', 'Noun'),
 ('같다', 'Adjective'),
 ('영화', 'Noun'),
 ('ㄹㅇ', 'KoreanParticle'),
 ('시간', 'Noun'),
 ('아깝다', 'Adjective'),
 ('점도', 'Noun'),
 ('아깝다', 'Adjective'),
 ('ㄹㅇ', 'KoreanParticle'),
 ('쓰레기', 'Noun'),
 ('영화', 'Noun'),
 ('이', 'Noun'),
 ('드럽다', 'Adjective'),
 ('기분', 'Noun'),
 ('을', 'Josa'),
 ('어쩌지', 'Adverb'),
 ('이건', 'Noun'),
 ('명작', 'Noun'),
 ('임', 'Noun'),
 ('이렇다', 'Adjective'),
 ('느낌', 'Noun'),
 ('영화', 'Noun'),
 ('좋다', 'Adjective'),
 ('죽다', 'Verb'),
 ('보다', 'Verb'),
 ('야하다', 'Adjective'),
 ('영화', 'Noun'),
 ('뻔하다', 'Adjective'),
 ('로코', 'Noun'),
 ('가', 'Josa'),
 ('아니다', 'Adjective'),
 ('대사', 'Noun'),
 ('가', 'Josa'),
 ('아주', 'Noun'),
 ('좋다', 'Adjective'),
 ('안', 'VerbPrefix'),
 ('보다', 'Verb'),
 ('후회', 'Noun'),
 ('하다', 'Verb'),
 ('같다', 'Adjective'),
 ('감동', 'Noun'),
 ('이다', 'Josa')]

In [50]:
tmp_token=[word for word,p in pos if p in ['Noun','Adjective','Verb']]
tmp_token

['스토리',
 '진짜',
 '노잼',
 '심오하다',
 '똥',
 '말',
 '딱이다',
 '쓰레기',
 '같다',
 '영화',
 '시간',
 '아깝다',
 '점도',
 '아깝다',
 '쓰레기',
 '영화',
 '이',
 '드럽다',
 '기분',
 '이건',
 '명작',
 '임',
 '이렇다',
 '느낌',
 '영화',
 '좋다',
 '죽다',
 '보다',
 '야하다',
 '영화',
 '뻔하다',
 '로코',
 '아니다',
 '대사',
 '아주',
 '좋다',
 '보다',
 '후회',
 '하다',
 '같다',
 '감동']

### - 각 문서에서  명사, 형용사, 동사 추출

In [52]:
sample

['스토리가 진짜 너무 노잼',
 '심오한 똥이란 말이 딱이다',
 '쓰레기같은 영화 ㄹㅇ 시간아깝다',
 '점도 아깝다 ㄹㅇ쓰레기 영화',
 '이 드러운 기분을 어쩌지',
 '이건 명작임',
 '이런 느낌 영화 좋아요',
 '죽기전에 봐야할 영화',
 '뻔한 로코가아님 대사가 아주 좋아요',
 '안봤으면 후회했을거같다감동이다']

In [55]:
tmp=[okt.pos(i) for i in sample]
tmp

[[('스토리', 'Noun'),
  ('가', 'Josa'),
  ('진짜', 'Noun'),
  ('너무', 'Adverb'),
  ('노잼', 'Noun')],
 [('심오한', 'Adjective'),
  ('똥', 'Noun'),
  ('이란', 'Josa'),
  ('말', 'Noun'),
  ('이', 'Josa'),
  ('딱이다', 'Adjective')],
 [('쓰레기', 'Noun'),
  ('같은', 'Adjective'),
  ('영화', 'Noun'),
  ('ㄹㅇ', 'KoreanParticle'),
  ('시간', 'Noun'),
  ('아깝다', 'Adjective')],
 [('점도', 'Noun'),
  ('아깝다', 'Adjective'),
  ('ㄹㅇ', 'KoreanParticle'),
  ('쓰레기', 'Noun'),
  ('영화', 'Noun')],
 [('이', 'Noun'),
  ('드러운', 'Adjective'),
  ('기분', 'Noun'),
  ('을', 'Josa'),
  ('어쩌지', 'Adverb')],
 [('이건', 'Noun'), ('명작', 'Noun'), ('임', 'Noun')],
 [('이런', 'Adjective'), ('느낌', 'Noun'), ('영화', 'Noun'), ('좋아요', 'Adjective')],
 [('죽기전에', 'Verb'), ('봐', 'Verb'), ('야할', 'Adjective'), ('영화', 'Noun')],
 [('뻔한', 'Adjective'),
  ('로코', 'Noun'),
  ('가', 'Josa'),
  ('아님', 'Adjective'),
  ('대사', 'Noun'),
  ('가', 'Josa'),
  ('아주', 'Noun'),
  ('좋아요', 'Adjective')],
 [('안', 'VerbPrefix'),
  ('봤으면', 'Verb'),
  ('후회', 'Noun'),
  ('했을거', 'Verb'),
  ('같다', 'Adj

In [65]:
res=[]
for pos in tmp:
    res.append([word for word, p in pos if p in ['Noun','Adjective','Verb']])
res

[['스토리', '진짜', '노잼'],
 ['심오한', '똥', '말', '딱이다'],
 ['쓰레기', '같은', '영화', '시간', '아깝다'],
 ['점도', '아깝다', '쓰레기', '영화'],
 ['이', '드러운', '기분'],
 ['이건', '명작', '임'],
 ['이런', '느낌', '영화', '좋아요'],
 ['죽기전에', '봐', '야할', '영화'],
 ['뻔한', '로코', '아님', '대사', '아주', '좋아요'],
 ['봤으면', '후회', '했을거', '같다', '감동']]

### 6. stopword 지정

#### - 한 문장에서 stopword 제외

In [66]:
document

'스토리가 진짜 너무 노잼 심오한 똥이란 말이 딱이다 쓰레기같은 영화 ㄹㅇ 시간아깝다 점도 아깝다 ㄹㅇ쓰레기 영화 이 드러운 기분을 어쩌지 이건 명작임 이런 느낌 영화 좋아요 죽기전에 봐야할 영화 뻔한 로코가아님 대사가 아주 좋아요 안봤으면 후회했을거같다감동이다'

In [69]:
# 명사 추출
okt=Okt()
n=okt.nouns(document)
print(n)

['스토리', '진짜', '노잼', '똥', '말', '쓰레기', '영화', '시간', '점도', '쓰레기', '영화', '이', '기분', '이건', '명작', '임', '느낌', '영화', '영화', '로코', '대사', '아주', '후회', '감동']


In [74]:
#stopword
stopword=['스토리','똥','이','임']
n_1=[i for i in n if i not in stopword]
print(n_1)

['진짜', '노잼', '말', '쓰레기', '영화', '시간', '점도', '쓰레기', '영화', '기분', '이건', '명작', '느낌', '영화', '영화', '로코', '대사', '아주', '후회', '감동']


#### - 여러 문장에서 stopword 제외

In [75]:
sample

['스토리가 진짜 너무 노잼',
 '심오한 똥이란 말이 딱이다',
 '쓰레기같은 영화 ㄹㅇ 시간아깝다',
 '점도 아깝다 ㄹㅇ쓰레기 영화',
 '이 드러운 기분을 어쩌지',
 '이건 명작임',
 '이런 느낌 영화 좋아요',
 '죽기전에 봐야할 영화',
 '뻔한 로코가아님 대사가 아주 좋아요',
 '안봤으면 후회했을거같다감동이다']

In [79]:
# 각 문장에서 명사추출
okt=Okt()
nouns=[okt.nouns(i) for i in sample]
nouns

[['스토리', '진짜', '노잼'],
 ['똥', '말'],
 ['쓰레기', '영화', '시간'],
 ['점도', '쓰레기', '영화'],
 ['이', '기분'],
 ['이건', '명작', '임'],
 ['느낌', '영화'],
 ['영화'],
 ['로코', '대사', '아주'],
 ['후회', '감동']]

In [81]:
stopword=['스토리','똥','이','임']

res_noun=[]
for i in nouns:
    res_noun.append([w for w in i if w not in stopword])

res_noun


[['진짜', '노잼'],
 ['말'],
 ['쓰레기', '영화', '시간'],
 ['점도', '쓰레기', '영화'],
 ['기분'],
 ['이건', '명작'],
 ['느낌', '영화'],
 ['영화'],
 ['로코', '대사', '아주'],
 ['후회', '감동']]

In [83]:
tmp=[' '.join(i) for i in res_noun]
tmp

['진짜 노잼',
 '말',
 '쓰레기 영화 시간',
 '점도 쓰레기 영화',
 '기분',
 '이건 명작',
 '느낌 영화',
 '영화',
 '로코 대사 아주',
 '후회 감동']