# 한국어 텍스트 전처리

credit: 19기 DA 박수민

# KoNLPy 설치

In [None]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 7.2 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 64.6 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


In [None]:
import konlpy

KoNLPy의 내장된 분석기 종류
1. Hannanum
2. Kkma
3. Komoran
4. Mecab
5. Okt(Twitter)


* 분석기마다 로딩시간과 실행시간이 다르다.
* 동일한 문장이라도 분석기에 따라 품사 태깅하는 결과가 다르다.
* KoNLPy의 분석기 중에서 사용할 것을 불러와서 인스턴스로 만들어준다.  
(인스턴스: 클래스의 정의를 통해 만들어진 객체)

In [None]:
from konlpy.tag import Okt,Kkma
okt = Okt()
kkma = Kkma()

# KoNLPy 실습

------------------------------------------------------

사용할 수 있는 함수
- `morphs` : 형태소 분석
- `pos` : 품사 태깅 (Part-of-speech tagging)
- `nouns` : 명사 추출

분석기에 따라 사용할 수 있는 함수가 조금씩 다릅니다.<br>
okt 함수의 기능들을 알아봅시다.<br>

    * morphs(phrase, norm=False, stem=False)
    : phrase 를 형태소 단위로 나눔.

    * nouns(phrase)
    : phrase 의 형태소 중에서 noun 만 추출.

    * phrases(phrase)
    : phrase 에서 어절을 추출.

    * pos(phrase, norm=False, stem=False)
    : 품사(POS) 태깅.<br>

- parameters?<br>
        1. norm – True 로 설정하면 문장을 정규화시킴(오류나 실수를 수정).
        ex) 사릉해 -> 사랑해
        2. stem – True 로 설정하면 어근화시킴(단어의 기본형으로 변환).
        ex) 되나요 -> 되다

---------------------------------

In [None]:
# text 라는 변수에 실제 문장을 입력합니다.
text = "아버지가 방에 들어가신다"

#### 토큰화

In [None]:
# 토큰화 
kkma.morphs(text)

['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다']

In [None]:
# 분석기에 따른 토큰화 결과 비교
print("kkma :", kkma.morphs(text)) 
print("okt :", okt.morphs(text))

kkma : ['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다']
okt : ['아버지', '가', '방', '에', '들어가신다']


### 품사태깅

In [None]:
# 분석기에 따른 품사 태깅 결과 비교
print(kkma.pos(text))
print(okt.pos(text))

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]
[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]


In [None]:
# 품사가 명사인 단어들만 남기기
nouns = []
pos_text = okt.pos(text)

for each_tuple in pos_text:
    if each_tuple[1] == "Noun":
        nouns.append(each_tuple[0])

nouns

['아버지', '방']

### 정규화

In [None]:
text = "안녕하세욬ㅋㅋㅋ 반가워요 샤릉해"

In [None]:
print("정규화 적용 X:", okt.pos(text, norm=False))
print("정규화 적용 O:", okt.pos(text, norm=True))

정규화 적용 X: [('안녕하세', 'Adjective'), ('욬', 'Noun'), ('ㅋㅋㅋ', 'KoreanParticle'), ('반가워요', 'Adjective'), ('샤릉해', 'Noun')]
정규화 적용 O: [('안녕하세요', 'Adjective'), ('ㅋㅋㅋ', 'KoreanParticle'), ('반가워요', 'Adjective'), ('사랑', 'Noun'), ('해', 'Verb')]


### 어근화

In [None]:
text = "달콤한 너의 러시안 룰렛"

In [None]:
print("어근화 적용 X:", okt.pos(text, stem=False))
print("어근화 적용 O:", okt.pos(text, stem=True))

어근화 적용 X: [('달콤한', 'Adjective'), ('너', 'Noun'), ('의', 'Josa'), ('러시안', 'Noun'), ('룰렛', 'Noun')]
어근화 적용 O: [('달콤하다', 'Adjective'), ('너', 'Noun'), ('의', 'Josa'), ('러시안', 'Noun'), ('룰렛', 'Noun')]


-------------------


**세종 품사 태그**

|대분류|태그|설명|
|----|---|---|
|체언|NNG|일반 명사|
|체언|NNP|고유 명사|
|체언|NNB|의존 명사|
|체언|NR |수사|
|체언|NP |대명사|
|용언|VV |동사|
|용언|VA |형용사|
|용언|VX |보조 용언|
|용언|VCP|긍정 지정사|
|용언|VCN|부정 지정사|
|관형사|MM|관형사|
|부사|MAG|일반 부사|
|부사|MAJ|접속 부사|
|감탄사|IC|감탄사|
|조사|JKS|주격 조사|
|조사|JKC|보격 조사|
|조사|JKG|관형격 조사|
|조사|JKO|목적격 조사|
|조사|JKB|부사격 조사|
|조사|JKV|호격 조사|
|조사|JKQ|인용격 조사|
|조사|JX |보조사|
|조사|JC |접속 조사|
|선어말 어미|EP|선어말 어미|
|어말 어미|EF|종결 어미|
|어말 어미|EC||연결 어미|
|어말 어미|ETN|명사형 전성 어미|
|어말 어미|ETM|관형형 전성 어미|
|접두사|XPN|체언 접두사|
|접미사|XSN|명사 파생 접미사|
|접미사|XSV|동사 파생 접미사|
|접미사|XSA|형용사 파생 접미사|
|어근|XR|어근|
|부호|SF|마침표, 물음표, 느낌표|
|부호|SP|쉼표, 가운뎃점, 콜론, 빗금|
|부호|SS|따옴표, 괄호표, 줄표|
|부호|SE|줄임표|
|부호|SO|붙임표 (물결, 숨김, 빠짐)|
|부호|SW|기타기호 (논리수학기호, 화폐기호)|
|분석 불능|NF|명사추정범주|
|분석 불능|NV|용언추정범주|
|분석 불능|NA|분석불능범주|
|한글 이외|SL|외국어|
|한글 이외|SH|한자|
|한글 이외|SN|숫자|

# 사용자 정의 불용어 제거

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize

In [None]:
example = "막 답답하고 숨이 막히고 내게 빠진 거 맞지 너무 겁먹지 마 난 바로 너야 넌 숨만 쉬어도 내 짝이 될 테니까."

# 불용어 리스트 생성
stop_words = "답답하고 숨이 빠진 맞지 겁먹지"
stop_words = stop_words.split(' ')

# 단어 토큰화 실시
word_tokens = word_tokenize(example)

# 불용어 제거 실시
result = [word for word in word_tokens if word not in stop_words]

# 결과 출력
print(word_tokens) 
print(result)

['막', '답답하고', '숨이', '막히고', '내게', '빠진', '거', '맞지', '너무', '겁먹지', '마', '난', '바로', '너야', '넌', '숨만', '쉬어도', '내', '짝이', '될', '테니까', '.']
['막', '막히고', '내게', '거', '너무', '마', '난', '바로', '너야', '넌', '숨만', '쉬어도', '내', '짝이', '될', '테니까', '.']


**한국어 불용어 리스트 참고 사이트**  
https://www.ranks.nl/stopwords/korean  
https://bab2min.tistory.com/544