# 토큰화 이론
- corpus에서 용도에 맞게 토큰을 분류하는 작업
- 텍스트 자르는 것
- 문장 토큰화
- 단어 토큰화
- subword 토큰화

영어 토큰화/ 한글 토큰화 나눠서 배워보자.



## 영어 토큰화
- 띄어쓰기, 온점을 이용
- 문장 토큰화
- 단어 토큰화

근데 문제점 발생.

기계는 문장의 의미 파악을 못하기 때문에 그냥 잘라내기만 하면 문장에 느낌표 등 다른 문자가 하나만 있어도 다른 문장이라고 판단해버림

해결방법? 특수문자 제거
- 그런데.. 특수문자가 의미를 갖는 경우에도 문제 발생..
- mr, so
- 192.168.0.1 (IP주소)

In [74]:
sample_text = "I'm another year older. I won't cry about you anymore. Told my friends to come over. To dye my hair, mm."
# 문장 토큰화 해보자.
tokenized_sentence = sample_text.split(". ")
# ". " 을 기준으로 문장을 잘라보자.
# 항상 문장의 마지막에는 온점을 찍고 한 칸 띄어쓰기가 있기 때문이다.
tokenized_sentence

["I'm another year older",
 "I won't cry about you anymore",
 'Told my friends to come over',
 'To dye my hair, mm.']

In [75]:
# 이번에는 단어를 기준으로 잘라보자.
tokenized_word = sample_text.split()
# split() 함수에 빈칸으로 두게 되면 띄어쓰기를 기준으로 자르게 된다.
tokenized_word

["I'm",
 'another',
 'year',
 'older.',
 'I',
 "won't",
 'cry',
 'about',
 'you',
 'anymore.',
 'Told',
 'my',
 'friends',
 'to',
 'come',
 'over.',
 'To',
 'dye',
 'my',
 'hair,',
 'mm.']

In [76]:
# 하지만 이 때의 문제점은 띄어쓰기를 기준으로 잘랐기 때문에 온 점도 같이 포함이 된다.
# 그러면 이번에는 온점을 없앤 후,
# 단어를 기준으로 토큰화해보자.

sample_text_notOnZum = sample_text.replace(".", "")
sample_text_notOnZum
tokenized_sample_text_notOnZum = sample_text_notOnZum.split()
tokenized_sample_text_notOnZum

["I'm",
 'another',
 'year',
 'older',
 'I',
 "won't",
 'cry',
 'about',
 'you',
 'anymore',
 'Told',
 'my',
 'friends',
 'to',
 'come',
 'over',
 'To',
 'dye',
 'my',
 'hair,',
 'mm']

영어 토큰화 실습
1. 기본 토크나이저  # 단어 토큰화
```python
import nltk
nltk.download("punkt")
from nltk.tokenize import word_tokenize
print(word_tokenize(sentence))
```

2. WordPunkTokenizer  # 단어 토큰화
- 어퍼스트로피 때문에 일어나는 일 해결
```python
from mltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(sentence))
```

3. TreebankWordTokenizer  # 단어 토큰화
```python
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(sentence))
```

4. sent_tokenize  # 문장 토큰화
```python
from nltk.tokenize import sent_tokenize
print(sent_tokenize(sentence))
```

In [77]:
# 토큰화 실습
# 영어 문장 토큰화 실습
import nltk
nltk.download("punkt")
# 영어 토크나이저 중 punkt 를 사용

# 토크나이저 여러가지 종류 있음

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [78]:
sentence = "Ain't nothin' sweeter, you want this sugar, don't ya?"

In [79]:
# 1. 기본 토크나이저
from nltk.tokenize import word_tokenize
print(word_tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


In [80]:
# 2. WordPunkTokenizer
# 주로 ' 때문에 일어나는 일들을 해결해준다.
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(sentence))

['Ain', "'", 't', 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'don', "'", 't', 'ya', '?']


In [81]:
# 기본 토크나이저와의 차이점을 보면 기본 토크나이저와는 다르게
# 일반 띄어쓰기로 자르는 것 뿐만 아니라
# 어퍼스트로피의 앞과 뒤로도 자른다.

In [82]:
# 3. TreebankWordTokenizer
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


In [83]:
# 4. sent_tokenize  # 문장 토큰화  # 문장별로 잘라준다
from nltk.tokenize import sent_tokenize
sentence = "Ain't nothin' sweeter, you want this sugar, don't ya? Since I'm actively looking for Ph.D. students. I get the same question a dozen times every year."
print(sent_tokenize(sentence))

["Ain't nothin' sweeter, you want this sugar, don't ya?", "Since I'm actively looking for Ph.D. students.", 'I get the same question a dozen times every year.']


In [84]:
# 원핫인코딩, 임베딩 벡터의 차이점
# 참조 : https://www.kakaobrain.com/blog/6

## 한글의 토큰화
한글의 토큰화 어려운 이유?

1. 한글은 교착어이다. - 실질적 의미를 가진 단어 또는 어간에 문법적인 기능을 가진 요소가 결합된 형태

2. 한글은 띄어쓰기가 잘 지켜지지 않는다 - 띄어쓰기를 잘 하지 않아도 이해가 된다

  띄어쓰기 문제
  - py-hanspell
  - ko-spacing
  패키지를 이용해 문법, 띄어쓰기 교정을 할 수 있다.

3. 주어생략, 어순 문제 - 그래도 이해가 된다

4. 한자어라는 특성상 하나의 음절도 다른 의미를 가질 수 있다

  한자어 특성 때문에 하나의 음절이 다른 의미를 갖는 것

  사람의 배, 타는 배, 먹는 배

## 한글의 형태소 분석  
- Konlpy  # 단어 토큰화
```python
!pip install konlpy
```
  - 한나눔(Hannanum)
  - 꼬꼬마(Kkma)
  - 코모란(Komoran) ; 오타
  - 트위터(Okt) ; 정제, 스타일링, 어간 추출(stemming), 정규화(normalization) 가능
  - Mecab ; 형태소 분석 속도 빠름, 실무에서 많이 쓰임
  ```python
  !git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh
```

```python
from konlpy.tag import Hannanum  # 한나눔
from konlpy.tag import Kkma  # 꼬꼬마
from konlpy.tag import Komoran  # 코모란
from konlpy.tag import Okt  # 트위터
from konlpy.tag import Mecab  # 맥켑
# 객체 생성
hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
mecab = Mecab()
# 명사
print(hannanum.nouns(sentence))  # 라이브러리 객체.nouns(문장)
# 각 형태소(morph)별로 토큰화
print(hannanum.morphs(sentence))  # 라이브러리 객체.morphs(문장)
# 각 (토큰, 형태소 종류)를 튜플로
print(hannanum.pos(sentence))  # 라이브러리 객체.pos(문장)
```
- kss  # 문장 토큰화
```python
!pip install kss
import kss
print(kss.split_sentences(sentence))
```

In [85]:
!pip install konlpy



In [86]:
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 72, done.[K
remote: Counting objects: 100% (72/72), done.[K
remote: Compressing objects: 100% (67/67), done.[K
remote: Total 72 (delta 31), reused 20 (delta 5), pack-reused 0[K
Unpacking objects: 100% (72/72), done.
/content/Mecab-ko-for-Google-Colab/Mecab-ko-for-Google-Colab
Installing konlpy.....
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2020-11-24 04:28:41--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 104.192.141.1, 2406:da00:ff00::3403:4be7, 2406:da00:ff00::22c3:9b0a, ...
Connecting to bitbucket.org (bitbucket.org)|104.192.141.1|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar

In [87]:
from konlpy.tag import Hannanum  # 한나눔
from konlpy.tag import Kkma  # 꼬꼬마
from konlpy.tag import Komoran  # 코모란
from konlpy.tag import Okt  # 트위터
from konlpy.tag import Mecab  # 맥켑

In [88]:
# 한나눔 라이브러리 사용

# 객체 생성
hannanum = Hannanum()

# 샘플 문장
sentence = "어떻게 이별까지 사랑하겠어. 널 사랑하는 거지."

# 명사만 추출
print(hannanum.nouns(sentence))
# 각 형태소(morph)별로 토큰화
print(hannanum.morphs(sentence))
# 각 (토큰, 형태소 종류)를 튜플로
print(hannanum.pos(sentence))

['이별', '사랑', '사랑', '거지']
['어떻', '게', '이별', '까지', '사랑', '하', '겠어', '.', '널', 'ㄹ', '사랑', '하', '는', '거지', '.']
[('어떻', 'P'), ('게', 'E'), ('이별', 'N'), ('까지', 'J'), ('사랑', 'N'), ('하', 'X'), ('겠어', 'E'), ('.', 'S'), ('널', 'P'), ('ㄹ', 'E'), ('사랑', 'N'), ('하', 'X'), ('는', 'E'), ('거지', 'N'), ('.', 'S')]


In [89]:
# 거지 -> 명사 아닌데..
# ㄹ은 갑자기 어디서 나왔을까..

In [90]:
# 꼬꼬마 라이브러리 사용

# 객체 생성
kkma = Kkma()

# 샘플 문장
sentence = "비가 오면 좋겠어. 오늘 밤엔."

# 명사만 추출
print(kkma.nouns(sentence))
# 각 형태소(morph)별로 토큰화
print(kkma.morphs(sentence))
# 각 (토큰, 형태소 종류) 튜플
print(kkma.pos(sentence))

['비가', '오늘', '밤']
['비가', '오', '면', '좋', '겠', '어', '.', '오늘', '밤', '에', '는', '.']
[('비가', 'NNG'), ('오', 'VV'), ('면', 'ECE'), ('좋', 'VA'), ('겠', 'EPT'), ('어', 'EFN'), ('.', 'SF'), ('오늘', 'NNG'), ('밤', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('.', 'SF')]


In [91]:
# 비가 -> 명사 아니고 '비'가 명사인데..

In [92]:
# 코모란 라이브러리 사용

# 객체 생성
komoran = Komoran()

# 샘플 문장
sentence = "인사를 건네. 음소거로 소리없이 흐느낀 난 오늘도 달에 밤 인사를 건네"
# 명사
print(komoran.nouns(sentence))
# 형태소별로 토큰화
print(komoran.morphs(sentence))
# (토큰, 형태소 종류) 튜플
print(komoran.pos(sentence))

['인사', '음소', '것', '소리', '오늘', '달', '밤', '인사']
['인사', '를', '건네', '어', '.', '음소', '것', '로', '소리', '없이', '흐느끼', 'ㄴ', '나', 'ㄴ', '오늘', '도', '달', '에', '밤', '인사', '를', '건네', '어']
[('인사', 'NNG'), ('를', 'JKO'), ('건네', 'VV'), ('어', 'EF'), ('.', 'SF'), ('음소', 'NNG'), ('것', 'NNB'), ('로', 'JKB'), ('소리', 'NNG'), ('없이', 'MAG'), ('흐느끼', 'VV'), ('ㄴ', 'ETM'), ('나', 'VV'), ('ㄴ', 'ETM'), ('오늘', 'NNG'), ('도', 'JX'), ('달', 'NNG'), ('에', 'JKB'), ('밤', 'NNG'), ('인사', 'NNG'), ('를', 'JKO'), ('건네', 'VV'), ('어', 'EC')]


In [93]:
# 조금씩은 다 틀리네..

In [94]:
# 트위터(Okt) 라이브러리 사용

# 객체 생성
okt = Okt()

# 샘플 문장
sentence = "노래하는 것 freedom, 춤 추는 것 freedom. 내 팬이 되는 것 freedom"
# 명사
print(okt.nouns(sentence))
# 형태소
print(okt.morphs(sentence))
# (토큰, 형태소) 튜플
print(okt.pos(sentence))

['노래', '것', '춤', '것', '내', '팬', '것']
['노래', '하는', '것', 'freedom', ',', '춤', '추는', '것', 'freedom', '.', '내', '팬', '이', '되는', '것', 'freedom']
[('노래', 'Noun'), ('하는', 'Verb'), ('것', 'Noun'), ('freedom', 'Alpha'), (',', 'Punctuation'), ('춤', 'Noun'), ('추는', 'Verb'), ('것', 'Noun'), ('freedom', 'Alpha'), ('.', 'Punctuation'), ('내', 'Noun'), ('팬', 'Noun'), ('이', 'Josa'), ('되는', 'Verb'), ('것', 'Noun'), ('freedom', 'Alpha')]


In [95]:
# 그나마 이게 좀 정확한 것으로 보인다.

In [96]:
# 멕켑 라이브러리 사용

# 객체 생성
mecab = Mecab()

# 샘플 문장
sentence = "꿈꾸는 것 freedom, 푹 자는 것 freedom, 기부하는 것 free, 안 하는 것 freedom"
# 명사
print(mecab.nouns(sentence))
# 형태소
print(mecab.morphs(sentence))
# (토큰, 형태소 종류) 튜플
print(mecab.pos(sentence))

['것', '것', '기부', '것', '것']
['꿈꾸', '는', '것', 'freedom', ',', '푹', '자', '는', '것', 'freedom', ',', '기부', '하', '는', '것', 'free', ',', '안', '하', '는', '것', 'freedom']
[('꿈꾸', 'VV'), ('는', 'ETM'), ('것', 'NNB'), ('freedom', 'SL'), (',', 'SC'), ('푹', 'MAG'), ('자', 'VV'), ('는', 'ETM'), ('것', 'NNB'), ('freedom', 'SL'), (',', 'SC'), ('기부', 'NNG'), ('하', 'XSV'), ('는', 'ETM'), ('것', 'NNB'), ('free', 'SL'), (',', 'SC'), ('안', 'MAG'), ('하', 'VV'), ('는', 'ETM'), ('것', 'NNB'), ('freedom', 'SL')]


In [97]:
# 이게 제일 빠르다.
# 잘게 쪼개는 것 같다.

In [98]:
# 이번에는 문장 토큰화
# kss 라이브러리 사용
!pip install kss



In [99]:
import kss
text = "제 아이피는 192.168.56.21입니다. 자연어 처리 재미있어요. 딥러닝 재미있어요. 떠날 때 창틀에 화분이 비었길래 뒤 뜰의 꽃을 옮겨 담았어요 제라늄 꽃을."
print(kss.split_sentences(text))

['제 아이피는 192.168.56.21입니다.', '자연어 처리 재미있어요.', '딥러닝 재미있어요.', '떠날 때 창틀에 화분이 비었길래 뒤 뜰의 꽃을 옮겨 담았어요', '제라늄 꽃을.']


# 정제(cleaning)
- 갖고 있는 corpus로부터 노이즈 데이터 제거
  - 노이즈 데이터? 특수 문자 등, 분석하고자 하는 목적에 맞지 않는 불필요한 단어들
- 정제는 토큰화 작업에 방해가 되는 부분들을 배제시키고 토큰화 작업을 수행하기 위해 토큰화 작업보다 앞에 이루어지기도 하지만
- 토큰화 작업 이후에도 여전히 남아있는 노이즈들을 제거하기 위해 지속적으로 이루어지기도 한다.
- 완벽한 정제 작업은 어렵다 -> 대부분 이 정도면 됐다. 라는 합의점에서 멈춘다.
1. 불필요한 데이터 제거(띄어쓰기, 맞춤법 정리)
2. 특수기호 제거
3. 불용어 제거
  - 불용어(stopword)? 자주 등장하지만 분석을 하는 것에 있어서 큰 도움이 되지 않은 단어들
  - ex) I, my, me, over
  - NLTK 패키지에 불용어를 패키지 내에서 미리 정의하고 있음
  - 그외에도 개발자가 임의로 불용어 지정 가능
4. 텍스트의 인코딩 문제 해결
    - 인코딩과 디코딩?
    - 문자코드 : 컴퓨터가 문자 인식을 할 수 없기 때문에 숫자로 변환되어 저장하는 방식(인코딩)의 **기준**!
    - 문자코드의 종류 : ASCII코드, 유니코드
    - 문자인코딩 : 문자 -> 코드 변환
    - 문자디코딩 : 코드 -> 문자 변환
  - 텍스트를 코드로 변환하는 데 생길 수 있는 문제. 인코딩 문제를 미리 해결해줌
5. 길이 짧은 단어 제거
- 영어권에서는 길이가 짧은 단어들은 의미를 가지지 않는 단어인 경우가 많기 때문에
- 한글에는 해당되지 않음.
- 정규표현식 사용
6. 등장 빈도 적은 단어 제거
- 등장 빈도가 적은 단어일수록 중요도가 떨어지는 단어이기 때문에

In [100]:
# 띄어쓰기, 맞춤법 정리
# KoSpacing  # 띄어쓰기 정리# hanspell  # 띄어쓰기 + 맞춤법 정리 둘 다 가능
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git
!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-lwdzs2rg
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-lwdzs2rg
Building wheels for collected packages: pykospacing
  Building wheel for pykospacing (setup.py) ... [?25l[?25hdone
  Created wheel for pykospacing: filename=pykospacing-0.3-cp36-none-any.whl size=2255638 sha256=94f3ac50cb327eca53f5285414168e8b81844d60107cb49bb0506b9ca922c580
  Stored in directory: /tmp/pip-ephem-wheel-cache-kdr_v0em/wheels/4d/45/58/e26cb2b7f6a063d234158c6fd1e5700f6e15b99d67154340ba
Successfully built pykospacing
Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-yn1l950t
  Running command git clone -q https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-yn1l950t
Building wheels for collected packages: py-hanspell
  Building wheel for py-h

In [101]:
from pykospacing import spacing
from hanspell import spell_checker

# KoSpacing 라이브러리 이용  # 띄어쓰기 정리
text = "손끝이시리더니벌써봄이왔네.내일은좀다른날이되려나."
kospacing_text = spacing(text)
print(kospacing_text)

손끝이 시리더니 벌써 봄이 왔네. 내일은 좀 다른 날이 되려나.


In [102]:
# 띄어쓰기 잘 되었다.

In [103]:
# hanspell 라이브러리 이용  # 띄어쓰기, 맞춤법 정리
text = "별이빗나는밤.겨울이지나곡다시꽅은피고.하루의끗에서.너를그리고잇어."
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

별이 빛나는 밤. 겨울이 지나 곡 다시 꽃은 피고. 하루의 끝에서. 너를 그리고 있어.


In [104]:
# "지나고"인데 "지나 곡"으로 된 것만 아쉽고 나머지 맞춤법 정리와 띄어쓰기는 잘 되었다.

# 정규화(normalization)
- 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만들어줌
- 문장의 복잡도를 줄여주는 과정
- 같은 의미를 가지고 있는 단어들을 1개로 통합하는 작업
- ex) am, are, is -> be
- ex) ㅋ, ㅋㅋㅋㅋ, ㅋㅋㅋㅋㅋㅋ -> ㅋ
- 대소문자 통합
  - 단, 무작정 통합 X. US(미국), us(우리)
  - 회사 이름, 사람 이름 등 고유명사는 대문자로 유지되어야 함
- 이모티콘 -> emo
- 정규화의 방법들
1. 어간 추출(stemming)
2. 표제어 추출(lemmatization)

어간 추출, 표제어 추출의 공통점
- 다른 단어들이지만 1개의 단어로 일반화시킬 수 있으면 1개의 단어로 일반화
- 문서 내의 단어 수를 줄이는 것이 목표
- BoW(Bag of Words) ; 단어의 빈도수를 기반으로 문제 풀이
- BoW 표현을 사용하는 자연어 처리 문제에서 주로 사용

어간 추출, 표제어 추출의 차이점
- 어간 추출 -> 품사 정보 보존되지 X, POS 태그 고려 X
- 즉, 어간 추출한 결과 -> 사전에 존재하지 X수도 있음
- 표제어 추출 -> 문맥고려 O, 품사 정보 보존 O

## 어간 추출(stemming)
- 어간을 추출하는 작업
- 형태학적 분석을 단순화한 버전
- 정해진 규칙만 보고 단어의 어미를 자르는 작업
- 형태만 보고 잘라냄
- 섬세한 작업X, 어간 추출 후 나오는 결과 -> 사전에 존재X수도 있음

## 영어 어간 추출

In [105]:
# Porter Algorith 사용
# 닮은꼴 벡터를 찾아내는 원리
# 단어의 갯수가 많을 경우 사용
# 의미는 잘 못 맞추고 대략적인 형태 파악
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize  # 일반적인 토큰화를 보여주기 위해 import

s = PorterStemmer()
text = "오 거대한 너의 그림자를 동경해 이 넓은 바다를 누비는 너의 여유 하늘의 거울 바다 땅의 세숫대야 바다"
words = word_tokenize(text)
print(words)  # 일반적인 토큰화

for word in words:
  print(s.stem(word))

print([s.stem(word) for word in words])  # 어간 추출

['오', '거대한', '너의', '그림자를', '동경해', '이', '넓은', '바다를', '누비는', '너의', '여유', '하늘의', '거울', '바다', '땅의', '세숫대야', '바다']
오
거대한
너의
그림자를
동경해
이
넓은
바다를
누비는
너의
여유
하늘의
거울
바다
땅의
세숫대야
바다
['오', '거대한', '너의', '그림자를', '동경해', '이', '넓은', '바다를', '누비는', '너의', '여유', '하늘의', '거울', '바다', '땅의', '세숫대야', '바다']


In [106]:
# 한글이라서 어근을 뽑지 못하는 것 같다. 
# 영어로 해보자.

In [107]:
text = "I don't care about the presents underneath the Christmas tree. More than you could ever know. Make my wish come true. All I want for Christmas is you, yeah."
words = word_tokenize(text)
print(words)

['I', 'do', "n't", 'care', 'about', 'the', 'presents', 'underneath', 'the', 'Christmas', 'tree', '.', 'More', 'than', 'you', 'could', 'ever', 'know', '.', 'Make', 'my', 'wish', 'come', 'true', '.', 'All', 'I', 'want', 'for', 'Christmas', 'is', 'you', ',', 'yeah', '.']


In [108]:
print([s.stem(word) for word in words])

['I', 'do', "n't", 'care', 'about', 'the', 'present', 'underneath', 'the', 'christma', 'tree', '.', 'more', 'than', 'you', 'could', 'ever', 'know', '.', 'make', 'my', 'wish', 'come', 'true', '.', 'all', 'I', 'want', 'for', 'christma', 'is', 'you', ',', 'yeah', '.']


In [109]:
# christmas -> christma로 맨 뒤 s를 복수형으로 판단하고 지워버렸다.

In [110]:
# Lancaster Stemmer 알고리즘도 있다.
from nltk.stem import LancasterStemmer
l = LancasterStemmer()
words = word_tokenize(text)
print(words)

['I', 'do', "n't", 'care', 'about', 'the', 'presents', 'underneath', 'the', 'Christmas', 'tree', '.', 'More', 'than', 'you', 'could', 'ever', 'know', '.', 'Make', 'my', 'wish', 'come', 'true', '.', 'All', 'I', 'want', 'for', 'Christmas', 'is', 'you', ',', 'yeah', '.']


In [111]:
print([l.stem(word) for word in words])

['i', 'do', "n't", 'car', 'about', 'the', 'pres', 'undernea', 'the', 'christmas', 'tre', '.', 'mor', 'than', 'you', 'could', 'ev', 'know', '.', 'mak', 'my', 'wish', 'com', 'tru', '.', 'al', 'i', 'want', 'for', 'christmas', 'is', 'you', ',', 'yeah', '.']


In [112]:
# care -> car
# present -> pres
# underneath -> undernea
# christmas는 그대로
# more -> mor
# 이렇게 많이 뒤에가 잘린다...

In [113]:
# 이렇게 PorterStemmer, LancasterStemmer는 같은 문장에 대해
# 완전히 다른 결과를 보여준다.

# 두 stemmer 알고리즘이 다르기 때문.
# 그래서 이미 알려진 알고리즘을 사용할 때는 사용하고자 하는 corpus에 stemmer를 적용해보고
# 어떤 stemmer가 해당 corpus에 적합한지를 판단하고 사용해야 한다.
# 단, 사전에 있는 단어가 아닌 알고리즘에 의한 단어가 나오는 것이므로
# 일반화 수행하지 못할수도 있다는 것 알아둬야 한다.

## 표제어 추출(Lemmatization)
- 표제어 : 기본 사전형 단어
- 표제어 추출 : 단어들로부터 표제어를 찾아가는 과정
- 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 갯수를 줄일 수 있는 지 판단
- ex) am, are, is -> be(이게 바로 표제어)

순서
- 형태학적 파싱하기
  - 형태소(어간/접사로) 분리
    - 어간 : 단어의 의미를 담고 있는 단어의 핵심 부분
    - 접사 : 단어에 추가적인 의미를 주는 부분
- ex) cats -> cat/s
- ex) fox -> 독립적인 형태소이기 때문에 분리 X
- ex) cat -> 독립적인 형태소이기 때문에 분리 X

## 영어 표제어 추출

In [114]:
# WordNetLemmatizer 사용
import nltk
nltk.download("wordnet")  # 토크나이저 다운로드
from nltk.stem import WordNetLemmatizer
# 객체 생성
n = WordNetLemmatizer()

text = "눈물이 고이네 비가 오면 좋겠어 오늘 밤엔 유난히 밝은 달 거대한 원형 속에 보이네 너의 미소"
words = word_tokenize(text)
print(words)  # 토큰화

# 표제어 추출
print([n.lemmatize(word) for word in words])

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
['눈물이', '고이네', '비가', '오면', '좋겠어', '오늘', '밤엔', '유난히', '밝은', '달', '거대한', '원형', '속에', '보이네', '너의', '미소']
['눈물이', '고이네', '비가', '오면', '좋겠어', '오늘', '밤엔', '유난히', '밝은', '달', '거대한', '원형', '속에', '보이네', '너의', '미소']


In [115]:
# 한글이라서 잘 안되는 것 같다. 영어로 해보자.
text = "I don't care about the presents underneath the Christmas tree. More than you could ever know. Make my wish come true. All I want for Christmas is you, yeah."
words = word_tokenize(text)
print(words)
print([n.lemmatize(word) for word in words])

['I', 'do', "n't", 'care', 'about', 'the', 'presents', 'underneath', 'the', 'Christmas', 'tree', '.', 'More', 'than', 'you', 'could', 'ever', 'know', '.', 'Make', 'my', 'wish', 'come', 'true', '.', 'All', 'I', 'want', 'for', 'Christmas', 'is', 'you', ',', 'yeah', '.']
['I', 'do', "n't", 'care', 'about', 'the', 'present', 'underneath', 'the', 'Christmas', 'tree', '.', 'More', 'than', 'you', 'could', 'ever', 'know', '.', 'Make', 'my', 'wish', 'come', 'true', '.', 'All', 'I', 'want', 'for', 'Christmas', 'is', 'you', ',', 'yeah', '.']


In [116]:
# christmas도 잘 보존되었고
# presents -> present 로 어근 잘 찾아줬다.
# 어간 추출(stemming)과는 다르게 표제어 추출(lemmatization)은 단어의 형태가 적절하게 잘 보존된다.는 것을 알 수 있음.
# 다른 예시도 해보자.

In [117]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(word) for word in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [118]:
# dies -> dy
# watched -> watched
# has -> ha 가 나왔다.

# 이처럼 표제어 추출기(lemmatizer)가 본래 단어의 품사 정보를 정확하게 알고 있어야지만
# 정확한 결과를 얻을 수 있는 것인데
# 표제어 추출기(lemmatizer)가 본래 단어의 품사 정보를 정확하게 알고 있지 않는다면
# 정확한 결과를 얻을 수 없다.

# 그렇다면 본래 단어의 품사 정보를 어떻게 알려줄까?
# WordNetLemmatizer는 입력으로 단어에 맞는 품사를 알려줄 수 있다.
# dies, watched, has 가 문장에서 동사로 쓰였다는 걸 알려준다면
# 표제어 추출기는 정확한결과를 낼 수 있다.

# 알려주고 결과를 봐보자.
print(n.lemmatize('dies', 'v'))
print(n.lemmatize('watched', 'v'))
print(n.lemmatize('has', 'v'))

die
watch
have


In [119]:
# dies, watched, has 가 문장에서 동사('v') 역할을 한다는 것을 정확하게 알려주니까
# 정확한 결과를 출력했다.
# dies -> die
# watched -> watch
# has -> have

## 한글 어간 추출
- 형태소 분리기인 트위터(Okt)에 어간 추출, 정규화 기능 있다.

In [120]:
from konlpy.tag import Okt
# 객체 생성
okt = Okt()
# 원래는
text = "나로 말할 것 같으면, 자신감 있는 여자. 뒤 따라와 뒤 따라와 follow me. 그래 난 다가가겠어. 내 앞을 지나갔어. 눈빛이 마주쳤어. 스타일이 좋아. 느낌 좋아."
# 명사
print(okt.nouns(text))
# 형태소
print(okt.morphs(text))
# (토큰, 형태소 종류) 튜플
print(okt.pos(text))

['나로', '말', '것', '자신감', '여자', '뒤', '뒤', '난', '내', '앞', '눈빛', '스타일', '느낌']
['나로', '말', '할', '것', '같으면', ',', '자신감', '있는', '여자', '.', '뒤', '따라와', '뒤', '따라와', 'follow', 'me', '.', '그래', '난', '다가가겠어', '.', '내', '앞', '을', '지나갔어', '.', '눈빛', '이', '마주쳤어', '.', '스타일', '이', '좋아', '.', '느낌', '좋아', '.']
[('나로', 'Noun'), ('말', 'Noun'), ('할', 'Verb'), ('것', 'Noun'), ('같으면', 'Adjective'), (',', 'Punctuation'), ('자신감', 'Noun'), ('있는', 'Adjective'), ('여자', 'Noun'), ('.', 'Punctuation'), ('뒤', 'Noun'), ('따라와', 'Verb'), ('뒤', 'Noun'), ('따라와', 'Verb'), ('follow', 'Alpha'), ('me', 'Alpha'), ('.', 'Punctuation'), ('그래', 'Adjective'), ('난', 'Noun'), ('다가가겠어', 'Verb'), ('.', 'Punctuation'), ('내', 'Noun'), ('앞', 'Noun'), ('을', 'Josa'), ('지나갔어', 'Verb'), ('.', 'Punctuation'), ('눈빛', 'Noun'), ('이', 'Josa'), ('마주쳤어', 'Verb'), ('.', 'Punctuation'), ('스타일', 'Noun'), ('이', 'Josa'), ('좋아', 'Adjective'), ('.', 'Punctuation'), ('느낌', 'Noun'), ('좋아', 'Adjective'), ('.', 'Punctuation')]


In [121]:
# 이런데
# 여기에 어간 추출 기능을 추가하면
print(okt.morphs(text, stem=True))  # stem=True 를 추가해주면 된다.

['나로', '말', '하다', '것', '같다', ',', '자신감', '있다', '여자', '.', '뒤', '따라오다', '뒤', '따라오다', 'follow', 'me', '.', '그렇다', '난', '다가가다', '.', '내', '앞', '을', '지나가다', '.', '눈빛', '이', '마주치다', '.', '스타일', '이', '좋다', '.', '느낌', '좋다', '.']


In [122]:
# 위의 그냥 morphs를 이용해서 형태소별로 추출을 할 때는
# 같으면
# 밑에 어간 추출 기능을 추가하면
# 같다
# 이런 식으로 어간. 단어의 의미를 담고 있는 단어의 핵심 부분. 을 추출해준다.

## 한글 정규화(normalization)

In [124]:
# 이번에는 정규화를 해보자.
print(okt.morphs(text, stem=True, norm=True))

['나로', '말', '하다', '것', '같다', ',', '자신감', '있다', '여자', '.', '뒤', '따라오다', '뒤', '따라오다', 'follow', 'me', '.', '그렇다', '난', '다가가다', '.', '내', '앞', '을', '지나가다', '.', '눈빛', '이', '마주치다', '.', '스타일', '이', '좋다', '.', '느낌', '좋다', '.']


In [126]:
# ㅋㅋㅋ와 같이 한글 이모티콘이 들어있는 문장으로 테스트해보자.
text = "왘ㅋㅋㅋㅋㅋㅋㅋ엄청 웃곀ㅋㅋㅋㅋㅋ"
print(okt.morphs(text))
print(okt.morphs(text, stem=True))
print(okt.pos(text))
print(okt.pos(text, stem=True))

['왘', 'ㅋㅋㅋㅋㅋㅋㅋ', '엄청', '웃곀', 'ㅋㅋㅋㅋㅋ']
['왘', 'ㅋㅋㅋㅋㅋㅋㅋ', '엄청', '웃곀', 'ㅋㅋㅋㅋㅋ']
[('왘', 'Noun'), ('ㅋㅋㅋㅋㅋㅋㅋ', 'KoreanParticle'), ('엄청', 'Adverb'), ('웃곀', 'Noun'), ('ㅋㅋㅋㅋㅋ', 'KoreanParticle')]
[('왘', 'Noun'), ('ㅋㅋㅋㅋㅋㅋㅋ', 'KoreanParticle'), ('엄청', 'Adverb'), ('웃곀', 'Noun'), ('ㅋㅋㅋㅋㅋ', 'KoreanParticle')]


In [127]:
# 이 때 ㅋㅋㅋㅋㅋㅋㅋ는 짧게 줄여도 된다.

## 이모티콘, 의미없이 반복되는 문자 정제
- ex) ㅋㅋ, ㅋㅋㅋ, ㅋㅋㅋㅋ
- ex) 와하하, 와하하하, 와하하하하
```python
!pip install soynlp
# 이모티콘 정제
from soynlp.normalize import emoticaon_normalize
print(emoticon_normalize(sentence, num_repeats=2))
from soynlp.normalizer import repeat_normalize
print(repeat_normalize(sentence, num_repeats=2))
```

In [128]:
!pip install soynlp

Collecting soynlp
[?25l  Downloading https://files.pythonhosted.org/packages/7e/50/6913dc52a86a6b189419e59f9eef1b8d599cffb6f44f7bb91854165fc603/soynlp-0.0.493-py3-none-any.whl (416kB)
[K     |████████████████████████████████| 419kB 5.5MB/s 
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493


In [134]:
# 이모티콘 정제 : emoticon_normalize 라이브러리 사용
from soynlp.normalizer import emoticon_normalize
print(emoticon_normalize("앜ㅋㅋㅋㅋㅋㅋㅋ이영화 짱재밌어ㅠㅠㅠㅠㅠㅠㅠㅠ", num_repeats=2))  # num_repeats로 이모티콘의 최대 반복횟수를 지정해준다.
print(emoticon_normalize("앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화 짱재밌어ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ"))
print(emoticon_normalize("앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화 짱재밌어ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ", num_repeats=3))
print(emoticon_normalize("앜ㅋㅋㅋㅌㅋㅋㅋㅋㅋㅋㅋㅌㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화 짱재밌어ㅠㅠㅠㅠㅠㅠㅠㅠㅜㅜㅜㅜㅜㅜㅜㅜㅠㅜㅜㅜㅜㅠㅜㅠㅜㅠㅜ"))

아ㅋㅋ영화 짱재밌어ㅠㅠ
아ㅋㅋ영화 짱재밌어ㅠㅠ
아ㅋㅋㅋ영화 짱재밌어ㅠㅠㅠ
아ㅋㅋㅌㅋㅋㅌㅋㅋ영화 짱재밌어ㅠㅠㅜㅜㅠㅜㅜㅠㅜㅠㅜㅠㅜ


In [136]:
# 반복되는 한글 정제 : repeat_normalize 라이브러리 사용
from soynlp.normalizer import repeat_normalize
print(repeat_normalize("와하하핫", num_repeats=2))
print(repeat_normalize("와하하하하하핫", num_repeats=2))
print(repeat_normalize("와하하하하하하하핫", num_repeats=3))

와하하핫
와하하핫
와하하하핫


## 정규표현식을 이용한 불용어 제거

In [140]:
eng_sent = "\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n—\nBake Timmons, III"
print(eng_sent)








Yeah, do you expect people to read the FAQ, etc. and actually accept hard
atheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out
of steam!







Jim,

Sorry I can't pity you, Jim.  And I'm sorry that you have these feelings of
denial about the faith you need to get by.  Oh well, just pretend that it will
all end happily ever after anyway.  Maybe if you start a new newsgroup,
alt.atheist.hard, you won't be bummin' so much?






Bye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) 
—
Bake Timmons, III


In [142]:
# 영어 알파벳, 띄어쓰기만 남기자.
import re
eng_sent = re.sub("[^A-Za-z]", " ", eng_sent)  # 알파벳과 띄어쓰기가 아닌 것들은 제거
# 즉, 영어 알파벳과 띄어쓰기만 남기자.
print(eng_sent)

       Yeah  do you expect people to read the FAQ  etc  and actually accept hard atheism   No  you need a little leap of faith  Jimmy   Your logic runs out of steam         Jim   Sorry I can t pity you  Jim   And I m sorry that you have these feelings of denial about the faith you need to get by   Oh well  just pretend that it will all end happily ever after anyway   Maybe if you start a new newsgroup  alt atheist hard  you won t be bummin  so much        Bye Bye  Big Jim   Don t forget your Flintstone s Chewables         Bake Timmons  III


In [144]:
# split 개념에 대해 다시 집고 넘어가자면
aa = "a b c"  # 띄어쓰기가 1칸씩만 되어있을 때는
print(aa.split(' '))  # 글자가 잘 분할된다.
bb = "a     b c"  # 띄어쓰기가 2칸 이상 존재하면
print(bb.split(' '))  # 띄어쓰기도 분할이 되버린다.
cc = "a     b c"  # 띄어쓰기 갯수와 상관 없이 그냥 띄어쓰기가 있기만 하면 다 없애고 단어만 뽑고 싶다면
print(cc.split())  # split() 괄호 안에 아무것도 넣지 않으면 된다.

['a', 'b', 'c']
['a', '', '', '', '', 'b', 'c']
['a', 'b', 'c']


In [145]:
# split() : 띄어쓰기가 존재하면 다 없앰
# split(' ') : 띄어쓰기가 존재하면 1칸만 없앰

In [146]:
kor_sent = "와 이것도 영화라고...ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔!!"
import re
print(re.sub("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", " ", kor_sent))

와 이것도 영화라고   ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔  


In [147]:
# 한글, 띄어쓰기만 남긴다

In [149]:
# 그런데 한글과 띄어쓰기를 제외한 다른 문자가 있을 때 띄어쓰기 1칸으로 대체를 해버렸더니
# 띄어쓰기가 2개 이상이 붙어있는 구간이 있다.
# 띄어쓰기 2개 이상 -> 띄어쓰기 1개 로 바꿔주고 싶다.

# 다시 정규표현식을 사용해보자.
# 원래 띄어쓰기 1칸이 있을 때~가 조건이라면 "[ ]" 인데 띄어쓰기 갯수가 2개 이상 붙어있으면 이라는 조건이 붙었다.
# {} 를 사용해주자.
kor_sent = re.sub("[ ]{2,}", " ", kor_sent)  # 띄어쓰기 갯수가 2개 이상일 경우~ 라는 조건을 붙여줬다.
print(kor_sent)

와 이것도 영화라고...ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔!!
