### 영문 한글 형태소 분석

---

In [None]:
text = """Beneath it were the words: "Stay Hungry. Stay Foolish." It was their farewell message 
as they signed off. Stay Hungry. Stay Foolish. And I have always wished that for myself. And now, as 
you graduate to begin a new, I wish that for you."""

---

#### 특수문자 제거(Cleaning)

In [None]:
import string
import re

clean = re.sub('[^\w\s]','',text)
print(clean)

Beneath it were the words Stay Hungry Stay Foolish It was their farewell message 
as they signed off Stay Hungry Stay Foolish And I have always wished that for myself And now as 
you graduate to begin a new I wish that for you


In [None]:
clean = re.sub('\n','',clean)
print(clean)

Beneath it were the words Stay Hungry Stay Foolish It was their farewell message as they signed off Stay Hungry Stay Foolish And I have always wished that for myself And now as you graduate to begin a new I wish that for you


---

#### 토큰화(Tokenization)

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
sent_tokens = nltk.sent_tokenize(text)
print(sent_tokens)

['Beneath it were the words: "Stay Hungry.', 'Stay Foolish."', 'It was their farewell message \nas they signed off.', 'Stay Hungry.', 'Stay Foolish.', 'And I have always wished that for myself.', 'And now, as \nyou graduate to begin a new, I wish that for you.']


In [None]:
tokens = nltk.word_tokenize(clean)
print(tokens)

['Beneath', 'it', 'were', 'the', 'words', 'Stay', 'Hungry', 'Stay', 'Foolish', 'It', 'was', 'their', 'farewell', 'message', 'as', 'they', 'signed', 'off', 'Stay', 'Hungry', 'Stay', 'Foolish', 'And', 'I', 'have', 'always', 'wished', 'that', 'for', 'myself', 'And', 'now', 'as', 'you', 'graduate', 'to', 'begin', 'a', 'new', 'I', 'wish', 'that', 'for', 'you']


---

#### 불용어 제거(Stopword Elimination)

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
from nltk.corpus import stopwords 

stop = stopwords.words('english')
tokens = [token for token in tokens if token not in stop]
print(tokens)

['Beneath', 'words', 'Stay', 'Hungry', 'Stay', 'Foolish', 'It', 'farewell', 'message', 'signed', 'Stay', 'Hungry', 'Stay', 'Foolish', 'And', 'I', 'always', 'wished', 'And', 'graduate', 'begin', 'new', 'I', 'wish']


In [None]:
tokens = [token for token in tokens if len(token) >= 3]
print(tokens)

['Beneath', 'words', 'Stay', 'Hungry', 'Stay', 'Foolish', 'farewell', 'message', 'signed', 'Stay', 'Hungry', 'Stay', 'Foolish', 'And', 'always', 'wished', 'And', 'graduate', 'begin', 'new', 'wish']


---

#### 소문자화(lower capitalization)

In [None]:
tokens = [token.lower() for token in tokens]
print(tokens)

['beneath', 'words', 'stay', 'hungry', 'stay', 'foolish', 'farewell', 'message', 'signed', 'stay', 'hungry', 'stay', 'foolish', 'and', 'always', 'wished', 'and', 'graduate', 'begin', 'new', 'wish']


In [None]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [None]:
from nltk.tag import pos_tag

tagged_list = pos_tag(set(tokens))
print(tagged_list)

[('stay', 'NN'), ('and', 'CC'), ('words', 'NNS'), ('new', 'JJ'), ('graduate', 'NN'), ('hungry', 'JJ'), ('always', 'RB'), ('begin', 'VBP'), ('beneath', 'NN'), ('farewell', 'NN'), ('wished', 'VBD'), ('signed', 'JJ'), ('wish', 'JJ'), ('foolish', 'JJ'), ('message', 'NN')]


In [None]:
text = """그 밑에는 "계속 배고픔을 느끼세요. 계속 바보로 남으세요" 라는 문구가 새겨져 있었습니다. 그들이 전한 마지막
인사말이었습니다. 계속 배고픔을 느끼세요, 계속 바보로 남으세요. 그리고 저는 항상 제 자신이 그렇길 바랬습니다. 이제는 
졸업을 하고 새로운 출발을 하는 여러분에게 바라는 바 입니다.
"""

In [None]:
import string
import re

cleaned_text = re.sub('[^\w\s]','',text)
print(cleaned_text)

그 밑에는 계속 배고픔을 느끼세요 계속 바보로 남으세요 라는 문구가 새겨져 있었습니다 그들이 전한 마지막
인사말이었습니다 계속 배고픔을 느끼세요 계속 바보로 남으세요 그리고 저는 항상 제 자신이 그렇길 바랬습니다 이제는 
졸업을 하고 새로운 출발을 하는 여러분에게 바라는 바 입니다



In [None]:
cleaned_text = re.sub('\n',' ',cleaned_text)
print(cleaned_text)

그 밑에는 계속 배고픔을 느끼세요 계속 바보로 남으세요 라는 문구가 새겨져 있었습니다 그들이 전한 마지막 인사말이었습니다 계속 배고픔을 느끼세요 계속 바보로 남으세요 그리고 저는 항상 제 자신이 그렇길 바랬습니다 이제는  졸업을 하고 새로운 출발을 하는 여러분에게 바라는 바 입니다 


In [None]:
def tokenizer(words):
  tokens = words.split()
  return tokens

tokens = tokenizer(cleaned_text)
print(tokens)

['그', '밑에는', '계속', '배고픔을', '느끼세요', '계속', '바보로', '남으세요', '라는', '문구가', '새겨져', '있었습니다', '그들이', '전한', '마지막', '인사말이었습니다', '계속', '배고픔을', '느끼세요', '계속', '바보로', '남으세요', '그리고', '저는', '항상', '제', '자신이', '그렇길', '바랬습니다', '이제는', '졸업을', '하고', '새로운', '출발을', '하는', '여러분에게', '바라는', '바', '입니다']


In [None]:
!pip install JPype1
!pip install konlpy
!sudo apt-get install curl git
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

Reading package lists... Done
Building dependency tree       
Reading state information... Done
curl is already the newest version (7.58.0-2ubuntu3.16).
git is already the newest version (1:2.17.1-1ubuntu0.9).
0 upgraded, 0 newly installed, 0 to remove and 38 not upgraded.
mecab-ko is already installed
mecab-ko-dic is already installed
mecab-python is already installed
Done.


In [None]:
from konlpy.tag import Okt, Kkma, Komoran, Hannanum, Mecab
# tagger = Kkma()
# tagger = Komoran()
# tagger = Hannanum()
# tagger = Okt()
tagger = Mecab()

In [None]:
tag_list = tagger.morphs(cleaned_text)
print(tag_list)

['그', '밑', '에', '는', '계속', '배고픔', '을', '느끼', '세요', '계속', '바보', '로', '남', '으세요', '라는', '문구', '가', '새겨져', '있', '었', '습니다', '그', '들', '이', '전한', '마지막', '인사말', '이', '었', '습니다', '계속', '배고픔', '을', '느끼', '세요', '계속', '바보', '로', '남', '으세요', '그리고', '저', '는', '항상', '제', '자신', '이', '그렇', '길', '바랬', '습니다', '이제', '는', '졸업', '을', '하', '고', '새로운', '출발', '을', '하', '는', '여러분', '에게', '바라', '는', '바', '입', '니다']


In [None]:
pos_list = tagger.pos(cleaned_text)
print(pos_list)

[('그', 'MM'), ('밑', 'NNG'), ('에', 'JKB'), ('는', 'JX'), ('계속', 'MAG'), ('배고픔', 'NNG'), ('을', 'JKO'), ('느끼', 'VV'), ('세요', 'EP+EF'), ('계속', 'MAG'), ('바보', 'NNG'), ('로', 'JKB'), ('남', 'VV'), ('으세요', 'EF'), ('라는', 'ETM'), ('문구', 'NNG'), ('가', 'JKS'), ('새겨져', 'VV+EC+VX+EC'), ('있', 'VX'), ('었', 'EP'), ('습니다', 'EF'), ('그', 'NP'), ('들', 'XSN'), ('이', 'JKS'), ('전한', 'VV+ETM'), ('마지막', 'NNG'), ('인사말', 'NNG'), ('이', 'VCP'), ('었', 'EP'), ('습니다', 'EF'), ('계속', 'MAG'), ('배고픔', 'NNG'), ('을', 'JKO'), ('느끼', 'VV'), ('세요', 'EP+EF'), ('계속', 'MAG'), ('바보', 'NNG'), ('로', 'JKB'), ('남', 'VV'), ('으세요', 'EF'), ('그리고', 'MAJ'), ('저', 'NP'), ('는', 'JX'), ('항상', 'MAG'), ('제', 'MM'), ('자신', 'NNG'), ('이', 'JKS'), ('그렇', 'VA'), ('길', 'ETN+JKO'), ('바랬', 'VV+EC+EP'), ('습니다', 'EF'), ('이제', 'MAG'), ('는', 'JX'), ('졸업', 'NNG'), ('을', 'JKO'), ('하', 'VV'), ('고', 'EC'), ('새로운', 'VA+ETM'), ('출발', 'NNG'), ('을', 'JKO'), ('하', 'VV'), ('는', 'ETM'), ('여러분', 'NP'), ('에게', 'JKB'), ('바라', 'VV'), ('는', 'ETM'), ('바', 'NNB'), ('입', 'VV')

In [None]:
noun_list = tagger.nouns(cleaned_text)
print(noun_list)

['밑', '배고픔', '바보', '문구', '그', '마지막', '인사말', '배고픔', '바보', '저', '자신', '졸업', '출발', '여러분', '바']
