# Natural Language Processing
## 필수과제 1: 데이터 전처리

### 0. Introduction

- 본 과제의 목적은 자연어처리 모델에 활용하는 데이터를 전처리하는 것입니다.  [Spacy](https://spacy.io/) 를 활용한 영어 데이터 전처리와, [Konlpy](https://konlpy.org/ko/latest/) 를 활용한 한국어 데이터 전처리 기법을 익힙니다. 

## 1. Spacy를 이용한 영어 전처리

In [56]:
import spacy
spacy_en = spacy.load('en')

In [57]:
nlp = spacy.load('en_core_web_sm')

### 1.1 Tokenezation

In [58]:
text = nlp('Naver Connect and Upstage Boostcamp')
print ([token.text for token in text])

['Naver', 'Connect', 'and', 'Upstage', 'Boostcamp']


In [59]:
doc = nlp('This assignment is about Natural Language Processing.' 'In this assignment, we will do preprocessing')
print ([token.text for token in doc])

['This', 'assignment', 'is', 'about', 'Natural', 'Language', 'Processing', '.', 'In', 'this', 'assignment', ',', 'we', 'will', 'do', 'preprocessing']


In [60]:
text=nlp("The film's development began when Marvel Studios received a loan from Merrill Lynch in April 2005. After the success of the film Iron Man in May 2008, \
Marvel announced that The Avengers would be released in July 2011 and would bring together Tony Stark, Steve Rogers, Bruce Banner, and Thor from Marvel's previous films. \
With the signing of Johansson as Natasha Romanoff in March 2009, the film was pushed back for a 2012 release. Whedon was brought on board in April 2010 and rewrote the original screenplay by Zak Penn. Production began in April 2011 in Albuquerque, \
New Mexico, before moving to Cleveland, Ohio in August and New York City in September. The film has more than 2,200 visual effects shots.")

In [61]:
print([token.text for token in text])

['The', 'film', "'s", 'development', 'began', 'when', 'Marvel', 'Studios', 'received', 'a', 'loan', 'from', 'Merrill', 'Lynch', 'in', 'April', '2005', '.', 'After', 'the', 'success', 'of', 'the', 'film', 'Iron', 'Man', 'in', 'May', '2008', ',', 'Marvel', 'announced', 'that', 'The', 'Avengers', 'would', 'be', 'released', 'in', 'July', '2011', 'and', 'would', 'bring', 'together', 'Tony', 'Stark', ',', 'Steve', 'Rogers', ',', 'Bruce', 'Banner', ',', 'and', 'Thor', 'from', 'Marvel', "'s", 'previous', 'films', '.', 'With', 'the', 'signing', 'of', 'Johansson', 'as', 'Natasha', 'Romanoff', 'in', 'March', '2009', ',', 'the', 'film', 'was', 'pushed', 'back', 'for', 'a', '2012', 'release', '.', 'Whedon', 'was', 'brought', 'on', 'board', 'in', 'April', '2010', 'and', 'rewrote', 'the', 'original', 'screenplay', 'by', 'Zak', 'Penn', '.', 'Production', 'began', 'in', 'April', '2011', 'in', 'Albuquerque', ',', 'New', 'Mexico', ',', 'before', 'moving', 'to', 'Cleveland', ',', 'Ohio', 'in', 'August', '

### 1.2 불용어 (Stopword)

불용어(Stop word)는 분석에 큰 의미가 없는 단어를 지칭합니다. 예를 들어 the, a, an, is, I, my 등과 같이 문장을 구성하는 필수 요소지만 문맥적으로 큰 의미가 없는 단어가 이에 속합니다

In [62]:
spacy_stopwords = spacy.lang.en.stop_words.STOP_WORDS
for stop_word in list(spacy_stopwords)[:30]:
  print(stop_word)

could
also
what
less
himself
off
four
across
a
keep
twenty
whereupon
forty
’d
'll
this
them
last
been
unless
were
move
was
well
regarding
how
‘s
but
first
is


In [63]:
stopword_text = [token for token in text if not token.is_stop]
print(stopword_text)

[film, development, began, Marvel, Studios, received, loan, Merrill, Lynch, April, 2005, ., success, film, Iron, Man, 2008, ,, Marvel, announced, Avengers, released, July, 2011, bring, Tony, Stark, ,, Steve, Rogers, ,, Bruce, Banner, ,, Thor, Marvel, previous, films, ., signing, Johansson, Natasha, Romanoff, March, 2009, ,, film, pushed, 2012, release, ., Whedon, brought, board, April, 2010, rewrote, original, screenplay, Zak, Penn, ., Production, began, April, 2011, Albuquerque, ,, New, Mexico, ,, moving, Cleveland, ,, Ohio, August, New, York, City, September, ., film, 2,200, visual, effects, shots, .]


### 1.3 Lemmatization 

In [64]:
for token in text[:20]:
  print (token, "-", token.lemma_)

The - the
film - film
's - 's
development - development
began - begin
when - when
Marvel - Marvel
Studios - Studios
received - receive
a - a
loan - loan
from - from
Merrill - Merrill
Lynch - Lynch
in - in
April - April
2005 - 2005
. - .
After - after
the - the


### 1.4 그외 token class의 attributes 

https://spacy.io/api/token#attributes

In [65]:
print("token \t is_punct \t is_space \t shape_ \t is_stop")
print("="*70)
for token in text[21:31]:
  print(token,"\t", token.is_punct, "\t\t",token.is_space,"\t\t", token.shape_, "\t\t",token.is_stop)

token 	 is_punct 	 is_space 	 shape_ 	 is_stop
of 	 False 		 False 		 xx 		 True
the 	 False 		 False 		 xxx 		 True
film 	 False 		 False 		 xxxx 		 False
Iron 	 False 		 False 		 Xxxx 		 False
Man 	 False 		 False 		 Xxx 		 False
in 	 False 		 False 		 xx 		 True
May 	 False 		 False 		 Xxx 		 True
2008 	 False 		 False 		 dddd 		 False
, 	 True 		 False 		 , 		 False
Marvel 	 False 		 False 		 Xxxxx 		 False


## 빈칸완성 과제1

In [66]:
def is_token_allowed(token):
# stopword와 punctutation을 제거해주세요.
  spacy_stopwords = spacy.lang.en.stop_words.STOP_WORDS
  #if문을 작성해주세요.
  
  ##TODO#
  if  token.is_stop:
  ##TODO##
    return False
  elif token.is_punct:
    return False
  else:
    return True

def preprocess_token(token):
    return token.lemma_.strip().lower()
  
filtered_tokens = [preprocess_token(token) for token in text if is_token_allowed(token)]
answer=['film', 'development','begin', 'marvel','studios', 'receive','loan', 'merrill','lynch', 'april','2005', 'success','film', 'iron','man', '2008','marvel','announce', 'avengers','release', 'july','2011', 'bring','tony', 'stark','steve', 'rogers','bruce', 'banner','thor', 'marvel','previous', 'film','signing', 'johansson','natasha','romanoff','march','2009','film','push','2012','release','whedon','bring','board','april','2010','rewrote','original','screenplay','zak','penn','production','begin','april','2011','albuquerque','new','mexico','move','cleveland','ohio','august','new','york','city','september','film','2,200','visual','effect','shot']
assert filtered_tokens == answer

## 2. 한국어 전처리

### 2.1 Mecab를 이용한 형태소 분석 기반 토크나이징

In [35]:
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 91, done.[K
remote: Counting objects: 100% (91/91), done.[K
remote: Compressing objects: 100% (85/85), done.[K
remote: Total 91 (delta 43), reused 22 (delta 6), pack-reused 0[K
Unpacking objects: 100% (91/91), done.
/content/Mecab-ko-for-Google-Colab
Installing konlpy.....
Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 6.4 MB/s 
[?25hCollecting colorama
  Downloading colorama-0.4.4-py2.py3-none-any.whl (16 kB)
Collecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 6.1 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 34.9 MB/s 
Installing collected packages: JPype1, colorama, beautifulsoup4, konlpy
  Attempting uninstall

In [67]:
from konlpy.tag import Mecab
import operator
tokenizer = Mecab()

In [68]:
text="최강의 슈퍼히어로들이 모였다! 지구의 운명을 건 거대한 전쟁이 시작된다! 지구의 안보가 위협당하는 위기의 상황에서 슈퍼히어로들을 불러모아 세상을 구하는, 일명 어벤져스 작전. 에너지원 테서랙트를 이용한 적의 등장으로 인류가 위험에 처하자 국제평화유지기구인 쉴드의 국장 닉 퓨리는 어벤져스 작전을 위해 전 세계에 흩어져 있던 슈퍼히어로들을 찾아나선다. 아이언맨부터 토르, 헐크, 캡틴 아메리카는 물론, 쉴드의 요원인 블랙 위도우, 호크아이까지, 최고의 슈퍼히어로들이 어벤져스의 멤버로 모이게 되지만, 각기 개성이 강한 이들의 만남은 예상치 못한 방향으로 흘러가는데… 지구의 운명을 건 거대한 전쟁 앞에 어벤져스 작전은 성공할 수 있을까?"

In [69]:
print(tokenizer.morphs(text))

['최강', '의', '슈퍼', '히어로', '들', '이', '모였', '다', '!', '지구', '의', '운명', '을', '건', '거대', '한', '전쟁', '이', '시작', '된다', '!', '지구', '의', '안보', '가', '위협', '당하', '는', '위기', '의', '상황', '에서', '슈퍼', '히어로', '들', '을', '불러', '모아', '세상', '을', '구하', '는', ',', '일', '명', '어벤져스', '작전', '.', '에너지원', '테', '서', '랙', '트', '를', '이용', '한', '적', '의', '등장', '으로', '인류', '가', '위험', '에', '처하', '자', '국제', '평화', '유지', '기구', '인', '쉴드', '의', '국장', '닉', '퓨리', '는', '어벤져스', '작전', '을', '위해', '전', '세계', '에', '흩어져', '있', '던', '슈퍼', '히어로', '들', '을', '찾', '아', '나선다', '.', '아이언맨', '부터', '토르', ',', '헐크', ',', '캡틴', '아메리카', '는', '물론', ',', '쉴드', '의', '요원', '인', '블랙', '위', '도우', ',', '호크아이', '까지', ',', '최고', '의', '슈퍼', '히어로', '들', '이', '어벤져스', '의', '멤버', '로', '모이', '게', '되', '지만', ',', '각기', '개성', '이', '강한', '이', '들', '의', '만남', '은', '예상', '치', '못한', '방향', '으로', '흘러가', '는데', '…', '지구', '의', '운명', '을', '건', '거대', '한', '전쟁', '앞', '에', '어벤져스', '작전', '은', '성공', '할', '수', '있', '을까', '?']


In [70]:
stopwords=['의','가','이','은','다','들','을','는','인','위해','과','던','도','를','로','게','으로','까지','자','에','을까','는데','치','와','한','하다']

In [71]:
tokenized_text = [word for word in tokenizer.morphs(text) if not word in stopwords] # 불용어 제거
print(tokenized_text)

['최강', '슈퍼', '히어로', '모였', '!', '지구', '운명', '건', '거대', '전쟁', '시작', '된다', '!', '지구', '안보', '위협', '당하', '위기', '상황', '에서', '슈퍼', '히어로', '불러', '모아', '세상', '구하', ',', '일', '명', '어벤져스', '작전', '.', '에너지원', '테', '서', '랙', '트', '이용', '적', '등장', '인류', '위험', '처하', '국제', '평화', '유지', '기구', '쉴드', '국장', '닉', '퓨리', '어벤져스', '작전', '전', '세계', '흩어져', '있', '슈퍼', '히어로', '찾', '아', '나선다', '.', '아이언맨', '부터', '토르', ',', '헐크', ',', '캡틴', '아메리카', '물론', ',', '쉴드', '요원', '블랙', '위', '도우', ',', '호크아이', ',', '최고', '슈퍼', '히어로', '어벤져스', '멤버', '모이', '되', '지만', ',', '각기', '개성', '강한', '만남', '예상', '못한', '방향', '흘러가', '…', '지구', '운명', '건', '거대', '전쟁', '앞', '어벤져스', '작전', '성공', '할', '수', '있', '?']


### 2.2 음절 단위 토크나이징 실습

In [72]:
starry_night=['계절이 지나가는 하늘에는',
'가을로 가득 차 있습니다.',
'나는 아무 걱정도 없이',
'가을 속의 별들을 다 헬 듯합니다.',
'가슴 속에 하나 둘 새겨지는 별을',
'이제 다 못 헤는 것은',
'쉬이 아침이 오는 까닭이요,',
'내일 밤이 남은 까닭이요,',
'아직 나의 청춘이 다하지 않은 까닭입니다.',
'별 하나에 추억과',
'별 하나에 사랑과',
'별 하나에 쓸쓸함과',
'별 하나에 동경과',
'별 하나에 시와',
'별 하나에 어머니, 어머니,',
"어머님, 나는 별 하나에 아름다운 말 한마디씩 불러 봅니다. 소학교 때 책상을 같이 했던 아이들의 이름과, 패, 경, 옥, 이런 이국 소녀들의 이름과, 벌써 아기 어머니 된 계집애들의 이름과, 가난한 이웃 사람들의 이름과, 비둘기, 강아지, 토끼, 노새, 노루, '프랑시스 잠', '라이너 마리아 릴케’ 이런 시인의 이름을 불러 봅니다.",
'이네들은 너무나 멀리 있습니다.',
'별이 아스라이 멀듯이.',
'어머님,',
'그리고 당신은 멀리 북간도에 계십니다.',
'나는 무엇인지 그리워',
'이 많은 별빛이 내린 언덕 위에',
'내 이름자를 써 보고',
'흙으로 덮어 버리었습니다.',
'딴은 밤을 새워 우는 벌레는',
'부끄러운 이름을 슬퍼하는 까닭입니다.',
'그러나 겨울이 지나고 나의 별에도 봄이 오면',
'무덤 위에 파란 잔디가 피어나듯이',
'내 이름자 묻힌 언덕 위에도',
'자랑처럼 풀이 무성할 거외다.',]

In [73]:
tokens=[]
for sentence in starry_night:
    tokenezied_text = [token for token in sentence] 
    tokens.extend(tokenezied_text)

In [74]:
print(tokens)

['계', '절', '이', ' ', '지', '나', '가', '는', ' ', '하', '늘', '에', '는', '가', '을', '로', ' ', '가', '득', ' ', '차', ' ', '있', '습', '니', '다', '.', '나', '는', ' ', '아', '무', ' ', '걱', '정', '도', ' ', '없', '이', '가', '을', ' ', '속', '의', ' ', '별', '들', '을', ' ', '다', ' ', '헬', ' ', '듯', '합', '니', '다', '.', '가', '슴', ' ', '속', '에', ' ', '하', '나', ' ', '둘', ' ', '새', '겨', '지', '는', ' ', '별', '을', '이', '제', ' ', '다', ' ', '못', ' ', '헤', '는', ' ', '것', '은', '쉬', '이', ' ', '아', '침', '이', ' ', '오', '는', ' ', '까', '닭', '이', '요', ',', '내', '일', ' ', '밤', '이', ' ', '남', '은', ' ', '까', '닭', '이', '요', ',', '아', '직', ' ', '나', '의', ' ', '청', '춘', '이', ' ', '다', '하', '지', ' ', '않', '은', ' ', '까', '닭', '입', '니', '다', '.', '별', ' ', '하', '나', '에', ' ', '추', '억', '과', '별', ' ', '하', '나', '에', ' ', '사', '랑', '과', '별', ' ', '하', '나', '에', ' ', '쓸', '쓸', '함', '과', '별', ' ', '하', '나', '에', ' ', '동', '경', '과', '별', ' ', '하', '나', '에', ' ', '시', '와', '별', ' ', '하', '나', '에', ' ', '어', '머', '니', ',', ' ', '어', '머', '니', ',',

## 빈칸완성 과제 2

In [75]:
from collections import Counter
vocab_dict={}
words = []
for token in tokens:
  ##TODO##
  '''
  vocab_dict에 token을 key로 빈도수를 value로 채워넣으세요.
  예시) vocab_dict={"나":3,"그":5,"어":3,...}
  '''
  words.append(token)
  vocab_dict = Counter(words)
print(vocab_dict)
  ##TODO##

Counter({' ': 138, '이': 34, ',': 19, '나': 18, '에': 14, '다': 14, '니': 12, '별': 12, '는': 11, '하': 11, '.': 11, '아': 9, '름': 9, '을': 8, '의': 8, '과': 8, '가': 7, '은': 7, '어': 7, '지': 6, '들': 6, '리': 6, '무': 5, '머': 5, '도': 4, '까': 4, '닭': 4, '내': 4, '러': 4, '계': 3, '습': 3, '듯': 3, '새': 3, '랑': 3, '시': 3, "'": 3, '멀': 3, '그': 3, '고': 3, '위': 3, '자': 3, '로': 2, '있': 2, '속': 2, '둘': 2, '겨': 2, '오': 2, '요': 2, '밤': 2, '입': 2, '사': 2, '쓸': 2, '경': 2, '님': 2, '운': 2, '한': 2, '마': 2, '디': 2, '불': 2, '봅': 2, '소': 2, '런': 2, '벌': 2, '써': 2, '기': 2, '노': 2, '스': 2, '라': 2, '너': 2, '인': 2, '워': 2, '언': 2, '덕': 2, '절': 1, '늘': 1, '득': 1, '차': 1, '걱': 1, '정': 1, '없': 1, '헬': 1, '합': 1, '슴': 1, '제': 1, '못': 1, '헤': 1, '것': 1, '쉬': 1, '침': 1, '일': 1, '남': 1, '직': 1, '청': 1, '춘': 1, '않': 1, '추': 1, '억': 1, '함': 1, '동': 1, '와': 1, '말': 1, '씩': 1, '학': 1, '교': 1, '때': 1, '책': 1, '상': 1, '같': 1, '했': 1, '던': 1, '패': 1, '옥': 1, '국': 1, '녀': 1, '된': 1, '집': 1, '애': 1, '난': 1, '웃': 1, '람': 1, '비': 1, '강': 1, '토'

In [76]:
sorted_vocab = sorted(vocab_dict.items(), key=operator.itemgetter(1),reverse=True)

In [77]:
vocab=[]
for token,freq in sorted_vocab:
  ##TODO##
  '''
  정렬된 sorted_vocab에서 빈도수가 2 이상인 token을 vocab에 append하여 vocab을 완성시키세요.
  '''
  if freq >= 2:
    vocab.append(token)
  ##TODO##
  

In [78]:
answer=[' ','이',',','나','에','다','니','별','는', '하', '.', '아', '름', '을', '의', '과', '가', '은', '어', '지', '들', '리', '무', '머', '도', '까', '닭', '내', '러', '계', '습', '듯', '새', '랑', '시', "'", '멀', '그', '고', '위', '자', '로', '있', '속', '둘', '겨', '오', '요', '밤', '입', '사', '쓸', '경', '님', '운', '한', '마', '디', '불', '봅', '소', '런', '벌', '써', '기', '노', '스', '라', '너', '인', '워', '언', '덕']

In [79]:
assert vocab==answer