# 1. Spacy를 이용한 영어 전처리

In [1]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [2]:
text = nlp('Naver Connect and Upstage Boostcamp')

print([token.text for token in text])

['Naver', 'Connect', 'and', 'Upstage', 'Boostcamp']


In [3]:
doc = nlp('This assignment is about Natural Language Processing.' 'In this assignment, we will do preprocessing')

print([token.text for token in doc])

['This', 'assignment', 'is', 'about', 'Natural', 'Language', 'Processing', '.', 'In', 'this', 'assignment', ',', 'we', 'will', 'do', 'preprocessing']


In [4]:
text = nlp("The film's development began when Marvel Studios received a loan from Merrill Lynch in April 2005. After the success of the film Iron Man in May 2008, \
Marvel announced that The Avengers would be released in July 2011 and would bring together Tony Stark, Steve Rogers, Bruce Banner, and Thor from Marvel's previous films. \
With the signing of Johansson as Natasha Romanoff in March 2009, the film was pushed back for a 2012 release. Whedon was brought on board in April 2010 and rewrote the original screenplay by Zak Penn. Production began in April 2011 in Albuquerque, \
New Mexico, before moving to Cleveland, Ohio in August and New York City in September. The film has more than 2,200 visual effects shots.")

print([token.text for token in text])

['The', 'film', "'s", 'development', 'began', 'when', 'Marvel', 'Studios', 'received', 'a', 'loan', 'from', 'Merrill', 'Lynch', 'in', 'April', '2005', '.', 'After', 'the', 'success', 'of', 'the', 'film', 'Iron', 'Man', 'in', 'May', '2008', ',', 'Marvel', 'announced', 'that', 'The', 'Avengers', 'would', 'be', 'released', 'in', 'July', '2011', 'and', 'would', 'bring', 'together', 'Tony', 'Stark', ',', 'Steve', 'Rogers', ',', 'Bruce', 'Banner', ',', 'and', 'Thor', 'from', 'Marvel', "'s", 'previous', 'films', '.', 'With', 'the', 'signing', 'of', 'Johansson', 'as', 'Natasha', 'Romanoff', 'in', 'March', '2009', ',', 'the', 'film', 'was', 'pushed', 'back', 'for', 'a', '2012', 'release', '.', 'Whedon', 'was', 'brought', 'on', 'board', 'in', 'April', '2010', 'and', 'rewrote', 'the', 'original', 'screenplay', 'by', 'Zak', 'Penn', '.', 'Production', 'began', 'in', 'April', '2011', 'in', 'Albuquerque', ',', 'New', 'Mexico', ',', 'before', 'moving', 'to', 'Cleveland', ',', 'Ohio', 'in', 'August', '

### 1.2 불용어 (Stopword)

In [5]:
spacy_stopwords = spacy.lang.en.stop_words.STOP_WORDS

for stop_word in list(spacy_stopwords)[:30]:

    print(stop_word)

throughout
become
whereby
ourselves
fifty
can
per
so
done
meanwhile
seems
see
becoming
get
also
too
back
both
of
elsewhere
really
have
on
only
yourselves
to
during
wherein
doing
in


In [6]:
#exclude stopword in text
stopword_text = [token for token in text if not token.is_stop]

print(stopword_text)

[film, development, began, Marvel, Studios, received, loan, Merrill, Lynch, April, 2005, ., success, film, Iron, Man, 2008, ,, Marvel, announced, Avengers, released, July, 2011, bring, Tony, Stark, ,, Steve, Rogers, ,, Bruce, Banner, ,, Thor, Marvel, previous, films, ., signing, Johansson, Natasha, Romanoff, March, 2009, ,, film, pushed, 2012, release, ., Whedon, brought, board, April, 2010, rewrote, original, screenplay, Zak, Penn, ., Production, began, April, 2011, Albuquerque, ,, New, Mexico, ,, moving, Cleveland, ,, Ohio, August, New, York, City, September, ., film, 2,200, visual, effects, shots, .]


### 1.3 Lemmatization

https://4four.us/article/2008/05/lemmatization

https://wikidocs.net/21707


In [7]:
for token in text[:20]:

    print(token, "-", token.lemma_)

The - the
film - film
's - 's
development - development
began - begin
when - when
Marvel - Marvel
Studios - Studios
received - receive
a - a
loan - loan
from - from
Merrill - Merrill
Lynch - Lynch
in - in
April - April
2005 - 2005
. - .
After - after
the - the


### 1.4 그외 token class의 attributes

https://spacy.io/api/token#attributes

In [8]:
print("token \t is_punct \t is_space \t shape_ \t is_stop")

print("="*70)

for token in text[21:31]:

    print(token, "\t", token.is_punct, "\t\t", token.is_space, "\t\t", token.shape_, "\t\t", token.is_stop)

token 	 is_punct 	 is_space 	 shape_ 	 is_stop
of 	 False 		 False 		 xx 		 True
the 	 False 		 False 		 xxx 		 True
film 	 False 		 False 		 xxxx 		 False
Iron 	 False 		 False 		 Xxxx 		 False
Man 	 False 		 False 		 Xxx 		 False
in 	 False 		 False 		 xx 		 True
May 	 False 		 False 		 Xxx 		 True
2008 	 False 		 False 		 dddd 		 False
, 	 True 		 False 		 , 		 False
Marvel 	 False 		 False 		 Xxxxx 		 False


# problem

In [9]:
#remove stopword and punctuation

def is_token_allowed(token):

    if (token.is_stop) or (token.is_punct):

        return False

    return True

In [10]:
#lemmatization
def preprocess_token(token):

    return token.lemma_.strip().lower()

In [11]:
filtered_tokens = [preprocess_token(token) for token in text if is_token_allowed(token)]

answer = ['film', 'development','begin', 'marvel','studios', 'receive','loan', 'merrill','lynch', 'april','2005', 'success','film', 'iron','man', '2008','marvel','announce', 'avengers','release', 'july','2011', 'bring','tony', 'stark','steve', 'rogers','bruce', 'banner','thor', 'marvel','previous', 'film','signing', 'johansson','natasha','romanoff','march','2009','film','push','2012','release','whedon','bring','board','april','2010','rewrote','original','screenplay','zak','penn','production','begin','april','2011','albuquerque','new','mexico','move','cleveland','ohio','august','new','york','city','september','film','2,200','visual','effect','shot']

assert filtered_tokens == answer

# 2. 한국어 전처리

### 2.1 Mecab를 이용한 형태소 분석 기반 토크나이징

In [1]:
#install konlpy mecab in colab
#https://somjang.tistory.com/entry/Google-Colab%EC%97%90%EC%84%9C-Mecab-koMecab-ko-dic-%EC%89%BD%EA%B2%8C-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B8%B0

#NameError: name 'Tagger' is not defined 오류 발생 시 런타임을 재실행 해주세요
#이 셀도 다시 실행해보기
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab_light_220429.sh #install_mecab-ko_on_colab_light_xxxxxx.sh

fatal: destination path 'Mecab-ko-for-Google-Colab' already exists and is not an empty directory.
/content/Mecab-ko-for-Google-Colab
Installing konlpy.....
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2023-07-11 18:31:57--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 104.192.141.1, 2406:da00:ff00::6b17:d1f5, 2406:da00:ff00::3403:4be7, ...
Connecting to bitbucket.org (bitbucket.org)|104.192.141.1|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?response-content-disposition=attachment%3B%20filename%3D%22mecab-0.996-ko-0.9.2.tar.gz%22&response-content-encoding=None&AWSAccessKeyId=ASIA6KOSE3BNFZKXRWNL&Signature=AANgWe%2Fkd5wYZei422kI0yytWr4%3D&x-amz-security-to

In [2]:
from konlpy.tag import Mecab

import operator

tokenizer = Mecab()

In [3]:
text = "최강의 슈퍼히어로들이 모였다! 지구의 운명을 건 거대한 전쟁이 시작된다! 지구의 안보가 위협당하는 위기의 상황에서 슈퍼히어로들을 불러모아 세상을 구하는, 일명 어벤져스 작전. 에너지원 테서랙트를 이용한 적의 등장으로 인류가 위험에 처하자 국제평화유지기구인 쉴드의 국장 닉 퓨리는 어벤져스 작전을 위해 전 세계에 흩어져 있던 슈퍼히어로들을 찾아나선다. 아이언맨부터 토르, 헐크, 캡틴 아메리카는 물론, 쉴드의 요원인 블랙 위도우, 호크아이까지, 최고의 슈퍼히어로들이 어벤져스의 멤버로 모이게 되지만, 각기 개성이 강한 이들의 만남은 예상치 못한 방향으로 흘러가는데… 지구의 운명을 건 거대한 전쟁 앞에 어벤져스 작전은 성공할 수 있을까?"

In [4]:
print(tokenizer.morphs(text))

['최강', '의', '슈퍼', '히어로', '들', '이', '모였', '다', '!', '지구', '의', '운명', '을', '건', '거대', '한', '전쟁', '이', '시작', '된다', '!', '지구', '의', '안보', '가', '위협', '당하', '는', '위기', '의', '상황', '에서', '슈퍼', '히어로', '들', '을', '불러', '모아', '세상', '을', '구하', '는', ',', '일', '명', '어벤져스', '작전', '.', '에너지원', '테', '서', '랙', '트', '를', '이용', '한', '적', '의', '등장', '으로', '인류', '가', '위험', '에', '처하', '자', '국제', '평화', '유지', '기구', '인', '쉴드', '의', '국장', '닉', '퓨리', '는', '어벤져스', '작전', '을', '위해', '전', '세계', '에', '흩어져', '있', '던', '슈퍼', '히어로', '들', '을', '찾', '아', '나선다', '.', '아이언맨', '부터', '토르', ',', '헐크', ',', '캡틴', '아메리카', '는', '물론', ',', '쉴드', '의', '요원', '인', '블랙', '위', '도우', ',', '호크아이', '까지', ',', '최고', '의', '슈퍼', '히어로', '들', '이', '어벤져스', '의', '멤버', '로', '모이', '게', '되', '지만', ',', '각기', '개성', '이', '강한', '이', '들', '의', '만남', '은', '예상', '치', '못한', '방향', '으로', '흘러가', '는데', '…', '지구', '의', '운명', '을', '건', '거대', '한', '전쟁', '앞', '에', '어벤져스', '작전', '은', '성공', '할', '수', '있', '을까', '?']


In [5]:
#setting stopwords

stopwords = ['의','가','이','은','다','들','을',
             '는','인','위해','과','던','도','를','로',
             '게','으로','까지','자','에','을까','는데',
             '치','와','한','하다']

In [6]:
#exclude stopword
tokenized_text = [word for word in tokenizer.morphs(text) if not word in stopwords]

print(tokenized_text)

['최강', '슈퍼', '히어로', '모였', '!', '지구', '운명', '건', '거대', '전쟁', '시작', '된다', '!', '지구', '안보', '위협', '당하', '위기', '상황', '에서', '슈퍼', '히어로', '불러', '모아', '세상', '구하', ',', '일', '명', '어벤져스', '작전', '.', '에너지원', '테', '서', '랙', '트', '이용', '적', '등장', '인류', '위험', '처하', '국제', '평화', '유지', '기구', '쉴드', '국장', '닉', '퓨리', '어벤져스', '작전', '전', '세계', '흩어져', '있', '슈퍼', '히어로', '찾', '아', '나선다', '.', '아이언맨', '부터', '토르', ',', '헐크', ',', '캡틴', '아메리카', '물론', ',', '쉴드', '요원', '블랙', '위', '도우', ',', '호크아이', ',', '최고', '슈퍼', '히어로', '어벤져스', '멤버', '모이', '되', '지만', ',', '각기', '개성', '강한', '만남', '예상', '못한', '방향', '흘러가', '…', '지구', '운명', '건', '거대', '전쟁', '앞', '어벤져스', '작전', '성공', '할', '수', '있', '?']


### 2.2 음절 단위 토크나이징 실습

In [7]:
starry_night=['계절이 지나가는 하늘에는',
'가을로 가득 차 있습니다.',
'나는 아무 걱정도 없이',
'가을 속의 별들을 다 헬 듯합니다.',
'가슴 속에 하나 둘 새겨지는 별을',
'이제 다 못 헤는 것은',
'쉬이 아침이 오는 까닭이요,',
'내일 밤이 남은 까닭이요,',
'아직 나의 청춘이 다하지 않은 까닭입니다.',
'별 하나에 추억과',
'별 하나에 사랑과',
'별 하나에 쓸쓸함과',
'별 하나에 동경과',
'별 하나에 시와',
'별 하나에 어머니, 어머니,',
"어머님, 나는 별 하나에 아름다운 말 한마디씩 불러 봅니다. 소학교 때 책상을 같이 했던 아이들의 이름과, 패, 경, 옥, 이런 이국 소녀들의 이름과, 벌써 아기 어머니 된 계집애들의 이름과, 가난한 이웃 사람들의 이름과, 비둘기, 강아지, 토끼, 노새, 노루, '프랑시스 잠', '라이너 마리아 릴케’ 이런 시인의 이름을 불러 봅니다.",
'이네들은 너무나 멀리 있습니다.',
'별이 아스라이 멀듯이.',
'어머님,',
'그리고 당신은 멀리 북간도에 계십니다.',
'나는 무엇인지 그리워',
'이 많은 별빛이 내린 언덕 위에',
'내 이름자를 써 보고',
'흙으로 덮어 버리었습니다.',
'딴은 밤을 새워 우는 벌레는',
'부끄러운 이름을 슬퍼하는 까닭입니다.',
'그러나 겨울이 지나고 나의 별에도 봄이 오면',
'무덤 위에 파란 잔디가 피어나듯이',
'내 이름자 묻힌 언덕 위에도',
'자랑처럼 풀이 무성할 거외다.',]

In [8]:
tokens = []

for sentence in starry_night:

    tokenized_text = [token for token in sentence]

    tokens.extend(tokenized_text)

In [9]:
print(tokens)

['계', '절', '이', ' ', '지', '나', '가', '는', ' ', '하', '늘', '에', '는', '가', '을', '로', ' ', '가', '득', ' ', '차', ' ', '있', '습', '니', '다', '.', '나', '는', ' ', '아', '무', ' ', '걱', '정', '도', ' ', '없', '이', '가', '을', ' ', '속', '의', ' ', '별', '들', '을', ' ', '다', ' ', '헬', ' ', '듯', '합', '니', '다', '.', '가', '슴', ' ', '속', '에', ' ', '하', '나', ' ', '둘', ' ', '새', '겨', '지', '는', ' ', '별', '을', '이', '제', ' ', '다', ' ', '못', ' ', '헤', '는', ' ', '것', '은', '쉬', '이', ' ', '아', '침', '이', ' ', '오', '는', ' ', '까', '닭', '이', '요', ',', '내', '일', ' ', '밤', '이', ' ', '남', '은', ' ', '까', '닭', '이', '요', ',', '아', '직', ' ', '나', '의', ' ', '청', '춘', '이', ' ', '다', '하', '지', ' ', '않', '은', ' ', '까', '닭', '입', '니', '다', '.', '별', ' ', '하', '나', '에', ' ', '추', '억', '과', '별', ' ', '하', '나', '에', ' ', '사', '랑', '과', '별', ' ', '하', '나', '에', ' ', '쓸', '쓸', '함', '과', '별', ' ', '하', '나', '에', ' ', '동', '경', '과', '별', ' ', '하', '나', '에', ' ', '시', '와', '별', ' ', '하', '나', '에', ' ', '어', '머', '니', ',', ' ', '어', '머', '니', ',',

## problem

In [10]:
vocab_dict = {}

for token in tokens:

    #make vocab_dict
    #key: token, value: count
    #example: vocab_dict={"나":3,"그":5,"어":3,...}

    vocab_dict[token] = vocab_dict.get(token,0) + 1


In [11]:
sorted_vocab = sorted(vocab_dict.items(), key = operator.itemgetter(1), reverse=True)

In [12]:
vocab = []

for token, freq in sorted_vocab:

    #find token that has count more than two, append vocab list

    if freq >= 2:

        vocab.append(token)

In [13]:
answer=[' ','이',',','나','에','다','니','별','는', '하', '.', '아', '름', '을', '의', '과', '가', '은', '어', '지', '들', '리', '무', '머', '도', '까', '닭', '내', '러', '계', '습', '듯', '새', '랑', '시', "'", '멀', '그', '고', '위', '자', '로', '있', '속', '둘', '겨', '오', '요', '밤', '입', '사', '쓸', '경', '님', '운', '한', '마', '디', '불', '봅', '소', '런', '벌', '써', '기', '노', '스', '라', '너', '인', '워', '언', '덕']

assert vocab == answer