#### Text data Preprocessing

- **nltk** library(Natural Language Toolkit)를 이용하여 Text Processing을 위한 전처리를 실습한다.


#### 1. 영어 문장 토큰화하기

In [1]:
# Test processing을 위해 nltk package 를 import!
import nltk

In [None]:
# 아래 명령어를 통해 download 대화상자를 열어 패키지를 다운로드 받아야 합니다.
# 인터넷 속도 저하 시 매우 오래 걸리므로, 패키지 설치 경로만 확인한 다음 [ (nltk, downloaded) nltk_data.zip ] 의 파일들을 복사합니다.
# 경로 예시 : "C:\Users\{컴퓨터 이름}\AppData\Roaming\nltk_data

# nltk.download()  # 텍스트 데이터 처리를 위한 패키지 다운로더

# Download following packages
# Corpora : stopwords, wordnet
# Models : averaged_perceptron_tagger, maxnet_treebank_pos_tagger, punkt

![image.png](attachment:image.png)

In [7]:
# 전처리하고자 하는 문장을 String 변수로 저장한다
sentence = 'NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an active discussion forum.'

# 각 문장을 토큰화한 결과를 출력한다
nltk.word_tokenize(sentence)  # 문장을 토큰화해 출력한다 

['NLTK',
 'is',
 'a',
 'leading',
 'platform',
 'for',
 'building',
 'Python',
 'programs',
 'to',
 'work',
 'with',
 'human',
 'language',
 'data',
 '.',
 'It',
 'provides',
 'easy-to-use',
 'interfaces',
 'to',
 'over',
 '50',
 'corpora',
 'and',
 'lexical',
 'resources',
 'such',
 'as',
 'WordNet',
 ',',
 'along',
 'with',
 'a',
 'suite',
 'of',
 'text',
 'processing',
 'libraries',
 'for',
 'classification',
 ',',
 'tokenization',
 ',',
 'stemming',
 ',',
 'tagging',
 ',',
 'parsing',
 ',',
 'and',
 'semantic',
 'reasoning',
 ',',
 'wrappers',
 'for',
 'industrial-strength',
 'NLP',
 'libraries',
 ',',
 'and',
 'an',
 'active',
 'discussion',
 'forum',
 '.']

<br>
<br>
#### 2. 영어 문장 품사 태깅(POS tagging)하기

In [8]:
# 각 문장을 토큰화한 후 품사를 태깅하여 결과를 출력한다

tokens = nltk.word_tokenize(sentence)  # 문장을 토큰화한다
nltk.pos_tag(tokens)  # 토큰화한 문장을 품사 태깅해 출력한다

[('NLTK', 'NNP'),
 ('is', 'VBZ'),
 ('a', 'DT'),
 ('leading', 'VBG'),
 ('platform', 'NN'),
 ('for', 'IN'),
 ('building', 'VBG'),
 ('Python', 'NNP'),
 ('programs', 'NNS'),
 ('to', 'TO'),
 ('work', 'VB'),
 ('with', 'IN'),
 ('human', 'JJ'),
 ('language', 'NN'),
 ('data', 'NNS'),
 ('.', '.'),
 ('It', 'PRP'),
 ('provides', 'VBZ'),
 ('easy-to-use', 'JJ'),
 ('interfaces', 'NNS'),
 ('to', 'TO'),
 ('over', 'IN'),
 ('50', 'CD'),
 ('corpora', 'NNS'),
 ('and', 'CC'),
 ('lexical', 'JJ'),
 ('resources', 'NNS'),
 ('such', 'JJ'),
 ('as', 'IN'),
 ('WordNet', 'NNP'),
 (',', ','),
 ('along', 'IN'),
 ('with', 'IN'),
 ('a', 'DT'),
 ('suite', 'NN'),
 ('of', 'IN'),
 ('text', 'NN'),
 ('processing', 'NN'),
 ('libraries', 'NNS'),
 ('for', 'IN'),
 ('classification', 'NN'),
 (',', ','),
 ('tokenization', 'NN'),
 (',', ','),
 ('stemming', 'VBG'),
 (',', ','),
 ('tagging', 'VBG'),
 (',', ','),
 ('parsing', 'NN'),
 (',', ','),
 ('and', 'CC'),
 ('semantic', 'JJ'),
 ('reasoning', 'NN'),
 (',', ','),
 ('wrappers', 'NNS'

![image.png](attachment:image.png)

![image.png](attachment:image.png)

<br>
<br>
#### 3. Stopwords 제거하기

In [9]:
# nltk 모듈에서 Stopwords를 직접 불러온다
from nltk.corpus import stopwords

# 영어의 stopwords를 불러와 변수에 저장한다
stopWords = stopwords.words('english') # 지원 언어 목록 : stopwords.fileids()

# How many stop words
print(len(stopWords))
print()a

# stop words 출력
print(stopWords)

153

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', 'her', 'hers', 'herself', 'it', 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'don', 'should'

In [16]:
# 문장에서 stopwords 제거

result = []  # stopwords가 제거된 결과를 담기 위한 리스트를 생성한다

for token in tokens:  # for문을 통해 각각의 token이 stopwords인지 아닌지를 판별해 결과에 저장한다
    if token.lower() not in stopWords:  # 만약 소문자로 변환한 token이 stopWords 내에 없으면:
        result.append(token)  # token을 리스트에 첨부한다

print(result)  # 결과를 출력한다

['NLTK', 'leading', 'platform', 'building', 'Python', 'programs', 'work', 'human', 'language', 'data', '.', 'provides', 'easy-to-use', 'interfaces', '50', 'corpora', 'lexical', 'resources', 'WordNet', ',', 'along', 'suite', 'text', 'processing', 'libraries', 'classification', ',', 'tokenization', ',', 'stemming', ',', 'tagging', ',', 'parsing', ',', 'semantic', 'reasoning', ',', 'wrappers', 'industrial-strength', 'NLP', 'libraries', ',', 'active', 'discussion', 'forum', '.']


In [21]:
# stopwords에 쉼표(,)와 마침표(.) 추가하여 다시 적용하기

stop_words = stopwords.words("english")
stop_words.append(',')
stop_words.append('.')

result = []  # stopwords가 제거된 결과를 담기 위한 리스트를 생성한다

for token in tokens:  # for문을 통해 각각의 token이 stopwords인지 아닌지를 판별해 결과에 저장한다
    if token.lower() not in stop_words:  # 만약 소문자로 변환한 token이 stopWords 내에 없으면:
        result.append(token)  # token을 리스트에 첨부한다

print(result)  # 결과를 출력한다

['NLTK', 'leading', 'platform', 'building', 'Python', 'programs', 'work', 'human', 'language', 'data', 'provides', 'easy-to-use', 'interfaces', '50', 'corpora', 'lexical', 'resources', 'WordNet', 'along', 'suite', 'text', 'processing', 'libraries', 'classification', 'tokenization', 'stemming', 'tagging', 'parsing', 'semantic', 'reasoning', 'wrappers', 'industrial-strength', 'NLP', 'libraries', 'active', 'discussion', 'forum']


<br>
<br>
#### 4. 영화 리뷰 데이터 전처리하기 - Lemmatizing
- Lemmatization : 단어의 형태소적 & 사전적 분석을 통해 파생적 의미를 제거하고, 어근에 기반하여 **기본 사전형인 lemma**를 찾는 것

In [29]:
from nltk.corpus import stopwords

# WordNetLemmatizer 객체 생성
lemmatizer = nltk.wordnet.WordNetLemmatizer()

# Stopwords
stop_words = stopwords.words("english")
stop_words.append(',')
stop_words.append('.')

with open('moviereview.txt', 'r', encoding='utf-8') as f:  # 읽기 형식('r')로 지정하고 인코딩은 'utf-8'로 설정한다
    lines = f.readlines()  # readlines 함수로 텍스트 파일의 내용을 읽어 리스트로 저장한다
    f.close()  # 파일을 닫는다

sentence = lines[1] 
tokens = nltk.word_tokenize(sentence)  

# for문을 통해 stopwords 제거와 lemmatization을 수행한다
lemmas = []  # lemmatize한 결과를 담기 위한 리스트를 생성한다
for token in tokens:  
    if token.lower() not in stop_words:  # 소문자로 변환한 token이 stopwords에 없으면:
        lemmas.append(lemmatizer.lemmatize(token))  # lemmatize한 결과를 리스트에 첨부한다

print('Lemmas of : ' + sentence)  # lemmatize한 결과를 출력한다
print(lemmas)

Lemmas of : With so much talent in this film, it's so disappointing that the writers were right . Don't waste a dime on developing a sensible plot because the hordes of fans will eat this crap up like it was a 5 star meal. Hence the 8.1 star rating which reflects a demographic with time on their hands and a studio with plenty of marketing budget.On the bright side - the CGI is great. The sets are beautiful. There are some very funny moments. The cast still has some chemistry with each other. And I've seen movies that were much worse and unwatchable than this one. But I wouldn't be honest if I didn't give this a very generous 5 because of the horrendous, deficient plot. And after this film I'd have to say that I've about had enough with this series. We've heard the story, had some fun with the characters and it's clear that what was fun, fresh and original is what it should have been - a one film wonder leaving Hollywood to develop another story. Without giving away the big reveal or tr

<br>
<br>
#### (Extra) Brunch 기사글 데이터 전처리하기 - Tokonization

In [27]:
with open('brunch.txt', 'r', encoding = 'utf-8') as f:  # 읽기 형식('r')로 지정하고 인코딩은 'utf-8'로 설정한다
    lines = f.read()  # readlines 함수로 텍스트 파일의 내용을 읽어 리스트로 저장한다
    f.close()  # 파일을 닫는다

firstSentence = lines  # 첫 번째 문장를 가져와 변수에 저장한다
tokens = nltk.word_tokenize(firstSentence)  # 첫 번째 문장를 tokenize한다
tags = nltk.pos_tag(tokens)  # tokenize한 첫 번째 문장를 품사 태깅 한다

print('Tokens: ')  
print(tokens)  
print()
print('POS tags: ') 
print(tags) 

Tokens: 
['이', '질문에', '대해서', '구직자든', '개발자', '채용을', '고려하는', '사람이든', '충분히', '고민을', '해보면', '좋겠다', '.', '코딩', '테스트를', '통해서', '개발자의', '코딩', '능력을', '보겠다는', '것은', '너무', '당연한', '말이다', '.', '싱가폴에서', '코딩', '테스트/면접을', '진행하면서', ',', '물론', '모든', '회사는', '아니었지만', '한국에서는', '느끼지', '못했던', '부분에서의', '세심한', '고려가', '느껴지는', '몇몇', '회사의', '면접들이', '있었다', '.', '나는', '그런', '세심한', '몇몇', '회사들이', '진짜', '궁금해하는', '것이', "'이", '개발자가', '과연', '우리', '회사의', '다른', '개발자들과', '함께', '일할', '수', '있는', '사람인가', '?', "'라고", '느꼈다', '.', '이게', '무슨', '말인지는', '아래에서', '코딩', '테스트', '종류에', '대한', '설명을', '보면서', '알아보도록', '하자', '.', '내가', '싱가폴에서', '면접을', '보면서', '경험했던', '코딩', '테스트는', '크게', '3가지로', '구분해볼', '수', '있다', '.', "'코딩", '인터뷰', '사이트', "'", ',', "'온라인", '실시간', '면접', "'", ',', "'과제", '제출', '후', '오프라인', '추가', "면접'", '이렇게인데', ',', '아래에서', '각각에', '대해서', '조금', '더', '자세하게', '알아보자', '.', '1', ')', '코딩', '인터뷰', '사이트', ':', 'Hackerrank', ',', 'Codility', '코딩', '인터뷰로', '유명한', '위의', '두', '사이트에', '대해', '다른', '글에서', '소개한', '적이', '있으니', '아래', '링크를', '참고