# NLP_Tutorial01_Text_Preprocessing

패키지 설치
>- NLTK(영어 자연어 처리)
>- konlpy(한글 자연어처리)
>- kss(한글 문장 분리기)

## Tokenization
의미가 있는 단위(Token)으로 나누는 작업

In [5]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize
nltk.download('punkt') #필요한 데이터 다운로드
print()

text = "in computer science, lexical analysis, lexing or tokenization is the process of convert a sequence of characters (such as in a computer program or web page) into a sequence of lexical tokens (strings with an assigned and thus identified meaning). \
A program that performs lexical analysis may be termed a lexer, tokenizer,[1] or scanner, although scanner is also a term for the first stage of a lexer. \
A lexer is generally combined with a parser, which together analyze the syntax of programming language, web pages, and so forth."

print(f'문단 : {text}')
print('문장')
n = 0
for sent in sent_tokenize(text): #문단을 문장으로 분리한 결과 하나씩 출력
    print(f'{n}번째 문장 : {sent}')
    n += 1
print()

sentence = 'Hello! This is NLT tutorial.'
print(f'문장 : {sentence}')
print(f'단어 : {word_tokenize(sentence)}') #문장을 단어로 분리


문단 : in computer science, lexical analysis, lexing or tokenization is the process of convert a sequence of characters (such as in a computer program or web page) into a sequence of lexical tokens (strings with an assigned and thus identified meaning). A program that performs lexical analysis may be termed a lexer, tokenizer,[1] or scanner, although scanner is also a term for the first stage of a lexer. A lexer is generally combined with a parser, which together analyze the syntax of programming language, web pages, and so forth.
문장
0번째 문장 : in computer science, lexical analysis, lexing or tokenization is the process of convert a sequence of characters (such as in a computer program or web page) into a sequence of lexical tokens (strings with an assigned and thus identified meaning).
1번째 문장 : A program that performs lexical analysis may be termed a lexer, tokenizer,[1] or scanner, although scanner is also a term for the first stage of a lexer.
2번째 문장 : A lexer is generally combined wit

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ejcej\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## KSS (Korean Sentence Splitter)

In [6]:
import kss

text = '안녕하세요. 만나서 반갑습니다.'
print(f'문단 : {text}')
print(f'문장 : {kss.split_sentences(text)}')  

[Korean Sentence Splitter]: Initializing Pynori...


문단 : 안녕하세요. 만나서 반갑습니다.
문장 : ['안녕하세요.', '만나서 반갑습니다.']


## POS Tagging

품사 태깅  

---

konlpy 공식 홈페이지 : https://konlpy.org/ko/latest/  
한국어 형태소 분석기 : 한나눔, 꼬꼬마, 코모란, Mecab, Okt 등

In [8]:
from nltk.tag import pos_tag
print()

text = 'I am a boy and you are a girl.'
tokenized_sentence = word_tokenize(text)

print(f'문장 : {text}')
print(f'단어 : {tokenized_sentence}')
print(f'품사 : {pos_tag(tokenized_sentence)}') #각 단어의 품사 태깅


문장 : I am a boy and you are a girl.
단어 : ['I', 'am', 'a', 'boy', 'and', 'you', 'are', 'a', 'girl', '.']
품사 : [('I', 'PRP'), ('am', 'VBP'), ('a', 'DT'), ('boy', 'NN'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('girl', 'NN'), ('.', '.')]


In [12]:
from konlpy.tag import Okt,Kkma

okt = Okt()
kkma = Kkma()
kor_text = "한글 문장도 형태소 분석이 가능할까요?"
print()

print(f'문장 : {kor_text}')
print()
print(f'형태소 분석(okt) : {okt.morphs(kor_text)}')
print(f'품사 태깅(okt) : {okt.pos(kor_text)}')
print(f'명사 추출(okt) : {okt.nouns(kor_text)}')
print()

print(f'형태소 분석(kkma) : {kkma.morphs(kor_text)}')
print(f'품사 태깅(kkma) : {kkma.pos(kor_text)}')
print(f'명사 추출(kkma) : {kkma.nouns(kor_text)}')


문장 : 한글 문장도 형태소 분석이 가능할까요?

형태소 분석(okt) : ['한글', '문장', '도', '형태소', '분석', '이', '가능할까', '요', '?']
품사 태깅(okt) : [('한글', 'Noun'), ('문장', 'Noun'), ('도', 'Josa'), ('형태소', 'Noun'), ('분석', 'Noun'), ('이', 'Josa'), ('가능할까', 'Adjective'), ('요', 'Noun'), ('?', 'Punctuation')]
명사 추출(okt) : ['한글', '문장', '형태소', '분석', '요']

형태소 분석(kkma) : ['한글', '문장도', '형태소', '분석', '이', '가능', '하', 'ㄹ까요', '?']
품사 태깅(kkma) : [('한글', 'NNG'), ('문장도', 'NNG'), ('형태소', 'NNG'), ('분석', 'NNG'), ('이', 'JKS'), ('가능', 'NNG'), ('하', 'XSV'), ('ㄹ까요', 'EFQ'), ('?', 'SF')]
명사 추출(kkma) : ['한글', '문장도', '형태소', '분석', '가능']


**+) NLTK POS Taglist**  

| Abbreviation | Meaning |  
|:---:|:---|  
|CC|coordinating conjunction|  
|CD|cardinal digit|  
|DT|determiner|  
|EX|existential there|  
|FW|foreign word|  
|IN|preposition/subordinating conjunction|  
|JJ|This NLTK POS Tag is an adjective (large)|  
|JJR|adjective, comparative (larger)|  
|JJS|adjective, superlative (largest)|  
|LS|list market|  
|MD|modal (could, will)|  
|NN|noun, singular (cat, tree)|  
|NNS|noun plural (desks)|  
|NNP|proper noun, singular (sarah)|  
|NNPS|proper noun, plural (indians or americans)|  
|PDT|predeterminer (all, both, half)|  
|POS|possessive ending (parent\ ‘s)|  
|PRP|personal pronoun (hers, herself, him, himself)|  
|PRP$|possessive pronoun (her, his, mine, my, our )|  
|RB|adverb (occasionally, swiftly)|  
|RBR|adverb, comparative (greater)|  
|RBS|adverb, superlative (biggest)|  
|RP|particle (about)|  
|TO|infinite marker (to)|  
|UH|interjection (goodbye)|  
|VB|verb (ask)|  
|VBG|verb gerund (judging)|  
|VBD|verb past tense (pleaded)|  
|VBN|verb past participle (reunified)|  
|VBP|verb, present tense not 3rd person singular(wrap)|  
|VBZ|verb, present tense with 3rd person singular (bases)|  
|WDT|wh-determiner (that, what)|  
|WP|wh- pronoun (who)|  
|WRB|wh- adverb (how)|  

## 표제어 추출 및 어간 추출
### 표제어 : 기본 사전형 단어(단어의 뿌리)

In [22]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives',\
         'dies', 'watched', 'has', 'starting']

#표제어 추출
print(f'단어 : {words}')
print(f'표제어 : {[lemmatizer.lemmatize(word) for word in words]}') #표제어 추출
print()

# doing, dies, has 같은 경우는 제대로 표제어를 추출해내지 못함. 따라서 이 단어들에 대해 정보 추가
# 품사 정보 추가
print('품사 정보 추가(doing) : ',lemmatizer.lemmatize('doing', 'v'))
print('품사 정보 추가(dies) : ',lemmatizer.lemmatize('dies', 'v'))
print('품사 정보 추가(watced) : ',lemmatizer.lemmatize('watched','v'))
print('품사 정보 추가(has) : ',lemmatizer.lemmatize('has', 'v'))



단어 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'dies', 'watched', 'has', 'starting']
표제어 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'dy', 'watched', 'ha', 'starting']

품사 정보 추가(doing) :  do
품사 정보 추가(dies) :  die
품사 정보 추가(watced) :  watch
품사 정보 추가(has) :  have


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\ejcej\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


### 어간 : 단어의 의미를 담고 있는 핵심 부분

In [25]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter = PorterStemmer()
lancaster = LancasterStemmer()

sentence = "In linguistic morphology and information retrleval, stemming is the process of reducing inflected (or sometimes derived) words to their word stem, base or root form-generally a written word form."
tokenized_sentence = word_tokenize(sentence)[:10] # 10개 단어

#어간추출
print(f'단어 : {tokenized_sentence}') #10개 단어
print(f'어간(Porter) : {[porter.stem(word) for word in tokenized_sentence]}')
print(f'어간(Lancaster) : {[lancaster.stem(word) for word in tokenized_sentence]}')


단어 : ['In', 'linguistic', 'morphology', 'and', 'information', 'retrleval', ',', 'stemming', 'is', 'the']
어간(Porter) : ['in', 'linguist', 'morpholog', 'and', 'inform', 'retrlev', ',', 'stem', 'is', 'the']
어간(Lancaster) : ['in', 'lingu', 'morpholog', 'and', 'inform', 'retrlev', ',', 'stem', 'is', 'the']


## 불용어
큰 의미가 없는 단어

In [27]:
from nltk.corpus import stopwords
nltk.download('stopwords')
print()

stop_words_list = stopwords.words('english') # nltk영어의 불용어 리스트
print(f'nltk 불용어 개수 : {len(stop_words_list)}')
print(f'불용어 예시 : {stop_words_list[:5]}')


nltk 불용어 개수 : 179
불용어 예시 : ['i', 'me', 'my', 'myself', 'we']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ejcej\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [29]:
example = '이 문장에서 불용어를 제외하면 무엇이 남을까요?'
stop_words = '이 에서 를 하면'

# 조사, 접속사 제저
stop_words = stop_words.split(' ') # 띄어쓰기 기준으로 문장 분리
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if not word in stop_words] #불용어에 해당하는 경우 제거

print(f'원래 단어 : {word_tokens}')
print(f'불용어 제거 : {result}')

원래 단어 : ['이', '문장', '에서', '불', '용어', '를', '제외', '하면', '무엇', '이', '남을까요', '?']
불용어 제거 : ['문장', '불', '용어', '제외', '무엇', '남을까요', '?']


## 정규표현식

### 정규표현식 문법
|식별자|예제 | 설명|
|:---:|:---:|:---|
| . | a.c | 임의의 문자 1개(와일드카드)|
| ? | a?c | 문자가 존재하거나 아닌 경우|
| * | ab\*c | 문자가 0개 이상 존재하는 경우|
| + | ab+c | 문자가 1개 이상 존재하는 경우|
| ^ | ^a | 특정 문자열로 시작|
| $ | c\$ | 특정 문자열로 종료|
| {} | ab{2}c | 특정 숫자만큼 반복|
| {2,3} | ab{2,3}c | 특정 범위만큼 반복|
| [] | [abc] | a 또는 b 또는 c가 문자열에 존재하는가?|
| [^] | [^abc] | a 또는 b 또는 c가 문자열 제외 | 
| \| | a\|bc | or 연산자, a 또는 bc가 존재하는가? |


In [37]:
import re

#임의의 문자 1개 : .
re1 = re.compile("a.c") # a와 c 사이에 아무 문자 1개 ex) acc, abc,...

print(f'abc : {re1.search("abc")}') # a와 c사이에 b존재 = True
print(f'abbc : {re1.search("abbc")}') # a와 c사이에 bb존재 = None
print(f'acd : {re1.search("acd")}') # a와 c사이에 아무것도 존재하지 않음 = None

abc : <re.Match object; span=(0, 3), match='abc'>
abbc : None
acd : None


In [43]:
#문자가 존재하거나 아닌 경우 : ?
re2 = re.compile("ab?c") # a와 c 사이에 b문자가 존재하거나 하지 않거나
                        # ex) ac, abc

print(f'abc : {re2.search("abc")}') # a와 c사이에 b존재 = True
print(f'ac : {re2.search("ac")}') # a와 c사이에 아무것도 존재하지 않음 = True
print(f'ab : {re2.search("ab")}') # re2패턴이 존재하지 않음 = None

abc : <re.Match object; span=(0, 3), match='abc'>
ac : <re.Match object; span=(0, 2), match='ac'>
ab : None
ab : None


In [44]:
#문자가 0개 이상일 경우 : *
re3 = re.compile("ab*c") #a와 c 사이에 b문자가 0개 이상
                        # ex) ac, abc, abbc, abbbbc, ....

print(f'ac : {re3.search("ac")}') # a와 c사이에 아무것도 존재하지 않음 = None
print(f'abc : {re3.search("abc")}') # a와 c사이에 b존재 = True
print(f'abbd : {re3.search("abbc")}') # a와 c사이에 bb존재 = True
print(f'abbdc : {re3.search("abbdc")}') # a와 c사이에 bbd존재 = None (d는 패턴이 아님)

ac : <re.Match object; span=(0, 2), match='ac'>
abc : <re.Match object; span=(0, 3), match='abc'>
abbd : <re.Match object; span=(0, 4), match='abbc'>
abbdc : None


In [45]:
#문자가 1개 이상일 경우 : +
re4 = re.compile("ab+c") #a와 c 사이에 b문자가 1개 이상
                        # ex) abc, abbc, abbbbc
    
print(f'ac : {re4.search("ac")}') # a와 c사이에 아무것도 존재하지 않음 = None
print(f'abc : {re4.search("abc")}') # a와 c사이에 b존재 = True
print(f'abbd : {re4.search("abbc")}') # a와 c사이에 bb존재 = True
print(f'abbdc : {re4.search("abbdc")}') # a와 c사이에 bbd존재 = None (d는 패턴이 아님)

ac : None
abc : <re.Match object; span=(0, 3), match='abc'>
abbd : <re.Match object; span=(0, 4), match='abbc'>
abbdc : None


In [47]:
#특정 문자열로 시작 : ^
re5 = re.compile("^a") # a로 시작하는 단어

print(f'a : {re5.search("a")}') # a로 시작 = True
print(f'abc : {re5.search("abc")}') # a로 시작 = True
print(f'da : {re5.search("da")}') # d로 시작 = None

a : <re.Match object; span=(0, 1), match='a'>
abc : <re.Match object; span=(0, 1), match='a'>
da : None


In [50]:
#특정 숫자만큼 반복 : {}
re6 = re.compile("ab{2}c") # abbc

print(f'abc : {re6.search("abc")}') # abc = None
print(f'abbc : {re6.search("abbc")}') # abbc = True
print(f'abbbc : {re6.search("abbbc")}') # abbbc = None

abc : None
abbc : <re.Match object; span=(0, 4), match='abbc'>
abbbc : None


In [51]:
#특정 범위만큼 반복 : {start_num이상, end_num이하}
# 이때 start_num이나 end_num 둘 중 하나 생략해서 사용 가능 ex) {,3}, {2,}
re7 = re.compile("ab{2,3}c") # abbc

print(f'abc : {re7.search("abc")}') # abc = None
print(f'abbc : {re7.search("abbc")}') # abbc = True
print(f'abbbc : {re7.search("abbbc")}') # abbbc = True
print(f'abbbbc : {re7.search("abbbbc")}') # abbbbc = None

abc : None
abbc : <re.Match object; span=(0, 4), match='abbc'>
abbbc : <re.Match object; span=(0, 5), match='abbbc'>
abbbbc : None


In [57]:
#특정 문자열 중 하나 : []
re8 = re.compile("[abc]") # a or b or c

print(f'ade : {re8.search("ade")}') # ade = Ture(a 존재)
print(f'deb : {re8.search("deb")}') # deb = True(b 존재)
print(f'dce : {re8.search("dce")}') # dce = True(c 존재)
print(f'def : {re8.search("def")}') # def = None
print()

#소문자 문자열 확인
re8_az = re.compile("[a-z]") # a - z 존재

print(f'a : {re8_az.search("a")}') # a = Ture
print(f'd : {re8_az.search("d")}') # d = True
print(f'z : {re8_az.search("z")}') # z = True
print(f'y : {re8_az.search("y")}') # y = True

ade : <re.Match object; span=(0, 1), match='a'>
deb : <re.Match object; span=(2, 3), match='b'>
dce : <re.Match object; span=(1, 2), match='c'>
def : None

a : <re.Match object; span=(0, 1), match='a'>
d : <re.Match object; span=(0, 1), match='d'>
z : <re.Match object; span=(0, 1), match='z'>
y : <re.Match object; span=(0, 1), match='y'>


In [59]:
#특정 문자열 제외 : [^]
re9 = re.compile("[^abc]") # a또는 b 또는 c가 아닌 문자열

print(f'abc : {re9.search("abc")}') # abc = None(a,b,c 모두 존재)
print(f'abd : {re9.search("abd")}') # abd = True(d만 출력)

abc : None
abd : <re.Match object; span=(2, 3), match='d'>


In [61]:
#특정 문자열 중 하나 : |
re10 = re.compile("a|bc") #a 또는 bc 문자열이 존재하는가?

print(f'ab : {re10.search("ab")}') # ab = True(a 출력)
print(f'bcd : {re10.search("bcd")}') # bcd = True(bc 출력)
print(f'cc : {re10.search("cc")}') # cc = None

ab : <re.Match object; span=(0, 1), match='a'>
bcd : <re.Match object; span=(0, 2), match='bc'>
cc : None


### 정규표현식 함수

|Method|Describe|
|:---:|:---|
|`.compile()` | 인자로 들어오는 문자열을 규칙으로 정의|
|`.search()`|문자열 전체에 대해서 정규표현식과 매치되는지 검색|
|`.match()`|문자열의 처음이 정규표현식과 매치되는지 검색|
|`.split()`|정규표현식을 기준으로 문자열 분리 후 리스트로 반환|
|`.findall()`|문자열에서 정규표현식과 매치되는 모든 문자열을 찾아서 리스트로 반환|
|`.sub()`|문자열에서 정규표현식과 일치하는 부분을 다른 문자열로 대체|

In [62]:
r = re.compile('ab')
text1 = 'abaab abb acb abab'
text2 = 'babaab abb acb abab'

#search()
print(f'search(text1) : {r.search(text1)}')
print(f'search(text2) : {r.search(text2)}')
print()

#match()
print(f'match(text1) : {r.match(text1)}')
print(f'match(text2) : {r.match(text2)}')

search(text1) : <re.Match object; span=(0, 2), match='ab'>
search(text2) : <re.Match object; span=(1, 3), match='ab'>

match(text1) : <re.Match object; span=(0, 2), match='ab'>
match(text2) : None


search(), match()할 때 패턴을 compile()한 후 변수에 담아 search, match 해도 되지만, compile하지 않고 인자로 넣어 사용해도 된다.

ex1)  
>pattern = 'ab'  
>re.search(pattern,text1)

ex2)  
>r = re.compile('ab')  
>r.search(text1)

In [68]:
#split(정규표현식 규칙, 분리할 문자열)
print(f'split(text1) : {re.split(" ", text1)}') 
print(f'split(text2) : {re.split(" ", text2)}') 

split(text1) : ['abaab', 'abb', 'acb', 'abab']
split(text2) : ['babaab', 'abb', 'acb', 'abab']


In [69]:
#findall(정규표현식 규칙, 분리할 문자열)
print(f'findall(text1) : {re.findall(r, text1)}') 
print(f'findall(text2) : {re.findall(r, text2)}') 

findall(text1) : ['ab', 'ab', 'ab', 'ab', 'ab']
findall(text2) : ['ab', 'ab', 'ab', 'ab', 'ab']


In [71]:
#sub(정규표현식 규칙, 대체할 문자열, 대체될 문자열)
print(f'sub(text1) : {re.sub(r, "z", text1)}') 
print(f'sub(text2) : {re.sub(r, "z", text2)}') 

sub(text1) : zaz zb acb zz
sub(text2) : bzaz zb acb zz


**+) 정규표현식 패턴**

<table ><tr><th>Character</th><th>Description</th><th>Example Pattern Code</th><th >Exammple Match</th><th>etc.</th></tr>

<tr ><td><span >\d</span></td><td>A digit</td><td>file_\d\d</td><td>file_25</td><td>'file_'뒤에 오는 모든 숫자는 다 가능</td></tr>

<tr ><td><span >\w</span></td><td>Alphanumeric</td><td>\w-\w\w\w</td><td>A-b_1</td><td>일련의 문자, 숫자</td></tr>



<tr ><td><span >\s</span></td><td>White space</td><td>a\sb\sc</td><td>a b c</td><td>공백문자</td></tr>



<tr ><td><span >\D</span></td><td>A non digit</td><td>\D\D\D</td><td>ABC</td><td>숫자가 아닌 문자</td></tr>

<tr ><td><span >\W</span></td><td>Non-alphanumeric</td><td>\W\W\W\W\W</td><td>*-+=)</td><td>알파벳이나 숫자가 아닌 문자 = 특수문자 같은 것</td></tr>

<tr ><td><span >\S</span></td><td>Non-whitespace</td><td>\S\S\S\S</td><td>Yoyo</td><td>공백이 아닌 모든 문자</td></tr></table>

In [81]:
import time

# wikipedia 'python'의 첫 문단
wiki_text = "Python is a high-level, interpreted, general-purpose programming language. Its design philosophy emphasizes code readability with the use of significant indentation.[32] \
Python is dynamically-typed and garbage-collected. It supports multiple programming paradigms, including structured (particularly procedural), object-oriented and functional programming. It is often described as a \"batteries included\" language due to its comprehensive standard library.[33][34] \
Guido van Rossum began working on Python in the late 1980s as a successor to the ABC programming language and first released it in 1991 as Python 0.9.0.[35] Python 2.0 was released in 2000 and introduced new features such as list comprehensions, cycle-detecting garbage collection, reference counting, and Unicode support. Python 3.0, released in 2008, was a major revision that is not completely backward-compatible with earlier versions. Python 2 was discontinued with version 2.7.18 in 2020.[36] \
Python consistently ranks as one of the most popular programming languages.[37][38][39][40]"
n_copy = 1000 #처리해야할 text의 규모가 커질수록, 규칙이 복잡할수록 정규식이 더 빠름
wiki_text = ' '.join([wiki_text] * n_copy)

# 대문자로 시작하고 5글자 이하인 단어 찾기(단, I로 시작하는 단어 제외)
# 1. 대문자 시작
# 2. 5글자 이하
# 3. I로 시작 제외

# 정규식
re_start = time.time()

# I제외, 5글자 이하, 대문자 시작조건 모두 충족하는 규칙 생성
pattern = re.compile(r"\b[A-HJ-Z]\w{,4}\b") # \b는 단어의 경계를 의미, \w는 문자 또는 숫자
re_list = re.findall(pattern, wiki_text)

# print(re_list)

re_end = time.time()

print(f'정규식 : {re_end - re_start}')
print()

#split과 in
split_in_start = time.time()
word_list = wiki_text.split() # 문단을 단어로 분리
upper_list = list() 
for word in word_list:
    if word[0].isupper() and word[0] != 'I' and len(word) <=5:
        upper_list.append(word)

# print(upper_list)

split_in_end = time.time()

print(f'split+in : {split_in_end - split_in_start}')

정규식 : 0.019571304321289062

split+in : 0.026005268096923828
