### 사전 처리
* 말뭉치(corpus)
   * 텍스트 마이닝에 적용되는 텍스트 데이터 집합
   * 대용량의 <b>정형화된</b> 텍스트 집합

In [2]:
import re

s = "Hello World"
s.lower()

'hello world'

In [3]:
s.upper()

'HELLO WORLD'

In [4]:
p = re.compile("[0-9]+")
# substitute 
p.sub("", "서울 부동산 가격이 올해 들어 평균 30% 상승했습니다.")

'서울 부동산 가격이 올해 들어 평균 % 상승했습니다.'

In [5]:
# \W(역슬래시 W) : non word 를 표현하며, 알파벳 + 숫자 + _가 아닌 문자를 의미한다.
p = re.compile("\W+")
s = p.sub(" ", "주제_1: 건강한 몸과 건강한 정신!")
s

'주제_1 건강한 몸과 건강한 정신 '

In [6]:
p = re.compile("_")
p.sub(" ", s)

'주제 1 건강한 몸과 건강한 정신 '

### 불용어 제거¶
* 불용어
    * 빈번하게 사용되나 구체적인 의미를 찾기 어려운 단어
    * NLTK 패키지 이용
        * pip install nltk
        * 한국어는 지원하지 않음
    * 한국어의 경우 분석가가 개인적으로 작성하거나 다른 분석가, 연구자들이 작성한 리스트를 활용

In [8]:
words_Korean = ["추석", "연휴", "민족", "대이동", "시작", "늘어", "교통량", "교통사고", "특히", "자동차", "고장", "상당수", "차지", "나타", "것", "기자"]
stopwords = ["가다", "늘어", "나타", "것", "기자"]

[i for i in words_Korean if i not in stopwords]

['추석', '연휴', '민족', '대이동', '시작', '교통량', '교통사고', '특히', '자동차', '고장', '상당수', '차지']

In [14]:
# import nltk
# nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\330-15\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [15]:
from nltk.corpus import stopwords

words_English = ['chief', 'justice', 'roberts', ',', 'president', 'carter', ',', 'president', 'clinton', ',', 'president', 'bush', ',', 'president', 'obama', ',', 'fellow', 'americans', 'and', 'people', 'of', 'the', 'world', ',', 'thank', 'you']

print([w for w in words_English if not w in stopwords.words('english')])

['chief', 'justice', 'roberts', ',', 'president', 'carter', ',', 'president', 'clinton', ',', 'president', 'bush', ',', 'president', 'obama', ',', 'fellow', 'americans', 'people', 'world', ',', 'thank']


### 같은 어근 동일화
* 분석 전 어근 동일화(stemming) 과정을 거쳐서 동일한 의미의 단어들을 같은 형태로 통일함
* NLTK 패키지의 PorterStemmer 라이브러리 이용
    * 이외 LancasterStemmer, RegexpStemmer 라이브러리가 있음
* 한국어의 경우 이러한 라이브러리가 없어 형태소 분석기를 사용해야 함

In [20]:
# nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\330-15\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [22]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

ps_stemmer = PorterStemmer()

new_text = "It is important to be immersed while you are pythoning with python. All pythoners have pythoned poorly at least once."

words = word_tokenize(new_text)

for w in words:
    print(ps_stemmer.stem(w), end=' ')


It is import to be immers while you are python with python . all python have python poorli at least onc . 

In [24]:
from nltk.stem.lancaster import LancasterStemmer

LS_stemmer = LancasterStemmer()

for w in words:
    print(LS_stemmer.stem(w), end=' ')

it is import to be immers whil you ar python with python . al python hav python poor at least ont . 

In [25]:
from nltk.stem.regexp import RegexpStemmer
RS_stemmer = RegexpStemmer("python")

for w in words:
    print(RS_stemmer.stem(w), end=' ')

It is important to be immersed while you are ing with  . All ers have ed poorly at least once . 

### N-gram
* n번 연이어 등장하는 단어들의 연쇄를 의미함
    * 두 번 연이어 등장하면 바이그램, 세 번 연이어 등장하면 트라이그램으로 부름
    * 트라이그램 이상은 보편적으로 활용하지 않음
* 보편적으로 영어에만 적용
* 바이그램 이상의 엔그램만 독자적으로 활용하는 것은 대단히 위험하며 유니그램(1-gram)과 혼합하여 단어들을 도출하는 것이 가장 이상적임

In [1]:
from nltk import ngrams

sentence = "Chief Justice Roberts, President Carter, President Clinton, President Bush, President Obama, fellow Americans and people of the world, thank you. We, the citizens of America are not jointed in a great national effort to rebuild our country and restore its promise for all of our people. Together, we will determine the course of America and the world for many, many years to come. We will face challenges. We will confront hardships, but we will get the job once."

grams = ngrams(sentence.split(), 2)

for gram in grams:
    print (gram, end=" ")

('Chief', 'Justice') ('Justice', 'Roberts,') ('Roberts,', 'President') ('President', 'Carter,') ('Carter,', 'President') ('President', 'Clinton,') ('Clinton,', 'President') ('President', 'Bush,') ('Bush,', 'President') ('President', 'Obama,') ('Obama,', 'fellow') ('fellow', 'Americans') ('Americans', 'and') ('and', 'people') ('people', 'of') ('of', 'the') ('the', 'world,') ('world,', 'thank') ('thank', 'you.') ('you.', 'We,') ('We,', 'the') ('the', 'citizens') ('citizens', 'of') ('of', 'America') ('America', 'are') ('are', 'not') ('not', 'jointed') ('jointed', 'in') ('in', 'a') ('a', 'great') ('great', 'national') ('national', 'effort') ('effort', 'to') ('to', 'rebuild') ('rebuild', 'our') ('our', 'country') ('country', 'and') ('and', 'restore') ('restore', 'its') ('its', 'promise') ('promise', 'for') ('for', 'all') ('all', 'of') ('of', 'our') ('our', 'people.') ('people.', 'Together,') ('Together,', 'we') ('we', 'will') ('will', 'determine') ('determine', 'the') ('the', 'course') ('co