# 정규표현식

In [None]:
string = """기상청은 슈퍼컴퓨터도 서울지역의 집중호우를 제대로 예측하지 못했다고 설명했습니다. 왜 오류가 발생했는지 자세히 분석해 예측 프로그램을 보완해야할 대목입니다. 관측 분야는 개선될 여지가 있습니다. 지금 보시는 왼쪽 사진이 현재 천리안 위성이 촬영한 것이고 오른쪽이 올해 말 쏘아 올릴 천리안 2A호가 촬영한 영상입니다. 오른쪽이 왼쪽보다 태풍의 눈이 좀 더 뚜렷하고 주변 구름도 더 잘 보이죠. 새 위성을 통해 태풍 구름 등의 움직임을 상세 분석하면 좀 더 정확히 예측을 할 수 있지 않을까 기대해 봅니다. 정구희 기자(koohee@sbs.co.kr)"""

In [None]:
import re
re.sub(r'\([a-zA-Z0-9\._+]+@[a-zA-Z]+\.(com|org|edu|net|co.kr)\)', '', string)

In [None]:
r = re.compile('a+b*')
r.findall('aaaa, cc, bbbb, aabbbb')

In [None]:
r = re.compile('[A-Z]+')
r.findall('HOME, home')

In [None]:
r = re.compile('^a..')
r.findall('abc,cba')

In [None]:
r = re.compile('a{2,3}b{2,3}')
r.findall('aabb, aaabb, ab, aab')

In [None]:
p = re.compile('.+:')
m = p.search('http://google.com')
m.group()

In [None]:
p = re.compile('(내|나의|내꺼)')
p.sub('그의', '나의 물건에 손대지 마시오.')

# 전처리

### 1. 대소문자 통일

In [None]:
s = 'Hello World'

In [None]:
s.lower()

In [None]:
s.upper()

### 2. 숫자, 문장부호, 특수문자 제거

In [None]:
p = re.compile('[0-9]+')
p.sub("", "서울 부동산 가격이 올해 들어 평균 30% 상승했습니다.")

In [None]:
p = re.compile('\W+')
p.sub(" ", "★서울 부동산 가격이 올해 들어 평균 30% 상승했습니다!")

In [None]:
p = re.compile('\W+')
s = p.sub(' ', '주제_1: 건강한 몸과 건강한 정신!')
s

In [None]:
p = re.compile('_')
p.sub(' ', s)

### 3. 불용어 제거

In [None]:
# 한국어 불용어 처리
words = ['소설', '시', '인문', '역사', '예술', '종교', '사회', '과학','경제 경영', '자기계발', '만화', '여행', '잡지',
        '어린이', '청소년','유아', '요리','육아', '가정 살림', '건강 취미', '대학교재','국어와 외국어', 'IT 모바일',
        '수험서 자격증', '초등참고서', '중고등참고서']   #yes24.com의 Category

In [None]:
stopwords = ['유아', '청소년', '어린이', '육아', '성인', '19금']

In [None]:
[word for word in words if word not in stopwords]

In [None]:
#영어 불용어 처리
from nltk.corpus import stopwords

In [None]:
words = ['chief', 'justice', 'roberts', 'president', 'carter', 'president', 'clinton', 
         'president', 'bush', 'president', 'obama', 'fellow', 'americans', 'and', 'people', 
         'of', 'the', 'world', 'thank', 'you']

In [None]:
[word for word in words if not word in stopwords.words('english')]

### 4. Stemming

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()

In [None]:
new_text = """It is important to be immersed while you are pythoning with python. All pythoners 
            have pythoned pooly at least once."""

In [None]:
words = word_tokenize(new_text)

In [None]:
for word in words:
    print(ps.stem(word), end=' ')

In [None]:
from nltk.stem import LancasterStemmer
ls = LancasterStemmer()

In [None]:
for word in words :
    print(ls.stem(word), end = ' ')

In [None]:
from nltk.stem import RegexpStemmer
rs = RegexpStemmer('python')

In [None]:
for word in words :
    print(rs.stem(word), end = ' ')

### 5. N-gram

- n번 연이어 등장하는 단어들의 연쇄를 의미
- 두 번 연이어 등장하면 바이그램, 세 번 연이어 등장하면 트라이그램이라 한다.
- 트라이그램 이상은 보편적으로 활용하지 않는다.
- N그램은 보편적으로 영어에만 적용된다.
- 예)'Republic of Korea', 'United Kongdom' 같은 경우 N그램을 활용해야 제대로 된 단어로 인지가능함.
- 그렇지만 무작정 N그램을 적용하면 의미 없는 단어 뭉치가 많이 발생하여 불필요한 작업이 될 수 있다.
- 따라서 유니그램(1-gram)과 혼합하여 단어들을 도출하는 것이 가장 이상적이다.

In [None]:
from nltk import ngrams

In [None]:
sentense = """Chief Justice Roberts, President Carter, President Clinton, President Bush, 
            President Obama, fellow Americans and people of the world, thank you. We, the citizens 
            of America are now joined in a great national effort to rebuild our country and restore 
            its promise for all of our people. Together, we will determine the course of America and 
            the world for many, many years to come. We will face challenges. We will confront hardships, 
            but we will get the job done."""

In [None]:
grams = ngrams(sentense.split(), 2)   # 2개씩

In [None]:
for gram in grams:
    print(gram, end = ' ')

### 6. POS Tagging

In [1]:
from konlpy.tag import Hannanum
hannanum = Hannanum()

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [2]:
text = "친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."
hannanum.morphs(text)

['친척들',
 '이',
 '모이',
 'ㄴ',
 '이번',
 '추석',
 '차례상',
 '에서는',
 '단연',
 "'",
 '집값',
 "'",
 '이',
 '화제',
 '에',
 '오르',
 '아다',
 '.']

In [3]:
hannanum.nouns(text)

['친척들', '이번', '추석', '차례상', '집값', '화제']

In [4]:
hannanum.pos(text)

[('친척들', 'N'),
 ('이', 'J'),
 ('모이', 'P'),
 ('ㄴ', 'E'),
 ('이번', 'N'),
 ('추석', 'N'),
 ('차례상', 'N'),
 ('에서는', 'J'),
 ('단연', 'M'),
 ("'", 'S'),
 ('집값', 'N'),
 ("'", 'S'),
 ('이', 'J'),
 ('화제', 'N'),
 ('에', 'J'),
 ('오르', 'P'),
 ('아다', 'E'),
 ('.', 'S')]

In [5]:
from konlpy.tag import Kkma
kkma = Kkma()

In [6]:
kkma.morphs(text)

['친척',
 '들',
 '이',
 '모이',
 'ㄴ',
 '이번',
 '추석',
 '차례',
 '상',
 '에서',
 '는',
 '단연',
 "'",
 '집',
 '값',
 "'",
 '이',
 '화제',
 '에',
 '오르',
 '았',
 '다',
 '.']

In [7]:
kkma.nouns(text)

['친척', '이번', '추석', '차례', '차례상', '상', '집', '집값', '값', '화제']

In [8]:
kkma.pos(text)

[('친척', 'NNG'),
 ('들', 'XSN'),
 ('이', 'JKS'),
 ('모이', 'VV'),
 ('ㄴ', 'ETD'),
 ('이번', 'NNG'),
 ('추석', 'NNG'),
 ('차례', 'NNG'),
 ('상', 'NNG'),
 ('에서', 'JKM'),
 ('는', 'JX'),
 ('단연', 'MAG'),
 ("'", 'SS'),
 ('집', 'NNG'),
 ('값', 'NNG'),
 ("'", 'SS'),
 ('이', 'MDT'),
 ('화제', 'NNG'),
 ('에', 'JKM'),
 ('오르', 'VV'),
 ('았', 'EPT'),
 ('다', 'EFN'),
 ('.', 'SF')]

In [None]:
from konlpy.tag import Okt
okt = Okt()

In [None]:
okt.morphs(text)

In [None]:
okt.nouns(text)

In [None]:
okt.pos(text)

In [None]:
okt.phrases(text)   #Okt에만 있는 phrases() : 문장을 구 단위로 나눈다.

In [None]:
from nltk import pos_tag

In [None]:
tokens = "The litte yellow dog barked at the Persian cat.".split()

In [None]:
tag_en = pos_tag(tokens)
tag_en

In [None]:
import nltk
from nltk.tokenize import RegexpTokenizer
from nltk.tag import pos_tag

retokenizer = RegexpTokenizer('[\w]+')
emma = nltk.corpus.gutenberg.raw('austen-emma.txt')
emma = retokenizer.tokenize(emma)
emma = ' '.join(emma)
emma = emma[44:]

In [None]:
import nltk
nltk.download('tagsets')
nltk.download('averaged_perceptron_tagger')

In [None]:
#품사에 대한 자세한 설명
nltk.help.upenn_tagset('NNP')

In [None]:
from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize

tagged_list = pos_tag(word_tokenize(emma[:100]))
tagged_list

In [None]:
#문장에서 명사만 추출
nouns_list = [tag[0] for tag in tagged_list if tag[1] == 'NN']
nouns_list

In [None]:
#정규표현식을 사용해서 모든 명사(NN, NNPS, NNS)들 찾기
import re
nouns_list = [tag[0] for tag in tagged_list if re.compile(r'NN?').match(tag[1])]
nouns_list

In [None]:
#untag() 품사 제거한 list
from nltk.tag import untag
untag(tagged_list)

In [None]:
#단어와 품사를 붙여서 출력
print(["/".join(tag) for tag in tagged_list])

# Text Mining - 단어 빈도 분석

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords

In [None]:
path = '/home/instructor/Downloads/트럼프취임연설문.txt'
mydoc = None
with open(path, 'r') as f:
    mydoc = f.read()
    
mydoc[:100]

In [None]:
tokenizer = RegexpTokenizer('[\w]+')
stop_words = stopwords.words('english')

In [None]:
words = mydoc.lower()
tokens = tokenizer.tokenize(words)

In [None]:
stopped_tokens = [word for word in list(tokens) if not word in stop_words]
stopped_tokens2 = [word for word in stopped_tokens if len(word) > 1]

In [None]:
import pandas as pd
myseries = pd.Series(stopped_tokens2).value_counts()
myseries.head(10)

In [None]:
index_list = myseries.index
mydic = {}
i = 1
for key in index_list:
    mydic[key] = i
    i += 1
    
mydic   #Integer Encoding

In [10]:
path = '/home/data/문재인대통령취임연설문.txt'
mydoc = None
with open(path, 'r', encoding='euckr') as f:
    mydoc = f.read()
    
mydoc[:100]

FileNotFoundError: [Errno 2] No such file or directory: '/home/data/문재인대통령취임연설문.txt'

In [None]:
from konlpy.tag import Hannanum
hannanum = Hannanum()
mylist = [word for word in hannanum.nouns(mydoc) if len(word) > 1]   #한글자 제외

In [None]:
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()
tokenizer.fit_on_texts([mydoc])
tokenizer.word_index   #Integer Encoding