# 1. 정규 표현식
* 출처 : 서적 "잡아라! 텍스트 마이닝 with 파이썬"
* 문자열이 주어진 규칙에 일치하는 지, 일치하지 않는지 판단할 수 있다.    
  정규 표현식을 이용하여 특정 패턴을 지니니 문자열을 찾을 수 있어 텍스트 데이터 사전 처리 및    
  크롤링에서 주로 쓰임

In [None]:
string = '기상청은 슈퍼컴퓨터도 서울지역의 집중호우를 제대로 예측하지 못했다고 설명했습니다. 왜 오류가 발생했\
습니다. 왜 오류가 발생했는지 자세히 분석해 예측 프로그램을 보완해야 할 대목입니다. 관측 분야는 개선될 여지가\
있습니다. 지금 보시는 왼쪽 사진이 현재 천리안 위성이 촬영한 것이고 오른쪽이 올해 말 쏘아 올릴 천리안 2A호가 \
촬영한 영상입니다. 오른쪽이 왼쪽보다 태풍의 눈이 좀 더 뚜렷하고 주변 구름도 더 잘 보이죠. 새 위성을 통해 태풍\
 구름 등의 움직임을 상세히 분석하면 좀 더 정확한 예측을 할 수 있지 않을까 기대해 봅니다. 정구희 기자(koohee@sbs.co.kr)'

In [None]:
string

In [None]:
import re

In [None]:
re.sub("\([A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|edu|net|co.kr)\)", "", string)

* \([A-Za-z0-9\._+]+ : 이메일 주소가 괄호로 시작하여 \(특수문자를 원래 의미대로 쓰게 함)와 (로 시작    
                     대괄호[ ] 안에 이메일 주소의 패턴을 입력(입력한 것 중 아무거나)    
                     A-Z = 알파벳 대문자, a-z = 알파벳 소문자, 0-9 = 숫자, ._+ = .나 _나 +     
                     마지막 +는 바로 앞에 있는 것이 최소 한번 이상 나와야 한다는 의미    
* @ : 이메일 주소 다음에 @    
* [A-Za-z]+ : 도메인 주소에 해당하는 알파벳 대문자나 소문자    
* \. : 도메인 주소 다음의 .    
* (com|org|edu|net|co.kr)\) : |는 or조건, 도메인 주소 마침표 다음의 패턴 마지막 )까지 찾음

### 파이썬 정규표현식 기호 설명
* '*' : 바로 앞 문자, 표현식이 0번 이상 반복
* '+' : 바로 앞 문자, 표현식이 1번 이상 반복
* '[]' : 대괄호 안의 문자 중 하나
* '()' : 괄호안의 정규식을 그룹으로 만듬
* '.' : 어떤 형태든 문자 1자
* '^' : 바로 뒤 문자, 표현식이 문자열 맨 앞에 나타남
* '$' : 바로 앞 문자, 표현식이 문자열 맨 뒤에 나타남
* '{m}' : 바로 앞 문자, 표현식이 m회 반복
* '{m,n}' : 바로 앞 문자, 표현식이 m번 이상, n번 이하 나타남
* '|' : |로 분리된 문자, 문자열, 표현식 중 하나가 나타남(or조건)
* '[^]' : 대괄호 안에 있는 문자를 제외한 문자가 나타남

In [None]:
# a문자가 1번 이상 나오고 b 문자가 0번 이상 나오는 문자열 찾기
r = re.compile("a+b*")
r.findall("aaaa, cc, bbbb, aabbb")

In [None]:
# 대괄호를 이용해 대문자로 구성된 문자열 찾기
r = re.compile("[A-Z]+")
r.findall("HOME, home")

In [None]:
# ^와 .을 이용하여 맨 앞에 a가 오고 그 다음에 어떠한 형태든 2개의 문자가 오는 문자열 찾기
r = re.compile("^a..")
r.findall("abc, cba")

In [None]:
# 중괄호 표현식 {m,n}을 이요하여 해당 문자열이 m번 이상 n번 이하 나타나는 패턴 찾기
r = re.compile("a{2,3}b{2,3}")
r.findall("aabb, aaabb, ab, aab")

In [None]:
# compile 메서드에 정규 표현식 패턴 지정, search로 정규 표현식 패턴과 일치하는 문자열의 위치 찾기
# group을 통해 패턴과 일치하는 문자들을 그룹핑하여 추출
p = re.compile(".+:")
m = p.search("http://google.com")
m.group()

In [None]:
# sub : 정규 표현식과 일치하는 부분을 다른 문자로 치환
p = re.compile("(내|나의|내꺼)")
p.sub("그의", "나의 물건에 손대지 마시오.")

# 2. 전처리

### 대소문자 통일

In [11]:
s = 'Hello World'
print(s.lower())
print(s.upper())

hello world
HELLO WORLD


### 숫자, 문장부호, 특수문자 제거

In [13]:
# 숫자 제거
p = re.compile("[0-9]+")
p.sub("", '서울 부동산 가격이 올해 들어 평균 30% 상승했습니다.')

'서울 부동산 가격이 올해 들어 평균 % 상승했습니다.'

In [20]:
# 문장부호, 특수문자 제거
p = re.compile("\W+")
p.sub(" ", "★서울 부동산 가격이 올해 들어 평균 30% 상승했습니다.")

' 서울 부동산 가격이 올해 들어 평균 30 상승했습니다 '

In [21]:
s = p.sub(" ", "주제_1: 건강한 물과 건강한 정신!")
s

'주제_1 건강한 물과 건강한 정신 '

In [22]:
p = re.compile("_")
p.sub(" ", s)

'주제 1 건강한 물과 건강한 정신 '

### 불용어 제거

In [23]:
words_Korean = ['추석','연휴','민족','대이동','시작','늘어','교통량','교통사고','특히','자동차','고장',
                '상당수','차지','나타','것','기자']
stopwords = ['가다','늘어','나타','것','기자']

In [24]:
[i for i in words_Korean if i not in stopwords]

['추석', '연휴', '민족', '대이동', '시작', '교통량', '교통사고', '특히', '자동차', '고장', '상당수', '차지']

In [29]:
from nltk.corpus import stopwords
# 그냥하면 LookupError 발생하므로 다운로드가 필요함
# import nltk
# nltk.download() or nltk.download('stopwords')

In [30]:
words_English = ['chief','justice','roberts',',','president','carter',',','president','clinton',',',
                'president','bush',',','president','obama',',','fellow','americans','and','people',
                'of','the','world',',','thank','you','.']
[w for w in words_English if not w in stopwords.words('english')]

['chief',
 'justice',
 'roberts',
 ',',
 'president',
 'carter',
 ',',
 'president',
 'clinton',
 ',',
 'president',
 'bush',
 ',',
 'president',
 'obama',
 ',',
 'fellow',
 'americans',
 'people',
 'world',
 ',',
 'thank',
 '.']

### 같은 어근 동일화(stemming)

In [36]:
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer

ps_stemmer = PorterStemmer()

new_text = 'It is important to be immersed while you are pythoning with python.\
All pythoners have pothoned poorly at least once.'

words = word_tokenize(new_text)

for w in words:
    print(ps_stemmer.stem(w), end=' ')

It is import to be immers while you are python with python.al python have pothon poorli at least onc . 

In [37]:
from nltk.stem.lancaster import LancasterStemmer

LS_stemmer = LancasterStemmer()

for w in words:
    print(LS_stemmer.stem(w), end=' ')

it is import to be immers whil you ar python with python.all python hav pothon poor at least ont . 

In [39]:
from nltk.stem.regexp import RegexpStemmer # 특정한 표현식을 일괄적으로 제거

RS_stemmer = RegexpStemmer('python')

for w in words:
    print(RS_stemmer.stem(w), end=' ')

It is important to be immersed while you are ing with .All ers have pothoned poorly at least once . 

### N-gram
* n번 연이어 등장하는 단어들의 연쇄
* 두 번 : 바이그램, 세 번 : 트라이그램(트라이그램 이상은 보편적으로 활용하지 않음)

In [40]:
from nltk import ngrams

In [41]:
sentence = 'Chief Justice Roberts, Preskdent Carter, President Clinton, President Bush, President Obama, \
fellow Americans and people of the world, thank you. We, the citizens of America are now joined in a great \
national effort to rebuild our country and restore its promise for all of our people. Together, we will \
determine the course of America and the world for many, many years to come. We will face challenges. We \
will confront hardships, but we will get the job done.'

grams = ngrams(sentence.split(), 2)

for gram in grams:
    print(gram, end=' ')

('Chief', 'Justice') ('Justice', 'Roberts,') ('Roberts,', 'Preskdent') ('Preskdent', 'Carter,') ('Carter,', 'President') ('President', 'Clinton,') ('Clinton,', 'President') ('President', 'Bush,') ('Bush,', 'President') ('President', 'Obama,') ('Obama,', 'fellow') ('fellow', 'Americans') ('Americans', 'and') ('and', 'people') ('people', 'of') ('of', 'the') ('the', 'world,') ('world,', 'thank') ('thank', 'you.') ('you.', 'We,') ('We,', 'the') ('the', 'citizens') ('citizens', 'of') ('of', 'America') ('America', 'are') ('are', 'now') ('now', 'joined') ('joined', 'in') ('in', 'a') ('a', 'great') ('great', 'national') ('national', 'effort') ('effort', 'to') ('to', 'rebuild') ('rebuild', 'our') ('our', 'country') ('country', 'and') ('and', 'restore') ('restore', 'its') ('its', 'promise') ('promise', 'for') ('for', 'all') ('all', 'of') ('of', 'our') ('our', 'people.') ('people.', 'Together,') ('Together,', 'we') ('we', 'will') ('will', 'determine') ('determine', 'the') ('the', 'course') ('cour

### 품사 분석

In [50]:
from konlpy.tag import Hannanum

hannanum = Hannanum()

print(hannanum.morphs("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))
print(hannanum.nouns("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))
print(hannanum.pos("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다.", ntags=9))

['친척들', '이', '모이', 'ㄴ', '이번', '추석', '차례상', '에서는', '단연', "'", '집값', "'", '이', '화제', '에', '오르', '아다', '.']
['친척들', '이번', '추석', '차례상', '집값', '화제']
[('친척들', 'N'), ('이', 'J'), ('모이', 'P'), ('ㄴ', 'E'), ('이번', 'N'), ('추석', 'N'), ('차례상', 'N'), ('에서는', 'J'), ('단연', 'M'), ("'", 'S'), ('집값', 'N'), ("'", 'S'), ('이', 'J'), ('화제', 'N'), ('에', 'J'), ('오르', 'P'), ('아다', 'E'), ('.', 'S')]


In [51]:
from konlpy.tag import Kkma
kkma = Kkma()

print(kkma.morphs("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))
print(kkma.nouns("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))
print(kkma.pos("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

['친척', '들', '이', '모이', 'ㄴ', '이번', '추석', '차례', '상', '에서', '는', '단연', "'", '집', '값', "'", '이', '화제', '에', '오르', '았', '다', '.']
['친척', '이번', '추석', '차례', '차례상', '상', '집', '집값', '값', '화제']
[('친척', 'NNG'), ('들', 'XSN'), ('이', 'JKS'), ('모이', 'VV'), ('ㄴ', 'ETD'), ('이번', 'NNG'), ('추석', 'NNG'), ('차례', 'NNG'), ('상', 'NNG'), ('에서', 'JKM'), ('는', 'JX'), ('단연', 'MAG'), ("'", 'SS'), ('집', 'NNG'), ('값', 'NNG'), ("'", 'SS'), ('이', 'MDT'), ('화제', 'NNG'), ('에', 'JKM'), ('오르', 'VV'), ('았', 'EPT'), ('다', 'EFN'), ('.', 'SF')]


In [52]:
from konlpy.tag import Twitter
twitter = Twitter()

print(twitter.morphs("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))
print(twitter.nouns("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))
print(twitter.pos("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))
print(twitter.phrases("친척들이 모인 이번 추석 차례상에서는 단연 '집값'이 화제에 올랐다."))

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['친척', '들', '이', '모인', '이번', '추석', '차례상', '에서는', '단연', "'", '집값', "'", '이', '화제', '에', '올랐다', '.']
['친척', '이번', '추석', '차례상', '단연', '집값', '이', '화제']
[('친척', 'Noun'), ('들', 'Suffix'), ('이', 'Josa'), ('모인', 'Verb'), ('이번', 'Noun'), ('추석', 'Noun'), ('차례상', 'Noun'), ('에서는', 'Josa'), ('단연', 'Noun'), ("'", 'Punctuation'), ('집값', 'Noun'), ("'", 'Punctuation'), ('이', 'Noun'), ('화제', 'Noun'), ('에', 'Josa'), ('올랐다', 'Verb'), ('.', 'Punctuation')]
['친척들', '이번', '이번 추석', '이번 추석 차례상', '단연', '집값', '이 화제', '추석', '차례상', '화제']


In [54]:
from nltk import pos_tag

tokens = "The little yellow dog barked at the Persian cat.".split()
tags_en = pos_tag(tokens)

print(tags_en)

[('The', 'DT'), ('little', 'JJ'), ('yellow', 'JJ'), ('dog', 'NN'), ('barked', 'VBD'), ('at', 'IN'), ('the', 'DT'), ('Persian', 'NNP'), ('cat.', 'NN')]
