### 7.1 정규표현식 Regular Expression
- 특정 규칙을 가진 문자열의 집합

#### 메타문자
- .x x.  임의의 문자가 x앞이나 뒤에 오는 패턴 지정
- ^x     x로 시작하는 문자열 (접두어 패턴 지정)
- x$     x로 끝나는 문자열 (접미어 패턴 지정)
- x*     x가 0번이상 반복
- x+     x가 1번이상 반복
- x?     x가 0 또는 1개 존재
- abc | ABC   abc 또는 ABC 두개 중 하나 선택
- [x]    x문자 한 개 일치
- [^x]    x문자 제외(부정)
- x{n}    x가 n번 연속
- x{n,}    x가 n번이상 연속
- x{m,n}    x가 m~n 사이 연속

#### 메타문자로 사용되는 이스케이프 문자
- \s  공백
- \b  문자와 공백 사이
- \d  숫자 [0-9]
- \w  단어 [0-9a-zA-Z_]  영문자+숫자+_(밑줄)
- \n  줄바꿈
- \t  tab
- 이스케이프 문자를 대문자로 적으면 반대의미. ~아닌경우로 해석

#### 정규표현식 모듈

RE 의 내장함수
- compile(pattern, flags = 0)    패턴을 컴파일항 pattern 객체 반환
- escape(pattern)    문자열에서 특수문자를 이스케이프 처리
- findall(pattern, string, flags = 0)  string에서 패턴과 일치하는 모든 문자열을 리스트로 반환
- finditer(pattern, string, flags = 0)   string에서 패턴과 일치하는 모든 문자열을 반복자로 반환
- fullmatch(pattern,string, flags= 0 )   패턴을 모든 string에 적용하여 match 개체를 반환, 일치하는 항목이 없으면 None 반환
- match(pattern, string, flags=0)  
- search(pattern, string, flags=0)  
- split(pattern, string, maxssplit = 0, flags =0)
- sub(pattern, repl, string, count =0, flags=0)  
- subn(pattern, repl,string, count =0, flags=0)  
- template(pattern,  flags=0)  

### 7.2 문자열처리

In [1]:
import re
from re import findall

st1 = '1234 abc홍길동 ABC_555_6 이사도시'

findall('1234', st1)

['1234']

In [3]:
findall('[0-9]', st1)

['1', '2', '3', '4', '5', '5', '5', '6']

In [4]:
findall('[0-9]{3}', st1)

['123', '555']

In [5]:
findall('[0-9]{3,}', st1)

['1234', '555']

In [6]:
findall('\\d{3,}', st1)

['1234', '555']

In [7]:
findall('[가-힣]{3,}', st1)

['홍길동', '이사도시']

In [8]:
findall('[a-z]{3}', st1)

['abc']

In [10]:
findall('[a-z|A-Z]{3}', st1)

['abc', 'ABC']

In [14]:
str2 = 'test1abcABC 123mbc 45test'
findall('^test', str2)   

['test']

In [15]:
findall('.bc', str2)

['abc', 'mbc']

In [16]:
findall('t.', str2)

['te', 't1', 'te']

In [17]:
str3 = 'test^홍길동 abc 대한*민국 123$tbc'
findall('\\w{3,}', str3)   #단어 찾기 한글+영문+숫자 중 하나가 3개 이상 연속된 것을 단어로 찾음

['test', '홍길동', 'abc', '123', 'tbc']

In [18]:
findall('[^^*$]+',str3)       # x+ x가 1개 이상 반복 
# ^, *, $ 를 문자열에서 제거
# ^ 다음에 오는 문자를 제외
# + 기호앞에 오는 문자가 1개 이상 연속

['test', '홍길동 abc 대한', '민국 123', 'tbc']

In [1]:
from re import match

jumin = '123456-3234567'
result = match('[0-9]{6}-[1-4][0-9]{6}',jumin) 
result

## '-' 기준으로 앞부분 6자리 숫자, 다음에 오는 성별 1자리숫자, 나머지 6자리 숫자

<re.Match object; span=(0, 14), match='123456-3234567'>

In [9]:
from re import sub
st4 = 'test*홍길동 abc 대한**민국 123$$abc'

# 특수문자 제거
sub('[\^*$]', '', st4)

'test홍길동 abc 대한민국 123abc'

In [5]:
# 숫자 제거
sub('[0-9]', '', st4)

'test*홍길동 abc 대한*민국 $abc'

### 7.3 텍스트처리

In [13]:
from re import split, match, compile

multiline = '''http://www.naver.com
http://www.daum.net
www.hongkildong.com'''

website = split('\n', multiline)
website

['http://www.naver.com', 'http://www.daum.net', 'www.hongkildong.com']

In [12]:
pat = compile('http://')
pat

re.compile(r'http://', re.UNICODE)

In [14]:
[site for site in website if match(pat, site)]

['http://www.naver.com', 'http://www.daum.net']

In [15]:
from re import findall, sub
texts = [' 우리나라   대한민국, 우리나라%$ a만세', '비아그&라 500GRAM 정렬 최고!','나는 대한민국 사람','보험료 15000원에 평생 보장 마감 임박','나는 홍길동']

In [21]:
# 소문자변경
texts_re1 = [t.lower() for t in texts]
texts_re1

[' 우리나라   대한민국, 우리나라%$ a만세',
 '비아그&라 500gram 정렬 최고!',
 '나는 대한민국 사람',
 '보험료 15000원에 평생 보장 마감 임박',
 '나는 홍길동']

In [22]:
# 숫자 제거
texts_re2 = [sub('[0-9]','', text) for text in texts_re1]
texts_re2

[' 우리나라   대한민국, 우리나라%$ a만세',
 '비아그&라 gram 정렬 최고!',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']

In [23]:
# 문장부호 제거
texts_re3 = [sub('[,.?!;:]','', text) for text in texts_re2]
texts_re3

[' 우리나라   대한민국 우리나라%$ a만세',
 '비아그&라 gram 정렬 최고',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']

In [24]:
# 특수문자 제거
texts_re4 = [sub('[@#$%^&*()]','', text) for text in texts_re3]
texts_re4

[' 우리나라   대한민국 우리나라 a만세',
 '비아그라 gram 정렬 최고',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']

In [25]:
# 영문자 제거
texts_re5 = [''.join(findall("[^a-z]", text)) for text in texts_re4]
texts_re5

[' 우리나라   대한민국 우리나라 만세',
 '비아그라  정렬 최고',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']

In [32]:
' '.join(texts_re5[0].split())

'우리나라 대한민국 우리나라 만세'

In [None]:
# 공백제거
texts_re6 = [' '.join(text.split() for text in texts_re5]
texts_re6

### 7.3.3 전처리함수

In [35]:
from re import findall, sub
texts = [' 우리나라   대한민국, 우리나라%$ a만세', '비아그&라 500GRAM 정렬 최고!','나는 대한민국 사람','보험료 15000원에 평생 보장 마감 임박','나는 홍길동']

def clean_text(text):
    texts_re1 = text.lower()  # 소문자변경
    texts_re2 = sub('[0-9]','', texts_re1)   # 숫자제거  
    texts_re3 = sub('[,.?!;:]','', texts_re2)   # 문장부호 제거
    texts_re4 = sub('[@#$%^&*()]','', texts_re3)  # 특수문자 제거
    texts_re5 = sub("[a-z]",'', texts_re4)  # 영문자제거
    texts_re6 = ' '.join(texts_re5.split())
    return texts_re6

In [36]:
[clean_text(text) for text in texts]

['우리나라 대한민국 우리나라 만세',
 '비아그라 정렬 최고',
 '나는 대한민국 사람',
 '보험료 원에 평생 보장 마감 임박',
 '나는 홍길동']