#### 정규 표현식
 웹, SNS에서 수집한 자료들은 대부분 가공되어 있지 않은 상태로 수집
 이런 이유로 필요한 문자열을 적절하게 자르고, 교체하고, 추출하는 작업을 진행
 이때 사용되는 것이 "정규 표현식"

 #### 메타 문자
 정규 표현식에서 일정한 의미를 가지고 있는 특수문자를 "메타 문자"라고 한다.

#### 주요 메타 문자
메타문자 | 정규 표현식 | 의미
:--:|:--:|:--:
. | .x 또는 x. | 임의의 한 문자가 x 앞에 또는 뒤에 오는 패턴 지정
^ | ^x | x로 시작하는 문자열 (접두어 패턴을 지정)
$ | x$ | x로 끝나는 문자열 (접미어 패턴을 지정)
\* | x* | x가 0번 이상 반복
\+ | x+ | x가 1번 이상 반복
? | x? | x가 0 또는 1개 존재
\| | abc\|ABC | abc 또는 ABC 두 개 중 하나(or)
\[] | \[x] | x문자 1개 일치
\[^] | \[^x] | 특정 패턴에 x 문자를 제외(부정)
{n} | x{n} | x가 n번 연속
{n,} | x{n,} | x가 n번 이상 연속
{m,n} | x{m,n} | x가 m ~ n 사이 연속

#### 메타문자로 사용되는 이스케이프 문자
메타문자 | 의미
:--:|:--:
\s | 공백문자(white space)
\b | 문자와 공백 사이
\d | 숫자\[0-9]와 같다.
\w | 단어 \[0-9a-zA-z_]와 같다. 영문자 + 숫자 + _
\n | 줄바꿈 문자
\t | 탭 문자

** 이스케이프 문자를 대문자로 적으면 반대 의미로 해석...
예로 "\S"는 공백문자가 아닌 경우의 패턴을 의미함. 



In [None]:
### 정규 표현식 모듈
# 모듈명 : re 모듈 (regular expression)
# 사용 : import re

#### re 모듈의 주요 내장 함수
| 함수(파라미터) | 기능|
|:---:|:---|
|compile(pattern, flags=0) | 패턴을 컴파일하여 Pattern 객체를 반환|
|escape(pattern) | 문자열에서 특수 문자를 이스케이프 처리
|find_all(pattern, string, flags=0) | string에서 패턴과 일치하는 모둔 문자열을 리스트로 반환|
|finditer(pattern, string, flags=0) | string에서 패턴과 일치하는 모든 문자열을 반복자로 반환|
|fullmatch(pattern, string, flags=0) | 패턴을 모든 string에 적용하여 Match 객체를 반환, 일치하는 항목이 없으면 None반환|
|match(pattern, string, flags=0) | string의 처음부터 패턴을 적용하여 Match객체를 반환, 일치하는 것이 없으면 None반환|
|search(pattern, string, flags=0) | 문자열을 스캔하여 패턴과 일치하는지 확인하고 일치하는 객체를 리턴|
|split(pattern, string, maxsplit=0, flags=0) | string을 대상을 패턴과 일치하는 문자열을 분활하여 부분 문자열이 포함되는 리스트 반환|
|sub(pattern, replace, string, count=0, flags=0) | string에서 패턴과 일치하는 문자열을 replace로 대체하여 문자열을 반환|
|subn(pattern. replace, string, count=0, flags=0) | 문자열에서 패턴과 일치하는 문자열을 replace로 대체하여 (new_string, 숫자) 형식의 튜플로 반환 |
|template(pattern, flags=0) | 템플릿 패턴을 컴파일하여 pattern객체 반환|



In [32]:
## 문자열 찾기 예[findall()]

import re # 모듈 추가1
from re import findall # 모듈 추가 2

str1 = '12345 abc홍길동 ABC_555_6 이사도시'

# 숫자 찾기
print(findall('1234', str1))            # '1234' 문자 찾기
print(findall('[0-9]', str1))           # ['1', '2', '3', '4', '5', '5', '5', '6'] 한글자 패턴
print(findall('[0-9]{3}', str1))        # []{n} 연속된 n번 패턴
print(findall('[0-9]{3,}', str1))       # []{n,} 연속된 ㅐㅍ턴이 n번 이상인 경우...
print(findall('[0-9]{2,4}', str1))      # []{m,n} 연속된 패턴이 m번 이상 n번 이하인 경우 
print(findall('\\d{3}', str1))          # 이스테이프 문자 사용

# 문자열 찾기
print(findall('[가-힣]{3,}', str1))     # 한글 패턴 검색....
print(findall('[a-z]{3}', str1))
print(findall('[a-z|A-Z]{3}', str1))    # "|"을 이용한 패턴

str2 = 'test1abcABC 123mbc 45test'

# 접두어/접미어
print(findall('^test', str2))
print(findall('st$',str2))

# 종료 문자 찾기 : abc, mbc
print(findall('.bc',str2))
print(findall('[a,m]bc',str2))
print(findall('[a-z]bc', str2))

# 시작 문자 찾기
print(findall('t.', str2))


# 단어 찾기...
str3 = 'test^홍길동 abc 대한+민국 123$tbc'
word = findall('\\w{3,}', str3)
print(word)

# 문자열 제외 : x+ (x가 1개 이상 반복)
findall('[^^*$]+',str3)     # ^,*,$ 특수문자 제외 : [^^*$]+ => ^,*,$가 1개 이상 존재하는 경우 제외

['1234']
['1', '2', '3', '4', '5', '5', '5', '5', '6']
['123', '555']
['12345', '555']
['1234', '555']
['123', '555']
['홍길동', '이사도시']
['abc']
['abc', 'ABC']
['test']
['st']
['abc', 'mbc']
['abc', 'mbc']
['abc', 'mbc']
['te', 't1', 'te']
['test', '홍길동', 'abc', '123', 'tbc']


['test', '홍길동 abc 대한+민국 123', 'tbc']

In [37]:
## 문자열 검사 [match()]
# 문자열 패턴과 일치하는 문자열이 존재하면 객체를 반환, 일치되지 않는 경우에는 None을 반환
# 문자열 패턴과 일치여부를 검사하는 경우 사용.

import re
from re import match

# 패턴과 일치하는 경우...
jumin = '123456-3234567'
result = match('[0-9]{6}-[1-4][0-9]{6}',jumin)
print(result)

if result:
    print("주민번호 일치")
else:
    print("잘못된 주민번호")
    
jumin = '123456-5234567'

result = match('[0-9]{6}-[1-4][0-9]{6}',jumin)
print(result)

if result:
    print("주민번호 일치")
else:
    print("잘못된 주민번호")

<re.Match object; span=(0, 14), match='123456-3234567'>
주민번호 일치
None
잘못된 주민번호


In [67]:
### 문자열 치환 : sub()
# 패턴과 일치하는 문자열을 지정한 문자열로 치환하여 새로운 문자열을 반환.
# 자연어를 대상으로 불필요한 용어에 해당하는 문장부호나 특수 문자를 제거할 때 사용.

from re import sub

str3 = 'test^홍길동 abc 대한+민국 123$tbc'

# 특수문자 제거
text1 = sub('[\^*$]+',' ',str3)
print(text1)

## 연습... sub()
# text1에 있는 문자열 중에 "test" ->TEST로 변경하세요.

text2 = sub('test','TEST',text1)
print(text2)

text3 = sub('[a-z]{4}','TEST',text1)
print(text3)

sub(text1[0:4],'TEST',text1)

## 숫자 제거
text2 = sub('[0-9]','',text1)
print(text2)


test 홍길동 abc 대한+민국 123 tbc
TEST 홍길동 abc 대한+민국 123 tbc
TEST 홍길동 abc 대한+민국 123 tbc
test 홍길동 abc 대한+민국  tbc


In [33]:
### https://news.v.daum.net/v/20220404120609031 기사에서 이메일 정보를 찾아서
### 출력하는 문제....
import urllib.request as rq
from re import findall

url = 'https://news.v.daum.net/v/20220404120609031'

res = rq.urlopen(url)

data = res.read()

src = data.decode('utf-8')

test1 = findall('\\w+@\\w+[-_.]?\\w+[-_.]?\\w+',src)

print(test1)

['kimsdoo@yna.co.kr', 'kimsdoo@yna.co.kr', 'handbrother@yna.co.kr', 'handbrother@yna.co.kr', 'toadboy@yna.co.kr', 'toadboy@yna.co.kr', 'sncwook@yna.co.kr', 'sncwook@yna.co.kr']
