In [None]:
## 정규표현식
# 웹, SNS에서 수집한 자료들은 대부분 가공되어 있지 않은 상태로 수집
# 이런 이유로 필요한 문자열을 적절하게 자르고 교체하고 추출하는 작업을 진행
# 이 때 사용되는 것이 '정규 표현식'

## 메타문자
# 정규표현식에서 일정한 의미를 가지고 있는 특수문자

**주요 메타 문자**
메타문자 | 정규 표현식 | 의미
:---:|:---:|:---:
. | .x 또는 x. | 임의의 한 문자가 x 앞에 또는 뒤에 오는 패턴 지정(='_')
^ | ^x | x로 시작하는 문자열(접두어 패턴을 지정)
$ | x$ | x로 끝나는 문자열(접미어 패턴을 지정)
\* | x* | x가 0번 이상 반복
\+ | x+ | x가 1번 이상 반복
? | x? | x가 0 또는 1개 존재
\| | abc\|ABC | abc 또는 ABC 두 개 중 하나(or)
[ ] | \[x] | x문자 한 개 일치
\[^] | \[^x] | x문자를 제외(부정)
{n} | x{n} | x가 n번 연속
{n,} | x{n,} | x가 n번 이상 연속
{m,n} | x{m,n} | x가 m ~ n 사이 연속

**메타문자로 사용되는 이스케이프 문자**
  메타문자 | 의미
  :---:|:---:
  \s | 공백문자(white space)
  \b | 문자와 공백 사이
  \d | 숫자[0-9]와 같습니다.
  \w | 단어\[0-9a-zA-Z_]와 같다. 영문자 + 숫자 + _
  \n | 줄바꿈 문자
  \t | 탭문자
  
  **이스케이프 문자를 대문자로 적으면 반대 의미로 해석*  
  ex) '\S'는 공백문자가 아닌 경우의 패턴을 의미함

In [None]:
## 정규표현식 모듈
# 모듈명 : re모듈
# 사용 : import re

**모듈의 주요 내장 함수**

| 함수(파라미터) | 기능 |
|:---:|:---|
|complie(pattern, flags=0) | 패턴을 컴파일하여 Pattern 객체를 반환 |
|escape(pattern) | 문자열에서 특수문자를 이스케이프 처리
|findall(pattern, string, flags=0) | string에서 pattern과 일치하는 모든 문자열을 리스트로 반환 |
|finditer(pattern, string, flags=0) | string 패턴과 일치하는 모든 문자열을 반복자로 반환|
|fullmatch(pattern, string, flags=0) | 패턴을 모든 string에 적용하여 Match 개체를 반환, 일치하는 항목이 없으면 None 반환 |
|search(pattern, string, flangs=0) | 문자열을 스캔하여 패턴과 일치하는지 확인하고 일치하는 객체를 리턴
|split(pattern), string, maxsplit=0, flags=0) | string을 대상으로 패턴과 일치하는 문자열을 분할하여 부분 문자열이 포함되는 리스트 반환 |
|sub(pattern, repl, string, count=0, flags=0) | string에서 패턴과 일치하는 문자열을 repl로 대체하여 문자열을 반환|
|subn(pattern, repl, string, count=0, flags=0) | 문자열에서 패턴과 일치하는 문자열을 repl로 대체하여 (new_string, 숫자) 형식의 튜플로 반환 |
|template(pattern, flags=0) | 템플릿 패턴을 컴파일하여 pattern 객체 반환 |

In [20]:
## 문자열 찾기 예

import re # 모듈 추가 1
from re import findall #모듈 추가 2

str1 = '1234 abc홍길동 ABC_555_6 이사도시'

# 숫자 찾기
print(findall('1234', str1))        # '1234' 문자 찾기  ['1234']

print(findall('[0-9]', str1))       # [] : 한 글자 패턴 - 한 글자씩 추려냄  ['1', '2', '3', '4', '5', '5', '5', '6']

print(findall('[0-9]{3}', str1))    # []{n} n번 연속된 패턴     ['123', '555']
print(findall('\\d{3}', str1))      # = 이스케이프 문자 사용

print(findall('[0-9]{3,}', str1))   # []{n,} n번 이상 연속된 패턴   ['1234', '555']
print(findall('\\d{3,}', str1))     # = 이스케이프 문자 사용

print(findall('[0-9]{2,4}', str1))  # []{m,n} m번 이상 n번 이하 연속된 패턴

# 문자열 찾기
print(findall('[가-힣]', str1))                # 한글 한 글자 패턴 찾기     ['홍', '길', '동', '이', '사', '도', '시']
print(findall('[가-힣]{3,}', str1))            # n글자 이상 한글 패턴 찾기  ['홍길동', '이사도시']
print(findall('[a-z]{3}', str1))              # ['abc']
print(findall('[A-Z|a-z|0-9]{3}', str1))      # ['123', 'abc', 'ABC', '555']

['1234']
['1', '2', '3', '4', '5', '5', '5', '6']
['123', '555']
['123', '555']
['1234', '555']
['1234', '555']
['1234', '555']
['홍', '길', '동', '이', '사', '도', '시']
['홍길동', '이사도시']
['abc']
['123', 'abc', 'ABC', '555']


In [53]:
import re 

# 특정 위치의 문자열 찾기
str2 = 'test1abcABC 123mbc 45test'

# 접두어/접미어
print(findall('^test', str2))           # test로 시작하는 문자열의 test를 찾기 ['test']
print(findall('st$', str2))             # st로 끝나는 문자열의 st를 찾기['st']

# 종료 문자 찾기 : ['abc', 'mbc']
print(findall('.bc', str2))             # _bc 찾기
print(findall('[a,m]bc', str2))         # abc / mbc 찾기

# 시작 문자 찾기
print(findall('t.', str2))              # t로 시작하면서 한글자 더 있는 것 ['te', 't1', 'te']
print(findall('t[A-Za-z0-9]{1,}', str2))    # t로 시작하는 문자열 ['test1abcABC', 'test']

# 단어 찾기
str3 = 'test^홍길동 abc 대한+민국 123$tbc'
print(findall('[a-zA-Z0-9가-힣]{3,}', str3))    # ['test', '홍길동', 'abc', '123', 'tbc']
word = findall('\\w{3,}', str3)     # 이스케이프 문자는 훨씬 간단하다!
print(word)         # ['test', '홍길동', 'abc', '123', 'tbc']

# 문자열 제외 : x+ (x가 1개 이상 반복)
findall('[^^*$]+', str3)     # [^x]는 여집합
                             # ^,*,$ 특수문자를 제외한 한 글자 이상'+'의 패턴 : [^^*$]+



['test']
['st']
['abc', 'mbc']
['abc', 'mbc']
['te', 't1', 'te']
['test1abcABC', 'test']
['test', '홍길동', 'abc', '123', 'tbc']
['test', '홍길동', 'abc', '123', 'tbc']


['test', '홍길동 abc 대한+민국 123', 'tbc']

In [62]:
## 문자열 검사 [match()]
# 문자열 패턴과 일치하는 문자열이 존재하면 객체를 반환, 일치되지 않는 경우에는 None
# 문자열 패턴과 일치여부를 검사하는 경우 사용

import re                   # 모듈추가 1
from re import match        # 모듈추가 2

# 패턴과 일치하는 경우
jumin = '123456-3234567'
result = match('[0-9]{6}-[1-4][0-9]{6}', jumin)
print(result)

if result :
    print('주민번호 일치')
else :
    print('잘못된 주민번호')

<re.Match object; span=(0, 14), match='123456-3234567'>
주민번호 일치


In [87]:
## 문자열 치환 : sub()
# 패턴과 일치하는 문자열을 지정한 문자열로 치환하여 새로운 문자열을 반환
# 자연어를 대상으로 불용어에 해당하는 문장부호나 특수문자를 제거할 때 사용

import re
from re import sub

str3 = 'test^홍길동 abc 대한+민국 123$tbc'

# 특수문자 제거
text1 = sub('[\*^$]+','',str3)      # 해당 특수기호 중 하나가, 한 개 이상 있을 때 모두 ''로 치환
print(text1)

## sub() 연습
# text1에 있는 문자열 중에 'test' -> 'TEXT'로 변경
print(sub('test', 'TEXT', text1))
print(sub('[a-z]{4}','TEXT',text1))
print(sub(text1[0:4],'TEXT', text1))

# 숫자 제거
print(sub('[0-9]', '', text1))          # test홍길동 abc 대한+민국 tbc

test홍길동 abc 대한+민국 123tbc
TEXT홍길동 abc 대한+민국 123tbc
TEXT홍길동 abc 대한+민국 123tbc
TEXT홍길동 abc 대한+민국 123tbc
test홍길동 abc 대한+민국 tbc


In [31]:
# [실습] 뉴스를 스크래핑해서 이메일만 따로 빼서 저장하기

import urllib; from bs4 import BeautifulSoup; import re

url = 'https://news.v.daum.net/v/20220404120609031'
data = urllib.request.urlopen(url)
data = data.read()
data = data.decode('utf-8')
data = BeautifulSoup(data,'html.parser')
data = data.find_all('p')

crawling_data = ''
for x in data :
    if x.string :
        crawling_data+= x.string

email = re.findall('\\w+@[.-_a-zA-Z0-9]+',crawling_data)
print(email)


# 선생님 답
data1 = urllib.request.urlopen(url)
data1 = data1.read()
data1 = data1.decode('utf-8')
email2 = re.findall('\\w+@\\w+[-_.]?\\w+[-_.]?\\w+', data1)
print(email2)


['sncwook@yna.co.kr']
['kimsdoo@yna.co.kr', 'kimsdoo@yna.co.kr', 'handbrother@yna.co.kr', 'handbrother@yna.co.kr', 'toadboy@yna.co.kr', 'toadboy@yna.co.kr', 'sncwook@yna.co.kr', 'sncwook@yna.co.kr']
