# 정규표현식

정규표현식(Regular Expression, regex)  
프로그래밍에서 문자열을 다룰 때, 문자열의 일정 패턴을 표현하는 형식  
보통 정규식이라고 부르며, regex, regexp라고 많이 씀

정규식 테스트 사이트: https://regexr.com/  
연습문제 사이트: https://regexone.com/

## 정규표현식 정리
메타문자: 원래 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;ex) . ^ $ * + ? { } [ ] \ | ( )

### 기본 메타문자

|기호  |설명                                      |
|------|------------------------------------------|
|.     |\n을 제외한 모든 문자 일치                |
|\|    |OR 왼쪽 혹은 오른쪽 문자와 일치           |
|()    |문자 집합 캡처, 캡처된 문자는 재참조 가능 |
|[]    |문자 집합 구성원 중 하나와 일치           |
|[^]   |문자 집합 구성을 제외하고 일치            |
|-     |범위 정의                                 |
|\     |다음에 오는 문자를 이스케이프             |


### 수량자

|기호  |설명                                                     |
|------|---------------------------------------------------------|
|*     |앞의 문자나 부분식이 0개 이상 greedy 찾기                |
|*?    |앞의 문자나 부분식이 0개 이상 lazy 찾기                  |
|+     |앞의 문자나 부분식이 1개 이상 greedy 찾기                |
|+?    |앞의 문자나 부분식이 1개 이상 lazy 찾기                  |
|?     |앞의 문자나 부분식을 0개나 1개 찾기                      |
|{n}   |앞의 문자나 부분식이 n번 일치하는 경우 찾기              |
|{m,n} |앞의 문자나 부분식이 m번 이상 n번 이하 일치하는 경우 찾기|
|{n,}  |앞의 문자나 부분식이 n번 이상인 경우 greedy 찾기         |
|{n,}? |앞의 문자나 부분식이 n번 이상인 경우 lazy 찾기           |

*는 0개 이상  
+는 1개 이상

greedy: 조건이 맞는 모든 것을 하나의 패턴으로 인식  
lazy:   조건이 맞는 1개를 하나의 패턴으로 인식

### 위치지정

|기호  |설명                                                                 |
|------|---------------------------------------------------------------------|
|^     |입력 문자열의 시작에서 다음에 나오는 문자나 부분식과 일치하는지 검사 |
|\$    |문자열의 끝과 일치                                                   |
|\b    |단어의 경계(공백 등)와 일치                                          |
|\B    |\b와 반대(비단어 경계)로 일치                                        |
|\A    |multiline 사용 시 줄과 관계 없이 처음 문자열에 매칭                  |
|\Z    |multiline 사용 시 줄과 관계 없이 마지막 문자열에                     |

### 특수문자

|기호  |설명                                                                 |
|------|---------------------------------------------------------------------|
|[\b]  |역스페이스                                                           |
|\d    |모든 숫자와 일치, [0-9]                                              |
|\D    |\d와 반대, [^0-9] , 글자나 공백 등                                                   |
|\w    |영숫자 문자나 밑줄과 일치, [a-zA-Z0-9]  영어랑 숫자만                             |
|\W    |\w와 반대, [^a-zA-Z0-9]  영어 숫자 말고
|\n    |줄 바꿈 문자                                                         |
|\t    |탭 문자                                                              |
|\v    |세로 탭                                                              |
|\s    |공백, 탭, 용지 공급 등과 같은 문자 찾기, [\f\n\r\t\v]                |
|\S    |\s와 반대, [^\f\n\r\t\v] 공백 문자가 아닌것                                           |
|\cx   |x로 표시된 제어문자                                                  |

### 역참조와 전후방탐색

|기호            |설명                                                         |
|----------------|-------------------------------------------------------------|
|(pattern)       |하위 표현식 정의. 패턴을 찾아 일치하는 항목 캡처             |
|                |캡처 내에 ?:를 사용 (?:)시 캡처하지 않음,                    | 
|                |캡처된 문자는 재참조 가능                     |
|                |?P<name>으로 이름 부여 가능
|\1              |첫 번째 일치한 하위 표현식, 두 번째 일치한 표현식은 \2로 표시|
|(?=pattern)     |전방탐색                                                     |
|(?!pattern)     |부정형 전방탐색                                              |
|(?<=pattern)    |후방탐색                                                     |
|(?<!pattern)    |부정형 후방탐색                                              |
|?(BR)true       |조건 지정                                                    |
|?(BR)true|false |else 표현식 조건 지정                                        |

### 옵션

|기호 |설명                                                           |
|-----|---------------------------------------------------------------|
|\i   |IGNORECASE, 대소문자를 구분하지 않고 탐색                      |
|\g   |GLOBAL, 패턴을 계속 찾음.                                      |
|     |greedy처럼 일치하는 구간을 늘리는 것이 아닌 패턴 개수가 늘어남 |
|\m   |MULTILINE, 입력 문자열에 줄바꿈이 있어도 이를 문자로 간주      |
|\s   |DOTALL, .이 줄바꿈 문자를 포함한 모든 문자를 매치              |
|\x   |VERBOSE, verbose 모드 사용                                     |

## 정규표현식 기본 예제

### 기본 예

|정규표현식   |설명                                                           |
|-------------|---------------------------------------------------------------|
|abc          |abc가 있는 경우                                                |
|^abc         |abc로 시작하는 경우                                            |
|abc\$        |abc로 끝나는 경우                                              |
|^abc$        |abc로 시작하고 끝나는 경우                                     |
|[abc]        |a,b,c 중 하나를 포함하는 경우                                  |
|[a-z]        |a에서 z중 하나를 포함하는 경우                                 |
|^[0-9]       |0~9 중 하나로 시작하는 경우                                    |
|[^0-9]       |0~9가 아닌 경우                                                |
|^[^0-9]      |0~9가 아닌 것으로 시작하는 경우                                |
|a{3}         |a가 3번 반복되는 경우, aaa                                     |
|a{3,}        |a가 3번 이상 반복되는 경우                                     |
|[0-9]{2}     |0~9가 두 번 반복되는 경우, 두 자리 숫자                        |
|abc[7-9]{2}  |abc를포함하고 7~9까지 숫자 중 2자리가 함되는 경우              |

### 많이 사용하는 정규식

|설명         |정규표현식                                                     |
|-------------|---------------------------------------------------------------|
|이메일       |[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}                |
|전화번호     |(070\|02\|031\|032\|033\|041\|042\|043\|051\|052\|053\|054\|055\|061\|062\|063\|064)-\d{3,4}-\d{4}                                             |
|휴대폰번호   |(010\|011\|016\|017\|018\|019)-\d{3,4}-\d{4}                   |
|우편번호     |\d{3}-?\d{3}                                                   |
|주민등록번호 |\d{2}[0-1]\d[0-3]\d-?[1-6]\d{6}                                |

### 태그 제거

|패턴         |정규표현식                                                     |
|-------------|---------------------------------------------------------------|
|\&nbsp;      |\&nbsp;                                                        |
|복수 공백    |\s{2,}                                                         |
|ifram        |<iframe(.*?)<\/iframe>                                         |
|style=       |style=(\"\|\')?([^\"\']+)(\"\|\')?/"                           |
|width=       |width=(\"\|\')?\d+(\"\|\')?                                    |
|height=      |height=(\"\|\')?\d+(\"\|\')?/"                                 |

## re 모듈
파이썬에서 정규표현식을 지원하기 위해 사용하는 모듈  
내장 라이브러리로 별도로 설치할 필요 없음



```python
import re
```




In [89]:
import warnings
import pandas as pd
import numpy as np
import re
from sqlalchemy import create_engine

In [61]:
warnings.filterwarnings('ignore')

In [9]:
USERNAME = 'postgres'
PASSWORD = '1234'
DB_HOST = '192.168.0.22'
PORT = 5432
DB_NAME = 'postgres'

db_url = f'postgresql+psycopg2://{USERNAME}:{PASSWORD}@{DB_HOST}:{PORT}/{DB_NAME}'
engine = create_engine(db_url, echo=True)

In [12]:
data = pd.read_sql('select * from article', engine)

2024-10-02 14:03:49,333 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2024-10-02 14:03:49,334 INFO sqlalchemy.engine.Engine SELECT pg_catalog.pg_class.relname 
FROM pg_catalog.pg_class JOIN pg_catalog.pg_namespace ON pg_catalog.pg_namespace.oid = pg_catalog.pg_class.relnamespace 
WHERE pg_catalog.pg_class.relname = %(table_name)s AND pg_catalog.pg_class.relkind = ANY (ARRAY[%(param_1)s, %(param_2)s, %(param_3)s, %(param_4)s, %(param_5)s]) AND pg_catalog.pg_table_is_visible(pg_catalog.pg_class.oid) AND pg_catalog.pg_namespace.nspname != %(nspname_1)s
2024-10-02 14:03:49,335 INFO sqlalchemy.engine.Engine [cached since 4602s ago] {'table_name': 'select * from article', 'param_1': 'r', 'param_2': 'p', 'param_3': 'f', 'param_4': 'v', 'param_5': 'm', 'nspname_1': 'pg_catalog'}
2024-10-02 14:03:49,338 INFO sqlalchemy.engine.Engine select * from article
2024-10-02 14:03:49,339 INFO sqlalchemy.engine.Engine [raw sql] {}
2024-10-02 14:03:49,367 INFO sqlalchemy.engine.Engine ROLLBACK


### re.match
```python
re.match('ell', 'hello')
```
문자열의 시작에서 패턴이 일치하는지 확인  
위 코드의 경우 ell이 문자열 중간에 있어 매칭되는 게 없음  

match 객체에는 다음의 메서드가 존재

|기호        |설명                                                         |
|------------|-------------------------------------------------------------|
|group()     |매치된 문자열 반환                                           |
|groupdict() |매치된 문자열의 이름과 결과 쌍 반환 (?P<이름>)사용           |
|start()     |매치된 문자열의 시작 위치 반환                               |
|end()       |매치된 문자열의 끝 위치 반환                                 |
|span()      |매치된 문자열의 (시작, 끝)에 해당하는 튜플 반환              |

In [22]:
re.match('\[\w+\]', data.title[1])

  re.match('\[\w+\]', data.title[1])


<re.Match object; span=(0, 3), match='[표]'>

In [28]:
# pattern에 매칭되지 않으면 아무런 결과가 출력되지 않음
re.match('cjlbdjkhsklrjhkls', data.title[1])

In [32]:
re.match('\[\w+\]', '[표]')

  re.match('\[\w+\]', '[표]')


<re.Match object; span=(0, 3), match='[표]'>

### re.fullmatch
```python
re.fullmatch('ell', 'hello')
```
문자열에 시작과 끝이 정확하게 패턴과 일치하는지 확인  

In [46]:
# 주어진 string에 pattern외 다른 게 있으면 매칭되지 않음음
re.fullmatch('\[\w+\]', data.title[1])

  re.fullmatch('\[\w+\]', data.title[1])


In [36]:
re.fullmatch('\[\w+\]', '[표]') # re.match('^\[\w+\]$', data.title[1])

  re.fullmatch('\[\w+\]', '[표]') # re.match('^\[\w+\]$', data.title[1])


<re.Match object; span=(0, 3), match='[표]'>

### re.search
```python
re.search('ell', 'hello')
```
문자열 내에서 패턴이 일치하는지 확인  
위 코드의 경우 ell이 문자열 중간에 매칭

In [49]:
# match는 pattern으로 시작하는 string에서 pattern 탐색
re.match('\[\w+\]', '회국환율고시표 [표]')

  re.match('\[\w+\]', '회국환율고시표 [표]')


In [48]:
# search는 string 내 pattern과 매칭
re.search('\[\w+\]', '회국환율고시표 [표]')

  re.search('\[\w+\]', '회국환율고시표 [표]')


<re.Match object; span=(8, 11), match='[표]'>

### re.compile
```python
regex = re.compile('ell')
regex.search('hello')
```
정규식 패턴을 정규식 객체로 컴파일  
객체에는 match, search 등의 메서드 사용 가능

In [50]:
# pattern을 미리 저장해두고 이후에 적절한 함수를 사용용
regex = re.compile('\[\w+\]')

  regex = re.compile('\[\w+\]')


In [52]:
regex.search('[표]')

<re.Match object; span=(0, 3), match='[표]'>

### re.split
```python
re.split('\s', 'hello world')
```
주어진 패턴을 기준으로 분할 후 리스트로 반환  
maxsplit을 이용하면 최대 n개의 분할 개수 설정 가능

In [65]:
# str.split과 유사하나 정규식을 지원원
print('hello world'.split('\s'))
print(re.split('\s', 'hello world'))
print(re.split('\s', 'hello\tworld'))
print(re.split('\s', 'hello\vworld'))
print(re.split('\s', 'hello\nworld'))

['hello world']
['hello', 'world']
['hello', 'world']
['hello', 'world']
['hello', 'world']


### re.findall
```python
re.findall(r'(\w+)=(\d+)', 'set width=20 and height=10')
```
주어진 패턴에 매칭되는 결과를 리스트로 반환

In [71]:
# search는 pattern에 매칭되는 결괏값 하나 반환
re.search('\w+=(\d+)', 'set width=20 and height=10')

<re.Match object; span=(4, 12), match='width=20'>

In [69]:
# findall은 pattern에 매칭되는 결과 전체 반환
re.findall('\w+=\d+', 'set width=20 and height=10')

['width=20', 'height=10']

In [66]:
# findall은 capture 사용 가능, search는 안 됨
re.findall('\w+=(\d+)', 'set width=20 and height=10')

['20', '10']

### re.finditer
```python
re.finditer(r'(\w+)=(\d+)', 'set width=20 and height=10')
```
주어진 패턴에 매칭되는 결과를 이터레이터로 반환

In [74]:
# pattern matcing 된 결과를 iterable 객체로 반환
for item in re.finditer('\w+=\d+', 'set width=20 and height=10'):
    print(item)

<re.Match object; span=(4, 12), match='width=20'>
<re.Match object; span=(17, 26), match='height=10'>


### re.sub
```python
re.sub('\d+', '0', 'width=20 and height=10', 1)
```
패턴에 매칭되는 글자를 repl로 치환  
subn과 마찬가지로 변경되는 최대 글자를 제한할 수 있음

In [75]:
# 숫자를 -로 변환환
re.sub('\d+', '-', 'set width=20 and height=10')

'set width=- and height=-'

In [77]:
# 끝에 숫자를 지정하여 최대 변환 수 지정
re.sub('\d+', '-', 'set width=20 and height=10', 1)

'set width=- and height=10'

### re.subn
```python
re.subn('\d+', '0', 'width=20 and height=10', 1)
```
패턴에 매칭되는 글자를 repl로 치환  
sub와 동일하나 (결과, 변환된 갯수)로 반환

In [80]:
# 끝에 숫자를 지정하여 최대 변환 수 지정, 몇 개가 변환되었는지 같이 반환환
re.subn('\d+', '-', 'set width=20 and height=10 and a=3', 3)

('set width=- and height=- and a=-', 3)

In [None]:
re.subn('\d+', '-', 'set width=20 and height=10 and a=3')

('set width=- and height=- and a=-', 3)

# Practice

In [90]:
# 'data.title' 열에 있는 문자열에 대해 정규식을 적용해 패턴이 '[문자]'로 시작하는지 확인하는 작업
# np.where: 조건을 기반으로 True 또는 False 값을 반환
# data.title.apply(lambda x: re.match('^\[\w+\]', x)): 'title' 열에 대해 람다 함수를 적용하여 '[문자]' 패턴과 일치하는 항목을 찾음
# re.match: 문자열이 '[문자]'로 시작하는지 확인하는 정규식 패턴
# fillna(-1): 일치하지 않는 항목을 -1로 채움 (즉, None 값을 -1로 변경)
# np.where(... != -1, True, False): 정규식에 일치하는 경우 True, 그렇지 않은 경우 False 반환

np.where(data.title.apply(lambda x: re.match('^\[\w+\]', x)).fillna(-1) != -1, True, False)

array([False,  True, False, False, False, False, False,  True, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False,  True, False, False,
       False, False, False, False,  True, False,  True, False, False,
       False, False, False, False,  True, False, False, False, False,
       False, False, False, False, False, False, False, False,  True,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False,  True, False,
       False, False,  True, False, False, False, False, False, False,
       False, False, False, False,  True, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False,

In [97]:
data.title.loc[np.where(data.title.apply(lambda x: re.search('^\[\w+\]', x)).fillna(-1) != -1, True, False)]

1                                            [표] 외국환율고시표
7                              [매경데스크] 엔캐리 청산 리스크에 대한 경계
33                                [포토] 신한금융 베트남 계열사 한자리에
40                           [속보]김민석, 민주당 ‘수석 최고위원’으로 선출
42             [속보]이재명 민주당 대표 연임 “대한민국 모든 영역 퇴행…새 길 열겠다”
49                     [속보] 민주 최고위원에 김민석·전현희·한준호·김병주·이언주
62                                        [부음] 하영자씨 별세 외
79                              [기자24시] 당국, 삼성바이오 항소 신중을
83                            [아이티라떼] 삼성SDS 직원 된 웹툰작가 김풍
94                  [단독]한국계 美민주 대의원 "시간은 트럼프가 아니라 해리스 편"
154                          [부고] 김현호씨(하나증권 기업금융본부장) 빙모상
184               [팩플] 사피온-리벨리온 합병 본계약 체결…AI 맞춤형 반도체 만든다
187                       [소년중앙] ‘노래하는 그릇’ 싱잉볼로 마음 다스려볼까
194                                      [부고] 한양수 전 충남지사
206                            [소년중앙] 손대면 ‘톡’…나를 만지지 마세요
209           [속보] 한미일 정상 “인태지역 평화·안정 유지 다짐…3국 협력 필수불가결”
224          [포토타임] 미술작품 보며 더위를 잊으세요...부산 비엔날레 10월 20일까지
243            [속보] 尹 "반국가세력 사회

In [111]:
data.title.loc[np.where(data.title.str.findall('^\[\w+\]').apply(lambda x: len(x)) >= 1, True, False)]

1                                            [표] 외국환율고시표
7                              [매경데스크] 엔캐리 청산 리스크에 대한 경계
33                                [포토] 신한금융 베트남 계열사 한자리에
40                           [속보]김민석, 민주당 ‘수석 최고위원’으로 선출
42             [속보]이재명 민주당 대표 연임 “대한민국 모든 영역 퇴행…새 길 열겠다”
49                     [속보] 민주 최고위원에 김민석·전현희·한준호·김병주·이언주
62                                        [부음] 하영자씨 별세 외
79                              [기자24시] 당국, 삼성바이오 항소 신중을
83                            [아이티라떼] 삼성SDS 직원 된 웹툰작가 김풍
94                  [단독]한국계 美민주 대의원 "시간은 트럼프가 아니라 해리스 편"
154                          [부고] 김현호씨(하나증권 기업금융본부장) 빙모상
184               [팩플] 사피온-리벨리온 합병 본계약 체결…AI 맞춤형 반도체 만든다
187                       [소년중앙] ‘노래하는 그릇’ 싱잉볼로 마음 다스려볼까
194                                      [부고] 한양수 전 충남지사
206                            [소년중앙] 손대면 ‘톡’…나를 만지지 마세요
209           [속보] 한미일 정상 “인태지역 평화·안정 유지 다짐…3국 협력 필수불가결”
224          [포토타임] 미술작품 보며 더위를 잊으세요...부산 비엔날레 10월 20일까지
243            [속보] 尹 "반국가세력 사회

In [142]:
# 기사 내에서 금융 관련 뉴스를 추출하여 새로운 데이터프레임으로 저장
# 1. 금융 관련 뉴스에 대한 정의
# 2. 정의된 내용을 바탕으로 추출

target = '금리|금융|환율|증시|주가|통화|엔화|경제|연준|연방준비위원회|시황|트레이드|FRB|자금|펀드|은행|대출|이자|예금|적금'
data.contents.loc[np.where(data.contents.apply(lambda x: re.search(target, x)).fillna(-1) != -1, True, False)]

0      \n\n\n\n\nGS건설이 엘리베이터 제조사인 GS엘리베이터 매각을 추진한다.17...
4      \n미일 정상, 尹 8.15 독트린 지지할 듯\n\n\n\n 윤석열 대통령이  작년...
7      \n일본 마이너스금리 정책으로수천조 원으로 커졌던 엔캐리청산과정 증시·환율 불안 유...
9      \n수령액 상반기에만 6천만…연봉킹 보수 20억5대 은행 총퇴직금 평균 5억, 최대...
10     \n의친왕 딸 이해경 여사에한인회, 광복절 감사패 수여美 컬럼비아대 사서로 일하며부...
                             ...                        
345    \n\t\t\t  SK네트웍스·LG전자 등 국내 대기업이 손정의(일본명 손 마사요시...
351    \n\t\t\t  윤석열 대통령과 조 바이든 미국 대통령, 기시다 후미오 일본 총리...
352    \n\t\t\t  올 초 서울 소재 4년제 대학을 졸업한 이모(28)씨는 최근 ‘취...
354    \n\t\t\t  가구와 가전제품 등을 판매해온 온라인 쇼핑몰 알렛츠가 영업 종료를...
358    [<article class="go_trans _article_content" id...
Name: contents, Length: 139, dtype: object