# ***정규표현식***

## **모듈 함수**

* findall : 일치하는 문자열을 리스트로 반환
* split : 일치하는 문자열로 원재 문자열을 분할한 리스트로 반환
* sub : 일치하는 문자열을 치환한 문자열을 반환
* search : 일치하는 문자열이 있으면 Match 객체를 반환, 첫문자열만 반환
<br/><br/>
* compile
* match
* finditer

* **findall 함수**

In [None]:
# findall 함수를 사용하면 지정한 조건에 일치하는 문자열을 리스트로 얻을 수 있다.

# re.함수(r) -> raw문자열이라고 
# 이스케이프가 필요한 메타 문자를 무시하는 효과가 있음
# 사용할때는 앞에 r을 붙이는것이 좋음

In [3]:
import re

text1 = "In the face of ambiguity, refuse the temptation to guess"
match_list1 = re.findall(r"t.", text1)
print(match_list1)

text2 = "tx ti tp te t1 t2 t# t- t~d"
match_list2 = re.findall(r"t.", text2)
print(match_list2)

['th', 'ty', 'th', 'te', 'ta', 'ti', 'to']
['tx', 'ti', 'tp', 'te', 't1', 't2', 't#', 't-', 't~']


* **sub 함수** : 문자열 대체

In [52]:
# 정규표현식으로 치환하기

# sub함수를 사용하면 정규표현식으로 치환할 수 있습니다.

import re

text = "Beautiful is better than ugly"
#sub(대체 해야할 문자 / 대체 할 문자 / 데이터)
replaced = re.sub(r" ", "_", text) #공백문자는 \s로도 쓰입니다.
print(replaced)

Beautiful_is_better_than_ugly


In [9]:
import re

text = "Beautiful is better than ugly"
replaced = re.sub(r"\s", "_", text)  #공백문자는 \s로도 쓰입니다.
print(replaced)

Beautiful_is_better_than_ugly


* **split 함수** : 텍스트 분할

In [12]:
# 정규표현식으로 텍스트 분할하기

# split함수를 사용하면 정규 표현식에 일치한 위치에서 분할한 문자열 리스트를 얻을 수 있습니다.

import re

text = 'Simple is Best'
# ^ -> 문자의 시작 
# + 직전 정규표현식을 1회이상 반복
splitted = re.split(r"[^a-zA-Z0-9]+", text)
print(splitted)

#[^a-zA-Z0-9]+는 정규 표현식(regular expression)에서 사용되는 특수한 패턴으로, 
#알파벳 대소문자와 숫자가 아닌 문자들이 하나 이상 연속해서 나타나는 경우를 의미합니다.
# 결국 공백을 구분자로 해서 분리

['Simple', 'is', 'Best']


* **search 함수** : 일치하는 부분 확인

In [54]:
# 정규표현식과 일치하는 부분 확인

# re 모듈의 serach함수는 정규표현식과 일치하는 첫 번째 위치 정보가 저장된 Match 객체를 반환
# Match 객체를 사용하면 일치하는 위치의 문자열과 함께 시작 및 종료 위치 정보 확보 가능

# match객체
# start , end , group, groups 튜플 그룹

import re

text = 'Error should never pass silently naver pain'

# 1번 그룹 - n.... n다음에 4글자가 아무거나
# 2번 그룹 - P... n다음에 3글자가 아무거나
m_obj = re.search(r"n.... p...", text)
print(m_obj)
print(m_obj.group(), " / ", m_obj.group()[0])    # 일치 문자열 ()로 묶인 것인 없음
#print(m_obj.groups(), " / ", m_obj.groups()[1])
print(m_obj.start())    # 시작 인덱스
print(m_obj.end())      # 끝 인덱스

<re.Match object; span=(13, 23), match='never pass'>
never pass  /  n
13
23


## **그룹 이용하기**

In [None]:
# 정규표현식의 그룹은 데이터 분석 할때 자주 사용하는 기능으로
# 원하는 객체를 그루핑할 수 있다라는 장점이 있습니다.

# 제품 -> [0-9]+
# 카탈로그 코드 [0-9A-Z]+
# 제품명 .*
# 구분 문자 공백

# ([0-9]+) +([ 0-9 A-Z]+) +(.*)

#홈쇼핑#
import re

text = """
101 CF001 커피
102 CF002 커피(대용량)
103 CF003 홍차
104 CF004 홍차(대용량)
"""

#group 1 
#group 2
#group 3
items = re.findall(r"([0-9]+) +([0-9A-Z]+) +(.*)", text) # 그룹을 묶을 때 ()
print(items)

[('101', 'CF001', '커피'), ('102', 'CF002', '커피(대용량)'), ('103', 'CF003', '홍차'), ('104', 'CF004', '홍차(대용량)')]


In [17]:
regex = re.compile(r"(Mon|Tues|Fri)day")

result = re.findall(regex, searchtarget)
print(result)

['Mon', 'Tues', 'Fri']


In [18]:
regex = re.compile(r"(?:Mon|Tues|Fri)day")  # ?: -> 그룹을 사용하지 않음

result = re.findall(regex, searchtarget)
print(result)

['Monday', 'Tuesday', 'Friday']


## **Greedy, Lazy 개념**

In [6]:
import re

text = 'In the face of ambiguity, refuse the temptation to guess'

match_list = re.findall(r"t.*\s", text)
print(match_list)

['the  face of ambiguity, refuse the temptation to ']


In [7]:
import re

text = 'In the face of ambiguity, refuse the temptation to guess'

match_list = re.findall(r"t.*?\s", text)
print(match_list)

['the ', 'ty, ', 'the ', 'temptation ', 'to ']


## **문법**

**Chapter2**

(...) 소괄호 안을 그루핑 

[...] 대괄호 안의 문자 중 하나
[^...] 대괄호 안의 문자 중 하나도 없음

x(ab|cd) x로 시작해 ab또는 cd에 일치 (ab|cd 그룹)

\ 직후 정규표션식 기호 무시
\ 에 일치

{n} 직전 정규표현식의 반복 횟수
{n,} 직전 정규표현식의 최소 반복 횟수
{n,m} 직전 정규표현식의 반복 횟수 범위

A{3} A가 3회 반복되면 일치
A{3, }A가 3회 이상 반복되면 일치
A{3, 6}A가 3~6회 이상 반복되면 일치

In [None]:
# .	한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외)
# ?	앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개)
# *	앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상)
# +	앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상)
# l	AlB와 같이 쓰이며 A 또는 B의 의미를 가집니다.

# ^	뒤의 문자열로 문자열이 시작됩니다.
# $	앞의 문자열로 문자열이 끝납니다.

# {숫자}	숫자만큼 반복합니다.
# {숫자1, 숫자2}	숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다.
# {숫자,}	숫자 이상만큼 반복합니다.
# [ ]	대괄호 안의 문자들 중 한 개의 문자와 매치합니다. [amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미합니다. [a-z]와 같이 범위를 지정할 수도 있습니다. [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미합니다.
# [^문자]	해당 문자를 제외한 문자를 매치합니다.

# ( )   그룹핑, 이후에 다른 문자가 있어도 그룹 내의 문자열만 나온다.
# (?: )   그룹을 푼다.

In [None]:
# \\\	역 슬래쉬 문자 자체를 의미합니다
# \\d	모든 숫자를 의미합니다. [0-9]와 의미가 동일합니다.
# \\D	숫자를 제외한 모든 문자를 의미합니다. [^0-9]와 의미가 동일합니다.
# \\s	공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일합니다.
# \\S	공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일합니다.
# \\w	문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일합니다.
# \\W	문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가 동일합니다.

In [5]:
# 주소록입니다. 이후 강의에서 모두 이 search_target을 사용합니다.
searchtarget = '''
hello world
hello  world
hello, world
Hello World

hello world hello

hello
hallo
hollo
heallo
yellow

Monday Tuesday Wednesday Thursday Friday Saturday Sunday

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567891011121314151617181920
aaabbcaaabbcabcabc
aaa bb c aaa bb c a b c a b c
aaa1bb2c3aaa4bb5c6

[123456]
123[456]789
abc[def]ghij

010-9091-5491
010-5043-2901
010-5050-40409
010-49492-3131
010 2913 3132
01019133829
064-721-3213
010.1913.3829


paul-korea@naver.com
paul@naver.com
leehojun@gmail.com
hojun.lee@gmail.com
test.test@go.go.go


https://github.com/LiveCoronaDetector/livecod
github.com/LiveCoronaDetector/livecod
https://github.com/LiveCoronaDetector

I never dreamed about success, I worked for it.
Do not be afraid to give up the good to go for the great.

hello (hello world) hello
hello \hello world// hello
^^
:)

[(name, leehojun), (age, 10), (height, 180), (email, paul-lab@naver.com)]
{name : leehojun, age : 10, height : 180, email : paul-lab@naver.com}

가나다라마바사아자차카타파하
ㄱㄴㄷㄹㅁㅂㅅㅇㅈㅊㅋㅌㅍㅎ
안녕하세요
안녕-하세요
수사
수박
수상
동해 물과 백두산이 마르고 닳도록 하느님이 보호하사 우리나라 만세
'''

In [7]:
searchtarget

'\nhello world\nhello  world\nhello, world\nHello World\n\nhello world hello\n\nhello\nhallo\nhollo\nheallo\nyellow\n\nMonday Tuesday Wednesday Thursday Friday Saturday Sunday\n\nabcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567891011121314151617181920\naaabbcaaabbcabcabc\naaa bb c aaa bb c a b c a b c\naaa1bb2c3aaa4bb5c6\n\n[123456]\n123[456]789\nabc[def]ghij\n\n010-9091-5491\n010-5043-2901\n010-5050-40409\n010-49492-3131\n010 2913 3132\n01019133829\n064-721-3213\n010.1913.3829\n\n\npaul-korea@naver.com\npaul@naver.com\nleehojun@gmail.com\nhojun.lee@gmail.com\ntest.test@go.go.go\n\n\nhttps://github.com/LiveCoronaDetector/livecod\ngithub.com/LiveCoronaDetector/livecod\nhttps://github.com/LiveCoronaDetector\n\nI never dreamed about success, I worked for it.\nDo not be afraid to give up the good to go for the great.\n\nhello (hello world) hello\nhello \\hello world// hello\n^^\n:)\n\n[(name, leehojun), (age, 10), (height, 180), (email, paul-lab@naver.com)]\n{name : leehojun, a

In [None]:
regex = r'\d'
regex = r'\w'

import re
result = re.findall(regex, searchtarget)
print("\n".join(result))

In [10]:
regex = re.compile(r"h[aey]llo")

result = re.findall(regex, searchtarget)
print(result)

['hello', 'hello', 'hello', 'hello', 'hello', 'hello', 'hallo', 'hello', 'hello', 'hello', 'hello', 'hello', 'hello']


In [12]:
regex = re.compile(r"h[aeyo]l..", re.I) # re.I 대소문자 구분X

result = re.findall(regex, searchtarget)
print(result)

['hello', 'hello', 'hello', 'Hello', 'hello', 'hello', 'hello', 'hallo', 'hollo', 'hello', 'hello', 'hello', 'hello', 'hello', 'hello']


In [14]:
regex = re.compile(r"h[a-f]l..")

result = re.findall(regex, searchtarget)
print(result)

['hello', 'hello', 'hello', 'hello', 'hello', 'hello', 'hallo', 'hello', 'hello', 'hello', 'hello', 'hello', 'hello']


In [15]:
regex = re.compile(r"[a-zA-Z0-9가-힣]")

result = re.findall(regex, searchtarget)
print(result)

['h', 'e', 'l', 'l', 'o', 'w', 'o', 'r', 'l', 'd', 'h', 'e', 'l', 'l', 'o', 'w', 'o', 'r', 'l', 'd', 'h', 'e', 'l', 'l', 'o', 'w', 'o', 'r', 'l', 'd', 'H', 'e', 'l', 'l', 'o', 'W', 'o', 'r', 'l', 'd', 'h', 'e', 'l', 'l', 'o', 'w', 'o', 'r', 'l', 'd', 'h', 'e', 'l', 'l', 'o', 'h', 'e', 'l', 'l', 'o', 'h', 'a', 'l', 'l', 'o', 'h', 'o', 'l', 'l', 'o', 'h', 'e', 'a', 'l', 'l', 'o', 'y', 'e', 'l', 'l', 'o', 'w', 'M', 'o', 'n', 'd', 'a', 'y', 'T', 'u', 'e', 's', 'd', 'a', 'y', 'W', 'e', 'd', 'n', 'e', 's', 'd', 'a', 'y', 'T', 'h', 'u', 'r', 's', 'd', 'a', 'y', 'F', 'r', 'i', 'd', 'a', 'y', 'S', 'a', 't', 'u', 'r', 'd', 'a', 'y', 'S', 'u', 'n', 'd', 'a', 'y', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '1', '0', '1', '1', '1', '2',

In [16]:
regex = re.compile(r"[^a-zA-Z0-9가-힣]")    # ^ 부정

result = re.findall(regex, searchtarget)
print(result)

['\n', ' ', '\n', ' ', ' ', '\n', ',', ' ', '\n', ' ', '\n', '\n', ' ', ' ', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', ' ', ' ', ' ', ' ', ' ', ' ', '\n', '\n', '\n', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', '\n', '\n', '[', ']', '\n', '[', ']', '\n', '[', ']', '\n', '\n', '-', '-', '\n', '-', '-', '\n', '-', '-', '\n', '-', '-', '\n', ' ', ' ', '\n', '\n', '-', '-', '\n', '.', '.', '\n', '\n', '\n', '-', '@', '.', '\n', '@', '.', '\n', '@', '.', '\n', '.', '@', '.', '\n', '.', '@', '.', '.', '\n', '\n', '\n', ':', '/', '/', '.', '/', '/', '\n', '.', '/', '/', '\n', ':', '/', '/', '.', '/', '\n', '\n', ' ', ' ', ' ', ' ', ',', ' ', ' ', ' ', ' ', '.', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '.', '\n', '\n', ' ', '(', ' ', ')', ' ', '\n', ' ', '\\', ' ', '/', '/', ' ', '\n', '^', '^', '\n', ':', ')', '\n', '\n', '[', '(', ',', ' ', ')', ',', ' ', '(', ',', ' ', ')', ',', ' ', '(', ',', ' ', ')', ',', ' ', '(', ',', ' ', '-',

In [None]:
regex = re.compile(r"[a-zA-Z0-9가-힣]")

result = re.findall(regex, searchtarget)
print(result)

In [28]:
# 전화번호 불러오기
regex = re.compile(r"[0-9]{3}[-.* ]{0,1}[0-9]{3,4}[-.* ]{0,1}[0-9]{4,5}")

result = re.findall(regex, searchtarget)
print(result)

['012345678910', '111213141516', '010-9091-5491', '010-5043-2901', '010-5050-40409', '010 2913 3132', '01019133829', '064-721-3213', '010.1913.3829']


In [27]:
# 이메일 주소
regex = re.compile(r"[0-9a-zA-Z-.]+@[0-9a-zA-Z]+.[0-9a-zA-Z]+")

result = re.findall(regex, searchtarget)
print(result)

['paul-korea@naver.com', 'paul@naver.com', 'leehojun@gmail.com', 'hojun.lee@gmail.com', 'test.test@go.go', 'paul-lab@naver.com', 'paul-lab@naver.com']


In [None]:
# 캐릭터 클래스

# 빈칸에 정규표현식을 적습니다.
regex = re.compile('\W') # 글자가 아닌것 
regex = re.compile('\D') # 숫자가 아닌것 
regex = re.compile('\S') # 공백이 아닌것 

# 1. [0에서 9까지 + 영문자]{+@}
# 2. [0에서 9까지 + 영문자].
# 3. [영문자_ 1개 이상]

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, searchtarget)
print("\n".join(result))

In [45]:
# 이스케이프 문자

# 빈칸에 정규표현식을 적습니다.
regex = re.compile('\[.*]') #대괄호([]) 안에 감싸여진 문자열 0~N개

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, searchtarget)
print("\n".join(result))

[123456]
123[456]
abc[def]
[(name, leehojun), (age, 10), (height, 180), (email, paul-lab@naver.com)]


In [33]:
# 이스케이프 문자

# 빈칸에 정규표현식을 적습니다.
regex = re.compile('\^\^') #대괄호([]) 안에 감싸여진 문자열 0~N개

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, searchtarget)
print("\n".join(result))

^^


In [38]:
example = '앞서 논문은 이러한 연구를 진행하였습니다(홍길동, 2019). 하지만 그런 것들을 개량하여 다음 논문이 나오게 되었고(임꺽정, 2020), 마지막으로 두가지를 모두 결합한 새로운 연구가 개발되었습니다.(심청이, 2021)'

result = re.findall(r'\([A-Za-z가-힣]+, \d+\)', example)
# (string, digit)
result

['(홍길동, 2019)', '(임꺽정, 2020)', '(심청이, 2021)']

[문자열 규칙에 r을 붙이는 이유]

정규표현식에서 문자열을 사용할 때는 앞에 r을 붙이는 것을 추천
만약 문자열이 \문자가 있다면 파이썬은 그 다음 문자를 그대로 인식하지 않고, 컴퓨터에 명령하기 위한 명령어로 인식 합니다.

그렇기 때문에 \와 함께 사용하는 문자를 이스케이프문자라고 합니다.

이스케이프 문자를 사용하고 싶지 않다면 \앞에 \를 하나 더 붙여서 \를 일반문자로 인식시키면되고

만약에 그렇게 하기 어렵다면 r을 붙이는 방법이 있다. r을 붙이면 그 뒤에 나오는 문자열에 들어 있는 문자를 모두 일반 문자로 인식합니다.

In [None]:
'\d.+년'    # greedy 발생

'\d+.년'    # 해결1
'\d.+?년'   # 해결2