In [3]:
import re
import pandas as pd

In [4]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width: 90% !important; }</style>"))

In [5]:
def getRegex(df : pd.DataFrame, col_name : str, regex : str) -> pd.DataFrame :
    return df[df[col_name].str.contains(regex)]

# 역참조 사용하기

* 하위 표현식을 사용하는 이유 : 주로 반복되는 패턴을 검색하는 작업을 통제하기 위해
    * 역참조는? 하위 표현식의 주요 스킬 중 하나

In [6]:
text1 = """<body>
<h1>Welcome to my Homepage</h1>
Content is divided into two sections:<br/>
<h2>SQL</h2>
Information about SQL.
<h2>RegEx</h2>
Information about Regular Expressions.
<h2>This is not valid HTML</h3>
</body>"""

In [7]:
#$를 정확하게 쓰는 방법
print(re.findall(r"<[Hh][1-6]>.*?<\/[Hh][1-6]>", text1))

['<h1>Welcome to my Homepage</h1>', '<h2>SQL</h2>', '<h2>RegEx</h2>', '<h2>This is not valid HTML</h3>']


* *? - 게으른 수량자를 사용 -> 좀 더 안전하기 때문에
* 이럴 경우 h2로 시작해서 /h3로 끝나는 잘못된 경우도 생김
* 이럴때 역참조를 사용하면 더 좋음

In [8]:
text2 = """This is a block of of text,
several words here are are
repeated, and and they
should not be"""

In [9]:
#findall을 하면 앞글자만 따옴. 그루핑을 하는 경우에
print(re.findall(r"[ ]+(\w+)[ ]+\1", text2))

['of', 'are', 'and']


* 시작 헤더 태그와 일치하는 종료 태그만 찾기

[논캡쳐링그룹설명](https://stackoverflow.com/questions/3512471/what-is-a-non-capturing-group-in-regular-expressions)

In [10]:
print(re.findall(r"<[hH]([1-6])>.*<\/[Hh]\1>", text1))

['1', '2', '2']


[교육 영상](https://www.youtube.com/watch?v=E66slBlRBHg)

[마지막을 반환하는 이유](https://stackoverflow.com/questions/43461376/regex-repeating-capturing-group)

# Non-capture 테스트하기

In [13]:
text3 = f"""Do you mean Non-capture?
Yes. I mean non-capture"""

In [22]:
print(re.findall(r"[Nn]on", text3))
print(re.findall(r"([Nn])on", text3))
print(re.findall(r"(([Nn])on)", text3))
print(re.findall(r"([Nn])on", text3))

['Non', 'non']
['N', 'n']
[('Non', 'N'), ('non', 'n')]
['N', 'n']


* 추후 좀 더 탐색

# 치환 작업 수행하기

* 정규표현식은 텍스트 검색 뿐만 아니라 치환 작업도 수행할 수 있게 해줌

[정규표현식 메타 설명](https://sc1.checkpoint.com/documents/R76/CP_R76_IdentityAwareness_AdminGuide/12885.htm)

In [24]:
text4 = f"""Hello, ben@forta.com is my email address."""

In [30]:
print(re.search(r"\w+[\w.]+@[\w.]+\.\w+", text4))

<re.Match object; span=(7, 20), match='ben@forta.com'>


In [40]:
re.sub(r"(\w+[\w.]+@[\w.]+\.\w+)", r"""<a href="malito:\1">\1</a>""", text4)

'Hello, <a href="malito:ben@forta.com">ben@forta.com</a> is my email address.'

* 치환 작업을 할 때는 정규 표현식이 두 개가 필요하다. 하나는 원하는 부분을 일치시키는 패턴이고 다른 하나는 일치한 부분을 치환하는 데 사용할 패턴이다.

In [41]:
text5 = f"""313-555-1234
248-555-9999
810-555-9000"""

In [44]:
print(re.sub(r"(\d{3})(-)(\d{3})(-)(\d{4})", r"""(\1) \3-\5""", text5))

(313) 555-1234
(248) 555-9999
(810) 555-9000


* 그루핑에도 하이픈은 적용된다.

# 대소문자 변환하기

In [None]:
text6 = 