<a href="https://colab.research.google.com/github/weepingwillow2001/data_analysis_practice/blob/main/7%EC%9E%A5/7_4_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 7.4.2 정규 표현식: regular expression
# 정규 표현식은 텍스트에서 문자열 패턴을 찾는 유연한 방법을 제공합니다.

import re
# re 모듈 함수는 패턴 매칭, 치환, 분리 세 가지로 나눌 수 있습니다.

In [None]:
# 여러 가지 공백 문자(탭, 스페이스, 개행 문자(\t))가 포함된 문자열을 나눌 때(split): \s+ 사용 !!

text = "foo   bar\t baz  \tqux"
print(re.split(r"\s+", text))  # ['foo', 'bar', 'baz', 'qux']

['foo', 'bar', 'baz', 'qux']


In [None]:
# re.split(r"\s+", text)를 사용하면 정규 표현식이 컴파일되고 그다음에 split 메서드가 실행됩니다.
# "re.compile"을 통해 직접 정규 표현식을 "컴파일(compile)"하고 그렇게 얻은 정규 표현식 객체를 재사용할 수도 있습니다.

regex = re.compile(r"\s+")
print(regex.split(text))  # ['foo', 'bar', 'baz', 'qux']

['foo', 'bar', 'baz', 'qux']


In [None]:
# 정규 표현식에 매칭되는 모든 패턴의 목록을 얻고 싶다면 findall 메서드를 사용합니다.
print(regex.findall(text))  # ['   ', '\t ', '  \t']

['   ', '\t ', '  \t']


In [None]:
# 주의: 정규 표현식 안에서 \ 문자가 이스케이프되는 문제를 피하려면 raw 문자열 표기법을 사용합니다.
# r"C:\x"는 "C:\\x"와 동일합니다.

# 동일한 정규 표현식을 다른 문자열에도 적용해야 한다면 re.compile을 이용해 정규 표현식 객체를 만들어서 사용하는 방법을 추천합니다.
# 이렇게 하면 CPU 사용량을 아낄 수 있습니다.

# match와 search는 findall 메서드와 밀접하게 관련됩니다.
# findall은 문자열에서 일치하는 모든 부분 문자열을 찾지만
# search 메서드는 패턴과 일치하는 첫 번째 항목을 반환합니다.
# match 메서드는 문자열의 시작 부분부터 일치하는 것만 찾습니다.

In [None]:
# 실제 활용 예제: 이메일 주소를 검사하는 정규 표현식을 살펴봅시다.

text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com"""

pattern = r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}"

In [None]:
regex = re.compile(pattern, flags=re.IGNORECASE)
# re.IGNORECASE: 정규 표현식의 대소문자를 구분하지 않도록 함

In [None]:
# findall 메서드를 사용해서 이메일 주소 리스트를 생성합니다.
print(regex.findall(text)) # pattern 에 맞는 것을 finall
# ['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']


In [None]:
# "search"는 텍스트에서 "첫" 번째 이메일 주소만 찾습니다.
# 이전 정규 표현식에 대한 match 객체는 문자열에서 패턴이 일치하는 시작점과 끝점만 알려줍니다.
m = regex.search(text)
print(m)  # <re.Match object; span=(5, 20), match='dave@google.com'>  -> "첫"번째 이메일 주소

<re.Match object; span=(5, 20), match='dave@google.com'>


In [None]:
print(text[m.start():m.end()])  # 'dave@google.com'

dave@google.com


In [None]:
# regex.match는 문자열의 "시작점"에서부터 패턴이 일치하는지 검사하므로 None을 반환합니다.
print(regex.match(text))  # None

# 시작은 Dave 이므로 pattern에 일치하지 않음!!

None


In [None]:
# sub 메서드는 찾은 패턴을 주어진 문자열로 치환(substitute)하고 새로운 문자열을 반환합니다.
print(regex.sub("REDACTED", text))
# pattern 에 일치하는 부분을 REDACTED로 치환!!

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED


In [None]:
# 이메일 주소를 찾는 동시에 각 이메일 주소를 (사용자 이름), (도메인 이름), (도메인 접미사) 세 가지 컴포넌트로 "나누어야" 한다면
# 각 패턴을 (괄호)로 묶어야 합니다.
pattern = r"([A-Za-z0-9._%+-]+)@([A-Za-z0-9.-]+)\.([A-Za-z]{2,4})"
regex = re.compile(pattern, flags=re.IGNORECASE)

In [None]:
# 이렇게 만든 match 객체를 이용하면 "groups" 메서드로 각 "패턴 컴포넌트"의 "튜플"을 얻을 수 있습니다.
m = regex.match("wesm@bright.net")
print(m.groups())  # ('wesm', 'bright', 'net')

('wesm', 'bright', 'net')


In [None]:
# 패턴에 "그룹"이 존재한다면 findall 메서드는 "튜플의 목록"을 반환합니다.
print(regex.findall(text))

[('dave', 'google', 'com'), ('steve', 'gmail', 'com'), ('rob', 'gmail', 'com'), ('ryan', 'yahoo', 'com')]


In [None]:
# sub 역시 바꿔치지는 \1, \2 같은 특수한 기호를 사용해서 "각 패턴 그룹"에 접근할 수 있습니다.
# \1은 첫 번째로 찾은 "그룹", \2는 두 번째로 찾은 "그룹"을 의미합니다.
print(regex.sub(r"Username: \1, Domain: \2, Suffix: \3", text))

Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com
