## 정규표현식

regular expression이라고도 부르는 정규표현식은 문자열의 패턴을 매칭할 때 사용합니다. 회원 가입 시에 비밀번호 포맷을 검사하거나, 복잡한 텍스트에서 내가 원하는 정보를 추출할 때 사용합니다. 모든 프로그래밍 언어에서 정규표현식을 이용할 수 있습니다. 이번 장에서는 python을 이용한 정규표현식의 사용을 알아보겠습니다.

In [77]:
# 필요한 라이브러리 임포트
import re

# 정규표현식 패턴 매칭 예시 함수
def regex_matching_example(pattern, text):
    matches = re.findall(pattern, text)
    print("Pattern:", pattern)
    print("Text:", text)
    print("Matches:", matches)
    print()

In [14]:
# 기본 패턴 매칭
regex_matching_example(r'abc', 'abcdefabcdef')  # "abc" 패턴이 두 번 등장

Pattern: abc
Text: abcdefabcdef
Matches: ['abc', 'abc']



In [80]:
pattern = r"abc"
sentence = "abcde abcsdfd"

In [81]:
regex_matching_example(pattern, sentence)



Pattern: abc
Text: abcde abcsdfd
Matches: ['abc', 'abc']



In [157]:
a = r"\bhello"
print(a)

\bhello


In [151]:
# 메타문자
regex_matching_example(r'\b\d+', '123  a1 bc456')  # 숫자 패턴 매칭

Pattern: \b\d+
Text: 123  a1 bc456
Matches: ['123']



In [119]:
re.findall(r"\d+\s*",  '123                      a1bc456                             ')

['123                      ', '1', '456                             ']

In [114]:
re.sub(r"\d+\s*", "",  '123                      a1bc456                             ')

'abc'

In [26]:
regex_matching_example(r'\d\d*', '123a1bc456')  # 숫자 패턴 매칭

Pattern: \d\d*
Text: 123a1bc456
Matches: ['123', '1', '456']



In [27]:
regex_matching_example(r'\d+', '123abc456')  # 숫자 패턴 매칭

Pattern: \d+
Text: 123abc456
Matches: ['123', '456']



In [91]:
regex_matching_example(r'\D+', '123abc456')  # 숫자가 아닌 패턴 매칭

Pattern: \D+
Text: 123abc456
Matches: ['abc']



In [95]:
regex_matching_example(r'\w+', 'hello world')  # 알파벳이나 숫자 패턴 매칭

Pattern: \w+
Text: hello world
Matches: ['hello', 'world']



In [96]:
regex_matching_example(r'\w+', 'hello world')  # 알파벳이나 숫자 패턴 매칭

Pattern: \w+
Text: hello world
Matches: ['hello', 'world']



In [98]:
regex_matching_example(r'\W', 'hello world')  # 알파벳이나 숫자가 아닌 패턴 매칭

Pattern: \W
Text: hello world
Matches: [' ']



In [35]:
regex_matching_example(r'\s', 'hello world')  # 공백 문자 패턴 매칭

Pattern: \s
Text: hello world
Matches: [' ']



In [124]:
regex_matching_example(r'.+', 'hello world')  # 공백이 아닌 문자 패턴 매칭

Pattern: .+
Text: hello world
Matches: ['hello world']



In [106]:
# 문자 종류
sentence =  'Hello Everybody. 모두들 반갑습니다.'
regex_matching_example(r'[a-zA-Z\sㄱ-힣]', sentence)  

Pattern: [a-zA-Z\sㄱ-힣]+
Text: Hello Everybody. 모두들 반갑습니다.
Matches: ['Hello Everybody', ' 모두들 반갑습니다']



In [69]:
regex_matching_example(r'[a-zA-Z]+', sentence)  

Pattern: [a-zA-Z]+
Text: Hello Everybody. 모두들 반갑습니다.
Matches: ['Hello', 'Everybody']



In [70]:
regex_matching_example(r'[a-zA-Z\.]+', sentence)  

Pattern: [a-zA-Z\.]+
Text: Hello Everybody. 모두들 반갑습니다.
Matches: ['Hello', 'Everybody.', '.']



In [66]:
regex_matching_example(r'[a-zA-Z\.ㄱ-힣 ]+', sentence)  

Pattern: [a-zA-Z\.ㄱ-힣 ]+
Text: Hello everybody. 모두들 반갑습니다.
Matches: ['Hello everybody. 모두들 반갑습니다.']



## 연습문제

주어진 뉴스 기사에서 각 정보를 추출해보세요. https://regexr.com/ 사이트를 활용하면 편합니다.

In [186]:
article = '[마이데일리 = 장윤호 기자]롯데 자이언츠의 거인 이대호(40)의 꿈이 무너져가고 있다. 이대호가 새해 40세 불혹(不惑)의 나이가 됐다. 불혹은 주위에서 어떤 일이 벌어져도 중심을 잃지 않고 자신만의 원칙을 지켜 나갈 수 있는 경지에 오르는 시기다. 이번 스토브리그에 롯데 구단에 걱정스러운 일이 벌어지고 있다. 그런데 이대호는 어떤 대외 활동도 하지 않고 침묵하며 조용히 개인 훈련에 집중하는 모습이다. 불혹이 돼서인가? 지난 2017년 1월24일이다. 벌써 5년의 시간이 흘렀다. 롯데의 프랜차이즈 스타 이대호가 일본프로야구 미국 메이저리그를 거쳐 고향팀 롯데로 돌아왔다. 그는 ‘조선의 4번타자’답게 단숨에 최고가 됐다. 삼성에서 FA가 된 최형우가 고향팀 KIA 타이거즈와 4년 계약을 하면서 기록한 총액 100억 원을 훨씬 넘어 150억 원에 롯데와 계약했다. 당시 인터뷰에서 이대호는 ‘메이저리그에서 열심히 노력해 꿈을 이루었다. 남은 것은 롯데로 돌아와 함께 우승을 하는 것이다. 마지막 소원이 롯데의 우승’이라고 밝혔다. 2001년 롯데에 2차 1순위로 입단해 2011시즌까지 11시즌 동안 이대호는 무려 225개의 홈런을 쏘아 올렸다. 그리고 2008~2011 시즌까지 4년 연속 롯데를 포스트시즌으로 이끌었으나 한국시리즈 우승을 못하고 일본 프로야구로 떠났다. 그 때도 롯데에 서운함이 있었으나 말 없이 덮었다. 4년의 계약 기간이 지나갔다. 여전히 롯데는 한국시리즈 근처에 가지 못했다. 이대호는 올해 1월29일 롯데와 2년 총액 26억 원(계약금 8억 원 연봉 8억 원)에 특별한 옵션을 걸었다. 남은 2억 원에 다른 인센티브 조건이 아니라 한국시리즈 우승 의지를 담았다. 그리고 ‘우승하면 받는 1억 원의 옵션을 불우이웃을 돕는데 모두 기부하겠다’고 약속했다. 이대호는 그 때 계약이 늦어져 팬들에게 죄송하다고 말했다. 롯데 팬들이 걱정한 것도 사실이다. 전격 은퇴를 선언할 가능성도 분명히 있었다. 같은 시기 FA 4년 계약을 했던 KIA 최형우는 이미 12월에 3년 총액 47억원(게약금 13억원, 연봉 9억원, 옵션 7억원)에 계약을 맺었다.  차이가 분명히 있다. 최형우와 나이는 1살차였지만 이대호는 4년 계약 기간 중 파워나 기여도에서 그에 뒤지지 않았다. 그런데 단 하나 최형우는 계약 첫 해인 2017시즌 김기태 감독을 도와 팀을 한국시리즈 우승으로 이끌었다. 2022시즌 이대호는 롯데와 17년을 동행하게 된다. 부산에서 태어나고 자란 이대호가 무려 17년이나 한국시리즈 우승을 못하고 유니폼을 벗게 되면 평생 자신은 물론 롯데 팬들의 마음 한켠에 빈 곳이 남아 있게 될 것이다. 그는 2년 재계약을 하면서 은퇴 배수진을 치고 ‘우승을 위해 할 수 있는 모든 것을 다하겠다. 후배들에게 내가 가진 모든 것을 전수해주겠다’고 밝혔다. 그런데 프랜차이즈 스타 손아섭이 NC 다이노스로 떠나고 강민호 재영입도 실패하면서 롯데의 한국시리즈 우승은 점점 멀어져 가고 있다. 이대호의 꿈이 무너져 간다. 이제는 그의 침묵이 어색하다. [사진=마이데일리 DB](장윤호 기자 changyh218@mydaily.com.kr)'

1. 정규표현식을 이용하여 주어진 기사에서 "이대호"가 몇 번 등장하는지 집계해보세요.
2. 주어진 기사에서 "이대호" 혹은 "최형우"가 몇 번 등장하는지 집계해보세요. 정규표현식 패턴을 작성할 때 "|"를 사용하면 됩니다.
3. 기사에서 영어 대문자로 이루어진 단어들을 중복 없이 가져오세요.
4. 기사에서 "[", "]"로 둘러싸인 문자열을 가져와보세요. 정규표현식 패턴을 작성할 때, 괄호들를 표현하고 싶다면 앞에 역슬래쉬를 붙여주어 escape sequence로 처리하면 됩니다.  *?,+?의 사용도 검색해서 적용해보세요. 
- 예시) [ "[마이데일리 = 장윤호 기자]", "[사진=마이데일리 DB]"]
5. 주어진 기사에 포함된 이메일을 추출해보세요. 이메일 정규표현식 패턴은 chatGPT를 이용해서 작성해보세요.

In [162]:
len(re.findall(r"이대호", article))

12

In [174]:
len(re.findall(r"(이대호|최형우)", article))

16

In [176]:
set(re.findall(r"[A-Z]+", article))

{'DB', 'FA', 'KIA', 'NC'}

In [178]:
re.findall(r"\[.+?\]", article)

['[마이데일리 = 장윤호 기자]', '[사진=마이데일리 DB]']

In [191]:
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b'
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b'
re.findall(email_pattern, article)

['changyh218@mydaily.com.kr']