정규 표현식을 사용하여 문자열에서 특정 패턴을 찾고 처리하는 방법을 익힙니다

이는 데이터 전처리, 텍스트 분석 등 다양한 분야에서 활용됩니다.

정규 표현식 소개

정규 표현식은 문자열에서 특정 패턴을 찾거나 매칭하는 데 사용되는 특별한 문자열입니
다

파이썬에서는 re 모듈을 통해 정규 표현식을 사용할 수 있습니다

기본 패턴 매칭

이 예제의 r'World' 는 정규 표현식 패턴입니다.

r 은 원시 문자열(raw string)을 의미합니다

이는 백슬래시( \ )를 특별히 처리하지 않고 그대로 사용하겠다는 뜻입니다.

re.search() 는 문자열 전체에서 패턴을 찾는 함수입니다.

In [None]:
import re

In [None]:
text = 'Hello, World!'
pattern = r'World'

In [None]:
if re.search(pattern, text):
    print('패턴을 찾았습니다!')
else:
    print('패턴을 찾지 못했습니다.')


기본 메타 문자


정규 표현식에서 특별한 의미를 가지는 문자들을 메타 문자라고 합니다.

. (마침표)

줄바꿈을 제외한 임의의 한 문자를 나타냅니다.

예) r'c.t' 는 'cat', 'cot', 'cut' 등과 매치됩니다.

^ (캐럿)
문자열의 시작을 나타냅니다.
예) r'^Hello' 는 'Hello, World!'와 매치되지만 'World, Hello!'와는 매치되지 않습
니다.

$ (달러)
문자열의 끝을 나타냅니다.
예) r'World$' 는 'Hello, World'와 매치되지만 'World, Hello'와는 매치되지 않습니
다.


* (별표)
앞의 문자가 0 번 이상 반복됨을 나타냅니다.
예) r'ab*c' 는 'ac', 'abc', 'abbc', 'abbbc' 등과 매치됩니다.

+ (더하기)
앞의 문자가 1 번 이상 반복됨을 나타냅니다.
예) r'ab+c' 는 'abc', 'abbc', 'abbbc' 등과 매치되지만 'ac'와는 매치되지 않습니다

? (물음표)
앞의 문자가 0 번 또는 1 번 반복됨을 나타냅니다.
예) r'ab?c' 는 'ac', 'abc'와 매치되지만 'abbc'와는 매치되지 않습니다.

In [None]:
text = 'The cat and the hat sat on the mat.'
pattern = r'.at'
matches = re.findall(pattern, text)
matches


예제 설명

r'.at' 에서 . 은 임의의 문자 한 개를 나타냅니다. 따라서 at 앞에 임의의 한 문
자가 오는 패턴을 찾습니다

re.findall() 은 패턴과 일치하는 모든 부분을 찾아 리스트로 반환합니다.

특정 문자 그룹 지정하기 (문자 집합)

대괄호 [] 를 사용하여 찾고자 하는 문자들의 그룹을 지정할 수 있습니다.

이를 '문자 집합'이라고 부릅니다. 문자 집합은 괄호 안의 문자들 중 하나와 일치합니다.


In [None]:
text = 'cat, hat, rat, bat'
pattern = r'[chr]at'
matches = re.findall(pattern, text)
matches

예제 설명
[chr] 은 'c', 'h', 'r' 중 하나의 문자와 일치합니다.
따라서 [chr]at 은 'cat', 'hat', 'rat'과 일치하지만 'bat'과는 일치하지 않습니다

In [None]:
text = '문자열 예제123, 숫자는 456입니다.'
pattern = r'[0123456789]+'
matches = re.findall(pattern, text)
matches

자주 사용되는 문자 집합 단축 표현


자주 사용되는 문자 집합들은 간단한 표현으로 대체할 수 있습니다:
\d : 모든 숫자와 일치합니다. [0-9] 와 동일합니다.
0 부터 9 까지의 모든 숫자
\w : 모든 문자 및 숫자와 일치합니다. [a-zA-Z0-9_] 와 동일합니다.
모든 알파벳 소문자( a-z ), 대문자( A-Z ), 숫자( 0-9 ), 그리고 밑줄( _ )
\s : 모든 공백 문자(스페이스, 탭, 줄바꿈)와 일치합니다.

In [None]:
text = '문자열 예제123, 숫자는 456입니다.'
pattern = r'[0-9]+'
matches = re.findall(pattern, text)
matches


In [None]:
text = '문자열 예제123, 숫자는 456입니다.'
pattern = r'\d+'
matches = re.findall(pattern, text)
matches


In [None]:
text = 'username123, user_name, User_Name_123'
pattern = r'[a-zA-Z0-9_]+'
matches = re.findall(pattern, text)
matches


In [None]:
text = 'username123, user_name, User_Name_123'
pattern = r'\w+'
matches = re.findall(pattern, text)
matches

반복 횟수 지정

{n} : 정확히 n 번 반복
{n,} : n 번 이상 반복
{n,m} : n 번 이상 m 번 이하 반복

In [None]:
text = '전화번호는 010-1234-5678 입니다.'
pattern = r'\d{3}-\d{4}-\d{4}'
matches = re.findall(pattern, text)
matches

In [None]:
text = '전화번호는 010-1234-5678 입니다.'
pattern = r'\d{2,}-\d{3,4}-\d{4}'
matches = re.findall(pattern, text)
matches

In [None]:
text = '사용자명은 user123이고, 이메일은 user123@example.com 입니다.'
pattern = r'\w+@\w+\.\w+'
matches = re.findall(pattern, text)
matches

re 모듈의 주요 함수

re.search() : 문자열 전체에서 패턴을 검색
re.findall() : 패턴과 일치하는 모든 부분을 리스트로 반환
re.sub() : 패턴과 일치하는 부분을 다른 문자열로 대체


In [None]:
text = '연락처는 010-1234-5678 입니다.'
pattern = r'\d{3}-\d{4}-\d{4}'
if re.search(pattern, text):
    print('전화번호를 찾았습니다!')
else:
    print('전화번호를 찾지 못했습니다.')


In [None]:
text = 'There are 123 apples and 456 bananas'
pattern = r'\d+'
re.sub(pattern, 'NUM', text)


데이터 분석과 인공지능에서의 활용

정규 표현식은 데이터 전처리와 텍스트 분석에서 매우 유용합니다

예) 텍스트에서 날짜 형식 추출하기
\d{4} 는 4 자리 숫자(연도)를 찾습니다.
\d{1,2} 는 1 자리 또는 2 자리 숫자(월, 일)를 찾습니다.
이런 식으로 정규 표현식을 사용하면 대량의 텍스트 데이터에서 특정 패턴(날짜, 이
메일 주소, 전화번호 등)을 쉽게 추출할 수 있습니다.

In [None]:
text = '2000년 3월 1일에 첫 번째 시험, 2100년 9월 1일에 두 번째 시험이 있습니다.'
pattern = r'\d{4}년 \d{1,2}월 \d{1,2}일'
matches = re.findall(pattern, text)
matches