# re 모듈이란? 

- `정규 표현식(Regular Expression)`을 사용해 문자열 검색, 매칭, 치환, 분리 등의 작업을 수행하도록 도와주는 모듈이다.
- 정규 표현식은 주어진 패턴을 문자열에서 찾거나 비교, 변환하는 데 활용합니다.

In [1]:
%pip install re

Note: you may need to restart the kernel to use updated packages.


ERROR: Could not find a version that satisfies the requirement re (from versions: none)
ERROR: No matching distribution found for re


### 1. 특정 문자열 매칭

In [2]:
import re

text = "welcome to Python programming"

# 문자열이 'Python'을 포함하는지 검색
match = re.search(r'Python', text)

if match:
    print("매칭된 문자열:", match.group())  # 매칭된 문자열: Python
else:
    print("매칭되지 않음")


매칭된 문자열: Python


### 2. 숫자 추출 (문자열에서 숫자만 찾기)

In [3]:
import re

text = "The price is 399 dollars, and the tax is 49 dollars."

# 모든 숫자 찾기
numbers = re.findall(r'\d+', text)
print(numbers)  # 출력: ['399', '49']


['399', '49']


### 3. 이메일 주소 추출

In [4]:
import re

text = "You can reach me at john.doe@example.com and admin@website.org."

# 이메일 패턴
emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', text)
print(emails)  # 출력: ['john.doe@example.com', 'admin@website.org']


['john.doe@example.com', 'admin@website.org']


### 4. 전화번호 추출 (특정 형식의 데이터 찾기)

In [5]:
import re

text = "Call me at 123-456-7890 or at 987-654-3210."

# 전화번호 패턴
phones = re.findall(r'\d{3}-\d{3}-\d{4}', text)
print(phones)  # 출력: ['123-456-7890', '987-654-3210']


['123-456-7890', '987-654-3210']


### 5. URL 추출

In [6]:
import re

text = "Visit our site at https://example.com or http://blog.example.org for more information."

# URL 패턴
urls = re.findall(r'https?://[a-zA-Z0-9.-]+\.[a-zA-Z]+', text)
print(urls)  # 출력: ['https://example.com', 'http://blog.example.org']


['https://example.com', 'http://blog.example.org']


### 6. 중복 공백 제거

In [7]:
import re

text = "This    is   a    sentence with     extra spaces."

# 중복 공백 패턴을 단일 공백으로 대체
result = re.sub(r'\s+', ' ', text)
print(result)  # 출력: This is a sentence with extra spaces.


This is a sentence with extra spaces.


### 7. 문장에서 특정 단어 추출

In [8]:
import re

text = "Apple is my favorite fruit. I also like banana and pineapple."

# 'apple'이 포함된 단어 추출
words = re.findall(r'\b\w*apple\w*\b', text, re.IGNORECASE)
print(words)  # 출력: ['Apple', 'pineapple']


['Apple', 'pineapple']


### 8. HTML 태그 제거

In [9]:
import re

html = "<h1>Title</h1><p>This is a paragraph.</p>"

# HTML 태그 제거
cleaned = re.sub(r'<.*?>', '', html)
print(cleaned)  # 출력: TitleThis is a paragraph.


TitleThis is a paragraph.


### 9. 특정 문자열로 시작하거나 끝나는지 확인

In [10]:
import re

text = "Python is fun."

# 문자열이 'Python'으로 시작하는지 확인
if re.match(r'^Python', text):
    print("문자열은 'Python'으로 시작합니다!")

# 문자열이 'fun.'으로 끝나는지 확인
if re.search(r'fun\.$', text):
    print("문자열은 'fun.'으로 끝납니다!")


문자열은 'Python'으로 시작합니다!
문자열은 'fun.'으로 끝납니다!


### 10. 문자열 분리

In [11]:
import re

text = "one,two, three;four five"

# 쉼표, 세미콜론, 또는 공백으로 분리
words = re.split(r'[,\s;]+', text)
print(words)  # 출력: ['one', 'two', 'three', 'four', 'five']


['one', 'two', 'three', 'four', 'five']


### 11. 특정 패턴의 단어 개수 세기

In [12]:
import re

text = "cat, dog, catdog, catty, and cat."

# 'cat'으로 시작하는 모든 단어 카운트
matches = re.findall(r'\bcat\w*\b', text)
print(len(matches))  # 출력: 4


4


### 12. 날짜 형식 추출

In [13]:
import re

text = "The event is on 2023-07-17, and registration closes on 2023-06-30."

# 날짜 형식 추출
dates = re.findall(r'\d{4}-\d{2}-\d{2}', text)
print(dates)  # 출력: ['2023-07-17', '2023-06-30']


['2023-07-17', '2023-06-30']


### 13. 문장에서 특수 문자 제거

In [14]:
import re

text = "Hello! How are you doing? Amazing, isn't it?"

# 특수 문자 제거
result = re.sub(r'[^\w\s]', '', text)
print(result)  # 출력: Hello How are you doing Amazing isnt it


Hello How are you doing Amazing isnt it


### 14. 비밀번호 유효성 검사

In [15]:
import re

password = "StrongPassword123!"

# 비밀번호 유효성 검사 - 최소 8자, 대문자, 소문자, 숫자, 특수 문자 포함
pattern = r'^(?=.*[A-Z])(?=.*[a-z])(?=.*\d)(?=.*[@$!%*?&])[A-Za-z\d@$!%*?&]{8,}$'

if re.match(pattern, password):
    print("유효한 비밀번호")
else:
    print("유효하지 않은 비밀번호")


유효한 비밀번호


### 15. CSV 데이터 추출

In [16]:
import re

data = "Name: John, Age: 30, City: New York"

# 키-값 쌍 추출
pairs = re.findall(r'(\w+):\s*([^,]+)', data)
print(pairs)  # 출력: [('Name', 'John'), ('Age', '30'), ('City', 'New York')]


[('Name', 'John'), ('Age', '30'), ('City', 'New York')]
