[문제 1]
아래 긴 문자열에서 모든 이메일 주소를 추출하는 정규식 패턴을 만들어 봅시다.

결과값을 아래와 같이 만들어 주세요.

['john.doe@example.com', 'john.doe@company.org', 'sarah.smith@example.net']

In [4]:
import re

text = """
John's email is john.doe@example.com, and he can be reached at (555) 123-4567. 
His office email is john.doe@company.org. Sarah's email, sarah.smith@example.net, is used for her personal matters. 
Please note that her work phone number is +1-800-555-9876. The project deadline is 2024-08-26, but it could be extended to 26/08/2024.
"""

# 1. 이메일 주소 추출
email_pattern = r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b" # 여기에 코드를 작성해 주세요.
emails = re.findall(email_pattern, text)
print(emails)  

['john.doe@example.com', 'john.doe@company.org', 'sarah.smith@example.net']


## 📝 문제 1 해설: 이메일 주소 추출

### 🔍 패턴 분석: `r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b"`

| 구성요소 | 설명 | 예시 |
|---------|------|------|
| `\b` | 단어 경계 (시작) | 이메일이 독립된 단어임을 보장 |
| `[A-Za-z0-9._%+-]+` | 사용자명 부분 | john.doe, user_123, admin+test |
| `@` | 앳 기호 | 이메일의 필수 구분자 |
| `[A-Za-z0-9.-]+` | 도메인명 | example, sub-domain, company123 |
| `\.` | 점 (리터럴) | 도메인과 TLD 구분 |
| `[A-Za-z]{2,}` | 최상위 도메인 | com, org, net, co.kr |
| `\b` | 단어 경계 (끝) | 이메일 끝 확인 |

### ✅ 정답 설명

- **사용자명**: 영문자, 숫자, 점, 언더스코어, 퍼센트, 플러스, 하이픈 허용
- **도메인**: 영문자, 숫자, 점, 하이픈 허용  
- **TLD**: 영문자만 허용, 최소 2글자
- **단어 경계**: 완전한 이메일 주소만 매칭

2. 그룹(Grouping)과 백참조(Backreferences)
[문제 2]
아래 문자열에서 이름과 나이를 추출해 봅시다.

패턴 설명

첫 번째 그룹: 'Name: ' 다음에 나오는 이름을 캡처
두 번째 그룹: 'Age: ' 다음에 나오는 나이 캡처
출력 결과가 아래와 같이 나오도록 패턴을 만들어 보세요.

Name: John Doe, Age: 45 years old
Name: Jane Smith, Age: 32 years old
Name: Bob Brown, Age: 30 years old

In [6]:
import re

# 텍스트 예시: 이름과 나이의 정보가 포함된 문자열
text_2 = "Name: John Doe, Age: 45; Name: Jane Smith, Age: 32; Name: Bob Brown, Age: 30"

pattern_2 = r"Name: (?P<name>[A-Za-z\s]+), Age: (?P<age>\d+)" # 명명된 그룹 사용

matches_2 = re.finditer(pattern_2, text_2)
for match in matches_2:
    name = match.group('name').strip()  # 공백 제거
    age = match.group('age')
    print(f"Name: {name}, Age: {age} years old")

Name: John Doe, Age: 45 years old
Name: Jane Smith, Age: 32 years old
Name: Bob Brown, Age: 30 years old


## 📝 문제 2 해설: 그룹화와 명명된 그룹

### 🔧 수정된 내용
**원래 코드의 문제점:**
- 패턴에서는 일반 그룹 `([A-Za-z\s]+)` 사용
- 코드에서는 명명된 그룹 `match.group('name')` 호출
- 이로 인해 `IndexError: no such group` 발생

### ✅ 정답 패턴: `r"Name: (?P<name>[A-Za-z\s]+), Age: (?P<age>\d+)"`

| 구성요소 | 설명 | 역할 |
|---------|------|------|
| `Name: ` | 리터럴 문자열 | 'Name: ' 정확히 매칭 |
| `(?P<name>...)` | 명명된 그룹 | 이름을 'name'으로 캡처 |
| `[A-Za-z\s]+` | 문자 클래스 | 영문자와 공백 1개 이상 |
| `, Age: ` | 리터럴 문자열 | ', Age: ' 정확히 매칭 |
| `(?P<age>...)` | 명명된 그룹 | 나이를 'age'로 캡처 |
| `\d+` | 숫자 클래스 | 숫자 1개 이상 |

### 🎯 핵심 개념
- **명명된 그룹**: `(?P<그룹이름>패턴)` 형식
- **그룹 접근**: `match.group('그룹이름')` 으로 접근
- **가독성**: 숫자 인덱스보다 의미있는 이름 사용

3. 파이썬에서의 정규표현식 활용
[문제 3]

빈칸을 채워 상황에 맞게 정규식 패턴을 사용하는 함수를 적용해 주세요.
아래 함수 중에서 선택해서 사용하세요.
search, match, findall, sub, compile

In [7]:
import re

text = """
Welcome to the year 2024!
Our office is located at 123 Baker Street.
You can reach us at 555-123-4567 or send an email to contact@example.com.
The alternative number is 987-654-3210. 
Next year, in 2025, we plan to open another office.
"""

pattern = r"\d{3}-\d{3}-\d{4}"


# 텍스트 전체에서 첫 번째로 일치하는 전화번호를 찾음
search_result = re.search(pattern, text)
if search_result:
    print(f"Search Example: Found phone number: {search_result.group()}")  
    # 출력: Search Example: Found phone number: 555-123-4567


# 텍스트의 시작 부분에서 패턴이 일치하는지 확인
match_result = re.match(pattern, text)
if match_result:
    print(f"Match Example: Found phone number: {match_result.group()}")  
else:
    print("Match Example: No match found at the start of the text.")
    # 출력: Match Example: No match found at the start of the text.


# 텍스트에서 모든 전화번호를 찾아 리스트로 반환
findall_result = re.findall(pattern, text)
print(f"Findall Example: Found phone numbers: {findall_result}")
# 출력: Findall Example: Found phone numbers: ['555-123-4567', '987-654-3210']


# 텍스트에서 모든 전화번호를 [REDACTED]로 치환
sub_result = re.sub(pattern, "[REDACTED]", text)
print(f"Sub Example: {sub_result}")  
# 출력: 전화번호가 [REDACTED]로 치환된 텍스트

Search Example: Found phone number: 555-123-4567
Match Example: No match found at the start of the text.
Findall Example: Found phone numbers: ['555-123-4567', '987-654-3210']
Sub Example: 
Welcome to the year 2024!
Our office is located at 123 Baker Street.
You can reach us at [REDACTED] or send an email to contact@example.com.
The alternative number is [REDACTED]. 
Next year, in 2025, we plan to open another office.



## 📝 문제 3 해설: 정규표현식 함수들

### 🔧 정답 및 각 함수의 역할

| 함수 | 정답 | 기능 | 반환값 |
|------|------|------|--------|
| `search` | ✅ | 텍스트 전체에서 **첫 번째** 매칭 찾기 | Match 객체 또는 None |
| `match` | ✅ | 텍스트 **시작 부분**에서만 매칭 확인 | Match 객체 또는 None |
| `findall` | ✅ | 텍스트에서 **모든** 매칭을 리스트로 반환 | 문자열 리스트 |
| `sub` | ✅ | 매칭되는 부분을 다른 문자열로 **치환** | 치환된 새 문자열 |

### 🎯 핵심 차이점

#### 1. `search` vs `match`
- **search**: 텍스트 어디서든 첫 번째 매칭 찾기
- **match**: 텍스트 시작 부분에서만 매칭 확인

#### 2. `search` vs `findall`  
- **search**: 첫 번째 매칭만 (Match 객체)
- **findall**: 모든 매칭 (문자열 리스트)

#### 3. `sub`의 특징
- 매칭된 모든 부분을 치환
- 원본 텍스트는 변경되지 않음
- 새로운 문자열 반환

In [None]:
## 🎯 전체 요약 및 핵심 포인트

### 📚 학습한 핵심 개념

1. **이메일 패턴**: 단어 경계, 문자 클래스, 수량사 활용
2. **그룹화**: 일반 그룹 `()` vs 명명된 그룹 `(?P<name>...)`
3. **RE 함수들**: search, match, findall, sub의 차이점

### 🔍 정규표현식 패턴 설계 원칙

1. **정확성**: 원하는 것만 매칭하도록 구체적으로 작성
2. **완전성**: 가능한 모든 유효한 형태를 포함
3. **효율성**: 불필요한 백트래킹 방지
4. **가독성**: 명명된 그룹 활용으로 이해하기 쉽게

### ⚠️ 주의사항

- **단어 경계 `\b`**: 완전한 단어 매칭 보장
- **이스케이프**: 특수문자 `\.` 처리 주의
- **그룹 이름**: 명명된 그룹 사용 시 일관성 유지
- **함수 선택**: 용도에 맞는 적절한 함수 사용

In [8]:
print("=== 🚀 추가 실습 문제 ===")

# 보너스 문제: URL 추출 및 분해
bonus_text = """
유용한 사이트들:
- https://www.python.org/docs/
- http://github.com/python/cpython  
- https://regex101.com/
- ftp://ftp.example.com/files/
"""

# URL을 프로토콜, 도메인, 경로로 분해하는 패턴
url_pattern = r"(?P<protocol>https?|ftp)://(?P<domain>[A-Za-z0-9.-]+)(?P<path>/[A-Za-z0-9./_-]*)?"

print("보너스: URL 분해 결과")
url_matches = re.finditer(url_pattern, bonus_text)

for i, match in enumerate(url_matches, 1):
    print(f"{i}. 전체 URL: {match.group()}")
    print(f"   프로토콜: {match.group('protocol')}")
    print(f"   도메인: {match.group('domain')}")
    print(f"   경로: {match.group('path') or '/'}")
    print()

# 실행 결과 확인
print("✅ 모든 문제 해결 완료!")
print("정규표현식 마스터가 되신 것을 축하합니다! 🎉")

=== 🚀 추가 실습 문제 ===
보너스: URL 분해 결과
1. 전체 URL: https://www.python.org/docs/
   프로토콜: https
   도메인: www.python.org
   경로: /docs/

2. 전체 URL: http://github.com/python/cpython
   프로토콜: http
   도메인: github.com
   경로: /python/cpython

3. 전체 URL: https://regex101.com/
   프로토콜: https
   도메인: regex101.com
   경로: /

4. 전체 URL: ftp://ftp.example.com/files/
   프로토콜: ftp
   도메인: ftp.example.com
   경로: /files/

✅ 모든 문제 해결 완료!
정규표현식 마스터가 되신 것을 축하합니다! 🎉
