# 실습: 이름과 나이 추출하기

정규표현식의 그룹화 기능을 사용하여 구조화된 텍스트에서 특정 정보를 추출하는 방법을 학습해보겠습니다.

## 📋 문제 설명

다음과 같은 형태의 문자열에서 이름과 나이를 추출해야 합니다:
- `"Name: John Doe, Age: 45 years old"`
- `"Name: Jane Smith, Age: 32 years old"`  
- `"Name: Bob Brown, Age: 30 years old"`

## 🎯 목표

1. **첫 번째 그룹**: `Name: ` 다음에 나오는 이름을 캡처
2. **두 번째 그룹**: `Age: ` 다음에 나오는 나이(숫자)를 캡처
3. 추출된 정보를 사용하여 원하는 형태로 출력

In [4]:
import re

print("=== 이름과 나이 추출 실습 ===")

# 테스트 데이터
text_data = """
Personal Information:
Name: John Doe, Age: 45 years old
Contact: Name: Jane Smith, Age: 32 years old  
Record: Name: Bob Brown, Age: 30 years old
Additional: Name: Alice Johnson, Age: 28 years old
"""

print("원본 데이터:")
print(text_data)

print("\n=== 1단계: 패턴 분석 ===")
print("찾아야 할 패턴:")
print("- 'Name: ' 다음에 이름 (문자와 공백)")
print("- 'Age: ' 다음에 나이 (숫자)")
print("- 각각을 별도 그룹으로 캡처")

# 패턴 구성 요소별 설명
print("\n패턴 구성:")
print("- Name: 부분: 'Name: '")
print("- 이름 그룹: '([A-Za-z\\s]+)' - 영문자와 공백을 1개 이상")
print("- 중간 부분: ', Age: '")
print("- 나이 그룹: '(\\d+)' - 숫자를 1개 이상")

# 정규표현식 패턴
pattern = r"Name: ([A-Za-z\s]+), Age: (\d+)"

print(f"\n완성된 패턴: {pattern}")

print("\n=== 2단계: 패턴 테스트 ===")

# findall을 사용하여 모든 매칭 찾기
matches = re.findall(pattern, text_data)

print("findall() 결과 (튜플 리스트):")
for i, (name, age) in enumerate(matches, 1):
    print(f"  {i}. 이름: '{name}', 나이: '{age}'")

print("\n=== 3단계: 원하는 형태로 출력 ===")

print("요구사항에 맞는 출력:")
for name, age in matches:
    # 이름 끝의 공백 제거
    clean_name = name.strip()
    print(f"Name: {clean_name}, Age: {age} years old")

=== 이름과 나이 추출 실습 ===
원본 데이터:

Personal Information:
Name: John Doe, Age: 45 years old
Contact: Name: Jane Smith, Age: 32 years old  
Record: Name: Bob Brown, Age: 30 years old
Additional: Name: Alice Johnson, Age: 28 years old


=== 1단계: 패턴 분석 ===
찾아야 할 패턴:
- 'Name: ' 다음에 이름 (문자와 공백)
- 'Age: ' 다음에 나이 (숫자)
- 각각을 별도 그룹으로 캡처

패턴 구성:
- Name: 부분: 'Name: '
- 이름 그룹: '([A-Za-z\s]+)' - 영문자와 공백을 1개 이상
- 중간 부분: ', Age: '
- 나이 그룹: '(\d+)' - 숫자를 1개 이상

완성된 패턴: Name: ([A-Za-z\s]+), Age: (\d+)

=== 2단계: 패턴 테스트 ===
findall() 결과 (튜플 리스트):
  1. 이름: 'John Doe', 나이: '45'
  2. 이름: 'Jane Smith', 나이: '32'
  3. 이름: 'Bob Brown', 나이: '30'
  4. 이름: 'Alice Johnson', 나이: '28'

=== 3단계: 원하는 형태로 출력 ===
요구사항에 맞는 출력:
Name: John Doe, Age: 45 years old
Name: Jane Smith, Age: 32 years old
Name: Bob Brown, Age: 30 years old
Name: Alice Johnson, Age: 28 years old


In [5]:
print("\n=== 4단계: finditer()를 사용한 더 자세한 정보 ===")

# finditer를 사용하여 매칭 위치와 상세 정보 확인
matches_detailed = re.finditer(pattern, text_data)

print("finditer() 결과 (상세 정보 포함):")
for i, match in enumerate(matches_detailed, 1):
    print(f"  {i}. 전체 매칭: '{match.group()}'")
    print(f"     - 첫 번째 그룹 (이름): '{match.group(1)}'")
    print(f"     - 두 번째 그룹 (나이): '{match.group(2)}'")
    print(f"     - 매칭 위치: {match.start()}-{match.end()}")
    print()

print("=== 5단계: 다양한 형태의 데이터 처리 ===")

# 더 복잡한 테스트 데이터
complex_data = """
Employee Records:
Name: John Michael Doe, Age: 45 years old
Name: Mary Jane Smith, Age: 32 years old
Name: Bob, Age: 30 years old
Name: Alice Marie Johnson-Brown, Age: 28 years old
Invalid: Age: 25 years old, Name: Missing
Name: David Lee, Age: unknown years old
"""

print("복잡한 데이터:")
print(complex_data)

# 개선된 패턴 (하이픈도 포함)
improved_pattern = r"Name: ([A-Za-z\s\-]+), Age: (\d+)"

print(f"\n개선된 패턴: {improved_pattern}")
print("개선사항: 하이픈(-) 추가로 복합성명 처리")

improved_matches = re.findall(improved_pattern, complex_data)

print("\n개선된 패턴 결과:")
for name, age in improved_matches:
    clean_name = name.strip()
    print(f"Name: {clean_name}, Age: {age} years old")

print("\n=== 6단계: 명명된 그룹 사용 ===")

# 명명된 그룹을 사용한 패턴
named_pattern = r"Name: (?P<name>[A-Za-z\s\-]+), Age: (?P<age>\d+)"

print(f"명명된 그룹 패턴: {named_pattern}")

named_matches = re.finditer(named_pattern, complex_data)

print("명명된 그룹 결과:")
for match in named_matches:
    name = match.group('name').strip()
    age = match.group('age')
    print(f"Name: {name}, Age: {age} years old")
    print(f"  - 이름만: {match.group('name').strip()}")
    print(f"  - 나이만: {match.group('age')}")
    print()


=== 4단계: finditer()를 사용한 더 자세한 정보 ===
finditer() 결과 (상세 정보 포함):
  1. 전체 매칭: 'Name: John Doe, Age: 45'
     - 첫 번째 그룹 (이름): 'John Doe'
     - 두 번째 그룹 (나이): '45'
     - 매칭 위치: 23-46

  2. 전체 매칭: 'Name: Jane Smith, Age: 32'
     - 첫 번째 그룹 (이름): 'Jane Smith'
     - 두 번째 그룹 (나이): '32'
     - 매칭 위치: 66-91

  3. 전체 매칭: 'Name: Bob Brown, Age: 30'
     - 첫 번째 그룹 (이름): 'Bob Brown'
     - 두 번째 그룹 (나이): '30'
     - 매칭 위치: 112-136

  4. 전체 매칭: 'Name: Alice Johnson, Age: 28'
     - 첫 번째 그룹 (이름): 'Alice Johnson'
     - 두 번째 그룹 (나이): '28'
     - 매칭 위치: 159-187

=== 5단계: 다양한 형태의 데이터 처리 ===
복잡한 데이터:

Employee Records:
Name: John Michael Doe, Age: 45 years old
Name: Mary Jane Smith, Age: 32 years old
Name: Bob, Age: 30 years old
Name: Alice Marie Johnson-Brown, Age: 28 years old
Invalid: Age: 25 years old, Name: Missing
Name: David Lee, Age: unknown years old


개선된 패턴: Name: ([A-Za-z\s\-]+), Age: (\d+)
개선사항: 하이픈(-) 추가로 복합성명 처리

개선된 패턴 결과:
Name: John Michael Doe, Age: 45 years old
Name: Mary Jane Smith, 

## 🔍 패턴 상세 분석

### 기본 패턴: `r"Name: ([A-Za-z\s]+), Age: (\d+)"`

| 구성요소 | 설명 | 역할 |
|---------|------|------|
| `Name: ` | 리터럴 문자열 | 'Name: ' 문자열과 정확히 일치 |
| `(` | 그룹 시작 | 첫 번째 캡처 그룹 시작 |
| `[A-Za-z\s]+` | 문자 클래스 | 영문자와 공백 1개 이상 |
| `)` | 그룹 종료 | 첫 번째 캡처 그룹 종료 |
| `, Age: ` | 리터럴 문자열 | ', Age: ' 문자열과 정확히 일치 |
| `(` | 그룹 시작 | 두 번째 캡처 그룹 시작 |
| `\d+` | 숫자 클래스 | 숫자 1개 이상 |
| `)` | 그룹 종료 | 두 번째 캡처 그룹 종료 |

### 개선된 패턴: `r"Name: ([A-Za-z\s\-]+), Age: (\d+)"`

**추가된 기능:**
- `\-`: 하이픈 문자 추가로 복합성명 처리 (Johnson-Brown)
- 더 다양한 이름 형태 지원

### 명명된 그룹 패턴: `r"Name: (?P<name>[A-Za-z\s\-]+), Age: (?P<age>\d+)"`

**장점:**
- 그룹에 의미있는 이름 부여
- `match.group('name')`, `match.group('age')` 방식으로 접근
- 코드 가독성 향상

In [6]:
print("=== 7단계: 데이터 변환 및 포맷팅 ===")

# 추출한 데이터를 다른 형태로 변환
transformation_data = """
Profile: Name: Emma Watson, Age: 34 years old
Profile: Name: Daniel Radcliffe, Age: 35 years old
Profile: Name: Rupert Grint, Age: 36 years old
"""

pattern = r"Name: ([A-Za-z\s]+), Age: (\d+)"
matches = re.findall(pattern, transformation_data)

print("원본 데이터:")
print(transformation_data)

print("다양한 형태로 변환:")

# 1. 사전(Dictionary) 형태로 변환
print("\n1. 사전 형태:")
people_dict = {}
for name, age in matches:
    clean_name = name.strip()
    people_dict[clean_name] = int(age)

for name, age in people_dict.items():
    print(f"  '{name}': {age}세")

# 2. JSON 스타일로 출력
print("\n2. JSON 스타일:")
import json
people_list = []
for name, age in matches:
    people_list.append({
        "name": name.strip(),
        "age": int(age)
    })

print(json.dumps(people_list, indent=2, ensure_ascii=False))

# 3. CSV 형태로 변환
print("\n3. CSV 형태:")
print("이름,나이")
for name, age in matches:
    clean_name = name.strip()
    print(f"{clean_name},{age}")

# 4. 나이대별 분류
print("\n4. 나이대별 분류:")
age_groups = {"20대": [], "30대": [], "40대": []}

for name, age in matches:
    clean_name = name.strip()
    age_num = int(age)
    
    if 20 <= age_num < 30:
        age_groups["20대"].append(clean_name)
    elif 30 <= age_num < 40:
        age_groups["30대"].append(clean_name)
    elif 40 <= age_num < 50:
        age_groups["40대"].append(clean_name)

for age_group, names in age_groups.items():
    if names:
        print(f"  {age_group}: {', '.join(names)}")

print("\n=== 8단계: 실습 문제 ===")

challenge_data = """
Student Records:
Name: 김철수, Age: 22 years old
Name: 이영희, Age: 21 years old  
Name: 박민수, Age: 23 years old
Name: John Smith, Age: 25 years old
"""

print("도전 과제: 한글 이름도 처리할 수 있는 패턴 만들기")
print("테스트 데이터:")
print(challenge_data)

# 한글을 포함한 패턴 (\w는 한글도 매칭)
korean_pattern = r"Name: ([\w\s\-]+), Age: (\d+)"

print(f"\n한글 지원 패턴: {korean_pattern}")
print("\\w는 한글, 영문, 숫자, 언더스코어를 모두 포함")

korean_matches = re.findall(korean_pattern, challenge_data)

print("\n결과:")
for name, age in korean_matches:
    clean_name = name.strip()
    print(f"Name: {clean_name}, Age: {age} years old")

=== 7단계: 데이터 변환 및 포맷팅 ===
원본 데이터:

Profile: Name: Emma Watson, Age: 34 years old
Profile: Name: Daniel Radcliffe, Age: 35 years old
Profile: Name: Rupert Grint, Age: 36 years old

다양한 형태로 변환:

1. 사전 형태:
  'Emma Watson': 34세
  'Daniel Radcliffe': 35세
  'Rupert Grint': 36세

2. JSON 스타일:
[
  {
    "name": "Emma Watson",
    "age": 34
  },
  {
    "name": "Daniel Radcliffe",
    "age": 35
  },
  {
    "name": "Rupert Grint",
    "age": 36
  }
]

3. CSV 형태:
이름,나이
Emma Watson,34
Daniel Radcliffe,35
Rupert Grint,36

4. 나이대별 분류:
  30대: Emma Watson, Daniel Radcliffe, Rupert Grint

=== 8단계: 실습 문제 ===
도전 과제: 한글 이름도 처리할 수 있는 패턴 만들기
테스트 데이터:

Student Records:
Name: 김철수, Age: 22 years old
Name: 이영희, Age: 21 years old  
Name: 박민수, Age: 23 years old
Name: John Smith, Age: 25 years old


한글 지원 패턴: Name: ([\w\s\-]+), Age: (\d+)
\w는 한글, 영문, 숫자, 언더스코어를 모두 포함

결과:
Name: 김철수, Age: 22 years old
Name: 이영희, Age: 21 years old
Name: 박민수, Age: 23 years old
Name: John Smith, Age: 25 years old


# metacharacters for regular expression

- `.` : 임의의 단일 문자와 일치  
- `^` : 문자열의 시작 부분을 의미    
- `%` : 문자열의 끝 부분을 의미
- `*` : 앞의 문자가 0번 이상 반복됨을 의미
- `+` : 앞의 문자가 1번 이상 반복됨을 의미
- `?` : 앞의 문자가 0번 또는 1번 나타남을 의미
- `|` : `OR` 연산을 의미하며, 예: a|b 는 `a` or `b`와 일치
- `()` : 그룹화를 의미하며, 부분 패턴을 묶어 줍니다.
- `{n}` : n번 반복 되는 패턴에 일치, a{3} : aaa 에 일치
- `{n,}` : n번 이상 반복되는 패턴에 일치

In [2]:
import re
# 입력 텍스트
text = """
This is a Test. The result should include This sentence. Another test? The code should ignore this. Today is a good day.
"""

pattern = r"T[^.]*\." # 여기에 코드를 작성하세요.
sentences = re.findall(pattern, text)
print(sentences)  # ['This is a Test.', 'The result should include This sentence.', 'Today is a good day.']

['This is a Test.', 'The result should include This sentence.', 'The code should ignore this.', 'Today is a good day.']


# 정규표현식 그룹화(Grouping)와 백참조(Backreferences)

정규표현식에서 **그룹화**는 패턴의 일부를 묶어서 하나의 단위로 처리하는 기능입니다.
**백참조**는 앞에서 정의한 그룹을 다시 참조하여 같은 패턴을 반복 매칭하는 기능입니다.

## 주요 개념

### 그룹화 `()`
- 패턴을 그룹으로 묶어 하나의 단위로 처리
- 매칭된 그룹 내용을 별도로 추출 가능
- 백참조에서 사용할 수 있도록 번호가 할당됨

### 백참조 `\1, \2, \3...`
- 앞에서 정의한 그룹의 매칭 결과를 다시 사용
- `\1`은 첫 번째 그룹, `\2`는 두 번째 그룹을 의미
- 중복된 패턴이나 대칭적인 구조를 찾을 때 유용

In [3]:
import re

print("=== 1. 기본 그룹화 예제 ===")

# 전화번호에서 지역번호, 국번, 번호를 분리
phone_text = "연락처: 010-1234-5678, 02-9876-5432, 031-555-7890"

# 그룹화를 사용하여 전화번호 구성요소 분리
phone_pattern = r"(\d{2,3})-(\d{3,4})-(\d{4})"
phone_matches = re.findall(phone_pattern, phone_text)

print("전화번호 분리 결과:")
for match in phone_matches:
    area_code, exchange, number = match
    print(f"  지역번호: {area_code}, 국번: {exchange}, 번호: {number}")

print("\n그룹화 없이 매칭:")
simple_pattern = r"\d{2,3}-\d{3,4}-\d{4}"
simple_matches = re.findall(simple_pattern, phone_text)
print(f"  전체 전화번호: {simple_matches}")

print("\n=== 2. 이메일 주소 그룹화 ===")

email_text = "이메일: john.doe@example.com, admin@company.org, user123@domain.net"

# 사용자명과 도메인을 분리
email_pattern = r"([A-Za-z0-9._%+-]+)@([A-Za-z0-9.-]+\.[A-Za-z]{2,})"
email_matches = re.findall(email_pattern, email_text)

print("이메일 분리 결과:")
for username, domain in email_matches:
    print(f"  사용자명: {username}, 도메인: {domain}")

=== 1. 기본 그룹화 예제 ===
전화번호 분리 결과:
  지역번호: 010, 국번: 1234, 번호: 5678
  지역번호: 02, 국번: 9876, 번호: 5432
  지역번호: 031, 국번: 555, 번호: 7890

그룹화 없이 매칭:
  전체 전화번호: ['010-1234-5678', '02-9876-5432', '031-555-7890']

=== 2. 이메일 주소 그룹화 ===
이메일 분리 결과:
  사용자명: john.doe, 도메인: example.com
  사용자명: admin, 도메인: company.org
  사용자명: user123, 도메인: domain.net


In [None]:
print("\n=== 3. 백참조(Backreferences) 기본 예제 ===")

# 중복된 단어 찾기
text_with_duplicates = "This is is a test test. Hello hello world. Good good morning."

# 백참조를 사용하여 연속된 중복 단어 찾기
duplicate_pattern = r"\b(\w+)\s+\1\b"
duplicates = re.findall(duplicate_pattern, text_with_duplicates)
print("중복된 단어:")
print(f"  발견된 중복 단어: {duplicates}")

# 중복된 단어가 포함된 전체 매칭 보기
duplicate_full = re.finditer(duplicate_pattern, text_with_duplicates)
print("  전체 매칭:")
for match in duplicate_full:
    print(f"    '{match.group()}' - 단어: '{match.group(1)}'")

print("\n=== 4. HTML 태그 매칭 ===")

html_text = "<div>내용</div> <span>글자</span> <p>문단</p> <div>다른내용</div>"

# 여는 태그와 닫는 태그가 같은 HTML 요소 찾기
html_pattern = r"<(\w+)>.*?</\1>"
html_matches = re.findall(html_pattern, html_text)
print("매칭된 HTML 태그:")
print(f"  태그들: {html_matches}")

# 전체 HTML 요소 추출
html_full = re.finditer(html_pattern, html_text)
print("  전체 HTML 요소:")
for match in html_full:
    print(f"    {match.group()} - 태그: {match.group(1)}")

In [None]:
print("\n=== 5. 고급 백참조 예제 ===")

# 대칭적인 문자열 찾기 (palindrome 패턴)
palindrome_text = "level radar madam hello world civic"

# 3글자 대칭 단어 찾기 (예: mom, dad, pop)
palindrome_3 = r"\b(\w)(\w)\1\b"
matches_3 = re.findall(palindrome_3, palindrome_text)
print("3글자 대칭 패턴:")
for match in matches_3:
    word = match[0] + match[1] + match[0]
    print(f"  {word}")

# 5글자 대칭 단어 찾기 (예: level, radar)
palindrome_5 = r"\b(\w)(\w)(\w)\2\1\b"
matches_5 = re.finditer(palindrome_5, palindrome_text)
print("5글자 대칭 패턴:")
for match in matches_5:
    print(f"  {match.group()}")

print("\n=== 6. 따옴표 매칭 ===")

quote_text = '''그는 "안녕하세요"라고 말했습니다. '좋은 하루'라고 답했어요. "정말 '멋진' 날씨네요"'''

# 같은 종류의 따옴표로 감싸진 문자열 찾기
quote_pattern = r"([\"'])([^\"']*?)\1"
quote_matches = re.findall(quote_pattern, quote_text)
print("따옴표로 감싸진 문자열:")
for quote_type, content in quote_matches:
    print(f"  {quote_type}{content}{quote_type}")

print("\n=== 7. 날짜 형식 검증 및 추출 ===")

date_text = "중요한 날짜들: 2024-01-15, 2024-01-15, 2023-12-25, 2024-13-45, 2024-02-30"

# 같은 날짜가 반복되는 패턴 찾기
date_duplicate_pattern = r"\b(\d{4}-\d{2}-\d{2}),\s*\1\b"
duplicate_dates = re.findall(date_duplicate_pattern, date_text)
print("중복된 날짜:")
print(f"  {duplicate_dates}")

# 유효한 날짜 형식 추출 (간단한 검증)
valid_date_pattern = r"\b(\d{4})-(0[1-9]|1[0-2])-(0[1-9]|[12]\d|3[01])\b"
valid_dates = re.findall(valid_date_pattern, date_text)
print("유효한 날짜 (연도별 그룹화):")
for year, month, day in valid_dates:
    print(f"  {year}년 {month}월 {day}일")

In [None]:
print("\n=== 8. 명명된 그룹(Named Groups) ===")

# 명명된 그룹 사용하기
url_text = "웹사이트들: https://www.example.com/page, http://subdomain.test.org/path, https://blog.company.net"

# 명명된 그룹으로 URL 구성요소 추출
url_pattern = r"(?P<protocol>https?)://(?P<domain>[A-Za-z0-9.-]+)(?P<path>/[A-Za-z0-9./]*)"
url_matches = re.finditer(url_pattern, url_text)

print("URL 구성요소 분석:")
for match in url_matches:
    print(f"  전체 URL: {match.group()}")
    print(f"    프로토콜: {match.group('protocol')}")
    print(f"    도메인: {match.group('domain')}")
    print(f"    경로: {match.group('path')}")
    print()

print("=== 9. 명명된 그룹과 백참조 ===")

# 명명된 그룹의 백참조 사용
repeated_words = "The the quick quick brown fox fox jumps jumps over the lazy dog dog"

# 명명된 그룹과 백참조로 중복 단어 찾기
named_duplicate_pattern = r"\b(?P<word>\w+)\s+(?P=word)\b"
named_duplicates = re.finditer(named_duplicate_pattern, repeated_words)

print("명명된 그룹으로 찾은 중복 단어:")
for match in named_duplicates:
    print(f"  '{match.group()}' - 중복된 단어: '{match.group('word')}'")

print("\n=== 10. 실용적인 데이터 추출 예제 ===")

log_text = """
2024-01-15 10:30:25 [INFO] User john.doe@example.com logged in
2024-01-15 10:35:42 [ERROR] Failed login attempt for admin@company.org
2024-01-15 11:15:18 [INFO] User sarah.smith@example.net logged out
"""

# 로그 데이터에서 정보 추출
log_pattern = r"(?P<date>\d{4}-\d{2}-\d{2})\s+(?P<time>\d{2}:\d{2}:\d{2})\s+\[(?P<level>\w+)\]\s+.*?(?P<email>[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,})"
log_matches = re.finditer(log_pattern, log_text)

print("로그 데이터 분석:")
for match in log_matches:
    print(f"  날짜: {match.group('date')}")
    print(f"  시간: {match.group('time')}")
    print(f"  레벨: {match.group('level')}")
    print(f"  이메일: {match.group('email')}")
    print(f"  전체: {match.group()}")
    print()

In [None]:
print("\n=== 실습 문제 ===")

# 문제 1: 전화번호 형식 변환
phone_data = "연락처: 010-1234-5678, 02-9876-5432, 031-555-7890"
print("문제 1: 전화번호를 (지역번호) 국번-번호 형식으로 변환")

# 해답
phone_convert_pattern = r"(\d{2,3})-(\d{3,4})-(\d{4})"
converted_phones = re.sub(phone_convert_pattern, r"(\1) \2-\3", phone_data)
print(f"원본: {phone_data}")
print(f"변환: {converted_phones}")

print("\n문제 2: 이메일 도메인만 추출하여 @domain.com 형식으로 변환")
email_data = "연락처: john.doe@example.com, admin@company.org"

# 해답
email_convert_pattern = r"[A-Za-z0-9._%+-]+@([A-Za-z0-9.-]+\.[A-Za-z]{2,})"
domains_only = re.sub(r"([A-Za-z0-9._%+-]+)@([A-Za-z0-9.-]+\.[A-Za-z]{2,})", r"@\2", email_data)
print(f"원본: {email_data}")
print(f"변환: {domains_only}")

print("\n문제 3: HTML 태그 내용만 추출")
html_data = "<h1>제목</h1> <p>문단 내용</p> <div>박스 내용</div>"

# 해답
html_content_pattern = r"<\w+>(.*?)</\w+>"
contents = re.findall(html_content_pattern, html_data)
print(f"원본: {html_data}")
print(f"추출된 내용: {contents}")

print("\n=== 그룹화와 백참조 정리 ===")
print("""
주요 개념 정리:

1. 그룹화 (Grouping)
   - 기본 그룹: (pattern)
   - 명명된 그룹: (?P<name>pattern)
   - 비캡처 그룹: (?:pattern) - 그룹화만 하고 캡처하지 않음

2. 백참조 (Backreferences)
   - 번호 백참조: \\1, \\2, \\3, ...
   - 명명된 백참조: (?P=name)
   - 치환에서 사용: \\1, \\2 또는 \\g<name>

3. 실용적 활용
   - 데이터 추출 및 분리
   - 중복 패턴 탐지
   - 형식 변환 및 치환
   - 구조적 데이터 파싱

4. 주의사항
   - 그룹 번호는 1부터 시작
   - 중첩된 그룹의 경우 왼쪽 괄호 순서로 번호 할당
   - 백참조는 이미 매칭된 내용과 정확히 일치해야 함
""")

# 이메일 정규표현식 세부 분석

## 패턴: `r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b"`

이메일 주소를 매칭하는 정규표현식을 구성요소별로 자세히 분석해보겠습니다.

### 🔍 전체 구조 분해

| 구성요소 | 패턴 | 설명 | 예시 |
|---------|------|------|------|
| 단어 경계 | `\b` | 이메일이 독립된 단어임을 보장 | 앞뒤로 공백이나 구분자 |
| 사용자명 | `[A-Za-z0-9._%+-]+` | @ 기호 앞의 로컬 부분 | john.doe, user_123 |
| @ 기호 | `@` | 이메일의 필수 구분자 | @ |
| 도메인명 | `[A-Za-z0-9.-]+` | 도메인의 이름 부분 | example, sub-domain |
| 점(.) | `\.` | 도메인과 최상위 도메인 구분 | . |
| 최상위 도메인 | `[A-Za-z]{2,}` | 국가 코드나 일반 도메인 | com, org, co.kr |
| 단어 경계 | `\b` | 이메일 끝 부분 확인 | 뒤에 다른 문자 없음 |

In [None]:
import re

print("=== 이메일 정규표현식 구성요소별 분석 ===")

# 테스트용 이메일 데이터
test_emails = [
    "john.doe@example.com",      # 표준적인 이메일
    "user_123@domain.org",       # 언더스코어와 숫자
    "admin+notifications@site.net",  # + 기호 포함
    "test.email@sub-domain.co.kr",   # 하이픈이 있는 도메인
    "invalid@",                  # 잘못된 형식
    "@domain.com",              # 사용자명 없음
    "user@domain",              # 최상위 도메인 없음
    "user@domain.c",            # 너무 짧은 최상위 도메인
    "user123@domain456.info"    # 숫자 포함 이메일
]

# 전체 패턴
email_pattern = r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b"

print("1. 전체 패턴 테스트:")
for email in test_emails:
    match = re.search(email_pattern, email)
    status = "✓ 매칭" if match else "✗ 불일치"
    print(f"  {email:<30} : {status}")

print("\n=== 2. 구성요소별 상세 분석 ===")

# 각 구성요소별로 분해해서 설명
print("A. 단어 경계 \\b의 역할:")
text_with_boundary = "이메일주소john.doe@example.com입니다"
text_with_space = "이메일 주소 john.doe@example.com 입니다"

pattern_with_boundary = r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b"
pattern_without_boundary = r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}"

print(f"  경계 있는 패턴 (공백 없음): {re.findall(pattern_with_boundary, text_with_boundary)}")
print(f"  경계 없는 패턴 (공백 없음): {re.findall(pattern_without_boundary, text_with_boundary)}")
print(f"  경계 있는 패턴 (공백 있음): {re.findall(pattern_with_boundary, text_with_space)}")
print(f"  경계 없는 패턴 (공백 있음): {re.findall(pattern_without_boundary, text_with_space)}")

print("\nB. 사용자명 부분 [A-Za-z0-9._%+-]+ 분석:")
usernames = ["john", "john.doe", "user_123", "admin+notifications", "test-user", "user@domain"]
username_pattern = r"^[A-Za-z0-9._%+-]+$"

for username in usernames:
    match = re.match(username_pattern, username)
    status = "✓ 유효" if match else "✗ 무효"
    print(f"  {username:<20} : {status}")

print("\n  허용되는 특수문자:")
print("    . (점) : john.doe")
    print("    _ (언더스코어) : user_name")
    print("    % (퍼센트) : user%test (URL 인코딩)")
    print("    + (플러스) : admin+notifications")
    print("    - (하이픈) : test-user")

In [None]:
print("\nC. 도메인명 부분 [A-Za-z0-9.-]+ 분석:")
domains = ["example", "sub-domain", "domain123", "test.domain", "domain.", ".domain", "do--main"]
domain_pattern = r"^[A-Za-z0-9.-]+$"

for domain in domains:
    match = re.match(domain_pattern, domain)
    status = "✓ 매칭" if match else "✗ 불일치"
    valid = "하지만 실제로는 유효하지 않을 수 있음" if domain.endswith('.') or domain.startswith('.') else ""
    print(f"  {domain:<15} : {status} {valid}")

print("\n  도메인에서 허용되는 문자:")
print("    A-Z, a-z : 영문자")
print("    0-9 : 숫자")
print("    . (점) : 서브도메인 구분 (sub.domain)")
print("    - (하이픈) : 도메인명 내 구분 (my-domain)")

print("\nD. 최상위 도메인 [A-Za-z]{2,} 분석:")
tlds = ["com", "org", "net", "co.kr", "c", "abcd", "123", "kr"]
# 주의: 이 패턴은 마지막 점 이후의 부분만 검사
tld_pattern = r"^[A-Za-z]{2,}$"

for tld in tlds:
    match = re.match(tld_pattern, tld)
    status = "✓ 유효" if match else "✗ 무효"
    print(f"  .{tld:<10} : {status}")

print("\n  최상위 도메인 규칙:")
print("    - 최소 2글자 이상")
print("    - 영문자만 허용 (숫자 불허)")
print("    - 실제로는 IANA에서 관리하는 목록에 있어야 함")

print("\n=== 3. 실제 이메일 검증 vs 정규표현식 한계 ===")

edge_cases = [
    "user@domain.com",           # ✓ 정상
    "user..double@domain.com",   # 연속된 점 (RFC 위반)
    ".user@domain.com",          # 점으로 시작 (RFC 위반)
    "user.@domain.com",          # 점으로 끝남 (RFC 위반)
    "user@.domain.com",          # 도메인이 점으로 시작
    "user@domain..com",          # 도메인에 연속된 점
    "user@domain.c",             # 너무 짧은 TLD
    "very.long.email.address@very.long.domain.name.com",  # 긴 이메일
]

print("실제 이메일 검증 테스트:")
for email in edge_cases:
    regex_match = re.search(email_pattern, email)
    regex_status = "✓" if regex_match else "✗"
    
    # 간단한 추가 검증 규칙
    additional_checks = []
    if ".." in email:
        additional_checks.append("연속된 점")
    if email.startswith('.') or '@.' in email:
        additional_checks.append("잘못된 점 위치")
    if email.endswith('.'):
        additional_checks.append("점으로 끝남")
        
    additional_status = "⚠️ " + ", ".join(additional_checks) if additional_checks else "✓"
    
    print(f"  {email:<45} 정규식: {regex_status} 추가검증: {additional_status}")

print("\n=== 4. 개선된 이메일 패턴 제안 ===")

# 더 엄격한 패턴
strict_pattern = r"\b[A-Za-z0-9](?:[A-Za-z0-9._%-]*[A-Za-z0-9])?@[A-Za-z0-9](?:[A-Za-z0-9.-]*[A-Za-z0-9])?\.[A-Za-z]{2,}\b"

print("개선된 패턴의 특징:")
print("- 사용자명이 영숫자로 시작하고 끝남")
print("- 도메인명이 영숫자로 시작하고 끝남")
print("- 연속된 특수문자 방지")

print("\n기본 패턴 vs 개선된 패턴 비교:")
problem_emails = [
    ".user@domain.com",
    "user.@domain.com", 
    "user@.domain.com",
    "user@domain-.com",
    "normal@domain.com"
]

for email in problem_emails:
    basic_match = re.search(email_pattern, email)
    strict_match = re.search(strict_pattern, email)
    
    basic_status = "✓" if basic_match else "✗"
    strict_status = "✓" if strict_match else "✗"
    
    print(f"  {email:<20} 기본: {basic_status}  개선: {strict_status}")

## 📋 이메일 정규표현식 완전 정리

### 🔍 패턴 분해: `\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b`

#### 1️⃣ `\b` (단어 경계)
- **목적**: 이메일이 독립된 단어임을 보장
- **효과**: `test@domain.com123` 같은 경우 매칭하지 않음
- **위치**: 패턴의 시작과 끝

#### 2️⃣ `[A-Za-z0-9._%+-]+` (사용자명)
- **A-Z**: 대문자 영어 알파벳
- **a-z**: 소문자 영어 알파벳  
- **0-9**: 숫자
- **.**: 점 (john.doe)
- **_**: 언더스코어 (user_name)
- **%**: 퍼센트 (URL 인코딩용)
- **+**: 플러스 (admin+notifications)
- **-**: 하이픈 (test-user)
- **+**: 1개 이상 반복

#### 3️⃣ `@` (앳 기호)
- 이메일의 필수 구분자
- 사용자명과 도메인을 분리

#### 4️⃣ `[A-Za-z0-9.-]+` (도메인명)
- **A-Z, a-z**: 영문자
- **0-9**: 숫자
- **.**: 점 (서브도메인 구분용)
- **-**: 하이픈 (도메인명 내 구분)
- **+**: 1개 이상 반복

#### 5️⃣ `\.` (점, 리터럴)
- 도메인과 최상위 도메인 구분
- 이스케이프 처리 필요 (정규식에서 .은 특수문자)

#### 6️⃣ `[A-Za-z]{2,}` (최상위 도메인)
- **A-Z, a-z**: 영문자만 허용
- **{2,}**: 최소 2글자 이상
- 숫자 불허 (123은 유효하지 않은 TLD)

### ⚠️ 패턴의 한계

1. **완벽한 RFC 준수 불가**: 모든 이메일 규칙을 정규식으로 표현하기 어려움
2. **연속된 특수문자**: `user..name@domain.com` 같은 잘못된 형식도 매칭
3. **국제화 도메인**: 한글 도메인 등은 처리하지 못함
4. **실제 존재 여부**: 형식은 맞지만 실제 존재하지 않는 이메일도 매칭

### 💡 실무 권장사항

1. **기본 검증**: 정규표현식으로 형식 확인
2. **추가 검증**: 이메일 발송을 통한 실제 확인
3. **라이브러리 활용**: `email-validator` 같은 전문 라이브러리 사용
4. **단계적 접근**: 정규식 → 구문 분석 → 실제 확인