### 정규표현식(re)
- 문자열에서 특정 패턴을 찾거나 치환하는 데 사용, 주로 텍스트 데이터 분석, 변환에 많이 사용
- re 모듈
```python
import re

re.match('패턴', '문자열') : 문자열의 시작에서 패턴을 찾는다
re.search('패턴', '문자열') : 문자열 전체에서 패턴을 검색
re.findall('패턴', '문자열') : 패턴과 일치하는 모든 부분을 리스트로 반환
re.sub('패턴', '수정할 문자열', '문자열', 바꿀 횟수) : 패턴과 일치하는 부분을 다른 문자열로 치환
re.split('패턴', '문자열') : 패턴을 기준으로 문자열을 분할
```

- 정규표현식 기본 문법
>- 문자 클래스 : [abc] 는 'a','b','c'중 하나와 매칭됨
>- 메타문자 : . ^ $ * + ? {} [] \ | () 기호들
>>- . : 임의의 한 문자와 매칭
>>- ^ : 문자열의 시작
>>- $ : 문자열의 끝
>>- \* : 0회 이상 반복되는 패턴
>>- \+ : 1회 이상 반복되는 패턴
>>- ? : 0회 또는 1회 등장하는 패턴
>>- | : or 연산자 역할, 문자열이 하나라도 포함되는지 
>>- () : 정규표현식 그룹
>>- [] : 대괄호 안에 범위를 넣음 ex) '[0-9]'
>>- {} : 문자{개수}, (문자열){개수} 형식으로 사용. 해당 문자 또는 문자열이 지정한 개수만큼 있는지 확인
>>>- (문자열){시작 개수, 끝 개수}, [0-9]{시작, 끝} 형태로 갯수의 범위도 지정가능
>>- a-z/ A-Z : 알파벳 문자 범위 표현
>>- [^범위] : 특정 문자, 숫자 범위를 포함하지 않는지 확인(^를 대괄호 안에 표시)   ex) [^a-z], [^0-9]
>>- \ : 특수문자를 판단하기위해 특수문자 앞에 붙임
>>- \d : [0-9]와 같은 의미
>>- \D : [^0-9]와 같은 의미
>>- \w : [a-zA-Z0-9]와 같은 의미
>>- \W : [^a-zA-Z0-9]와 같은 의미
>>- \s : 공백문자
>>- r prefix : raw string의미. \n, \t등의 문자를 평범한 문자열로 처리
>-

- 그룹
>- (?P<이름>정규표현식) : 해당 형태로 그룹에 이름을 지어 관리 가능 ex) 호출 시 : 매치객채.group('이름')

import re

In [1]:
import re

In [None]:
re.match('a+b', 'aaabb')

In [None]:
re.match('ab[0-9]+?c', 'ab905c')

In [None]:
re.search('small', '안녕 smallee')

In [None]:
# re.match() 활용
# 문자열 시작에서 숫자 확인
import re

text = "123abc456"
result = re.match("\d+", text)
if result:
    print("매칭된 숫자:", result.group())  
else:
    print("매칭되지 않았습니다.")


In [None]:
#  알파벳으로 시작하는지 확인
text = "abc123"
result = re.match("^[a-zA-Z]+", text)
if result:
    print("알파벳으로 시작:", result.group()) 
else:
    print("알파벳으로 시작하지 않음")


In [None]:
# re.search() 활용
# 전체 문자열에서 이메일 주소 검색
text = "문의사항은 email@example.com 으로 보내주세요."
result = re.search("\w+@\w+\.\w+", text)
if result:
    print("이메일 주소:", result.group())  
else:
    print("이메일 주소를 찾지 못했습니다.")


In [None]:
# 문자열에서 첫 번째로 등장하는 숫자 찾기
text = "제품 번호는 12345, 시리얼 번호는 67890입니다."
result = re.search("\d+", text)         # [0-9]
if result:
    print("첫 번째로 등장한 숫자:", result.group())  
else:
    print("숫자를 찾지 못했습니다.")

In [None]:
# re.findall()
# 모든 숫자 리스트로 추출
text = "123abc456def789"
numbers = re.findall("\d+", text)
print("숫자 목록:", numbers) 

In [None]:
# 모든 단어 리스트로 추출
text = "Python is fun and Useful."
words = re.findall("[^a-zA-Z]+", text)
print("단어 목록:", words) 



In [None]:
# re.sub() # replace
# 숫자를 "*"로 치환
text = "123abc456"
modified_text = re.sub("\d+", "*", text)
print("수정된 문자열:", modified_text)  


In [None]:
# re.split()
# 공백 기준으로 문자열 분할
text = "Python is fun"
words = re.split("\s+", text)
print("분할된 단어:", words)  


In [None]:
# 쉼표와 공백을 기준으로 문자열 분할
text = "apple, banana, cherry"
fruits = re.split(",\s+", text)
print("과일 리스트:", fruits)  


#### 실습

In [None]:
# 문제 1.날짜형식 확인하기
# YYYY-MM-DD 형식의 날짜형태를 발견할 수 있도록 패턴을 작성해주세요.

import re

# '-'로 구분된 날짜 형식 (YYYY-MM-DD 형식만)
pattern = '\d{4}-\d{2}-\d{2}'


# 테스트할 문자열들
test_strings = [
    "오늘은 2023-10-08 입니다.",
    "날짜가 없어요.",
    "이건 잘못된 형식 202-10-08 입니다."
]

# 날짜 형식이 포함되었는지 테스트
for string in test_strings:
    if re.search(pattern, string):
        print(f"'{string}'에서 날짜 형식이 발견되었습니다.")
    else:
        print(f"'{string}'에는 날짜 형식이 없습니다.")

In [None]:
# 문제2. 이메일 주소 추출하기
# 주어진 문자열에서 모든 이메일 주소를 찾아 리스트로 반환하는 함수를 작성하세요. 
# 이메일은 '@' 기호를 기준으로 앞뒤로 알파벳과 숫자가 있어야 합니다.

import re

pattern = "\w+@\w+\.[a-z]+"     # \w : [a-zA-Z0-9] 한글도 같이 인식

def extract_emails(text):
    return re.findall(pattern, text)

# 테스트 코드
sample_text = "문의는 support@example.com 또는 help@domain.org로 해주세요."
print(extract_emails(sample_text))  # 출력: ['support@example.com', 'help@domain.org']


In [None]:
# 문제3. 전화번호 검색
# 전화번호부 딕셔너리가 주어질때, 전화번호를 통해 사용자의 이름을 검색하여 찾을 수 있게 함수를 작성하세요.
# 번호를 검색했을 때 딕셔너리에 존재하지 않으면 '번호를 찾을 수 없습니다'를 출력하고
# 전화번호 형식이 잘못 되었을때는 '유효하지 않은 전화번호 형식입니다'를 출력하세요.

import re

pattern = '\d{2,3}-\d{3,4}-\d{4}'

def search_phonebook(phonebook, number):
    if re.match(pattern, number):
        return phonebook.get(number, "번호를 찾을 수 없습니다.") # dict.get() : 두번째인자는 key가 없을때 default값이 출력
    return "유효하지 않은 전화번호 형식입니다."

# 테스트 코드
phonebook = {"010-1234-5678": "홍길동", "02-987-6543": "김철수"}
print(search_phonebook(phonebook, "010-1234-5678"))  # 출력 : 홍길동
print(search_phonebook(phonebook, "02-987-6543"))    # 출력 : 김철수
print(search_phonebook(phonebook, "010-0000-0000"))  # 출력: 번호를 찾을 수 없습니다.



In [None]:
# 문제4. 웹사이트 URL 추출하기
# 주어진 텍스트에서 모든 URL을 찾아 리스트로 반환하는 함수를 작성하세요. URL은 http 또는 https로 시작해야 합니다.
import re

pattern = 'https+://doosanrokey\.com'

def extract_urls(text):
    return re.findall(pattern, text)

# 테스트 코드
sample_text = "내 블로그는 https://doosanrokey.com, 그리고 포트폴리오는 http://doosanrokey.me 에서 확인하세요."
print(extract_urls(sample_text))  # 출력: ['https://myblog.com', 'http://portfolio.me']
