# 🐍 파이썬 정규 표현식으로 나만의 챗봇 만들기 🤖

안녕하세요! 코딩의 세계에 오신 것을 환영합니다. 🎉

이 노트북에서는 파이썬의 강력한 문자열 처리 도구인 **정규 표현식(Regular Expression)**에 대해 배워볼 거예요. 어려운 문법 같지만, 사실은 우리가 컴퓨터와 '문자열 패턴'에 대해 대화하는 방법이랍니다.

딱딱한 문법 공부는 지루할 수 있으니, 간단한 **챗봇**을 만들어보면서 재미있게 배워봅시다! 사용자의 입력에서 원하는 정보를 쏙쏙 뽑아내는 챗봇을 만들다 보면, 어느새 정규 표현식과 친구가 되어 있을 거예요. 자, 그럼 시작해볼까요?

## 1단계: 파이썬의 정규 표현식 친구, `re` 모듈 불러오기

파이썬에서 정규 표현식을 사용하려면 `re` 라는 이름의 모듈(미리 만들어진 코드 묶음)을 불러와야 해요. `import re` 라고 써주면 준비 끝! 간단하죠?

In [None]:
# re 모듈을 불러옵니다. 앞으로 정규 표현식을 사용할 때 항상 가장 먼저 실행해주세요.
import re

## 2단계: 인사말 알아듣기

챗봇의 첫 번째 임무는 사용자의 인사를 알아듣는 거예요. 사용자가 "안녕"이라고 말했는지 찾아봅시다. `re.search('찾을패턴', '전체문자열')` 함수는 문자열 안에 원하는 패턴이 있는지 찾아주는 역할을 합니다. 있으면 `Match` 객체라는 '찾았다!'는 증거를, 없으면 `None`을 돌려줘요.

In [None]:
user_input = "안녕! 반가워."

# user_input 안에 '안녕'이라는 글자가 있는지 찾아봅니다.
match = re.search('안녕', user_input)

if match:
    print("챗봇: 안녕하세요! 저도 반가워요.")
else:
    print("챗봇: 음... 무슨 말씀이신지 잘 모르겠어요.")

## 3단계: 다양한 인사에도 똑똑하게 반응하기 - `|` 와 `[]`

사용자는 '안녕' 말고도 '하이', '헬로' 등 다양한 방식으로 인사할 수 있어요. 이 모든 경우에 반응하려면 어떻게 해야 할까요?

* `|` (파이프): '또는(OR)'의 의미예요. `안녕|하이|헬로` 라고 쓰면 '안녕' 또는 '하이' 또는 '헬로' 중 하나라도 있는지 찾아줍니다.
* `[]` (대괄호): 대괄호 안에 있는 문자 중 '아무거나 하나'를 의미해요. 예를 들어 `[가나다]`는 '가', '나', '다' 중 한 글자를 찾습니다. 

In [None]:
user_input = "하이! 좋은 아침이야."

# '안녕' 또는 '하이' 또는 '헬로' 중 하나가 있는지 찾아봅니다.
match = re.search('안녕|하이|헬로', user_input)

if match:
    print("챗봇: 안녕하세요! 좋은 하루 되세요.")
else:
    print("챗봇: ...")

## 4단계: 숫자 뽑아내기 - `\d` 와 `+`

이번엔 챗봇이 사용자의 나이를 물어보고, 대답에서 숫자만 쏙 뽑아내도록 해볼게요. 이럴 때 아주 유용한 친구들이 있어요.

* `\d`: '숫자(digit) 하나'를 의미해요. `[0-9]`와 똑같은 역할을 합니다. 
* `+`: 바로 앞에 있는 문자가 '1번 이상 반복'될 때 사용해요. 그래서 `\d+` 라고 쓰면 '숫자가 1개 이상 연속된 덩어리'를 찾아낼 수 있습니다!

**※ 잠깐! `r''`은 뭔가요?**
정규 표현식 앞에 `r`을 붙여 `r'\d+'`처럼 쓰는 것을 'Raw String'이라고 해요. 파이썬은 `\`를 특별한 문자로 취급하는데, Raw String을 사용하면 `\`를 순수한 문자 그대로 보도록 만들어서 정규 표현식이 꼬이는 것을 막아준답니다. 앞으로는 패턴을 쓸 때 `r''`을 붙이는 습관을 들이는 것이 좋아요! 

In [None]:
user_input = "나는 20살이야."

# 숫자 덩어리를 찾아봅니다.
match = re.search(r'\d+', user_input)

if match:
    # 찾은 결과를 .group()으로 꺼낼 수 있어요!
    age = match.group()
    print(f"챗봇: 와, {age}살이시군요! 만나서 반가워요.")
else:
    print("챗봇: 나이를 알려주시면 더 친해질 수 있어요!")

## 5단계: 이름이 뭐예요? 정보 추출하기 - `()` 그루핑

정규 표현식의 진짜 재미는 '찾기'를 넘어 '원하는 부분만 쏙 빼내기'에 있어요. 바로 **그룹(Group)** 기능을 사용하는 거죠. 패턴의 일부를 `()` 괄호로 감싸주면, 그 부분만 따로 기억해둘 수 있습니다. 

예를 들어, `r'내 이름은 (\w+)이야'` 라는 패턴이 있다면,
* `\w`: '문자 또는 숫자(word character)' 하나를 의미해요. `[a-zA-Z0-9_]`와 같습니다. 
* `\w+`: 문자 또는 숫자가 1개 이상 반복되는 '단어'를 찾겠죠?
* `(\w+)`: 이렇게 괄호로 감싸면, '내 이름은'과 '이야' 사이에 있는 단어를 **첫 번째 그룹**으로 지정하는 거예요.

In [None]:
user_input = "안녕, 내 이름은 제니야."

match = re.search(r'내 이름은 (\w+)이야', user_input)

if match:
    # group(0)은 매치된 전체 문자열 ('내 이름은 제니야')
    # group(1)은 첫 번째 괄호 안의 내용만 쏙 뽑아줘요!
    name = match.group(1)
    print(f"챗봇: {name}님, 만나서 정말 기뻐요!")
else:
    print("챗봇: 성함을 알려주시겠어요?")

## 6단계: 챗봇의 센스! 문장 바꿔주기 - `re.sub()`

`re.sub()` 함수를 사용하면 정규 표현식 패턴에 해당하는 부분을 다른 문자열로 바꿀 수 있어요. `re.sub('바꿀패턴', '새문자열', '전체문자열')` 형태로 사용합니다. 

챗봇이 부정적인 단어를 긍정적인 단어로 바꿔주는 기능을 만들어볼까요?

In [None]:
user_input = "오늘 날씨가 너무 싫어."

# '싫어'라는 단어를 찾아서 '좋아'로 바꿔줍니다.
positive_text = re.sub('싫어', '좋아', user_input)

print(f"원래 문장: {user_input}")
print(f"챗봇의 긍정회로: {positive_text}")

## 7단계: 심화 - 그룹 이름 붙이기 & 재참조하기

그룹이 많아지면 `group(1)`, `group(2)`... 처럼 숫자로 접근하는 게 헷갈릴 수 있어요. 이럴 땐 그룹에 이름을 붙여줄 수 있습니다. `(?P<이름>패턴)` 형식으로 쓰면 돼요.

또한, `re.sub`에서 바꿀 문자열 부분에 `\g<이름>`이나 `\1` (첫번째 그룹) 처럼 써서, 원래 찾아낸 그룹의 내용을 다시 사용할 수 있습니다. 이걸 **재참조(backreference)**라고 해요. 

In [None]:
# 이름과 전화번호 패턴을 만들고, 각각 'name'과 'phone' 그룹으로 지정
pattern = r'(?P<name>\w+)\s+(?P<phone>\d+-\d+-\d+)'
user_info = "홍길동 010-1234-5678"

# sub을 이용해 이름과 전화번호의 순서를 바꿔봅시다.
# \g<phone> 그룹이 먼저 오고, \g<name> 그룹이 뒤에 오도록 합니다.
reordered_info = re.sub(pattern, r'연락처: \g<phone> (이름: \g<name>)', user_info)

print(f"원래 정보: {user_info}")
print(f"챗봇의 정보 정리: {reordered_info}")


정규 표현식의 기본을 모두 배우셨어요! 이제 여러분은 텍스트에서 원하는 정보를 찾아내고, 바꾸고, 추출하는 강력한 능력을 갖게 되었습니다. 

아래의 연습 문제들을 풀면서 배운 내용을 복습하고 실력을 더 키워보세요. 챗봇을 더욱 똑똑하게 만들 수 있는 아이디어를 떠올리며 도전해보세요! 화이팅! 💪

# ✍️ 혼자 해보는 챗봇 능력 강화 훈련!

아래 10개의 연습 문제를 통해 배운 내용을 복습해 보세요. `___` 부분에 알맞은 정규 표현식을 채워 넣어 코드를 완성하면 됩니다.

### 연습문제 1: 이메일 주소 찾아내기
사용자 입력에서 이메일 주소 형식(`ID@도메인.com`)을 찾아 이메일 주소만 출력하는 챗봇 기능을 만들어보세요.

In [None]:
user_input = "내 이메일은 chatbot@example.com 이야. 이쪽으로 연락 줘."

# 이메일 패턴: (알파벳,숫자 여러개) + @ + (알파벳,숫자 여러개) + . + (알파벳 여러개)
email_pattern = r'___'

match = re.search(email_pattern, user_input)
if match:
    print(f"챗봇: 이메일 주소({match.group()})를 잘 저장해둘게요!")
else:
    print("챗봇: 이메일 주소를 찾지 못했어요.")

### 연습문제 2: 사용자가 질문을 하는지 확인하기

문장의 끝이 물음표(`?`)로 끝나는지 확인해서, 사용자가 질문을 하고 있는지 파악하는 기능을 만들어보세요.

**힌트!** `$`는 '문자열의 끝'을 의미하는 특수문자입니다. `패턴$` 라고 쓰면 그 패턴으로 끝나는지를 검사할 수 있어요. 

In [None]:
user_input_1 = "오늘 날씨 어때?"
user_input_2 = "오늘 날씨 좋네."

# 물음표로 끝나는지 확인하는 패턴
# 특수문자 자체를 찾으려면 앞에 \를 붙여줘야 해요. 예: \?
question_pattern = r'___'

if re.search(question_pattern, user_input_1):
    print(f'"{user_input_1}" -> 챗봇: 질문이시군요! 하지만 전 날씨는 몰라요.')
else:
    print(f'"{user_input_1}" -> 챗봇: 질문이 아니네요.')

if re.search(question_pattern, user_input_2):
    print(f'"{user_input_2}" -> 챗봇: 질문이시군요!')
else:
    print(f'"{user_input_2}" -> 챗봇: 질문이 아니네요. 그냥 그렇다고요.')

### 연습문제 3: 날짜 형식(YYYY-MM-DD)에서 년, 월, 일 추출하기

`2025-10-05` 같은 날짜 형식의 문자열에서 그룹 기능을 이용해 년, 월, 일을 각각 추출해보세요.

In [None]:
date_string = "중요한 날짜는 2025-10-05 입니다."

# 패턴: (숫자4개)-(숫자2개)-(숫자2개)
# 반복 횟수를 정확히 지정할 땐 {횟수}를 사용해요. 예: \d{4}
date_pattern = r'___'

match = re.search(date_pattern, date_string)
if match:
    year = match.group(1)
    month = match.group(2)
    day = match.group(3)
    print(f"챗봇: {year}년 {month}월 {day}일은 중요한 날이군요!")

### 연습문제 4: 전화번호 뒷자리 마스킹하기

`re.sub()`과 그룹을 이용해서 `010-1234-5678` 같은 전화번호의 뒷자리 4개를 `****`로 바꿔보세요.

In [None]:
phone_number = "담당자 연락처는 010-1234-5678 입니다."

# 패턴: (숫자3개-숫자4개-)(숫자4개)
phone_pattern = r'___'

# 바꿀 내용: 첫 번째 그룹은 그대로 쓰고(\g<1>), 뒷부분은 '****'로 바꾼다.
masked_phone = re.sub(phone_pattern, r'\g<1}****', phone_number)
print(f"챗봇의 개인정보 보호: {masked_phone}")

### 연습문제 5: 주문 메뉴 알아내기

`'피자 주문해줘'` 나 `'치킨 먹고싶다'` 같은 문장에서 사용자가 원하는 음식 메뉴만 추출해보세요.

In [None]:
order_text = "배고픈데 치킨 주문해줘"

# 패턴: (한글 여러개) + ' ' + '주문' 또는 '먹고싶다' 등의 단어
# 한글 범위: [가-힣]
order_pattern = r'___'

match = re.search(order_pattern, order_text)
if match:
    menu = match.group(1)
    print(f"챗봇: 알겠습니다! 맛있는 {menu}를 주문할게요!")
else:
    print("챗봇: 어떤 음식을 원하시나요?")

### 연습문제 6: 영어만 있는지 확인하기

사용자 입력이 영어, 숫자, 공백으로만 이루어져 있는지 확인하는 기능을 만들어보세요.

**힌트!** `^`는 '문자열의 시작', `$`는 '문자열의 끝'을 의미해요. `^[패턴]+$` 라고 쓰면, 문자열 전체가 해당 패턴으로만 이루어져 있는지 검사할 수 있습니다.

In [None]:
user_input_1 = "Hello world 123"
user_input_2 = "Hello 월드 123"

# 패턴: 문자열 시작부터 끝까지 [영어, 숫자, 공백]만 반복되는지 확인
english_only_pattern = r'___'

if re.match(english_only_pattern, user_input_1):
    print(f'"{user_input_1}" -> 챗봇: 영어로 말씀하고 계시는군요!')
else:
    print(f'"{user_input_1}" -> 챗봇: 다른 언어가 섞여있어요.')

if re.match(english_only_pattern, user_input_2):
    print(f'"{user_input_2}" -> 챗봇: 영어로 말씀하고 계시는군요!')
else:
    print(f'"{user_input_2}" -> 챗봇: 다른 언어가 섞여있어요.')

### 연습문제 7: 모든 숫자 제거하기

`re.sub()`을 이용해서 문자열에 있는 모든 숫자를 빈 문자열('')로 바꿔서 제거해보세요.

In [None]:
text_with_numbers = "제 비밀번호는 python1234입니다."

# 숫자 덩어리를 찾는 패턴
number_pattern = r'___'

text_without_numbers = re.sub(number_pattern, '', text_with_numbers)
print(f"챗봇의 숫자 지우기: {text_without_numbers}")

### 연습문제 8: 존댓말(`~요`)로 끝나는 문장 찾기

사용자의 문장이 `'~요'`로 끝나는지 확인해서, 챗봇이 공손하게 대답하도록 만들어보세요.

In [None]:
user_input = "밥 먹었어요?"

# '요'로 끝나는지 확인하는 패턴
polite_pattern = r'___'

if re.search(polite_pattern, user_input):
    print("챗봇: 네, 식사했습니다. 물어봐주셔서 감사해요.")
else:
    print("챗봇: 응, 밥 먹었어.")

### 연습문제 9: 반복되는 단어 찾기

사용자가 `'너무 너무'`나 `'진짜 진짜'`처럼 같은 단어를 두 번 연속해서 말했는지 찾아보세요. 그룹과 재참조(`\1`)를 사용하면 해결할 수 있습니다.

In [None]:
user_input = "오늘 날씨 진짜 진짜 덥다."

# 패턴: (한글 단어 하나) + 공백 + 바로 그 단어와 똑같은 단어
# \b는 단어의 경계를 의미해요. 단어 앞뒤에 붙여주면 정확히 그 단어만 찾을 수 있어요. 예: r'\b(단어)\b'
repeat_word_pattern = r'___'

match = re.search(repeat_word_pattern, user_input)
if match:
    print(f"챗봇: '{match.group(1)}'라고 강조해서 말씀하셨네요!")
else:
    print("챗봇: 강조하고 싶은 말이 있으신가요?")

### 연습문제 10: 파일명에서 확장자만 추출하기

`'my_photo.jpg'`, `'document.pdf'` 같은 파일명에서 `.jpg`, `.pdf` 등 확장자 부분만 추출해보세요.

**힌트!** `.`은 모든 문자를 의미하는 특수문자입니다. 진짜 마침표 `.`을 찾으려면 `\.`처럼 써야 합니다.

In [None]:
file_name = "background_image.png"

# 패턴: 마침표(.) 뒤에 (알파벳이나 숫자가 여러 개) 있고, 문자열의 끝($)이어야 함
extension_pattern = r'___'

match = re.search(extension_pattern, file_name)
if match:
    print(f"챗봇: 이 파일의 확장자는 '{match.group(1)}'이군요!")
else:
    print("챗봇: 파일의 확장자를 잘 모르겠어요.")