In [None]:
#정규식/정규표현식 : 문자열에서 원하는 모양이나 패턴(현태)를 찾아내는것

text = "안녕하세요 저는 15살입니다."

"15살" in TextDisplayObject
print("15" in text) 

In [3]:
#정규식/정규표현식 : 문자열에서 원하는 모양이나 패턴(현태)를 찾아내는것

import re

# \d는 숫자
# +는 1개를 뜻함
patten = r"\d+"
result = re.findall(patten, text)
print(result)

NameError: name 'text' is not defined

In [None]:
sample = "abc123def456"

re.findall(r"\d+", sample)

re.findall(r"[a-z]+", sample)

In [None]:
test = "가격은 100원입니다."

In [4]:
"""
[정규식(Regular Expression) 기초 정리]

이 파일에서는 다음 내용을 이해하는 것을 목표로 합니다.

1. 정규식이 무엇인지 이해하기
2. re 모듈 사용 방법 익히기
3. 자주 사용하는 패턴 학습하기
4. 문자열 처리와의 차이 이해하기
"""

# 정규식을 사용하려면 re 모듈을 import 해야 합니다.
import re


print("===== 1단계: 정규식이란? =====")

"""
정규식은 문자열에서 특정 '패턴'을 찾기 위한 문법입니다.

예를 들어:
- 숫자만 찾고 싶을 때
- 이메일 형식을 찾고 싶을 때
- 특정 단어가 포함된 문장을 찾고 싶을 때

이럴 때 정규식을 사용합니다.
"""

text = "내 혈압은 120mmHg 입니다."

# 단순 문자열 검색
print("120" in text)

"""
위 방식은 단순 검색입니다.
하지만 '숫자 전체'를 찾고 싶다면?
이때 정규식을 사용합니다.
"""


print("\n===== 2단계: 숫자 찾기 =====")

# \d 는 숫자를 의미합니다.
# + 는 1개 이상을 의미합니다.
pattern = r"\d+"

result = re.findall(pattern, text)
print(result)

"""
설명:
- r"\d+" 는 숫자가 1개 이상인 패턴을 의미합니다.
- findall()은 해당 패턴과 일치하는 모든 문자열을 리스트로 반환합니다.
"""


print("\n===== 3단계: 기본 패턴 이해하기 =====")

sample = "abc123xyz456"

# 숫자 찾기
print(re.findall(r"\d+", sample))

# 문자 찾기
print(re.findall(r"[a-z]+", sample))

"""
설명:

\d      → 숫자 하나
\d+     → 숫자 1개 이상

[a-z]   → 소문자 알파벳 하나
[a-z]+  → 소문자 알파벳 1개 이상

+       → 1개 이상
*       → 0개 이상
?       → 0개 또는 1개
"""


print("\n===== 4단계: 특정 형식 찾기 =====")

data = "이메일은 test123@gmail.com 입니다."

# 이메일 형식 간단히 찾기
email_pattern = r"\w+@\w+\.\w+"

emails = re.findall(email_pattern, data)
print(emails)

"""
설명:
\w   → 문자 또는 숫자
@    → @ 문자
\.   → .은 정규식에서 특수문자이므로 \를 붙여야 함

이 패턴은 아주 단순한 이메일 예시입니다.
(실제 이메일 검증은 더 복잡합니다.)
"""


print("\n===== 5단계: 문자열 치환(replace 대신 re.sub) =====")

text2 = "가격은 12000원 입니다."

# 숫자 제거
new_text = re.sub(r"\d+", "", text2)
print(new_text)

"""
설명:
re.sub(패턴, 바꿀값, 원본문자열)

- \d+에 해당하는 숫자를 모두 ""로 바꿉니다.
- 즉, 숫자를 제거합니다.
"""


print("\n===== 6단계: 정규식 vs 일반 문자열 처리 비교 =====")

text3 = "몸무게: 70kg, 키: 170cm"

# 단순 split 사용
print(text3.split(","))

# 정규식으로 숫자만 추출
numbers = re.findall(r"\d+", text3)
print(numbers)

"""
정리:

- split은 구분자가 명확할 때 유리합니다.
- 정규식은 '형식이 일정한 패턴'을 찾을 때 유리합니다.
"""


print("\n===== 7단계: 정규식은 어디에 쓰일까? =====")

"""
데이터 분석에서 정규식은 다음과 같은 경우에 사용됩니다.

1. 크롤링 데이터에서 숫자만 추출
   예: "120mmHg" → 120

2. 단위 제거
   예: "170cm" → 170

3. 특정 형식 데이터 찾기
   예: 날짜 형식, 이메일 형식

4. 불필요한 특수문자 제거
"""

print("===== 최종 정리 =====")

"""
1. 정규식은 문자열 패턴을 찾기 위한 도구입니다.
2. re 모듈을 사용해야 합니다.
3. \d, \w, [], + 같은 기호를 조합해 패턴을 만듭니다.
4. 데이터 정제 단계에서 매우 자주 사용됩니다.
"""

===== 1단계: 정규식이란? =====
True

===== 2단계: 숫자 찾기 =====
['120']

===== 3단계: 기본 패턴 이해하기 =====
['123', '456']
['abc', 'xyz']

===== 4단계: 특정 형식 찾기 =====
['test123@gmail.com']

===== 5단계: 문자열 치환(replace 대신 re.sub) =====
가격은 원 입니다.

===== 6단계: 정규식 vs 일반 문자열 처리 비교 =====
['몸무게: 70kg', ' 키: 170cm']
['70', '170']

===== 7단계: 정규식은 어디에 쓰일까? =====
===== 최종 정리 =====


  - r"\d+" 는 숫자가 1개 이상인 패턴을 의미합니다.
  \d      → 숫자 하나
  \w   → 문자 또는 숫자
  - \d+에 해당하는 숫자를 모두 ""로 바꿉니다.
  3. \d, \w, [], + 같은 기호를 조합해 패턴을 만듭니다.


'\n1. 정규식은 문자열 패턴을 찾기 위한 도구입니다.\n2. re 모듈을 사용해야 합니다.\n3. \\d, \\w, [], + 같은 기호를 조합해 패턴을 만듭니다.\n4. 데이터 정제 단계에서 매우 자주 사용됩니다.\n'