## 정규식 regular expression
- 정규식(Regular Expression)은 문자열을 처리하고 검색하는 데 사용되는 강력한 도구
- 파이썬에서는 re 모듈을 통해 정규식을 지원 
- 정규식은 패턴을 정의하고 해당 패턴과 일치하는 문자열을 찾거나 변환하는 데 사용됨

## 할일
- 이메일 주소 찾기 
- 인용구 찾기 
- 대체하기 


## 정규식 기본 원리 
- pattern: 찾을 모양 
- string: 찾을 문자열
- search, match, findall
- ex) re.search('apple','I like apples.')
- 나누기: split
- 대체하기: sub

- .	임의의 문자와 일치합니다. 개행 문자를 제외한 모든 문자와 매치됩니다.
- ^	문자열의 시작과 일치합니다.
- $	문자열의 끝과 일치합니다.
- \d	숫자와 일치합니다. [0-9]와 동일한 의미입니다.
- \w	숫자 또는 밑줄 문자와 일치합니다. [a-zA-Z0-9_]와 동일한 의미입니다.
- \s	공백 문자와 일치합니다.
-  \*	바로 앞의 문자가 0회 이상 반복되는 부분과 매치합니다. 예를 들어, ca*t는 ct, cat, caaat 등과 매치됩니다.
- \+	바로 앞의 문자가 1회 이상 반복되는 부분과 매치합니다. 예를 들어, ca+t는 cat, caaat 등과 매치되지만 ct는 매치되지 않습니다.
- \?	바로 앞의 문자가 0회 또는 1회 등장하는 부분과 매치합니다. 예를 들어, ca?t는 ct, cat과 매치되지만 caaat은 매치되지 않습니다.

In [21]:
import re
#m = re.search('apple','I like apples. ') 여기에서 apple이라는 단어 찾기 
#print(m.group())

## 기본 패턴 찾기 연습
- findall로 시작(find_all과 혼돈 유의)
- 정규식 re.명령어(패턴, 바꿀 문자열)

In [1]:
# 예제 문자열
text = "Hello, my name is John. My email is john@example.com."

# 정규식 패턴과 일치하는 문자열 찾기
pattern1 = r"John"
result1 = re.findall(pattern1, text)
print("정규식 패턴 'John'과 일치하는 문자열:", result1)

정규식 패턴 'John'과 일치하는 문자열: ['John']


In [2]:
# 이메일 주소 찾기
pattern2 = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
result2 = re.findall(pattern2, text)
print("이메일 주소:", result2)


이메일 주소: ['john@example.com']


In [3]:
# 문자열 대체하기
pattern3 = r"John"
replace_text = "Mike"
result3 = re.sub(pattern3, replace_text, text)
print("문자열 대체 결과:", result3)

문자열 대체 결과: Hello, my name is Mike. My email is john@example.com.


## 정규식 기본 실습
- 전화번호 찾기 
- 이메일 찾기 
- 주민등록번호 찾기 

In [17]:
variables = "02-1123-2235, 012-1222-5566, upan@upan.com, idontknow@upan.com, 121212-2233445, 231211-4212345"

In [None]:
# 전화번호 찾기 
print(re.findall('\d+-\d+-\d+', variables))

In [15]:
# 주민등록번호 찾기 
print(re.findall('\d{6}-\d{7}', variables))

['121212-2233445', '231211-4212345']


In [16]:

# 이메일 주소 찾기 
print(re.search(r'[a-z]@[a-z\.]', variables))
print(re.findall(r'[a-z]+@[a-z\.]+', variables))

<re.Match object; span=(32, 35), match='n@u'>
['upan@upan.com', 'idontknow@upan.com']


In [23]:
#split을 통한 문장 나누기 
sentences = '''나는 이런 논문을 봤습니다(Great, 2020). 이런 문장을 많이 봅니다(James, 2012). 이런 인용구가 흔합니다(이동민, 2020).'''
# 문장 나누기 
split_sentences = re.split('\.', sentences)
print(split_sentences)

['나는 이런 논문을 봤습니다(Great, 2020)', ' 이런 문장을 많이 봅니다(James, 2012)', ' 이런 인용구가 흔합니다(이동민, 2020)', '']


In [29]:
#인용구만 찾기 
print(re.findall('\(\D+\d{4}\)',sentences))

['(Great, 2020)', '(James, 2012)', '(이동민, 2020)']


## 어린왕자에서 어른이 들어간 문장만 찾아보기 


In [45]:
f = open(r'C:\Users\skytr\OneDrive\문서\PythonBasic\words\little_prince.txt', 'r', encoding='utf8')
total = f.read()
for i in re.split('\.',total): # 문장 나누기 
    if re.search('지리학자',i): # 어른이 들어간 문장 찾기 
        print(i) # 출력하기 



"난 지리학자란다


"지리학자가 뭐예요?"

"바다와 강과 도시와 산, 그리고 사막이 어디에 있는지를 아는 사람이지
 그거야말로 직업다운 직업이군요!" 어린 왕자는 말하고, 지리학자의 별을 한번 휘둘러보았다
" 지리학자가 대답했다
" 지리학자가 말했다
" 지리학자가 말했다


"할아버진 지리학자 아녜요!"

"그렇지
 도시와 강과 산, 바다와 태양과 사막을 세러 다니는 건 지리학자가 하는 일이 아냐
 지리학자는 아주 중요한 사람이니까 한가로이 돌아다닐 수가 없지
 탐험가의 기억 중에 흥미로운 게 있으면 지리학자는 그 사람의 정신 상태를 조사시키지
 그렇게 되면 지리학자는 산 하나밖에 없는 데다 산 둘을 기입하게 될지도 모르잖아
"

지리학자는 갑자기 흥분했다


"그런데 너는 멀리서 왔지! 너는 탐험가야! 너의 별이 어떤 별인지 이야기해 줘!"

그러더니 지리학자는 노트를 펴고 연필을 깎았다


"자, 시작해 볼까?" 지리학자가 물었다
" 지리학자가 말했다
" 지리학자가 말했다
