In [1]:
import re

# 정규표현식 기본 개념

한 영화관에서는 예매 시 사용자의 휴대폰 번호를 입력받아야 합니다. 예매 정보는 해당 번호와 함께 저장됩니다. 그러나 종종 잘못된 번호가 입력되어 예매 정보가 유실되는 문제가 발생했습니다.

이런 문제를 해결하기 위해, 영화관은 **정규표현식**을 사용해 휴대폰 번호를 검증하기로 결정했습니다. 이제 사용자가 휴대폰 번호를 입력할 때, 정확한 형식으로 입력되었는지 확인하고, 유효한 번호만 저장할 수 있습니다.

## 정규표현식이란?

정규표현식(Regular Expression)은 문자열에서 특정한 패턴을 찾거나, 대체하거나, 추출하는데 사용되는 문자열입니다. 즉, 문자열에서 원하는 문자를 찾거나 바꾸기 위한 일종의 패턴이라고 생각할 수 있습니다.


예를 들어, 정규표현식에서 '.'은 어떤 문자 하나를 의미하고, '*'는 바로 앞의 문자가 0번 이상 반복됨을 의미합니다. 또한, '|'는 OR 조건을 의미하고, '^'는 문자열의 시작을 의미합니다.

파이썬에서는 정규표현식을 처리하기 위해 're' 모듈을 제공합니다. 're' 모듈을 사용하면 문자열에서 패턴을 찾거나, 추출하거나, 대체할 수 있습니다.

In [2]:
text = "Hello, my number is 12345."

numbers = re.findall("\d+", text)
numbers

['12345']

## 정규표현식의 장단점

[장점]
1.	유연성: 정규표현식을 사용하면 다양한 패턴을 표현할 수 있습니다. 예를 들어, 특정 문자열이 특정 패턴을 따르는지 여부를 확인하거나, 특정 패턴을 가진 문자열을 찾아내는 등 다양한 용도로 사용할 수 있습니다.
2.	간결성: 문자열에서 원하는 정보를 추출하는 데에는 정규표현식이 다른 방법에 비해 더 간단하고 직관적입니다.
3.	속도: 정규표현식은 문자열을 일일이 검색하는 것보다 더 빠른 속도로 패턴을 찾아낼 수 있습니다.

[단점]
1.	복잡성: 정규표현식은 다양한 패턴을 표현할 수 있지만, 그만큼 문법이 복잡합니다. 특히 초보자에게는 익숙해지기까지 시간이 걸릴 수 있습니다.
2.	이식성: 언어나 툴마다 문법이 조금씩 다르기 때문에, 한 번 익힌 정규표현식이 다른 환경에서는 작동하지 않을 수도 있습니다.
3.	가독성: 정규표현식을 사용하면 코드의 가독성이 떨어질 수 있습니다. 특히, 매우 복잡한 정규표현식을 작성하면 코드가 길어지고 가독성이 나빠질 수 있습니다.
위와 같이, 정규표현식은 다양한 장단점을 가지고 있습니다. 그러나 정규표현식은 파이썬을 비롯한 다양한 프로그래밍 언어에서 사용되는 유용한 도구입니다. 아래는 파이썬 코드로 정규표현식을 사용한 문자열 패턴 매칭 예시입니다.

In [3]:
# 정규표현식을 이용하여 전화번호를 추출하는 예시

# 패턴 설정
pattern = r"\d{3}-\d{4}-\d{4}"

# 패턴 매칭
phone_numbers = ["010-1234-5678", "02-555-1234", "031-222-3333"]

matched_numbers = []
for number in phone_numbers:
    if re.match(pattern, number):
        matched_numbers.append(number)
        
matched_numbers

['010-1234-5678']

## 정규표현식의 구성 요소

정규표현식은 다음과 같은 구성 요소를 가집니다.

- 문자: 특정 문자를 표현합니다. 예를 들어, 'a'는 문자 'a'를 의미합니다.
- 메타 문자: 특별한 의미를 가지는 문자입니다. 예를 들어, '.'은 어떤 문자에도 매치되는 문자입니다.
- 문자 클래스: 여러 개의 문자 중 하나를 선택합니다. 대괄호([])로 표현합니다. 예를 들어, '[abc]'는 'a', 'b', 'c' 중 하나에 매치됩니다.
- 반복: 문자 또는 메타 문자가 반복되는 횟수를 지정합니다. '','*','+', '?', '{m}', '{m,n}' 등으로 표현합니다. 예를 들어, 'a'는 'a'가 0번 이상 반복되는 문자열에 매치됩니다.
- 그룹: 하나의 문자 또는 메타 문자의 집합을 그룹화합니다. 괄호()로 표현합니다. 예를 들어, '(abc)+'는 'abc'가 1번 이상 반복되는 문자열에 매치됩니다.

In [4]:
str1 = "C:\\Users\\Desktop\\file.txt"
str2 = r"C:\Users\Desktop\file.txt"

print(str1)
print(str2)

C:\Users\Desktop\file.txt
C:\Users\Desktop\file.txt


In [5]:
pattern1 = r"a"
text1 = "apple"
print(re.findall(pattern1, text1))

pattern2 = "."
text2 = "apple"
print(re.findall(pattern2, text2))

pattern3 = "[aeiou]"
text3 = "apple"
print(re.findall(pattern3, text3))

pattern4 = "ba*na"
text4 = "banana"
print(re.findall(pattern4, text4))

pattern5 = "(ba)*na"
text5 = "banana"
print(re.findall(pattern5, text5))

['a']
['a', 'p', 'p', 'l', 'e']
['a', 'e']
['bana']
['ba', '']


# 정규표현식의 문법


정규표현식의 문법에는 다양한 메타문자(meta-character)가 사용됩니다. 메타문자란 일반적으로 사용되는 문자가 아니라, 특별한 의미를 가지는 문자를 말합니다. 메타문자는 다양한 용도로 사용되며, 각각의 기능은 다음과 같습니다.

## 메타문자의 종류와 사용 방법



[메타문자/클래스]
 - \d 숫자와 매치, [0-9]와 동일한 표현식
 - \D 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식
 - \s whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식
 - \S whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식
 - \w 문자 + 숫자와 매치, [a-zA-Z0-9]와 동일한 표현식
 - \W 문자 + 숫자가 아닌 문자와 매치, [^a-zA-Z0-9]와 동일한 표현식

[whitespace]
 -  스페이스 바 (아스키코드 32)
 -  ＼b  뒤로 한 칸 이동 (Backspace) (아스키코드 8)
 -  ＼t  수평탭 간격 띄우기 (아스키코드 9)
 -  ＼n  줄바꿈 (Linefeed) (아스키코드 10)
 -  ＼v  수직탭 간격 띄우기 (아스키코드 11)
 -  ＼f  프린트 출력 용지를 한 페이지 넘김 (Form feed) (아스키코드 12)
 -  ＼r  동일한 줄의 맨 앞으로 커서 이동 (Carriage Return) (아스키코드 13)
 - Dot(.) 메타 문자는 줄바꿈 문자인 \n를 제외한 모든 문자와 매치됨을 의미

[문자열의 반복과 선택을 나타내는 메타문자]
- ^ : 문자열의 시작을 나타냄. 예를 들어, '^a'는 문자열의 시작이 'a'인 경우와 매치됨.
- \\$ : 문자열의 끝을 나타냄. 예를 들어, 'a\$'는 문자열의 끝이 'a'인 경우와 매치됨.



[문자열의 반복과 선택을 나타내는 메타문자]
- 반복(\*) ca*t 0부터 무한대로 반복
- 반복(\+) ca+t 최소 1번 이상 반복
- ca{m,n} a 반복 횟수가 m부터 n까지인 것을 매치
- ca{2}t는 c+a(2번 반복)+t의 의미
- 반복횟수가 {1,}은 1 이상, {0,}은 0 이상인 경우로 각각 +, *와 동일하며 {,1}은 반복횟수가 1 이하를 의미.
- ab?c b가 0~1번 사용되면 매치되는 것으로 ?은 앞의 b가 있어도 되고 없어도 된다

## re 모듈

정규표현식을 파이썬에서 사용하기 위해서는 re 모듈을 import하여 사용합니다. 이를 이용하여 정규식을 컴파일하고 정규식을 이용한 문자열 검색 등 다양한 작업을 수행할 수 있습니다.

re 모듈을 이용하여 문자열 검색을 수행하는 함수는 다음과 같습니다.

- compile(): 정규식을 컴파일합니다.
- match(): 문자열의 처음부터 정규식과 매치되는지 조사합니다.
- search(): 문자열의 전체를 검색하여 정규식과 매치되는지 조사합니다.
- findall(): 정규식과 매치되는 모든 문자열을 리스트로 리턴합니다.
- finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴합니다.

In [6]:
pattern = re.compile("ab+c")
match = pattern.search("abcc")
if match:
    print("match found")
else:
    print("mismatch")

match found


In [7]:
re.search(pattern, "eeeabbbc")

<re.Match object; span=(3, 8), match='abbbc'>

In [8]:
re.match(pattern, "eeeabbbc")

In [9]:
re.findall(pattern, "abbbceeabce")

['abbbc', 'abc']

In [10]:
m = re.finditer(pattern, "abbbceeabce")
for i in m:
    print(i)

<re.Match object; span=(0, 5), match='abbbc'>
<re.Match object; span=(7, 10), match='abc'>


### 과제1_0424
정규표현식을 사용하여 이메일을 추출하시오.

text = "이메일 주소는 abc-123@gmail.com입니다."

In [11]:
text = "이메일 주소는 abc-123@gmail.com입니다."

pattern = "[\w-]+@\w+.com"

re.search(pattern, text).group()

'abc-123@gmail.com'

### 과제2_0424
정규표현식을 사용하여 text에서 전화번호를 추출하시오.

text = "저의 전화번호는 010-1234-5678입니다."


In [12]:
text = "저의 전화번호는 010-1234-5678입니다."

pattern = "\d{2,3}-\d{3,4}-\d{3,4}"

re.search(pattern, text)

<re.Match object; span=(9, 22), match='010-1234-5678'>

### 과제3_0424
정규표현식을 사용하여 text에서 url을 추출하시오.

text = "저의 블로그 주소는 http://www.example.com 입니다."

In [13]:
text = "저의 블로그 주소는 http://www.example.com 입니다."

pattern = "http[s]?://[\w.]+\/?"

re.search(pattern, text)

<re.Match object; span=(11, 33), match='http://www.example.com'>

### 과제4_0424
정규표현식을 이용하여 html 태그를 제거하시오.

html_string = "<p>안녕하세요. <b>파이썬<lb>입니다.</p>"

In [14]:
html_string = "<p>안녕하세요. <b>파이썬<lb>입니다.</p>"

pattern = "[<p>bl/]"

re.sub(pattern, "", html_string)

'안녕하세요. 파이썬입니다.'

### 과제5_0424
text = " Python3 is very good programming language!" 에서  다음을 수행하시오.

- ["Python", "is", "very", "good", "programming", "language"]를 출력
- Python3 출력
- Python 출력
- 숫자만 출력
- Python3를 python으로 대체

In [15]:
text = " Python3 is very good programming language!" 

pattern = "[a-zA-Z]+"

re.findall(pattern, text)

['Python', 'is', 'very', 'good', 'programming', 'language']

In [16]:
pattern = "[\w]+"

re.search(pattern, text)

<re.Match object; span=(1, 8), match='Python3'>

In [17]:
pattern = "[a-zA-z]+"

re.search(pattern, text)

<re.Match object; span=(1, 7), match='Python'>

In [18]:
pattern = "\d"

re.findall(pattern, text)

['3']

In [19]:
pattern = "[\w]+\d"

re.sub(pattern, "python", text)

' python is very good programming language!'

## 연습

- text1 = "python python"
- text2 = "python Python"
- text3 = "3python"

In [20]:
text1 = "python python"
text2 = "python Python"
text3 = "3python"

pattern1 = "[a-z]+"
re.search(pattern1, text1)

<re.Match object; span=(0, 6), match='python'>

In [21]:
re.search(pattern1, text2)

<re.Match object; span=(0, 6), match='python'>

In [22]:
re.search(pattern1, text3)

<re.Match object; span=(1, 7), match='python'>

In [23]:
# 문자 클래스 : []
p = re.compile("[a-z]+")
p1 = p.search("Banker")
p2 = p.search("banker")

print(p1)
print(p2)

<re.Match object; span=(1, 6), match='anker'>
<re.Match object; span=(0, 6), match='banker'>


In [24]:
# Q. "a"만 출력하시오.
text = "12345abc"

pattern = "[a-z]"
re.search(pattern, text)

<re.Match object; span=(5, 6), match='a'>

In [25]:
# Q. "A"만 출력하시오.
text = "abc12345Abc"

pattern = "[A-Z]"
re.search(pattern, text)

<re.Match object; span=(8, 9), match='A'>

In [26]:
# Q. "대"만 출력하시오.
text = "KOREA 아대한민국"

pattern = "대"
re.search(pattern, text)

<re.Match object; span=(7, 8), match='대'>

In [27]:
pattern = "[가-힣]"
re.findall(pattern, text)[1]

'대'

In [28]:
# Q. 모두 출력하시오.
text = "122333c"

pattern = "[\da-z]+"
re.search(pattern, text)

<re.Match object; span=(0, 7), match='122333c'>

In [29]:
# Q. 모두 출력하시오.
text = "aaaaBBBcccDDDeee"

pattern = "[a-zA-Z]+"
re.search(pattern, text)

<re.Match object; span=(0, 16), match='aaaaBBBcccDDDeee'>

### 과제1_0425
BC, CC, ABC 모두 C가 출력되는 정규 표현식을 작성하시오.

In [30]:
text1 = "BC"
text2 = "CC"
text3 = "ABC"

pattern = "[A-Z]$"
re.search(pattern, text3)

<re.Match object; span=(2, 3), match='C'>

### 과제2_0425
"1234a1234에서 1,2,3,4를 모두 출력하시오

In [31]:
text = "1234a1234"

pattern = "\d"
re.findall(pattern, text)

['1', '2', '3', '4', '1', '2', '3', '4']

### 과제3_0425
"99food234, a93456\n, a9356ba"에서 "99food234만 출력하시오.

In [32]:
text = "99food234, a93456\n, a9356ba"

pattern = "\w+"
re.search(pattern, text)

<re.Match object; span=(0, 9), match='99food234'>

In [33]:
text = "life is too short"

p = re.compile("[a-z]+")
result = p.search(text)
result

<re.Match object; span=(0, 4), match='life'>

In [34]:
result = p.finditer(text)
for i in result:
    print(i)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


In [35]:
text = "Python3 is very good programming language!"
re.findall("[a-zA-Z]+", text)

['Python', 'is', 'very', 'good', 'programming', 'language']

In [36]:
result = re.finditer("[a-zA-Z]+", text)
for i in result:
    print(i.group())

Python
is
very
good
programming
language


In [37]:
# match
text1 = "life"
text2 = "!!!oh my life"
text3 = "7 is lucky number"
print(re.match("[a-z]+", text1))
print(re.match("[a-z]+", text2))
print(re.match("[a-z]+", text3))

<re.Match object; span=(0, 4), match='life'>
None
None


In [38]:
# match 객체의 메서드
m = re.match("[a-z]+","python")
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(0, 6), match='python'>
python
0
6
(0, 6)


In [39]:
# search 객체의 메서드
m = re.search("[a-z]+","python")
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(0, 6), match='python'>
python
0
6
(0, 6)


In [40]:
# Dot(.) 메타 문자는 줄바꿈 문자(\n)룰 제외한 모든 문자와 매치
text = ["a\nb", "a\nb", "acb", "a12?Ab"]
for i, t in enumerate(text):
    r = re.match("a.+b",t)
    print(f"m{i}",r)

m0 None
m1 None
m2 <re.Match object; span=(0, 3), match='acb'>
m3 <re.Match object; span=(0, 6), match='a12?Ab'>


In [41]:
# re.DOTALL 옵션은 여러 줄로 이루어진 문자열에서 \n과 상관없이 검색시 사용
p = re.compile("a.b",re.DOTALL)
m = p.match("a\nb")
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [42]:
text = "what are you doing?\nit is going to be late for school!"

p = re.compile(".*", re.DOTALL)
print(p.search(text).group())

what are you doing?
it is going to be late for school!


### 과제 4_0425
text에서 전체문장을 모두 출력하시오.

In [43]:
text = "what are you doing?\nit is going to be late for school!\nwe need to hurry up."

p = re.compile(".*", re.DOTALL)
print(p.search(text).group())

what are you doing?
it is going to be late for school!
we need to hurry up.


In [44]:
# re.IGNORECASE 또는 re.I 옵션은 대소문자 구분 없이 매치를 수행
re.match("[a-z]+", "pYthon", re.I).group()

'pYthon'

### 과제 5_0425
아래 text에 내용을 모두 출력하시오.
text = ["pAthon", "PATHON","pathon","Pathon"]

In [45]:
text = ["pAthon","PATHON","pathon","Pathon"]
text1 = " ".join(text)

pattern = "[a-z]+"

re.findall(pattern, text1, re.I)

['pAthon', 'PATHON', 'pathon', 'Pathon']

In [46]:
# Q. text에서 대소문자 구분 없이 전체문장 모두 출력하시오.
text = "Friend fRiend friEnd FRIEND"
pattern = "[a-z]+"

m = re.finditer(pattern, text, re.I)

for i in m:
    print(i.group())

Friend
fRiend
friEnd
FRIEND


In [47]:
data = """python one
life is too short
python two
you need python
python three"""

In [48]:
# python이라는 문자열로 시작하고 그 뒤에 whitespace, 그 뒤에 단어가 오는 경우
re.findall("^python\s\w+",data)

['python one']

In [49]:
# re.MULTILINE 또는 re.M옵션으로 ^메타 문자를 각 라인의 처음으로 인식시킴
re.findall("^python\s\w+", data, re.M)

['python one', 'python two', 'python three']

In [50]:
# re.VERBOSE 또는 re.X : 이해하기 어려운 정규식을 주석 또는 라인 단위로 구분
# charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')
charref = re.compile(r"""
&[#]               # Start of a numeric entity reference
(
    0[0-7]+        # Octal form
  | [0-9]+         # Decimal form 
  | x[0-9a-fA-F]+  # Hexadecimal form
)
;                  # Trailing semicolon 
""",re.VERBOSE)

In [51]:
# 파이선 문자열 리터럴 규칙에 의해 \\이 \으로 변경되어 \section이 전달됨
# 정규식 문자열 앞에 r문자를 삽입하면 Raw String 규칙에 의하여 백슬래시 2개 대신 1개를 사용해도 된다.
p = re.compile("\\section")

p.findall("\section")

[]

In [52]:
# |(or이랑 동일한 의미)
re.match("Crow|Servo","CrowHello").group()

'Crow'

In [53]:
#  ^(문자열의 맨 처음)
re.search("^Life", "Life is too short").group()

'Life'

In [54]:
# $(문자열의 끝)
re.search("Life$", "Life is too short madLife").group()

'Life'

In [55]:
# \A : 문자열의 처음, 하지만 re.M에는 대응하지 않는다.
# \Z : 문자열의 끝, 하지만 re.M에는 대응하지 않는다.
data = """Life is too short
Life is good
Life is valuable"""
re.findall("\ALife",data,re.M)

['Life']

In [56]:
# Q. home만 출력하시오.
text = "we are going home"
re.search("\w+me$", text).group()

'home'

In [57]:
# Q. home만 출력하시오.
text = "home sweet"
re.search("[a-z]+", text).group()

'home'

In [58]:
# Q. 199305만 출력하시오.
text = "1923A, 199305, a93247"
re.search("(\d+),", text).group()

'199305,'

In [59]:
# \b : whitespace에 의해 구분
text = "no class at all"
re.search(r"\bclass\b", text).group()

'class'

In [60]:
# \B : whitespace로 구분된 단어가 아닌 경우에만 매치
text = "the declassified algorithim"
re.search(r"\Bclass\B", text).group()

'class'

In [61]:
# Q. 정규표현식을 사용하여 text에서 에러가 들어간 부분만 포함하는 리스트를 출력하시오.
text = "에러 1122, 레퍼런스 오류, 에러 1033, 아규먼트 오류, 에러 xxx"
re.findall("에러[\da-z ]+",text)

['에러 1122', '에러 1033', '에러 xxx']

### 과제6_0425
정규표현식을 작성하여 아래와 같이 출력하시오.

In [62]:
li = "1 apple, 5 oranges, 3boys, 4 girls; 10 armyl 11mr"
regex = re.compile("\d+\s?\w+")
result = regex.findall(li)
print(result)

['1 apple', '5 oranges', '3boys', '4 girls', '10 armyl', '11mr']


### 과제7_0425
text에서 다음을 수행하시오.
- "H,h"만 출력하시오.
- "H,h"가 아닌 모두를 출력하시오

In [63]:
text = "Hello my friend! Life is short you need Python!"
re.findall("h", text, re.I)

['H', 'h', 'h']

In [64]:
re.sub('[hH]', "", text)

'ello my friend! Life is sort you need Pyton!'

In [65]:
# 그루핑
text = "ABCABCABC OK?"
m = re.search("(ABC)+", text)
print(m)
print(m.group(0))
print(m.group(1))

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


### Q. text에서 그루핑을 사용하여 아래와 같이 출력하시오.
ABCDEF
ABCDEF
AB
CD
EF

In [66]:
text = 'DEFABCDEFDEF OK?'

m = re.search('((AB)(CD)(EF))', text)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

ABCDEF
ABCDEF
AB
CD
EF


### 과제8_0425
정규표현식을 사용하여 text에서 다음 사항을 수행하시오.
- 지역코드만 출력하시오.
- 지역코드를 제외한 번호만 출력하시오.

text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."

In [67]:
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."

result = re.search("((\d{3})-(\d{3})-(\d{4}))", text)
print(result.group(2))
print(result.group(3), result.group(4))

032
232 3245


In [68]:
text = "park 010-1234-1234"
m = re.search(r"(\w+)\s+((\d+)[-]\d+[-]\d+)", text)
print(m)
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group())

<re.Match object; span=(0, 18), match='park 010-1234-1234'>
park
010-1234-1234
010
park 010-1234-1234


In [69]:
# Q. "Paris is very very beautiful."에서 "very very"를 출력하시오.
text = "Paris is very very beautiful"
re.search(r'(\b\w+)\s\1\b', text).group()

'very very'

### 과제9_0425
아래 text에서 정규표현식을 사용하여 "the the the"를 출력하시오.

In [70]:
text = "Paris in the the the spring"
re.search(r'(\b\w+)\s\1\s\1\b', text).group()

'the the the'

In [71]:
# Q. "abcdefghij"에 대하여 중첩을 적용한 서브그룹 5개로 컴파일하여 group()함수를 이용하여
# "abcdefghi"와 e를 출력하시오.

text = "abcdefghij"
result = re.search("((abcd)(e)(fghi))(j)", text)

print(result.group(1))
print(result.group(3))

abcdefghi
e


#### 그루핑된 문자열에 이름 붙이기
- 정규표현식에서 그루핑된 문자열에 이름을 붙이는 방법은 (?P$<name>$pattern) 을 사용하면 된다.
    
- 이 떄, name은 그룹에 붙일 이름이고, pattern은 그룹화할 정규식 패턴이다.

In [72]:
text = "John's phone number is 123-456-7890"

p = r"(?P<phone>\d{3}-\d{3}-\d{4})"
m = re.search(p, text)
m.group("phone")

'123-456-7890'

### 과제10_0425
이름으로 그룹을 참조하여 text에서 Lots를 출력하시오.

In [73]:
text = "Lots of punctuation Lots of punctuation"

pattern = r"(?P<sample>[A-Z][a-z]+)"
m = re.search(pattern, text)
m.group("sample")

'Lots'

In [74]:
text = 'Paris in the the spring'
p = re.compile('(?P<t>\w+)\s(?P=t)')
re.search(p,text).group()

'the the'

#### 전방탐색
- 전방탐색(Positive Lookahead)은 정규식에서 매치할 문자열의 앞쪽을 일치시키는 것입니다. 하지만 일치시킨 문자열은 검색 대상에서 제외됩니다. 이를 사용하면 특정 문자열 패턴 뒤에 오는 문자열을 매치할 때 유용합니다.

#### 긍정탐색

긍정 탐색은 조건을 충족하는 부분을 찾을 때 사용됩니다. 이것은 일치하는 부분을 포함하고 일치하지 않는 부분을 탐색 결과에서 제외합니다. 긍정 탐색은 (?=...) 구문을 사용하여 정규식 안에서 표현됩니다. 

#### 부정탐색

부정 탐색은 일치하지 않는 부분을 찾을 때 사용됩니다. 이것은 일치하지 않는 부분을 포함하지만, 탐색 결과에서 일치하는 부분을 제외합니다. 부정 탐색은 (?!...) 구문을 사용하여 정규식 안에서 표현됩니다.

In [75]:
# ?=
text = "http://google.com"
p = re.compile(r".+:")
m = p.search(text)
print(m.group())
print()
p = re.compile(r".+(?=:)") # :에 해당되는 문자열이 정규식 엔진에 의해 소모되지 않음.(검색에는 포함되나 결과에는 제외된다.)
m1 = p.search(text)
print(m1.group())

http:

http


In [76]:
# text에서 쉼표(,) 다음에 공백이 오는 부분만 매치
# re.findall() 메서드를 사용하여 전체 문자열에서 정규식 패턴과 일치하는 모든 부분 탐사
# 일치하는 문자열은 전방탐색 패턴에 해당하는 단어를 제외한 부분만 추출

text = "I love Python, Java, and JavaScript."

pattern = r",\s(?=\w+)"

re.findall(pattern,text)


[', ', ', ']

In [77]:
list1 = ['foo.exe', 'autoexec.bat', 'sendmail.cf']
p = re.compile(".*[.].*$")
for i in list1:
    if p.match(i):
        print(i)
        


foo.exe
autoexec.bat
sendmail.cf


In [78]:
# 상기 매칭에서 부정탐색을 사용하여 sendmail.cf'만 출력하시오.
p = re.compile(".*[.](?!bat$|exe$)")
for i in list1:
    if p.match(i):
        print(i)

sendmail.cf


### 과제1_0426
아래 text에서 ["file2.pdf", "file3.docx", "file4.xlsx"]만 출력하시오

In [79]:
text = "file1.txt file2.pdf file3.docx file4.xlsx"
pattern = r"\b\w+\.(?!txt\b)\w+\b"
re.findall(pattern,text)

['file2.pdf', 'file3.docx', 'file4.xlsx']

In [80]:
# (?<=@)는 전방탐색으로, @ 기호 이후에 오는 문자열을 찾음
# [\w.]+는 도메인 이름을 나타내는 패턴으로, 알파벳 대소문자, 숫자, 밑줄, 마침표를 포함
# 
email = "example@gmail.com"
p = r"(?<=@)[\w.]+(?!\d+)"
re.search(p,email).group()

'gmail.com'

### 과제2_0426
아래 email에서 example만 출력하시오

In [81]:
email = "john.doe@example.com"
pattern = r"(?<=@)\w+"
re.search(pattern,email).group()

'example'

In [82]:
# sub 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 바꿀 수 있음
text = "blue socks and red shoes"
p = re.compile("(blue|white|red)")
print(p.sub("color",text))
print(p.sub("color",text, count = 1)) # 1번만 적용
print(p.subn("color",text)) # 결과를 튜플로 주고, 몇 번 적용했는지 횟수도 표현함.

color socks and color shoes
color socks and red shoes
('color socks and color shoes', 2)


In [83]:
# Q. sub를 사용해서 "abc"만 출력하시오
string = "12345abc"
pattern = "\d+"
re.sub(pattern, "", string)

'abc'

In [84]:
# Q. sub를 사용해서 "12345"만 출력하시오.
string = "12345abc"
pattern = "[a-z]+"
re.sub(pattern, "", string)

'12345'

In [85]:
# 이름 + 전화번호의 문자열을 전화번호 + 이름으로 바꾸는 예
text = "park 010-1234-1234"
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>\d+-\d+-\d+)")
print(p.sub("\g<phone> \g<name>", text))
# 그룹 번호를 사용할 수도 있음
print(p.sub("\g<2> \g<1>", text))

010-1234-1234 park
010-1234-1234 park


In [86]:
# sub 메서드의 매개변수로 함수 넣기
def hexrepl(match):
    value = int(match.group())
    return hex(value)

text = "Call 65490 for printing, 49152 for user code."
p = re.compile(r"\d+")
p.sub(hexrepl, text)

'Call 0xffd2 for printing, 0xc000 for user code.'

### 과제3_0426
창의적인 사용자 함수를 생성하여 sub 메서드의 매개변수로 적용하는 사례를 작성하시오.

In [87]:
def samplef(match):
    match = "red"
    return match

text = "I'll choose green one."
p = re.compile("green")
p.sub(samplef, text)

"I'll choose red one."

정규표현식에서 greedy와 nongreedy는 매칭(matching) 과정에서 사용되는 용어입니다.

- Greedy: 가능한 가장 긴 문자열을 매칭하는 방식입니다. 즉, 매칭할 수 있는 최대한의 문자열을 선택합니다. 예를 들어, .*는 0개 이상의 어떤 문자든지 가능한 최대한의 문자열을 매칭합니다.

- Nongreedy (또는 Lazy): 가능한 가장 짧은 문자열을 매칭하는 방식입니다. 즉, 매칭할 수 있는 최소한의 문자열만 선택합니다. 예를 들어, .*?는 0개 이상의 어떤 문자든지 가능한 최소한의 문자열을 매칭합니다.

In [88]:
text = "There are 123 apples and 456 bananas."
p_greedy = re.compile(r"\d+")
p_nongreedy = re.compile(r"\d+?")
mg = p_greedy.search(text)
mng = p_nongreedy.search(text)
print(mg.group())
print(mng.group())

123
1


In [89]:
# Q. s에서 "<html><head><title>Title</title>"과 <html>을 각각 출력하시오.
s = "<html><head><title>Title</title>"

pattern = "<.+>"
pattern2 ="<.+?>"


print(re.search(pattern, s).group())
print(re.search(pattern2, s).group())

<html><head><title>Title</title>
<html>
