# 정규표현식 기본 개념

한 영화관에서는 예매 시 사용자의 휴대폰 번호를 입력받아야 합니다. 예매 정보는 해당 번호와 함께 저장됩니다. 그러나 종종 잘못된 번호가 입력되어 예매 정보가 유실되는 문제가 발생했습니다.

이런 문제를 해결하기 위해, 영화관은 **정규표현식**을 사용해 휴대폰 번호를 검증하기로 결정했습니다. 이제 사용자가 휴대폰 번호를 입력할 때, 정확한 형식으로 입력되었는지 확인하고, 유효한 번호만 저장할 수 있습니다.

## 정규표현식이란?

정규표현식(Regular Expression)은 문자열에서 특정한 패턴을 찾거나, 대체하거나, 추출하는데 사용되는 문자열입니다. 즉, 문자열에서 원하는 문자를 찾거나 바꾸기 위한 일종의 패턴이라고 생각할 수 있습니다.


예를 들어, 정규표현식에서 '.'은 어떤 문자 하나를 의미하고, '*'는 바로 앞의 문자가 0번 이상 반복됨을 의미합니다. 또한, '|'는 OR 조건을 의미하고, '^'는 문자열의 시작을 의미합니다.

파이썬에서는 정규표현식을 처리하기 위해 're' 모듈을 제공합니다. 're' 모듈을 사용하면 문자열에서 패턴을 찾거나, 추출하거나, 대체할 수 있습니다.

In [5]:
# 문자열에서 숫자만 추출하는 예시
import re
text = 'Hello, my number is 12345.'

numbers = re.findall('\d+',text)
numbers

['12345']

## 정규표현식의 장단점

[장점]
1.	유연성: 정규표현식을 사용하면 다양한 패턴을 표현할 수 있습니다. 예를 들어, 특정 문자열이 특정 패턴을 따르는지 여부를 확인하거나, 특정 패턴을 가진 문자열을 찾아내는 등 다양한 용도로 사용할 수 있습니다.
2.	간결성: 문자열에서 원하는 정보를 추출하는 데에는 정규표현식이 다른 방법에 비해 더 간단하고 직관적입니다.
3.	속도: 정규표현식은 문자열을 일일이 검색하는 것보다 더 빠른 속도로 패턴을 찾아낼 수 있습니다.

[단점]
1.	복잡성: 정규표현식은 다양한 패턴을 표현할 수 있지만, 그만큼 문법이 복잡합니다. 특히 초보자에게는 익숙해지기까지 시간이 걸릴 수 있습니다.
2.	이식성: 언어나 툴마다 문법이 조금씩 다르기 때문에, 한 번 익힌 정규표현식이 다른 환경에서는 작동하지 않을 수도 있습니다.
3.	가독성: 정규표현식을 사용하면 코드의 가독성이 떨어질 수 있습니다. 특히, 매우 복잡한 정규표현식을 작성하면 코드가 길어지고 가독성이 나빠질 수 있습니다.
위와 같이, 정규표현식은 다양한 장단점을 가지고 있습니다. 그러나 정규표현식은 파이썬을 비롯한 다양한 프로그래밍 언어에서 사용되는 유용한 도구입니다. 아래는 파이썬 코드로 정규표현식을 사용한 문자열 패턴 매칭 예시입니다.

In [6]:
# 정규표현식을 이용하여 전화번호를 추출하는 예시

# 패턴 설정
pattern = r"\d{3}-\d{4}-\d{4}"
# 패턴 매칭
phone_numbers = ['010-1234-5678', '02-555-1234', '031-222-3333']
matched_numbers = []
for number in phone_numbers:
    if re.match(pattern,number):
        matched_numbers.append(number)
        print(matched_numbers)

['010-1234-5678']


## 정규표현식의 구성 요소

정규표현식은 다음과 같은 구성 요소를 가집니다.

- 문자: 특정 문자를 표현합니다. 예를 들어, 'a'는 문자 'a'를 의미합니다.
- 메타 문자: 특별한 의미를 가지는 문자입니다. 예를 들어, '.'은 어떤 문자에도 매치되는 문자입니다.
- 문자 클래스: 여러 개의 문자 중 하나를 선택합니다. 대괄호([])로 표현합니다. 예를 들어, '[abc]'는 'a', 'b', 'c' 중 하나에 매치됩니다.
- 반복: 문자 또는 메타 문자가 반복되는 횟수를 지정합니다. '','*', '+', '?', '{m}', '{m,n}' 등으로 표현합니다. 예를 들어, '$a*$'는 'a'가 0번 이상 반복되는 문자열에 매치됩니다.
- 그룹: 하나의 문자 또는 메타 문자의 집합을 그룹화합니다. 괄호()로 표현합니다. 예를 들어, '(abc)+'는 'abc'가 1번 이상 반복되는 문자열에 매치됩니다.

Raw String
- 로우스트링(Raw string)은 문자열 안에 있는 이스케이프 문자를 무시하고 문자 그대로 해석하도록 하는 문자열입니다.
- 로우스트링을 사용하면 이스케이프 문자를 사용하지 않고도 백슬래시()를 문자 그대로 사용할 수 있습니다. 이를 통해 정규 표현식, 파일 경로, URL 등과 같은 문자열을 다룰 때 유용하게 사용할 수 있습니다.
- 로우스트링을 사용하면 백슬래시와 같은 이스케이프 문자를 사용하지 않아도 되므로 가독성이 좋아진다.

In [4]:
str1 = "C:\\Users\\Desktop\\file.txt"
str2 = r"C:\Users\Desktop\file.txt"
print(str1,'\n')
print(str2)

C:\Users\Desktop\file.txt 

C:\Users\Desktop\file.txt


In [8]:
text1 = 'line\network'
text2 = r'line\network'
print(text1,'\n')
print(text2)

line
etwork 

line\network


In [10]:
# 이스케이프 문자(escape character)는 특별한 의미를 가지고 있는 문자열을 문자 그대로 해석하도록 하는 문자
# r"\n"은 \n 이스케이프 문자를 포함하는 문자열 리터럴이 아니라, \와 n 두 개의 문자로 구성된 
# 문자열 리터럴로 해석됩니다
text1 = "Hello,\nworld!"
text2 = "Hello,\\nworld!"
text3 = r"Hello,\nworld!"
print(text1,'\n')
print(text2,'\n')
print(text3,'\n')

Hello,
world! 

Hello,\nworld! 

Hello,\nworld! 



In [47]:
# re.findall()은 두 개의 인자를 가집니다. 첫 번째 인자는 찾으려는 패턴을 지정하는 정규 표현식이며, 
# 두 번째 인자는 검색 대상이 되는 문자열입니다. 
import re
pattern1 = 'a'
text1 = 'apple'
print(re.findall(pattern1, text1))

pattern2 = '.'
text2 = 'apple'
print(re.findall(pattern2,text2))

pattern3 = '[aeiou]'
text3 = 'apple'
print(re.findall(pattern3,text3))

pattern4 = 'ba*na'
text4 = 'bnabaaaaana'
print(re.findall(pattern4,text4))

pattern5 = '(ba)*na'
text5 = 'banaana'
print(re.findall(pattern5,text5))

['a']
['a', 'p', 'p', 'l', 'e']
['a', 'e']
['bna', 'baaaaana']
['ba', '']


In [25]:
pattern1 = 'a'
text1 = 'apple'
print(re.search(pattern1, text1))

pattern2 = '.'
text2 = 'apple'
print(re.search(pattern2,text2))

pattern3 = '[aeiou]'
text3 = 'apple'
print(re.search(pattern3,text3))

pattern4 = 'ba*na'
text4 = 'banaana'
print(re.search(pattern4,text4))

pattern5 = '(ba)*na'
text5 = 'banaana'
print(re.search(pattern5,text5))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 4), match='bana'>
<re.Match object; span=(0, 4), match='bana'>


# 정규표현식의 문법


정규표현식의 문법에는 다양한 메타문자(meta-character)가 사용됩니다. 메타문자란 일반적으로 사용되는 문자가 아니라, 특별한 의미를 가지는 문자를 말합니다. 메타문자는 다양한 용도로 사용되며, 각각의 기능은 다음과 같습니다.

## 메타문자의 종류와 사용 방법



[메타문자/문자 클래스]
 - \d 숫자와 매치, [0-9]와 동일한 표현식
 - \D 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식
 - \s whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식
 - \S whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식
 - \w 문자 + 숫자와 매치, [a-zA-Z0-9]와 동일한 표현식
 - \W 문자 + 숫자가 아닌 문자와 매치, [^a-zA-Z0-9]와 동일한 표현식

[whitespace]
 -  스페이스 바 (아스키코드 32)
 -  ＼b  뒤로 한 칸 이동 (Backspace) (아스키코드 8)
 -  ＼t  수평탭 간격 띄우기 (아스키코드 9)
 -  ＼n  줄바꿈 (Linefeed) (아스키코드 10)
 -  ＼v  수직탭 간격 띄우기 (아스키코드 11)
 -  ＼f  프린트 출력 용지를 한 페이지 넘김 (Form feed) (아스키코드 12)
 -  ＼r  동일한 줄의 맨 앞으로 커서 이동 (Carriage Return) (아스키코드 13)
 - Dot(.) 메타 문자는 줄바꿈 문자인 \n를 제외한 모든 문자와 매치됨을 의미

참고 : whitespace 문자는 공백과 같은 문자. 주로 특정 문자열에서 단어를 구분하기 위하여 사용

[문자열의 반복과 선택을 나타내는 메타문자]
- ^ : 문자열의 시작을 나타냄. 예를 들어, '^a'는 문자열의 시작이 'a'인 경우와 매치됨.
- $\$ : 문자열의 끝을 나타냄. 예를 들어, a\$$는 문자열의 끝이 'a'인 경우와 매치됨.



[문자열의 반복과 선택을 나타내는 메타문자]
- 반복(\*) ca*t 0부터 무한대로 반복
- 반복(\+) ca+t 최소 1번 이상 반복
- ca{m,n} a 반복 횟수가 m부터 n까지인 것을 매치
- ca{2}t는 c+a(2번 반복)+t의 의미
- 반복횟수가 {1,}은 1 이상, {0,}은 0 이상인 경우로 각각 +, *와 동일하며 {,1}은 반복횟수가 1 이하를 의미.
- ab?c b가 0~1번 사용되면 매치되는 것으로 ?은 앞의 b가 있어도 되고 없어도 된다 



## re 모듈

정규표현식을 파이썬에서 사용하기 위해서는 re 모듈을 import하여 사용합니다. 이를 이용하여 정규식을 컴파일하고 정규식을 이용한 문자열 검색 등 다양한 작업을 수행할 수 있습니다.

re 모듈을 이용하여 문자열 검색을 수행하는 함수는 다음과 같습니다.

- compile(): 정규식을 컴파일합니다.
- match(): 문자열의 처음부터 정규식과 매치되는지 조사합니다.
- search(): 문자열의 전체를 검색하여 정규식과 매치되는지 조사합니다.
- findall(): 정규식과 매치되는 모든 문자열을 리스트로 리턴합니다.
- finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴합니다.

In [31]:
pattern = re.compile('ab+c')
match = pattern.search('abbbc')
if match:
    print("match found!")
else:
    print("not matched")

match found!


In [33]:
re.search(pattern, 'eeeabbbc')

<re.Match object; span=(3, 8), match='abbbc'>

In [35]:
re.match(pattern, 'abbbceee')

<re.Match object; span=(0, 5), match='abbbc'>

In [37]:
re.findall(pattern,'abbbceeabce')

['abbbc', 'abc']

In [39]:
m = re.finditer(pattern,'abbbceeabce')
for i in m:
    print(i)

<re.Match object; span=(0, 5), match='abbbc'>
<re.Match object; span=(7, 10), match='abc'>


#### 과제1_0424.
정규표현식을 사용하여 text에서 이메일을 추출하세요.

text = "이메일 주소는 abc123@gmail.com 입니다."

In [12]:
import re
text = "이메일 주소는 abc-123@gmail.com 입니다."
p = r'[\w]+@[\w]+\.\w{2,4}'
re.search(p,text).group()

'123@gmail.com'

In [14]:
p = r'[\w-]+@[\w]+\.\w{2,4}'
re.search(p,text).group()

'abc-123@gmail.com'

In [62]:
import re

# 이메일 주소가 있는 문자열
text = "이메일 주소는 Abc_123@b1_IT.com 입니다."

# 이메일 주소 추출을 위한 정규표현식
pattern = r'[a-zA-Z0-9_]+@[a-zA-Z0-9_]+\.\w{2,4}'

# 정규표현식과 매치되는 모든 문자열을 찾아서 리스트로 반환
matches = re.findall(pattern, text)

# 추출된 이메일 주소 출력
print(matches)

['Abc_123@b1_IT.com']


#### 과제2_0424.
정규표현식을 사용하여 text에서 전화번호를 추출하세요.

text = "저의 전화번호는 010-1234-5678 입니다."

In [2]:
text = "저의 전화번호는 010-1234-5678 입니다."
p = '\d{3}-\d{4}-\d{4}'
re.search(p,text).group()

'010-1234-5678'

#### 과제3_0424.
정규표현식을 사용하여 text에서 url를 추출하세요.

text = "저의 블로그 주소는 http://www.example.com 입니다."

In [1]:
import re
text = "저의 블로그 주소는 http://www.example.com 입니다."
p = 'https?://[^\s]+'
re.search(p,text).group()

'http://www.example.com'

#### 과제4_0424

정규표현식을 이용하여 html 태그를 제거한 후 "안녕하세요, 파이썬입니다."를 출력하세요.

html_string = $"<p>안녕하세요, <b>파이썬</b>입니다.</p>"$

In [13]:
html_string =  "<𝑝>안녕하세요,<𝑏>파이썬</𝑏>입니다.</𝑝>"
cleaned_string = re.sub('<.+?>', "", html_string  )
print(cleaned_string)

안녕하세요,파이썬입니다.


#### 과제5_0424. 
text = ' Python3 is very good programming language!' 에서 다음을 수행하세요.

- ['Python', 'is', 'very', 'good', 'programming', 'language'] 을 출력
- Python3 출력
- Python 출력
- 숫자만 출력
- Python3를 python으로 대체

In [14]:
text = ' Python3 is very good programming language!' 
p = re.compile('[a-zA-Z0-9]+')
re.findall(p,text)

['Python3', 'is', 'very', 'good', 'programming', 'language']

In [23]:
text = ' Python3 is very good programming language!' 
re.match('[\s\w]+\d+',text).group()

' Python3'

In [44]:
text = ' Python3 is very good programming language!' 
re.findall('(Python)', text)

['Python']

In [33]:
text = ' Python3 is very good programming language!' 
re.findall('\d+', text)

['3']

In [39]:
text = ' Python3 is very good programming language!' 
replaced_text = re.sub('Python3', 'python', text)
print(replaced_text)

 python is very good programming language!


In [30]:
# 연습
text1 = 'python python'
text2 = 'python python '
text3 = '3python python '

In [18]:
import re
p = re.compile('[a-z]+\s')
p.match(text1).group()

'python '

In [20]:
re.match('[a-z]+\s',text1).group()

'python '

In [23]:
re.findall('[a-z]+\s',text2)

['python ', 'python ']

In [24]:
p.findall(text2)

['python ', 'python ']

In [31]:
# p.match(text3)
p.search(text3).group()

'python '

In [32]:
p.findall(text3)

['python ', 'python ']

In [34]:
# 문자 클래스 : []
p = re.compile('[a-z]+')
p1 = p.match('Banker')
p2 = p.search('banker')
print(p1)
print(p2)

None
<re.Match object; span=(0, 6), match='banker'>


In [36]:
# Q. '12345abc'에서 'a'만 출력하세요.
text = '12345abc'
re.search('[a]',text).group()

'a'

In [37]:
# Q. 'abc12345Abc'에서 'A'만 출력하세요.
text = 'abc12345Abc'
re.search('[A]',text).group()

'A'

In [40]:
# Q. 'KOREA 대한민국'에서 '대'만 출력하세요.
text = 'KOREA 아대한민국'
p = re.compile('[가-힣]')
re.findall(p,text)[1]

'대'

In [46]:
# Q. '122333c'를 모두 출력하세요.
text = '122333c456'
re.findall('\w+',text)

['122333c456']

In [48]:
re.search('12{2}3{3}c',text).group()

'122333c'

In [44]:
# Q. 'aaaaBBBcccDDDeee'을 모두 출력하세요.
text = 'aaaaBBBcccDDDeee'
re.search('a{4}B{3}c{3}D{3}e{3}',text).group()

'aaaaBBBcccDDDeee'

#### 과제1_0425.
BC, CC, ABC 모두 C가 출력되는 정규 표현식을 ( )에 작성하세요.

In [None]:
pattern = re.compile(   )
text1 = 'BC'
text2 = 'CC'
text3 = 'ABC'
p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)
print(p1)
print(p2)
print(p3)

#### 과제2_0425.
'1234a1234'에서  '1', '2', '3', '4'를 모두 출력하세요.

#### 과제3_0425.
'99food234, a93456\n, a9356ba '에서 '99food234'만 출력하세요.

In [51]:
text = 'life is too short'
p = re.compile('[a-z]+')
result = p.search(text)
print(result)

<re.Match object; span=(0, 4), match='life'>


In [52]:
result = p.finditer(text)
for r in result:
    print(r.group())

life
is
too
short


In [55]:
# 모든 문자 출력 : findall, finditer
text = ' Python3 is very good programming language!'
re.findall('[a-zA-Z]+',text)

['Python', 'is', 'very', 'good', 'programming', 'language']

In [58]:
result = re.finditer('[a-zA-Z]+',text)
print(result)
for r in result:
    print(r.group())

<callable_iterator object at 0x000001B74FBA9F10>
Python
is
very
good
programming
language


In [63]:
# match
text1 = 'life'
text2 = '!!!oh my life'
text3 = '7 is lucky number'
print(re.match('[a-z]+',text1).group())
print(re.match('[a-z]+',text2))
print(re.match('[a-z]+',text3))

life
None
None


In [67]:
# match 객체의 메서드
m = re.match('[a-z]+', 'python')
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(0, 6), match='python'>
python
0
6
(0, 6)


In [68]:
# search 객체의 메서드
m = re.search('[a-z]+', '3 python')
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(2, 8), match='python'>
python
2
8
(2, 8)


In [77]:
# Dot(.) 메타 문자는 줄바꿈 문자(\n)을 제외한 모든 문자와 매치
text = ['a\nb', 'acb', 'a12?Ab']
for t in text:    
    r = re.match('a.+b',t)    
    print(r)    

None
<re.Match object; span=(0, 3), match='acb'>
<re.Match object; span=(0, 6), match='a12?Ab'>


In [78]:
# re.DOTALL 옵션은 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색시 사용
p = re.compile('a.b',re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [79]:
text = 'what are you doing?\n it is going to be late for school'
p = re.compile('.*')
m = p.search(text)
print(m.group())

what are you doing?


In [80]:
text = 'what are you doing?\n it is going to be late for school'
p = re.compile('.*',re.DOTALL)
m = p.search(text)
print(m.group())

what are you doing?
 it is going to be late for school


#### 과제4_0425.
text에서 전체문장 모두 출력하세요.

In [None]:
text = 'what are you doing?\nit is going to be late for school'
       '\nwe need to hurry up'

In [83]:
# re.IGNORECASE 또는 re.I 옵션은 대소문자 구분 없이 매치를 수행시 사용
re.match('[a-z]+', 'pAthon',re.I).group()

'pAthon'

#### 과제5_0425.
아래 text에 내용을 모두 출력하세요.<br>
text = ['pAthon', 'PATHON', 'pathon','Pathon']

In [87]:
# Q. text에서 대소문자 구분없이 전체문장 모두 출력하세요 
text = 'Friend fRiend friEnd FRIEND'
list = re.findall('friend',text,re.I)
for i in list:
    print(i)

Friend
fRiend
friEnd
FRIEND


In [91]:
data = """python one 
life is too short
python  two
you need python
python three"""

In [89]:
# python이라는 문자열로 시작하고 그 뒤에 whitespace, 그뒤에 단어가 오는 경우
re.findall('^python\s\w+',data)

['python one']

In [93]:
# re.MULTILINE 또는 re.M옵션으로 ^메타 문자를 각 라인의 처음으로 인식시킴
re.findall('^python\s+\w+',data, re.M)

['python one', 'python two', 'python three']

In [94]:
# re.VERBOSE 또는 re.X : 이해하기 어려운 정규식을 주석 또는 라인 단위로 구분
# charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')
charref = re.compile(r"""
&[#]               # Start of a numeric entity reference
(
    0[0-7]+        # Octal form
  | [0-9]+         # Decimal form 
  | x[0-9a-fA-F]+  # Hexadecimal form
)
;                  # Trailing semicolon 
""",re.VERBOSE)

In [101]:
# 파이썬 문자열 리터럴 규칙에 의하여 \\이 \으로 변경되어 \section이 전달
# 정규식 문자열 앞에 r문자를 삽입하면 Raw String 규칙에 의하여 백슬래시 2개 대신 1개 사용
p = re.compile(r'\\section')
p.match('\section')
# p.findall('\section\section')

<re.Match object; span=(0, 8), match='\\section'>

In [102]:
# |(or와 동일한 의미)
re.match('Crow|Servo', 'CrowHello').group()

'Crow'

In [103]:
# ^(문자열의 맨처음), $(문자열의 끝과 매치)
re.search('^Life', 'Life is too short').group()

'Life'

In [105]:
re.search('Life$', 'My Life').group()

'Life'

In [107]:
re.findall('^Life|Life$', 'Life My Life')

['Life', 'Life']

In [115]:
# \A : 문자열의 처음과 매치. 단, re.MULTILINE 옵션 사용시 ^와은 달리 전체 문자열의 처음하고만 매치 

data = """Life is too short
Life is good
Life is valuable"""
re.findall('\ALife', data, re.M)

['Life']

In [119]:
# \Z : 문자열의 끝과 매치. 단, re.MULTILINE 옵션 사용시 $와은 달리 전체 문자열의 끝하고만 매치
data = data1 = """Life is too short
Life is good
Life is very good"""

re.findall('good\Z', data, re.M)

['good']

In [120]:
# Q. 'we are going home'에서 home만 출력하세요.
text = 'we are going home'
re.findall('home\Z',text)

['home']

In [122]:
# Q. 'home sweet'에서 home만 출력하세요.
text='home sweet'
re.findall('\Ahome',text)

['home']

In [123]:
# Q. '199305, 1923A, a93247'에서 '199305'만 출력하세요.
text = '199305,1923A,a93247'
re.findall('\A199305',text,re.M)

['199305']

In [129]:
# Q. text에서 '199305'만 출력하세요.
text = '1923A, 199305, a93247'
re.findall('\d{6}', text)

['199305']

In [127]:
re.findall('\d+',text)[1]

'199305'

In [128]:
re.findall('(\d+),',text)

['199305']

In [134]:
# \b : whitespace에 의해 구분
text1 = 'no class at all'
re.search(r'\bclass\b',text1).group()

'class'

In [138]:
# \B : whitespace로 구분된 단어가 아닌 경우에만 매치
text2 = 'the declassified algorithim'
re.search(r'\Bclass\B', text2).group()
# re.search(r'\Bclass\B', text1).group()

'class'

In [140]:
# Q. 정규표현식을 사용하여 text에서 에러가 들어간 부분만 포함하는 리스트를 출력하세요. 
text = "에러 1122, 레퍼런스 오류, 에러 1033, 아규먼트 오류, 에러 xxx"
print(re.findall(r'에러\s[^,]+', text))
print(re.findall(r'에러\s\w+', text))

['에러 1122', '에러 1033', '에러 xxx']
['에러 1122', '에러 1033', '에러 xxx']


#### 과제6_0425.
(     )에 정규표현식을 작성하여 아래와 같이 출력하세요.

['1 apple', '5 oranges', '3 boys', '4 girls', '10 army', '11 mr']

In [None]:
import re
li = '1 apple, 5 oranges, 3 boys, 4 girls; 10 army| 11 mr'
regex = re.compile(      )
list = regex.findall(li)
print(list)

#### 과제7_0425.
text에서 다음을 수행하세요.
- 'H,h'만 출력하세요.
- 'H,h'가 아닌 것 모두를 출력하세요.

In [None]:
text = 'Hello my friend! Life is short you need Python!'

In [144]:
# 그룹핑
# group(0) 매치된 전체 문자열, 1 첫번째 그룹, 2 두번째 그룹, n n번째 그룹
text = 'ABCABCABC OK?'
m = re.search('(ABC)+', text)
print(m)
print(m.group(0))
print(m.group(1))

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [None]:
# Q. text에서 그룹핑을 사용하여 아래와 같이 출력하세요.
ABCDEF
ABCDEF
AB
CD
EF

In [145]:
text = 'DEFABCDEFDEF OK?'
m = re.search('((AB)(CD)(EF))', text)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

ABCDEF
ABCDEF
AB
CD
EF


#### 과제8_0425.
정규표현식을 사용하여 text에서 다음 사항을 수행하세요.
- 지역코드만 출력하세요.
- 지역코드 제외한 번호만 출력하세요.

text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."

In [151]:
text = 'park 010-1234-1234'
m = re.search(r'(\w+)\s+((\d+)[-]\d+[-]\d+)', text)
print(m)
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group())

<re.Match object; span=(0, 18), match='park 010-1234-1234'>
park
010-1234-1234
010
park 010-1234-1234


In [154]:
# 그룹핑된 문자열 재참조
# \1은 재참조 메타 문자로서 정규식의 첫번째 그룹을 지칭 - 2개의 동일한 단어가 연속적으로 사용되어야 매치
# Q. 'Paris is very very beautiful.'에서 'very very'를 출력하세요.
text = 'Paris is very very beautiful.'
re.search(r'\b(\w+)\s+\1',text).group()

'very very'

#### 과제9_0425.
아래 text에서 정규표현식을 사용하여 'the the the'를 출력하세요

In [None]:
text = 'Paris in the the the spring'

In [155]:
# Q.'abcdefghij' 에 대하여 중첩을 적용한 서브그룹 5개로 컴파일하여 group()함수를 이용하여 
# 'abcdefghi'와 'e'를 출력하세요

t = 'abcdefghij'
m = re.search(r'((ab)(cd)(e)(fg)(hij))',t)
print(m.group(0))
print(m.group(4))

abcdefghij
e


In [164]:
t = 'abcdefghij'
m = re.search('(a(b(c(d(e)f)g)h)i)j',t)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))
print(m.group(5))

abcdefghij
abcdefghi
bcdefgh
cdefg
def
e


In [165]:
# Q. 위 문제에서 모든 서브 그룹에 대한 문자열을 포함하는 튜플을 출력하세요.
print(m.groups())

('abcdefghi', 'bcdefgh', 'cdefg', 'def', 'e')


그룹핑된 문자열에 이름 붙이기
- 정규표현식에서 그룹핑된 문자열에 이름을 붙이는 방법은 (?P$<name>$pattern) 형식을 사용하는 것입니다. 이 때, name은 그룹에 붙일 이름이며 pattern은 그룹화할 정규식 패턴입니다.

In [169]:
text = "John's phone number is 123-4565-7890."
p = r'(?P<phone>\d{3}-\d{4}-\d{4})'
m = re.search(p,text)
m.group('phone')

'123-4565-7890'

#### 과제10_0425.
이름으로 그룹을 참조하여 text 에서 Lots를 출력하세요.

text =  'Lots of punctuation Lots of punctuation'

In [13]:
# 그룹핑된 문자열에 이름 붙이기 : 확장 구문 (?P<name>\w+)
text = 'park 010-1234-1234'
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search(text)
m.group('name')

'park'

In [14]:
# Q. 아래 text에서 그룹명 word를 이용하여 'the the'를 출력하세요.
text = 'Paris in the the spring'
p = re.compile('(?P<word>\w+)\s+(?P=word)')
re.search(p,text).group()

'the the'

#### 전방탐색
- 전방탐색(Positive Lookahead)은 정규식에서 매치할 문자열의 앞쪽을 일치시키는 것입니다. 하지만 일치시킨 문자열은 검색 대상에서 제외됩니다. 이를 사용하면 특정 문자열 패턴 뒤에 오는 문자열을 매치할 때 유용합니다.

#### 긍정탐색

긍정 탐색은 조건을 충족하는 부분을 찾을 때 사용됩니다. 이것은 일치하는 부분을 포함하고 일치하지 않는 부분을 탐색 결과에서 제외합니다. 긍정 탐색은 (?=...) 구문을 사용하여 정규식 안에서 표현됩니다. 

#### 부정탐색

부정 탐색은 일치하지 않는 부분을 찾을 때 사용됩니다. 이것은 일치하지 않는 부분을 포함하지만, 탐색 결과에서 일치하는 부분을 제외합니다. 부정 탐색은 (?!...) 구문을 사용하여 정규식 안에서 표현됩니다.

In [2]:
import re
text = 'http://google.com'
p = re.compile(r'.+:')
m = p.search(text)
print(m.group())
print()
p = re.compile(r'.+(?=:)')  # :에 해당되는 문자열이 정규식 엔진에 의해 소모되지 않음(검색에는 포함되지만 결과에는 제외)
m1 = p.search(text)
print(m1.group())

http:

http


In [6]:
# text에서 쉼표(,) 다음에 공백이 오는 부분만 매치
# re.findall() 메소드를 사용하여 전체 문자열에서 정규식 패턴과 일치하는 모든 부분 탐색
# 일치하는 문자열은 전방탐색 패턴에 해당하는 단어를 제외한 부분만 추출

In [5]:
# Q text에서 ', '만 출력하세요.
text = 'I love Python, Java, and JavaScript.'
p = re.compile(r',\s(?=\w+)')

re.search(p,text).group() 

', '

In [7]:
list = ['foo.exe', 'autoexec.bat', 'sendmail.cf']
p = re.compile('.*[.].*$')
for i in list:
    if p.match(i):
        print(i)


foo.exe
autoexec.bat
sendmail.cf


In [8]:
# Q. 상기 매칭에서 부정탐색을 사용하여 sendmail.cf만 출력하세요.
list = ['foo.exe', 'autoexec.bat', 'sendmail.cf']
p = re.compile('.*[.](?!bat$|exe$)')
for i in list:
    if p.match(i):
        print(i)

sendmail.cf


#### 과제1_0426.
아래 text에서  ['file2.pdf', 'file3.docx', 'file4.xlsx'] 만 출력하세요.

In [None]:
text = "file1.txt file2.pdf file3.docx file4.xlsx"

In [11]:
# (?<=@)는 전방탐색으로, @ 기호 이후에 오는 문자열을 찾음
# [\w.]+는 도메인 이름을 나타내는 패턴으로, 알파벳 대소문자, 숫자, 밑줄, 마침표를 포함
# (?!\d+)는 부정 탐색으로, 도메인 이름 이후에 오는 .com, .org 등의 문자열을 제외
email = "example@gmail.com"
p = r'(?<=@)[\w.]+(?!\d+)'
re.search(p,email).group()

'gmail.com'

#### 과제2_0426.
아래 email에서 정규표현식 (?<=@)을 이용하여 example만 출력하세요.

In [None]:
email = "john.doe@example.com"

In [17]:
# 문자열 바꾸기
# sub 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 쉽게 바꿀 수 있음
text = 'blue socks and red shoes'
p = re.compile('(blue|white|red)')
print(p.sub('colour', text))
print(p.sub('colour', text, count=1)) # 횟수를 제어
print(p.subn('colour', text)) # 반환 결과를 튜플로 돌려줌. 바꾸기 횟수도 표현

colour socks and colour shoes
colour socks and red shoes
('colour socks and colour shoes', 2)


In [18]:
# Q. '12345abc'에서 sub() 메서드를 이용하여 'abc'만 출력하세요.
str = '12345abc'
p = re.compile('\d+')
print(p.sub('', str))

abc


In [21]:
# Q. '12345abc'에서 '12345'만 출력하세요.
d = '12345abc'
p = re.compile('\D+')
# p = re.compile('[^0-9]+')
print(p.sub('',d))

12345


In [22]:
# 이름 + 전화번호의 문자열을 전화번호 + 이름으로 바꾸는 예
text = "park 010-1234-1234"
p = re.compile(r'(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)')
print(p.sub("\g<phone> \g<name>", text))

010-1234-1234 park


In [23]:
# 그룹 이름 대신 참조 번호를 사용할 수 있음
print(p.sub("\g<2> \g<1>", text))

010-1234-1234 park


In [24]:
# sub 메서드의 매개변수로 함수 넣기
def hexrepl(match):
    value = int(match.group())
    return hex(value)

text = 'Call 65490 for printing, 49152 for user code.'
p = re.compile(r'\d+')
p.sub(hexrepl, text)

'Call 0xffd2 for printing, 0xc000 for user code.'

#### 과제3_0426.
창의적인 사용자 함수를 생성하여 sub 메서드의 매개변수로 적용하는 사례를 작성하세요.

정규표현식에서 greedy와 nongreedy는 매칭(matching) 과정에서 사용되는 용어입니다.

- Greedy: 가능한 가장 긴 문자열을 매칭하는 방식입니다. 즉, 매칭할 수 있는 최대한의 문자열을 선택합니다. 예를 들어, .*는 0개 이상의 어떤 문자든지 가능한 최대한의 문자열을 매칭합니다.

- Nongreedy (또는 Lazy): 가능한 가장 짧은 문자열을 매칭하는 방식입니다. 즉, 매칭할 수 있는 최소한의 문자열만 선택합니다. 예를 들어, .*?는 0개 이상의 어떤 문자든지 가능한 최소한의 문자열을 매칭합니다.

In [25]:
text = "There are 123 apples and 456 bananas"
p_greedy = re.compile(r'\d+')
p_nongreedy = re.compile(r'\d+?')
mg = p_greedy.search(text)
mng = p_nongreedy.search(text)
print(mg.group())
print(mng.group())

123
1


In [26]:
# Q. 주어진 s에서 최대한의 문자열인 <html><head><title>Title</title> 과 최소한의 <html>를 각각 출력하세요.
s = '<html><head><title>Title</title>'
print(re.search('<.+>',s).group())
re.search('<.+?>',s).group()

<html><head><title>Title</title>


'<html>'