In [1]:
%%HTML
<style>
div.prompt {display:none}
</style>
// hide input prompt
$(document).ready(function() {
    $('div.prompt').css('display', 'none');
});


# 정규표현식 기본 개념

한 영화관에서는 예매 시 사용자의 휴대폰 번호를 입력받아야 합니다. 예매 정보는 해당 번호와 함께 저장됩니다. 그러나 종종 잘못된 번호가 입력되어 예매 정보가 유실되는 문제가 발생했습니다.

이런 문제를 해결하기 위해, 영화관은 **정규표현식**을 사용해 휴대폰 번호를 검증하기로 결정했습니다. 이제 사용자가 휴대폰 번호를 입력할 때, 정확한 형식으로 입력되었는지 확인하고, 유효한 번호만 저장할 수 있습니다.

## 정규표현식이란?

정규표현식(Regular Expression)은 문자열에서 특정한 패턴을 찾거나, 대체하거나, 추출하는데 사용되는 문자열입니다. 즉, 문자열에서 원하는 문자를 찾거나 바꾸기 위한 일종의 패턴이라고 생각할 수 있습니다.


예를 들어, 정규표현식에서 ['.'은 어떤 문자 하나]를 의미하고, ['*'는 바로 앞의 문자가 0번 이상 반복]됨을 의미합니다. 또한, '|'는 OR 조건을 의미하고, '^'는 문자열의 시작을 의미합니다.

파이썬에서는 정규표현식을 처리하기 위해 're' 모듈을 제공합니다. 're' 모듈을 사용하면 문자열에서 패턴을 찾거나, 추출하거나, 대체할 수 있습니다.

In [20]:
#문자열에서 숫자만 추출하는 예시

import re
text = 'Hello,my number is 12345. '

numbers = re.findall('\d+',text)
numbers

['12345']

## 정규표현식의 장단점

[장점]
1.	유연성: 정규표현식을 사용하면 다양한 패턴을 표현할 수 있습니다. 예를 들어, 특정 문자열이 특정 패턴을 따르는지 여부를 확인하거나, 특정 패턴을 가진 문자열을 찾아내는 등 다양한 용도로 사용할 수 있습니다.
2.	간결성: 문자열에서 원하는 정보를 추출하는 데에는 정규표현식이 다른 방법에 비해 더 간단하고 직관적입니다.
3.	속도: 정규표현식은 문자열을 일일이 검색하는 것보다 더 빠른 속도로 패턴을 찾아낼 수 있습니다.

[단점]
1.	복잡성: 정규표현식은 다양한 패턴을 표현할 수 있지만, 그만큼 문법이 복잡합니다. 특히 초보자에게는 익숙해지기까지 시간이 걸릴 수 있습니다.
2.	이식성: 언어나 툴마다 문법이 조금씩 다르기 때문에, 한 번 익힌 정규표현식이 다른 환경에서는 작동하지 않을 수도 있습니다.
3.	가독성: 정규표현식을 사용하면 코드의 가독성이 떨어질 수 있습니다. 특히, 매우 복잡한 정규표현식을 작성하면 코드가 길어지고 가독성이 나빠질 수 있습니다.
위와 같이, 정규표현식은 다양한 장단점을 가지고 있습니다. 그러나 정규표현식은 파이썬을 비롯한 다양한 프로그래밍 언어에서 사용되는 유용한 도구입니다. 아래는 파이썬 코드로 정규표현식을 사용한 문자열 패턴 매칭 예시입니다.

In [26]:
# 정규표현식을 이용하여 전화번호를 추출하는 예시

#패턴 설정
pattern = r"\d{3}-\d{4}-\d{4}" #3자리수 - 4자리 수 - 4자리 수   조합

#패턴 매칭
phone_numbers = ['010-1234-5678', '02-555-1234','031-222-3333']
matched_numbers = []
for number in phone_numbers: #for문으로 모든 원소를 하나씩 검사 
    if re.match(pattern, number):
        matched_numbers.append(number) #매치하는 경우 매피 넘버스에 저장
        print(matched_numbers)

['010-1234-5678']


## 정규표현식의 구성 요소

정규표현식은 다음과 같은 구성 요소를 가집니다.

- 문자: 특정 문자를 표현합니다. 예를 들어, 'a'는 문자 'a'를 의미합니다.
- 메타 문자: 특별한 의미를 가지는 문자입니다. 예를 들어, '.'은 어떤 문자에도 매치되는 문자입니다.
- 문자 클래스: 여러 개의 문자 중 하나를 선택합니다. 대괄호([])로 표현합니다. 예를 들어, '[abc]'는 'a', 'b', 'c' 중 하나에 매치됩니다.
- 반복: 문자 또는 메타 문자가 반복되는 횟수를 지정합니다.'', '*', '+', '?', '{m}', '{m,n}' 등으로 표현합니다. 예를 들어, 'a'는 'a'가 0번 이상 반복되는 문자열에 매치됩니다.
- 그룹: 하나의 문자 또는 메타 문자의 집합을 그룹화합니다. 괄호()로 표현합니다. 예를 들어, '(abc)+'는 'abc'가 1번 이상 반복되는 문자열에 매치됩니다.

## Row String

- 로우스트링은 문자열 안에 있는 이스케이프 문자를 무시하고 문자 그대로 해석하도록 하는 문자열.
- 로우스트링을 사용하면 이스케이프 문자를 사용하지 않고도 백슬래시()를 문자 그대로 사용할 수 있습니다. 이를 통해 정규 표현식, 파일 경로, URL 등과 같은 문자열을 다룰 때 유용하게 사용할 수 있습니다.
- 로우스트링을 사용하면 백슬래시와 같은 이스케이프 문자를 사용하지 않아도 되므로 가독성이 좋아진다.

In [28]:
str1 = "C:\\Users\\Desktop\\file.txt"
str2 = r"C:\Users\Desktop\file.txt"
print(str1,'\n')
print(str2)

C:\Users\Desktop\file.txt 

C:\Users\Desktop\file.txt


In [4]:
#로우 스트링 예시 - 0425

text1 = 'line\network' #\n 을 역슬래시로 인식해서 문법에 오류가 생긴다
print(text1,'\n')

text2 = r'line\network' #\를 구분하는 문자 그대로 쓰고 싶다.
print(text2)



line
etwork 

line\network


In [5]:
#이스케이프 문자 -0425
# 이스케이프 문자(escape character)는 특별한 의미를 가지고 있는 문자열을 문자 그대로 해석하도록 하는 문자
# r"\n"은 \n 이스케이프 문자를 포함하는 문자열 리터럴이 아니라, \와 n 두 개의 문자로 구성된 
# 문자열 리터럴로 해석됩니다

text1 = "Hello, \nworld!"

text2 = "Hello, \\nworld!" #\를 하나 더 붙여주면 \n이 문자로 인식된다. 

text3 = r"Hello, \nworld!"

print(text1,'\n')
print(text2,'\n')
print(text3)


Hello, 
world! 

Hello, \nworld! 

Hello, \nworld!


In [2]:
#re.findall()은 두개의 인자를 가집니다. 첫번째 인자는 찾으려는 패턴을 지정하는 정규 표현식이며,
# 두 번째 인자는 검색 대상이 되는 문자열입니다.

import re
pattern1 = 'a'
text1 = 'apple'
print(re.findall(pattern1,text1))

pattern2 = '.'
text2 = 'apple'
print(re.findall(pattern2,text2))

pattern3 = '[aeiou]'
text3 = 'apple'
print(re.findall(pattern3,text3))

pattern4 = 'ba*na'
text4 = 'banaana'
print(re.findall(pattern4,text4))

pattern5 = '(ba)*na' #그룹으로 묶은것만 출력되고 남은 나머지(ana)는 공백처리
text5 = 'banaana'
print(re.findall(pattern5,text5))

['a']
['a', 'p', 'p', 'l', 'e']
['a', 'e']
['bana']
['ba', '']


In [11]:
import re
pattern7 = '(ap)*ple'
text7 = 'apple'
print(re.findall(pattern7,text7)) #그럼 얘는 왜안됨? = ap가 ple를 가진 값이어야 하니까 

['ap']


In [13]:
pattern7 = '(ap)*ple'
text7 = 'appleple'
print(re.findall(pattern7,text7)) # (ap)*ple 하고 남은 ple에 대해 ''처리 

['ap', '']


In [3]:
import re
pattern1 = 'a'
text1 = 'apple'
print(re.search(pattern1,text1))

pattern2 = '.'
text2 = 'apple'
print(re.search(pattern2,text2))

pattern3 = '[aeiou]'
text3 = 'apple'
print(re.search(pattern3,text3))

pattern4 = 'ba*na'
text4 = 'banaana'
print(re.search(pattern4,text4))

pattern5 = '(ba)*na'
text5 = 'banaana'
print(re.search(pattern5,text5))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 4), match='bana'>
<re.Match object; span=(0, 4), match='bana'>


# 정규표현식의 문법


정규표현식의 문법에는 다양한 메타문자(meta-character)가 사용됩니다. 메타문자란 일반적으로 사용되는 문자가 아니라, 특별한 의미를 가지는 문자를 말합니다. 메타문자는 다양한 용도로 사용되며, 각각의 기능은 다음과 같습니다.

## 메타문자의 종류와 사용 방법



[문자 클래스]
 - \d 숫자와 매치, [0-9]와 동일한 표현식
 - \D 숫자가 아닌 것과 매치(문자,특수문자), [^0-9]와 동일한 표현식
 - \s whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식
 - \S whitespace 문자가 아닌 것과 매치(숫자,특수문자), [^ \t\n\r\f\v]와 동일한 표현식
 - \w 문자 + 숫자와 매치, [a-zA-Z0-9]와 동일한 표현식
 - \W 문자 + 숫자가 아닌 문자와 매치(=특수문자), [^a-zA-Z0-9]와 동일한 표현식

[whitespace]
 -  스페이스 바 (아스키코드 32)
 -  ＼b  뒤로 한 칸 이동 (Backspace) (아스키코드 8)
 -  ＼t  수평탭 간격 띄우기 (아스키코드 9)
 -  ＼n  줄바꿈 (Linefeed) (아스키코드 10)
 -  ＼v  수직탭 간격 띄우기 (아스키코드 11)
 -  ＼f  프린트 출력 용지를 한 페이지 넘김 (Form feed) (아스키코드 12)
 -  ＼r  동일한 줄의 맨 앞으로 커서 이동 (Carriage Return) (아스키코드 13)
 - Dot(.) 메타 문자는 줄바꿈 문자인 [[\n를 제외한]] 모든 문자와 매치됨을 의미
 
참고: whitespace 문자는 공백과 같은 문자. 주로 특정 문자열에서 단어를 구분하기 위하여 사용. 


[문자열의 반복과 선택을 나타내는 메타문자]
- ^ : 문자열의 시작을 나타냄. 예를 들어, '^a'는 문자열의 시작이 'a'인 경우와 매치됨.
- \\$ : 문자열의 끝을 나타냄. 예를 들어, 'a$'는 문자열의 끝이 'a'인 경우와 매치됨.



[문자열의 반복과 선택을 나타내는 메타문자]
- 반복(\*) ca*t 0부터 무한대로 반복
- 반복(\+) ca+t 최소 1번 이상 반복
- ca{m,n} a 반복 횟수가 m부터 n까지인 것을 매치
- ca{2}t는 c+a(2번 반복)+t의 의미
- 반복횟수가 {1,}은 1 이상, {0,}은 0 이상인 경우로 각각 +, *와 동일하며 {,1}은 반복횟수가 1 이하를 의미.
- ab?c : b가 0~1번 사용되면 매치되는 것으로 ?은 앞의 b가 있어도 되고 없어도 된다

## re 모듈

정규표현식을 파이썬에서 사용하기 위해서는 re 모듈을 import하여 사용합니다. 이를 이용하여 정규식을 컴파일하고 정규식을 이용한 문자열 검색 등 다양한 작업을 수행할 수 있습니다.

re 모듈을 이용하여 문자열 검색을 수행하는 함수는 다음과 같습니다.

- compile(): 정규식을 컴파일합니다.
- match(): 문자열의 처음부터 정규식과 매치되는지 조사합니다.- 맨 처음 것을 기준(0425)
- search(): 문자열의 전체를 검색하여 정규식과 매치되는지 조사합니다.- 전체 중 첫번째거 하나만 나옴(0425)
- findall(): 정규식과 매치되는 모든 문자열을 리스트로 리턴합니다.
- finditer(): 정규식과 매치되는 모든 문자열을 [반복 가능한 객체로 리턴]합니다.

In [29]:
pattern = re.compile('ab+c')
match = pattern.search('abbbc') # + 가 한번 이상이므로 매치 가능
if match:
    print('match found!') #매치되는게 있으면 이 문자를 출력하라.
else:
    print("not matched")

match found!


In [12]:
re.search(pattern,'abbbc')

<re.Match object; span=(0, 5), match='abbbc'>

In [13]:
re.search(pattern,'eeeabbbc') #abbbc가 함께 있어서 출력 됨

<re.Match object; span=(3, 8), match='abbbc'>

In [14]:
re.match(pattern,'abbbceee') #매치는 처음부터 보기때문에 가능

<re.Match object; span=(0, 5), match='abbbc'>

In [16]:
re.findall(pattern,'abbbceeeabce') #조건을 모두 만족하므로 두 개의 값이 모두 나옴. 

['abbbc', 'abc']

In [17]:
re.finditer(pattern,'abbbceeeabce') #객체로 출력됨. 

<callable_iterator at 0x2a73f3590a0>

In [19]:
m = re.finditer(pattern,'abbbceeeabce')
for i in m:
    print(i)

<re.Match object; span=(0, 5), match='abbbc'>
<re.Match object; span=(8, 11), match='abc'>


In [8]:
#만약 c로 하면
pttern = re.compile('abc+c')
match = pattern.search('abbbc') # abc가 나오고 반복이 나와야 하는데 아니어서 매치 x
if match:
    print('match found!') 

In [10]:
re.search(pattern,'abbbc')

In [None]:
#만약 abc로 하면
pttern = re.compile('abc+c')
match = pattern.search('abc') # 위에 +가 있으므로 하나이상 반복해야 하는데 없으므로 매치x 
if match:
    print('match found!') 

### 과제 1_0424
정규표현식을 사용하여 text에서 이메일을 추출하세요.

text = "이메일 주소는 abc123@gmail.com입니다"

## 과제 2_0424

정규표현식을 사용하여 text에서 전화번호를 추출하세요.

text = "전화번호는 010-1234-5678 입니다"


## 과제 3_0424

정규표현식을 사용하여 text에서 url을 추출하세요.

text = "저의 블로그 주소는  http://www.example.com 입니다"

In [None]:
### 과제 4_0424

정규표현식을 이용하여 html 태그를 제거한 후 "안녕하세요, 파이썬입니다."를 출력하세요.

html_string = "<p>안녕하세요<b>파이썬</b>입니다</p>"

과제5_0424.
text = ' Python3 is very good programming language!' 에서 다음을 수행하세요.

- ['Python', 'is', 'very', 'good', 'programming', 'language'] 을 출력
- Python3 출력
- Python 출력
- 숫자만 출력
- Python3를 python으로 대체

## 0425

In [44]:
# 연습

text1 = 'python python'  #공백 1개
text2 = 'python python ' #공백 2개
text3 = '3python '

In [28]:
import re
p = re.compile('[a-z]+\s')
p.match(text1) #0~6까지 있는데 빈칸있어서 7로 나옴.

<re.Match object; span=(0, 7), match='python '>

In [29]:
#위 값에서 매치된것만 뽑고 싶을 때 그룹으로 묶어준다
p = re.compile('[a-z]+\s') #하나 이상의 소문자([a-z]+) 다음에 공백 문자(\s)이 따르는 문자열에 일치
p.match(text1) .group()

'python '

In [30]:
re.match('[a-z]+\s',text1).group()

'python '

In [31]:
re.findall('[a-z]+\s',text1)

['python ']

In [34]:
 re.findall('[a-z]+\s',text2) 

['python ', 'python ']

In [35]:
p.findall(text2)

['python ', 'python ']

In [45]:
# p.match(text3) #시작부분이 3이라 매치되는거 없음
p.search(text3).group()

'python'

In [46]:
p.findall(text3)

['python']

In [43]:
# 문자 클래스 :[]
p = re.compile('[a-z]+')
p1 = p.match('Banker') #B가 대문자라 안됨
p2 = p.search('banker')
print(p1)
print(p2)

None
<re.Match object; span=(0, 6), match='banker'>


In [65]:
# Q. '12345abc'에서 'a'만 출력하세요.
text = '12345abc'
# re.findall('[a]',text) 
re.search('[a]',text) .group()

'a'

In [66]:
# Q. 'abc12345Abc'에서 'A'만 출력하세요
text = 'abc12345Abc'
# re.findall('[A]',text) 
re.search('[A]',text) .group()

'A'

In [56]:
# Q. 'KOREA 대한민국'에서 '대'만 출력하세요
text ='KOREA 아대한민국'
re.findall('[대]',text) 

['대']

In [67]:
# 정슬기
import re
text = 'KOREA 대한민국'
p=re.compile('[가-힣]')
re.findall(p,text)[0]

'대'

In [71]:
# Q. '122333c' 를 모두 출력하세요
text = '122333c' 
# re.findall('\w',text) 
re.findall('\w+',text)  


['122333c']

In [77]:
# Q. '122333c' 를  출력하세요
text = '122333c456' 
# re.findall('12{2}3{3}c',text) #2가 2개, 3이 3개
re.search('12{2}3{3}c',text).group()

'122333c'

In [76]:
# Q. 'aaaaBBBcccDDDeee'를 모두 출력하세요
text ='aaaaBBBcccDDDeee'
# re.findall('a{4}B{3}c{3}D{3}e{3}',text)
re.search('a{4}B{3}c{3}D{3}e{3}',text).group()

'aaaaBBBcccDDDeee'

## 과제 1_0425
BC,CC,ABC 모두 C가 출력되는 정규 표현식을 ()에 작성하세요 

### 과제 2_0425
'1234a123' 에서 '1','2','3','4'를 모두 출력하세요

### 과제 3_0425
'99food234, a93456\n,a9356ba' 에서 '99food234'만 출력하세요.

In [78]:
text = 'life is too short'
p = re.compile('[a-z]+')
result = p.search(text) #전체에서 맨 앞에거가 나온다. 
print(result)

<re.Match object; span=(0, 4), match='life'>


In [79]:
#반복가능한 객체로 나오게 하기 = finditer()
result = p.finditer(text)
for r in result:
    print(r.group())

life
is
too
short


In [80]:
#모든 문자 출력 - findall
text = ' Python3 is very good programming language!'
re.findall('[a-zA-Z]+',text) # 3는 빠지고 문자만 출력됨

['Python', 'is', 'very', 'good', 'programming', 'language']

In [84]:
#모든 문자 출력 - finditer
result = re.finditer('[a-zA-Z]+',text)
for r in result:
    print(r.group())
print(result) #객체 출력 

Python
is
very
good
programming
language
<callable_iterator object at 0x000002511690A710>


In [86]:
# match
text1 = 'life'
text2 = '!!!oh my life'
text3 = '7 is lucky number'
print(re.match('[a-z]+',text1).group()) #처음매치되는 문자만
print(re.match('[a-z]+',text2)) #none파일이라 그룹불가
print(re.match('[a-z]+',text3)) #none파일이라 그룹불가

life
None
None


In [90]:
# match 객체의 메서드
m=re.match('[a-z]+','python') #첫번째 인자 패턴, 두번째인자 텍스트
#<re.Match object; span=(0, 6), match='python'> = 0번~6번 전까지 =012345
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


In [92]:
# search객체의 메서드
m=re.search('[a-z]+','3 python') #서치는 전체 덱스트에서 출력
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(2, 8), match='python'>
python
2
8
(2, 8)


In [101]:
# Dot(.) 메타 문자는 줄바꿈 문자 (\n)을 제외한 모든 문자와 매치
text =['a\nb','acb','a12?Ab']
for t in text:
    r=re.match('a.+b',t) #.은 역슬래시 빼고 모든걸 다 커버함 
    print(r)

None
<re.Match object; span=(0, 3), match='acb'>
<re.Match object; span=(0, 6), match='a12?Ab'>


In [103]:
#re.DOTALL() : 여러줄로 이루어진 문자열에서 \n에 상관없이 검색시 사용
p = re.compile('a.b',re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [104]:
text = 'what are you doing? \n it is going to be late for school'
p = re.compile('.*')
m = p.search(text)
print(m.group())

what are you doing? 


In [105]:
text = 'what are you doing? \n it is going to be late for school'
p = re.compile('.*',re.DOTALL)
m = p.search(text)
print(m.group())

what are you doing? 
 it is going to be late for school


## 과제 4_0425
text에서 전체 문장 모두 출력하세요.

In [None]:
text = 'what are you doing? \n it is going to be late for school'
       '\nwe need to hungry up'

In [107]:
#re.IGNORECASE 또는 re.I 옵션은 대소문자 구분없이 매치를 수행시 사용
re.match('[a-z]+','pAthon',re.I).group()

'pAthon'

### 과제 5_0425.
아래 text에 내용을 모두 출력하세요.<br>
text = ['pAthon','PATHON','pathon','Pathon']

In [123]:
# Q. text에서 대소문자 구분없이 전체문장 모두 출력하세요 
text = 'Friend fRiend friEnd FRIEND'
list = re.findall('friend',text,re.I)
for i in list:
    print(i)

Friend
fRiend
friEnd
FRIEND


In [118]:
data = """python one
life is too short
python two
you need python
python three"""

In [121]:
#python 이라는 문자열로 시작하고 그 뒤에 whitespace, 그 뒤에 단어가 오는 경우
re.findall('^python\s\w+',data)

['python one']

In [122]:
# re.MULTILINE 또는 re.M옵션으로 ^메타 문자를 각 라인의 처음으로 인식시킴
re.findall('^python\s\w+',data,re.M)

['python one', 'python two', 'python three']

In [124]:
# re.VERBOSE 또는 re.X : 이해하기 어려운 정규식을 주석 또는 라인 단위로 구분
# charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')
charref = re.compile(r"""
&[#]               # Start of a numeric entity reference
(
    0[0-7]+        # Octal form
  | [0-9]+         # Decimal form 
  | x[0-9a-fA-F]+  # Hexadecimal form
)
;                  # Trailing semicolon 
""",re.VERBOSE)

In [127]:
#파이썬의 문자열 리터럴 규칙에 의하여 \\이 \으로 변경되어 \section이 전달

p = re.compile('\\section')
p.match('\section')
p.findall('\section\section') # 이 상태로는 셋다 실행이 안됨.

[]

In [129]:
#정규식 문자열 앞에 r문자를 삽입하면 로우스트링 규칙에 의해 백슬래시 2개 대신 1개 사용
# 파이썬 문자열 리터럴 규칙에 의하여 \\이 \으로 변경되어 \section이 전달
# 정규식 문자열 앞에 r문자를 삽입하면 Raw String 규칙에 의하여 백슬래시 2개 대신 1개 사용
p = re.compile(r'\\section') 
p.match('\section')
# p.findall('\section\section')

<re.Match object; span=(0, 8), match='\\section'>

In [131]:
#|(or와 동일한 의미)

re.match('Crow|Servo','CrowHello').group()

'Crow'

In [132]:
# ^(문자열의 맨 처음), $(문자열의 끝과 매치)
re.search('^Life', 'Life is too short').group()

'Life'

In [134]:
re.search('Life$', 'My Life').group()

'Life'

In [136]:
re.findall('^Life|Life$', 'Life My Life')

['Life', 'Life']

In [141]:
# \A : 문자열의 처음과 매치. 단, re.MULTILINE 옵션 사용시 ^와는 달리 전체 문자열의 처음하고만 매치

data = """Life is too short
Life is good
Life is valuable"""

# re.findall('^Life',data)
# re.findall('\ALife',data)
re.findall('\ALife',data,re.M)

['Life']

In [147]:
# \Z : 문자열의 끝과 매치. 단, re.MULTILINE  옵션 사용시 $와는 달리 전체 문자열의 끝하고만 매치
data=data1 = """Life is too short
Life is good
Life is very good"""

# re.findall('good',data,re.M)
re.findall('good\Z',data,re.M)

['good']

In [153]:
# Q. 'we are going home'에서 home 만 출력하세요.
text = 'we are going home'
h = re.search('home',text,re.M).group()
print(h)

home


In [156]:
#답 
text = 'we are going home'
re.findall('home\Z',text) #맨 뒤에있으니까 \Z

['home']

In [154]:
#Q. 'home sweet'에서 home 만 출력하세요.
text = 'home sweet'
re.findall('\Ahome',text) # 맨 앞에 있으니까 \A

home


In [159]:
# Q. '199305, 1923A, a93247' 에서 '199305'만 출력하세요.
text='199305, 1923A, a93247' 
re.findall('\A199305',text,re.M)  # 맨 앞에 있으니까 \A

['199305']

In [168]:
# Q. text에서 '199305'만 출력하세요.- 다른예시
text='1923A,199305,  a93247' 
# re.findall('\d+',text)[1]
re.findall('\d{6}',text)

['199305']

In [169]:
#김나영
text = '1923A,199305,a93247'
print(re.findall('(\d+),',text)) # 그룹으로 묶어서 하는 방법

['199305']


In [172]:
# \b : whitespace에 의해 구분
text1 = 'no class at all'
re.search(r'\bclass\b',text1).group()

'class'

In [208]:
# \B : whitespace로 구분된 단어가 아닌 경우에만 매치
text2 = 'the declassified algorithim'
re.search(r'\Bclass\B', text2).group()
# re.search(r'\Bclass\B', text1).group()

'class'

In [207]:
# Q. 정규표현식을 사용하여 text에서 에러가 들어간 부분만 포함하는 리스트를 출력하세요. 
text = "에러 1122, 레퍼런스 오류, 에러 1033, 아규먼트 오류, 에러 xxx"
print(re.findall(r'에러\s[^,]+', text))
print(re.findall(r'에러\s\w+', text))

['에러 1122', '에러 1033', '에러 xxx']
['에러 1122', '에러 1033', '에러 xxx']


### 과제6_0425.
( )에 정규표현식을 작성하여 아래와 같이 출력하세요.

['1 apple', '5 oranges', '3 boys', '4 girls', '10 army', '11 mr']

In [None]:
import re
li = '1 apple, 5 oranges, 3 boys, 4 girls; 10 army| 11 mr'
regex = re.compile(      )
list = regex.findall(li)
print(list)

### 과제7_0425.
text에서 다음을 수행하세요.

- 'H,h'만 출력하세요.
- 'H,h'가 아닌 것 모두를 출력하세요.

In [205]:
text = 'Hello my friend! Life is short you need Python!'

In [173]:
# 그룹핑
# group(0) 매치된 전체 문자열, 1 첫번째 그룹, 2 두번째그룹, n n번째 그룹

text = 'ABCABCABC OK?'
m = re.search('(ABC)+', text)
print(m)
print(m.group(0))
print(m.group(1))

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [None]:
# Q. text에서 그룹핑을 사용하여 아래와 같이 출력하세요.
ABCDEF
ABCDEF
AB
CD
EF

In [175]:
text = 'DEFABCDEFDEF OK?'

m = re.search('((AB)(CD)(EF))', text)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

ABCDEF
ABCDEF
AB
CD
EF


## 과제 8_0425

정규 표현식을 사용하여 text 에서 다음 사항을 수행하세요.
- 지역코드만 출력하세요.
- 지역코드 제외한 번호만 출력하세요

text= "문의사항 있으면 032-232-3245로 연락주시기 바랍니다."


In [176]:
text = 'park 010-1234-1234'
m = re.search(r'(\w+)\s+((\d+)[-]\d+[-]\d+)', text)
print(m)
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group())

<re.Match object; span=(0, 18), match='park 010-1234-1234'>
park
010-1234-1234
010
park 010-1234-1234


In [204]:
#그룹핑된 문자열 재창조
# \1은 재참조 메타 문자로서 정규식의 첫번 째 그룹을 지칭 = 2개의 동일한 단어가 연속적으로 사용되어야 매치
# Q. 'Paris is very very beautiful.'에서 'very very'를 출력해보세요.


text = 'Paris is very very beautiful.'
re.search(r'\b(\w+)\s+\1',text).group()

'very very'

### 과제 9_0425

아래 text에서 정규표현식을 사용하여 'the the the'를 출력하세요.

In [184]:
text = 'Paris in the the the spring'

In [185]:
# Q. 'abcdefghij'에 대하여 중첩을 적용한 서브그룹 5개로 컴파일하여 group()함수를 이용하여
# 'abcdefghi' 와 'e'를 출력하세요

In [199]:
t ='abcdefghij'
m = re.search(r'((ab)(cd)(e)(fg)(hij))',t) #i 까지 하라그랬는데 j가 나옴. 고쳐보자 
print(m.group(1))
print(m.group(4))

abcdefghij
e


In [200]:
t ='abcdefghij'
m = re.search(r'(a(b(c(d(e)f)g)h)i)j',t)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))
print(m.group(5))
print(m.groups()) #전부 출력

abcdefghij
abcdefghi
bcdefgh
cdefg
def
e
('abcdefghi', 'bcdefgh', 'cdefg', 'def', 'e')


In [201]:
# Q.위 문제에서 모든 서브 그룹에 대한 문자열을 포함하는 튜플을 출력하세요.
print(m.groups())

('abcdefghi', 'bcdefgh', 'cdefg', 'def', 'e')


그룹핑된 문자열에 이름 붙이기
- 정규표현식에서 그룹핑 된 문자열에 이름을 붙이는 방법은 (?P$<name$>pattern)형식을 사용하는 것입니다. 이 때, name은 그룹에 붙일 이름이며 pattern은 그룹화할 정규식 패턴입니다.

In [203]:
text = "John's phone number is 123-4565-7890."
p = r'(?P<phone>\d{3}-\d{4}-\d{4})'
m = re.search(p,text)
m.group('phone')

'123-4565-7890'

과제10_0425.
이름으로 그룹을 참조하여 text 에서 Lots를 출력하세요.

text = 'Lots of punctuation Lots of punctuation'