In [1]:
%%HTML
<style>
div.prompt {display:none}
</style>
// hide input prompt
$(document).ready(function() {
    $('div.prompt').css('display', 'none');
});


# 정규표현식 기본 개념

한 영화관에서는 예매 시 사용자의 휴대폰 번호를 입력받아야 합니다. 예매 정보는 해당 번호와 함께 저장됩니다. 그러나 종종 잘못된 번호가 입력되어 예매 정보가 유실되는 문제가 발생했습니다.

이런 문제를 해결하기 위해, 영화관은 **정규표현식**을 사용해 휴대폰 번호를 검증하기로 결정했습니다. 이제 사용자가 휴대폰 번호를 입력할 때, 정확한 형식으로 입력되었는지 확인하고, 유효한 번호만 저장할 수 있습니다.

## 정규표현식이란?

정규표현식(Regular Expression)은 문자열에서 특정한 패턴을 찾거나, 대체하거나, 추출하는데 사용되는 문자열입니다. 즉, 문자열에서 원하는 문자를 찾거나 바꾸기 위한 일종의 패턴이라고 생각할 수 있습니다.


예를 들어, 정규표현식에서 '.'은 어떤 문자 하나를 의미하고, '*'는 바로 앞의 문자가 0번 이상 반복됨을 의미합니다. 또한, '|'는 OR 조건을 의미하고, '^'는 문자열의 시작을 의미합니다.

파이썬에서는 정규표현식을 처리하기 위해 're' 모듈을 제공합니다. 're' 모듈을 사용하면 문자열에서 패턴을 찾거나, 추출하거나, 대체할 수 있습니다.

In [20]:
#문자열에서 숫자만 추출하는 예시

import re
text = 'Hello,my number is 12345. '

numbers = re.findall('\d+',text)
numbers

['12345']

## 정규표현식의 장단점

[장점]
1.	유연성: 정규표현식을 사용하면 다양한 패턴을 표현할 수 있습니다. 예를 들어, 특정 문자열이 특정 패턴을 따르는지 여부를 확인하거나, 특정 패턴을 가진 문자열을 찾아내는 등 다양한 용도로 사용할 수 있습니다.
2.	간결성: 문자열에서 원하는 정보를 추출하는 데에는 정규표현식이 다른 방법에 비해 더 간단하고 직관적입니다.
3.	속도: 정규표현식은 문자열을 일일이 검색하는 것보다 더 빠른 속도로 패턴을 찾아낼 수 있습니다.

[단점]
1.	복잡성: 정규표현식은 다양한 패턴을 표현할 수 있지만, 그만큼 문법이 복잡합니다. 특히 초보자에게는 익숙해지기까지 시간이 걸릴 수 있습니다.
2.	이식성: 언어나 툴마다 문법이 조금씩 다르기 때문에, 한 번 익힌 정규표현식이 다른 환경에서는 작동하지 않을 수도 있습니다.
3.	가독성: 정규표현식을 사용하면 코드의 가독성이 떨어질 수 있습니다. 특히, 매우 복잡한 정규표현식을 작성하면 코드가 길어지고 가독성이 나빠질 수 있습니다.
위와 같이, 정규표현식은 다양한 장단점을 가지고 있습니다. 그러나 정규표현식은 파이썬을 비롯한 다양한 프로그래밍 언어에서 사용되는 유용한 도구입니다. 아래는 파이썬 코드로 정규표현식을 사용한 문자열 패턴 매칭 예시입니다.

In [26]:
# 정규표현식을 이용하여 전화번호를 추출하는 예시

#패턴 설정
pattern = r"\d{3}-\d{4}-\d{4}" #3자리수 - 4자리 수 - 4자리 수   조합

#패턴 매칭
phone_numbers = ['010-1234-5678', '02-555-1234','031-222-3333']
matched_numbers = []
for number in phone_numbers: #for문으로 모든 원소를 하나씩 검사 
    if re.match(pattern, number):
        matched_numbers.append(number) #매치하는 경우 매피 넘버스에 저장
        print(matched_numbers)

['010-1234-5678']


## 정규표현식의 구성 요소

정규표현식은 다음과 같은 구성 요소를 가집니다.

- 문자: 특정 문자를 표현합니다. 예를 들어, 'a'는 문자 'a'를 의미합니다.
- 메타 문자: 특별한 의미를 가지는 문자입니다. 예를 들어, '.'은 어떤 문자에도 매치되는 문자입니다.
- 문자 클래스: 여러 개의 문자 중 하나를 선택합니다. 대괄호([])로 표현합니다. 예를 들어, '[abc]'는 'a', 'b', 'c' 중 하나에 매치됩니다.
- 반복: 문자 또는 메타 문자가 반복되는 횟수를 지정합니다. '', '+', '?', '{m}', '{m,n}' 등으로 표현합니다. 예를 들어, 'a'는 'a'가 0번 이상 반복되는 문자열에 매치됩니다.
- 그룹: 하나의 문자 또는 메타 문자의 집합을 그룹화합니다. 괄호()로 표현합니다. 예를 들어, '(abc)+'는 'abc'가 1번 이상 반복되는 문자열에 매치됩니다.

## Row String

- 로우스트링은 문자열 안에 있는 이스케이프 문자를 무시하고 문자 그대로 해석하도록 하는 문자열.
- 로우스트링을 사용하면 이스케이프 문자를 사용하지 않고도 백슬래시()를 문자 그대로 사용할 수 있습니다. 이를 통해 정규 표현식, 파일 경로, URL 등과 같은 문자열을 다룰 때 유용하게 사용할 수 있습니다.
- 로우스트링을 사용하면 백슬래시와 같은 이스케이프 문자를 사용하지 않아도 되므로 가독성이 좋아진다.

In [28]:
str1 = "C:\\Users\\Desktop\\file.txt"
str2 = r"C:\Users\Desktop\file.txt"
print(str1,'\n')
print(str2)


C:\Users\Desktop\file.txt 

C:\Users\Desktop\file.txt


In [2]:
#re.findall()은 두개의 인자를 가집니다. 첫번째 인자는 찾으려는 패턴을 지정하는 정규 표현식이며,
# 두 번째 인자는 검색 대상이 되는 문자열입니다.

import re
pattern1 = 'a'
text1 = 'apple'
print(re.findall(pattern1,text1))

pattern2 = '.'
text2 = 'apple'
print(re.findall(pattern2,text2))

pattern3 = '[aeiou]'
text3 = 'apple'
print(re.findall(pattern3,text3))

pattern4 = 'ba*na'
text4 = 'banaana'
print(re.findall(pattern4,text4))

pattern5 = '(ba)*na'
text5 = 'banaana'
print(re.findall(pattern5,text5))

['a']
['a', 'p', 'p', 'l', 'e']
['a', 'e']
['bana']
['ba', '']


In [3]:
import re
pattern1 = 'a'
text1 = 'apple'
print(re.search(pattern1,text1))

pattern2 = '.'
text2 = 'apple'
print(re.search(pattern2,text2))

pattern3 = '[aeiou]'
text3 = 'apple'
print(re.search(pattern3,text3))

pattern4 = 'ba*na'
text4 = 'banaana'
print(re.search(pattern4,text4))

pattern5 = '(ba)*na'
text5 = 'banaana'
print(re.search(pattern5,text5))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 4), match='bana'>
<re.Match object; span=(0, 4), match='bana'>


# 정규표현식의 문법


정규표현식의 문법에는 다양한 메타문자(meta-character)가 사용됩니다. 메타문자란 일반적으로 사용되는 문자가 아니라, 특별한 의미를 가지는 문자를 말합니다. 메타문자는 다양한 용도로 사용되며, 각각의 기능은 다음과 같습니다.

## 메타문자의 종류와 사용 방법



[문자 클래스]
 - \d 숫자와 매치, [0-9]와 동일한 표현식
 - \D 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식
 - \s whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식
 - \S whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식
 - \w 문자 + 숫자와 매치, [a-zA-Z0-9]와 동일한 표현식
 - \W 문자 + 숫자가 아닌 문자와 매치, [^a-zA-Z0-9]와 동일한 표현식

[whitespace]
 -  스페이스 바 (아스키코드 32)
 -  ＼b  뒤로 한 칸 이동 (Backspace) (아스키코드 8)
 -  ＼t  수평탭 간격 띄우기 (아스키코드 9)
 -  ＼n  줄바꿈 (Linefeed) (아스키코드 10)
 -  ＼v  수직탭 간격 띄우기 (아스키코드 11)
 -  ＼f  프린트 출력 용지를 한 페이지 넘김 (Form feed) (아스키코드 12)
 -  ＼r  동일한 줄의 맨 앞으로 커서 이동 (Carriage Return) (아스키코드 13)
 - Dot(.) 메타 문자는 줄바꿈 문자인 [[\n를 제외한]] 모든 문자와 매치됨을 의미
 
참고: whitespace 문자는 공백과 같은 문자. 주로 특정 문자열에서 단어를 구분하기 위하여 사용. 


[문자열의 반복과 선택을 나타내는 메타문자]
- ^ : 문자열의 시작을 나타냄. 예를 들어, '^a'는 문자열의 시작이 'a'인 경우와 매치됨.
-	\\$ : 문자열의 끝을 나타냄. 예를 들어, 'a$'는 문자열의 끝이 'a'인 경우와 매치됨.



[문자열의 반복과 선택을 나타내는 메타문자]
- 반복(\*) ca*t 0부터 무한대로 반복
- 반복(\+) ca+t 최소 1번 이상 반복
- ca{m,n} a 반복 횟수가 m부터 n까지인 것을 매치
- ca{2}t는 c+a(2번 반복)+t의 의미
- 반복횟수가 {1,}은 1 이상, {0,}은 0 이상인 경우로 각각 +, *와 동일하며 {,1}은 반복횟수가 1 이하를 의미.
- ab?c b가 0~1번 사용되면 매치되는 것으로 ?은 앞의 b가 있어도 되고 없어도 된다

## re 모듈

정규표현식을 파이썬에서 사용하기 위해서는 re 모듈을 import하여 사용합니다. 이를 이용하여 정규식을 컴파일하고 정규식을 이용한 문자열 검색 등 다양한 작업을 수행할 수 있습니다.

re 모듈을 이용하여 문자열 검색을 수행하는 함수는 다음과 같습니다.

- compile(): 정규식을 컴파일합니다.
- match(): 문자열의 처음부터 정규식과 매치되는지 조사합니다.
- search(): 문자열의 전체를 검색하여 정규식과 매치되는지 조사합니다.
- findall(): 정규식과 매치되는 모든 문자열을 리스트로 리턴합니다.
- finditer(): 정규식과 매치되는 모든 문자열을 [반복 가능한 객체로 리턴]합니다.

In [29]:
pattern = re.compile('ab+c')
match = pattern.search('abbbc') # + 가 한번 이상이므로 매치 가능
if match:
    print('match found!') #매치되는게 있으면 이 문자를 출력하라.
else:
    print("not matched")

match found!


In [12]:
re.search(pattern,'abbbc')

<re.Match object; span=(0, 5), match='abbbc'>

In [13]:
re.search(pattern,'eeeabbbc') #abbbc가 함께 있어서 출력 됨

<re.Match object; span=(3, 8), match='abbbc'>

In [14]:
re.match(pattern,'abbbceee') #매치는 처음부터 보기때문에 가능

<re.Match object; span=(0, 5), match='abbbc'>

In [16]:
re.findall(pattern,'abbbceeeabce') #조건을 모두 만족하므로 두 개의 값이 모두 나옴. 

['abbbc', 'abc']

In [17]:
re.finditer(pattern,'abbbceeeabce') #객체로 출력됨. 

<callable_iterator at 0x2a73f3590a0>

In [19]:
m = re.finditer(pattern,'abbbceeeabce')
for i in m:
    print(i)

<re.Match object; span=(0, 5), match='abbbc'>
<re.Match object; span=(8, 11), match='abc'>


In [8]:
#만약 c로 하면
pttern = re.compile('abc+c')
match = pattern.search('abbbc') # abc가 나오고 반복이 나와야 하는데 아니어서 매치 x
if match:
    print('match found!') 

In [10]:
re.search(pattern,'abbbc')

In [None]:
#만약 abc로 하면
pttern = re.compile('abc+c')
match = pattern.search('abc') # 위에 +가 있으므로 하나이상 반복해야 하는데 없으므로 매치x 
if match:
    print('match found!') 

### 과제 1_0424
정규표현식을 사용하여 text에서 이메일을 추출하세요.

text = "이메일 주소는 abc123@gmail.com입니다"

## 과제 2_0424

정규표현식을 사용하여 text에서 전화번호를 추출하세요.

text = "전화번호는 010-1234-5678 입니다"


## 과제 3_0424

정규표현식을 사용하여 text에서 url을 추출하세요.

text = "저의 블로그 주소는  http://www.example.com 입니다"

In [None]:
### 과제 4_0424

정규표현식을 이용하여 html 태그를 제거한 후 "안녕하세요, 파이썬입니다."를 출력하세요.

html_string = "<p>안녕하세요<b>파이썬</b>입니다</p>"

과제5_0424.
text = ' Python3 is very good programming language!' 에서 다음을 수행하세요.

- ['Python', 'is', 'very', 'good', 'programming', 'language'] 을 출력
- Python3 출력
- Python 출력
- 숫자만 출력
- Python3를 python으로 대체