In [2]:
import warnings
warnings.filterwarnings('ignore')

import random
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats
from scipy.stats import t, norm, chi2, chi2_contingency

import math, scipy, sympy

import re

from matplotlib import rc
rc('font', family='Malgun Gothic')      #한글 폰트설정
plt.rcParams['axes.unicode_minus']=False      #마이너스 부호 출력 설정

# 정규표현식 기본 개념

한 영화관에서는 예매 시 사용자의 휴대폰 번호를 입력받아야 합니다. 예매 정보는 해당 번호와 함께 저장됩니다. 그러나 종종 잘못된 번호가 입력되어 예매 정보가 유실되는 문제가 발생했습니다.

이런 문제를 해결하기 위해, 영화관은 **정규표현식**을 사용해 휴대폰 번호를 검증하기로 결정했습니다. 이제 사용자가 휴대폰 번호를 입력할 때, 정확한 형식으로 입력되었는지 확인하고, 유효한 번호만 저장할 수 있습니다.

## 정규표현식의 장단점

[장점]
1.	유연성: 정규표현식을 사용하면 다양한 패턴을 표현할 수 있습니다. 예를 들어, 특정 문자열이 특정 패턴을 따르는지 여부를 확인하거나, 특정 패턴을 가진 문자열을 찾아내는 등 다양한 용도로 사용할 수 있습니다.
2.	간결성: 문자열에서 원하는 정보를 추출하는 데에는 정규표현식이 다른 방법에 비해 더 간단하고 직관적입니다.
3.	속도: 정규표현식은 문자열을 일일이 검색하는 것보다 더 빠른 속도로 패턴을 찾아낼 수 있습니다.

[단점]
1.	복잡성: 정규표현식은 다양한 패턴을 표현할 수 있지만, 그만큼 문법이 복잡합니다. 특히 초보자에게는 익숙해지기까지 시간이 걸릴 수 있습니다.
2.	이식성: 언어나 툴마다 문법이 조금씩 다르기 때문에, 한 번 익힌 정규표현식이 다른 환경에서는 작동하지 않을 수도 있습니다.
3.	가독성: 정규표현식을 사용하면 코드의 가독성이 떨어질 수 있습니다. 특히, 매우 복잡한 정규표현식을 작성하면 코드가 길어지고 가독성이 나빠질 수 있습니다.
위와 같이, 정규표현식은 다양한 장단점을 가지고 있습니다. 그러나 정규표현식은 파이썬을 비롯한 다양한 프로그래밍 언어에서 사용되는 유용한 도구입니다. 아래는 파이썬 코드로 정규표현식을 사용한 문자열 패턴 매칭 예시입니다.

In [3]:
text = 'hellow, my number is 12345'
a = re.findall('\D+',text)   # 숫자제외 모든 문자
b = re.findall('\d+',text)   # 숫자만
a, b

(['hellow, my number is '], ['12345'])

In [4]:
# 전화번호 추출 예시
pattern = r"\d{3}-\d{4}-\d{4}"
# raw string(r): 이스케이프 문자(\)를 해석하지 않고 문자 그대로 씀

phone = ['010-1234-5678', '02-555-1234', '031-222-3333']
match_num = []

for i in phone:
    if re.match(pattern, i):
        match_num.append(i) 
match_num

['010-1234-5678']

#### Raw String
- 로우스트링(Raw String)은 문자열 안에 있는 이스케이프 문자를 무시하고 문자 그대로 해석하도록 하는 문자열입니다.
- 로우스트링을 사용하면 이스케이프 문자를 사용하지 않고도 백슬래시(\)를 문자 그대로 사용할 수 있습니다. 이를 통해 정규 표현식, 파일 경로, url등과 같은 문자열을 다룰 때 유용하게 사용할 수 있습니다.

In [5]:
str1 = "C:\\Users\\Desktop\\file.txt"    # \를 그냥 문자로 쓰기 위해 2번씩 씀
str2 = r"C:\Users\Desktop\file.txt"    # 로우스트링을 해줘서 1개만 씀
print(str1)
print(str2)

C:\Users\Desktop\file.txt
C:\Users\Desktop\file.txt


## 정규표현식의 구성 요소

정규표현식은 다음과 같은 구성 요소를 가집니다.

- 문자: 특정 문자를 표현합니다. 예를 들어, 'a'는 문자 'a'를 의미합니다.
- 메타 문자: 특별한 의미를 가지는 문자입니다. 예를 들어, '.'은 어떤 문자에도 매치되는 문자입니다.
- 문자 클래스: 여러 개의 문자 중 하나를 선택합니다. 대괄호([])로 표현합니다. 예를 들어, '[abc]'는 'a', 'b', 'c' 중 하나에 매치됩니다.
- 반복: 문자 또는 메타 문자가 반복되는 횟수를 지정합니다. '', '*', '+', '?', '{m}', '{m, }', '{m,n}' 등으로 표현합니다. 예를 들어, 'a'는 'a'가 0번 이상 반복되는 문자열에 매치됩니다.
- 그룹: 하나의 문자 또는 메타 문자의 집합을 그룹화합니다. 괄호()로 표현합니다. 예를 들어, '(abc)+'는 'abc'가 1번 이상 반복되는 문자열에 매치됩니다.

In [6]:
# re.findall()은 2개의 인자를 가짐
# (패턴을 지정하는 정규표현식, 검색대상이 되는 문자열)
pattern1 = 'a'
text1 = 'apple'
print(re.search(pattern1, text1))

pattern2 = '.'     # 점(.)은 모든 문자에 매치
text2 = 'apple'
print(re.findall(pattern2, text2))

pattern3 = '[aeiou]'
text3 = 'apple'
print(re.findall(pattern3, text3))

pattern4 = 'ba*na'
text4 = 'baaaaanana'
print(re.search(pattern4, text4))

pattern5 = '^(ba)(ba)*na'   # ba로 시작, ba 반복 허용, na로 끝나는
text5 = 'babanaana'
print(re.search(pattern5, text5))

pattern6 = '(ba)*na'   # findall은 해당 패턴을 만족하는 '그룹'안 문자만 뽑음
text6 = 'babanaana'
print(re.findall(pattern6, text6))  #그래서 ['bana', 'na']가 아닌 ['ba', '']가 나오는 것

<re.Match object; span=(0, 1), match='a'>
['a', 'p', 'p', 'l', 'e']
['a', 'e']
<re.Match object; span=(0, 8), match='baaaaana'>
<re.Match object; span=(0, 6), match='babana'>
['ba', '']


In [7]:
#### search, findall -> 그룹화 출력 결과물 차이

pattern2 = '(ap).+'
text2 = 'apple'
print(re.search(pattern2, text2))      #'apple' 다 나옴 (search는 첫 번째 매치만)
print(re.findall(pattern2, text2),'\n')   #그룹화된 'ap'만 나옴

pattern5 = '(ba)*na'
text5 = 'banaana'
print(re.search(pattern5,text5))    #'bana'다 나옴
print(re.findall(pattern5,text5),'\n')    #그룹화된 'ba',''만 나옴

pattern5 = '((ba)*na)'
text5 = 'banaana'
print(re.search(pattern5,text5))    # 'bana'다 나옴
print(re.findall(pattern5,text5))    #'bana','ba' 다 나옴
print(re.findall(pattern5,text5)[0])

<re.Match object; span=(0, 5), match='apple'>
['ap'] 

<re.Match object; span=(0, 4), match='bana'>
['ba', ''] 

<re.Match object; span=(0, 4), match='bana'>
[('bana', 'ba'), ('na', '')]
('bana', 'ba')


# 정규표현식의 문법


정규표현식의 문법에는 다양한 메타문자(meta-character)가 사용됩니다. 메타문자란 일반적으로 사용되는 문자가 아니라, 특별한 의미를 가지는 문자를 말합니다. 메타문자는 다양한 용도로 사용되며, 각각의 기능은 다음과 같습니다.

## 메타문자의 종류와 사용 방법



[문자 클래스]
 - \d 숫자와 매치, [0-9]와 동일한 표현식
 - \D 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식
 - \s whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식
 - \S whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식
 - \w 문자 + 숫자와 매치, [a-zA-Z0-9]와 동일한 표현식
 - \W 문자 + 숫자가 아닌 문자와 매치, [^a-zA-Z0-9]와 동일한 표현식

[whitespace]
 -  스페이스 바 (아스키코드 32)
 -  ＼b  뒤로 한 칸 이동 (Backspace) (아스키코드 8)
 -  ＼t  수평탭 간격 띄우기 (아스키코드 9)
 -  ＼n  줄바꿈 (Linefeed) (아스키코드 10)
 -  ＼v  수직탭 간격 띄우기 (아스키코드 11)
 -  ＼f  프린트 출력 용지를 한 페이지 넘김 (Form feed) (아스키코드 12)
 -  ＼r  동일한 줄의 맨 앞으로 커서 이동 (Carriage Return) (아스키코드 13)
 - Dot(.) 메타 문자는 줄바꿈 문자인 \n를 제외한 모든 문자와 매치됨을 의미
 
참고: whitespace 문자는 공백과 같은 문자. 주로 특정 문자열에서 단어를 구분하기 위하여 사용

[문자열의 반복과 선택을 나타내는 메타문자]
- ^ : 문자열의 시작을 나타냄. 예를 들어, '^a'는 문자열의 시작이 'a'인 경우와 매치됨.
- \\$ : 문자열의 끝을 나타냄. 예를 들어, 'a$'는 문자열의 끝이 'a'인 경우와 매치됨.



[문자열의 반복과 선택을 나타내는 메타문자]
- 반복(\*) ca*t 0부터 무한대로 반복
- 반복(\+) ca+t 최소 1번 이상 반복
- ca{m,n} a 반복 횟수가 m부터 n까지인 것을 매치
- ca{2}t는 c+a(2번 반복)+t의 의미
- 반복횟수가 {1,}은 1 이상, {0,}은 0 이상인 경우로 각각 +, *와 동일하며 {,1}은 반복횟수가 1 이하를 의미.
- ab?c b가 0~1번 사용되면 매치되는 것으로 ?은 앞의 b가 있어도 되고 없어도 된다
## re 모듈

정규표현식을 파이썬에서 사용하기 위해서는 re 모듈을 import하여 사용합니다. 이를 이용하여 정규식을 컴파일하고 정규식을 이용한 문자열 검색 등 다양한 작업을 수행할 수 있습니다.

re 모듈을 이용하여 문자열 검색을 수행하는 함수는 다음과 같습니다.

- compile(): 정규식을 컴파일합니다.
- match(): 문자열의 처음부터 정규식과 매치되는지 조사합니다.
- search(): 문자열의 전체를 검색하여 정규식과 매치되는지 조사합니다.
- findall(): 정규식과 매치되는 모든 문자열을 리스트로 리턴합니다.
- finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴합니다.

In [8]:
pattern = re.compile('ab+c')
match = pattern.search('abbbc')

if match:
    print('match found!')
else:
    print('not found!')

match found!


In [9]:
re.match(pattern, 'abbbceee')

<re.Match object; span=(0, 5), match='abbbc'>

In [10]:
re.findall(pattern, 'abbbceeabce')

['abbbc', 'abc']

In [11]:
result = re.finditer(pattern, 'abbbceeabce')   #객체 형태로 리턴
for i in result:
    print(i)
    print(i[0])

<re.Match object; span=(0, 5), match='abbbc'>
abbbc
<re.Match object; span=(7, 10), match='abc'>
abc


In [12]:
pattern5 = '(ba)*na'    #그룹화 해주면 조건을 만족하는 '그룹 안' 내용만 나옴
text5 = 'banaana'
print(re.findall(pattern5,text5))  # '(ba)na', '(ba)' => 'na', ''

['ba', '']


In [13]:
p = re.compile('[a-z]+')
m = p.search("453python3")
m.group()
m.start()
m.end()
m.span()

(3, 9)

In [14]:
# 정규표현식 연습
text1 = 'python python'
text2 = 'python python '
text3 = '3python '

p=re.compile('[a-z]+\s?')    #영어(반복) + 공백(0개 or 1개)
print(re.match(p, text1).group())
print(p.findall(text2))    #이렇게도 사용 가능 p.findall(text)
print(re.search(p, text3))

python 
['python ', 'python ']
<re.Match object; span=(1, 8), match='python '>


In [15]:
# 문자 클래스: []
p = re.compile('[a-z]+')
p1 = p.search('Banker')
p2 = p.search('banker')

print(p1)
print(p2)

<re.Match object; span=(1, 6), match='anker'>
<re.Match object; span=(0, 6), match='banker'>


In [16]:
# a만 출력
text = '12345abc'
print(re.search('[a]',text))

# A만 출력
text = 'abc12345Abc'
print(re.search('[A]',text))

# '대'만 출력
text = 'KOREA 아대한민국'
print(re.findall('[가-힣]',text)[1])   # 한글 중 1번(=2번째) 글자를 뽑음

# '122333c'출력
text = '122333c456'
print(re.search('\w+c',text))

# 'aaaaBBBcccDDDeee'출력
text = 'aaaaBBBcccDDDeee'
print(re.search('\w+',text))

<re.Match object; span=(5, 6), match='a'>
<re.Match object; span=(8, 9), match='A'>
대
<re.Match object; span=(0, 7), match='122333c'>
<re.Match object; span=(0, 16), match='aaaaBBBcccDDDeee'>


In [17]:
# finditer: 반복문으로 활용하는 '객체'가 나옴
text = 'life is too short'
p = re.compile('[a-z]+')
result = p.finditer(text)

for i in result:
    print(i[0])

life
is
too
short


In [18]:
# 모든 알파벳만 출력
text = 'Python3 is very good programming language!'
print(re.findall('[a-zA-Z]+', text),'\n')

x = re.finditer('[a-zA-Z]+', text)
print(x)    #정보가 저장된 주소
for i in x:
    print(i[0])    #정보

['Python', 'is', 'very', 'good', 'programming', 'language'] 

<callable_iterator object at 0x000001C9A0EE92B0>
Python
is
very
good
programming
language


In [19]:
# 맨 처음부터 매칭
text1 = 'life'
text2 = '!!!oh my life'
text3 = '7 is lucky number'
print(re.match('[a-z]+',text1)[0])
print(re.match('[a-z]+',text2))
print(re.match('[a-z]+',text3))

life
None
None


In [20]:
# match 객체의 메서드
m = re.match('[a-z]+', 'python')
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


In [21]:
# search 객체의 메서드 (위와 같음)
m = re.search('[a-z]+', '3 python')
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
2
8
(2, 8)


In [22]:
# Dot(.) 메타 문자는 줄바꿈 문자를 제외한 모든 문자와 매치
# 줄바꿈 문자를 만나는 순간 틀린(일치하지 않는) 것으로 간주
text = ['a\nb', 'acb', 'a12?Ab']
for i, t in enumerate(text):
    m = re.match('a.*b',t)
    print(i, m)
    
text = 'a\nb acb a12?Ab'
m = re.search('a.*b',text)
print('\n',m.group())    #첫 번째 단어만 넘어가고 2,3번째는 나옴

0 None
1 <re.Match object; span=(0, 3), match='acb'>
2 <re.Match object; span=(0, 6), match='a12?Ab'>

 acb a12?Ab


In [23]:
# 컴파일 옵션: DOTALL(S) -> dot(.)이 줄바꿈 문자를 포함하도록
pattern = re.compile('a.b', re.DOTALL)
m = pattern.match('a\nb')
m[0]

'a\nb'

In [24]:
text = 'what are you doing? \n it is going to be late for school'

p = re.compile('.*')
m = p.search(text)
print(m.group(), '\n')

p = re.compile('.*', re.S)   #dot(.) 개행문자 포함 옵션
m = p.search(text)
print(m.group())

what are you doing?  

what are you doing? 
 it is going to be late for school


In [25]:
# 컴파일 옵션: IGNORECASE(I): 대소문자 구분 없이 매치
re.match('[a-z]+', 'pYthon', re.I).group()

'pYthon'

In [26]:
# friend라는 글자를 찾되, 대소문자 구분x
text = 'Friend fRiend friEnd FRIEND32'
print(re.findall('friend', text, re.I), '\n')

t = text.split(' ')
for i in t:
    print(re.findall('friend', i, re.I))

['Friend', 'fRiend', 'friEnd', 'FRIEND'] 

['Friend']
['fRiend']
['friEnd']
['FRIEND']


In [27]:
text = ['pAthon','PATHON','pathon','Pathon']
pattern = re.compile('^pathon', re.I)

for i in text:
    m = pattern.search(i)
    print(m.group())

pAthon
PATHON
pathon
Pathon


In [28]:
# 컴파일 옵션: MULTILINE(M)
# 여러 줄의 텍스트가 있을 때 각 줄마다 시작(^)/끝(&) 조건 검색
data = '''python one
life is too short
python two
you need python
python three'''

print(re.findall('^python\s\w+', data))
print(re.findall('^python\s\w+', data, re.M))

['python one']
['python one', 'python two', 'python three']


In [29]:
# re.VERBOSE(X) : 정규식을 주석 또는 라인 단위로 구분
charref1 = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')
charref2 = re.compile(r"""
&[#]               # Start of a numeric entity reference
(
    0[0-7]+        # Octal form
  | [0-9]+         # Decimal form 
  | x[0-9a-fA-F]+  # Hexadecimal form
)
;                  # Trailing semicolon 
""", re.VERBOSE)

In [30]:
# 파이썬 문자열 리터럴 규칙에 의해 \\이 \로 변경되어 전달
# 정규식 문자열 앞에 r을 삽입하면 로우스트링 규칙에 의해 \\ -> \
p1 = re.compile('\\section')   # \\s -> \s(=스페이스)
p2 = re.compile(r'\\section')   # \\s -> \s(=그냥 문자)

print(p1.match('\section\section'))
print(p2.match('\section\section')[0])

None
\section


In [31]:
# |(or), ^(문자열 맨 처음), $(문자열 끝)
re.match('Crow|Servo', 'CrowHello')[0]

'Crow'

In [32]:
# ^ $
print(re.search('^Life', 'Life is too short')[0])
print(re.search('short$', 'Life is too short')[0])
print(re.search('^Life.*short$', 'Life is too short')[0])

print(re.findall('^Life|Life$', 'Life is too short Life'))

Life
short
Life is too short
['Life', 'Life']


In [33]:
data = """Life is too short
Life is good
Life is valuable"""
print(re.findall('^Life.*',data, re.M))
print(re.findall('^Life.*good$',data, re.M))

['Life is too short', 'Life is good', 'Life is valuable']
['Life is good']


In [34]:
# \A, \z
# ^$와 같은 기능이나, re.M 옵션과 관계없이 전체 text의 맨 처음/끝에만 매칭
data = """Life is too short324
Life is good125
Life is valuable3235"""
print("1: ",re.findall('\ALife.*',data, re.M))
print("2: ",re.findall('.*\d\Z.*',data, re.M))

1:  ['Life is too short324']
2:  ['Life is valuable3235']


In [35]:
text = 'we are going home'
re.search('home$', text)[0]
re.search('home\Z', text)[0]

'home'

In [36]:
# 199305만 출력
text = '199305,1923A,a93247'
print(re.findall('(\d+),',text))

text = '1923A,199305,a93247'
print(re.findall('(\d+),',text))

['199305']
['199305']


In [37]:
# \b \b: 단어구분자
text = 'no class at all'
print(re.search(r'\bclass\b', text)[0])

class


In [38]:
# \B \B: 단어구분자(양옆에 공백이 없는 경우)
text = 'the declassified algorithim'
print(re.search(r'\Bclassif\B', text)[0])

classif


In [39]:
# 에러가 있는 부분만 출력
text = '에러 1122, 레퍼런스 오류, 에러 1033, 아규먼트 오류, 에러 xxx'
print(re.findall(r'에러\s[^,]+', text))

['에러 1122', '에러 1033', '에러 xxx']


In [40]:
# 그룹핑
text = 'ABCABCABC OK?'
m = re.search('(ABC)+', text)
print(m)
print(m.group(0))
print(m.group(1))

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [41]:
# 그루핑을 사용해 출력
text = 'DEFABCDEFDEF OK?'
g = re.search('((AB)(CD)(EF))',text)
print(g)
print(g[0])
print(g[1])
print(g[2])
print(g[3])
print(g[4])

<re.Match object; span=(3, 9), match='ABCDEF'>
ABCDEF
ABCDEF
AB
CD
EF


In [42]:
# \1: 재참조 메타문자(정규식 1번째 그룹을 지칭)
# 2개 동일한 단어가 연속적으로 사용되어야 매치

# 그루핑된 문자열 재참조
text = 'Paris is very very beautiful'
re.search(r'\b(\w+)\s+\1',text).group()

'very very'

In [43]:
# 'abcdefghij'에 대해 중첩을 적용한 서브그룹 5개로 컴파일, 그룹화 해
# abcdefghi와 e를 출력
t = 'abcdefghij'
m = re.search(r'((abcd)(e)(fghi))(j)',t)

print(m.groups())
print(m.group(0))
print(m.group(1))
print(m.group(3))

('abcdefghi', 'abcd', 'e', 'fghi', 'j')
abcdefghij
abcdefghi
e


#### 그룹핑된 문자열에 이름 붙이기
- 정규표현식에서 그룹핑된 문자열에 이름을 붙이는 방법은 $(?P<name>pattern)$ 형식을 사용하는 것입니다. 이때 name은 그룹에 붙일 이름이며 pattern은 그룹화할 정규식 패턴입니다.

In [44]:
text = "John's phone number is 123-456-7890."
p = r'(?P<phone>\d{3}-\d{3}-\d{4})'
m = re.search(p, text)
m.group('phone')

'123-456-7890'

In [94]:
# 그루핑된 문자열에 이름 붙이기: 확장구문(?P<name>\w+)
text = 'park 010-1234-1234'
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search(text)
m.group('name')

'park'

In [99]:
# 그룹명 word를 이용해 the the를 출력
text = 'Paris in the the spring'
p = re.compile('(?P<word>\w+)\s(?P=word)')
re.search(p,text).group()

'the the'

#### 전방탐색
- 전방탐색(Positive Lookahead)은 정규식에서 매치할 문자열의 앞쪽을 일치시키는 것입니다. 하지만 일치시킨 문자열은 검색 대상에서 제외됩니다. 이를 사용하면 특정 문자열 패턴 뒤에 오는 문자열을 매치할 때 유용합니다.

#### 긍정탐색

- 긍정 탐색은 조건을 충족하는 부분을 찾을 때 사용됩니다. 이것은 일치하는 부분을 포함하고 일치하지 않는 부분을 탐색 결과에서 제외합니다. 긍정 탐색은 (?=...) 구문을 사용하여 정규식 안에서 표현됩니다. 

#### 부정탐색

- 부정 탐색은 일치하지 않는 부분을 찾을 때 사용됩니다. 이것은 일치하지 않는 부분을 포함하지만, 탐색 결과에서 일치하는 부분을 제외합니다. 부정 탐색은 (?!...) 구문을 사용하여 정규식 안에서 표현됩니다.

In [63]:
text = 'http://google.com'
p = re.compile(r'.+:')
m = p.search(text)
print(m.group())

text = 'http://google.com'
p = re.compile(r'.+(?=:)')    #':'문자열이 정규식 엔진에 의해 소모되지x
m = p.search(text)
print(m.group())   #검색에는 포함되지만 결과에는 포함x

http:
http


In [68]:
text = 'I love Python, Java, and JavaScript.'
re.findall('(?=.+),\s(?=.+)', text)

[', ', ', ']

In [73]:
list = ['foo.exe', 'autoexec.bat', 'sendmail.cf', 'rgwsag']
for i in list:
    print(re.match('.*[.](?!cf$)',i))
#부정탐색 -> cf로 끝나지 않는, 파일 형식인 단어

<re.Match object; span=(0, 4), match='foo.'>
<re.Match object; span=(0, 9), match='autoexec.'>
None
None


In [88]:
list = ['foo.exe', 'autoexec.bat', 'sendmail.cf', 'rgwsag']
for i in list:
    print(re.search('.*[.](?!.{3}).*',i))   #확장자 3글자인거 거름
    print(re.search('.*[.](?!.{2}).*',i),'\n')  #확장자 2글자 거름/ 그 이상은 검색 안함

None
None 

None
None 

<re.Match object; span=(0, 11), match='sendmail.cf'>
None 

None
None 



In [89]:
# (?<=@): 전방탐색/'@'기호 이후에 오는 문자열을 찾음
# [\w.]+: 도메인 이름을 나타내는 패턴/ 알파벳 대소문자, 숫자, 밑줄, 마침표 포함
# (?!\d+): 부정탐색/ 도메인 이후에 오는 .com .org 등의 문자열 제외
email = 'example@gmail.com'
p = r'(?<=@)[\w.]+(?!\d+)'

re.search(p, email).group()

'gmail.com'

In [102]:
# 문자열 바꾸기
# sub: 정규식과 매치되는 부분을 다른 문자로 바꿀 수 있음
text = 'blue socks and red shoes'
p = re.compile('(blue|white|red)')

print(p.sub('color', text))   #매치되는 부분을 모두 color로 바꿈
print(p.sub('color', text, count=1))   #1번만 바꿈
print(p.subn('color', text))   #바꾼 횟수도 알려줌

color socks and color shoes
color socks and red shoes
('color socks and color shoes', 2)


In [109]:
# abc만 출력
str = '12345abc'
print(re.search('\D+',str).group())

print(re.sub('\d+','',str))  #해당 부분 교체 후 전체 문장 보여줌

abc
abc


In [110]:
# 12345만 출력
str = '12345abc'
print(re.sub('\D+','',str))

12345


In [113]:
# 이름+전화번호 -> 전화번호+이름
text = "Kim 010-3999-7048"
p = re.compile('(?P<name>\w+)\s(?P<phone>\d+[-]\d+[-]\d+)')
print(p.sub('\g<phone> \g<name>', text))

010-3999-7048 Kim


In [112]:
# sub메서드 매개변수로 함수 넣기
def hexr(match):   #16진수로 변환하는 함수
    value = int(match.group())
    return hex(value)

text = 'Call 65490 for printing, 49152 for user code.'
p = re.compile(r'\d+')
m = p.sub(hexr, text)
print(m)

Call 0xffd2 for printing, 0xc000 for user code.


#### 정규표현식에서 greedy와 nongreedy는 매칭(matching) 과정에서 사용되는 용어입니다.

- Greedy: 가능한 가장 긴 문자열을 매칭하는 방식입니다. 즉, 매칭할 수 있는 최대한의 문자열을 선택합니다. 예를 들어, .*는 0개 이상의 어떤 문자든지 가능한 최대한의 문자열을 매칭합니다.

- Nongreedy (또는 Lazy): 가능한 가장 짧은 문자열을 매칭하는 방식입니다. 즉, 매칭할 수 있는 최소한의 문자열만 선택합니다. 예를 들어, .*?는 0개 이상의 어떤 문자든지 가능한 최소한의 문자열을 매칭합니다.

In [117]:
text = 'There are 123 apples and 45678 bananas'

greedy = re.compile(r'\d+')
n_greedy = re.compile(r'\d+?')

mg = greedy.search(text)
n_mg = n_greedy.search(text)
print(mg[0])
print(n_mg[0])

123
1


In [136]:
# S에서 최대한의 문자열인 <html><head><title>Title</title>과
# 최소한의 문자열 <html>을 출력
s = '<html><head><title>Title</title>'
print(re.search('(<[^<]+)+', s)[0])
print(re.search('(<[^<]+)+?', s)[0])

#주경님 코드
print(re.search('<.+>',s).group())
print(re.search('<.+?>',s).group())

<html><head><title>Title</title>
<html>
<html><head><title>Title</title>
<html>


#### 과제(1): 정규표현식을 사용해 문자열(text)에서 이메일 추출
- text = '이메일 주소는 abc123@gmail.com 입니다.'

In [45]:
text = '이메일 주소는 abc123@gmail.com 입니다.'

pattern = re.compile('\w+@[a-zA-Z]+.com')
re.findall(pattern, text)

['abc123@gmail.com']

In [46]:
text = '이메일 주소는 abc-123@gmail.com 입니다.'   # '-'가 중간에 추가됨

pattern = re.compile('[\w-]+@[a-zA-Z]+.com')   # []로 묶어서 원하는 문자 더 추가할 수 있음
re.findall(pattern, text)

['abc-123@gmail.com']

#### 과제(2): 정규표현을 사용해 문자열(text)에서 전화번호를 추출
- text = '저의 전화번호는 010-1234-5678 입니다.'

In [47]:
text = '저의 전화번호는 010-1234-5678 입니다.'

pattern = re.compile('010-\d{4}-\d{4}')
re.findall(pattern, text)

['010-1234-5678']

#### 과제(3): 정규표현을 사용해 문자열(text)에서 url을 추출
- text = '저의 블로그 주소는 http://www.example.com 입니다.'

In [48]:
text1 = '저의 블로그 주소는 http://www.example.com 입니다.'
text2 = 'CHAT GPT 주소는 https://chat.openai.com/ 입니다.'

pattern = re.compile('https?://[^s]+.com/?')
re.findall(pattern, text1), re.findall(pattern, text2)

(['http://www.example.com'], ['https://chat.openai.com/'])

#### 과제(4): 정규표현식을 이용하여 html 태그를 제거한 후 "안녕하세요, 파이썬입니다."를 출력하세요.
- html_string = '<p> 안녕하세요, <b>파이썬</b>입니다.</p>'

In [49]:
html_string = '<p> 안녕하세요, <b>파이썬</b>입니다.</p>'

result = re.sub(r'[<>a-z/]', '', html_string).lstrip()
print(result)

안녕하세요, 파이썬입니다.


#### 과제(5): text = ' Python3 is very good programming language!' 에서 다음을 수행하세요.
- ['Python', 'is', 'very', 'good', 'programming', 'language'] 을 출력
- Python3 출력
- Python 출력
- 숫자만 출력
- Python3를 python으로 대체

In [50]:
text = ' Python3 is very good programming language!'

pattern1 = re.compile('[a-zA-Z]+')
result1 = re.findall(pattern1, text)
print(result1)

pattern2 = re.compile('\w+')
result2 = re.search(pattern2, text)
print(result2[0])

pattern3 = re.compile('[A-Za-z]+')
result3 = re.search(pattern3, text)
print(result3[0])

pattern4 = re.compile('\d+')
result4 = re.findall(pattern4, text)
print(result4)

result5 = re.sub('Python3', 'python', text)
print(result5)

['Python', 'is', 'very', 'good', 'programming', 'language']
Python3
Python
['3']
 python is very good programming language!


#### 과제(1): BC, CC, ABC 모두 C가 출력되는 정규표현식 작성

In [51]:
pattern = re.compile('\w+')
text1='BC'
text2='CC'
text3='ABC'

def sb(x):
    return 'C'*len(x.group(0))

t1 = pattern.sub(sb,text1)
t2 = pattern.sub(sb,text2)
t3 = pattern.sub(sb,text3)
print(t1,t2,t3)

CC CC CCC


#### 과제(2): '1234a1234'에서 1,2,3,4를 각각 출력

In [52]:
text= '1234a1234'
print(re.findall('([\d])',text)[:4])
print(re.findall('([\d])([\d])([\d])([\d])',text)[0])

['1', '2', '3', '4']
('1', '2', '3', '4')


#### 과제(3): '99food234, a93456\n, a9356ba ' 에서 '99food234'만 출력

In [53]:
text = '99food234, a93456\n, a9356ba '
print(re.findall('\w*[^,\s]',text)[0])

99food234


#### 과제(4): text에서 전체 문장 모두 출력하세요.

In [54]:
text = 'what are you doing? \nit is going to be late for school \nwe need to hurry up'
pattern = re.compile('.*', re.S)
print(pattern.search(text).group())

what are you doing? 
it is going to be late for school 
we need to hurry up


#### 과제(5): text의 내용을 모두 출력하세요.

In [55]:
text = ['pYthon', 'PYTHON', 'python', 'Python']
for i in text:
    print(re.search('[a-z]+', i, re.I)[0])

pYthon
PYTHON
python
Python


#### 과제(6): ()에 정규표현식을 작성해 아래와 같이 출력
- '1 apple' '5 oranges' '3 boys' '4 girls'

In [56]:
li = '1 apple, 5 oranges, 3 boys, 4 girls; 10 army | 11 mr'
regex = re.compile('\d+\s[a-z]+')
list = regex.findall(li)
print(list)

['1 apple', '5 oranges', '3 boys', '4 girls', '10 army', '11 mr']


#### 과제(7):
- 'H, h'만 출력
- 'H, h'가 아닌 것만 출력

In [61]:
text = 'Hello my friend! Life is short you need Python!'
print(re.findall('h|H',text))
print(re.findall('[^hH\s]', text))

['H', 'h', 'h']
['e', 'l', 'l', 'o', 'm', 'y', 'f', 'r', 'i', 'e', 'n', 'd', '!', 'L', 'i', 'f', 'e', 'i', 's', 's', 'o', 'r', 't', 'y', 'o', 'u', 'n', 'e', 'e', 'd', 'P', 'y', 't', 'o', 'n', '!']


#### 과제(8):
- 지역코드만 출력
- 지역코드 제외 나머지 전화번호 출력

In [58]:
text = '문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다.'
g = re.search('(\d{3})-(\d{3,4}-\d{4})',text)
print(g[1])
print(g[2])

032
232-3245


#### 과제(9): text에서 the the the 출력

In [59]:
text = 'Paris in the the the spring'
re.search(r'\b(\w+)\s\1\s\1',text).group()    # \1 = (\w+)

'the the the'

#### 과제(10): 이름으로 그룹을 참조해 text에서 Lots를 출력

In [60]:
text = 'Lots of punctuation Lots of punctuation'
pattern = r'(?P<lot>Lots)\s'
m = re.search(pattern, text)    #findall처럼 리스트로 여러 값을 반환하는 경우엔
m.group('lot')   #.group() 못씀

'Lots'

#### 과제(1): 아래 text에서 파일2,3,4만 출력

In [90]:
text = 'file1.txt file2.pdf file3.docx file4.xlsx'
p = re.compile('[a-zA-Z0-9]+[.](?!txt)\w+')
m = re.findall(p, text)
print(m)

['file2.pdf', 'file3.docx', 'file4.xlsx']


#### 과제(2): 아래 이메일에서 (?<=@)을 사용해 example만 출력하세요

In [91]:
email = 'john.doe@example.com'
p = re.compile('(?<=@)[^.]+')
print(p.search(email).group())

example


#### 과제(3): 적절한 사용자 함수를 사용해 sub메서드 실행 (자유과제)

In [111]:
# url쿼리 부분 검색해서 한글로 바꾸는
def change(x):
    qur = x.group()
    cat = '"' + str(urllib.parse.unquote(qur)) + '"'
    return cat
    
url_list = ['https://search.naver.com/search.naver?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC', 'https://search.naver.com/search.naver?query=%EC%9B%B9%20%ED%81%AC%EB%A1%A4%EB%A7%81','https://search.naver.com/search.naver?query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0','https://search.naver.com/search.naver?query=python']
for i in url_list:
    print(re.sub('(?<=(query=)).*', change, i))

https://search.naver.com/search.naver?query="파이썬"
https://search.naver.com/search.naver?query="웹 크롤링"
https://search.naver.com/search.naver?query="빅데이터"
https://search.naver.com/search.naver?query="python"
