# 파이썬 정규표현식

주요 개념:  
패턴(Pattern): 특정 규칙을 가진 문자열. 이 패턴을 사용하여 다른 문자열에서 일치하는 부분을 찾을 수 있습니다.  

메타 문자(Meta Characters): 정규 표현식에서 특별한 의미를 가진 문자들.  

. ^ $ * + ? { } [ ] \ | ( )  
주요 함수:    

re.match(): 문자열의 시작부터 패턴과 일치하는지 검사합니다.    

re.search(): 문자열 전체에서 패턴과 일치하는 부분을 검색합니다.    

re.findall(): 문자열에서 패턴과 일치하는 모든 부분을 리스트로 반환합니다.  

re.finditer(): 패턴과 일치하는 모든 부분을 반복자로 반환합니다.  

re.sub(): 문자열에서 패턴과 일치하는 부분을 다른 문자열로 치환합니다.  

주요 패턴:  
.: 어떤 한개의 문자와 일치 (줄바꿈 문자 제외)  
^: 문자열의 시작과 일치  
$: 문자열의 끝과 일치  
*: 앞의 문자(또는 그룹)가 0회 이상 반복되는 부분과 일치   
+: 앞의 문자(또는 그룹)가 1회 이상 반복되는 부분과 일치  
?: 앞의 문자(또는 그룹)가 0회 또는 1회 있는 부분과 일치  
{m}: 앞의 문자(또는 그룹)가 m회 반복되는 부분과 일치  
{m,n}: 앞의 문자(또는 그룹)가 m회부터 n회까지 반복되는 부분과 일치  
[...]: 대괄호 안의 문자들 중 하나와 일치  
[^...]: 대괄호 안의 문자들을 제외한 문자와 일치  
\d: 숫자와 일치  
\D: 숫자가 아닌 문자와 일치  
\s: 공백 문자와 일치  
\S: 공백 문자가 아닌 문자와 일치  
\w: 알파벳, 숫자, 밑줄 문자와 일치  
\W: 알파벳, 숫자, 밑줄 문자가 아닌 문자와 일치  

re.sub(pattern, replacement, string)

In [None]:
[0-9a-z\-_.]*

re.sub('[^0-9a-z\-_.]*',"",new_id)

re.sub([.]+,'.',new_id)
re.sub([.]{1, })


#앞에와 뒤에 없애주겠다 
res.sub('^[.][.]$',"",new_id)

# 정규표현식

In [18]:
import re 
string = 'The Regular Expresion !!! 0123 @#! 한글'

In [9]:
# 소문자만, +는 1번 이상 반복
pattern = re.compile('[a-z]+')
print(pattern.findall(string))

['he', 'egular', 'xpresion']


In [14]:
# 소문자만, ? 는 0번 또는 1번 이상 표시 
pattern = re.compile('[a-z]?')
print(pattern.findall(string))

['', 'h', 'e', '', '', 'e', 'g', 'u', 'l', 'a', 'r', '', '', 'x', 'p', 'r', 'e', 's', 'i', 'o', 'n', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']


In [19]:
# 소문자, 대문자, 숫자, + 는 1번 이상 반복
pattern = re.compile('[a-zA-Z0-1]+')
print(pattern.findall(string))

['The', 'Regular', 'Expresion', '01']


In [20]:
# 소문자, 대문자, 숫자, ?는 0번 또는 1번 이상 표시 
pattern = re.compile('[a-zA-Z0-9]?')
print(pattern.findall(string))

['T', 'h', 'e', '', 'R', 'e', 'g', 'u', 'l', 'a', 'r', '', 'E', 'x', 'p', 'r', 'e', 's', 'i', 'o', 'n', '', '', '', '', '', '0', '1', '2', '3', '', '', '', '', '', '', '', '']


In [21]:
# 소문자, 대문자, 숫자, *는 0번 또는 그 이상 표시 
pattern = re.compile('[a-zA-Z0-9]*')
print(pattern.findall(string))

['The', '', 'Regular', '', 'Expresion', '', '', '', '', '', '0123', '', '', '', '', '', '', '', '']


### sub 제일 많이 쓸거같음!!

In [24]:
# 주민번호 뒷번호를 *******로 치환
string = '970609-2311554'
# 기호 '-' 와 0~9까지의 숫자 7개 반복의 패턴 정의  {6} - {7}
pattern = '-[0-9]{7}'
# sub(정규표현식, 바꿀문자열, 입력문자열)
print(re.sub(pattern,'_*******', string))

970609_*******


In [27]:
# split 예제
pattern = re.compile(':')
print(pattern.split('key:value'))
print(pattern.split('hey:here:daddy'))


['key', 'value']
['hey', 'here', 'daddy']


In [28]:
string = """Ross McFluff: 834.345.1254 155 Elm Street
Ronald Heathmore: 892.345.3428 436 Finley Avenue
Frank Burger: 925.541.7625 662 South Dogwood Way
Heather Albrecht: 548.326.4584 919 Park Place"""

In [29]:
# 개행 문자를 기준으로 분리한 문자열 4개의 list
entries = re.split("\n+", string)
print(entries)

['Ross McFluff: 834.345.1254 155 Elm Street', 'Ronald Heathmore: 892.345.3428 436 Finley Avenue', 'Frank Burger: 925.541.7625 662 South Dogwood Way', 'Heather Albrecht: 548.326.4584 919 Park Place']


In [39]:
# : 와 ' ' 공백 (space)을 패턴으로 4개의 list로 분리 
result = [re.split(":? ", entry, maxsplit=4) for entry in entries]
print(result)

[['Ross', 'McFluff', '834.345.1254', '155', 'Elm Street'], ['Ronald', 'Heathmore', '892.345.3428', '436', 'Finley Avenue'], ['Frank', 'Burger', '925.541.7625', '662', 'South Dogwood Way'], ['Heather', 'Albrecht', '548.326.4584', '919', 'Park Place']]
