# 정규표현식(Regular Expression)

In [2]:
import re

## 1. 정규표현식 실습

- . 기호: 한 개의 임의의 문자

In [3]:
re.search('a.c', 'kkk')     # .search()는 문자열 전체에서 정규표현식과 매치되는지 검색

In [4]:
re.search('a.c', 'abc')

<re.Match object; span=(0, 3), match='abc'>

- ? 기호: ? 앞의 문자가 0개 또는 1개

In [5]:
r = re.compile('ab?c')
r.search('abbc')        

In [7]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [8]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

- '*' 기호: 바로 앞의 문자가 0개 이상일 경우

In [9]:
r = re.compile('ab*c')
r.search('a')

In [10]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [12]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

- '+' 기호: 앞의 문자가 최소 1개 이상

In [13]:
r = re.compile("ab+c")
r.search('ac')

In [14]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

- ^ 기호: 시작되는 글자를 지정

In [15]:
re.search('^a', 'bbc')

In [16]:
re.search('^a','ab')

<re.Match object; span=(0, 1), match='a'>

- {숫자} 기호: 해당 문자를 숫자만큼 반복한 것

In [17]:
r = re.compile("ab{2}c")
r.search("ac")
r.search("abc")

In [18]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

- {숫자1, 숫자2} 기호: 해당 문자를 숫자 1이상 숫자2 이하만큼 반복

In [19]:
r=re.compile("ab{2,8}c")
r.search("ac")
r.search("abc")

In [20]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

- [] 기호: 문자들 중 한 개의 문자와 매치라는 의미

In [21]:
r=re.compile("[abc]")   # [abc]는 [a-c]와 같다.
r.search("zzz")

In [29]:
r.search("baac")    # 맨 앞자리가 선택된다

<re.Match object; span=(0, 1), match='b'>

In [30]:
# 소문자
re.search('[a-z]','ABC')

In [31]:
re.search('[a-z]','AbC')

<re.Match object; span=(1, 2), match='b'>

In [33]:
# 문자 또는 숫자
re.search('[0-9A-Za-z]', '$%^')
re.search('\w','$%^&')      # \w는 [a-zA-Z0-9]와 동일

- [^문자] 기호: ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치

In [34]:
r=re.compile("[^abc]")
r.search("a")   # 아무런 결과도 출력되지 않는다
r.search("ab")  # 아무런 결과도 출력되지 않는다
r.search("b")

In [35]:
r.search('d1')

<re.Match object; span=(0, 1), match='d'>

In [36]:
# 한글과 공백을 제외한 모든 문자를 제거
# .sub()은 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체
re.sub('[^ㄱ-하-ㅣ가-힣 ]', '', '^ 기호 뒤에 붙은 문자.')

' 기호 뒤에 붙은 문자'

## 2.re 모듈 함수

- re.match()와 re.search()의 차이

In [3]:
re.match('ab.', 'kkkabc')   # match()는 문자열의 첫 부분부터 정규표현식과 매치하는지 확인

In [4]:
re.search('ab.','kkkabc')   # search()는 정규표현식 전체에 대해 문자열이 매치하는지 확인

<re.Match object; span=(3, 6), match='abc'>

- re.split()

In [5]:
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [6]:
text.split()

['사과', '딸기', '수박', '메론', '바나나']

In [20]:
text="""사과        딸기
  수박
 메론              바나나"""
text.split()         # '\s+'가 디폴트

['사과', '딸기', '수박', '메론', '바나나']

In [21]:
re.split('\s+', text)

['사과', '딸기', '수박', '메론', '바나나']

- re.findall()

In [22]:
# findall() 함수는 정규표현식과 매치되는 모든 문자열들을 리스트로 리턴
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""
re.findall("\d+",text)      # 정규표현식으로 숫자를 입력 \d 숫자만 찾애내서 리스트로 리턴

['010', '1234', '1234', '30']

In [23]:
re.findall("\d+",'김철수')

[]

- re.sub()

In [24]:
text="""Regular expression : A regular expression, regex or regexp[1]
(sometimes called a rational expression)[2][3]
is, in theoretical computer science and formal language theory,
a sequence of characters that define a search pattern."""
re.sub('[^a-zA-Z]',' ',text)        # 특수문자 제거

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

## 3. 정규표현식 텍스트 전처리 예제

In [25]:
text = """100 John      PROF
101 James   STUD
102 Mac    STUD"""

re.split('\s+', text)       # +는 최소 1개 이상의 패턴을 찾아냄

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [26]:
re.findall('\d+',text)

['100', '101', '102']

In [28]:
re.findall('[A-Z]', text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [29]:
# 대문자인 행의 값만 가져오고 싶을 때
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [30]:
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']