## 기본 정규 표현식 사용하기

In [1]:
import re

## 정규표현식 기본 문법 익히기

* 메타 문자
* 선택 패턴
* 수량 한정자
* 그룹

.문자: 모든 문자 1개

In [2]:
r = re.compile("a.c")

In [3]:
rs = r.search("kkk")
print(rs ,  type(rs))

None <class 'NoneType'>


In [4]:
rs = r.search("abc")
print(rs, type(rs))

<re.Match object; span=(0, 3), match='abc'> <class 're.Match'>


x? : 존재여부를 표현하며, x 문자가 존재할 수도 존재하지 않을 수도 있음을 의미

In [5]:
r = re.compile("ab?c")

In [6]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

x* : 반복여부를 표현, x 문자가 0번 또는 그 이상 반복됨을 의미

In [7]:
r = re.compile("ab*c")

In [8]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [9]:
r.search("abbbbbbbbbbbbbbc")

<re.Match object; span=(0, 16), match='abbbbbbbbbbbbbbc'>

x+ : 반복을 표현하며 x문자가 한 번 이상 반복됨을 의미

In [10]:
r = re.compile("ab+c")

In [12]:
print(r.search("ac"))

None


In [13]:
r.search("abbbbbc")

<re.Match object; span=(0, 7), match='abbbbbc'>

^x : 문자열의 시작을 표현하며 x 문자로 시작됨을 의미

In [14]:
r = re.compile("^ab")

In [15]:
r.search("bbc")

In [16]:
r.search("zab")

In [17]:
r.search("abdsdkfjieowhe")

<re.Match object; span=(0, 2), match='ab'>

x{n} : x 문자가 n번 반복됨 

In [18]:
r = re.compile("ab{2}c")

In [19]:
r.search("abc")

In [20]:
r.search("abbbbbbbbbbbc")

In [21]:
r.search("abbcbbbbbbbbbc")

<re.Match object; span=(0, 4), match='abbc'>

x{n,m} : x 문자가 최소 n번 이상 최대 m번 이하로 반복됨

In [22]:
r = re.compile("ab{2,8}c")

In [23]:
r.search("abc")

In [24]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [25]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [26]:
r.search("abbbbbbbbbc")

x{n,} : x문자가 n번 이상 반복됨

In [27]:
r = re.compile("a{2,}bc")

In [28]:
r.search("abc")

In [29]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [30]:
r.search("AAbc")

[ ] : or를 의미하며 [abc]의 [a-c]와 같음

In [31]:
r_p1 = re.compile("[abc]")
r_p2 = re.compile("[a-c]")

In [32]:
r_p1.search('b')

<re.Match object; span=(0, 1), match='b'>

In [33]:
r_p2.search('mmnkjpkjbpoipoi')

<re.Match object; span=(8, 9), match='b'>

In [34]:
r_p2.search('mmaankjpkjbpoipoi')

<re.Match object; span=(2, 3), match='a'>

In [35]:
r_p2.search('aaaaaa')

<re.Match object; span=(0, 1), match='a'>

[^x] : ^기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치

In [36]:
r = re.compile("[^abc]")

In [37]:
r.search("aklakbetpodkhs")

<re.Match object; span=(1, 2), match='k'>

## re.match() 와 re.search() 의 차이

* re.search() : 정규 표현식 전체에 대해서 문자열이 매치하는지 확인
* re.match() : 문자열의 첫 부분부터 정규표현식과 매치하는지를 확인
  * group : 매치된 문자열을 리턴
  * start : 매치된 문자열의 시작 위치
  * end : 매치된 문자열의 끝 위치
  * span : 매치된 문자열의 (시작, 끝)에 해당하는 튜플을 리턴

In [39]:
r = re.compile("ab.")

In [40]:
print(r.match("kkkabc"))
print(r.search("kkkabc"))

None
<re.Match object; span=(3, 6), match='abc'>


In [42]:
r = re.compile("k{2}")
print(r.match("kkkabc"))
print(r.search("kkkabc", 1))

<re.Match object; span=(0, 2), match='kk'>
<re.Match object; span=(1, 3), match='kk'>


In [43]:
m = r.match("kkkabc")
print(m.group())
print(m.start())
print(m.end())
print(m.span())

kk
0
2
(0, 2)


## findall() 

정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴

In [50]:
text = """
이름 : 홍길동
핸드폰번호 : 010-0896-3456
나이 : 19
성별 : 남
"""

In [53]:
# 숫자 데이터 찾기
print(re.findall("\d+", text))
print(re.findall("[0-9]{3,4}", text))
print(re.findall("[0-9]{3,4}-[0-9]{3,4}-[0-9]{3,4}", text))

['010', '0896', '3456', '19']
['010', '0896', '3456']
['010-0896-3456']


In [54]:
# 문자 데이터 찾기
p = re.compile('[a-z]+')
result = p.findall('life is too short!! since 1111')
result

['life', 'is', 'too', 'short', 'since']

## finditer()

정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴

In [55]:
p = re.compile('[a-z]+')
result = p.finditer('life is too short!! since 1111')
result

<callable_iterator at 0x17f25d50760>

In [56]:
for r in result:
    print(r)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>
<re.Match object; span=(20, 25), match='since'>


## re.split()

정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴함

In [57]:
text = "사과 딸기 수박 메론 바나나"
print(re.split(" ", text))

['사과', '딸기', '수박', '메론', '바나나']


In [61]:
text = """
사과
딸기
수박
메론
바나나
"""

re.split('\n', text)

['', '사과', '딸기', '수박', '메론', '바나나', '']

## re.sub() 

정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체  
특수 문자 제거시 많이 사용함

In [62]:
text = """
인공지능(AI) 스타트업 업스테이지는 한국지능정보사회진흥원(NIA)과 한국어 거대언어모델(LLM) 성능을 평가하는 '오픈 코-LLM 리더보드(Open Ko-LLM)'를 구축한다고 25일 밝혔다.

리더보드는 누구나 한국어 거대언어모델을 등록하고 다른 모델과 성능을 비교하는 공개 플랫폼이다. 업스테이지는 NIA와 한국어의 특성과 문화를 반영한 데이터를 자체 구축할 계획이다.

임희석 고려대 컴퓨터학과 교수와 역사 왜곡, 환각 오류, 형태소 오류, 불규칙 활용 오류, 혐오 표현 등을 고려한 '상식 생성' 기준도 추가한다. AI가 만든 결과물이 한국어 사용자가 가진 일반 상식에 부합하는지 확인할 수 있다는 것이 업체의 설명이다.

KT는 이번 리더보드 개설에 클라우드의 인프라 지원할 계획이다. 자세한 내용은 이달 27일부터 AI 플랫폼 '허깅페이스'의 오픈 코-LLM 리더보드 스페이스에서 확인할 수 있다.

김성훈 업스테이지 대표는 "앞으로도 '1조 토큰 클럽' (1T 클럽) 등을 통해 고품질 한국어 데이터를 공유하고 리더보드를 통한 협업 촉진과 빠른 기술 전파 등으로 국내 AI 생태계를 넓혀나가겠다"고 말했다.

김주완 기자 kjwan@hankyung.com
"""

re.sub('[^ㄱ-ㅎ가-힣a-zA-Z\.\,]+' , " ", text)

' 인공지능 AI 스타트업 업스테이지는 한국지능정보사회진흥원 NIA 과 한국어 거대언어모델 LLM 성능을 평가하는 오픈 코 LLM 리더보드 Open Ko LLM 를 구축한다고 일 밝혔다. 리더보드는 누구나 한국어 거대언어모델을 등록하고 다른 모델과 성능을 비교하는 공개 플랫폼이다. 업스테이지는 NIA와 한국어의 특성과 문화를 반영한 데이터를 자체 구축할 계획이다. 임희석 고려대 컴퓨터학과 교수와 역사 왜곡, 환각 오류, 형태소 오류, 불규칙 활용 오류, 혐오 표현 등을 고려한 상식 생성 기준도 추가한다. AI가 만든 결과물이 한국어 사용자가 가진 일반 상식에 부합하는지 확인할 수 있다는 것이 업체의 설명이다. KT는 이번 리더보드 개설에 클라우드의 인프라 지원할 계획이다. 자세한 내용은 이달 일부터 AI 플랫폼 허깅페이스 의 오픈 코 LLM 리더보드 스페이스에서 확인할 수 있다. 김성훈 업스테이지 대표는 앞으로도 조 토큰 클럽 T 클럽 등을 통해 고품질 한국어 데이터를 공유하고 리더보드를 통한 협업 촉진과 빠른 기술 전파 등으로 국내 AI 생태계를 넓혀나가겠다 고 말했다. 김주완 기자 kjwan hankyung.com '

re.compile 대소문자 구분 무시

In [63]:
r = re.compile("k", re.I)
print(r.search("Kkkasf"))

<re.Match object; span=(0, 1), match='K'>


## 정규표현식을 이용한 토큰화

In [64]:
from nltk.tokenize import RegexpTokenizer

text = """ 
Break issues into actionable tasks
Tackle complex issues with task lists and track their status with new progress indicators. Convert tasks into their own issues and navigate your work hierarchy.
"""

In [65]:
tokenizer1 = RegexpTokenizer('[\w]+')
tokenizer2 = RegexpTokenizer('\s+', gaps=True) 

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))


['Break', 'issues', 'into', 'actionable', 'tasks', 'Tackle', 'complex', 'issues', 'with', 'task', 'lists', 'and', 'track', 'their', 'status', 'with', 'new', 'progress', 'indicators', 'Convert', 'tasks', 'into', 'their', 'own', 'issues', 'and', 'navigate', 'your', 'work', 'hierarchy']
['Break', 'issues', 'into', 'actionable', 'tasks', 'Tackle', 'complex', 'issues', 'with', 'task', 'lists', 'and', 'track', 'their', 'status', 'with', 'new', 'progress', 'indicators.', 'Convert', 'tasks', 'into', 'their', 'own', 'issues', 'and', 'navigate', 'your', 'work', 'hierarchy.']
