## 정규표현식

[import re]

[우리가 자주 사용할 함수]

* findall - 일치하는 문자열을 리스트로 반환
* split - 일치하는 문자열로 원래 문자열을 분할한 리스트로 반환
* sub - 일치하는 문자열을 치환한 문자열을 반환
* search - 일치하는 문자열이 있으면 match 객체를 반환

[대표적인 정규표현식]

* . 줄바꿈 이외의 임의의 문자
* ^ 문자열 시작
* $ 문자열의 끝, 또는 문자열 끝 줄바꿈 직전
* \* 직전 정규표현식은 0회 이상 반복
* \+ 직전 정규표현식을 1회 이상 반복
* ? 직전 정규표현식이 0회 또는 1회 존재

[자주 사용하는 문자 클래스]
 꼭 기억해야할 정규표현식
* \d 숫자와 매치 [0-9]와 같다.
* \D 숫자가 아닌것과 매치 [^0-9]와 같다.

* \s whitespace문자와 매치 [ \t\n\r\f\v]와 같음. 맨앞의 빈칸은 공백을 의미
* \S whitespace문자가 아닌것과 매치 [^ \t\n\r\f\v]와 같음.

* \w 문자+숫자와 매치 [a-zA-Z0-9_]와 같습니다.
* \W 문자+숫자가 아닌 문자와 매치 [^a-zA-Z0-9_]와 같습니다.

*  \\\ 메타 문자가 아닌 일반 문자 역슬래시와 매치. 매타 문자 앞에 W를 붙이면 일반문자를 위미

### findall 함수

In [None]:
# findall 함수를 사용하면 지정한 조건에 일치하는 문자열을 리스트로 얻을 수 있다.

# re.함수(r) -> raw문자열이라고 
# 이스케이프가 필요한 메타 문자를 무시하는 효과가 있음
# 사용할때는 앞에 r을 붙이는것이 좋음

In [1]:
import re

text1 = "In the face of ambiguity, refuse the temptation to guess"
match_list = re.findall(r"t.", text1)
print(match_list)

['th', 'ty', 'th', 'te', 'ta', 'ti', 'to']


### sub 함수 

In [None]:
# 정규표현식으로 치환하기

# sub함수를 사용하면 정규표현식으로 치환 할 수 있습니다.

# sub(대체 해야할 문자 / 대체 할 문자 / 데이터)


In [2]:
import re

text = "Beautiful is better than ugly"

replaced = re.sub(' ','_', text)
print(replaced)

Beautiful_is_better_than_ugly


### split 함수 

In [None]:
# 정규표현식으로 텍스트 분할하기

# split함수를 사용하면 정규 표현식에 일치한 위치에서 분할한 문자열 리스트를 얻을 수 있습니다.

In [3]:
import re

text = 'Simple is Best'

splited = re.split(' ', text)

print(splited)



['Simple', 'is', 'Best']


### 정규표현식(regular expression)

https://regexr.com/5nvc2

In [None]:
# [^a-zA-Z0-9]+는 정규 표현식(regular expression)에서 사용되는 특수한 패턴으로, 
# 알파벳 대소문자와 숫자가 아닌 문자들이 하나 이상 연속해서 나타나는 경우를 의미합니다.
# 결국 공백을 구분자로 해서 분리
# ^ -> 문자의 시작

### Greedy, Lazy개념

In [4]:
# Greedy, Lazy 사용하기
# 정규표현식이 패턴에 일치하는 문자열을 추출할때
# 일치하는 최대한의 범위를 추출하는 상태를 greedy(탐욕)이라고 한다.

# 최소한은 Lazy라고 하는데 파이썬은 기본적으로 greedy하지만
# ?를 붙이는 순간 Lazy해진다. 

import re

text = 'In the face of ambiguity, refuse the temptation to guess'
match_list = re.findall(r"t.*\s", text) # t에서 아무문자나 해서 직전까지 0번 반복되어 공백까지
print(match_list)

['the face of ambiguity, refuse the temptation to ']


In [5]:
import re

text = 'In the face of ambiguity, refuse the temptation to guess'
match_list = re.findall(r"t.*?\s", text) 
print(match_list)

['the ', 'ty, ', 'the ', 'temptation ', 'to ']


### 정규표현식에서 그룹 이용하기

In [7]:
# 정규표현식의 그룹은 데이터 분석이나 ETL 도구 구현 등에서 자주 사용하는 기능으로
# 원하는 객체를 그루핑할 수 있다라는 장점이 있습니다.

# 제품 -> [0-9]+
# 카탈로그 코드 [0-9A-Z]+
# 제품명 .*
# 구분 문자 공백
# ([0-9]+) +([ 0-9 A-Z]+) +(.*)

# 찾아진 문자열에서 그룹핑 하고 싶은 부분을 ()한다. point! 

text = """
101 CF001 커피 
102 CF002 커피(대용량)
201 TE01 홍차
202 TE02 홍차(대용량)
"""
items = re.findall(r'([0-9]+) +([ 0-9 A-Z]+) +(.*)', text)
print(items)

[('101', 'CF001', '커피 '), ('102', 'CF002', '커피(대용량)'), ('201', 'TE01', '홍차'), ('202', 'TE02', '홍차(대용량)')]


In [9]:
# 연습 차 종류랑 차 키 번호만 그룹핑해서 뽑기
import re

text = """
101 CF001 커피 
102 CF002 커피(대용량)
201 TE01 홍차
202 TE02 홍차(대용량)
"""

new_list = re.findall(r'([0-9]+) +[A-Z0-9]+ +([가-힣\(\)]+)', text)

print(new_list)


[('101', '커피'), ('102', '커피(대용량)'), ('201', '홍차'), ('202', '홍차(대용량)')]


In [12]:
# 정규표현식과 일치하는 부분 확인

# re 모듈의 serach함수는 정규표현식과 일치하는 첫 번째 위치 정보가 저장된 Match 객체를 반환
# Match 객체를 사용하면 일치하는 위치의 문자열과 함께 시작 및 종료 위치 정보 확보 가능

# match객체
# start , end , group, groups 튜플 그룹

import re

text = 'Error should never pass silently'
m_obj = re.search(r"p...", text)

print(m_obj.group()) # 일치 문자열 ()로 묶인 것인 없음
print(m_obj.start()) # 시작 인덱스
print(m_obj.end()) # 끝 인덱스

<re.Match object; span=(19, 20), match='p'>
pass
19
23


In [None]:
import re

text = 'Errors should never pass silently'
# 1번 그룹 - n.... n다음에 4글자가 아무거나
# 2번 그룹 - p... p다음에 3글자가 아무거나

m_obj = re.search(r"(n....) (p...)", text)
print(m_obj.group())
print(m_obj.groups())

## 정규 표현식 연습 

In [16]:
# 주소록입니다. 이후 강의에서 모두 이 search_target을 사용합니다.
search_target = '''
hello world
hello  world
hello, world
Hello World

hello world hello

hello
hallo
hollo
heallo
yellow

Monday Tuesday Wednesday Thursday Friday Saturday Sunday

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567891011121314151617181920
aaabbcaaabbcabcabc
aaa bb c aaa bb c a b c a b c
aaa1bb2c3aaa4bb5c6

[123456]
123[456]789
abc[def]ghij

010-9091-5491
010-5043-2901
010-5050-40409
010-49492-3131
010 2913 3132
01019133829
064-721-3213
010.1913.3829


paul-korea@naver.com
paul@naver.com
leehojun@gmail.com
hojun.lee@gmail.com
test.test@go.go.go


https://github.com/LiveCoronaDetector/livecod
github.com/LiveCoronaDetector/livecod
https://github.com/LiveCoronaDetector

I never dreamed about success, I worked for it.
Do not be afraid to give up the good to go for the great.

hello (hello world) hello
hello \\hello world// hello
^^
:)

[(name, leehojun), (age, 10), (height, 180), (email, paul-lab@naver.com)]
{name : leehojun, age : 10, height : 180, email : paul-lab@naver.com}

가나다라마바사아자차카타파하
ㄱㄴㄷㄹㅁㅂㅅㅇㅈㅊㅋㅌㅍㅎ
안녕_하세요
안녕-하세요
수사
수박
수상
동해 물과 백두산이 마르고 닳도록 하느님이 보호하사 우리나라 만세
'''

print(search_target)



hello world
hello  world
hello, world
Hello World

hello world hello

hello
hallo
hollo
heallo
yellow

Monday Tuesday Wednesday Thursday Friday Saturday Sunday

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567891011121314151617181920
aaabbcaaabbcabcabc
aaa bb c aaa bb c a b c a b c
aaa1bb2c3aaa4bb5c6

[123456]
123[456]789
abc[def]ghij

010-9091-5491
010-5043-2901
010-5050-40409
010-49492-3131
010 2913 3132
01019133829
064-721-3213
010.1913.3829


paul-korea@naver.com
paul@naver.com
leehojun@gmail.com
hojun.lee@gmail.com
test.test@go.go.go


https://github.com/LiveCoronaDetector/livecod
github.com/LiveCoronaDetector/livecod
https://github.com/LiveCoronaDetector

I never dreamed about success, I worked for it.
Do not be afraid to give up the good to go for the great.

hello (hello world) hello
hello \hello world// hello
^^
:)

[(name, leehojun), (age, 10), (height, 180), (email, paul-lab@naver.com)]
{name : leehojun, age : 10, height : 180, email : paul-lab@naver.com}

가나다라마

In [19]:
# 숫자 대표 정규표현식
regex = r'\d'

# 문자 + 숫자 대표 정규표현식
regex = r'\w'


# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, search_target)
print(' '.join(result))

h e l l o w o r l d h e l l o w o r l d h e l l o w o r l d H e l l o W o r l d h e l l o w o r l d h e l l o h e l l o h a l l o h o l l o h e a l l o y e l l o w M o n d a y T u e s d a y W e d n e s d a y T h u r s d a y F r i d a y S a t u r d a y S u n d a y a b c d e f g h i j k l m n o p q r s t u v w x y z A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 a a a b b c a a a b b c a b c a b c a a a b b c a a a b b c a b c a b c a a a 1 b b 2 c 3 a a a 4 b b 5 c 6 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 a b c d e f g h i j 0 1 0 9 0 9 1 5 4 9 1 0 1 0 5 0 4 3 2 9 0 1 0 1 0 5 0 5 0 4 0 4 0 9 0 1 0 4 9 4 9 2 3 1 3 1 0 1 0 2 9 1 3 3 1 3 2 0 1 0 1 9 1 3 3 8 2 9 0 6 4 7 2 1 3 2 1 3 0 1 0 1 9 1 3 3 8 2 9 p a u l k o r e a n a v e r c o m p a u l n a v e r c o m l e e h o j u n g m a i l c o m h o j u n l e e g m a i l c o m t e s t t e s t g o g o g o h t t p s g i t h u b c o m L i v e C o r o n a D e t e c t o r l i v e c o d g i 

In [17]:
# Hello 단어를 검색봅시다.
regex = r'hello'

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, search_target)
print("\n".join(result))

hello
hello
hello
hello
hello
hello
hello
hello
hello
hello
hello
hello


In [20]:
# 맨처음에 와야하는 것 ^
m1 = re.findall("^Life", "Life is too short")
print("m1 결과 : ", m1)

m1 결과 :  ['Life']


In [21]:
# 맨처음에 와야하는 것 ^
m2 = re.findall("^Life", "Life is too short")
print("m2 결과 : ", m2)
m3 = re.findall("^is", "Life is too short")
print("m3 결과 : ", m3) # is가 맨처음이 아니라서 출력이 되지 않음.

m2 결과 :  ['Life']
m3 결과 :  []


In [26]:
# 맨 마지막에 와야하는 것 $
m4 = re.findall("short$", "Life is too short")
m5 = re.findall("short$", "Life is too short So what?")
m6 = re.findall("what\?$", "Life is too short. So what?")
 
print("m4 결과 : ", m4)
print("m5 결과 : ", m5)
print("m6 결과 : ", m6)

m4 결과 :  ['short']
m5 결과 :  []
m6 결과 :  ['what?']


In [27]:
# 특정문자 1개 .
import re
regex = re.compile('ema.l')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.

result = re.findall(regex, search_target)
print("\n".join(result))

email
email


In [28]:
# 특정문자 6개 .(공백포함)
import re
regex = re.compile('......')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.

result = re.findall(regex, search_target)
print(" ".join(result))

hello  hello   world hello,  world Hello  hello  world  heallo yellow Monday  Tuesd ay Wed nesday  Thurs day Fr iday S aturda y Sund abcdef ghijkl mnopqr stuvwx yzABCD EFGHIJ KLMNOP QRSTUV WXYZ01 234567 891011 121314 151617 181920 aaabbc aaabbc abcabc aaa bb  c aaa  bb c  a b c  aaa1bb 2c3aaa 4bb5c6 [12345 123[45 abc[de f]ghij 010-90 91-549 010-50 43-290 010-50 50-404 010-49 492-31 010 29 13 313 010191 064-72 1-3213 010.19 13.382 paul-k orea@n aver.c paul@n aver.c leehoj un@gma il.com hojun. lee@gm ail.co test.t est@go .go.go https: //gith ub.com /LiveC oronaD etecto r/live github .com/L iveCor onaDet ector/ liveco https: //gith ub.com /LiveC oronaD etecto I neve r drea med ab out su ccess,  I wor ked fo Do not  be af raid t o give  up th e good  to go  for t he gre hello  (hello  world ) hell hello  \hello  world // hel [(name , leeh ojun),  (age,  10),  (heigh t, 180 ), (em ail, p aul-la b@nave r.com) {name  : leeh ojun,  age :  10, he ight :  180,  email  : paul -lab@n aver.c 가나다라마바

In [29]:
# 여러가지 중에 택 1해서 찾기
import re
regex = re.compile(r'h[aey]llo') # aey중에 하나 해당되면 찾기

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.

result = re.findall(regex, search_target)
print("\n".join(result))

hello
hello
hello
hello
hello
hello
hallo
hello
hello
hello
hello
hello
hello


In [None]:
# 여러가지 중에 택 1해서 찾기 + re.I
import re
regex = re.compile(r'h[aey]llo', re.I) # I는 대소문자를 구분하지않는다.

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.

result = re.findall(regex, search_target)
print("\n".join(result))

In [34]:
# 대괄호 안에 ^은 부정의 의미를 갖고 있음.
import re
regex = re.compile(r'[^a-zA-Z]')  # [^] 대괄호안에서 ^은 부정의 의미를 갖고 있습니다.

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.

result = re.findall(regex, search_target)
print(" ".join(result))


   
     
 ,   
   
 
     
 
 
 
 
 
 
 
             
 
 0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 
 
                       
 1 2 3 4 5 6 
 
 [ 1 2 3 4 5 6 ] 
 1 2 3 [ 4 5 6 ] 7 8 9 
 [ ] 
 
 0 1 0 - 9 0 9 1 - 5 4 9 1 
 0 1 0 - 5 0 4 3 - 2 9 0 1 
 0 1 0 - 5 0 5 0 - 4 0 4 0 9 
 0 1 0 - 4 9 4 9 2 - 3 1 3 1 
 0 1 0   2 9 1 3   3 1 3 2 
 0 1 0 1 9 1 3 3 8 2 9 
 0 6 4 - 7 2 1 - 3 2 1 3 
 0 1 0 . 1 9 1 3 . 3 8 2 9 
 
 
 - @ . 
 @ . 
 @ . 
 . @ . 
 . @ . . 
 
 
 : / / . / / 
 . / / 
 : / / . / 
 
         ,         . 
                           . 
 
   (   )   
   \   / /   
 ^ ^ 
 : ) 
 
 [ ( ,   ) ,   ( ,   1 0 ) ,   ( ,   1 8 0 ) ,   ( ,   - @ . ) ] 
 {   :   ,     :   1 0 ,     :   1 8 0 ,     :   - @ . } 
 
 가 나 다 라 마 바 사 아 자 차 카 타 파 하 
 ㄱ ㄴ ㄷ ㄹ ㅁ ㅂ ㅅ ㅇ ㅈ ㅊ ㅋ ㅌ ㅍ ㅎ 
 안 녕 _ 하 세 요 
 안 녕 - 하 세 요 
 수 사 
 수 박 
 수 상 
 동 해   물 과   백 두 산 이   마 르 고   닳 도 록   하 느 님 이   보 호 하 사   우 리 나 라   만 세 



In [None]:
# 전화번호 찾기
import re
# 빈칸에 정규표현식을 적습니다.
regex = re.compile('[0-9]{3}[-.* ][0-9]{4}[-.* ][0-9]{4}') 
# 1. [0에서 9까지]{3개}[- 나 . 앞에 있는 문자 0~N개]
# 2. [0에서 9까지]{4개}[- 나 . 앞에 있는 문자 0~N개]
# 3. [0에서 9까지]{4개}[- 나 .]

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, search_target)
print("\n".join(result))

In [None]:
# 이메일 찾기 

# 빈칸에 정규표현식을 적습니다.
regex = re.compile('[0-9a-zA-Z]+@[0-9a-zA-Z]+.[a-zA-Z]+') 

# 1. [0에서 9까지 + 영문자]{+@}
# 2. [0에서 9까지 + 영문자].
# 3. [영문자_ 1개 이상]

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, search_target)
print("\n".join(result))

In [None]:
# \W \D \S

# 빈칸에 정규표현식을 적습니다.
regex = re.compile('\W') # 글자가 아닌 모든 것
regex = re.compile('\D') # 숫자가 아닌 모든 것 
regex = re.compile('\S') # 공백이 아닌 모든 것 

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, search_target)
print("\n".join(result))

In [None]:
# 이스케이프 문자
import re

regex = re.compile('\[.*]') 

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.

result = re.findall(regex, search_target)
print("\n".join(result))

In [None]:
# 이스케이프 문자

# 빈칸에 정규표현식을 적습니다.

regex = re.compile('\^\^') 

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, search_target)
print("\n".join(result))

In [None]:
# 이스케이프 문자

# 빈칸에 정규표현식을 적습니다.

regex = re.compile(':\)') 

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, search_target)
print("\n".join(result))

## 서브 패턴

In [None]:
# 서브패턴

# 빈칸에 정규표현식을 적습니다.
regex = re.compile('(Mon|Tues|Fri)day') #그룹 1로 3개 중 매칭되는 패턴

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, search_target)
print("\n".join(result))
print(result)

In [None]:
# 서브패턴

# 빈칸에 정규표현식을 적습니다.
regex = re.compile('(?:Mon|Tues|Fri)day') #그룹 1로 3개 중 매칭되는 패턴

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
import re
result = re.findall(regex, search_target)
print("\n".join(result))


In [None]:
result = re.findall('(y|h)(e|a)', search_target)
print(result)

In [None]:
# 서브패턴 

import re

text = "tomato potato"

p1 = "(tom|pot)ato"    # 그룹으로 묶인건 그 단어 (tom|pot)을 출력
p2 = "(?:tom|pot)ato"  # 그룹으로 묶이지 않은것은 캡처하지 않겠다고 매칭 tomato와 potato가 출력

m1 = re.findall(p1, text)
m2 = re.findall(p2, text)

print("m1 결과 : ", m1)
print("m2 결과 : ", m2)

## 정규표현식 실습하기.

In [36]:
# 인용구만 추출하기
import re
example = '앞서 논문은 이러한 연구를 진행하였습니다(홍길동, 2019). 하지만 그런 것들을 개량하여 다음 논문이 나오게 되었고(임꺽정, 2020), 마지막으로 두가지를 모두 결합한 새로운 연구가 개발되었습니다.(심청이, 2021)'

result = re.findall(r'\([가-힣0-9\s,]+\)', example)
print(result)


['(홍길동, 2019)', '(임꺽정, 2020)', '(심청이, 2021)']


In [None]:
# 만약에 이런글을 썼다고 해보죠
import re
example = '저희 첫째아들은 2020년에 태어났구요. 저희 둘째 아들은 23년에 태어났는데 셋째는 26년에 가질 예정이에요'

re.findall(r'\d.+?년', example)

In [None]:
# split

sentense = r'나는 집에 갔습니다. 그리고 밥은 먹었어요. 또 청소를 했어요. 그리고 잠을 잤어요.'
re.split('[.]', sentense)

In [None]:
# 이런 파일이 있을수 있어요
# , ; 

data = r'a:3;b:4;c:5'
for i in re.split(';', data):
  print(i)

In [None]:
sentence = '나는 동물 키우는것을 좋아합니다. 그 중 강아지를 키우는데 이름은 꽃님이에요. 날씨가 화창한 날이면 꽃님이와 산책가고 싶어져요'
print(sentence)

In [None]:
re.sub(r'꽃님이', '또리', sentence)


In [None]:
# 만약에 다음과 같이 공백이 있으면 어떻게 처리하면 좋을까요 공백만 다 제거해도 좋을거같아요
sentence = '\n\n 나는 동물 키우는것을 좋아합니다. \n\n 그 중 강아지를 키우는데 이름은 꽃님이에요. \n\n날씨가 화창한 날이면 꽃님이와 산책가고 싶어져요 \n\n'
print(sentence)

In [None]:
# 실제로 내가 띄워놓았던 공백을 제외하고는 모든 공백이 처리된것을 볼 수 있어요
print(re.sub('\n', '', sentence))