# 정규표현식(Regular Expression) 기초

## 1.기본 package 불러오기 



In [1]:
## 기본
import numpy as np                      # numpy 패키지 가져오기
import pandas as pd                     # pandas 패키지 가져오기
import requests
import re                              # 정규식 패키지 가져오기

import warnings
warnings.filterwarnings('ignore')

## 파이썬에서 정규 표현식을 지원하는 re 모듈
### ■ re.compile("원하는 정규표현식" , [flags])
         - "원하는 정규표현식"(pattern)을 컴파일하여 정규표현식 객체를 반환

### ■ pattern 검색

#### ① re.search(pattern , string [,flags]) : string 전체에 대해서 pattern 이 존재하는지 검색
         /* 표현이 여러 개 탐색되었을 경우 <span style="color:red"> 처음 탐색된 정보만 출력 </span> */

#### ② re.match(pattern , string [,flags]) : string 시작 부분부터 pattern 이 존재하는지 검색
       /* 문자열 내에서 특정 표현이 전부 매칭 되거나 맨앞에 있을 경우 에 탐색 */

#### ③ re.findall(pattern , string [,flags])  : string 에서 pattern 과 매치되는 모든 경우를 찾아서 리스트로 반환

### ■ pattern 수정

#### ① re.sub(pattern , repl , string [,count]) 
    : string 에서 pattern 과 일치하는 부분에 대하여 repl 로 교체하여 결과 문자열을 반환(count 인자는, 최대 몆 개까지 치환할 것인가를 지정)
#### ② re.split(pattern , string [,maxsplit=0]) 
    : pattern 을 구분자로 string 을 분리하여 리스트로 반환(maxsplit은 최대 몇 개까지 문자열을 split할지를 나타냄)

## Part 1  - search & match & findall (1)

In [2]:
p = re.compile('[a-z]+')   #  p는 소문자로 구성된 영단어를 검색하는 정규식 객체

In [3]:
# 출력 메세지 중 span=(m,n) 의미 : index m에서 n번째 까지 매치됨을 의미 
# (n번째는 처음부터 시작하여 n 번째 라는 의미, 처음은 1 부터 시작)

m = p.search("python")    # search method : string 전체에 대해서 pattern 이 존재하는지 검색 - 맨처음 검색 단어만 반환

print(m)

<re.Match object; span=(0, 6), match='python'>


In [4]:
# string 전체에 대해서 pattern 이 존재하는지 검색

m = p.search(" python")

print(m)

<re.Match object; span=(1, 7), match='python'>


In [5]:
m = p.search(" py thon")   # 맨 처음 검색 단어만 반환

print(m)

<re.Match object; span=(1, 3), match='py'>


In [6]:
# match method : 정확히 일치하는 것만 검색 - 특정 표현이 전부 매칭 되거나 맨앞에 있을 경우에만 반환

m = p.match("python")  

print(m)

<re.Match object; span=(0, 6), match='python'>


In [7]:
# match method : 정확히 일치하는 것만 검색 - 특정 표현이 전부 매칭 되거나 맨앞에 있을 경우에만 반환

m = p.match(" python")    # blank 가 있는 경우 

print(m)

None


In [8]:
# match method : 정확히 일치하는 것만 검색 - 특정 표현이 전부 매칭 되거나 맨앞에 있을 경우에만 반환

m = p.match("7 python")

print(m)

None


In [9]:
# match method : 정확히 일치하는 것만 검색 - 특정 표현이 전부 매칭 되거나 맨앞에 있을 경우에만 반환


m = p.match("py thon")

print(m)

<re.Match object; span=(0, 2), match='py'>


In [10]:
# 아래 reg는 Hello 문자열을 검색하는 정규식 객체

reg = re.compile("Hello")      

text1 = "Hello world! Hello Python!"

print(reg.search(text1))     # 검색 결과 반환

print("\n")

print(reg.search(text1).group())  # 텍스트 상에 여러개가 있을 때 맨 앞에 발견된 하나만 가져와서 해당 단어를 반환

<re.Match object; span=(0, 5), match='Hello'>


Hello


In [11]:
# text1 = "Hello world! Hello Python!"
# search를 통해 여러패턴을 찾아보고 싶다면 search 함수 parameter 중 pos parameter(시작 탐색 지점)을 조절하여 탐색

print(reg.search(text1, pos=13))     #  검색 시작 위치를 13번째 부터 시작,  두번째 Hello 가 검색되어짐

<re.Match object; span=(13, 18), match='Hello'>


In [12]:
# text = "Hello world! Hello Python!"
# span 함수를 사용하여 위치를 확인 가능
# 결과는 (시작 위치, 끝 위치) 튜플을 반환 

position = reg.search(text1).span()

print(position)

(0, 5)


In [13]:
# text1 = "Hello world! Hello Python!"
# findall 함수: Text 내 매치되는 모든 문자열을 List 형식으로 반환

print(reg.findall(text1))

['Hello', 'Hello']


## Part 1 - search & match & findall (2)

In [14]:
# 시작 단어 및 끝 단어로 검색 하기 

text2 = "The park in Spain"

x = re.search("^The.*Spain$", text2)    # The 로 시작하고 Spain 으로 끝나는 문자열을 search, 두 단어 중간은 어떠한 단어도 OK !!

if (x):
  print("YES! We have a match!")
else:
  print("No match")

YES! We have a match!


In [15]:
# boolean 메소드 이용하여 결과 반환하기 

x = (re.search("park", text2))

print(x)

<re.Match object; span=(4, 8), match='park'>


In [16]:
# group() 메소드는 매치된 문자열을 반환함 

x = re.search(r"\bS\w+", text2)

print(x.group()) 

Spain


In [17]:
# 문장에서 전화번호를 추출 (1) 

text3 = "문의사항이 있으면 사무실 031-234-3456 이동전화 010-7700-9988 으로 연락주시기 바랍니다."
 
tel = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')   # 전화 번호 추출을 위한  정규 표현식 객체를 만듬 

search_tel = tel.search(text3)   # 대상 문자열을 search 메소드에 넘겨줌   

phone = search_tel.group()   # 전화번호를 추출 

print(phone)

031-234-3456


In [18]:
# 문장에서 전화번호를 추출 (2)  
 
tel = re.compile(r'\d{2,3}-\d{3,4}-\d{4}')   # 전화 번호 추출을 위한  정규 표현식 객체를 만듬 

search_num = tel.findall(text3)   # 대상 문자열을 findall 메소드에 넘겨줌   

print(search_num[0]) 
print(search_num[1])  

031-234-3456
010-7700-9988


In [19]:
text4 = "에러 1122 : Reference 오류 \n 에러 1033: Argument 오류"

search_error = re.compile("에러\s\d+")  # "에러 번호" 추출을 위한 정규식 객채를 만듬 

mc = search_error.findall(text4)    # 대상 문자열에서 매치되는 모든 단어를 반환 

print(mc)

['에러 1122', '에러 1033']


## Part 2 - sub & split

In [21]:
# 문자열에서 특정 단어를 수정하기 (1) 

text5 = "apple box orange tree"

change_text = re.sub('apple|orange', 'fruit', text5)   # 문자열에 있는 apple 과 orange 를 fruit 로 수정

print(change_text)     # 수정된 문자열을 출력 

fruit box fruit tree


In [22]:
# 문자열에서 특정 단어를 수정하기 (2) 

text6 = "1 3 apple box 5 orange tree 7 9"


change_char = re.sub('[0-9]+', 'number', text6)    # 숫자만 찾아서 number 라는 단어로 바꾸어 결과 문자열을 반환


print(change_char)     # change_char 는 문자열 임 

number number apple box number orange tree number number


In [23]:
# 매개변수로 함수 이용하기 
# 위 셀에서 text = "1 3 apple box 5 orange tree 7 9"

def multiple10(m):          # 매개변수로 매치 객체를 받음
    n = int(m.group())      # 매칭된 문자열을 가져와서 정수로 변환
    return str(n * 10)


change_char = re.sub('[0-9]+', multiple10, text6)    # 숫자만 찾아서 10을 곱해준 후 결과 문자열을 반환

print(change_char)

10 30 apple box 50 orange tree 70 90


In [25]:
# 문자열에서 힌글만 추출하기 


text7 = "인공어(人工語): (사투리 따위 자연어(自然語)에 대(對)하여) 의식적(意識的)으로 창조(創造)된 언어(言語)"

reg = re.compile("[^가-힣 ]")    # 한글이 아닌 문자만 매치하는 정규식 - '힣' 문자 뒤에 blank 가 있어야 단어 형식으로 출력 !!! 

reg.sub('', text7)     # 한글이 아닌 문자는 모두 제거한 후 결과 문자열을 반환

'인공어 사투리 따위 자연어에 대하여 의식적으로 창조된 언어'

In [26]:
# split 메소드 사용법 - 결과 문자열을 반환 

text8 = "hi! hello world! hello python! hello!! hello!?"   

reg = re.compile(r"\s*hello\s*")    # 문자열에서 hello 를 찾는 정규식 

print(reg.split(text8))   # hello 를 기준으로 문자열을 나누어 결과를 반환 (hello 단어는 미포함)

['hi!', 'world!', 'python!', '!!', '!?']


In [28]:
# 한정된 횟수만큼 split 하기 

print(reg.split(text8, 1))      # # hello 를 기준으로 1 번 split 하여 문자열을 반환
print("\n")

print(reg.split(text8, 2))      # # hello 를 기준으로 2 번 split 하여 문자열을 반환
print("\n")

print(reg.split(text8, 3))      # # hello 를 기준으로 3 번 split 하여 문자열을 반환

['hi!', 'world! hello python! hello!! hello!?']


['hi!', 'world!', 'python! hello!! hello!?']


['hi!', 'world!', 'python!', '!! hello!?']


## 파이썬에서 문자열 정의하기

In [29]:
# 큰따옴표(")로 양쪽 둘러싸기

h = "Hello World"

h

'Hello World'

In [30]:
print(h)

Hello World


In [31]:
# 작은따옴표(')로 양쪽 둘러싸기

p = 'Python is fun'

p

'Python is fun'

In [32]:
# 문자열 안에 작은따옴표나 큰따옴표를 포함시키고 싶을 때

say = ' "Python is very easy." he says.'  

say

' "Python is very easy." he says.'

In [33]:
# 일반적으로 문자열은 한 줄을 넘어가지 않지만,
# 따옴표 세 개를 사용하면 여러 행에 걸친 텍스트가 문자열이 된다.

# 작은따옴표(')와 큰따옴표(")사이에 차이는 없음
# 하지만, 문자열의 시작과 끝에 같은 종류의 따옴표를 사용해야 함

multiline = '''
 Life is too short
You need python
'''

multiline

'\n Life is too short\nYou need python\n'

In [34]:
multiline = '''
Life is too short
You need python
'''


multiline

'\nLife is too short\nYou need python\n'

### ■ raw string 이해 하기

In [35]:
# 아래에서 주어진 문자열을 그대로 출력하고자 할 때

print(r'\\Hello\nWorld\\')

\\Hello\nWorld\\


In [36]:
# 만약 raw string 을 사용하지 않으면 


print('\\Hello\nWorld\\')

\Hello
World\


In [37]:
#실습 
# Raw String 규칙에 의하여 백슬래시 두개 대신 한개만 써도 두개를 쓴것과 동일한 의미 

rs = r'\\Hello\nWord\\'

rs

'\\\\Hello\\nWord\\\\'