# 정규표현식

## 정규표현식이란
- 특정 패턴 일치 문자열을 검색, 치환, 제거할 때 사용
- 정규표현식 없이 패턴 찾는 방법은 불완전하거나 cost가 높다
- 이메일, 전화번호, URL 형식 판별, 숫자 문자열 판별등에 사용

## raw string
- 문자열 앞에 r을 붙여 구성 문자열 그대로 반환

In [1]:
a = "abc\tdef"
print(a)
b = r"abc\tdef"
print(b)

abc	def
abc\tdef


## 기본 패턴
- 일반 문자들은 해당 문자와 일치
- 메타 문자 . ^ $ * + ? {} [] \ | ()는 다른 의미 \로 escape
- \w: 문자와 일치 \[a-zA-Z0-9_]
- \s: 공백 문자와 일치
- \d: 숫자 문자와 일치 \[0-9]
- ^: 시작, $: 끝

## search
- 첫번째로 패턴 찾으면 match 객체 반환
- 패턴 없으면 None 반환

In [2]:
import re

In [5]:
m = re.search(r'abc', '123abcdef')
print(m.start())
print(m.end())
print(m.group())

3
6
abc


In [7]:
m = re.search(r'abc', '123abdef')
print(m)


None


In [10]:
re.search(r'\d\w', '111abc222')
# w는 숫자 문자열도 포함한다!

<re.Match object; span=(0, 2), match='11'>

## [] 문자 범위
- \[abck] a or b or c or k
- \[ab.^] a or b or . or ^  특수 기호 아닌 그 자체
- \[a-z] 소문자
- \[A-Z0-9] 대문자 또는 숫자
- \[^0-9] 숫자 아닌 것 - ^가 앞에 오면 해당되지 않는 것과 매칭

In [16]:
words = ["cat", "out", "bat", "sat", "can"]
print(list(filter(lambda w: re.search(r"[cbm]at", w), words)))
print(list(filter(lambda w: re.search(r"[a-z]at", w), words)))

['cat', 'bat']
['cat', 'bat', 'sat']


In [18]:
re.search(r'[abc.^]a', "pusan.ac.kr")

<re.Match object; span=(5, 7), match='.a'>

In [19]:
re.search(r'[^abc.^]a', "pusan.ac.kr")

<re.Match object; span=(2, 4), match='sa'>

## \
1. 다른 문자와 함께 사용
    - \d: 숫자 문자
    - \D: 숫자 아닌 문자
    - \s: 공백 문자
    - \S: 공백 아닌 문자
    - \w: 대소문자, 숫자 \[0-9a-zA-z]
    - \W: 대소문자, 숫자 아닌 문자(non alpha numeric 문자)
2. 메타 문자가 케릭터 자체를 표현
    - \\
    - \.

In [22]:
print(re.search(r"\sand", "apple and banana"))
print(re.search(r"\Sand", "apple and banana"))
print(re.search(r"\Sand", "land"))

<re.Match object; span=(5, 9), match=' and'>
None
<re.Match object; span=(0, 4), match='land'>


In [24]:
print(re.search(r".com", "lsy.com"))
print(re.search(r".com", "secom"))
print(re.search(r"\.com", "lsy.com"))
print(re.search(r"\.com", "secom"))

<re.Match object; span=(3, 7), match='.com'>
<re.Match object; span=(1, 5), match='ecom'>
<re.Match object; span=(3, 7), match='.com'>
None


## .
- 모든 문자 의미

## 반복패턴
- *, +, ?는 반복 검사
- +: 1번 이상
- *: 0번 이상
- ?: 0번 또는 1번
- 그리디하게 검색(가능한 많은 부분 매칭), 단 첫번째 매칭만 탐색!!

In [28]:
print(re.search(r"a[bcd]*b", 'kabcdbcdbdddbcx'))
print(re.search(r"a[bcd]*b", 'abb'))


<re.Match object; span=(1, 13), match='abcdbcdbdddb'>
<re.Match object; span=(0, 3), match='abb'>


In [29]:
re.search(r"i+", "piigiiiii")
# 첫번째 탐색 부분에서 그리디하게

<re.Match object; span=(1, 3), match='ii'>

In [31]:
re.search(r"https?", "https://www.google.com")
re.search(r"https?", "http://www.google.com")

<re.Match object; span=(0, 4), match='http'>

## ^와 $
- ^-: 문자열 맨 앞부터 일치하는지 탐색
- -$: 문자열 맨 뒤부터 일치하는지 탐색

In [32]:
re.search(r"b\w+a", 'cabana')

<re.Match object; span=(2, 6), match='bana'>

In [33]:
re.search(r"^b\w+a", 'cabana')

In [34]:
re.search(r"^b\w+a", 'banana')

<re.Match object; span=(0, 6), match='banana'>

In [35]:
re.search(r".com$", "https://www.google.com")

<re.Match object; span=(18, 22), match='.com'>

## grouping
- ()로 그루핑
- 매칭 결과를 그룹별로 분리
- 패턴 명시할 때 그룹을 괄호 안에 넣어 분리하여 사용

In [44]:
m = re.search(r"(\w+)@(\w+.+)", 'test@gmail.com')
print(m.groups())
print(m.group(0))
print(m.group(1))
print(m.group(2))

('test', 'gmail.com')
test@gmail.com
test
gmail.com


## {}
- 반복 횟수 명시
- {3}: 3번 반복
- {3,4}: 3 ~ 4번 반복

In [46]:
re.search(r'pi{3,5}g', "piiig")


<re.Match object; span=(0, 5), match='piiig'>

## 미니멈 매칭
- 그리디하게 동작하지 않기를 원하는 경우
- *?, +?, {}?로 해당 기능 구현

In [47]:
re.search(r'<.+>', '<html>haha</html>')

<re.Match object; span=(0, 17), match='<html>haha</html>'>

In [48]:
re.search(r'<.+?>', '<html>haha</html>')


<re.Match object; span=(0, 6), match='<html>'>

In [49]:
re.search(r'a{3,5}', 'aaaaa')

<re.Match object; span=(0, 5), match='aaaaa'>

In [50]:
re.search(r'a{3,5}?', 'aaaaa')

<re.Match object; span=(0, 3), match='aaa'>

## match
- 문자열 시작부터 비교하여 패턴이 있는지 확인
- 없으면 None 반환

In [51]:
re.match(r'\d\d\d', "123 is my number")

<re.Match object; span=(0, 3), match='123'>

In [56]:
re.search(r'^\d\d\d', "123 is my number")
# search에서 ^ 사용한 것과 같은 효과

<re.Match object; span=(0, 3), match='123'>

## findall
- search는 첫번째로 매칭되는 것만 반환
- 매칭되는 모든 결과를 list 형태로 반환

In [61]:
re.findall(r'\w+@[\w.]+', "test@gmail.com haha something test2@naver.com teee@kakao.com")

['test@gmail.com', 'test2@naver.com', 'teee@kakao.com']

## sub
- 일치하는 모든 패턴을 replace 해서 반환
- 두번째 인자로 특정 문자열, 변환 함수
- count는 기본값 0으로 전체 변환, 1 이상이면 해당 숫자만큼만 치환


In [62]:
re.sub(r'\w+@[\w.]+', 'E-mail', "test@gmail.com haha something test2@naver.com teee@kakao.com")

'E-mail haha something E-mail E-mail'

In [63]:
re.sub(r'\w+@[\w.]+', 'E-mail', "test@gmail.com haha something test2@naver.com teee@kakao.com", count=1)

'E-mail haha something test2@naver.com teee@kakao.com'

## compile
- 동일한 정규표현식을 매번 다시 쓰기 어려움
- compile로 특정 표현식을 객체로 저장하여 사용 가능

In [64]:
email_reg = re.compile(r'\w+@[\w.]+')
email_reg.findall("test@gmail.com haha something test2@naver.com teee@kakao.com")

['test@gmail.com', 'test2@naver.com', 'teee@kakao.com']

## 연습

1. 이메일 주소 추출


In [5]:
import requests
import re
from bs4 import BeautifulSoup
# 위의 두 모듈이 없는 경우에는 pip install requests bs4 실행

def get_news_content(url):
    response = requests.get(url)
    content = response.text

    soup = BeautifulSoup(content, 'html5lib')

    div = soup.find('div', attrs = {'id' : 'harmonyContainer'})

    content = ''
    for paragraph in div.find_all('p'):
        content += paragraph.get_text()

    return content

news1 = get_news_content('https://news.v.daum.net/v/20210924163902725')
print(news1)

[IT동아 남시현 기자] 2019년 5월 15일, 미국 도널드 트럼프 대통령이 ‘정보통신 기술 및 서비스 공급망 확보’에 관한 행정 명령을 발동했다. 백악관은 외부의 적으로부터 미국 정보 통신 기술과 서비스를 보호한다는 명목으로 행정 명령을 발동했고, 그다음 날 화웨이(HUAWEI)를 비롯한 68개 계열사를 거래 금지 목록으로 발표해 화웨이를 미국의 적으로 규정했다. 이 사건은 트럼프 행정부 출범 직후부터 이어져 온 미국-중국 무역 분쟁의 일환이었고, 이때의 타격으로 화웨이는 2년 만에 중국 내 스마트폰 점유율 41%대에서 10% 이하로 추락한 상황이다.전 세계 스마트폰 출하량 1위를 기록했던 화웨이가 2년 만에 벼랑 끝에 몰린 이유는 바로 ‘반도체’였다. 행정 명령이 발동하자 구글은 화웨이와의 안드로이드 운영 체제 계약을 철회했고, 화웨이는 독자 운영 체제 ‘훙멍(鴻蒙·하모니)’으로 자립을 시도했다. 하지만 스마트폰의 두뇌인 애플리케이션 프로세서(AP), 통신, 인터페이스, 저장 장치 등 주요 기술과 반도체를 대체할 수 없어 화웨이의 자립은 사실상 실패로 끝났다. 화웨이의 몰락은 현대 자본주의 시장에서 반도체의 전략적 가치를 보여준 사건이며, 전 세계가 경쟁적으로 반도체 패권을 확보하려는 신호탄이 됐다.반도체 패권의 위력을 확인한 미국은 바이든 행정부 수립에 맞춰 본격적으로 반도체 시장 강화에 나선다. 오늘날 반도체 산업 생태계는 생산 설비 없이 반도체 기술을 개발하는 팹리스(Fabless) 기업과 반도체를 위탁 생산하는 파운드리(또는 팹, Fabrication)로 분업화돼있다. 개발과 생산을 모두 수행하는 기업은 통합 장치 제조[IDM, Integrated Device Manufacturers] 기업으로 분류하지만, 오늘날 많은 반도체 기업이 효율성을 팹 또는 팹리스 기업에 해당하는데 이는 효율성을 높이기 위한 전략으로 풀이된다. 반도체 개발에 필요한 기술 개발과 생산 과정 각각에 막대한 자금이 투입되어야 하다 보니, 전 세계에 걸쳐 반도체 생산이 나뉜 것

In [6]:
email_reg = re.compile(r"[\w-]+@[\w.]+\w+")
email_reg.search(news1)

<re.Match object; span=(4098, 4112), match='sh@itdonga.com'>

2. 올바른 웹 주소 추출

In [8]:
webs = ['http://www.test.co.kr',
        'https://www.test1.com',
        'http://www.test.com',
        'ftp://www.test.com',
        'http:://www.test.com',
       'htp://www.test.com',
       'http://www.google.com',
       'https://www.homepage.com.']

In [16]:
web_reg = re.compile(r"https?://www.[\w.]+\w")
web_reg.findall(" ".join(webs))

['http://www.test.co.kr',
 'https://www.test1.com',
 'http://www.test.com',
 'http://www.google.com',
 'https://www.homepage.com']

In [19]:
web_reg = re.compile(r"https?://www.[\w.]+\w$")
[web_reg.match(addr) != None for addr in webs ]


[True, True, True, False, False, False, True, False]