---
> # **_정규표현식_**
> - 이를 활용하면 더 **간편하고 직관적인 코드**를 작성할 수 있음
> - **특정한 규칙을 가지고 있는 문자열들을 표현하는데 사용되는 규칙을 가진 언어**
> - 텍스트 에서 특정 스트링 패턴과 **매칭**되는 부분을 찾아내기 위한 표현식
> - 매우 강력한 일종의 암호화된 표현식
> - 정규표현식을 위한 **표준 라이브러리 re모듈** 제공
> - **search(), findall(),split(),sub()** 등 
---

In [2]:
import re
data = """
park 800905-1049118
kim 700905-105119
"""

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******",data))


park 800905-*******
kim 700905-105119



In [4]:
import re
p =re.compile("ab*")
p

re.compile(r'ab*', re.UNICODE)

---
> ## **메서드 4개**
> - match() : 문자열의 처음부터 정규식과 매치되는지 조사
> - search() : 문자열 전체 검색하여 정규식과 매치되는지 조사
> - findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트로 돌려줌
> - findfilter() : 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 돌려줌
> - 매치되면 match 객체를 돌려주고 매치되지 않으면 None을 돌려줌
---

### **match**
- group() : 매치된 문자열을 돌려줌
- start() : 매치된 문자열의 시작위치를 돌려줌
- end() : 매치된 문자열의 끝 위치를 돌려줌
- span() : 매치된 문자열의 시작, 끝에 해당하는 튜플을 돌려줌

In [8]:
p = re.compile('[a-z]+')
m = p.match('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


In [7]:
m = p.match('3 python')
print(m)

None


In [11]:
m = p.match('python')
m.group()

'python'

In [12]:
m.start()

0

In [13]:
m.end()

6

In [14]:
m.span()

(0, 6)

### **search**
- group() : 매치된 문자열을 돌려줌
- start() : 매치된 문자열의 시작위치를 돌려줌
- end() : 매치된 문자열의 끝 위치를 돌려줌
- span() : 매치된 문자열의 시작, 끝에 해당하는 튜플을 돌려줌

In [15]:
m = p.search('python')
print(m)

<re.Match object; span=(0, 6), match='python'>


In [17]:
m = p.search('3 python')
print(m)

<re.Match object; span=(2, 8), match='python'>


### **findall**
- 문자열의 단어를 [a-z]+ 정규식과 매치해서 리스트로 돌려줌

In [18]:
result = p.findall('life is too short')
print(result)

['life', 'is', 'too', 'short']


### **finditer**
- findall 과 동일하지만 그 결과로 반복가능한 객체를 돌려줌

In [19]:
result = p.finditer('life is too short')
print(result)

<callable_iterator object at 0x00000245E6B2C820>


In [20]:
for r in result:
    print(r)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


#### 모듈 단위로 수행하기

In [22]:
p = re.compile('[a-z]+')
m = p.match('python')
m

<re.Match object; span=(0, 6), match='python'>

In [24]:
m = re.match('[a-z]+','python')
m

<re.Match object; span=(0, 6), match='python'>

---
> ## **컴파일 옵션**
> - DOTALL(S) - : 줄바꿈 문자를 포함하여 모든 문자와 매치
> - IGNORECASE(I) : 대소문자에 관계없이 매치
> - MULTILINE(M) : 여러줄과 매치할 수 있도록 함
> - VERPOSE(X) : verbose 모드를 사용
---

### **DOTALL, S**
- re.DOTALL 또는 re.S
- re.DOTALL 옵션을 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색 시 사용

In [25]:
import re
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [26]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


### **IGNORECASE, I**
- 대소문자 구별없이 매치를 수행할 때 사용
- **p의 정규식은 소문자만을 의미하지만 : [a-z]+**, **re.I 조건으로 대소문자 구별 없음**

In [27]:
p = re.compile('[a-z]+', re.I)
p.match('python')

<re.Match object; span=(0, 6), match='python'>

In [28]:
p.match('Python')

<re.Match object; span=(0, 6), match='Python'>

In [29]:
p.match('PYTHON')

<re.Match object; span=(0, 6), match='PYTHON'>

### **MULTILINE, M**
- 메타 문자와 연관
- ^ : 문자열의 처음
- $ : 문자열의 마지막

In [30]:
import re
p = re.compile('^python\s\w+')

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one']


In [31]:
import re
p = re.compile('^python\s\w+', re.M)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


### **VERPOSE, X**

In [36]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|×[0-9a-fA-F]+);')

In [37]:
charref = re.compile(r"""
&[#]
(
    0[0-7]+
    |[0-9]+
    |x[0-9a-fA-F]+
)
;
""",re.VERBOSE)

### **백슬래시 문제**

In [38]:
p = re.compile('\\section')

---
> ## **주요 메타문자**
> - ^ : 시작
> - $ : 끝
> - . : 한개의 문자
> - \d : 숫자
> - \w : answkdhk tntwk
> - \s : 공백 문자
> - \S : 공백제외 문자
> - * : 반복 / 앞문자가 0번 이상 반복
> - + : 반복 / 앞문자가 1번 이상 반복
> - [abc] : 문자선택범위 / a,b,c 가운데 하나의 문자
> - [^abc] : 문자제외범위 / a,b,c가 아닌 문자
> - | : 또는 | 앞의 문자 또는 뒤의 문자
---

---
## **적용사례**
---

In [71]:
import re
mytext = open('news.txt','r',encoding='UTF8').read()
print(mytext)

exp1 = r'\d+'
print('exp1:',re.findall(exp1,mytext))

exp2 = r'([가-힝]+).$'
p = re.compile(exp2,re.M)
print("exp2:",p.findall(mytext))

국내 증권업계에서 베트남은 매력적이긴 하나 수익을 내기 어려운 국가라는 인식이 강했다.
10년 전 전세계를 강타한 글로벌 금융위기로 베트남 증시가 휘청이면서 당시 국내에 설정된 베트남 펀드 수익률이 크게 꺾인 아픔도 있다.
하지만 최근 들어 한국 금융투자업계가 베트남 시장의 문을 다시 두드리기 시작했다.
베트남 정부의 적극적인 외국인 투자 유치 정책이 효과를 발휘하면서 베트남 증시는 2017년 한 해 동안 40% 이상 상승했다.
베트남 펀드 수익률도 다시 고공비행 중이다.
인구 1억명의 베트남은 전체 인구의 70%가 생산가능인구(15~64세)인 젊은 국가다.
30세 미만 인구 비중은 주요 신흥국 가운데 인도와 인도네시아 다음으로 높다.
전문가들은 “베트남의 무서운 경제 성장세가 2018년에도 지속될 것”이라고 내다봤다.
KB증권은 지난달 29일(현지시간) 베트남 하노이에서 자회사 ‘KBSV(KB Securities Vietnam)’의 공식 출범 행사를 개최했다.
KBSV의 전신(前身)은 베트남 증권사인 매리타임증권이다. KB증권은 2017년 10월 매리타임증권을 인수한 뒤 약 3달간 재출범 준비를 해왔다.
매리타임증권은 베트남에서 자산 기준 27위, 자기자본 기준 24위의 중소형 증권사였다.
KB증권은 KBSV를 베트남 선두권 증권사로 육성한다는 계획이다.
베트남에 진출했거나 진출 예정인 한국 기업을 위한 인수합병(M&A) 자문, 자금조달 주선, 신사업 추진 컨설팅 등도 지원할 예정이다.

exp1: ['10', '2017', '40', '1', '70', '15', '64', '30', '2018', '29', '2017', '10', '3', '27', '24']
exp2: ['강했다', '있다', '시작했다', '상승했다', '중이다', '국가다', '높다', '내다봤다', '개최했다', '해왔다', '증권사였다', '계획이다', '예정이다']
