# Regular Expression
    - https://docs.python.org/3.7/library/re.html?highlight=regular%20expression
---
    - 반복                                         |    - 매칭 메타문자
       * : 0회 이상 반복                           |       . : 줄바꿈 문자를 제외한 모든 문자와 매치
           ab* : a ,ab,abb,abbbbbbbb.......        |           a.b: aab,abb,acb,adb...
           lo* l : ll,lol,loool,loooooool........  |       ^ : 문자열의 시작과 매치
       + : 1회 이상                                |           ^a : a,ab,abc... (a로 시작하는 문자 찾기)
           ab+ : ab,abb,abbb......                 |       $ : 문자열의 마지막과 매치
   ? : 0번 또는 1번                            |           a$ : zbda,ccca,dba...(a로 끝나는 문자 찾기)
           ab? : a,ab                              |      [ ]: 문자 집합 중 한 문자를 매치
      {n}: n회 반복                                |           [abc]xyz: axyz,bxyz,czxy...
           a{3}bc : aaabc                          |           [a-z]bc : abc,bbc,cbc,dbc,ebc....(a부터z까지)
      {n,m} : n회부터 m회까지 반복                 |           [a-zA-z0-9]hello:ahello,Ahello,0hello,1hello(소문자,대문자다가능)
           a{2,4}bc : aabc, aaabc,aaaabc           |           [a | b]:ahello,bhello(a또는b)
                                                   |           a[.]b:a.b (반드시 .이랑만)
                                                   |           [a^bc]hello:ahello,chello ([]안에 ^_는 절대 오면 안됨)
    - 특수문자(\문자)                              
       \d : 모든 숫자와 매치
           ab\d\dc: ab00c,ab12c,ab23c...
           =ab[0-9][0-9]c
       \D : 숫자가 아닌 문자와 매치
       \s : 공백 문자와 매치
       \S : 공백문자가 아닌 모든 문자와 매치
       \w : 숫자 또는 문자와 매치 
       \W : 숫자 또는 문자가 아닌 모든 문자와 매치(특수문자)
    
    - 파이썬에서 제공하는 객체 또는 매서드
        compile() :정규표현식 객체 생성
        match() : 문자열의 처음부터 정규식와 매치되는지 조사
        search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사
        split() : 문자열 분리
        findall() : 정규식과 매치되는 모든 문자열을 리스트로 리턴
        finditer() : 정규식과 매치되는 모든 문장열을 반복 가능한 객체로 리턴
        sub() : 변경, 교체
        ...

In [50]:
import re

# 객체 생성
p = re.compile("[0-9] [a-z]+.+")# 숫자는 한개,문자는 한개이상,모든문자열 한개이상
print(bool(p.match('3 abc diadjlaj:')))# 공백이 있어야됨
print(bool(p.match('abc 10 asldfjal')))

print('-----------------------------------------')

#함수 사용(객체 생성 X)
print(bool(re.match("[0-9]*th","35th")))
print(bool(re.match("[0-9]*th"," 35th"))) #match는 딱 그 문자열만 찾음
print(bool(re.search("[0-9]*th"," 35th"))) # match < search
print(bool(re.search("[0-9]*th","adfad 35th asdfad"))) 
print(bool(re.match("[0-9]*th","adfad 35th asdfad:"))) 

print('-----------------------------------------')

# "010-222-3333" or "010-2233-4444" 와 같은 전화번호 매칭
# bool(re.match("","010-222-3333"))   시험문제
# bool(re.match("","010-2233-4444"))
print(bool(re.match("[0-9]+[-][0-9]+[-][0-9]+","010-2233-4444")))
print(bool(re.match("[0-9]+[-][0-9]+[-][0-9]+","010-222-3333")))

True
False
-----------------------------------------
True
False
True
True
False
-----------------------------------------
True
True


In [33]:
# findall  문자열만 다 찾아준다 리스트로 넘겨줌             
p = re.compile("[a-z]+")

m=p.findall("life 3333 is 222 too 10 short")
print(m)

# finditer 결과값을 주소값으로 넘겨줌   -p. 301
m1=p.finditer("life 3333 is 222 too 10 short")
print(m1)

for i in m1:
    print(i)

['life', 'is', 'too', 'short']
<callable_iterator object at 0x000002EC80654188>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(10, 12), match='is'>
<re.Match object; span=(17, 20), match='too'>
<re.Match object; span=(24, 29), match='short'>


In [62]:
data="1234 abc 가나다ABC_555_6"

print(re.findall("[0-9]",data))
print(re.findall("[0-9]+",data))#연속되는 
print(re.findall("[0-9]{2}",data)) # 2자리씩 
print(re.findall("[0-9]{2,3}",data))#연속되는 2~3자리 

['1', '2', '3', '4', '5', '5', '5', '6']
['1234', '555', '6']
['12', '34', '55']
['123', '555']


In [69]:
data="1234 abc 가나다ABC_555_6 mbc air air"

print(re.findall(".bc",data)) # abc mbc 
print(re.findall("^1+",data)) # 1?
print(re.findall("[^1]+",data)) # 1이 아닌 다른값들을 뽑아내라 
print(re.findall("a..",data)) # abc air air
print(re.findall("air$",data)) # air

['abc', 'mbc']
['1']
['234 abc 가나다ABC_555_6 mbc air air']
['abc', 'air', 'air']
['air']


In [80]:
data = "tom 80 james 100 oscar 50"

print(re.findall("\d",data))   # \d = [0-9]
print(re.findall("\d\d",data)) # \d 한자리 숫자 \d\d 두자리 숫자 
print(re.findall("\d{2}",data))# \d\d = \d{숫자}
print(re.findall("\d{3}",data))

['8', '0', '1', '0', '0', '5', '0']
['80', '10', '50']
['80', '10', '50']
['100']


In [107]:
# split() : 문자열 분리

print("mbc,kbs sbs:ytn".split())    # split()은 기준을 하나밖에 못씀
print("mbc,kbs sbs:ytn".split(",")) # 구분자는 많음  최소 split3번이상 써야돼 > 정규표현식을 이용해서 한번에 

print(re.split("\W","mbc,kbs sbs:ytn"))     # re.split > 여러가지의 구분자를 split할때 
print(re.split("\W+","mbc,kbs sbs:ytn"))    
print(re.split(",|:| ","mbc,kbs sbs:ytn"))    

['mbc,kbs', 'sbs:ytn']
['mbc', 'kbs sbs:ytn']
['mbc', 'kbs', 'sbs', 'ytn']
['mbc', 'kbs', 'sbs', 'ytn']
['mbc', 'kbs', 'sbs', 'ytn']


In [116]:
#sub()  :원하는 걸 찾아서 변경,교체 
m = re.sub("[0-9]+","888","1234 abc가나다ABC_567") # "1","2","3"    1:찾을값 2: 교체할 값 3: 데이터
print(m)

888 abc가나다ABC_888


In [119]:
# "mbc,kbs sbs:ytn"의 구분기호를 ","로 통일하시오.
a = re.sub("\W",",","mbc,kbs sbs:ytn")
print(a)

mbc,kbs,sbs,ytn


In [136]:
# match,search 객체의 매서드
p = re.compile("[a-z]+")

m = p.match("python 123 !? python")     # 중복을 제거  # 중복을 찾고 싶으면 findall
print(m)
print(m.group()) # m.group() : 찾은 문자열 출력
print(m.start(),m.end())# m.start(),m.end(): 시작위치와 끝위치 출력
print(m.span())   # m.span() : 결과값을 튜플로 출력

print("------------------------------")

m1 = p.search("python 123 !? python") # search :python이 뒤에 있어도 찾음
print(m1)
print(m1.group()) 
print(m1.start(),m.end())
print(m1.span())   

<re.Match object; span=(0, 6), match='python'>
python
0 6
(0, 6)
------------------------------
<re.Match object; span=(0, 6), match='python'>
python
0 6
(0, 6)


In [139]:
# 컴파일 옵션 : S(or DOTALL) ,I(or IGNORCASE) ,M(or MULTILINE)

# S(DOTALL): dot(.)문자가 줄바꿈 문자를 포함하여 모든 문자와 매치한다.

p = re.compile("a.b",re.S)               # . : 줄바꿈을 제외한 모든 문자 
                                         # re.S : 줄바꿈도 찾아준다
m1 = p.match("a+b")
print(m1)

m2 = p.match("a\nb")
print(m2)

<re.Match object; span=(0, 3), match='a+b'>
<re.Match object; span=(0, 3), match='a\nb'>


In [156]:
# I(iGNORCASE) : 대,소문자에 관계 없이 매치한다.
#p = re.compile("[a-z]")
#p = re.compile("[a-zA-Z]")
p = re.compile("[a-z]",re.I)
print(p.match("python"))
print(p.match("Python"))


<re.Match object; span=(0, 1), match='p'>
<re.Match object; span=(0, 1), match='P'>


In [184]:
# M(MULTILINE) : 여러 줄과 매치한다(^,$ 메타 문자의 사용과는 관계가 있는 옵션이다.)
data = """python one
life is too short
python two
you need python
Python three
"""
p = re.compile("^[p|P]ython\s\w+",re.M)
print(p.findall(data))

['python one', 'python two', 'Python three']


In [231]:
data = """
<a href="abc1.html">abc1</a>
<a href="abc2.html">abc2</a>
<a href="abc3.html">abc3</a>
"""

#["abc1.html","abc2.html","abc3.html"]      p.311
# abc1,abc2,abc3 뽑아내기
p = re.compile("\D{3}\d[.][a-z]+",re.M)
print(p.findall(data))

p = re.findall('href="(.+)"',data)      # 그루핑     # ' "__" ' 
print(p)



['abc1.html', 'abc2.html', 'abc3.html']
['abc1.html', 'abc2.html', 'abc3.html']
