# 정규표현식 이용
 주민등록번호의 뒷자리를 * 문자로 변경 하시오.
1. 전체 텍스트를 공백 문자로 나눈다(split).
2. 나누어진 단어들이 주민등록번호 형식인지 조사한다.
3. 단어가 주민등록번호 형식이라면 뒷자리를 *로 변환한다.
4. 나누어진 단어들을 다시 조립한다.

In [3]:
import re 
data = """
park 800905-1234567
kim 900905-2134567
"""
pat = re.compile("(\d{6}[-]\d{7})")
print(pat.sub("\g<1>-*******", data))


park 800905-1234567-*******
kim 900905-2134567-*******



# 정규표현식 메타문자

## 메타 문자란 
원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자들<br>
&nbsp;&nbsp;  . ^ $ * + ? { } [ ] \ | ( )
* [a-zA-Z] : 알파벳 모두
* a.b : a와 b라는 문자 사이에 어떤 문자가 들어가도 모두 매치 .는 \n을 제외한 모든 문자와 매치 
* [abc] : a, b, c 중 한 개의 문자와 매치
* \- : 문자 사이의 범위(From - To) [a-zA-Z] : 알파벳 모두, [0-9] : 숫자
* ^ : 반대(not) [^0-9] : 숫자가 아닌 문자만
* \d : [0-9]
* \D : [^0-9]
* \s : whitespace 문자와 매치, [ \t\n\r\f\v] 빈칸(공백)
* \w : 문자+숫자(alphanumeric) [a-zA-Z0-9]
* \W : 문자+숫자(alphanumeric)가 아닌 문자 [^a-zA-Z0-9]
* a.b : a + 모든문자 + b :  어떤 문자라도 하나는있어야 함
* a[.]b : "a.b" 매치 "a0b" 매치안됨 Dot(.)문자
* ca\*t : a가 0부터 무한대로 반복
* ca+t : 반복횟수가 1개 이상 
* ca{2,5}t : a(2~5회 반복)
* ab?c : {0, 1} 있어도 되고 없어도 된다

## re 모듈 (regular expression)
* re.compile : 패턴객체 생성
* match() : 문자열의 처음부터 정규식과 매치되는지 조사한다.
* search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
* findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다
* finditer() : 정규식과 매치되는 모든 문자열(substring)을 iterator 객체로 리턴한다

In [4]:
import re
p = re.compile('[a-z]+')

In [9]:
# match
m = p.match("python")
print(m)
m = p.match("3python")
print(m)

m = p.match( 'string goes here' )
if m:
    print('Match found: ', m.group())
else:
    print('No match')

<_sre.SRE_Match object; span=(0, 6), match='python'>
None
Match found:  string


In [8]:
# search
m = p.search("python")
print(m)
m = p.search("2 python")
print(m) 

<_sre.SRE_Match object; span=(0, 6), match='python'>
<_sre.SRE_Match object; span=(2, 8), match='python'>


In [10]:
# findall
result = p.findall('life is too short')
print(result)

['life', 'is', 'too', 'short']


In [11]:
# finditer
result = p.finditer('life is too short')
print(result)
for r in result:print(r)

<callable_iterator object at 0x0000000004CAE908>
<_sre.SRE_Match object; span=(0, 4), match='life'>
<_sre.SRE_Match object; span=(5, 7), match='is'>
<_sre.SRE_Match object; span=(8, 11), match='too'>
<_sre.SRE_Match object; span=(12, 17), match='short'>


### match 객체의 메서드
* group() 매치된 문자열을 리턴한다.
* start() 매치된 문자열의 시작 위치를 리턴한다.
* end()	매치된 문자열의 끝 위치를 리턴한다.
* span() 매치된 문자열의 (시작, 끝) 에 해당되는 튜플을 리턴한다.

In [12]:
m = p.match("python")
print(m.group())
print(m.start()) # 항상 문자열의 시작부터 조사
print(m.end())
print(m.span())

python
0
6
(0, 6)


In [13]:
m = p.search("3 python")
print(m.group())
print(m.start()) 
print(m.end())
print(m.span())

python
2
8
(2, 8)


In [14]:
# 모듈 단위로 수행
# p = re.compile('[a-z]+')
# m = p.match('python')
m = re.match('[a-z]', "python")

## 컴파일 옵션
* DOTALL(S) - . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
* IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 한다.
* MULTILINE(M) - 여러줄과 매치할 수 있도록 한다. (^ : 처음은 항상 해당 글자로 시작, \$ : 해당 글자로 끝나야한다.)
* VERBOSE(X) - verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)

사용 re.DOTALL 또는 re.S

In [29]:
# DOTALL(S) 
import re
p = re.compile('a.b')
m = p.match('aeeb')
print(m)
m = p.match('a0b')
print(m)
m = p.match('a\nb')
print(m)
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

None
<_sre.SRE_Match object; span=(0, 3), match='a0b'>
None
<_sre.SRE_Match object; span=(0, 3), match='a\nb'>


In [19]:
# IGNORECASE(I)  
p = re.compile('[a-z]', re.I)
print(p.match('python'))
print(p.match('ABC'))
print(p.match('123dfd'))

<_sre.SRE_Match object; span=(0, 1), match='p'>
<_sre.SRE_Match object; span=(0, 1), match='A'>
None


In [21]:
# MULTILINE(M)
# "python"이라는 문자열로 시작하고 그 후에 whitespace, 그 후에 단어가 와야함
# 문자열 전체 중 매칭되는것
p = re.compile("^python\s\w+")

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

# 라인의 처음 중 매칭되는것
p = re.compile("^python\s\w+", re.MULTILINE)
print(p.findall(data))

['python one']
['python one', 'python two', 'python three']


In [22]:
# VERBOSE(X)
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)
# 문자열에 사용된 whitespace는 컴파일 시 제거된다
# 단 [ ] 내에 사용된 whitespace는 제외
# 줄 단위로 #기호를 이용하여 주석문을 작성

## 백슬래시 (\\)
* 백슬래시 2개를 사용
* r'\\section' : Raw string 이용 

In [25]:
p = re.compile('\\section') # 백슬래시 한개
# p = re.compile('\\\\section') # 백슬래시 두개 이상
p = re.compile(r'\\section')

# 강력한 정규 표현식

## 메타문자
+, *, [], {} 등의 메타문자는 매치가 진행될 때 현재 매치되고 있는 문자열의 위치가 변경됨
* 소모시키지 않는 메타 
|, ^, $, \A, \Z, \b, \B 

In [10]:
# | : or
import re
p=re.compile('Crow|Servo')
m=p.match('Crowhello')
print(m)
m=p.match('he|lowServo')
print(m)

<_sre.SRE_Match object; span=(0, 4), match='Crow'>
None


In [12]:
# ^ : 맨 처음과 일치
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'is Life'))

<_sre.SRE_Match object; span=(0, 4), match='Life'>
None


In [14]:
# $ :  끝과 매치함
print(re.search('short$', 'Life is too short'))

<_sre.SRE_Match object; span=(12, 17), match='short'>


In [15]:
# \A : 문자열의 처음과 매치 (전체 문자열의 처음)
# \Z : 전체 문자열의 끝과 매치
# \b : 단어 구분자(Word boundary)
p=re.compile(r'\bclass\b') # "class"라는 단어와 매치
print(p.search('no class at all'))

In [16]:
# \B : whitespace로 구분된 단어가 아닌 경우
p = re.compile(r'\Bclass\B')
print(p.search('the declassified algorithm'))
print(p.search('one subclass is'))

<_sre.SRE_Match object; span=(6, 11), match='class'>
None


## 그룹핑
계속해서 반복되는지 조사하는 정규식  "()" : (ABC)+

In [17]:
p=re.compile('(ABC)+')
m=p.search('ABCABCABC OK?')
print(m)
print(m.group())

<_sre.SRE_Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


In [22]:
# 이름 + " " + 전화번호 형태의 문자열을 찾는 정규표현식
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+") 
p1 = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+") # 그룹으로 만듬 
m = p.search("park 010-1234-1234")
m1 = p1.search("park 010-1234-1234")
print(m.group())
print(m1.group(1))

park 010-1234-1234
park


In [24]:
p=re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(2))
print(m.group(3))

010-1234-1234
010


### 문자열 재참조

In [25]:
# (\b\w+)\s+\1 : (그룹1) + " " + "그룹1과 동일한 단어" 와 매치
# 2개의 동일한 단어가 연속적으로 사용되어야만 매치
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()

'the the'

### 그룹핑된 문자열에 이름 붙이기
(\w+) --> (?P<name>\w+) (?P<그룹명>...)

In [26]:
p=re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group("name"))

park


In [28]:
# 재 참조시에는 (?P=그룹명)
p=re.compile(r'(?P<word>\b\w+)\s+(?P=word)') 
p.search('Paris in the the sping').group()

'the the'

## 전방 탐색
* 긍정형 전방 탐색((?=...)) - ... 에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소모되지 않는다. 검색 결과에는 제외됨
* 부정형 전방 탐색((?!...)) - ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소모되지 않는다.

In [29]:
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())

http


In [40]:
p = re.compile(".*[.](?!bat$|exe$).*$")
m = p.search("abcd.bat")
m1 = p.search("abcd.txt")
m2 = p.search("abcd")
m3 = p.search("abcd.exe.bat")
print(m, m1.group(), m2, m3.group())

None abcd.txt None abcd.exe.bat


## 문자열 바꾸기

In [43]:
# sub(바꿀문자, 주어진문자, 바꾸기횟수)
p=re.compile('(blue|white|red)')
print(p.sub('colour','blue socks and red shoes'))
print(p.sub('colour','blue socks and red shoes', count=1))

colour socks and colour shoes
colour socks and red shoes


In [46]:
# subn () 리턴되는 결과(바꾸기가 발생한 횟수) 튜플로 리턴
p = re.compile('(blue|white|red)')
p.subn( 'colour', 'blue socks and red shoes')

('colour socks and colour shoes', 2)

### sub 메서드 사용 시 참조 구문 사용하기

In [47]:
p=re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park
010-1234-1234 park


### sub 메서드의 입력 인수로 함수 넣기

In [49]:
# 16 진수로 변환
def hexrep(match):
    value = int(match.group())
    return hex(value)

p = re.compile(r'\d+')
p.sub(hexrep, 'Call 65490 for printing, 49152 for user code.')

'Call 0xffd2 for printing, 0xc000 for user code.'

## Greedy vs Non-Greedy
 * \* : greedy 탐욕스러워서 매치할 수 있는 최대한의 문자열 모두 소모
 * ? : non-greedy 문자인 사용하면 * 의 탐욕을 제한

In [50]:
s = '<html><head><title>Title</title>'
len(s)
print(re.match('<.*>', s).span())
print(re.match('<.*>', s).group())
print(re.match('<.*?>', s).group())

(0, 32)
<html><head><title>Title</title>
<html>


## Q1

In [7]:
import re
p=re.compile('a[.]{3,}b')
m=p.match('a...b')
print(m.group())

a...b


## Q2

In [10]:
p= re.compile('[a-z]+')
m=p.search('5 python')
m.start()+m.end()

10

## Q3

In [20]:
# 뒷자리 4개를 # 로

data = """
park 010-1234-4567
kim 010-9999-9999
kim 010-999-9999
"""
pat = re.compile("((\d{3}[-]\d{3,}[-])\d{4})")
print(pat.sub("\g<2>-####", data))


park 010-1234--####
kim 010-9999--####
kim 010-999--####



## Q4

In [67]:
# .com, .net 이 아닌 이메일주소 제외 abc@naver.com

data = """
abc@naver.com
bbbbb@gmail.co.kr
qwer@daum.net
bbbbb@gmail.co.kr
bbbbb@gmail.net.kr
"""
#print(data.split())

p = re.compile('(.*[@].*[.](com|net)$)')

for i in data.split():
    m = p.match(i)
    if m !=None:
        print(m.group())


abc@naver.com
qwer@daum.net


# 파이썬으로 XML 처리하기

## XML 문서 생성하기


In [1]:
from xml.etree.ElementTree import Element, dump

note = Element("note")
to = Element("to")
to.text = "Tove"

note.append(to)
dump(note) # 인자로 넘어온 tag 이하를 print 해줌 

<note><to>Tove</to></note>


### SubElement

In [4]:
from xml.etree.ElementTree import Element, SubElement, dump

note = Element("note")
to = Element("to")
to.text = "Tove"

note.append(to)
dump(note)

SubElement(note, "from").text = "Jani"
dump(note)

<note><to>Tove</to></note>
<note><to>Tove</to><from>Jani</from></note>


In [5]:
# 삭제
dummy = Element("dummy")
note.insert(1, dummy)
note.remove(dummy)

### 애트리뷰트 추가하기



In [6]:
from xml.etree.ElementTree import Element, SubElement, dump

note = Element("note")
to = Element("to")
to.text = "Tove"

note.append(to)
SubElement(note, "from").text = "Jani"
note.attrib["data"] = "20171111"
# note = Element("note", date="20120104")

dump(note)

<note data="20171111"><to>Tove</to><from>Jani</from></note>


### indent 함수
 정렬된 형태의 xml 값을 확인

In [8]:
from xml.etree.ElementTree import Element, SubElement, dump

note = Element("note")
note.attrib["date"] = "20120104"

to = Element("to")
to.text = "Tove"
note.append(to)

SubElement(note, "from").text = "Jani"
SubElement(note, "heading").text = "Reminder"
SubElement(note, "body").text = "Don't forget me this weekend!"

def indent(elem, level=0):
    i = '\n'+level*" "
    if len(elem):
        if not elem.text or not elem.text.strip():
            elem.text = i+" "
        if not elem.tail or not elem.tail.strip():
            elem.tail = i
        for elem in elem:
            indent(elem, level+1)
        if not elem.tail or not elem.tail.strip():
            elem.tail = i
    else:
        if level and (not elem.tail or not elem.tail.strip()):
            elem.tail = i

indent(note)
dump(note)

<note date="20120104">
 <to>Tove</to>
 <from>Jani</from>
 <heading>Reminder</heading>
 <body>Don't forget me this weekend!</body>
</note>


### 파일에 쓰기(write) 수행

In [9]:
from xml.etree.ElementTree import ElementTree
ElementTree(note).write("note.xml")

## XML문서 파싱

In [11]:
from xml.etree.ElementTree import parse
tree = parse("note.xml")
note = tree.getroot()

### 애트리뷰트 값 읽기

In [13]:
print(note.get("data")) # 애트리뷰트의 값
print(note.get("foo", "default")) 
#디폴트 값을 주었다면 첫 번째 인자에 해당되는 애트리뷰트 값이 없을 경우 
#두 번째 값을 리턴
print(note.keys())
print(note.items())

None
default
['date']
[('date', '20120104')]


### XML 태그 접근하기

In [15]:
from_tag = note.find("from") # from과 일치하는 첫 번째 태그를 찾아서 리턴
from_tags = note.findall("from") # from과 일치하는 모든 태그를 리스트
from_text = note.findtext("from") #  note 태그 하위에 from과 일치하는 첫번째 태그의 텍스트 값을 리턴
print(from_tag, from_tags, from_text)

<Element 'from' at 0x000000000500A1D8> [<Element 'from' at 0x000000000500A1D8>] Jani


In [16]:
childs = note.getiterator()
print(childs)
childs = note.getchildren()
print(childs)

<_elementtree._element_iterator object at 0x0000000004FFB7D8>
[<Element 'to' at 0x0000000004FEEA48>, <Element 'from' at 0x000000000500A1D8>, <Element 'heading' at 0x000000000500A138>, <Element 'body' at 0x000000000500A188>]


In [17]:
note.getiterator("from")

<_elementtree._element_iterator at 0x4ffb468>

In [18]:
for parent in tree.getiterator():
    for child in parent:
        print(parent, child)

<Element 'note' at 0x0000000004FD5CC8> <Element 'to' at 0x0000000004FEEA48>
<Element 'note' at 0x0000000004FD5CC8> <Element 'from' at 0x000000000500A1D8>
<Element 'note' at 0x0000000004FD5CC8> <Element 'heading' at 0x000000000500A138>
<Element 'note' at 0x0000000004FD5CC8> <Element 'body' at 0x000000000500A188>


http://effbot.org/zone/element.htm

## Q1

In [69]:
'''<blog date = 20151231>
<subject> why python?</subject>
<author>Eric</author>
<content>asdfasdf</content>
</blog>'''

from xml.etree.ElementTree import Element, SubElement, dump
note = Element("blog")
note.set("date", "20151231")
SubElement(note, "subject").text = "why python?"
SubElement(note, "author").text = "Eric"
SubElement(note, "content").text = "asdfasdf"


def indent(elem, level=0):
    i = '\n'+level*" "
    if len(elem):
        if not elem.text or not elem.text.strip():
            elem.text = i+" "
        if not elem.tail or not elem.tail.strip():
            elem.tail = i
        for elem in elem:
            indent(elem, level+1)
        if not elem.tail or not elem.tail.strip():
            elem.tail = i
    else:
        if level and (not elem.tail or not elem.tail.strip()):
            elem.tail = i

indent(note)
dump(note)

<blog date="20151231">
 <subject>why python?</subject>
 <author>Eric</author>
 <content>asdfasdf</content>
</blog>
