## 학습목표
 1. 정규표현식(Regular Expression) 에 대해 이해하고 활용할 수 있다. 

### 정규표현식 
 - 일정한 규칙(패턴)을 가진 문자열을 표현하는 방법이다.
 - 특정한 패턴과 일치하는 문자열를 '검색', '치환', '제거' 하는 기능을 지원한다.
 - 문자열이 정해진 규칙에 맞는지 판단할 때도 사용된다. 

In [1]:
import re

In [5]:
text = "특정한 패턴과 일치하는 문자열를 '검색', '치환', '제거' 하는 기능을 지원한다."

re.compile('패턴') #객체 자체를 리턴
regex = re.compile('오혜인')
regex2 = re.compile('패턴')

regex.search(text) #'오혜인'을 가진 객체를 text에서 찾음. 없으면 None
regex2.search(text) #결과가 있음 : Match Object라는게 리턴됨
mo = regex2.search(text)

if mo != None:
    print(mo.group())  #mo 오브젝트가 가진 group함수를 이용하면 실제 객체를 리턴

패턴


* **raw string**
 - 문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열로 변환한다.
 
즉, 정규표현식 패턴에 해당하는 문자가 들어가더라도 정규표현식 패턴으로 해석하지 않고 문자열로 인식해줌

In [6]:
a = '이것은문자열입니다\t이것은문자열입니다\t또문자열입니다'
print(a)

b = r'이것은문자열입니다\t이것은문자열입니다\t또문자열입니다'
print(b)

이것은문자열입니다	이것은문자열입니다	또문자열입니다
이것은문자열입니다\t이것은문자열입니다\t또문자열입니다


| 패턴  | 설명 | 예제         |
| :------------ | :-----------: |:------------------- |
|^     | 이 패턴으로 종료되어야 함         | ^abc: (abcd,abccc,abc13 등) |
| &#36;| 이 패턴으로 종료 되어야 함      | xyz&#36;:   (123xyz, strxyz 등)|
| &#124;    | 두 패턴 중 하나이어야 함 (OR 기능)|a &#124; b : a 또는 b 이어야 함|
| ?     | 앞 패턴이 없거나 하나이어야 함 (Optional 패턴을 정의할 때 사용)|\d? : 숫자가 하나 있거나 없어야 함|
|+    |앞 패턴이 하나 이상이어야 함            |\d+ : 숫자가 하나 이상이어야 함|
|*    |앞 패턴이 0개 이상이어야 함            |\d* : 숫자가 없거나 하나 이상이어야 함|
|[문자들]    |문자들 중에 하나이어야 함. 가능한 문자들의 집합을 정의함.|[Pp]ython : "Python" 혹은 "python"|
|[^문자들]   |[문자들]의 반대로 피해야할 문자들의 집합을 정의함.|[^aeiou] : 소문자 모음이 아닌 문자들|
|패턴{n}   |앞 패턴이 n번 반복해서 나타나는 경우           |\d{3} : 숫자가 3개 있어야 함|
|패턴{n, m}   |앞 패턴이 최소 n번, 최대 m 번 반복해서 나타나는 경우 (n 또는 m 은 생략 가능)      |\d{3,5} : 숫자가 3개, 4개 혹은 5개 있어야 함|
|\d   |숫자 0 ~ 9       |\d\d\d : 0 ~ 9 범위의 숫자가 3개를 의미 (123, 000 등)|
|\w |문자를 의미       |\w\w\w : 문자가 3개를 의미 (xyz, ABC 등)|
|\s |화이트 스페이스를 의미하는데, [\t\n\r\f] 와 동일       |\s\s : 화이트 스페이스 문자 2개 의미 (\r\n, \t\t 등)|
|.   |뉴라인(\n) 을 제외한 모든 문자를 의미 |.{3}: 문자 3개 (c1#,9x0,공백 등)|




 - 자세한 내용은 링크 참조 https://docs.python.org/3/library/re.html

In [12]:
text = 'ab 1111 : 안녕 abdkfjdk 111 ab9999 ab 2 cd 232 ab    35'
regex = re.compile('ab\s\d+')  #ab+공백+숫자복수개
mo = regex.findall(text)
print(mo)
mo2 = regex.search(text)  #첫번째꺼만 리턴함
print(mo2)
print(mo2.group())

['ab 1111', 'ab 2']
<re.Match object; span=(0, 7), match='ab 1111'>
ab 1111


In [67]:
text = 'ab 1111 : 안녕 abdkfjdk 111 ab9999 ab 2 cd 232 ab    35'
regex = re.compile('ab.\d+') #ab모든문자(1개)숫자(여러개)
mo = regex.findall(text) #모두 리스트로 반환
print(mo)
mo2 = regex.search(text)  #첫번째꺼만 리턴함
print(mo2)
print(mo2.group())

['ab 1111', 'ab9999', 'ab 2']
<re.Match object; span=(0, 7), match='ab 1111'>
ab 1111


#### **search method**
 - 첫번째로 패턴을 찾으면 match 객체를 반환한다.
 - 패턴을 찾지 못하면 None 반환한다.
 
 - re.search(패턴 문자열, 전체 문자열)
 - 객체에 할당한뒤, 객체.group()
 
 OR
 
 - 객체 = re.compile(패턴) 한 뒤 객체.search()

In [14]:
re.search(r'abc', '13232324231asdfwert') #None이라서 아무것도 리턴 안됨. None.

In [23]:
m1 = re.search(r'\d+\w', '13232324231asdfwert fdq')
print(m1)
print(m1.group())

<re.Match object; span=(0, 12), match='13232324231a'>
13232324231a


In [21]:
# 아니면 패턴을 컴파일해서 패턴.search 형태로
regex = re.compile(r'\d\w')
m2 = regex.search('13232324231asdfwert fdq')
print(m2.group())

13


#### **metacharacters (메타 캐릭터)**

#### **[]** 문자들의 범위를 나타내기 위해 사용한다.
   - [] 내부의 메타 캐릭터는 캐릭터 자체를 나타낸다.
  
   - [abck] : a or b or c or k
   - [abc.^] : a or b or c or . or ^
   - [a-d]  : -와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나
   - [0-9]  : 모든 숫자
   - [a-z]  : 모든 소문자
   - [A-Z]  : 모든 대문자
   - [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자
   - [^0-9] : ^가 맨 앞에 사용 되는 경우 해당 문자 패턴이 아닌 것과 매칭

In [24]:
re.search(r'[0-5]at', '8at') #012345까지만

In [25]:
re.search(r'[cbm]at', 'fat')

In [26]:
re.search(r'[abc.^]at', 'tat')

In [27]:
re.search(r'[^0-9]at','fat')

<re.Match object; span=(0, 3), match='fat'>

#### **\** 
 1. 다른 문자와 함께 사용되어 특수한 의미를 지님
   - \d : 숫자를          [0-9]와 동일
   - \D : 숫자가 아닌 문자  [^0-9]와 동일
   - \s : 공백 문자(띄어쓰기, 탭, 엔터 등)
   - \S : 공백이 아닌 문자
   - \w : 알파벳대소문자, 숫자 [0-9a-zA-Z]와 동일
   - \W : non alpha-numeric 문자 [^0-9a-zA-Z]와 동일
 2. 메타 캐릭터가 캐릭터 자체를 표현하도록 할 경우 사용
   - \\. , \\\


In [28]:
re.search(r'\Sana', 'apple banana anana land')

<re.Match object; span=(6, 10), match='bana'>

In [29]:
re.search(r'\sana', 'apple banana anana land')

<re.Match object; span=(12, 16), match=' ana'>

In [31]:
re.search(r'.ana', 'apple banana anana land')  # .은 모든 문자 의미

<re.Match object; span=(6, 10), match='bana'>

In [32]:
re.search(r'.ana', 'apple  ananana banana anana land')  # .은 모든 문자 의미

<re.Match object; span=(6, 10), match=' ana'>

In [33]:
re.search(r'b\.ana', 'apple banana anana land b.ana')  # .은 모든 문자 의미

<re.Match object; span=(24, 29), match='b.ana'>

#### **반복패턴**
 - 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사한다. 
   - '+' -> 1번 이상의 패턴이 발생
   - '*' -> 0번 이상의 패턴이 발생
   - '?' -> 0 혹은 1번의 패턴이 발생

In [39]:
re.search(r'a[na]*', 'apple banana anana land') 

re.findall(r'a[na]*', 'apple banana anana land') 

['a', 'anana', 'anana', 'an']

In [36]:
re.search(r'a[bc]+b', 'abcbcbcb')

<re.Match object; span=(0, 8), match='abcbcbcb'>

In [38]:
m1 = re.search(r'a?d', 'abcd') #a가 있거나 없거나.
print(m1.group())

d


In [40]:
re.search(r'a+b', 'abc')

<re.Match object; span=(0, 2), match='ab'>

In [41]:
re.search(r'https?', 'https://www.naver.com/')

<re.Match object; span=(0, 5), match='https'>

#### **^**, **$**
 - ^  문자열의 맨 앞부터 일치하는 경우 검색
 - \$  문자열의 맨 뒤부터 일치하는 경우 검색

In [42]:
re.search(r'b\w+a', 'abcbcbcbcbcacb') #b로 시작해서 문자열여러개 + a

<re.Match object; span=(1, 12), match='bcbcbcbcbca'>

In [44]:
re.search(r'^b\w+a', 'abcbcbcacb bcwera') #a로 시작한 문자열임

In [47]:
re.search(r'^b\w+a$', 'bcbcbcacbra') #끝나는게 a로 안끝나면 안됨

<re.Match object; span=(0, 11), match='bcbcbcacbra'>

In [48]:
#이메일 찾기

re.search(r'[0-9a-zA-Z]+@.+','test123@gmail.com')

<re.Match object; span=(0, 17), match='test123@gmail.com'>

 #### **grouping**
  - ()을 사용하여 그루핑한다.
  - 매칭 결과를 각 그룹별로 분리 가능하다.
  - 패턴 명시 할 때, 각 그룹을 괄호() 안에 넣어 분리하여 사용한다.

In [51]:
m = re.search(r'(\w+)@(.+)','test123@gmail.com')
print(m.group(1))   #첫번째 그룹
print(m.group(2)) #두번째 그룹
print(m.group()) #전체 리턴
print(m.group(0))  #전체

test123
gmail.com
test123@gmail.com
test123@gmail.com


연습문제
#여기서 전화번호를 빼오자
#이동통신사 번호 OR 지역번호 따로따로
#전화번호를 각각 값을 얻고 싶을 때!


In [52]:
text = '잘 이해가 되지 않거나, 궁금한 내용이 있다면 010-2222-3333으로 연락주세요.'
text2 = '잘 이해가 되지 않거나, 궁금한 내용이 있다면 031-965-3333으로 연락주세요.'

#여기서 전화번호를 빼오자

#이동통신사 번호 OR 지역번호 따로따로
# 전화번호를 각각 값을 얻고 싶을 때!

In [56]:
m = re.search(r'([0-9]+)-([0-9]+)-([0-9]+)',text)
print(m.group(1))
print(m.group(2))

010
2222


In [55]:
m = re.search(r'(\d+)-(\d+\-\d+)', text)
print(m.group(1))
print(m.group(2))

010
2222-3333


 #### **{}**
  - *, +, ?을 사용하여 반복적인 패턴을 찾는 것이 가능하나, 반복의 횟수 제한은 불가능하다.
  - 패턴뒤에 위치하는 중괄호{}에 숫자를 명시하면 해당 숫자 만큼의 반복인 경우에만 매칭한다.
  - {5} - 5번 반복
  - {3,7} - 3 ~ 7번 반복

In [59]:
text = '잘 이해가 되지 않거나, 궁금한 내용이 있다면 010-2222-3333으로 연락주세요.'
text2 = '잘 이해가 되지 않거나, 궁금한 내용이 있다면 031-965-3333으로 연락주세요.'

In [60]:
m = re.search('(\d{3})-(\d{3,4}-\d{4})', text)
print(m.group(1))
print(m.group(2))

010
2222-3333


In [61]:
m = re.search('(\d{2,3})-(\d{3,4}-\d{4})', text2)
print(m.group(1))
print(m.group(2))

031
965-3333


###### (?P<그룹명>패턴~~)
group(1) 처럼 n번째 그룹으로 소환하는 대신 

group('그룹명')으로 소환할 수 있다

In [64]:
m = re.search('(?P<이동통신사번호>\d{3})-(?P<전화번호>\d{3,4}-\d{4})', text)
print(m.group('이동통신사번호'))
print(m.group('전화번호'))

010
2222-3333


In [63]:
m = re.search('(?P<지역번호>\d{2,3})-(?P<전화번호>\d{3,4}-\d{4})', text2)
print(m.group('지역번호'))
print(m.group('전화번호'))

031
965-3333


#### **findall**
 - search가 최초로 매칭되는 패턴만 반환한다면, findall은 매칭되는 전체의 패턴을 반환한다.
 - 매칭되는 모든 결과를 리스트 형태로 반환한다.