# 정규표현식(Regular Expression)

정규표현식을 이용한 스트링에서의 패턴매칭(pattern matching)에 대해 다룬다.
정규표현식은 패턴을 표현하는 일종의 언어이다.

예를 들어서 "먼저 `A`가 한번 나오고 다음으로 `BC` 혹은 `CB`가 1번 이상 반복되다가 `E`로 끝나는 패턴"이 있다고 하자. 예를 들면 `'ABCBCCBE'` 혹은 `'ACBE'` 등이 이 패턴에 해당한다.

이 패턴은 정규표현식으로 `'A(BC|CB)+E'`로 표현된다. 이 정규표현식을 이용하여 주어진 텍스트에 이런 패턴이 존재하는지 검사하거나 혹은 이 패턴의 모든 인스턴스를 찾아내는 등의 일을 할 수 있다.

정규표현식은 데이터사이언스 응용에서 데이터 cleaning을 위한 필수적인 테크닉의 하나이다.

In [None]:
# 먼저 re 모듈을 import한다.
import re

In [None]:
print(re.match("A(BC|CB)+E", 'BBABCBCCBEFGH'))
print(re.search("A(BC|CB)+E", 'BBCABCBCCBEFGHABCE'))
print(re.findall("A(BC|CB)+E", 'BBCABCBCCBEFGH'))

None
<re.Match object; span=(3, 11), match='ABCBCCBE'>
['CB']


`re` 모듈은 텍스트에서 패턴을 검색하는 몇몇 함수들을 제공한다. 대표적인 예는 다음과 같다.

*   `re.match(pattern, text)`
*   `re.search(pattern, text)`
*   `re.findall(pattern, text)`

`re` 모듈이 제공하는 메서드들 중 `match()` 함수는 주어진 패턴이 문자열의 시작 부분에서 매치되는지 검사한다. 반면 `search()`는 문자열 전체에서 매치되는지 검사하지만, 첫 번째 매치결과만을 반환한다.
두 함수 모두 매치될 경우에는 `re.Match` 객체를 반환하고 매치되지 않을 경우 `None`을 반환한다.

위의 코드에서 `match`의 경우 문자열의 시작 부분에서는 매치되지 않으므로 `None`이 반환되었고, `search`의 경우 처음으로 매치되는 부분을 찾아서 반환하였다. `findall`의 경우 예상과 다르게 동작하는데 이에 대해서는 뒤에서 설명한다.

매치되는 경우에 반환되는 `re.Match` 객체는 `if` 문으로 검사할 때 boolean 값 `True`로 계산되므로 `if`문으로 매치 여부를 검사할 수 있다. `re.Match` 객체의 `span` 속성이 텍스트 내에서 패턴이 매치된 위치를 알려준다.

In [None]:
text = "This is a good day. It's a good thing."

# 찾을 패턴이 첫 번째 매개변수이다.
z = re.match("Thi", text)
if z:
  print(z)
else:
  print('Not matched')

z = re.match("good", text)
if z:
  print(z)
else:
  print(z, "Not matched")

z = re.search("good", text)
if z:
    print(z)
else:
    print("Not matched")

<re.Match object; span=(0, 3), match='Thi'>
None Not matched
<re.Match object; span=(10, 14), match='good'>


`findall()` 메서드는 텍스트에 패턴이 등장하는 모든 인스턴스를 찾아 문자열의 리스트로 반환한다.

In [None]:
z = re.findall("good", text)
print(z, type(z))

['good', 'good'] <class 'list'>


`findall` 함수가 모든 매치를 찾아주긴 하지만 매치된 패턴의 위치까지 보고하지는 않는다. 또한 정규표현식에 그룹(group)이 포함될 경우 (위의 첫 번째 코드셀에서와 같이) 예상과는 다르게 동작한다. 그래서 모든 매치를 찾고 또한 위치 정보까지 얻기를 원한다면 다음과 같이 `finditer` 함수를 사용하는 것이 좋다.

In [None]:
text_to_search = "This is a good day. It's a good thing."
matches = re.finditer('good', text_to_search)
print(type(matches))

for match in matches:
  print(match)

<class 'callable_iterator'>
<re.Match object; span=(10, 14), match='good'>
<re.Match object; span=(27, 31), match='good'>


종종 특정한 패턴을 찾은 후 다른 문자열로 교체(substitute, replace)하는 경우가 있다. 이 경우 `re.sub()` 함수를 사용한다.

In [None]:
text = 'blue socks and red shoes and white shirts'
pattern = 'blue|white|red'

print(re.sub(pattern, 'colour', text))

p = re.compile(pattern)
print(p.sub('colour', text))
print(re.sub(p, 'colour', text))
print(p.sub('colour', text, count=1))

colour socks and colour shoes and colour shirts
colour socks and colour shoes and colour shirts
colour socks and colour shoes and colour shirts
colour socks and red shoes and white shirts


#### raw string의 사용

Python에서 문자열(string)을 표시할 때 예를 들어 `r'hello'`와 같이 문자열 앞에 `r`을 추가하면 raw string이 된다. 예를 들어 `'\n'`은 하나의 `newline` 문자로 이루어진  길이가 1인 문자열이지만 `r'\n'`는 하나의 백슬래쉬와 문자 `n`으로 구성된 길이가 2인 문자열이다.  

**정규표현식은 항상 raw string으로 표시하는 것이 좋다.** 이유는 백슬래쉬(`\`)와 같은 문자들이 정규표현식에서 특별한 기능을 하는 특수 문자인데 Python의 string에서도 역시 특수문자이기 때문에 이중으로 부여된 특수 기능을 수행해버리기 때문이다.

In [None]:
# pattern = '\\\\' # test what happens if '\\'
pattern = r'\\'    # 하나의 backslash 문자로 이루어진 패턴을 의미한다.
text = "This is \\n a test \\n string"
print(text)

matches = re.finditer(pattern, text)
for match in matches:
  print(match)

This is \n a test \n string
<re.Match object; span=(8, 9), match='\\'>
<re.Match object; span=(18, 19), match='\\'>


#### 패턴을 `compile`해 두기

만약 어떤 패턴을 반복적으로 사용하여 패턴매칭을 한다면 패턴을 컴파일해두는 것이 좋다. 복잡한 정규표현식의 경우 매칭을 하기 위해서 상당한 전처리 작업을 해야하는데 패턴을 컴파일해두면 이런 전처리 작업을 반복해서 하지 않아도 되므로 효율적이다.

또한 `match`, `search`, `finditer` 등은 아래와 같이 컴파일된 패턴의 **메서드**로도 제공되고 `re` 모듈의 멤버 **함수**로도 제공된다.

In [None]:
pattern = re.compile(r'good')
print(type(pattern))

text_to_search = "This is a good day. It's a good thing."

matches = pattern.finditer(text_to_search)        # finditer as a method of compiled pattern
# matches = re.finditer(pattern, text_to_search)  # finditer as a function of re module

for match in matches:
  print(match)

<class 're.Pattern'>
<re.Match object; span=(10, 14), match='good'>
<re.Match object; span=(27, 31), match='good'>


#### 둘 이상의 패턴을 `OR`하기

2개 이상의 패턴을 정규표현식의 `OR`기호인 `|`로 연결하여 동시에 검색할 수도 있다.

In [None]:
text = "dog cat monkey pet puppy ant furry elephant"
re.findall(r"cat|ant", text)

['cat', 'ant', 'ant']

패턴에 공백이 포함되면 공백 문자 자체가 패턴의 일부로 인식되므로 다음과 같이 하면 전혀 다른 의미가 된다.

In [None]:
re.findall(r"cat | ant", text)

['cat ', ' ant']

### 메타문자(Metacharacters)

정규표현식에서 특별한 기능을 가진 문자들을 메타문자 부른다. 메타문자는 다음과 같다:

`. ^ $ * + ? { } [ ] \ | ( )`

검색하고자 하는 패턴 자체가 메타문자를 포함하는 경우 백슬래쉬(`\`)를 이용하여 escape 시켜줘야 한다.

In [None]:
re.findall(r".", "ABC.DE.FGH")

['A', 'B', 'C', '.', 'D', 'E', '.', 'F', 'G', 'H']

위의 코드에서 `'.'`는 '아무 문자'를 의미하는 메타문자이기 때문에 텍스트의 모든 문자와 매치되는 결과가 발생했다. '.'를 글자 그대로 매치하기 위해서는 다음과 같이 escape해줘야 한다.

In [None]:
re.findall(r"\.", "ABC.DE.FGH")

['.', '.']

In [None]:
re.findall(r"[edit]", "This is [edit] a sample text [edit].")

['i', 'i', 'e', 'd', 'i', 't', 'e', 't', 'e', 't', 'e', 'd', 'i', 't']

대괄호로 둘러싸인 문자들은 문자의 집합을 표현한다. 위의 예에서 `[edit]`은 "문자 `e`, `d`, `i`, `t`중 아무나"라는 의미를 가지게 되어서 위와 같은 결과가 나온 것이다. 글자 그대로 `[edit]`을 찾으려면 아래와 같이 `[`와 `]`를 escape해주어야 한다.

In [None]:
re.findall(r"\[edit\]", "This is [edit] a sample text [edit].")

['[edit]', '[edit]']

### 특정 문자 그룹

다음은 정규표현식에서 특정한 문자 그룹을 의미하는 메타문자들이다.

```
.     Any character except newline
\d    Digit (0-9)
\D    Not a digit
\w    Word character (a-z, A-Z, 0-9, _)
\W    Not a word character
\s    Whitespace (space, tab, newline)
\S    Not whitespace

```

In [None]:
text_to_search = "cat pet pat ppt -cut spots p-t p9tp ttyp_t"
re.findall(r"p.t", text_to_search)

['pet', 'pat', 'ppt', 'pot', 'p-t', 'p9t', 'p t', 'p_t']

In [None]:
re.findall(r"p\wt", text_to_search)

['pet', 'pat', 'ppt', 'pot', 'p9t', 'p_t']

In [None]:
re.findall(r"p\dt", text_to_search)

['p9t']

In [None]:
str = 'an example word:cat!!'
re.search(r'word:\w\w\w', str)

<re.Match object; span=(11, 19), match='word:cat'>

**예제 1**: 다음의 전화번호부에서 모든 전화번호를 매치하는 패턴을 구상해보자.

In [None]:
text_including_phone_numbers = '''
      This is my phone book:
      Kwon O: 02-123-8765, Seoul,
      Lee T. H: 010-1235-5678, Seoul,
      Kim H, G: 051-623-2675, Pusan,
      Park: 042.875.9870, Daejeon,
      Maybe Not Number: 123-1234-7890,
      Wrong Format: 123*456788765,
      Serial Number: AMG73K348P8999
      '''

pattern = r"\d\d\d-\d\d\d-\d\d\d\d"
re.findall(pattern, text_including_phone_numbers)

['051-623-2675']

하지만 위와 같이 하면 전화번호의 일부만이 찾아진다. 다음과 같이 . 메타문자와 OR(`|`) 기호를 이용하면 모든 전화번호를 찾을 수 있지만 다소 길고 또한 전화번호가 아닌 패턴까지 찾아지는 문제가 있다.

In [None]:
pattern = r"\d\d\d.\d\d\d.\d\d\d\d|\d\d\d.\d\d\d\d.\d\d\d\d|\d\d.\d\d\d.\d\d\d\d"
re.findall(pattern, text_including_phone_numbers)

['02-123-8765',
 '010-1235-5678',
 '051-623-2675',
 '042.875.9870',
 '123-1234-7890',
 '123*45678876',
 '73K348P8999']

## 문자집합

정규표현식에서 대괄호를 이용하여 특정한 문자들의 집합을 정의할 수 있다.

In [None]:
# 문자열 grades는 어떤 학생이 과목들을 수강하고 받은 학점들이다.
grades="ACAAAABCBCBAA"

# B를 몇개나 받았는지 알고 싶다면 다음과 같이 findall 메서드로 패턴 'B'를 찾아본다.
re.findall(r"B",grades)

['B', 'B', 'B']

In [None]:
# A 혹은 B를 모두 찾고 싶다고 해서 패턴 "AB"를 검색해서는 안될 것이다.
# 대신 다음과 같이 A와 B로 구성된 문자집합 [AB]를 사용하여 검색할 수 있다.
# 즉, 대괄호로 묶인 문자들은 OR 관계에 있다.

re.findall(r"[AB]",grades)

['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'A', 'A']

알파벳 순으로 연속된 문자들의 집합은 모든 원소들을 나열하지 않고 범위로 표시할 수 있다. 예를 들면

```
[D-G]          {D, E, F, G}
[f-h]          {f, g, h}
[2-6]          {2, 3, 4, 5, 6}
[a-z]          영문 소문자 집합
[A-Z]          영문 대문자 집합
[a-zA-Z0-9]    영문 대소문자와 숫자
[+-*/0-9]      사칙연산 기호와 숫자     
```

위의 마지막 예에서 `+`, `*` 등의 기호는 메타문자이지만 문자집합을 정의하는 **대괄호 내부에서는 보통의 문자로 취급된다**는 점에 주의하라.

In [None]:
# A 다음에 B 혹은 C가 나오는 패턴은 다음과 같이 표현한다.

re.findall(r"A[BC]",grades)

['AC', 'AB']

캐럿문자(`^`)를 이용하여 여집합을 표현할 수 있다. 이때 `^`은 반드시 대괄호 내에 첫번째 위치에 있어야 한다.

In [None]:
# [^A]는 A를 제외한 모든 문자의 집합을 나타낸다.
re.findall(r"[^A]",grades)

['C', 'B', 'C', 'B', 'C', 'B']

In [None]:
# A와 B를 제외한 모든 문자집합이다.
re.findall(r"[^AB]",grades)


['C', 'C', 'C']

In [None]:
# ^기호는 대괄호의 내부에서 맨 앞에 등장해야 한다. 대괄호 외부에서는 앵커(anchor)의 역할을 하므로 전혀 다른 의미가 된다는 점에 주의하라.
re.findall(r"^[AB]",grades)

['A']

**예제 2** 예제 1에서 사용한 정규표현식을 문자집합을 이용해 다듬어보자.

In [None]:
text_including_phone_numbers = '''
      This is my phone book:
      Kwon O: 02-123-8765, Seoul,
      Lee T. H: 010-1235-5678, Seoul,
      Kim H, G: 051-623-2675, Pusan,
      Park: 042.875.9870, Daejeon,
      Maybe Not Number: 123-1234-7890,
      Wrong Format: 123*4567*8765,
      Serial Number: AMG73K348P8999
      '''

pattern = r"\d\d\d[-.]\d\d\d[-.]\d\d\d\d|\d\d\d[-.]\d\d\d\d[-.]\d\d\d\d|\d\d[-.]\d\d\d[-.]\d\d\d\d"
re.findall(pattern, text_including_phone_numbers)

['02-123-8765',
 '010-1235-5678',
 '051-623-2675',
 '042.875.9870',
 '123-1234-7890']

## Quantifiers

Quantifier는 패턴 내에서 특정 형태의 반복 여부 혹은 횟수를 지정하는 기능을 한다.


```
*        0 or More
+        1 or More
?        0 or 1
{3}      Exact number
{3,5}    Range of numbers (Minimum, Maximum)
```



전화번호 검색을 위한 정규표현식을 quantifier를 이용해 다시 작성해보자.

In [None]:
pattern = r"\d{2,3}[-.]\d{3,4}[-.]\d{4}"
re.findall(pattern, text_including_phone_numbers)

['02-123-8765',
 '010-1235-5678',
 '051-623-2675',
 '042.875.9870',
 '123-1234-7890']

In [None]:
# 주의: {m,n} 표현에서 m과 n사이에 공백이 있으면 안된다.
re.findall("A{2, 3}","AABBB")

[]

**예제 3**: 아래의 텍스트에서 사람 호칭과 이름 부분만을 인식하는 정규표현식은?

In [None]:
text_to_search = '''
  This is a list of neighbors:
  Mr.    Schaffer
  Mr  Smith
  dsfgksdkjf sjdjfhsdk
  Ms Davis
  Mrs. Robinson
  Mr. T
  fdskgjfkj skdjfhskf
'''

pattern = r"Mr\.?\s+[A-Z]\w*"
re.findall(pattern, text_to_search)


['Mr.    Schaffer', 'Mr  Smith', 'Mr. T']

## Anchor

앵커는 텍스트에서 패턴을 매치할 위치를 특정 지점으로 한정하기 위한 규칙이다.  다음과 같은 종류의 앵커가 있다.

```
\b    Word boundary (단어의 시작이나 끝)
\B    Not a word boundary
^     Beginning of text
$     End of text
```

In [None]:
text = "amy is not harmful. amys gets good grades. Our student samy is succesful"

print(re.findall(r"amy", text))     # any position
print(re.findall(r"^amy", text))    # start of text
print(re.findall(r"\bamy", text))   # start of word
print(re.findall(r"amy\b", text))   # end of word
# for it in re.finditer(r"amy\b", text):
#   print(it)
print(re.findall("ful$", text))     # end of text

['amy', 'amy', 'amy']
['amy']
['amy', 'amy']
['amy', 'amy']
['ful']


## Groups

정규표현식에서 소괄호로 묶인 부분을 하나의 그룹이라고 부른다. 그룹은 `*`, `+`, `?`, `{m,n}` 등의 quantifier를 적용하여 통채로 반복될 수 있다. 예를 들어 `(ab)*`는 `ab`가 0번 혹은 그 이상 반복되는 패턴을 의미한다. 또한 그룹 내에서 패턴들을 OR(`|`)로 연결하여 선택적으로 적용할 수도 있다. 가령 `(ab|cd)+`는 `ab` 혹은 `cd`가 1번 이상 반복되는 패턴으로 `ababcdcdab`등과 매치된다.



In [None]:
p = re.compile(r'(ab|cd)+')
re.search(p, 'zzzababcdcdabxxx')

<re.Match object; span=(3, 13), match='ababcdcdab'>

In [None]:
for match in re.finditer(p, 'zzzababcdcdabxxxabxxxcdxxxababcdxxx'):
  print(match)

<re.Match object; span=(3, 13), match='ababcdcdab'>
<re.Match object; span=(16, 18), match='ab'>
<re.Match object; span=(21, 23), match='cd'>
<re.Match object; span=(26, 32), match='ababcd'>


**예제 4**: 아래의 텍스트에서 사람 호칭과 이름 부분만을 인식하는 정규표현식은?

In [None]:
text_to_search = '''
  This is a list of neighbors:
  Mr. Schaffer
  Mr  Smith
  Ms  Davis
  Mrs. Robinson
  Mr. T
'''

pattern = r"M(r|s|rs)\.?\s+[A-Z]\w*"
for item in re.finditer(pattern, text_to_search):
  print(item)

print('\n')
print(re.findall(pattern, text_to_search))

<re.Match object; span=(34, 46), match='Mr. Schaffer'>
<re.Match object; span=(49, 58), match='Mr  Smith'>
<re.Match object; span=(61, 70), match='Ms  Davis'>
<re.Match object; span=(73, 86), match='Mrs. Robinson'>
<re.Match object; span=(89, 94), match='Mr. T'>


['r', 'r', 's', 'rs', 'r']


위의 예의 마지막은 그룹이 있는 패턴에 대해서 `findall` 함수를 적용한 경우인데 예상과는 다른 결과를 보여준다. 이는 `findall` 함수에서 그룹을 처리하는 독특한 방식에 따른 결과인데 자세한 사항은 [문서](https://docs.python.org/3/library/re.html)를 참조하라.

**예제 5:** url을 인식하는 정규표현식을 작성해보자.

In [None]:
urls = '''
    https://google.com
    http://naver.com
    https://youtube.com
    https://www.pknu.ac.kr
'''

pattern = re.compile(r'https?://(www\.)?\w+(\.\w+)+')
for item in re.finditer(pattern, urls):
  print(item)


<re.Match object; span=(5, 23), match='https://google.com'>
<re.Match object; span=(28, 44), match='http://naver.com'>
<re.Match object; span=(49, 68), match='https://youtube.com'>
<re.Match object; span=(73, 95), match='https://www.pknu.ac.kr'>


`re.search()`, `re.match()`, 혹은 `re.finditer()` 메서드는 `re.Match` 객체를 반환한다.
패턴에 하나 이상의 그룹이 포함될 경우 반환된 `re.Match` 객체에는 매치된 전체 스트링뿐 아니라
그룹별로 매치된 정보도 함께 제공한다. 이 정보를 이용하면 매우 유용한 일을 할 수 있다.

In [None]:
p = re.compile('(ab)+(c|d)+(ab)*')

위의 패턴에는 세 개의 그룹이 포함되어 있다: `ab`, `c|d`, 그리고 `ab`.
이 세 그룹은 각각 그룹 1, 2, 3로 명명된다.

In [None]:
text = 'xxxabababccddababxxxabdabccgggabc'
for item in re.finditer(p, text):
  print('Match object: ', item)
  print('Whole Match: ', item.group())   # the whole match, by default, it's equivalent to group(0)
  print('Whole Match Again: ', item.group(0))
  print('Whole Groups: ', item.groups())

  print('1st group: ', item.group(1))
  print('2nd group: ', item.group(2))
  print('3rd group: ', item.group(3))

  print('\n')

  # for index in range(len(item.groups())):
  #   print('{}th Group: '.format(index+1), item.group(index+1))

Match object:  <re.Match object; span=(3, 17), match='abababccddabab'>
Whole Match:  abababccddabab
Whole Match Again:  abababccddabab
Whole Groups:  ('ab', 'd', 'ab')
1st group:  ab
2nd group:  d
3rd group:  ab


Match object:  <re.Match object; span=(20, 25), match='abdab'>
Whole Match:  abdab
Whole Match Again:  abdab
Whole Groups:  ('ab', 'd', 'ab')
1st group:  ab
2nd group:  d
3rd group:  ab


Match object:  <re.Match object; span=(30, 33), match='abc'>
Whole Match:  abc
Whole Match Again:  abc
Whole Groups:  ('ab', 'c', None)
1st group:  ab
2nd group:  c
3rd group:  None




이렇게 그룹 단위의 매치를 인식하는 것은 때로 매우 유용하다. 위에서 호칭(Mr, Mrs, Ms)과 이름을 인식하는 예를 생각해보자.

In [None]:
text_to_search = '''
  This is a list of neighbors:
  Mr. Schaffer
  Mr  Smith
  Ms  Davis
  Mrs. Robinson
  Mr. T
  Dr. Johnson
  Prof. Kim
'''

pattern = r"(Mr|Ms|Mrs|Dr|Prof)\.?\s+([A-Z]\w*)"
for item in re.finditer(pattern, text_to_search):
  # print(item)
  print(item.groups())

('Mr', 'Schaffer')
('Mr', 'Smith')
('Ms', 'Davis')
('Mrs', 'Robinson')
('Mr', 'T')
('Dr', 'Johnson')
('Prof', 'Kim')


이렇게 하면 호칭 부분과 이름 부분을 떼어서 인식할 수 있다

그룹 내에 다른 그룹이 중첩될 수 있다. 이때 그룹 넘버링이 열리는 괄호가 등장하는 순서대로 매겨진다.

In [None]:

pattern = r"((M(r|s|rs))|Dr|Prof)\.?\s+([A-Z]\w*)"
for item in re.finditer(pattern, text_to_search):
  print(item.groups())

('Mr', 'Mr', 'r', 'Schaffer')
('Mr', 'Mr', 'r', 'Smith')
('Ms', 'Ms', 's', 'Davis')
('Mrs', 'Mrs', 'rs', 'Robinson')
('Mr', 'Mr', 'r', 'T')
('Dr', None, None, 'Johnson')
('Prof', None, None, 'Kim')


## Named Group

그룹들을 번호로 식별하는 것은 정규표현식이 복잡할 경우 번거롭고 실수의 여지가 많다.
대신 `(?P<name>...)`의 형태로 그룹에 '이름'을 부여하는 기능을 제공한다. `re.Match.groupdict()` 함수는 매치된 그룹들을 딕셔너리로 변환해준다.

In [None]:
pattern = r"(?P<Title>Mr|Ms|Mrs|Dr|Prof)\.?\s+(?P<Name>[A-Z]\w*)"
# pattern = r"(?P<Title>(M(r|s|rs))|Dr|Prof)\.?\s+(?P<Name>[A-Z]\w*)"
for item in re.finditer(pattern, text_to_search):
  print(item.groupdict())

{'Title': 'Mr', 'Name': 'Schaffer'}
{'Title': 'Mr', 'Name': 'Smith'}
{'Title': 'Ms', 'Name': 'Davis'}
{'Title': 'Mrs', 'Name': 'Robinson'}
{'Title': 'Mr', 'Name': 'T'}
{'Title': 'Dr', 'Name': 'Johnson'}
{'Title': 'Prof', 'Name': 'Kim'}


다음은 IMAP 프로토콜에서 시간을 명시하는 규칙이다.

In [None]:
InternalDate = re.compile(r'INTERNALDATE "'
        r'(?P<day>[ 123][0-9])-(?P<mon>[A-Z][a-z][a-z])-'
        r'(?P<year>[0-9][0-9][0-9][0-9])'
        r' (?P<hour>[0-9][0-9]):(?P<min>[0-9][0-9]):(?P<sec>[0-9][0-9])'
        r' (?P<zonen>[-+])(?P<zoneh>[0-9][0-9])(?P<zonem>[0-9][0-9])'
        r'"')

example_text = '''
              INFO Imap(2)[6] Response: * 1 FETCH (UID 8 RFC822.SIZE 576 FLAGS
              (\Seen) INTERNALDATE "21-Jun-2018 17:51:47 +0000" ENVELOPE
              ("Sat, 3 Dec 2016 21:39:27 -0700" "Test Message" ((NIL NIL “john.doe” “godaddy.com”))
              ((NIL NIL “john.doe” “godaddy.com”)) ((NIL NIL “john.doe” “godaddy.com”))
              ((“jane.doe@yahoo.com” NIL “jane.doe” “yahoo.com”)) NIL NIL NIL
              “<20171203153135.4b5c8628937d16bc17cc44c9ad222e17.7ac1f537cc.wbe@email15.godaddy.com>”))
              '''

for item in re.finditer(InternalDate, example_text):
  print(item.groupdict())

{'day': '21', 'mon': 'Jun', 'year': '2018', 'hour': '17', 'min': '51', 'sec': '47', 'zonen': '+', 'zoneh': '00', 'zonem': '00'}


## 예1: Wikipedia Data

텍스트 파일 `buddhist.txt`는 [여기](https://drive.google.com/file/d/1ETiYiPLU4ih8E4z6-B_CPsk3rKkAqxQH/view?usp=share_link)에서 다운로드한다.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
path = '/content/drive/MyDrive/DataScience2023/chap03_regex/buddhist.txt'

In [None]:
with open(path,"r", encoding='utf-8') as file:
    wiki=file.read()

print(wiki)

Buddhist universities and colleges in the United States
From Wikipedia, the free encyclopedia
Jump to navigationJump to search

This article needs additional citations for verification. Please help improve this article 
by adding citations to reliable sources. Unsourced material may be challenged and removed.
Find sources: "Buddhist universities and colleges in the United States" 
news · newspapers · books · scholar · JSTOR (December 2009) 
(Learn how and when to remove this template message)
There are several Buddhist universities in the United States. 
Some of these have existed for decades and are accredited. 
Others are relatively new and are either in the process of being accredited or 
else have no formal accreditation. The list includes:

 Dhammakaya Open University - located in Azusa, California, part of the Thai Wat Phra Dhammakaya[1]
 Dharmakirti College - located in Tucson, Arizona Now called Awam Tibetan Buddhist Institute (http://awaminstitute.org/)
 Dharma Realm Buddhist 

위의 파일은 미국에 있는 불교 대학교에 관한 위키피디어의 내용이다. 대학 이름과 위치 등이 일정한 규칙에 따라서 기술되어 있다.

이 예는 정규표현식의 정의에서 verbose 모드에 대해서 설명하기 위한 것이다. 아래와 같이 정규표현식을 여러 줄에 걸쳐서 기술하고 커멘트도 달 수 있다. 단, raw string을 사용할 수 없고 모든 whitespace를 `\` 문자를 이용하여 escape해야 한다. 그래야 `#`로 시작하는 커멘트를 식별하여 무시할 수 있기 때문이다.

In [None]:
pattern=re.compile("""
(?P<title>.*)          # the university title
(\ -\ located\ in\ )   # an indicator of the location
(?P<city>\w*)          # city the university is in
(,\ )                  # separator for the state
(?P<state>\w*)         # the state the city is located in
""", re.VERBOSE)

for item in re.finditer(pattern, wiki):
    print(item.groupdict())

{'title': ' Dhammakaya Open University', 'city': 'Azusa', 'state': 'California'}
{'title': ' Dharmakirti College', 'city': 'Tucson', 'state': 'Arizona'}
{'title': ' Dharma Realm Buddhist University', 'city': 'Ukiah', 'state': 'California'}
{'title': ' Ewam Buddhist Institute', 'city': 'Arlee', 'state': 'Montana'}
{'title': ' Naropa University', 'city': 'Boulder', 'state': 'Colorado'}
{'title': ' Institute of Buddhist Studies', 'city': 'Berkeley', 'state': 'California'}
{'title': ' Maitripa College', 'city': 'Portland', 'state': 'Oregon'}
{'title': ' University of the West', 'city': 'Rosemead', 'state': 'California'}
{'title': ' Won Institute of Graduate Studies', 'city': 'Glenside', 'state': 'Pennsylvania'}


## 예2: New York Times and Hashtags

아래의 파일은 New York Times의 twitter 계정에서 health와 관련된 트윗들을 모아 놓은 [파일](https://drive.google.com/file/d/1tx1CWtwxh5WENk94lOLbLvtnIh6QxtMR/view?usp=share_link)이다. 트윗들이 `|` 문자로 구분되어 있다. 이 파일에서 모든 해쉬태그를 찾아보자. 해쉬태그는 해쉬마크 `#`로 시작하며 whitespace 문자를 만나면 끝난다.

In [None]:
with open("/content/drive/MyDrive/DataScience2022/chap03/data/nytimeshealth.txt","r") as file:
    health=file.read()
print(health)

In [None]:
pattern = '#[\w]+'
re.findall(pattern, health)

['#askwell',
 '#pregnancy',
 '#Ayotzinap',
 '#Colorado',
 '#3',
 '#VegetarianThanksgiving',
 '#BrittanyMaynard',
 '#FallPrevention',
 '#Ebola',
 '#Ebola',
 '#ebola',
 '#Ebola',
 '#Ebola',
 '#EbolaHysteria',
 '#AskNYT',
 '#Ebola',
 '#Ebola',
 '#Ebola',
 '#Liberia',
 '#Excalibur',
 '#ebola',
 '#Ebola',
 '#dallas',
 '#nobelprize2014',
 '#ebola',
 '#ebola',
 '#monrovia',
 '#ebola',
 '#nobelprize2014',
 '#ebola',
 '#nobelprize2014',
 '#Medicine',
 '#Ebola',
 '#Monrovia',
 '#Liberia',
 '#Ebola',
 '#smell',
 '#Ebola',
 '#Ebola',
 '#Ebola',
 '#Monrovia',
 '#Ebola',
 '#ebola',
 '#monrovia',
 '#liberia',
 '#benzos',
 '#Alzheimers',
 '#ClimateChange',
 '#Whole',
 '#Wheat',
 '#Focaccia',
 '#Tomatoes',
 '#Olives',
 '#Recipes',
 '#Health',
 '#Ebola',
 '#Ebola',
 '#Monrovia',
 '#Liberia',
 '#Liberia',
 '#Ebola',
 '#Ebola',
 '#Liberia',
 '#Ebola',
 '#blood',
 '#Ebola',
 '#organtrafficking',
 '#org',
 '#EbolaOutbreak',
 '#SierraLeone',
 '#Freetown',
 '#SierraLeone',
 '#ebolaoutbreak',
 '#kenema',
 '#eb

## 예3: HTML 태그

정규표현식을 이용하여 html 파일로부터 순수한 텍스트만을 남기고 모든 HTML 태그를 제거해보자. `re.sub()` 함수를 이용하면 특정 패턴을 다른 문자열로 대체할 수 있다. 여기서는 모든 HTML 태크를 공백 문자열로 대체하여 제거한다.

In [None]:
text = '''
<div><span style="font-size:19px;"><strong>Hello world! </strong></span></div>
<div> </div>
<div>Thank you for taking the 2021 Stack Overflow Developer Survey,
the longest running survey of software developers (and anyone else who codes!) on Earth. </div>
<div> </div>
<div>As in previous years, anonymized results of the survey will be made publicly
available under the Open Database License, where anyone can download and analyze the data.
On that note, throughout the survey, certain answers you and your peers give will be
treated as personally identifiable information, and therefore kept out of
the anonymized results file. We'll call out each of those in the survey with
a note saying "This information will be kept private." </div>
<div> </div>
<div>There are six sections in this survey. The 2nd, 3rd, and 4th sections will
appear in a random order.</div><div><br></div>
<div>   1. Basic Information</div>
<div>   2. Education, Work, and Career</div>
<div>   3. Technology and Tech Culture</div>
<div>   4. Stack Overflow Usage + Community</div>
<div>   5. Demographic Information </div>
<div>   6. Final Questions</div>
<div>
<div>Most questions in this survey are optional. Required questions are
marked with *. This anonymous survey will take about 10 minutes to complete.
We encourage you to complete it in one sitting.</div><div><br></div>
</div>
<div><strong>If you use security or ad-blocking plugins, you may see error messages</strong></div>
<div>Our third-party software provider, Qualtrics, does not work well with
certain ad blockers and security software. To avoid error messages that
prevent you from taking the survey, please try specifically unblocking
Qualtrics in your plugin or pausing the plugin while you take the survey. </div>
<div> </div>
<div>To begin, click <strong>Next.</strong></div>
'''

text_filtered1 = re.sub(r'</?\w+>', '', text)    # first try
print(text_filtered1)


<span style="font-size:19px;">Hello world! 
 
Thank you for taking the 2021 Stack Overflow Developer Survey, 
the longest running survey of software developers (and anyone else who codes!) on Earth. 
 
As in previous years, anonymized results of the survey will be made publicly 
available under the Open Database License, where anyone can download and analyze the data. 
On that note, throughout the survey, certain answers you and your peers give will be 
treated as personally identifiable information, and therefore kept out of 
the anonymized results file. We'll call out each of those in the survey with 
a note saying "This information will be kept private." 
 
There are six sections in this survey. The 2nd, 3rd, and 4th sections will 
appear in a random order.
   1. Basic Information
   2. Education, Work, and Career
   3. Technology and Tech Culture
   4. Stack Overflow Usage + Community
   5. Demographic Information 
   6. Final Questions
 
Most questions in this survey are optional

위의 예에서 모든 HTML 태그를 찾아내진 못하였다. 왜냐하면 HTML 태그는 공백 문자를 비롯하여 여러 문자를 포함하는 복잡한 형태일 수 있다. 단 모든 태그는 `<`와 `>`로 묶여 있다는 것에 착안하여 다음과 같이 해보자.

In [None]:
text_filtered2 = re.sub(r'<.*>', '', text)
print(text_filtered2)




Thank you for taking the 2021 Stack Overflow Developer Survey, 
the longest running survey of software developers (and anyone else who codes!) on Earth. 

As in previous years, anonymized results of the survey will be made publicly 
available under the Open Database License, where anyone can download and analyze the data. 
On that note, throughout the survey, certain answers you and your peers give will be 
treated as personally identifiable information, and therefore kept out of 
the anonymized results file. We'll call out each of those in the survey with 
a note saying "This information will be kept private." 

There are six sections in this survey. The 2nd, 3rd, and 4th sections will 
appear in a random order.






 
Most questions in this survey are optional. Required questions are 
marked with *. This anonymous survey will take about 10 minutes to complete. 
We encourage you to complete it in one sitting.


Our third-party software provider, Qualtrics, does not work well with 

이렇게 출력된 이유는 무엇일까? 정규표현식에서 `*`, `+`, 그리고 `?` quantifier는 모두 greedy하게 처리된다. 즉, 가능한 한 많은 문자들과 매치되도록 처리한다. 따라서 정규표현식 `<.*>`는 하나의 HTML 태그가 아니라 각 라인에서 처음 만나는 `<`와 마지막 `>` 사이에 포함된 모든 문자들과 매치되어 버린다. 예를 들어 `<a> text <c>`라는 문자열이 있을 때 `<a>` 혹은 `<c>`와 매치되는 대신 전체 문자열과 매치되어 버린다.

정규표현식에서 quantifier 다음에 `?`를 추가하면 non-greey하게 즉 최소한의 범위로 매치된다. 즉, `<.*?>`는 `<a>` 혹은 `<c>`와 매치된다.


In [None]:
text_filtered = re.sub(r'<(.*?)>', '', text)
print(text_filtered)


Hello world! 
 
Thank you for taking the 2021 Stack Overflow Developer Survey, 
the longest running survey of software developers (and anyone else who codes!) on Earth. 
 
As in previous years, anonymized results of the survey will be made publicly 
available under the Open Database License, where anyone can download and analyze the data. 
On that note, throughout the survey, certain answers you and your peers give will be 
treated as personally identifiable information, and therefore kept out of 
the anonymized results file. We'll call out each of those in the survey with 
a note saying "This information will be kept private." 
 
There are six sections in this survey. The 2nd, 3rd, and 4th sections will 
appear in a random order.
   1. Basic Information
   2. Education, Work, and Career
   3. Technology and Tech Culture
   4. Stack Overflow Usage + Community
   5. Demographic Information 
   6. Final Questions
 
Most questions in this survey are optional. Required questions are 
mark

## 예4: 한글

In [None]:
text = '''
ㅇㅇ(61.102)앜ㅠㅠㅠㅠ 서로ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ03.31 01:44:10삭제
ㅇㅇ(61.102)호승 ㅜㅜㅜㅜ저 정도면 거의 공중부양 워킹 수준인데?03.31 01:46:12삭제
ㅇㅇ(211.37)바보에게 바보가...03.31 01:47:01삭제
ㅇㅇ(180.233)미친ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ03.31 02:11:21삭제
ㅇㅇ(106.102)ㅅㅂㅋㅋㅋㅋㅋㅋ미쳤나ㅎㅎㅎㅎㅏㅏㅏㅏ
'''
text_filtered = re.sub(r'[ㄱ-ㅎㅏ-ㅣ]', '', text)
print(text_filtered)

text_selected = re.findall(r'[가-힣]+', text)
print(text_selected)


(61.102)앜 서로03.31 01:44:10삭제
(61.102)호승 저 정도면 거의 공중부양 워킹 수준인데?03.31 01:46:12삭제
(211.37)바보에게 바보가...03.31 01:47:01삭제
(180.233)미친03.31 02:11:21삭제
(106.102)미쳤나

['앜', '서로', '삭제', '호승', '저', '정도면', '거의', '공중부양', '워킹', '수준인데', '삭제', '바보에게', '바보가', '삭제', '미친', '삭제', '미쳤나']
