# 정규식
- 하나의 언어
- 어떤 프로그래밍 언어도 조금 더 스마트하게 검색을 해보자는 아이디어
- 프로그래밍 가능한 와일드 카드
- 반복문은 없지만, 함축된 언어로 찾고자 하는 패턴과 매치되는 문자열을 찾아준다.
- 정규식은 정보를 찾는 것을 굉장히 구조적으로 만들어 준다.
- 문자 기준, 줄이나 키워드 기반X
- 파이썬의 일부는 아니지만, 파이썬과 함께 쓰인다.
- `import re` : 정규식 라이브러리를 가져와서 사용해야 한다.
    - `re.search` : 매개변수를 받아 문자열애서 검색하는 함수
    - `re.findall` : 문자열을 순회하면서 정해진 패턴을 만족하면 추출하는 함수

## 정규식 요약
<pre>
^           라인의 처음을 매칭

$            라인의 끝을 매칭

.            임의의 문자를 매칭 (와일드 카드)

\s          공백 문자를 매칭

\S         공백이 아닌 문자를 매칭

*            바로 앞선 문자에 적용되고 0 혹은 그 이상의 앞선 문자와 매칭을 표기함.

*?          바로 앞선 문자에 적용되고 0 혹은 그 이상의 앞선 문자와 매칭을 탐욕적이지 않은 방식으로 표기함.

+           바로 앞선 문자에 적용되고 1 혹은 그 이상의 앞선 문자와 매칭을 표기함

+?          바로 앞선 문자에 적용되고 1 혹은 그 이상의 앞선 문자와 매칭을 탐욕적이지 않은 방식으로 표기함.

[aeiou]    명세된 집합 문자에 존재하는 단일 문자와 매칭. “a”, “e”, “i”, “o”, “u” 문자만 매칭되는 예제

[a-z0-9]    - 기호로 문자 범위를 명세할 수 있다. 소문자이거나 숫자인 단일 문자만 매칭되는 예제.

( )         괄호가 정규표현식에 추가될 때, 매칭을 무시한다. 하지만 findall()을 사용 할 때 전체 문자열보다 매칭된 문자열의 상세한 부속 문자열을 추출할 수 있게 한다.
</pre>

## 특수 문자를 활용한 문자 패턴 찾기
<pre>

^ : 문장의 시작을 의미

. : 어떤 문자 한 글자

* : 앞의 문자가 여러 번 반복될 수 있음을 의미

+ : 앞의 문자가 1번 이상 나타남을 의미

\S : 공백 문자가 아닌 한 개의 문자
(\는 역슬래시와 같은 문자임)

 

따라서, 다음과 같은 문자열들은 모두 '^X.*:'라는 패턴을 통해 찾을 수 있습니다.

X-Sieve: CMU Sieve 2.3
X-DSPAM-Result: Innocent
X-DSPAM-Confidence: 0.8475
X-Content-Type-Message-Body: text/plain
그리고 다음과 같은 문자열들은 '^X-\S+:' 패턴으로 찾을 수 있으며,

X-Sieve: CMU Sieve 2.3
X-DSPAM-Result: Innocent
다음의 문자열은 'X-'와 ':' 사이에 공백 문자가 아닌 문자가 포함되지 않았기 때문에 '^X-\S+:' 패턴으로 찾을 수 없습니다.

X-: Very short
X-Plane is behind schedule: two weeks
</pre>

In [2]:
from google.colab import files

up = files.upload()
up

Saving mbox-short.txt to mbox-short.txt




In [4]:
hand = open('mbox-short.txt')
for line in hand:
    line = line.rstrip()
    # 만약 해당 문자열이 없다면 -1을 리턴한다.
    if line.find("From: ") >= 0:
        print(line)

From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: gsilver@umich.edu
From: gsilver@umich.edu
From: zqian@umich.edu
From: gsilver@umich.edu
From: wagnermr@iupui.edu
From: zqian@umich.edu
From: antranig@caret.cam.ac.uk
From: gopal.ramasammycook@gmail.com
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: louis@media.berkeley.edu
From: ray@media.berkeley.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu


In [6]:
import re

hand = open('mbox-short.txt')
for line in hand:
    line = line.rstrip()
    # From으로 시작하는 문자열만 추출. 중간에 나오면 생략
    # line은 검색 대상
    if re.search('^From: ', line):
        print(line)

From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: zqian@umich.edu
From: rjlowe@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: gsilver@umich.edu
From: gsilver@umich.edu
From: zqian@umich.edu
From: gsilver@umich.edu
From: wagnermr@iupui.edu
From: zqian@umich.edu
From: antranig@caret.cam.ac.uk
From: gopal.ramasammycook@gmail.com
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: david.horwitz@uct.ac.za
From: stephen.marquard@uct.ac.za
From: louis@media.berkeley.edu
From: louis@media.berkeley.edu
From: ray@media.berkeley.edu
From: cwen@iupui.edu
From: cwen@iupui.edu
From: cwen@iupui.edu


### 요약
- 전체 한 줄을 불러들여서 그 줄의 어느 한 부분이라도 정해진 양식을 만족하는지 판단