# 2.3 정규 표현식, 람다
- 정규표현식이라는 이름은 **정규 문자열**을 식별하는데 쓰이는 데서 유래함.
- 즉, 문자열이 주어진 규칙에 일치하는지, 일치하지 않는지 판단할 수 있다.
- 예를 들어, 긴 문서에서 전화번호나 이메일 주소 같은 문자열을 빠르게 찾아보려 할 때 유용하다
- 정규문자열을 식별하는데 유용하다고 했었는데, 정규문자열이 뭔지 먼저 알아보자.  

# 2.3.1 정규 문자열
아래 규칙을 연달아 적용해서 생성할 수 있는 문자열이 정규문자열이다.
~~~
1. 글자 a를 최소한 한번 쓰시오.
2. 그 뒤에 b를 정확히 다섯개 쓰시오.
3. 그 뒤에 c를 짝수번 쓰시오.
4. 마지막에 d가 있어도 되고 없어도 됩니다.
~~~
 - 예를 들면 aaaabbbbbccccd, aabbbbbcc 이 위 정규문자열의 예가 될 것이다.
 
# 2.3.2 정규 표현식
정규 표현식은 위의 규칙을 짧게 줄여 쓴 것이다.
위의 정규문자열의 4개의 규칙을 정규 표현식으로 표현하면 다음과 같다.

~~~
aa*bbbbb(cc)*(d | )
~~~

이 정규표현식이 뭘 의미하는지 하나씩 뜯어보자

 - aa*  
 먼저 a를 쓰고 그 다음에 a*를 썼다. a*는 a가 몇 개든 상관없고 0개여도 된다는 뜻이다.
 aa*는 a가 최소한 한 번은 있다는 뜻이다.
 
 - bbbbb  
 특별한 건 없고 b를 5번 연이어 쓴다.
 
 - (cc)*  
 c 짝수 개에 관한 규칙을 충족하려면 c 두 개를 괄호 안에 쓰고 그 뒤에 아스테리크를 붙여서,
 c의 쌍이 임의의 숫자만큼 있음을 나타낸다.(0쌍이어도 규칙에는 맞다)

 - (d | )  
 'd 다음에 공백을 쓰거나, 아니면 d 없이 공백만 쓴다'는 뜻. d가 최대 하나만 있고 그 뒤에 공백이 이어지면서 문자열을 끝내게 된다.

## 2.3.3 정규표현식으로 이메일주소를 식별해보자

1. 이메일 주소의 첫번째 부분에는 (대문자, 소문자, 숫자0-9, 마침표(.), 플러스기호(+), 밑줄 기호(_))중 하나가 포함되어야 한다.

    ~~~
    [A-Za-z0-9\._+]+
    ~~~
    이렇게 가능한 경우를 모두 대괄호([])안에 넣으면 '대괄호에 들어있는 것들 중 아무거나 하나'라는 뜻이다.
    마지막의 + 기호는 바로 앞에 있는 것이 최소한 한번은 나타나야하고 최대 몇개인지는 제한하지 않는다는 뜻이다.  

2. 1번의 다음에 @가 와야 한다.

    ~~~
    @
    ~~~
    이메일 주소에는 반드시 @가 있어야 하며, 정확히 한개만 있어야 한다.  

3. 2번의 다음에는 대문자나 소문자가 최소한 하나 있어야 한다.

    ~~~
    [A-Za-z]+
    ~~~
    @다음에 오는 도메인 이름의 첫부분은 영문 대문자 또는 소문자여야 하고 최소한 글자 하나는 있어야 한다.  

4. 3번의 다음에는 마침표가 와야 한다.

    ~~~
    \.
    ~~~
    \는 특수문자(.)를 쓰기 위해 사용하는 이스케이프 문자이다.  
    
    
위의 규칙들을 합치면 이런 정규표현식이 만들어진다.
~~~
[A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|edu|net)
~~~

다른 정규표현식 기호들에 대해서는 인터넷검색을 해보자..(정리하기 귀찮다..)


# 2.3.4 정규표현식 활용(BeutifulSoup)

http://en.wikipedia.org/wiki/Kevin_Bacon 위키 페이지에서 항목링크만을 가져오는 코드를 작성해보자.
항목링크들의 규칙은 아래와 같다.
 - 이 링크들은 id가 bodyContent인 div안에 있다.
 - URL에는 세미콜론이 포함되어 있지 않다.
 - URL은 /wiki/로 시작한다.
 
첫번째 규칙은 BeautifulSoup패키지로 찾을 수 있고, 두번째와 세번째를 정규표현식으로 표현이 가능하다.  
^(/wiki/)((?!:).)*$

코드로 구현해보자

In [1]:
from urllib2 import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen("http://en.wikipedia.org/wiki/Kevin_Bacon")
bsObj = BeautifulSoup(html, "html.parser")

for link in bsObj.find("div", {"id": "bodyContent"}).findAll("a", href=re.compile("^(/wiki/)((?!:).)*$")):
    if 'href' in link.attrs:
        print(link.attrs['href'])

/wiki/Kevin_Bacon_(disambiguation)
/wiki/San_Diego_Comic-Con
/wiki/Philadelphia
/wiki/Pennsylvania
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Footloose_(1984_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Sleepers
/wiki/The_Woodsman_(2004_film)
/wiki/Fox_Broadcasting_Company
/wiki/The_Following
/wiki/HBO
/wiki/Taking_Chance
/wiki/Golden_Globe_Award
/wiki/Screen_Actors_Guild_Award
/wiki/Primetime_Emmy_Award
/wiki/The_Guardian
/wiki/Academy_Award
/wiki/Hollywood_Walk_of_Fame
/wiki/Social_networks
/wiki/Six_Degrees_of_Kevin_Bacon
/wiki/SixDegrees.org
/wiki/Philadelphia
/wiki/Edmund_Bacon_(architect)
/wiki/Pennsylvania_Governor%27s_School_for_the_Arts
/wiki/Bucknell_University
/wiki/Glory_Van_Scott
/wiki/Circle_in_the_Square
/wiki/Nancy_Mills
/wiki/Cosmopolitan_(magazine)
/wiki/Fraternities_and_sororities
/wiki/Animal_House
/wiki/Search_for_Tomorrow
/wiki/Guiding_Light
/wiki/F

# 2.3.5 태그의 속성에 접근
웹스크레이핑을 하다보면 특정 태그의 콘텐츠보다는 태그의 속성 값이 필요할 경우가 있다.  
찾으려고 하는 대상이 URL이 href속성에 들어있는 \<a\>태그, 타겟 이미지가 src속성에 들어있는 \<img\>태그일 경우, 속성 값이 필요할 것이다.
태그에 접근했던 방식과 유사하게 속성값에도 접근할 수 있다.

~~~python
myTag.attrs #get attributes from tag
myImgTag.attrs['src'] #get img source from attributes of tag
~~~