# 정규식
- 정규 표현식(Regular Expressions)은 복잡한 문자열을 처리할 때 사용하는 기법
- 파이썬만의 고유 표현식이 아니라 문자열을 처리하는 모든 곳에서 사용

In [31]:
data = "관수의 전화번호는 010-0000-0000 이고, 길동의 전화번호는 010-1111-1111 이다."

```
띄어쓰기 단위로 분리

```

In [32]:
phone_list = []

for item in data.split():
    item = item.split("-")
    cond_list = []
    if len(item) == 3:
        cond = item[0].isdigit() and len(item[0]) == 3
        print(cond)
        cond_list.append(cond)
        cond = item[1].isdigit() and len(item[1]) == 4
        cond_list.append(cond)
        cond = item[2].isdigit() and len(item[2]) == 4
        cond_list.append(cond)

    if sum(cond_list) == 3:
        phone_list.append( "-".join(item) )
phone_list

True
True


['010-0000-0000', '010-1111-1111']

In [33]:
import re
pat = re.compile("\d{3}-\d{4}-\d{4}")
phone_list = pat.findall(data)
phone_list

# import re
# phone_list = re.findall("\d{3}-\d{4}-\d{4}", data)
# phone_list

['010-0000-0000', '010-1111-1111']

# re 모듈
- 파이썬은 정규 표현식을 지원하기 위해 re(regular expression의 약어) 모듈을 제공


## match 함수
- 패턴에 맞는 문자열로 시작하는지 검사하고 매치되면 match 객체를 반환하고 그렇지 않으면 None 반환한다.

In [34]:
data

'관수의 전화번호는 010-0000-0000 이고, 길동의 전화번호는 010-1111-1111 이다.'

In [35]:
print(re.match("전화", data))

None


In [36]:
match = re.match("관수", data)
print( match.group() )

관수


## search 함수
- 패턴에 맞는 문자열을 검색하는데 매치되면 바로 match 객체를 반환하고 그렇지 않으면 None 반환한다.


In [37]:
data

'관수의 전화번호는 010-0000-0000 이고, 길동의 전화번호는 010-1111-1111 이다.'

In [38]:
match = re.search("전화", data)
match.group()

'전화'

## findall 함수
- 패턴과 매치되는 모든 문자열을 리스트에 담아 반환한다.

In [39]:
re.findall("번호", data)

['번호', '번호']

## sub 함수
- 패턴과 매칭되는 부분을 치환해서 문자열로 반환해준다.

In [40]:
data

'관수의 전화번호는 010-0000-0000 이고, 길동의 전화번호는 010-1111-1111 이다.'

In [41]:
re.sub("전화번호", "핸드폰번호", data) # replace 와 비슷하지만 replace에서는 정규식 불가능

'관수의 핸드폰번호는 010-0000-0000 이고, 길동의 핸드폰번호는 010-1111-1111 이다.'

# 메타 문자
- 정규 표현식에서 사용하는 메타 문자
- 메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자
- `\ ^ $ . | [ ] ( ) * + ? { }`

## `.`(Dot)
- 줄바꿈 문자인 `\n`을 제외한 모든 문자와 매치

In [42]:
data = "abc a\nc a c "
print(data)

abc a
c a c 


In [43]:
re.findall(".", data)

['a', 'b', 'c', ' ', 'a', 'c', ' ', 'a', ' ', 'c', ' ']

## `*`(반복)
- 바로 앞에 문자가 0번이상 반복할경우 매치

In [44]:
data = 'abc a\nc a c ac abbbc'

In [45]:
re.findall("ab*c", data)

['abc', 'ac', 'abbbc']

## `+`(반복)
- 바로 앞에 문자가 1번이상 반복할경우 매치

In [46]:
data = "abc ac abbbc a c"
re.findall("ab+c", data)

['abc', 'abbbc']

In [47]:
data = "나는 말했다. '오늘 행복하다' 라고... "  
print(data)

나는 말했다. '오늘 행복하다' 라고... 


In [48]:
re.findall("\'.+\'", data)

["'오늘 행복하다'"]

In [49]:
re.findall("\'(.+)\'", data) # 추출할 때는 소괄호 내에 있는 문자열만

['오늘 행복하다']

## 반복횟수를 제한
- `{m,n}` : 바로 앞에 문자의 반복횟수가 m번 에서 n번사이
- `{m}` : 바로 앞에 문자의 반복횟수가 m번
- `{m,}` : 바로 앞에 문자의 반복횟수가 m번 이상
- `{,n}` : 바로 앞에 문자의 반복횟수가 n번 이하

In [50]:
data = "abc ac abbbc abbbbc"
data

'abc ac abbbc abbbbc'

In [51]:
re.findall("ab{1,3}c", data)

['abc', 'abbbc']

In [52]:
re.findall("ab{4}c", data)

['abbbbc']

In [53]:
re.findall("ab{,3}c", data)

['abc', 'ac', 'abbbc']

In [54]:
re.findall("ab{3,}c", data)

['abbbc', 'abbbbc']

In [55]:
re.findall("ab{1,}c", data) # ab+c 와 같음

['abc', 'abbbc', 'abbbbc']

## `?`
- 반복은 아니지만 앞에 문자가 있거나 없거나를 의미
- `{0,1}`을 의미

In [56]:
data

'abc ac abbbc abbbbc'

In [57]:
re.findall("ab?c",data)

['abc', 'ac']

## `[]`(문자 클래스)
- `[]` 안의 문자들 중에 매칭
- 문자 클래스를 만드는 메타 문자인 [] 사이에는 어떤 문자도 들어갈 수 있다.
- `[]` 안의 두 문자 사이에 하이픈(-)을 사용하면, 두 문자 사이의 범위를 의미
- 예시
    - `[a-zA-Z]`: 알파벳 매치
    - `[0-9]`: 숫자 매치
    - `[\d]`: 숫자 매치
    - `[\w]`: 문자, 숫자 매치
    - `^`은 not을 의미
        - `[^0-9]`: 숫자가 아닌 것과 매치


In [58]:
data = "abc ac acc acb"
data

'abc ac acc acb'

In [59]:
re.findall("a[bc]c", data)

['abc', 'acc']

In [60]:
data = "abc ac a+c a.c a*c a?c"

In [61]:
re.findall("a[+.*?]c", data)

['a+c', 'a.c', 'a*c', 'a?c']

In [62]:
data = "abc a]c a[c"

re.findall("a[\[\]]c", data)

['a]c', 'a[c']

In [63]:
data = "Python 3.10.11"

re.findall("[0-9]", data)

['3', '1', '0', '1', '1']

In [64]:
re.findall("[a-zA-Z]", data)

['P', 'y', 't', 'h', 'o', 'n']

In [65]:
data = "파이썬 버전은 3.10.11"
data

'파이썬 버전은 3.10.11'

In [66]:
re.findall("[가-힣]+", data)

['파이썬', '버전은']

In [67]:
re.findall("[가-힣ㄱ-ㅎ]+", data)

['파이썬', '버전은']

In [68]:
re.findall("[\d]", data) # [0-9]

['3', '1', '0', '1', '1']

In [69]:
re.findall("[\w]", data) # [0-9a-zA-Z]

['파', '이', '썬', '버', '전', '은', '3', '1', '0', '1', '1']

In [70]:
re.findall("[^\w]", data) # ^ 대괄호 안에 있을 경우 not 의미

[' ', ' ', '.', '.']

- `^`
    - 검사하고자 하는 문자로 시작하면 매칭

In [71]:
data = "010-0000-0000"
re.findall("^010", data)

['010']

In [72]:
re.findall("^\d{3}-\d{4}-\d{4}$", data)

['010-0000-0000']