문자열을 검색하는 기능
- Regular Expression
- 특정한 패턴과 일치하는 문자열을 함수를 이용해 '검색', '치환', '제거' 하는 기능을 지원
- https://docs.python.org/3/library/re.html
- 크롤링 할때 유용

## 1. 특수 문자들
### (1) 반복
    * : 0번 이상 반복
        ab* = a, ab, abb, ...
        ao*a = aa, aoa, aooa, ...
        
    + : 1번 이상 반복
        ab+ = ab, abb, abbb, ...
        
    ? : 0번 또는 1번 반복
        ab? = a, ab
        
    {m} : m회 반복
        a{3}bc = aaabc
        
    {m,n}: m회부터 n회까지 반복
        a{2,4}bc = aabc, aaabc, aaaabc

## (2) 매칭
    . : 줄바꿈문자(\n)을 제외한 모든 문자와 매치
        a.b= aab, abb, acb,..
        
    ^ : 문자열의 시작과 매치
        ^abc, ^(ab)
        
    $ : 문자열의 마지막과 매치
        ...a$
        
    [ ] : 문자 집합 중 한 문자와 매치
        [abc]xyz= axyz, bxyz, cxyz
        [a-z]bc= abc, bbc, cbc, ..., zbc
        a[.]b= a.b
        [abc.^]z= az, bz, cz, .z, ^z
        [^abc]z= dz,ez,fz, ...
            ^ 가 맨앞이면 NOT

### (3) 특수문자(\문자)
    \d: 모든 숫자와 매치
        ab\d\dc: ab00c, ab10c, ...
        
    \D: 숫자가 아닌 모든 문자와 매치
    
    \s:공백문자와 매치
    
    \S: 공백문자를 제외한 모든 문자와 매치
    
    \w: 숫자와 문자
    
    \W: 숫자 또는 문자가 아닌 모든 문자와 매치
    
    
    

### (4) 파이썬에서 제공하는 정규표현식 API
    compile()
    match()
    search()
    findall()
    finditer()
    split()
    sub()
    ...

### (5) 실습

In [1]:
a='1,2,3,4,5'

In [2]:
# 12345 호출
print(a.replace(',',''))      #,를 공백으로 대체
print(a[::2])        # 전체를 2간격으로 

for i in a:
    if i!=',':
        print(i,end='')

12345
12345
12345

In [3]:
a

'1,2,3,4,5'

In [4]:
import re

# pattern= re.compile('\D')      #패턴 만들기
pattern= re.compile('[^0-9]')

re.sub(pattern, '',a)      #sub: replace와 비슷. a에서 pattern을 ''으로 대체

'12345'

In [5]:
b='''
 박: 1, park,
 김: 2, kim,
 이: 3, lee
 '''

In [6]:
# 박,김,이만 뽑아내기
b1= b.strip()     #앞뒤 공백 제거
b2= b1.split('\n')   #문자열을 분리

b3= [i.split(':') for i in b2]
print(b3)
for i in b3:
    print(i[0])
    
##############################

pattern= re.compile('[가-힣]')   # 모든 한글
re.findall(pattern, b)

[['박', ' 1, park,'], [' 김', ' 2, kim,'], [' 이', ' 3, lee']]
박
 김
 이


['박', '김', '이']

### (6) API 사용법
    객체를 생성(재사용) 또는 함수를 직접 호출
#### 1) match(), search()
    match는 첫부분에 pattern이 있는지
    search는 전체에 pattern이 있는지

In [7]:
import re

In [8]:
# 객체 생성
p= re.compile('[0-9] [a-z]+ .+')
data= '3 aljdlfkjls a;nma;vlwker 2oijrq ;jarlnvm'
p.match(data)
p.search(data)

<re.Match object; span=(0, 41), match='3 aljdlfkjls a;nma;vlwker 2oijrq ;jarlnvm'>

In [9]:
# 함수를 바로 호출
re.match('[0-9] [a-z]+ .+',data)

<re.Match object; span=(0, 41), match='3 aljdlfkjls a;nma;vlwker 2oijrq ;jarlnvm'>

In [10]:
data= '안녕하세요. 내 나이는 20살이고 전화번호는 010-111-111입니다.'
result= re.search('010-[0-9]{3,4}-\d{3}',data)
print(result.group())
print(result.span())

010-111-111
(25, 36)


#### (2) findall(), finditer()

In [11]:
data= 'life 333 is 222 666 too 10 short'
p=re.compile('[a-z]+')
print(p.findall(data))         #리스트로 반환
print(p.finditer(data))        #반복 가능한 객체로 반환. 정보와 위치 알 수 있음

['life', 'is', 'too', 'short']
<callable_iterator object at 0x000001D57934C3D0>


In [12]:
data= '1234 abc가나다ABC_555_6 mbc air air'

#bc로 끝나는 3글자
print(re.findall('\Dbc',data))
#a로 시작하는 3글자
print(re.findall('a\D{2}',data))
#가장 마지막에 air로 끝나는 문자열
print(re.findall('air$',data))
#가장 처음에 1로 시작하는 숫자
print(re.findall('^1\d+',data))
print(re.findall('1\d+',data))
#1을 뺀 모든 데이터
print(re.findall('[^1]*',data))

['abc', 'mbc']
['abc', 'air', 'air']
['air']
['1234']
['1234']
['', '234 abc가나다ABC_555_6 mbc air air', '']


In [13]:
#숫자가 아닌 문자= 글자, 공백, 기호
re.findall('\D','s - =')

['s', ' ', '-', ' ', '=']

#### 3) split()
문자열의 split과 기능은 같지만 정규표현식 적용 가능 차이

In [14]:
sample= 'mbc;sbs.tvn        netflix'

print(re.split(',| |;',sample))      # | : or
print(re.split('[.]',sample))
print(re.split('\W',sample))
re.sub('\W+',',',sample)

['mbc', 'sbs.tvn', '', '', '', '', '', '', '', 'netflix']
['mbc;sbs', 'tvn        netflix']
['mbc', 'sbs', 'tvn', '', '', '', '', '', '', '', 'netflix']


'mbc,sbs,tvn,netflix'

#### 4) sub(패턴, 바꿀 것, 데이터): 교체, 변경

In [15]:
sample='1234 abc가나다ABC_555_6'
# 숫자를 8로
re.sub('\d','8',sample)
re.sub('\d+', '888', sample)


'888 abc가나다ABC_888_888'

### (7) Flags(컴파일 옵션)
- S(DOTALL): .에서 \n까지 포함되도록
- I(IGNORECASE): 대소문자 무시
- M(MULTILINE): 여러줄 문자열에서 각 줄마다 ^,$가 적용되도록

In [16]:
p1= re.compile('a.b')
p2= re.compile('a.b',re.S)
print(p1.match('a\nb is ~~~'))
print(p2.match('a\nb is ~~~'))

None
<re.Match object; span=(0, 3), match='a\nb'>


In [17]:
p1= re.compile('[a-z]+')
p2= re.compile('[a-z]+', re.I)
#p2= re.compile('[a-zA-Z]')
print(p1.findall('hi HI'))
print(p2.findall('hi HI'))

['hi']
['hi', 'HI']


In [18]:
data='''py one
life is short
py two
you need py
py three
other py four'''
print(re.findall('^py [a-z]+',data))
print(re.findall('^py [a-z]+',data, re.M))
# print(p1.findall(p1,data))
# print(p2.findall('hi HI'))

['py one']
['py one', 'py two', 'py three']


In [19]:
import re

a=['흑석(중앙)']

for i in a:
    print(re.findall('[가-힣]+',i)[0])

흑석


In [20]:
a=[1,2,3,4,5]
b=[2,3,4]

for i in b:
    if i in a:
        a.remove(i)
        
a

[1, 5]

In [22]:
ex= ''' Jessica is 15 years old, and Daniel is 27 years old. Edward is 97, and his grandfather, Oscar , is 102.'''

In [32]:
name= re.findall('[A-Z]\S+ ', ex)
name

['Jessica ', 'Daniel ', 'Edward ', 'Oscar ']

In [34]:
age= re.findall('[0-9]+', ex)
age

['15', '27', '97', '102']

In [36]:
import pandas as pd

for i in range(len(name)):
    name[i], age[i]

{0: 15     Jessica 
 27      Daniel 
 97      Edward 
 102      Oscar 
 Name: 0, dtype: object}

In [49]:
dd= [ (name[i], age[i]) for i in range(len(name))]
ddd= dict(dd)
ddd

{'Jessica ': '15', 'Daniel ': '27', 'Edward ': '97', 'Oscar ': '102'}

In [48]:
?re.compile