## 정규표현식

In [6]:
import re

#### match 메서드
- 문자열 도입에서 패턴찾기

In [7]:
pattern = r'life'     # 패턴을 객체에 저장, 패턴 앞에는 r을 붙임
script = 'life'       # 패턴과 같은 스크립트를 다른 객체에 저장
re.match(pattern, script)      # script에서 pattern 찾기

<re.Match object; span=(0, 4), match='life'>

In [8]:
re.match(r'life','life').group()    

'life'

In [9]:
# 매칭 되지 않으면 오류
re.match(r'life','animal').group()    

AttributeError: 'NoneType' object has no attribute 'group'

In [10]:
def refinder(pattern, script):
    if re.match(pattern, script):     # script에서 패턴을 찾을 수 있다면
        print('Match!')               # Match 출력
    else:
        print('Not a match!')

In [11]:
pattern = r'Life'               # 패턴으로 r'Life' 입력
script = 'Life is so cool'      # 패턴을 찾을 문자열 입력
refinder(pattern, script)       # 원고에서 패턴 찾기

Match!


In [12]:
pattern = r'life'               # 패턴으로 r'life' 입력
script = 'Life is so cool'    
refinder(pattern, script)       

Not a match!


In [13]:
pattern = r'is'               # 패턴으로 r'is' 입력
script = 'Life is so cool'      
refinder(pattern, script)       
# match가 문자열의 시작부터 매칭되는지 찾는 함수이기 때문에 중간에 있는 패턴을 찾지 못함 

Not a match!


### search 메서드 
- 문자열 전체에서 패턴 찾기

In [14]:
re.search(pattern, script).group()     # script에서 pattern(r'is'을 찾아 반환)

'is'

In [15]:
re.search(r'Life', script).group()     # search는 원고에 있는 패턴을 찾아냄

'Life'

In [16]:
re.search(r'cool', script).group()     # search는 원고 중간에 있는 단어들도 찾아냄

'cool'

### fideall 메서드
- 패턴을 모두 찾아 리스트로 반환

In [17]:
number = 'My number is 991011-1****** and yours is 710727-2******'
re.findall('\d{6}', number)       #'\d{6} 패턴은 숫자를 여섯 번 반복한 값을 의미 

['991011', '710727']

In [18]:
example1 = '저는 91년에 태어났습니다. 97년 에는 IMF가 있었습니다. 지금은 2020년 입니다'
re.findall(r'\d.+년', example1)         # 숫자(\d)로 시작하고, 어떠너 문자든(.) 반복(+)되며, '년'으로 끝나는 문자열을 반환
# 문장 맨 앞의 숫자부터 맨 뒤의 '년' 사이 모든 문자를 반환

['91년에 태어났습니다. 97년 에는 IMF가 있었습니다. 지금은 2020년']

In [19]:
# 물음표를 사용하면 탐욕(greedy)를 제어
re.findall(r'\d.+?년', example1)     # '년'이라는 글자를 찾으면 패턴 찾기를 멈춤  

['91년', '97년', '2020년']

In [20]:
re.findall(r'\d+년', example1)       # 숫자를 반복시킨 후 '년'으로 끝나는 문자를 찾음 

['91년', '97년', '2020년']

In [21]:
example = '이동민 교수는 다음과 같이 설명했습니다(이동민, 2019). 그런데 다른 학자는 이 문제에 대해서 다른 견해를 가지고 있었습니다(최재영,2019). 또 다른 견해도 있었습니다(Lion, 2018).'

In [22]:
result = re.findall(r'\(.+\)', example)     # 앞에 \를 안붙이면 문자로 인식되지 않음
result

['(이동민, 2019). 그런데 다른 학자는 이 문제에 대해서 다른 견해를 가지고 있었습니다(최재영,2019). 또 다른 견해도 있었습니다(Lion, 2018)']

In [23]:
result = re.findall(r'\(.+?\)', example)     
result

['(이동민, 2019)', '(최재영,2019)', '(Lion, 2018)']

### split 메서드
- 문장 나누는 패턴 만들기

In [24]:
sentence = 'I have a lovely dog, really. I an not telling a lie. what a pretty dog! I love this dog.'
re.split(r'[.?!]', sentence)

['I have a lovely dog, really',
 ' I an not telling a lie',
 ' what a pretty dog',
 ' I love this dog',
 '']

In [25]:
data = 'a:3; b:4; c:5'

for i in re.split(r';', data):     # 먼저 세미콜론(;)으로 전체 데이터를 한번 구분
    print(re.split(r':', i))       # 나눠진 데이터를 다시 콜론(:) 기준으로 나눔

['a', '3']
[' b', '4']
[' c', '5']


### sub 메서드
- 문자열 바꾸기

In [26]:
sentence = 'I have a lovely dog, really. I an not telling a lie. what a pretty dog! I love this dog.'
re.sub(r'dog', 'cat', sentence)    # sentence라는 문자열에서 'dog'를 'cat'으로 바꾸기

'I have a lovely cat, really. I an not telling a lie. what a pretty cat! I love this cat.'

In [27]:
words = 'I am home now. \n\n\nI am with my cat.\n\n' 
print(words)
# 공백이 너무 많음

I am home now. 


I am with my cat.




In [28]:
# 불필요한 공백을 삭제
re.sub(r'\n', '', words)

'I am home now. I am with my cat.'

#### ly로 끝나는 단어 추출

In [29]:
sentence = 'I have a lovely dog, really. I am not telling a lie'
re.findall(r'\w+ly', sentence)    # r'\w+ly'는 문자나 숫자(\W)가 몇 번이 나와도 좋으니 반목하고(+), ly로 끝나는 패턴을 의미

['lovely', 'really']