In [1]:
import re

## re.match()

---

- 문자열에서 가장 첫번째 문자를 기준으로 패턴과 일치여부를 반환.
- 줄바꿈 고려 X

In [2]:
print(re.match(r"a", "abcdef"))    # Returns value
print(re.match(r"a", "baaaaa"))    # None: only considers the beginning 
print(re.match(r"a", "bbbbb\na"))  # None: only considers first line

<re.Match object; span=(0, 1), match='a'>
None
None


## re.search()

---

- 문자열 전체에서 패턴과 일치여부를 판단.
- 가장 **첫번째로 매칭되는 것만 반환**함.
- 줄바꿈 고려 O

In [3]:
print(re.search(r"a", "bcdefa"))
print(re.search(r"a", "abcdef"))  # both have values
print()

print(re.search(r"a", "bacccca")) # finds only the first appearance of "a"
print()

print(re.search(r"a", "bbbbbb\na"))  # works well with multi-line

<re.Match object; span=(5, 6), match='a'>
<re.Match object; span=(0, 1), match='a'>

<re.Match object; span=(1, 2), match='a'>

<re.Match object; span=(7, 8), match='a'>


반환된 문자열만 따로 사용하고 싶을 때:

- `group()`: 문자열
- `start()`: 시작 인덱스
- `end()`: 끝 인덱스

## re.findall()

- 패턴과 일치하는 모든 문자열을 리스트형태로 반환.
- 인덱스에 대한 정보는 반환 불가능.

In [4]:
print(re.findall(r"o", "I love regular expression!"))         # search for all "o"
print(re.findall(r"re", "I love regular expression!"))        # search for all "re"
print(re.findall(r"\?|\!", "I love regular expression!"))     # search for all "?" or "!"

['o', 'o']
['re', 're']
['!']


## Character Sets
---

**\w**    (소문자 w)

- [a-zA-Z0-9_] 에 포함되는 모든 문자와 매칭 
- **모든 알파벳(한국어 모음, 자음 포함), 모든 숫자, 모든 언더바**

---
**\W**   (대문자 w)

- \w 의 여집합
- [a-zA-Z0-9_] 에 포함되지 **않는** 모든 문자와 매칭

---

In [5]:
print(re.search(r"\w\w\w\w", "데이터사이언스랩 화이팅!").group())    # returns the first 4 consecutive elements of a string

print(re.search(r"\w\w\w\w", "데이터_사이언스_랩 화이팅!").group())  # \w includes underbar as well

print(re.search(r"\w\w\w\w", "데이터-사이언스랩 화이팅!").group())   # \w does not consider "-" or " "

데이터사
데이터_
사이언스


In [6]:
print(re.search(r"\W\W\W\W", "데이터사이언스랩 화이팅!!!!").group())    # \W matches non-characters and non-numbers

print(re.findall(r"\W", "제 전화번호는 000-123-456 입니다."))          # \W includes blanks and hyphens

!!!!
[' ', ' ', '-', '-', ' ', '.']


---
**\d** (소문자 d)
- [0-9]에 포함되는 모든 숫자와 매칭

---
**\D**
- \d 의 여집합
- 숫자가 아닌 모든 문자와 매칭

---

In [7]:
print(re.findall(r"\d\d\d", "제 전화번호는 000-123-456 입니다."))    # \d matchs digits

print(re.findall(r"\d", "제 전화번호는 000-123-456 입니다."))        

['000', '123', '456']
['0', '0', '0', '1', '2', '3', '4', '5', '6']


In [8]:
print(re.findall(r"\D\D\D", "제 전화번호는 000-123-456 입니다."))       # 3 consecutive non-digits

print(re.findall(r"\D", "제 전화번호는 000-123-456 입니다."))           # Every non-digit element is returned

['제 전', '화번호', ' 입니']
['제', ' ', '전', '화', '번', '호', '는', ' ', '-', '-', ' ', '입', '니', '다', '.']


---

**\s**
- 문자열에서 모든 **빈칸**에 매칭
- 탭, 띄어쓰기, 줄바꿈 등

---
**\S**
- \s 의 여집합

---

In [9]:
print(re.findall(r"\s", "제 전화번호는 000-123-456 입니다."))          # \s matches white spaces

print(re.findall(r"\s", "\t 제 전화번호는 000-123-456 입니다."))     # \s includes tabs

print(re.findall(r"\s", "제 전화번호는 \n 000-123-456 입니다."))     # \s includes new lines

[' ', ' ', ' ']
['\t', ' ', ' ', ' ', ' ']
[' ', ' ', '\n', ' ', ' ']


## Quantifiers

---
**"+"**

- 1 or more
- "greedy quantifier" 라고 불림

---

**"?"** 
- 0 or 1

---
**"*"**
- 0 or more

---
**"{n,m}"**
- n~m 번 반복
- {,3}: 3번까지 반복
- {3,}: 최소 3번 이상 반복
- 패턴에 특정한 횟수를 지정하고 싶을 때 사용

In [10]:
string = "1 23 456 78910"

In [11]:
# example of using "+" quantifier
print(re.findall(r"\d+", string))        # one or more times of \d
print()

# example of using "?" quantifier
print(re.findall(r"\d?", string))        # zero or one time of \d
print()

# example of using "*" quantifier
print(re.findall(r"\d*", string))        # zero or more times of \d
print()

# example of using "{n,m}" quantifier
print(re.findall(r"\d{1,}", string))        # zero or more times of \d

['1', '23', '456', '78910']

['1', '', '2', '3', '', '4', '5', '6', '', '7', '8', '9', '1', '0', '']

['1', '', '23', '', '456', '', '78910', '']

['1', '23', '456', '78910']


## Example 1

In [12]:
# Example 1

sentence = '''
한ㆍ미ㆍ일 안보협력 강화는 바이든 행정부가 취할 동아시아 정책의 핵심 요소다.
조 바이든 대통령 당선인은 동맹국들과 연합해 중국의 부상을 억제하겠다는 구상을 이미 수차례 공개적으로 밝혔다.
이는 한ㆍ일 관계 개선이 바이든 행정부의 전략적 이해관계와 맞물릴 수밖에 없다는 뜻이기도 하다.
현재 한ㆍ일 간 갈등의 중심에는 반세기 이상 뇌관으로 작용해온 과거사 문제가 있다.
이 중 위안부 피해 문제, 강제징용 문제로 촉발된 일본의 수출 규제 및 한국의 한ㆍ일 군사정보보호협정(GSOMIAㆍ지소미아)과 관련해 전문가 34명의 의견을 물었다.

우선 위안부 문제와 관련, 바이든 행정부가 취할 입장을 묻자 “한ㆍ일 양자 간에 해결해야 할 문제로 미국이 쉽게 관여하지 않으려 할 것”이라는 답변이 38.2%(13명)로 가장 많았다. 
양기호 성공회대 일본학과 교수는 “미국은 양자 문제에 기본적으로 강하게 개입하지 않는다는 입장”이라며 “특히 위안부 문제는 미국 민주당이 중시하는 인권 문제이기 때문에 더욱 거리를 두고 한ㆍ일 양자가 자체 해결하는 데 방점을 찍을 것”이라고 말했다.

'''
sentence

'\n한ㆍ미ㆍ일 안보협력 강화는 바이든 행정부가 취할 동아시아 정책의 핵심 요소다.\n조 바이든 대통령 당선인은 동맹국들과 연합해 중국의 부상을 억제하겠다는 구상을 이미 수차례 공개적으로 밝혔다.\n이는 한ㆍ일 관계 개선이 바이든 행정부의 전략적 이해관계와 맞물릴 수밖에 없다는 뜻이기도 하다.\n현재 한ㆍ일 간 갈등의 중심에는 반세기 이상 뇌관으로 작용해온 과거사 문제가 있다.\n이 중 위안부 피해 문제, 강제징용 문제로 촉발된 일본의 수출 규제 및 한국의 한ㆍ일 군사정보보호협정(GSOMIAㆍ지소미아)과 관련해 전문가 34명의 의견을 물었다.\n\n우선 위안부 문제와 관련, 바이든 행정부가 취할 입장을 묻자 “한ㆍ일 양자 간에 해결해야 할 문제로 미국이 쉽게 관여하지 않으려 할 것”이라는 답변이 38.2%(13명)로 가장 많았다. \n양기호 성공회대 일본학과 교수는 “미국은 양자 문제에 기본적으로 강하게 개입하지 않는다는 입장”이라며 “특히 위안부 문제는 미국 민주당이 중시하는 인권 문제이기 때문에 더욱 거리를 두고 한ㆍ일 양자가 자체 해결하는 데 방점을 찍을 것”이라고 말했다.\n\n'

In [13]:
## 단어만 추출
print(re.findall("\w+", sentence))

['한ㆍ미ㆍ일', '안보협력', '강화는', '바이든', '행정부가', '취할', '동아시아', '정책의', '핵심', '요소다', '조', '바이든', '대통령', '당선인은', '동맹국들과', '연합해', '중국의', '부상을', '억제하겠다는', '구상을', '이미', '수차례', '공개적으로', '밝혔다', '이는', '한ㆍ일', '관계', '개선이', '바이든', '행정부의', '전략적', '이해관계와', '맞물릴', '수밖에', '없다는', '뜻이기도', '하다', '현재', '한ㆍ일', '간', '갈등의', '중심에는', '반세기', '이상', '뇌관으로', '작용해온', '과거사', '문제가', '있다', '이', '중', '위안부', '피해', '문제', '강제징용', '문제로', '촉발된', '일본의', '수출', '규제', '및', '한국의', '한ㆍ일', '군사정보보호협정', 'GSOMIAㆍ지소미아', '과', '관련해', '전문가', '34명의', '의견을', '물었다', '우선', '위안부', '문제와', '관련', '바이든', '행정부가', '취할', '입장을', '묻자', '한ㆍ일', '양자', '간에', '해결해야', '할', '문제로', '미국이', '쉽게', '관여하지', '않으려', '할', '것', '이라는', '답변이', '38', '2', '13명', '로', '가장', '많았다', '양기호', '성공회대', '일본학과', '교수는', '미국은', '양자', '문제에', '기본적으로', '강하게', '개입하지', '않는다는', '입장', '이라며', '특히', '위안부', '문제는', '미국', '민주당이', '중시하는', '인권', '문제이기', '때문에', '더욱', '거리를', '두고', '한ㆍ일', '양자가', '자체', '해결하는', '데', '방점을', '찍을', '것', '이라고', '말했다']


In [14]:
# 숫자만 추출
print(re.findall("\d+", sentence))

['34', '38', '2', '13']


In [15]:
# 숫자 + 단위 추출
print(re.findall("[\d]+[\.]?[\d]+[\D]?", sentence))

['34명', '38.2%', '13명']


In [16]:
# "미"가 포함된 단어 전부 추출

re.findall("[\S]*[미]+[\S]*", sentence)

['한ㆍ미ㆍ일', '이미', '군사정보보호협정(GSOMIAㆍ지소미아)과', '미국이', '“미국은', '미국']

In [17]:
# 한줄씩 출력  (\n 기준으로 분리)

re.findall(".+", sentence)

['한ㆍ미ㆍ일 안보협력 강화는 바이든 행정부가 취할 동아시아 정책의 핵심 요소다.',
 '조 바이든 대통령 당선인은 동맹국들과 연합해 중국의 부상을 억제하겠다는 구상을 이미 수차례 공개적으로 밝혔다.',
 '이는 한ㆍ일 관계 개선이 바이든 행정부의 전략적 이해관계와 맞물릴 수밖에 없다는 뜻이기도 하다.',
 '현재 한ㆍ일 간 갈등의 중심에는 반세기 이상 뇌관으로 작용해온 과거사 문제가 있다.',
 '이 중 위안부 피해 문제, 강제징용 문제로 촉발된 일본의 수출 규제 및 한국의 한ㆍ일 군사정보보호협정(GSOMIAㆍ지소미아)과 관련해 전문가 34명의 의견을 물었다.',
 '우선 위안부 문제와 관련, 바이든 행정부가 취할 입장을 묻자 “한ㆍ일 양자 간에 해결해야 할 문제로 미국이 쉽게 관여하지 않으려 할 것”이라는 답변이 38.2%(13명)로 가장 많았다. ',
 '양기호 성공회대 일본학과 교수는 “미국은 양자 문제에 기본적으로 강하게 개입하지 않는다는 입장”이라며 “특히 위안부 문제는 미국 민주당이 중시하는 인권 문제이기 때문에 더욱 거리를 두고 한ㆍ일 양자가 자체 해결하는 데 방점을 찍을 것”이라고 말했다.']

## Example 2

In [18]:
# Example 2

sentence2 = '''
Robots are branching out. A new prototype soft robot takes inspiration from plants by growing to explore its environment.

Vines and some fungi extend from their tips to explore their surroundings. 
Elliot Hawkes of the University of California in Santa Barbara 
and his colleagues designed a bot that works 
on similar principles. Its mechanical body 
sits inside a plastic tube reel that extends 
through pressurized inflation, a method that some 
invertebrates like peanut worms (Sipunculus nudus)
also use to extend their appendages. The plastic 
tubing has two compartments, and inflating one 
side or the other changes the extension direction. 
A camera sensor at the tip alerts the bot when it’s 
about to run into something.

In the lab, Hawkes and his colleagues 
programmed the robot to form 3-D structures such 
as a radio antenna, turn off a valve, navigate a maze, 
swim through glue, act as a fire extinguisher, squeeze 
through tight gaps, shimmy through fly paper and slither 
across a bed of nails. The soft bot can extend up to 
72 meters, and unlike plants, it can grow at a speed of 
10 meters per second, the team reports July 19 in Science Robotics. 
The design could serve as a model for building robots 
that can traverse constrained environments

This isn’t the first robot to take 
inspiration from plants. One plantlike 
predecessor was a robot modeled on roots.
'''

sentence2

'\nRobots are branching out. A new prototype soft robot takes inspiration from plants by growing to explore its environment.\n\nVines and some fungi extend from their tips to explore their surroundings. \nElliot Hawkes of the University of California in Santa Barbara \nand his colleagues designed a bot that works \non similar principles. Its mechanical body \nsits inside a plastic tube reel that extends \nthrough pressurized inflation, a method that some \ninvertebrates like peanut worms (Sipunculus nudus)\nalso use to extend their appendages. The plastic \ntubing has two compartments, and inflating one \nside or the other changes the extension direction. \nA camera sensor at the tip alerts the bot when it’s \nabout to run into something.\n\nIn the lab, Hawkes and his colleagues \nprogrammed the robot to form 3-D structures such \nas a radio antenna, turn off a valve, navigate a maze, \nswim through glue, act as a fire extinguisher, squeeze \nthrough tight gaps, shimmy through fly pape

In [19]:
# 특정 문자열 대체
s = re.sub("\n", "", sentence2)
s

'Robots are branching out. A new prototype soft robot takes inspiration from plants by growing to explore its environment.Vines and some fungi extend from their tips to explore their surroundings. Elliot Hawkes of the University of California in Santa Barbara and his colleagues designed a bot that works on similar principles. Its mechanical body sits inside a plastic tube reel that extends through pressurized inflation, a method that some invertebrates like peanut worms (Sipunculus nudus)also use to extend their appendages. The plastic tubing has two compartments, and inflating one side or the other changes the extension direction. A camera sensor at the tip alerts the bot when it’s about to run into something.In the lab, Hawkes and his colleagues programmed the robot to form 3-D structures such as a radio antenna, turn off a valve, navigate a maze, swim through glue, act as a fire extinguisher, squeeze through tight gaps, shimmy through fly paper and slither across a bed of nails. The

In [20]:
# 대문자가 포함된 단어만 추출
re.findall(r"[A-Z]+[\w]*", sentence2)

['Robots',
 'A',
 'Vines',
 'Elliot',
 'Hawkes',
 'University',
 'California',
 'Santa',
 'Barbara',
 'Its',
 'Sipunculus',
 'The',
 'A',
 'In',
 'Hawkes',
 'D',
 'The',
 'July',
 'Science',
 'Robotics',
 'The',
 'This',
 'One']

## Groups

- 정규표현식에 Grouping을 하면 그루핑된 문자열만 출력된다.
- 그루핑하는 방법: () 사용

In [21]:
string = 'John has 6 cats but I think my friend Susan has 3 dogs and Mike has 8 fishes while I have 2 turtles.'
string

'John has 6 cats but I think my friend Susan has 3 dogs and Mike has 8 fishes while I have 2 turtles.'

In [22]:
re.findall("[A-Za-z]+ \w+ \d+ \w+", string)

['John has 6 cats',
 'Susan has 3 dogs',
 'Mike has 8 fishes',
 'I have 2 turtles']

In [23]:
re.findall("([A-Za-z]+) \w+ \d+ \w+", string)          # 주어만 추출

['John', 'Susan', 'Mike', 'I']

In [24]:
re.findall("[A-Za-z]+ \w+ \d+ (\w+)", string)          # 목적어만 추출

['cats', 'dogs', 'fishes', 'turtles']

In [25]:
re.findall("([A-Za-z]+) \w+ (\d+) (\w+)", string)      # 동사 제외

[('John', '6', 'cats'),
 ('Susan', '3', 'dogs'),
 ('Mike', '8', 'fishes'),
 ('I', '2', 'turtles')]

In [26]:
info = re.findall("([A-Za-z]+) \w+ (\d+) (\w+)", string)

list(zip(*info))

[('John', 'Susan', 'Mike', 'I'),
 ('6', '3', '8', '2'),
 ('cats', 'dogs', 'fishes', 'turtles')]

## Compiling and naming pattern

In [27]:
string = 'John has 6 cats but I think my friend Susan has 3 dogs and Mike has 8 fishes while I have 2 turtles.'
pattern = re.compile("(?P<Name>[A-Za-z]+) \w+ (?P<number>[\d+]) (?P<animal>\w+)")

In [28]:
re.search(pattern, string)

<re.Match object; span=(0, 15), match='John has 6 cats'>

In [29]:
re.search(pattern, string)["animal"]

'cats'