# 정규표현식 사용하기

## 정규 표현식 사용하기

import re

### * **정규 표현식 함수**
findall : 일치하는 문자열을 리스트로 반환

split : 일치하는 문자열로 원재 문자열을 분할한 리스트로 반환

sub : 일치하는 문자열을 치환한 문자열을 반환

search : 일치하는 문자열이 있으면 Match 객체를 반환

### * **정규 표현식**
### ** Chapter1
. 줄바꿈 이외의 임의의 문자

... 줄바꿈 이외의 임의의 3문자 

^ 문자열의 시작

^... 문자열 시작에서 3문자 

$ 문자열의 끝

...$ 문자열 끝에서 3문자 

* 직전 정규표현식을 0회이상 반복

ab*c abc또는 ac에 일치

+ 직전 정규표현식을 1회이상 반복

ab+c abc에 일치

? 직전 정규표현식이 0~1회 존재

abcd? abc또는 abcd에 일치

| 둘 중 하나

ab|cd ab또는 cd에 일치

### ** Chapter2
(...) 소괄호 안을 그루핑

[...] 대괄호 안의 문자 중 하나

[^...] 대괄호 안의 문자 중 하나도 없음

x(ab|cd) x로 시작해 ab또는 cd에 일치 (ab|cd 그룹)

\ 직후 정규표션식 기호 무시

\ 에 일치

{n} 직전 정규표현식의 반복 횟수

{n,} 직전 정규표현식의 최소 반복 횟수

{n,m} 직전 정규표현식의 반복 횟수 범위

A{3} A가 3회 반복되면 일치

A{3, }A가 3회 이상 반복되면 일치

A{3, 6}A가 3~6회 이상 반복되면 일치

# [문자열 규칙에 r을 붙이는 이유]

정규표현식에서 문자열을 사용할 때는 앞에 r을 붙이는 것을 추천!

만약 문자열이 \문자가 있다면 파이썬은 그 다음 문자를 그대로 인식하지 않고, 

컴퓨터에게 명령하기 위한 명령어로 인식한다.

그렇기 때문에 \와 함께 사용하는 문자를 이스케이프문자라고 한다.

이스케이프 문자를 사용하고 싶지 않다면 \앞에 \를 하나 더 붙여서 \를 일반문자로 인식시키면되고

만약에 그렇게 하기 어렵다면 r을 붙이는 방법이 있다.

r을 붙이면 그 뒤에 나오는 문자열에 들어 있는 문자를 모두 일반 문자로 인식한다.

# findall 함수

* findall 함수를 사용하면 지정한 조건에 일치하는 문자열을 리스트로 얻을 수 있다.

* re.함수(r) -> raw문자열이라고 이스케이프가 필요한 메타 문자를 무시하는 효과가 있음
* 사용할 때는 앞에 r을 붙이는것이 좋음(필수는 아니나 권장사항)

In [2]:
# t로 시작하는 2글자만 가져오기

import re

text = "In the face of ambiguity, refuse the temptation to guess"
match_list = re.findall(r"t.", text)
print(match_list)

['th', 'ty', 'th', 'te', 'ta', 'ti', 'to']


In [3]:
# 숫자와 특수문자도 가져옴
text2 = 't1, t2, t3, t-, t#, t*'
match_list2 = re.findall(r't.', text2)
print(match_list2)

['t1', 't2', 't3', 't-', 't#', 't*']


# sub 함수

* replace처럼 대체 가능
* sub([대체해야 할 문자], [대체할 문자], [데이터])

In [6]:
import re

text = 'Beatiful is better than ugly'
replaced = re.sub(r' ', '_', text) 
print(replaced)

Beatiful_is_better_than_ugly


In [8]:
# 공백문자는 \s로도 쓰임
# 정규표현식에서는 \s로 쓰는 것이 권장사항
import re

text2 = 'Beatiful is better than ugly'
replaced2 = re.sub(r'\s', '', text2) 
print(replaced2)

Beatifulisbetterthanugly


# 텍스트 분할하기

In [9]:
# 정규표현식으로 텍스트 분할하기
# split함수를 사용하면 정규 표현식에 일치한 위치에서 분할한 문자열 리스트를 얻을 수 있다.
# ^ -> 문자의 시작을 표시
# + -> 직전 정규 표현식을 1회 이상 반복

text = 'Simple is Best'
replaced = re.split((r'[^a-zA-Z0-9]+'),text)
print(replaced)

# [^a-zA-Z0-9]+는 정규 표현식(regular expression)에서 사용되는 특수한 패턴
# 알파벳 대소문자와 숫자가 아닌 문자들이 하나 이상 연속해서 나타나는 경우를 의미
# 결국 공백을 구분자로 해서 분리

['Simple', 'is', 'Best']


In [11]:
# 위 코드에서 궁금해서 숫자를 넣어봄
# text에는 숫자가 있지만 ^+ 범위에 숫자가 없으니 결과물에 숫자는 안나옴
text = 'Simple is Best 123'
replaced = re.split((r'[^a-zA-Z]+'),text)
print(replaced)

['Simple', 'is', 'Best', '']


# 정규표현식에서의 그룹

In [17]:
# 정규표현식의 그룹은 데이터 분석할 때 자주 사용하는 기능
# 원하는 객체를 그루핑 할 수 있다라는 장점이 있다.

# 제품 -> [0-9]+
# 카탈로그 코드 -> [0-9A-Z]+
# 제품명 -> .*
# 구분 문자 -> 공백
#         ↓
# ([0-9]+) + ([ 0-9 A-Z]+) + (.*)

# 홈쇼핑이라고 생각했을 때
text = """
101 CF001 커피 
102 CF002 커피(대용량)
201 TE01 홍차
202 TE02 홍차(대용량)
"""
items = re.findall(r'([0-9]+) + ([0-9 A-Z]+) + (.*)', text)
print(items)

[]


In [18]:
# 이건 내가 궁금해서 한 번 해봄
# 앞에 ^를 붙였을 때 어떤 결과가 나올지?

text2 = """
101 CF001 커피 
102 CF002 커피(대용량)
201 TE01 홍차
202 TE02 홍차(대용량)
"""
items2 = re.findall(r'([^0-9]+) + ([^0-9 A-Z]+) + (.*)', text2)
print(items2)

# 왜 아무것도 나오지 않지?

[]


# 정규표현식에서 일치하는 부분 확인

In [20]:
# 정규표현식과 일치하는 부분 확인

# re 모듈의 serach함수는 정규표현식과 일치하는 첫 번째 위치 정보가 저장된 Match 객체를 반환
# Match 객체를 사용하면 일치하는 위치의 문자열과 함께 시작 및 종료 위치 정보 확보 가능

# match객체
# start , end , group, groups 튜플 그룹

import re

text = 'Error should never pass silently'

m_obj = re.search(r"p...", text)

print(m_obj.group()) # 일치 문자열 ()로 묶인 것인 없음
print(m_obj.start()) # 시작 인덱스
print(m_obj.end()) # 끝 인덱스

pass
19
23


In [25]:
# 1번 그룹 - n....  n 다음에 4글자가 아무거나
# 2번 그룹 - p...  n 다음에 3글자가 아무거나

import re

text = 'Error should never pass silently'

m_obj = re.search(r"(n....) (p...)", text)
print(m_obj.group())
print(m_obj.groups())

never pass
('never', 'pass')


# Greedy, Lazy 개념

In [27]:
# Greedy, Lazy 사용하기
# 정규표현식이 패턴에 일치하는 문자열을 추출할 때
# 일치하는 최대한의 범위를 추출하는 상태를 greedy(탐욕)이라고 한다.

# 최소한은 Lazy라고 하는데 파이썬은 기본적으로 greedy하지만
# ?를 붙이는 순간 Lazy해진다. 

import re

text = 'In the face of ambiguity, refuse the temptation to guess'

match_list = re.findall(r"t.*\s", text) # t로 시작하는 아무 문자를 공백 포함 추출
print(match_list)

# 결과를 보면 to 다음 공백까지 추출
# 공백까지 가져오라고 해서 마지막 공백까지 다 가져온 결과를 보임

['the face of ambiguity, refuse the temptation to ']


In [28]:
import re

text = 'In the face of ambiguity, refuse the temptation to guess'

match_list = re.findall(r"t.*?\s", text) # t로 시작하는 아무 문자를 공백까지 추출 -> ? 추가
print(match_list)

['the ', 'ty, ', 'the ', 'temptation ', 'to ']


# 정규표현식 실습


[우리가 자주 사용할 함수]

* findall - 일치하는 문자열을 리스트로 반환
* split - 일치하는 문자열로 원래 문자열을 분할한 리스트로 반환
* sub - 일치하는 문자열을 치환한 문자열을 반환
* search - 일치하는 문자열이 있으면 match 객체를 반환

[대표적인 정규표현식]

* . 줄바꿈 이외의 임의의 문자
* ^ 문자열 시작
* $ 문자열의 끝, 또는 문자열 끝 줄바꿈 직전
* * 직전 정규표현식은 0회 이상 반복
* + 직전 정규표현식을 1회 이상 반복
* ? 직전 정규표현식이 0회 또는 1회 존재

[자주 사용하는 문자 클래스]
## 꼭 기억해야할 정규표현식
* \d 숫자와 매치 [0-9]와 같다.
* \D 숫자가 아닌것과 매치 [^0-9]와 같다.

* \s whitespace문자와 매치 [ \t\n\r\f\v]와 같음. 맨앞의 빈칸은 공백을 의미
* \S whitespace문자가 아닌것과 매치 [^ \t\n\r\f\v]와 같음.

* \w 문자+숫자와 매치 [a-zA-Z0-9]와 같습니다.
* \W 문자+숫자가 아닌 문자와 매치 [^a-zA-Z0-9]와 같습니다.

* \ 메타 문자가 아닌 일반 문자 역슬래시와 매치. 매타 문자 앞에 W를 붙이면 일반문자를 위미

# 교안

In [32]:
# 교안에 있는 주소록 데이터

search_target = '''
hello world
hello  world
hello, world
Hello World

hello world hello

hello
hallo
hollo
heallo
yellow

Monday Tuesday Wednesday Thursday Friday Saturday Sunday

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567891011121314151617181920
aaabbcaaabbcabcabc
aaa bb c aaa bb c a b c a b c
aaa1bb2c3aaa4bb5c6

[123456]
123[456]789
abc[def]ghij

010-9091-5491
010-5043-2901
010-5050-40409
010-49492-3131
010 2913 3132
01019133829
064-721-3213
010.1913.3829


paul-korea@naver.com
paul@naver.com
leehojun@gmail.com
hojun.lee@gmail.com
test.test@go.go.go


https://github.com/LiveCoronaDetector/livecod
github.com/LiveCoronaDetector/livecod
https://github.com/LiveCoronaDetector

I never dreamed about success, I worked for it.
Do not be afraid to give up the good to go for the great.

hello (hello world) hello
hello \hello world// hello
^^
🙂

[(name, leehojun), (age, 10), (height, 180), (email, paul-lab@naver.com)]
{name : leehojun, age : 10, height : 180, email : paul-lab@naver.com}

가나다라마바사아자차카타파하
ㄱㄴㄷㄹㅁㅂㅅㅇㅈㅊㅋㅌㅍㅎ
안녕하세요
안녕-하세요
수사
수박
수상
동해 물과 백두산이 마르고 닳도록 하느님이 보호하사 우리나라 만세
'''

In [None]:
# 데이터가 잘 들어왔는지 확인해보기
print(search_target)

In [None]:
# 숫자 대표 정규표현식 - \d - 숫자만 표시
regex = r'\d'

# 글자 + 숫자 대표 정규표현식 - \w - 글자 + 숫자 표시
regex2 = r'\w'

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re
result = re.findall(regex, search_target)
result2 = re.findall(regex2, search_target)
print('\n'.join(result))
print('\n'.join(result2))

In [38]:
# 'hello' 단어 검색해보기
regex = r'hello'

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

hello
hello
hello
hello
hello
hello
hello
hello
hello
hello
hello
hello


In [39]:
# 맨 처음 글자(단어) -> ^
m1 = re.findall('^Life', 'Life is too short')
print('m1 결과 : ', m1)

m1 결과 :  ['Life']


In [40]:
# is 는 첫 단어가 아니기 때문에 아무것도 안뜸
m2 = re.findall('^is', 'Life is too short')
print('m2 결과 : ', m2)

m2 결과 :  []


In [41]:
# 맨 마지막 글자(단어)
m1 = re.findall("short$", "Life is too short")
m2 = re.findall("short$", "Life is too short. So what?")  # 이 문장은 마지막 단어가  what이기 때문에 결과값이 안나옴
 
print("m1 결과 : ", m1)
print("m2 결과 : ", m2)

m1 결과 :  ['short']
m2 결과 :  []


In [44]:
# 특정문자 1개를 .으로 표현해서 가져오기 -> 이 점은 공백도 포함함
# ema.l -> .에는 그 어떤 문자가 들어가도 괜찮으니까 ema.l에 맞는 5글자 단어 찾아줘
import re

regex = re.compile('ema.l')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

email
email


In [None]:
# 특정문자 6개 . (공백포함)
import re

regex = re.compile('......')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

In [47]:
# 여러가지 중에 택 1해서 찾기
# h와 llo사이에 a,e,y,o가 포함되는 4글자 단어 다 가져오기
import re

regex = re.compile(r'h[aeyo]llo')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

hello
hello
hello
hello
hello
hello
hallo
hollo
hello
hello
hello
hello
hello
hello


In [48]:
# 여러가지 중에 택 1해서 찾기
# h와 l사이에 a,e,y,o가 포함되고 l 다음에 2글자가 더 있는 단어 다 가져오기
import re

regex = re.compile(r'h[aeyo]l..')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

hello
hello
hello
hello
hello
hello
hallo
hollo
hello
hello
hello
hello
hello
hello


In [49]:
# 여러가지 중에 택 1해서 찾기 -> 대문자도 가져오고 싶다면? -> re.I 사용
# h와 l사이에 a,e,y,o가 포함되고 l 다음에 2글자가 더 있는 단어 다 가져오기
import re

regex = re.compile(r'h[aeyo]l..', re.I)  # 끝에 re.I 를 붙이면 대문자도 가져옴

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

hello
hello
hello
Hello
hello
hello
hello
hallo
hollo
hello
hello
hello
hello
hello
hello


In [50]:
# 여러가지 중에 택 1해서 찾기
# h와 l사이에 a-f 사이 중 1개가 포함되고 l 다음에 2글자가 더 있는 단어 다 가져오기
import re

regex = re.compile(r'h[a-f]l..')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

hello
hello
hello
hello
hello
hello
hallo
hello
hello
hello
hello
hello
hello


In [None]:
# 모든 글자와 숫자 -> a-z A-Z 0-9 가-힣
import re

regex = re.compile(r'[a-zA-Z0-9가-힣]')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

In [None]:
# 지정한 범위가 아닌 것들을 보여줘 -> ^
import re

regex = re.compile(r'[^a-zA-Z0-9가-힣]')  # ^ 추가

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

# 서브패턴

소괄호를 사용하면 정규식 일부 패턴을 그룹화 할 수 있다.

이 정규식 그룹은 그룹 캡처기능이라고 불리는데 정규식 그룹은 번호가 매겨진 캡처그룹을 생성하고, 괄호안에 정규식 부분과 일치하는 문자열을 저장한다.
그 캡처 번호를 사용하여 문자열 부분을 불러와 사용할 수 있다.

주의할 점은 캡처에 정규식 패턴이 저장된다고 착각할 수 있지만
캡처는 패턴으로 찾은 문자열을 저장한다.
 
?:는 그룹이지만 캡처를 저장하지 않음

In [None]:
# 빈칸에 정규표현식을 적는다.
# on, use, rida가 포함된 단어 찾기

regex = re.compile('(on|ues|rida)') # 그룹 1로 3개 중 매칭되는 패턴

# 그룹 안에 매칭이 된 것만 출력이 되는 형태

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re
result = re.findall(regex, search_target)
print("\n".join(result))

In [55]:
# 끝에 day를 추가했을 때 (다른 단어 추가 시)

regex = re.compile('(Mon|Tues|Fri)day')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re
result = re.findall(regex, search_target)
print("\n".join(result))

# 출력될 때는 그룹 안에 있는 값으로만 출력됨

Mon
Tues
Fri


In [56]:
# 결과값을 단어 자체로 가져오고 싶을 때 -> ?:

regex = re.compile('(?:Mon|Tues|Fri)day')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re
result = re.findall(regex, search_target)
print("\n".join(result))

# ?: -> 그룹이 깨져서 그룹 안의 값이 아니라 원래 해당 데이터 값으로 결과가 나옴

Monday
Tuesday
Friday


In [58]:
# 서브패턴

import re

text = 'tomato potato'

p1 = '(tom|pot)ato'   # 그룹으로 묶인 상태
p2 = '(?:tom|pot)ato'  # ?:로 그룹 해제된 상태

m1 = re.findall(p1, text)
m2 = re.findall(p2, text)

print('m1 결과 : ', m1)  # 그룹으로 묶인건 그 단어 (tom|pot)를 출력
print('m2 결과 : ', m2)  # ?:으로 그룹을 해제시켰으니 원래 있던 데이터 값이 출력

m1 결과 :  ['tom', 'pot']
m2 결과 :  ['tomato', 'potato']


In [60]:
# 수량자

# 빈 칸에 정규표현식을 적는다.
regex = re.compile('[0-9]{3}[-.* ][0-9]{4}[-.* ][0-9]{4}')  # 이 범위는 무엇을 나타내는걸까? 생각해보기

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

# 1. [0에서 9까지]{3개}[- 나 . 앞에 있는 문자 0~N개]
# 2. [0에서 9까지]{4개}[- 나 . 앞에 있는 문자 0~N개]
# 3. [0에서 9까지]{4개}[- 나 .]

010-9091-5491
010-5043-2901
010-5050-4040
010 2913 3132
010.1913.3829


In [62]:
# 수량자

# 이메일 주소 가져오기
regex = re.compile('[0-9a-zA-Z]+@[0-9a-zA-Z]+.[a-zA-Z]+')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

korea@naver.com
paul@naver.com
leehojun@gmail.com
lee@gmail.com
test@go.go
lab@naver.com
lab@naver.com


In [None]:
# 캐릭터 클래스

regex = re.compile('\W')  # 글자(영어)가 아닌 것 -> \W (대문자!)
regex2 = re.compile('\D')  # 숫자가 아닌 것 -> \D (대문자!)
regex2 = re.compile('\S')  # 공백이 아닌 것 -> \S (대문자!)

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
result2 = re.findall(regex2, search_target)
print("\n".join(result))
print("\n".join(result2))

In [65]:
# 이스케이프 문자

# 빈 칸에 정규표현식을 적는다.
regex = re.compile('\[.*]')  # 대괄호도 하나의 문자로 인식해서 찾기

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

# 결과값에 [] 대괄호도 같이 나오게 됨

[123456]
[456]
[def]
[(name, leehojun), (age, 10), (height, 180), (email, paul-lab@naver.com)]


In [66]:
# 이스케이프 문자를 사용할 필요 없는 경우

# 빈 칸에 정규표현식을 적는다.
regex = re.compile('-.*-')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

-9091-
-5043-
-5050-
-49492-
-721-


In [67]:
# 이스케이프 문자가 필요한 경우

# 빈 칸에 정규표현식을 적는다.
regex = re.compile('\^\^')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))

^^


In [70]:
# 이스케이프 문자가 필요한 경우

# 빈 칸에 정규표현식을 적는다.
regex = re.compile(':\)')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
import re

result = re.findall(regex, search_target)
print("\n".join(result))




# 정규표현식 실습하기

In [72]:
# 논문에 대한 참고자료에 대한 인용구를 쉽게 모으고 싶을 때

import re

example = '앞서 논문은 이러한 연구를 진행하였습니다(홍길동, 2019). 하지만 그런 것들을 개량하여 다음 논문이 나오게 되었고(임꺽정, 2020), 마지막으로 두가지를 모두 결합한 새로운 연구가 개발되었습니다.(심청이, 2021)'

In [73]:
print(example)

앞서 논문은 이러한 연구를 진행하였습니다(홍길동, 2019). 하지만 그런 것들을 개량하여 다음 논문이 나오게 되었고(임꺽정, 2020), 마지막으로 두가지를 모두 결합한 새로운 연구가 개발되었습니다.(심청이, 2021)


In [76]:
# 여기서 인용구만 빼고 싶으면 다음과 같이 사용할 수 있음

result = re.findall(r'\([A-Za-z가-힣]+, \d+\)', example)
print(result)

# 괄호 앞에 \를 붙여서 ()도 문자열로 인식하도록 함
# A-Za-z가-힣 -> 영어, 한글 모두 가져옴
# \d -> 숫자를 가져옴
#  +  -> 1개 이상의
# \d+\  -> 1개 이상의 숫자를 가져옴

['(홍길동, 2019)', '(임꺽정, 2020)', '(심청이, 2021)']


In [77]:
# 정규표현식에서 .는 모든 문자를 의미하죠? 
# 그래서 필요한 문자 외에 다른 문자들도 집어삼켜버립니다.

# 만약에 이런 글을 썼다고 해보죠
import re
example = '저희 첫째아들은 2020년에 태어났구요. 저희 둘째 아들은 23년에 태어났는데 셋째는 26년에 가질 예정이에요'

re.findall(r'\d.+년', example)

# 2020년만 나오는게 아니라 example의 문장에서 마지막 '년'까지 결과값을 반환

['2020년에 태어났구요. 저희 둘째 아들은 23년에 태어났는데 셋째는 26년']

In [78]:
# 연도만 가져오고 싶을 때 1
import re
example = '저희 첫째아들은 2020년에 태어났구요. 저희 둘째 아들은 23년에 태어났는데 셋째는 26년에 가질 예정이에요'

re.findall(r'\d.+?년', example)

['2020년', '23년', '26년']

In [79]:
# 연도만 가져오고 싶을 때 2
import re
example = '저희 첫째아들은 2020년에 태어났구요. 저희 둘째 아들은 23년에 태어났는데 셋째는 26년에 가질 예정이에요'

re.findall(r'\d+.년', example)

['2020년', '23년', '26년']

In [80]:
# split

sentense = '나는 집에 갔습니다. 그리고 밥을 먹었어요. 또 청소를 했어요. 그리고 잠을 잤어요.'

re.split(r'[.]', sentense)

['나는 집에 갔습니다', ' 그리고 밥을 먹었어요', ' 또 청소를 했어요', ' 그리고 잠을 잤어요', '']

In [81]:
# , ;

data = 'a:3;b:4;c:5'
for i in re.split(r';', data) :
  print(i)

a:3
b:4
c:5


In [93]:
data = 'a:3;b:4;c:5'

for i in re.split(r';', data) :
  print(re.split(r':', i))

['a', '3']
['b', '4']
['c', '5']


In [83]:
sentence = '나는 동물 키우는것을 좋아합니다. 그 중 강아지를 키우는데 이름은 꽃님이에요. 날씨가 화창한 날이면 꽃님이와 산책가고 싶어져요'
print(sentence)

나는 동물 키우는것을 좋아합니다. 그 중 강아지를 키우는데 이름은 꽃님이에요. 날씨가 화창한 날이면 꽃님이와 산책가고 싶어져요


In [84]:
re.sub(r'꽃님이', '또리', sentence)

'나는 동물 키우는것을 좋아합니다. 그 중 강아지를 키우는데 이름은 또리에요. 날씨가 화창한 날이면 또리와 산책가고 싶어져요'

In [88]:
# 만약에 다음과 같이 공백이 있으면 어떻게 처리하면 좋을까요 공백만 다 제거해도 좋을거같아요
sentence = '\n\n 나는 동물 키우는것을 좋아합니다. \n\n 그 중 강아지를 키우는데 이름은 꽃님이에요. \n\n날씨가 화창한 날이면 꽃님이와 산책가고 싶어져요 \n\n'
print(sentence)



 나는 동물 키우는것을 좋아합니다. 

 그 중 강아지를 키우는데 이름은 꽃님이에요. 

날씨가 화창한 날이면 꽃님이와 산책가고 싶어져요 




In [89]:
# 실제로 내가 띄워놓았던 공백을 제외하고는 모든 공백이 처리된것을 볼 수 있어요
print(re.sub('\n', '', sentence))

 나는 동물 키우는것을 좋아합니다.  그 중 강아지를 키우는데 이름은 꽃님이에요. 날씨가 화창한 날이면 꽃님이와 산책가고 싶어져요 
