#### 정규 표현식
- 특정한 패턴과 일치하는 문자열을 검색, 치환, 제거하는 기능을 지원
- re 모듈 사용
    - match(), search(), findall(), finditer() ...
    - [a-zA-Z] : 모든 알파벳 패턴
    - . : \n 을 제외한 모든 문자
    - * : 0 ~ 무한대, + : 1 ~ 무한대, ? : 0 ~ 1, {2} , {2,10}

In [2]:
import re
from openpyxl import load_workbook

# 검색할 패턴 작성
pattern = re.compile("D.A")

# 원본 문자열
origin = "DAA"

# 원본 문자열과 패턴이 일치하는지 확인
result = pattern.search(origin)
print(result)
# 매치 객체로 반환 : <re.Match object; span=(0, 3), match='DAA'>
print("패턴 시작 위치 ", result.start())
print("패턴 끝나는 위치 ", result.end())
print("re와 일치하는 문자열 반환 ", result.group())
print("패턴 위치 ", result.span())

<re.Match object; span=(0, 3), match='DAA'>
패턴 시작 위치  0
패턴 끝나는 위치  3
re와 일치하는 문자열 반환  DAA
패턴 위치  (0, 3)


In [4]:
origin = "d0A D1A 0111"

# 원본 문자열과 패턴이 일치하는지 확인
result = pattern.search(origin)
print(result)
# <re.Match object; span=(4, 7), match='D1A'>

<re.Match object; span=(4, 7), match='D1A'>


In [5]:
re.search(r"D.A", "DAA")

<re.Match object; span=(0, 3), match='DAA'>

In [7]:
# 개수지정
# ? 
pattern = re.compile("D?A")
# D 가 최소 0, 최대 1 개 가능 이후 A 문자가 있어야 함
print(pattern.search("A"))
print(pattern.search("DA"))
print(pattern.search("AA"))

<re.Match object; span=(0, 1), match='A'>
<re.Match object; span=(0, 2), match='DA'>
<re.Match object; span=(0, 1), match='A'>


In [11]:
# *
pattern = re.compile("D*A")
# D 가 최소 0, 최대 무한대 가능 이후 A 문자가 있어야 함
print(pattern.search("A"))
print(pattern.search("DA"))
print(pattern.search("DDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDAA"))

<re.Match object; span=(0, 1), match='A'>
<re.Match object; span=(0, 2), match='DA'>
<re.Match object; span=(0, 44), match='DDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDA'>


In [12]:
# +
pattern = re.compile("D+A")
# D 가 최소 1, 최대 무한대 가능 이후 A 문자가 있어야 함
print(pattern.search("A"))
print(pattern.search("DA"))
print(pattern.search("DDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDAA"))

None
<re.Match object; span=(0, 2), match='DA'>
<re.Match object; span=(0, 44), match='DDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDA'>


In [13]:
# {}
pattern = re.compile("AD{2}A")
# D 가 최소 2, 최대 2 개만 앞뒤로 A 문자가 있어야 함
print(pattern.search("ADA"))
print(pattern.search("ADDA"))
print(pattern.search("ADDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDAA"))

None
<re.Match object; span=(0, 4), match='ADDA'>
None


In [16]:
# {}
pattern = re.compile("AD{2,6}A")
# D 가 최소 2, 최대 6 개만 앞뒤로 A 문자가 있어야 함
print(pattern.search("ADA"))
print(pattern.search("ADDA"))
print(pattern.search("ADDDAA"))

None
<re.Match object; span=(0, 4), match='ADDA'>
<re.Match object; span=(0, 5), match='ADDDA'>


In [17]:
# 범위지정
pattern = re.compile("[ABCDEFGabcdefg]")
print(pattern.search("aa1234"))
print(pattern.search("A4567"))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='A'>


In [20]:
# pattern = re.compile("[A-Ga-g]") # 상단 조건과 동일
pattern = re.compile("[A-Ga-g]+") # 연속된 것도 조회
print(pattern.search("aa1234"))
print(pattern.search("A4567"))

<re.Match object; span=(0, 2), match='aa'>
<re.Match object; span=(0, 1), match='A'>


In [26]:
pattern = re.compile("[A-Za-z0-9]+") # 영문자와 숫자 조회
print(pattern.search("aa1234"))
print(pattern.search("A4567"))
print(pattern.search("4567AA"))

<re.Match object; span=(0, 6), match='aa1234'>
<re.Match object; span=(0, 5), match='A4567'>
<re.Match object; span=(0, 6), match='4567AA'>


In [24]:
# [^] : 제외범위 지정
pattern = re.compile("[^A-Za-z0-9]+") # 연속된 것도 조회
print(pattern.search("aa1234"))
print(pattern.search("A4567"))

None
None


In [27]:
pattern = re.compile("[가-힣]+") # 한글 조회
print(pattern.search("aa1234대한민국"))
print(pattern.search("A백두산4567"))

<re.Match object; span=(6, 10), match='대한민국'>
<re.Match object; span=(1, 4), match='백두산'>


In [28]:
pattern = re.compile("[a-z]+")
print(pattern.search("aa1234대한민국"))
print(pattern.match("aa1234대한민국"))

<re.Match object; span=(0, 2), match='aa'>
<re.Match object; span=(0, 2), match='aa'>


In [30]:
# sub() 패턴이 있는 위치의 문자열 바꾸기
origin = "DDA D1A DDA DA"
# re.sub(패턴, 바꿀문자열, 원본문자열)
print(re.sub("D.A", "Dave", origin))

Dave Dave Dave DA


In [32]:
# 패턴.sub(바꿀문자열, 원본문자열)
pattern = re.compile("D.A")
pattern.sub("Dave", origin)
# 원본 자체가 변경되진 않음
print(origin)

DDA D1A DDA DA


In [34]:
# findall() : 표현식과 매칭되는 문자들을 리스트로 반환
pattern = re.compile("[a-z]+")
origin = "Game of Life in Python"

pattern.findall(origin)
for w in pattern.findall(origin):
    print(w)

ame
of
ife
in
ython


In [35]:
# 매칭 객체로 가져옴
for w in pattern.finditer(origin):
    print(w)

<re.Match object; span=(1, 4), match='ame'>
<re.Match object; span=(5, 7), match='of'>
<re.Match object; span=(9, 12), match='ife'>
<re.Match object; span=(13, 15), match='in'>
<re.Match object; span=(17, 22), match='ython'>


In [36]:
# split() : 패턴을 기준으로 주어진 문자열을 리스트로 반환
pattern = re.compile(":")
pattern.split("python:java:javascript")

['python', 'java', 'javascript']

In [43]:
# VS를 기준으로 문자열 나누기
origin = "python VS java"
pattern = re.compile("VS")
list1 = pattern.split(origin)
print(list1)
for no in list1:
    print(no.split())

# - 기호를 * 로 바꿔서 출력
jumin = "801210-1011323"
pattern = re.compile("-")
print(pattern.sub("*", jumin))

['python ', ' java']
['python']
['java']
801210*1011323


In [53]:
# data_kr 엑셀 읽기
# 주민번호 뒷자리를 *로 바꿔서 보여주기

from openpyxl import load_workbook
excel_file = load_workbook("./file/data_kr.xlsx")
work_sheet = excel_file.active

pattern = re.compile(r"[0-9]{7}")
for row in work_sheet.rows:
    print(re.sub(pattern, "*******", row[1].value))

excel_file.close()

주민등록번호
800215-*******
821030-*******
841230-*******
790903-*******
800125-*******
820612-*******


In [54]:
origin = "<b>아이폰</b>"
# +? 또는 *? : 최소화시켜서 매칭하도록 시킴
# 크롤링한 웹페이지 데이터 태그 정리용도로 사용
pattern = re.compile(r"<.*?>")
pattern.search(origin)

<re.Match object; span=(0, 10), match='<b>아이폰</b>'>

In [77]:
import requests
from bs4 import BeautifulSoup

res = requests.get("https://www.naver.com")
soup = BeautifulSoup(res.text, "lxml")

# h 로 시작하는 모든 태그 조회
print(soup.find_all(string = re.compile(r"h\d")))

# 이미지 요소 찾기
soup.find_all("img", attrs = {"src":re.compile(r".+\.jpg|png")})

['\nwindow["EAGER-DATA"] = window["EAGER-DATA"] || {};\nwindow["EAGER-DATA"]["PC-FEED-WRAPPER"] = {"@type":"BLOCK","blocks":[{"@type":"BLOCK","blocks":[{"@type":"PC-FEED-BLOCK","materials":[{"@type":"MATERIAL-PC-FEED","title":"화산귀환","url":"https://comic.naver.com/webtoon/list?titleId=769209","image":{"url":"https://s.pstatic.net/dthumb.phinf/?src=%22https%3A%2F%2Fshared-comic.pstatic.net%2Fthumb%2Fwebtoon%2F769209%2Fthumbnail%2Fthumbnail_IMAG21_3511dcdd-6e33-4171-8839-598d6d266215.jpg%22&type=nf216_280&service=navermain"},"desc":"LICO / 비가","webtoonIcon":{"newest":false,"adult":false,"up":true,"dailyPass":false,"seriesEdition":false},"showLiveBadge":false,"_id":"654ad80598c6dbca70ba6c64"},{"@type":"MATERIAL-PC-FEED","title":"2024 내일 뭐 입지?","url":"https://comic.naver.com/webtoon/list?titleId=823999","image":{"url":"https://s.pstatic.net/dthumb.phinf/?src=%22https%3A%2F%2Fshared-comic.pstatic.net%2Fthumb%2Fwebtoon%2F823999%2Fthumbnail%2Fthumbnail_IMAG21_db3ba875-37f1-4d05-a7c9-73d9bb43fc

[]

In [92]:
# data_kr 엑셀 읽기
# 주민번호 뒷자리를 *로 바꿔서 보여주기


excel_file = load_workbook("./file/train.xlsx")
work_sheet = excel_file.active
pattern = re.compile(r"Mr\.")
# print(work_sheet["D"])
for row in work_sheet.rows:
    if len(pattern.findall(row[3].value)) > 0 :
        if pattern.findall(row[3].value)[0].strip() == "Mr.":
            print(row[3].value)
    # print(pattern.search(row.value), row.value)

# pattern = re.compile(r"[0-9]{7}")
# for row in work_sheet.rows:
#     print(re.sub(pattern, "*******", row[1].value))

excel_file.close()

Braund, Mr. Owen Harris
Allen, Mr. William Henry
Moran, Mr. James
McCarthy, Mr. Timothy J
Saundercock, Mr. William Henry
Andersson, Mr. Anders Johan
Williams, Mr. Charles Eugene
Fynney, Mr. Joseph J
Beesley, Mr. Lawrence
Sloper, Mr. William Thompson
Emir, Mr. Farred Chehab
Fortune, Mr. Charles Alexander
Todoroff, Mr. Lalio
Wheadon, Mr. Edward H
Meyer, Mr. Edgar Joseph
Holverson, Mr. Alexander Oskar
Mamee, Mr. Hanna
Cann, Mr. Ernest Charles
Kraeff, Mr. Theodor
Rogers, Mr. William John
Lennon, Mr. Denis
Samaan, Mr. Youssef
Nosworthy, Mr. Richard Cater
Ostby, Mr. Engelhart Cornelius
Woolner, Mr. Hugh
Novel, Mr. Mansouer
Sirayanian, Mr. Orsen
Harris, Mr. Henry Birkhardt
Stewart, Mr. Albert A
Crease, Mr. Ernest James
Kink, Mr. Vincenz
Jenkin, Mr. Stephen Curnow
Hood, Mr. Ambrose Jr
Chronopoulos, Mr. Apostolos
Bing, Mr. Lee
Moen, Mr. Sigurd Hansen
Staneff, Mr. Ivan
Moutal, Mr. Rahamin Haim
Waelens, Mr. Achille
Sheerlinck, Mr. Jan Baptist
Carrau, Mr. Francisco M
Ford, Mr. William Neal
Slocovs

In [None]:
# Mr. ==> 남성, Miss. ==> 미혼 여성, Mrs. ==> 기혼여성, X
from openpyxl import Workbook

excel_file = load_workbook("./file/train.xlsx")
work_sheet = excel_file.active

# 새 엑셀파일 작성
wb = Workbook()

# 시트 생성
work_sheet_man = wb.active
work_sheet_man.title = "남성"
work_sheet_man.column_dimensions["D"].width = 70

work_sheet_woman = wb.create_sheet(title="기혼여성")
work_sheet_woman.column_dimensions["D"].width = 70
work_sheet_solo_woman = wb.create_sheet(title="미혼여성")
work_sheet_solo_woman.column_dimensions["D"].width = 70
work_sheet_others = wb.create_sheet(title="기타")
work_sheet_others.column_dimensions["D"].width = 70

pattern = re.compile(r" [A-Za-z]+\.")

survive_man, death_man = 0, 0
survive_woman, death_woman = 0, 0
survive_solo_woman, death_solo_woman = 0, 0
survive_others, death_others = 0, 0

# list1 = []
for row in work_sheet.rows:
    if pattern.search(row[3].value):
        data = pattern.search(row[3].value)
        print(data.group())

    # 제목행 옮기기
    if row[0].row == 1:
        # for title in row:
        #     list1.append(title.value)

        # work_sheet_man.append(list1)
        # work_sheet_woman.append(list1)
        # work_sheet_solo_woman.append(list1)
        # work_sheet_others.append(list1)

        work_sheet_man.append([title.value for title in row])
        work_sheet_woman.append([title.value for title in row])
        work_sheet_solo_woman.append([title.value for title in row])
        work_sheet_others.append([title.value for title in row])

    else:
        if data:
            if data.group() == " Mr.":
                work_sheet_man.append([col.value for col in row])
                # survived 컬럼 값이 1(생존) or 0(사망)
                if row[1].value == 1:
                    survive_man += 1
                else:
                    death_man += 1
            elif data.group() == " Mrs.":
                work_sheet_woman.append([col.value for col in row])
                if row[1].value == 1:
                    survive_woman += 1
                else:
                    death_woman += 1
            elif data.group() == " Miss.":
                work_sheet_solo_woman.append([col.value for col in row])
                if row[1].value == 1:
                    survive_solo_woman += 1
                else:
                    death_solo_woman += 1
            else:
                work_sheet_others.append([col.value for col in row])
                if row[1].value == 1:
                    survive_others += 1
                else:
                    death_others += 1

# 보고서 작성
work_sheet_report = wb.create_sheet(title="보고서")
work_sheet_report.append(["분류", "생존자수", "사망자수", "생존률"])

man_survived_rate = "%.2f%%" % (survive_man/(survive_man+death_man)*100)
work_sheet_report.append(["남성", survive_man, death_man, man_survived_rate])
solo_woman_survived_rate = "%.2f%%" % (survive_solo_woman/(survive_solo_woman+death_solo_woman)*100)
work_sheet_report.append(["미혼여성", survive_solo_woman, death_solo_woman, solo_woman_survived_rate])
woman_survived_rate = "%.2f%%" % (survive_woman/(survive_woman+death_woman)*100)
work_sheet_report.append(["기혼여성", survive_woman, death_woman, woman_survived_rate])
others_survived_rate = "%.2f%%" % (survive_others/(survive_others+death_others)*100)
work_sheet_report.append(["기타", survive_others, death_others, others_survived_rate])


wb.save("./file/train_gender.xlsx")
wb.close()
excel_file.close()