### 정규식(Regular expressions, Regex, Regexp)

In [1]:
import re

In [2]:
# re.search()함수를 사용하면 두 번째 매개변수의 문자열이 첫 번째 매개변수의 정규 표현식과 매칭되는지 확인 가능
# 매칭되는 경우 Match 객체를 반환, 매칭되지 않는 경우 None을 반환
re.search(r'a.*c', 'abc123DEF')

<re.Match object; span=(0, 3), match='abc'>

In [3]:
# 다음 예는 정규 표현식에 맞지 않으므로 None을 반환
result = re.search(r'a.*D', 'abc123DEF')

In [4]:
start, end = result.span()
print(start, end)
print(result.string)

0 7
abc123DEF


In [5]:
# re.IGNORECASE(또는 re.I)를 지정하면 대소문자를 무시
re.search(r'a.*d', 'abc123DEF', re.IGNORECASE)

<re.Match object; span=(0, 7), match='abc123D'>

In [6]:
# Match 객체의 group() 메서드로 일치한 값을 추출
# 매개변수에 0을 지정하면 매치된 모든 값을 반환
m = re.search(r'a(.*)c', 'abc123DEFaddc')
m.group(0)

'abc123DEFaddc'

In [7]:
# 매개변수에 1 이상의 숫자를 지정하면 정규 표현식에서 0로 감싼 부분에 해당하는 값을 추출
# 1이라면 1번째 그룹, 2라면 2번째 그룹 추출
m.group(1)

'bc123DEFadd'

In [8]:
# re.findall() 함수를 사용하면 정규 표현식에 맞는 모든 문자열을 리스트 타입으로 추출 가능
# 다음 예에서는 2글자 이상의 단어를 모두 추출
# \w는 유니코드로 글자를 비교, 공백 문자는 \s 등으로 추출할 수 있습니다.
re.findall(r'\w{2,3}', 'This is a pen')

['Thi', 'is', 'pen']

In [9]:
# re.subO()함수를 사용하면 정규 표현식에 매칭되는 문자열 치환
# 3번째 매개변수에 넣은 문자열에서 첫 번째 정규 표현식에 매칭되는 문자열을 2번째 매개변수 문자열로 치환
re.sub(r'\w{4}', 'That', 'This is a pen')

'That is a pen'

In [10]:
result = re.search(r'a.*c', ' abc123DEF')
result

<re.Match object; span=(1, 4), match='abc'>

In [11]:
# match는 시작부터 일치하는지를 검사, search는 매칭되는 위치가 어디인지 탐색
result = re.match(r'a.*c', 'abc123DEF')
result

<re.Match object; span=(0, 3), match='abc'>

---

### 1. 정규 표현식을 이용한 스크래핑

In [12]:
import re
from html import unescape

In [13]:
# 이전 절에서 다운로드한 파일을 열고 html이라는 변수에 저장
with open('dp.html', encoding='utf-8') as f:
    html = f.read()

In [14]:
re.findall(r'<td class="left"><a.*?</td>', html, re.DOTALL)

['<td class="left"><a href="/store/books/look.php?p_code=B9923613168">모바일 UX/UI 디자인 강의 with Adobe XD</a></td>',
 '<td class="left"><a href="/store/books/look.php?p_code=B9037188841">방구석 심리학 실험실</a></td>',
 '<td class="left"><a href="/store/books/look.php?p_code=B8955111301">스파크를 이용한 자연어 처리</a></td>',
 '<td class="left"><a href="/store/books/look.php?p_code=B6758255857">클라우드 네이티브를 위한 데이터 센터 네트워크 구축</a></td>',
 '<td class="left"><a href="/store/books/look.php?p_code=B9737048306">감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나</a></td>',
 '<td class="left"><a href="/store/books/look.php?p_code=B1833400260">쉽게 배우고 익히는 회계원리[객관식/학습문제 해답]&#40;4판&#41;</a></td>',
 '<td class="left"><a href="/store/books/look.php?p_code=B9009516784">미래조직을 위한 조직설계의 이해&#40;4판&#41;</a></td>',
 '<td class="left"><a href="/store/books/look.php?p_code=B7533828722">쉽게 배우고 익히는 회계원리&#40;4판&#41;</a></td>',
 '<td class="left"><a href="/store/books/look.php?p_code=B7970422863">fastai와 파이토치가 만나 꽃피운 딥러닝</a></td>',
 '<td class="left"><a h

In [15]:
# re.findall() 메서드를 통해 도서 하나에 해당하는 HTML을 추출
for partial_html in re.findall(r'<td class="left"><a.*?</td>', html, re.DOTALL):
    # 도서의 URL을 추출
    url = re.search(r'<a href="(.*?)">', partial_html).group(1)
    url = 'http://www.hanbit.co.kr' + url
    # 태그를 제거해서 도서의 제목을 추출
    title = re.sub(r'<.*?>', '', partial_html)
    title = unescape(title)
    print('url:', url)
    print('title:', title)
    print('---')

url: http://www.hanbit.co.kr/store/books/look.php?p_code=B9923613168
title: 모바일 UX/UI 디자인 강의 with Adobe XD
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B9037188841
title: 방구석 심리학 실험실
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B8955111301
title: 스파크를 이용한 자연어 처리
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B6758255857
title: 클라우드 네이티브를 위한 데이터 센터 네트워크 구축
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B9737048306
title: 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B1833400260
title: 쉽게 배우고 익히는 회계원리[객관식/학습문제 해답](4판)
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B9009516784
title: 미래조직을 위한 조직설계의 이해(4판)
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B7533828722
title: 쉽게 배우고 익히는 회계원리(4판)
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code=B7970422863
title: fastai와 파이토치가 만나 꽃피운 딥러닝
---
url: http://www.hanbit.co.kr/store/books/look.php?p_code

### 2. XML을 이용한 스크래핑

* RSS 스크래핑

In [16]:
# ElementTree 모듈을 로드
from xml.etree import ElementTree

In [17]:
# parse() 함수로 파일을 읽고 ElementTree 객체를 생성
tree = ElementTree.parse('rss.xml')

In [18]:
# getroot() 메서드로 XML의 루트 element를 추출
root = tree.getroot()

In [19]:
import pandas as pd

In [20]:
데이터프레임_리스트 = []
for item in root.findall('channel/item/description/body/location/data'):
    # find() 메서드로 element 탐색, text 속성으로 값을 추출
    tm_ef = item.find('tmEf').text
    tmn = item.find('tmn').text
    tmx = item.find('tmx').text
    wf = item.find('wf').text
    데이터프레임 = pd.DataFrame({
        '일시':[tm_ef],
        '최저기온':[tmn],
        '최고기온':[tmx],
        '날씨':[wf],
    })
    데이터프레임_리스트.append(데이터프레임)
날씨정보 = pd.concat(데이터프레임_리스트)
날씨정보  

Unnamed: 0,일시,최저기온,최고기온,날씨
0,2020-06-25 00:00,21,26,흐리고 비
0,2020-06-25 12:00,21,26,흐리고 비
0,2020-06-26 00:00,21,29,흐리고 비
0,2020-06-26 12:00,21,29,구름많음
0,2020-06-27 00:00,22,29,구름많음
...,...,...,...,...
0,2020-06-29 00:00,23,26,흐리고 비
0,2020-06-29 12:00,23,26,흐리고 비
0,2020-06-30 00:00,22,26,흐리고 비
0,2020-07-01 00:00,22,26,흐리고 비


In [21]:
type(날씨정보)

pandas.core.frame.DataFrame

In [22]:
날씨정보.to_csv('날씨정보.csv')

In [23]:
엑셀 = pd.ExcelWriter('날씨정보.xlsx')
날씨정보.to_excel(엑셀, '.', index=False)
엑셀.save()

In [24]:
날씨정보.reset_index(drop=True, inplace=True)

In [25]:
날씨정보.to_json('날씨정보.json')

In [26]:
import sqlite3
from pandas.io import sql
import os

In [27]:
with sqlite3.connect(os.path.join('.','sqliteDB')) as con: # sqlite DB 파일이 존재하지 않는 경우 파일생성
    try:
        날씨정보.to_sql(name = 'WEATHER_INFO', con = con, index = False, if_exists='append') 
        #if_exists : {'fail', 'replace', 'append'} default : fail
    except Exception as e:
        print(str(e))
    
    query = 'SELECT * FROM WEATHER_INFO'
    데이터프레임1 = pd.read_sql(query, con = con)

In [28]:
데이터프레임1

Unnamed: 0,일시,최저기온,최고기온,날씨
0,2020-06-25 00:00,21,26,흐리고 비
1,2020-06-25 12:00,21,26,흐리고 비
2,2020-06-26 00:00,21,29,흐리고 비
3,2020-06-26 12:00,21,29,구름많음
4,2020-06-27 00:00,22,29,구름많음
...,...,...,...,...
1594,2020-06-29 00:00,23,26,흐리고 비
1595,2020-06-29 12:00,23,26,흐리고 비
1596,2020-06-30 00:00,22,26,흐리고 비
1597,2020-07-01 00:00,22,26,흐리고 비


In [29]:
엑셀 = pd.ExcelWriter('날씨정보2.xlsx')
데이터프레임1.to_excel(엑셀, '.', index=False)
엑셀.save()

In [30]:
df = pd.read_excel('날씨정보2.xlsx')

In [31]:
df

Unnamed: 0,일시,최저기온,최고기온,날씨
0,2020-06-25 00:00,21,26,흐리고 비
1,2020-06-25 12:00,21,26,흐리고 비
2,2020-06-26 00:00,21,29,흐리고 비
3,2020-06-26 12:00,21,29,구름많음
4,2020-06-27 00:00,22,29,구름많음
...,...,...,...,...
1594,2020-06-29 00:00,23,26,흐리고 비
1595,2020-06-29 12:00,23,26,흐리고 비
1596,2020-06-30 00:00,22,26,흐리고 비
1597,2020-07-01 00:00,22,26,흐리고 비
