## 정규 표현식 예제 #1

In [4]:
import re

# compile() 사용 안함
m = re.match('[a-z]+', 'Python') # 못찾음
print(m)
print(re.match('[a-z]+', 'pythoN')) # pytho
print(re.search('apple', 'I like apple!')) # apple

# compile() 사용: 객체 생성
p = re.compile('[a-z]+') # 알파벳 소문자
m = p.match('python') # python
print(m)
print(p.search('I like apple 123')) # like

None
<re.Match object; span=(0, 5), match='pytho'>
<re.Match object; span=(7, 12), match='apple'>
<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 6), match='like'>


## 정규 표현식 예제 #2

In [5]:
m = re.match('[a-z]+', 'pythoN') # 소문자가 1개 이상
print(m)

<re.Match object; span=(0, 5), match='pytho'>


In [6]:
m = re.match('[a-z]+', 'PYthon') # 소문자가 1개 이상
print(m)

None


In [9]:
print(re.match('[a-z]+', 'regex python'))
print(re.match('[a-z]+', ' regexpython')) # 문자열 처음에 공백 포함

print(re.match('[a-z]+', 'regexpythoN'))
print(re.match('[a-z]+$', 'regexpythoN')) # 문자열의 마지막에 소문자 1회 이상 검사

print(re.match('[a-z]+', 'regexPython'))
print(re.match('[a-z]+$', 'regexpython'))

<re.Match object; span=(0, 5), match='regex'>
None
<re.Match object; span=(0, 10), match='regexpytho'>
None
<re.Match object; span=(0, 5), match='regex'>
<re.Match object; span=(0, 11), match='regexpython'>


## 정규 표현식 예제 #3

In [22]:
p = re.compile('[a-z]+') # 알파벳 소문자

print(p.findall('life is too short! Regular expression text'))

['life', 'is', 'too', 'short', 'egular', 'expression', 'text']


In [23]:
result = p.search('I like apple 123')
print(result)

result = p.findall('I like apple 123')
print(result)

<re.Match object; span=(2, 6), match='like'>
['like', 'apple']


## Match 메소드 예제 #1

In [26]:
import re
# ^ .. $ 을 명시해야 정확한 자리수 검사가 이루어짐
tel_checker = re.compile(r'^(\d{2,3})-(\d{3,4})-(\d{4})$')

print(tel_checker.match('02-123-4567'))

match_groups1 = tel_checker.match('02-123-4567').group()
match_groups2 = tel_checker.match('02-123-4567').groups()
print(match_groups1)
print(match_groups2)

print(tel_checker.match('053-950-45678'))
print(tel_checker.match('053950-4567'))

<re.Match object; span=(0, 11), match='02-123-4567'>
02-123-4567
('02', '123', '4567')
None
None


## Match 메소드 예제 #2

In [27]:
tel_number = '053-950-4567'
tel_number = tel_number.replace('-', '')
print(tel_number)

tel_checker1 = re.compile(r'^(\d{2,3})(\d{3,4})(\d{4})$')
print(tel_checker1.match(tel_number))
print(tel_checker1.match('0239501234')) # 02-3950-1234

0539504567
<re.Match object; span=(0, 10), match='0539504567'>
<re.Match object; span=(0, 10), match='0239501234'>


## Match 메소드 예제 #3

In [35]:
tel_checker = re.compile(r'^(\d{2,3})-(\d{3,4})-(\d{4})$')
m = tel_checker.match('02-123-4567')

print(m.groups())
print('group(): ', m.group())
print('group(): ', m.group(0))
print('group(): ', m.group(1))
print('group(): ', m.group(2,3))
print('group(): ', m.start()) # 매칭된 문자열의 시작 인덱스
print('group(): ', m.end()) # 매칭된 문자열의 마지막 인덱스 + 1

('02', '123', '4567')
group():  02-123-4567
group():  02-123-4567
group():  02
group():  ('123', '4567')
group():  0
group():  11


In [36]:
cell_phone = re.compile(r'^(01(?:0|1|[6-9]))-(\d{3,4})-(\d{4})$')

print(cell_phone.match('010-123-4567'))
print(cell_phone.match('019-1234-5678'))
print(cell_phone.match('001-123-4567')) # 01로 시작하지 않아 None
print(cell_phone.match('010-1234567')) # -가 없어서 None

<re.Match object; span=(0, 12), match='010-123-4567'>
<re.Match object; span=(0, 13), match='019-1234-5678'>
None
None


## 전방 탐색 (lookahead)

In [38]:
import re

# 전방 긍정 탐색: (문자열이 won을 포함하고 있으면 won 앞의 문자열 리턴)
lookahead1 = re.search('.+(?=won)', '1000 won') # won이 있으면서 앞에 문자 1개 이상
if (lookahead1 != None):
    print(lookahead1.group())
else:
    print('None')
lookahead2 = re.search('.+(?=am)', '2023-01-26 am 10:00:01') # am이 있으면서 앞에 문자 1개 이상
print(lookahead2.group())
# 전방 부정 탐색 (?!): 4자리 숫자 다음에 '-'를 포함하지 않으면 앞의 문자열 리턴
lookahead3 = re.search('\d{4}(?!-)', '010-1234-5678') # -가 없으면서 앞에 숫자 4개
print(lookahead3)

1000 
2023-01-26 
<re.Match object; span=(9, 13), match='5678'>


## 후방 탐색(lookbehind)

In [43]:
# 후방 긍정 탐색 ('am' 다음에 문자가 1개 이상 있으면, 해당 문자열 리턴)
lookbehind1 = re.search('(?<=am).+', '2023-01-26 am 11:10:01') # am이 있으면서 뒤에 문자 1개 이상
print(lookbehind1)

lookbehind2 = re.search('(?<=:).+', 'USD: $51') # :이 있으면서 뒤에 문자 1개 이상
print(lookbehind2)

# 후방 부정 탐색('\b': 공백)
# 공백 다음에 $기호가 없고 숫자가 1개 이상이고 공백이 있는 경우
lookbehind4 = re.search(r'\b(?<!\$)\d+\b', 'I paid $30 for 100 apples.')
# $가 없으면서 앞에 공백 뒤에 숫자 + 공백
print(lookbehind4)

<re.Match object; span=(13, 22), match=' 11:10:01'>
<re.Match object; span=(4, 8), match=' $51'>
<re.Match object; span=(15, 18), match='100'>


## 정규 표현식과 BeautifulSoup #1

In [51]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('https://www.pythonscraping.com/pages/page3.html')
soup = BeautifulSoup(html, 'html.parser')

# 정규식: ('img.*\.jpg'): img 다음에 임의의 한 문자가 0회 이상
# - img.jpg, img1.jpg, imga.jpg 등
img_tag = re.compile('/img/gifts/img.*.jpg') # .*: 아무 문자 0개 이상
# find_all()에서 img의 src 속성값에 정규식 사용
images = soup.find_all('img', {'src': img_tag})

for image in images:
    print(image, end=" -> ['src'] 속성값: ")
    print(image['src'])

<img src="../img/gifts/img1.jpg"/> -> ['src'] 속성값: ../img/gifts/img1.jpg
<img src="../img/gifts/img2.jpg"/> -> ['src'] 속성값: ../img/gifts/img2.jpg
<img src="../img/gifts/img3.jpg"/> -> ['src'] 속성값: ../img/gifts/img3.jpg
<img src="../img/gifts/img4.jpg"/> -> ['src'] 속성값: ../img/gifts/img4.jpg
<img src="../img/gifts/img6.jpg"/> -> ['src'] 속성값: ../img/gifts/img6.jpg


## 정규 표현식과 BeautifulSoup #2

In [52]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('https://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html, 'html.parser')

princeList = bs.find_all(string = 'the prince')
print('the prince count: ', len(princeList))

prince_list = bs.find_all(string = re.compile('[T|t]{1}he prince'))
print('T|the prince count:', len(prince_list))

the prince count:  7
T|the prince count: 11


## Wikipedia 페이지 가져오기

In [62]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://en.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html, 'html.parser')
for link in bs.find_all('a'):
    if 'href' in link.attrs:
        print(link.attrs['href'])

#bodyContent
/wiki/Main_Page
/wiki/Wikipedia:Contents
/wiki/Portal:Current_events
/wiki/Special:Random
/wiki/Wikipedia:About
//en.wikipedia.org/wiki/Wikipedia:Contact_us
https://donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_en.wikipedia.org&uselang=en
/wiki/Help:Contents
/wiki/Help:Introduction
/wiki/Wikipedia:Community_portal
/wiki/Special:RecentChanges
/wiki/Wikipedia:File_upload_wizard
/wiki/Main_Page
/wiki/Special:Search
/w/index.php?title=Special:CreateAccount&returnto=Kevin+Bacon
/w/index.php?title=Special:UserLogin&returnto=Kevin+Bacon
/w/index.php?title=Special:CreateAccount&returnto=Kevin+Bacon
/w/index.php?title=Special:UserLogin&returnto=Kevin+Bacon
/wiki/Help:Introduction
/wiki/Special:MyContributions
/wiki/Special:MyTalk
#
#Early_life_and_education
#Acting_career
#Early_work
#1980s
#1990s
#2000s
#2010s
#Other_ventures
#Six_Degrees_of_Kevin_Bacon
#Personal_life
#Accolades
#Awards_and_nominations
#Other_honors
#S

## 연관 기사 링크 찾기

In [76]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('https://en.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html, 'html.parser')
body_content = bs.find('div', {'id' : 'bodyContent'})

pattern = '^(/wiki/)((?!:).)*$'
for link in body_content.find_all('a', href = re.compile(pattern)):
    if 'href' in link.attrs:
        print(link.attrs['href'])

/wiki/Kevin_Bacon_(disambiguation)
/wiki/Peabody_Awards
/wiki/Philadelphia
/wiki/Kevin_Bacon_filmography
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Leading_man
/wiki/Character_actor
/wiki/Golden_Globe_Award
/wiki/Screen_Actors_Guild_Award
/wiki/Primetime_Emmy_Award
/wiki/National_Lampoon%27s_Animal_House
/wiki/Footloose_(1984_film)
/wiki/Diner_(1982_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Frost/Nixon_(film)
/wiki/Friday_the_13th_(1980_film)
/wiki/Tremors_(1990_film)
/wiki/The_River_Wild
/wiki/The_Woodsman_(2004_film)
/wiki/Crazy,_Stupid,_Love
/wiki/Patriots_Day_(film)
/wiki/Losing_Chase
/wiki/Loverboy_(2005_film)
/wiki/Golden_Globe_Award_for_Best_Actor_%E2%80%93_Miniseries_or_Television_Film
/wiki/Screen_Actors_Guild_Award_for_Outstanding_Performance_by_a_Male_Actor_in_a_Miniseries_or_Television_Movie
/wiki/Michael_Strobl
/wiki/HBO
/wiki/Taking_Chance
/wiki/Fox_Broa

## 링크간 무작위 이동하기

In [77]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import random
import re

# random.seed(datetime.datetime.now())
random.seed(None) # Python 3.9 이상

def getLinks(articleUrl):
    html = urlopen('https://en.wikipedia.org' + articleUrl)
    bs = BeautifulSoup(html, 'html.parser')
    bodyContent = bs.find('div', {'id' : 'bodyContent'})
    wikiUrl = bodyContent.find_all('a', href = re.compile('^(/wiki/)((?!:).)*$'))
    return wikiUrl

links = getLinks('/wiki/Kevin_Bacon')
print('links 길이: ', len(links))
while len(links) > 0:
    newArticle = links[random.randint(0, len(links) - 1)].attrs['href']
    print(newArticle)
    links = getLinks(newArticle)

links 길이:  447
/wiki/Will.i.am
/wiki/Facebook
/wiki/AOL
/wiki/List_of_Yahoo!-owned_sites_and_services
/wiki/Yahoo!_Kimo
/wiki/OneSearch
/wiki/Swedish_language
/wiki/N%C3%A4rke
/wiki/%C3%96rebro_Hundred
/wiki/Swedish_language
/wiki/Greek_language
/wiki/Yevanic_language
/wiki/Israelites
/wiki/Groups_claiming_affiliation_with_Israelites
/wiki/S2CID_(identifier)
/wiki/Bibliometrics
/wiki/History_and_philosophy_of_science
/wiki/Vitalism
/wiki/Blending_inheritance
/wiki/Genetic_assimilation
/wiki/Hsp90
/wiki/SAE1


KeyboardInterrupt: 

## 전체 사이트 데이터 수집 소스

In [89]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

pages = set()
count = 0
def getLinks(pageUrl):
    global pages
    global count
    html = urlopen('https://en.wikipedia.org{}'.format(pageUrl))
    bs = BeautifulSoup(html, 'html.parser')
    try:
        print(bs.h1.get_text()) # <h1>태그 검색
        # print(bs.find(id = 'mw-content-text).find('p').text)
        print(bs.find('div', attrs = {'id' : 'mw-content-text'}).find('p').text)
    except AttributeError as e:
        print('this page is missing something! Continuing: ', e)

    pattern = '^(/wiki/)((?!:).)*$'
    for link in bs.find_all('a', href = re.compile(pattern)):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
                newPage = link.attrs['href']
                print('-' * 40)
                count += 1
                print(f'[{count}]: {newPage}')
                pages.add(newPage)
                getLinks(newPage)

getLinks('')

Main Page
Worlds is the debut studio album by American electronic music producer Porter Robinson, released on August 12, 2014, by Astralwerks. Initially known for his heavier bass-centric production, Robinson became increasingly dissatisfied with the electronic dance music (EDM) genre, believing it limited his artistic expression. Following the release of his 2012 single "Language", Robinson decided to prioritize aesthetic and emotional qualities in his work, taking inspiration from media that evoked nostalgia for his childhood and integrating elements taken from anime, films, and sounds from 1990s video games. The album was promoted with four singles and later a tour (pictured) in North America and Europe. Worlds was well-received by most critics, who praised it as innovative and forecasted a promising career for Robinson, though others felt the record lacked coherence or was unexciting. The album has been retrospectively noted for its impact on the EDM scene. (Full article...)

-----

## 인터넷 크롤링: URL 구조

In [90]:
from urllib.parse import urlparse

urlString1 = 'https://shopping.naver.com/home/p/index.naver'

url = urlparse(urlString1)
print(url.scheme)
print(url.netloc)
print(url.path)

https
shopping.naver.com
/home/p/index.naver


## 네이버 블로그 검색

In [124]:
from urllib.request import urlopen
from urllib.parse import quote
import requests
from bs4 import BeautifulSoup

query = 'ChatGPT'
url = f'https://search.naver.com/search.naver?ssc=tab.blog.all&sm=tab_jum&query={query}'
# response = requests.get(url)
# soup = BeautifulSoup(response.text, 'html.parser')

html = urlopen(url)
soup = BeautifulSoup(html.read(), 'html.parser')
blog_results = soup.select('a.title_link')
print('검색 결과수: ', len(blog_results))
search_count = len(blog_results)
desc_results = soup.select('a.dsc_link') # 검색된 블로그의 간단한 설명

for blog_title in blog_results:
    title = blog_title.text
    link = blog_title['href']
    print(f'{title}, [{link}]')

검색 결과수:  30
실무중심 ChatGPT 교육 프로젝트 기초부터 배우기!, [https://blog.naver.com/dmsdud0395/223541085715]
챗GPT 무료 유료 차이 ChatGPT 4.0 할인 팁, [https://blog.naver.com/vovov77/223544018515]
chatgpt 4.0 사용법 무료 가능할까, [https://blog.naver.com/guitarjeus/223519289429]
[ChatGPT 활용] 콘텐츠 생성하는 방법 배운 수강기, [https://blog.naver.com/songin06/223541110860]
chatgpt교육 메디치교육센터 무료로 배우고 취업하기!, [https://blog.naver.com/stacy0701/223517997493]
아이폰, 맥북 써야 할 이유 추가? Chat GPT-4o, 맥용 ChatGPT 앱 공개!, [https://post.naver.com/viewer/postView.naver?volumeNo=37811478&memberNo=724&vType=VERTICAL]
챗GPT 무료 유료 사용법, ChatGPT 4o 할인, [https://blog.naver.com/yjg01212/223508371016]
chatgpt 4.0 사용법 chatgpt 4o 차이 챗지피티 무료 유료 챗gpt 가격 chat gpt 4 할인 그림 공유, [https://blog.naver.com/cayque/223497361289]
챗gpt 유료 사용법 지피티 chatgpt 4o 할인, [https://blog.naver.com/toresi/223482446100]
nfxbus 할인코드 가격과 ChatGPT 활용방법, [https://blog.naver.com/ahspzk2000/223522077702]
ChatGPT 기반의 아이폰 통화 녹음기 PLAUD NOTE, [https://blog.naver.com/obama8775/223485767945]
쳇GPT chatGPT 사용 블로그

In [126]:
for i in range(search_count):
    title = blog_results[i].text
    link = blog_results[i]['href']
    print(f'{title}, [{link}]')
    print(desc_results[i].text)
    print('-' * 80)

실무중심 ChatGPT 교육 프로젝트 기초부터 배우기!, [https://blog.naver.com/dmsdud0395/223541085715]
AI에게 일을 빼앗기기 전에 ChatGPT 교육을 받아두는 게 좋겠다는 판단이 섰어요. 지금 일하는 곳은 컴퓨터 전산 처리 등을 사용하지만 언제 인공 지능 시스템으로 넘어갈지 알 수... 초보가 ChatGPT 교육부터 시작해서 AI와 IT 세계에 발을 들이려니 여간 어려운 게 아니었어요. 그래서 학원에서 배우는 것이 가장 빠른 길이겠다 싶었고 등록하러 간 곳은 마침 멘토링 서비스로... 
--------------------------------------------------------------------------------
챗GPT 무료 유료 차이 ChatGPT 4.0 할인 팁, [https://blog.naver.com/vovov77/223544018515]
유료 ChatGPT 4.0 : 차별화된 성능 무료 버전의 한계를 느끼게 되면, 결국 유료 멤버십으로 업그레이드를 고민하게 되는데요. 제가 직접 사용해 본 결과 챗GPT 4.0은 한 차원 높은 성능을 제공했습니다. 우선 가장 큰 차이점은 데이터 학습량입니다. ChatGPT 4.0 기준, 수천억에서 수조 개의 파라미터가 사용되어 더욱 정교한 대화가 가능해졌고 대화의 흐름도... 
--------------------------------------------------------------------------------
chatgpt 4.0 사용법 무료 가능할까, [https://blog.naver.com/guitarjeus/223519289429]
chatgpt 4.0 사용법 무료 가능할까에 대한 꿀팁을 한번 방출해보도록 하겠습니다! chatgpt 4.0 사용법 우선 사용법에 대해서 간략하게 설명을 드려볼게요. 방법은 어렵지 않은데 조금 더 퀄리티를 높이고 싶다면 아주 자세하게 이야기를 해주어야 해요. 저는 유료버전을 사용하고 있는데 한번 예시를 들어볼게