# 정규식 기본
1. p = re.compile("원하는 형태")
2. m = p.match("비교할 문자열") : 주어진 문자열의 처음부터 일치하는 지 확인
3. m = p.search("비교할 문자열") : 주어진 문자열 중에 일치하는게 있는 지 확인
4. lst = p.findall("비교할 문자열") : 일치하는 모든 것을 "리스트" 형태로 반환

* 원하는 형태 : 정규식
    - . (ca.e) : 하나의 문자를 의미 > care, cafe, case (O) | caffe(X)
    - ^ (^de) : 문자열의 시작 > desk, destination (O) | fade(X)
    - $ (se$) : 문자열의 끝 > case, base (O) | face(X)
    
* 공부할 때 참고할 사이트
    - https://www.w3schools.com/python/python_regex.asp
    - https://docs.python.org/ko/3/library/re.html (공식 문서)

In [34]:
import re # 정규식 라이브러리

# abcd, book, desk
# ca?e
# care, cafe, case, cave
p = re.compile("ca.e") 
# . (ca.e) : 하나의 문자를 의미 > care, cafe, case | caffe => x
# ^ (^de) : 문자열의 시작 > desk, destination | fade => x
# $ (se$) : 문자열의 끝 > case, base (O) | face => x

def print_match(m):
    if m:
        print("m.group(): ", m.group()) # 일치하는 문자열 반환
        print("m.string: ", m.string) # 입력받은 문자열
        print("m.start(): ", m.start()) # 일치하는 문자열의 시작 index
        print("m.end(): ", m.end()) # 일치하는 문자열의 끝 index
        print("m.span(): ", m.span()) # 일치하는 문자열의 시작 / 끝 index
    else:
        print("매칭되지 않았음")
        
# match : 주어진 문자열의 처음부터 일치하는지 확인
m = p.match("case")
n = p.match("caffe")
a = p.match("careless") # 주어진 문자열의 처음부터 일치하는지 확인
# print(m.group()) # 매치되지 않으면 에러가 발생
# print(n.group()) # AttributeError: 'NoneType' object has no attribute 'group'
print_match(a)

# search : 주어진 문자열 중에 일치하는게 있는지 확인
m = p.search("good care")
m = p.search("careless")
# print_match(m)

# findall : 일치하는 모든 것을 리스트 형태로 반환
lst = p.findall("good_care cafe")
print(lst)

m.group():  care
m.string:  careless
m.start():  0
m.end():  4
m.span():  (0, 4)
['care', 'cafe']


# User Agent
- 브라우저가 웹 페이지를 요청할 때 전달하는 헤더의 내용을 바탕으로 서버에서는 어떤 페이지를 보여줄 지를 결정
- ex) 스마트폰용 모바일 페이지, 일반 데스크탑용 일반 페이지
- 일반적인 정보가 아닐 때는 서버에서 접속을 막거나 권한을 주지 않는 경우가 있다.
    - user agent를 변경을 해야함.

* 확인 사이트: https://www.whatsmyua.info/

In [37]:
import requests

url = "http://nadocoding.tistory.com"
headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"}
res = requests.get(url, headers=headers)
res.raise_for_status()

with open("nadocoding.html", "w", encoding="utf8") as f:
    f.write(res.text)

# 웹 크롤링

* requests : 웹페이지 가져오기 라이브러리
* bs4(BeautifulSoup) : 웹페이지 분석(크롤링) 라이브러리
* 파싱(Parsing)이란? : 문자열 의미를 분석하는 것

In [None]:
# 라이브러리 임포트
import requests
from bs4 import BeautifulSoup

# 웹페이지 가져오기
res = requests.get('http://~~')

# 웹페이지 파싱하기
soup = BeautifulSoup(res.content, 'html.parser') # soup에 HTML파일을 파싱한 정보가 들어간다.
# 필요 데이터 추출하기
data = soup.find('title')

# 추출 데이터 활용하기
print(data.get_text())

## 파싱 정보에서 데이터 가져오기

In [10]:
from bs4 import BeautifulSoup

html = """
<html>
    <body>
        <h1 id='title'>1. 안녕하세요</h1>
        <h2 class='classh2'>2. 하이헬로우</h2>
        <h2 id='body' align='center'>3. 굳이에요!!</h2>
    </body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')

data = soup.find('h1')
print(data)
print(data.string)
print(data.get_text())

# h2 태그 문장이 2개 이상인 경우 특정 하나만 가져오기
data = soup.find('h2', class_='classh2')
data = soup.find('h2', 'classh2')
data = soup.find('h2', attrs={'align':'center'})
data = soup.find(id='body')

# h2 태그 문장 모두를 가져오기
datas = soup.find_all('h2')
for data in datas:
    print(data.get_text())

<h1 id="title">1. 안녕하세요</h1>
1. 안녕하세요
1. 안녕하세요
2. 하이헬로우
3. 굳이에요!!


In [42]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://davelee-fun.github.io/blog/crawl_test')
soup = BeautifulSoup(res.content, 'html.parser')

# find()로 더 크게 감싸는 HTML 태그로 추출하고
# 다시 추출된 데이터에서 find_all()로 원하는 부분을 추출
# strip() 함수 / split() 함수 사용
hobby_list = soup.find('ul', id='dev_course_list')
items = hobby_list.find_all('li', 'course')
for index, item in enumerate(items):
    title = item.get_text().split('-')[-1].split('[')[0].strip()
    print ('%d. %s' %(index+1, title))

1. 강사가 실제 사용하는 자동 프로그램 소개
2. 필요한 프로그램 설치 시연
3. 데이터를 엑셀 파일로 만들기
4. 엑셀 파일 이쁘게! 이쁘게!
5. 나대신 주기적으로 파이썬 프로그램 실행하기
6. 파이썬으로 슬랙(slack) 메신저에 글쓰기
7. 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기
8. 네이버 API 사용해서, 블로그에 글쓰기
9. 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기


## CSS Selector
- select() 안에 태그 또는 CSS class 이름등을 넣어줌.
- 결과값은 '리스트'형태로 반환된다.
    - 매칭되는 첫번째 데이터만 얻고자 할 때: select_one() => 해당 아이템 객체가 리턴
   
- select('li') : html 파싱 데이터에서 모든 li 태그의 데이터를 가져옴
- select('html body h2') : html 하위 body 하위의 h2 태그의 데이터를 모두 가져와 리스트 객체로 리턴
- select('ul > li') : ul 태그 바로 아래의 태그 데이터를 가져온다.
    - '>' 는 바로 아래 태그인 경우를 선택
- select('.h2class') : h2class 인 클래스 이름을 가진 태그 데이터들을 모두 가져온다.
    - '.클래스 이름' 으로 검색
- select('#h2id') : h2id 인 id 이름을 가진 태그 데이터를 가져온다.
    - '#id 이름' 으로 검색
- select('li.liclass1.liclass2') : li 태그 중 liclass1, liclass2 클래스 이름을 가진 태그 데이터를 가져온다.
    - '태그.클래스이름1.클래스이름2. ...' : class 이름이 여러 개의 경우 해당 class 이름을 모두 가진 태그 데이터를 가져옴.
- select('ul#ul_list li.liclass1') : ul 태그 중 id 값이 ul_list 하위에 li 태그 중 클래스 이름이 liclass1 데이터를 가져옴
- select_one('ul#ul_list > li.liclass1.liclass2'): ul 태그 중 id 값이 ul_list 바로 아래 태그 중에서 liclass1, liclass2 클래스 이름을 가진 li 태그 데이터 값을 하나 가져온다.

In [12]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://davelee-fun.github.io/blog/crawl_test_css.html')
soup = BeautifulSoup(res.content, 'html.parser')
items = soup.select('li')
for item in items:
    print(item.get_text())

(왕초보) - 클래스 소개
(왕초보) - 블로그 개발 필요한 준비물 준비하기
(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기
(왕초보) - 초간단 페이지 만들어보기
(왕초보) - 이쁘게 테마 적용해보기
(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기
(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기
(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]
(초급) - 필요한 프로그램 설치 시연 [5]
(초급) - 데이터를 엑셀 파일로 만들기 [9]
(초급) -     엑셀 파일 이쁘게! 이쁘게! [8]
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 [7]
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]
(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]
(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


In [32]:
# items = soup.select('ul#hobby_course_list > li')
items = soup.select('ul#dev_course_list > li.course.paid')
for index, item in enumerate(items):
    print('%d. %s' % (index+1, item.get_text()))

1. (중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


## 엑셀에 저장하기
- openpyxl 라이브러리 사용

In [7]:
import openpyxl
import os.path

def write_excel_template(filename, sheetname, listdata):
    if os.path.isfile(filename): # 엑셀 파일이 존재하는 경우
        excel_file = openpyxl.load_workbook(filename)
        excel_sheet = excel_file.active
        excel_sheet = excel_file.create_sheet(title = sheetname)
    else: # 엑셀 파일이 존재하지 않는 경우
        excel_file = openpyxl.Workbook()
        excel_sheet = excel_file.active
        if sheetname != '':
            excel_sheet.title = sheetname
    
    excel_sheet.column_dimensions['A'].width = 100
    excel_sheet.column_dimensions['B'].width = 20
    
    for item in listdata:
        excel_sheet.append(item)
        
    excel_file.save(filename)
    excel_file.close()

In [3]:
import requests
from bs4 import BeautifulSoup

URL = 'https://davelee-fun.github.io/'
product_list = list()

for page in range(1, 9):
    if page == 1:
        res = requests.get(URL)
    else:
        res = requests.get(URL+'page%d/' % (page))
    soup = BeautifulSoup(res.content, 'html.parser') # 웹 페이지 데이터 파싱
    
    product_infos = soup.select('div.listrecent div.card-group div.card')
    for product_info in product_infos:
        product_name = product_info.select_one('div.card-body > h4.card-text').get_text().strip()
        product_date = product_info.select_one('div.card-footer div.wrapfooter span.author-meta span.post-date').get_text().strip()
        
        product_list.append([product_name, product_date])
    # print(res.status_code)

In [9]:
write_excel_template('tmp.xlsx', '상품정보2', product_list)

In [14]:
# 엑셀 파일 읽기
excel_file = openpyxl.load_workbook('tmp.xlsx')
excel_sheet = excel_file['상품정보']

for item in excel_sheet.rows:
    print(item[0].value, item[1].value)
excel_file.close()

## Indeed 서울 지역 / 검색어에 따른 일자리 추출(100개씩만)
## 그 후 csv 파일로 저장하기

In [77]:
import csv
import requests
from bs4 import BeautifulSoup


def extract_job_infos_write_csv(search_word):
    URL = f"https://kr.indeed.com/%EC%B7%A8%EC%97%85?q={search_word}&l=%EC%84%9C%EC%9A%B8&start="
    
    filename = "job-infos.csv"
    f = open(filename, "w", encoding="utf-8-sig", newline = "")
    writer = csv.writer(f)
    
    writer.writerow(['직종', '회사명'])
    
    for i in range(0, 110, 10):
        R_URL = URL + str(i)
        res = requests.get(R_URL)
        soup = BeautifulSoup(res.content, 'html.parser')
        jobs = soup.select('div#mosaic-zone-jobcards div#mosaic-provider-jobcards a.tapItem div.slider_container div.slider_list div.slider_item div.job_seen_beacon table.jobCard_mainContent')
        
        for index, job in enumerate(jobs):
            job_name = job.select_one('h2.jobTitle > span')['title'].strip()
            job_company = job.select_one('span.companyName').get_text()
            writer.writerow([job_name, job_company])
    f.close

In [78]:
search_word = input("찾고자 하는 직종을 입력해주세요: ")
extract_job_infos_write_csv(search_word)

찾고자 하는 직종을 입력해주세요: django


# CSV 기본 (네이버 금융)

In [68]:
import csv
import requests
from bs4 import BeautifulSoup

url = "https://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page="

filename = "시가총액1-200.csv"
f = open(filename, "w", encoding="utf-8-sig", newline = "")
# newline = "" => 이렇게 해주지 않으면 각 리스트 내용 사이에 띄어쓰기가 존재함.
# 해당 파일이 excel에서 열 때 한글이 깨지면 encoding 방식을 "utf8" 대신 "utf-8-sig"형식으로 지정
writer = csv.writer(f)

title = "N	종목명	현재가	전일비	등락률	액면가	시가총액	상장주식수	외국인비율	거래량	PER	ROE	토론실".split('\t')
writer.writerow(title)

for page in range(1, 5):
    res = requests.get(url + str(page))
    res.raise_for_status() # 접속에 문제가 있는지 확인
    soup = BeautifulSoup(res.content, "html.parser")
    
    # 의미 없는 데이터를 가져오지 않기 위한 내 방법
    # data_rows = soup.find("table", attrs={"class":"type_2"}).find("tbody").find_all("tr", attrs={"onmouseout":"mouseOut(this)"})
    data_rows = soup.find("table", attrs={"class":"type_2"}).find("tbody").find_all("tr")
    for row in data_rows:
        columns = row.find_all("td")
        if len(columns) <= 1: # 의미 없는 데이터는 skip
            continue
        data = [column.get_text().strip() for column in columns]
        # print(data)
        if page == 4:
            print(data)
        writer.writerow(data)

['151', '후성', '21,250', '250', '-1.16%', '500', '19,679', '92,607', '7.93', '1,161,093', '71.55', '2.79', '']
['152', 'KODEX MSCI Korea TR', '12,860', '70', '-0.54%', '0', '19,573', '152,200', '3.73', '295,889', 'N/A', 'N/A', '']
['153', '농심', '318,500', '3,000', '+0.95%', '5,000', '19,373', '6,083', '12.55', '30,199', '18.15', '7.50', '']
['154', '영원무역', '43,350', '50', '+0.12%', '500', '19,209', '44,311', '27.91', '44,771', '8.33', '8.03', '']
['155', '두산', '116,000', '1,500', '-1.28%', '5,000', '19,168', '16,524', '10.58', '57,865', '-66.82', '-34.34', '']
['156', 'TIGER 미국나스닥100', '86,835', '245', '+0.28%', '0', '18,574', '21,390', '0.01', '106,609', 'N/A', 'N/A', '']
['157', '대웅', '31,600', '300', '+0.96%', '500', '18,373', '58,142', '4.36', '61,421', '17.40', '15.10', '']
['158', '한미반도체', '36,600', '500', '+1.39%', '200', '18,102', '49,460', '6.40', '544,525', '21.76', '21.03', '']
['159', 'KODEX 레버리지', '23,905', '275', '-1.14%', '0', '17,642', '73,800', '1.29', '9,610,218', 'N/A