# Web

### 1. basic web crawling
- Crawling: 웹상에 공개된 내용에서 데이터를 추출하는 것
- Crawler: 웹 크롤링을 하는 프로그램
- HTML: HyperText Markup Language, 웹 페이지를 만들기 위한 대표적인 마크업 언어
- HTML 문법 중 <> 안에 들어 있는 구문을 태그(Tag)라고 부름

##### 1-1. HTML 구조

```HTML
<html>
<head>
    화면에 표시되지 않는 정보(타이틀, 인코딩 정보 등을 표현)
</head>

<body>
    화면에 표시되는 본체(주로 태그를 표현)
</body>
</html>

- <html>~</html>: 
전체 코드를 감쌈
- <head>~</head>: 
타이틀, 인코딩 정보 등 화면에 표시되지 않는 정보를  포함
- <body>~</body>: 
주로 화면에 표시되는 본체 및 태그를 포함, 필요하다면 태그에 속성을 표시할 수 있음
- <title>~</title>:
주로 <head> 속에서 웹 브라우저의 타이틀 바에 표시되는 웹 페이지의 제목을 표시
```

##### 1-2. HTML 태그

```HTML
- <meta>
웹 페이지의 정보를 설정
검색 엔진에서 문서의 내용을 요약해 주기도 하며, 언어의 설정에도 사용 
<head> 영역에 표현하며 웹 페이지의 문자 코딩을 UTF-8로 인식되게 함

- <br>
행을 바꿔 줌

- <u>~</u>, <b>~</b>, <i>~</i>
밑줄, 볼드체, 이탤릭체를 지정

- <font>~</font>
글자의 크기나 색상을 지정

- <hr>
수평선을 그어줌
<hr size='픽셀수'>는 픽셀수의 폭으로 선을 그어줌

- <a>~</a>
클릭하면 다른 페이지가 연결되는 링크를 설정
주로 href 속성으로 연결된 홈페이지를 지정
target 속성을 지정하지 않으면 현재 페이지에서 열림

- <img>
이미지 파일을 화면에 표시
width와 height를 생략하면 그림의 원본 크기로 출력됨

- <table>~</table>, <tr>~</tr>, <th>~</th>, <td>~</td>
표를 만드는 태그들
<table>~</table> 태그 안에 행은 <tr>~</tr>로 구성되고, 행 안에 열이 <th>~</th> 또는 <td>~</td>로 구성
<th>는 제목 열을 표현해서 볼드체로 보이며 <td>는 일반 열로 표현됨

- <div>~</div>
Division의 약자이며, 웹 페이지에서 레이아웃을 만들 때 사용
필요한 부분을 묶어주는 역할을 하고, style을 지정해서 해당 부분을 표현할 수 있음

-<ul>~</ul>, <li>~</li>
<ul>은 Unordered List의 약자로 순서가 필요 없는 목록을 만들 때 사용함
<li>는 List의 약자로 실제 목록을 만듦
대부분 <ul>로 바깥을 묶어준 후에, <li>로 세부적인 항목을 표현함
주로 id 및 class와 함께 사용됨

- <strong>~</strong>, <em>~</em>
글자를 강조할 때 사용

- <p>~</p>
Paragraph의 약자로, 하나의 문단을 만들 때 쓰임

- <span>~</span>
<div>와 용도가 비슷함
<span>은 한 줄 단위를 지정할 때 주로 사용하고, <div>는 블록 단위를 지정할 때 주로 사용함

- id 속성과 class 속성
id 속성은 HTML 문서 중에서 유일한 값으로 하나의 태그에만 지정할 수 있음
class 속성은 여러 개의 태그에 지정할 수 있음
<div id = "myid">
    div에 id를 설정했어요.
</div>
<div class = "myclass">
    div에 class를 설정했어요.
</div>
<div class = "myclass">
    div에 class를 중복 설정했어요.
</div>
```

##### 1-3. 라이브러리 활용

In [4]:
from bs4 import BeautifulSoup
import urllib.request

nateUrl = "https://www.nate.com"
htmlObject = urllib.request.urlopen(nateUrl)
bsObject = BeautifulSoup(htmlObject, 'html.parser')

print(bsObject)


<!DOCTYPE html>

<html lang="ko">
<head>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="//www.nate.com/" name="msapplication-starturl"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="" name="nate:title"/>
<meta content="네이트 이슈UP" name="nate:description"/>
<meta content="네이트 홈" name="nate:site_name"/>
<meta content="https://www.nate.com/" name="nate:url"/>
<meta content="" name="nate:image"/>
<meta content="새로워진 nate에서 당신의 오늘을 만나보세요" name="description"/>
<meta content="한눈에 보는 오늘 : 네이트" property="og:title"/>
<meta content="https://www.nate.com/" property="og:url"/>
<meta content="https://main.nateimg.co.kr/img/v7/OpenGraphTag_nate_240x240.png" property="og:image"/>
<meta content="새로워진 nate에서 당신의 오늘을 만나보세요" property="og:description"/>
<title>한눈에 보는 오늘 : 네이트</title>
<link href="/css/common.min.css?v=202309201110_01" rel="stylesheet" type="text/css"/>
<link href="//main.nateimg.co.kr/img/v7/favicon_32.ico" rel="shortcut icon" typ

In [9]:
from bs4 import BeautifulSoup

webpage = open("C:\\Users\\jjjun_ii\\Documents\\GitHub\\LIKELION_AI\\DA_TIL\\Web\\sample1.html", 'rt').read()
bsObject = BeautifulSoup(webpage, 'html.parser')

print(bsObject)

<html>
<head>
</head>
<body>
<div>요기를 클릭하세요</div>
<ul>
<li>한빛출판네트워크</li>
<li>비기너</li>
<li>데이터 분석</li>
</ul>
</body>
</html>


In [10]:
tag_div = bsObject.find("div")
print(tag_div)

<div>요기를 클릭하세요</div>


In [12]:
tag_ul = bsObject.find('ul')
print(tag_ul)
print()

tag_li = bsObject.find('li')  # 첫 번째 <li> 태그만 찾음
print(tag_li)
print()

tag_li_all = bsObject.findAll('li')  # 전체 찾기
print(tag_li_all)

<ul>
<li>한빛출판네트워크</li>
<li>비기너</li>
<li>데이터 분석</li>
</ul>

<li>한빛출판네트워크</li>

[<li>한빛출판네트워크</li>, <li>비기너</li>, <li>데이터 분석</li>]


##### 1-4. 특정 태그 추출
- id나 class를 지정해서 특정한 태그만 추출하는 방식을 사용할 수 있음
- find() 또는 findAll()을 다음과 같은 형식으로 사용

```python
이름.find('태그명', {'속성명':'속성값'})
이름.findAll('태그명', {'속성명': '속성값'})
```

In [19]:
from bs4 import BeautifulSoup

webPage = open("C:\\Users\\jjjun_ii\\Documents\\GitHub\\LIKELION_AI\\DA_TIL\\Web\\sample2.html", 'rt', encoding="utf-8").read()
bsObject = BeautifulSoup(webPage, 'html.parser')

tag = bsObject.find('div', {'id':'myId1'})
print(tag)

tag = bsObject.find('div', {"class":"myClass1"})
print(tag)

tag = bsObject.findAll('div', {'class':'myClass1'})
print(tag)

<div id="myId1">아기공룡</div>
<div class="myClass1">내 친구</div>
[<div class="myClass1">내 친구</div>, <div class="myClass1">둘리</div>]


In [20]:
from bs4 import BeautifulSoup

webPage = open("C:\\Users\\jjjun_ii\\Documents\\GitHub\\LIKELION_AI\\DA_TIL\\Web\\sample2.html", 'rt', encoding="utf-8").read()
bsObject = BeautifulSoup(webPage, 'html.parser')

tag = bsObject.find('div', {'id':'myId1'})
print(tag.get_text())  # 태그 내의 내용은 get_text()

tag = bsObject.find('div', {"class":"myClass1"})
print(tag.get_text())

tag = bsObject.findAll('div', {'class':'myClass1'})
for con in tag:
    print(con.get_text())

아기공룡
내 친구
내 친구
둘리


In [21]:
ul_value = bsObject.find('ul', {"class":"myClass2"})
print(ul_value)
print()
li_list = bsObject.findAll('li', {"class":"myClass3"})
print(li_list)

<ul class="myClass2">
<li>한빛아카데미</li>
<li>한빛미디어</li>
</ul>

[<li class="myClass3">비기너</li>, <li class="myClass3">둘리</li>]


In [24]:
a_list = bsObject.findAll('a')
for aTag in a_list:
    print(aTag)
    print(aTag["href"])

<a href="www.daum.net">다음 바로가기</a>
www.daum.net
<a href="www.nate.com">네이트 바로가기</a>
www.nate.com
<a href="www.naver.com">네이버 바로가기</a>
www.naver.com


In [26]:
from bs4 import BeautifulSoup

webPage = open("C:\\Users\\jjjun_ii\\Documents\\GitHub\\LIKELION_AI\\DA_TIL\\Web\\sample2.html", "rt", encoding="utf-8").read()

bsObject = BeautifulSoup(webPage, 'html.parser')

tag_li_all = bsObject.findAll('li')
for tag_li in tag_li_all:
    print(tag_li.text)
    
print()

for i in range(len(tag_li_all)):
    print(tag_li_all[i].text)


한빛아카데미
한빛미디어
비기너
둘리

한빛아카데미
한빛미디어
비기너
둘리


### 2. 웹 크롤링 활용

##### 2-1. 네이트 사이트 정보 추출


In [30]:
from bs4 import BeautifulSoup
import urllib.request

nateUrl = "https://www.nate.com"
htmlObject = urllib.request.urlopen(nateUrl)
webPage = htmlObject.read()
bsObject = BeautifulSoup(webPage, 'html.parser')

tag = bsObject.find("div", {"id":"NateBi"})
print(tag, '\n')

a_tag = tag.find('a')
print(a_tag, '\n')

href = a_tag['href']
print(href, '\n')

text = a_tag.text
print(text)

<div class="area_bi" id="NateBi" role="banner">
<h1 class="bi" title="네이트"><a href="//www.nate.com/?f=bi" onmousedown="nc('NBI01');">네이트</a></h1>
</div> 

<a href="//www.nate.com/?f=bi" onmousedown="nc('NBI01');">네이트</a> 

//www.nate.com/?f=bi 

네이트


In [30]:
from bs4 import BeautifulSoup
import urllib.request

nateUrl = "https://news.nate.com"
htmlObject = urllib.request.urlopen(nateUrl)
webPage = htmlObject.read()
bsObject = BeautifulSoup(webPage, 'html.parser')

tag = bsObject.find("div", {"class":"snbArea"})

print("## 네이트 뉴스의 메뉴 목록 ##")
li_list = tag.findAll('li')
for li in li_list:
    print(li.text, end=' ')

## 네이트 뉴스의 메뉴 목록 ##
오늘 종합 최신뉴스 정치 경제 사회 세계 IT/과학 칼럼 포토 TV 라디오 랭킹뉴스 투데이댓글 

[실습] 네이버 메뉴 크롤링

In [42]:
from bs4 import BeautifulSoup
import urllib.request

url = "https://www.naver.com/"
openUrl = urllib.request.urlopen(url)
webPage = openUrl.read()
bsObject = BeautifulSoup(webPage, 'html.parser')
li_list = bsObject.findAll('li', {"class":"shortcut_item"})
print(li_list)
for li in li_list:
    print(li.text)
    
# 동적인 부분을 이렇게 크롤링하면 값이 안 가져와짐
# chrome webdriver, selenium을 활용해서 동적 페이지 크롤링

[]


##### 2-2. 시간 간격 크롤러
- 시간 간격을 두고 작동하는 크롤러
- 시간에 따라 변경되는 웹 데이터: 실시간 검색어, 현재 날씨, 인기 뉴스 목록 등의 데이터를 정해진 시간마다 크롤링

In [5]:
import csv
import time
import datetime

csvName = "C:\\Users\\jjjun_ii\\Documents\\GitHub\\LIKELION_AI\\DA_TIL\\Web\\data\\datetime.csv"
with open(csvName,'w', newline='') as csvFp:
    csvWriter = csv.writer(csvFp)
    csvWriter.writerow(["연월일", "시분초"])
    
count = 10
while count > 0:
    count -= 1
    now = datetime.datetime.now()
    yymmdd = now.strftime("%Y-%m-%d")
    hhmmss = now.strftime("%H:%M:%S")
    time_list = [yymmdd, hhmmss]
    print(time_list)
    
    with open(csvName, 'a', newline='') as csvFp:
        csvWriter = csv.writer(csvFp)
        csvWriter.writerow(time_list)

    time.sleep(3)

['2023-10-16', '13:27:07']
['2023-10-16', '13:27:10']
['2023-10-16', '13:27:13']
['2023-10-16', '13:27:16']
['2023-10-16', '13:27:19']
['2023-10-16', '13:27:22']
['2023-10-16', '13:27:25']
['2023-10-16', '13:27:28']
['2023-10-16', '13:27:31']
['2023-10-16', '13:27:34']


##### 2-3 속초 날씨 크롤러
- 엣지 브라우저 [네이트 날씨](https://news.nate.com/weather)
- 지역 [강원영동]-[속초]

In [1]:
import csv
import time
import datetime
from bs4 import BeautifulSoup
import urllib.request

csvName = "C:\\Users\\jjjun_ii\\Documents\\GitHub\\LIKELION_AI\\DA_TIL\\Web\\data\\sokcho_weather.csv"
with open(csvName, 'w', newline='') as csvFp:
    csvWriter = csv.writer(csvFp)
    csvWriter.writerow(["연월일", "시분초", "온도", "습도", "강수량", "풍향"])

nateUrl = "https://news.nate.com/weather?areaCode=11D20401"
while True:
    htmlObject = urllib.request.urlopen(nateUrl)
    webPage = htmlObject.read()
    bsObject = BeautifulSoup(webPage, 'html.parser')
    tag = bsObject.find("div", {"class":"right_today"})
    temper = tag.find('p', {"class":"celsius"}).text
    humi = tag.find('p', {"class":"humidity"}).text
    rain = tag.find('p', {"class":"rainfall"}).text
    wind = tag.find('p', {"class":"wind"}).text
    
    now = datetime.datetime.now()
    yymmdd = now.strftime("%Y-%m-%d")
    hhmmss = now.strftime("%H:%M:%S")
    
    weather_list = [yymmdd, hhmmss, temper, humi, rain, wind]
    with open(csvName, 'a', newline='') as csvFp:
        csvWriter = csv.writer(csvFp)
        csvWriter.writerow(weather_list)
        
    time.sleep(30)  # 시간 조절

KeyboardInterrupt: 

### 3. 웹 크롤링 실전

##### 3-1. 한국소설 순위별 정보 추출
- [YES24](https://www.yes24.com)에서 한국소설의 도서명, 가격, 저자를 순위대로 추출

In [7]:
import csv
from bs4 import BeautifulSoup
import urllib.request

csv_name = "C:\\Users\\jjjun_ii\\Documents\\GitHub\\LIKELION_AI\\DA_TIL\\Web\\data\\yes24_ranking.csv"
with open(csv_name, 'w', newline = '') as csvFp:
    csv_writer = csv.writer(csvFp)
    csv_writer.writerow(["도서명", "저자", "출판사", "출간일", "가격"])
    
url = "https://www.yes24.com/24/Category/Display/001001046001?ParamSortTp=05&PageNumber=1"
request = urllib.request.urlopen(url)
webpage = request.read()
bs4 = BeautifulSoup(webpage, 'html.parser')

div_list = bs4.findAll("div", {"class":"cCont_goodsSet"})

for div in div_list:
    name = div.find('div', {"class":"goods_name"}).find('a').text
    print(name, end=' ')
    auth = div.find('span', {"class":"goods_auth"}).find('a').text
    print(auth, end=' ')
    price = div.find('em', {"class":"yes_b"}).text
    print(price, end=' ')
    pub = div.find('span', {"class":"goods_pub"}).text
    print(pub, end=' ')
    date = div.find('span', {"class":"goods_date"}).text
    print(date, end=' ')
    print()
    
    with open(csv_name, 'a', newline='') as csvFp:
        csv_writer = csv.writer(csvFp)
        csv_writer.writerow([name, auth, pub, date, price])

불편한 편의점 김호연 12,600 나무옆의자 2021년 04월 
아버지의 해방일지 정지아 13,500 창비 2022년 09월 
불편한 편의점 2 김호연 12,600 나무옆의자 2022년 08월 
메리골드 마음 세탁소 윤정은 13,500 북로망스 2023년 03월 
하얼빈 김훈 14,400 문학동네 2022년 08월 
모순 양귀자 11,700 쓰다 2013년 04월 
아주 희미한 빛으로도 최은영 15,120 문학동네 2023년 08월 
달러구트 꿈 백화점  이미예 12,420 팩토리나인 2020년 07월 
작별인사 김영하 12,600 복복서가 2022년 09월 
어서 오세요, 휴남동 서점입니다 황보름 13,500 클레이하우스 2022년 01월 
이토록 평범한 미래 김연수 12,600 문학동네 2022년 10월 
구의 증명 최진영 10,800 은행나무 2023년 04월 
구의 증명 최진영 7,200 은행나무 2015년 03월 
달러구트 꿈 백화점 2 (레인보우 에디션) 이미예 12,420 팩토리나인 2021년 07월 
파견자들 김초엽 17,100 퍼블리온 2023년 10월 
비가 오면 열리는 상점 유영광 15,120 클레이하우스 2023년 06월 
칵테일, 러브, 좀비 조예은 9,000 안전가옥 2020년 04월 
지구 끝의 온실 김초엽 13,500 자이언트북스 2021년 08월 
밝은 밤 최은영 13,950 문학동네 2021년 07월 
2023 제14회 젊은작가상 수상작품집 이미상 6,930 문학동네 2023년 04월 


[함수로 재작성]

In [13]:
from bs4 import BeautifulSoup
import urllib.request

# 한 권의 책 정보가 들어있는 <div class="goods.info"의 내용을 파라미터로 받음
def get_book_info(book_tag):
    name = book_tag.find("div", {"class":"goods_name"})
    book_name = name.find('a').text
    auth = book_tag.find("span", {"class":"goods_auth"})
    book_auth = auth.find('a').text
    book_pub = book_tag.find("span", {"class":"goods_pub"}).text
    book_price = book_tag.find("em", {"class":"yes_b"}).text
    book_date = book_tag.find("span", {"class":"goods_date"}).text
    
    return [book_name, book_auth, book_pub, book_date, book_price]

In [15]:
bookUrl = "https://www.yes24.com/24/Category/Display/001001046001?ParamSortTp=05&PageNumber=1"

htmlObject = urllib.request.urlopen(bookUrl)
webPage = htmlObject.read()
bsObject = BeautifulSoup(webPage, 'html.parser')
tag = bsObject.find('ul', {"class":"clearfix"})
all_books = tag.findAll("div", {"class":"goods_info"})

for book in all_books:
    print(get_book_info(book))

['불편한 편의점', '김호연', '나무옆의자', '2021년 04월', '12,600']
['아버지의 해방일지', '정지아', '창비', '2022년 09월', '13,500']
['불편한 편의점 2', '김호연', '나무옆의자', '2022년 08월', '12,600']
['메리골드 마음 세탁소', '윤정은', '북로망스', '2023년 03월', '13,500']
['하얼빈', '김훈', '문학동네', '2022년 08월', '14,400']
['모순', '양귀자', '쓰다', '2013년 04월', '11,700']
['아주 희미한 빛으로도', '최은영', '문학동네', '2023년 08월', '15,120']
['달러구트 꿈 백화점 ', '이미예', '팩토리나인', '2020년 07월', '12,420']
['작별인사', '김영하', '복복서가', '2022년 09월', '12,600']
['어서 오세요, 휴남동 서점입니다', '황보름', '클레이하우스', '2022년 01월', '13,500']
['이토록 평범한 미래', '김연수', '문학동네', '2022년 10월', '12,600']
['구의 증명', '최진영', '은행나무', '2023년 04월', '10,800']
['구의 증명', '최진영', '은행나무', '2015년 03월', '7,200']
['달러구트 꿈 백화점 2 (레인보우 에디션)', '이미예', '팩토리나인', '2021년 07월', '12,420']
['파견자들', '김초엽', '퍼블리온', '2023년 10월', '17,100']
['비가 오면 열리는 상점', '유영광', '클레이하우스', '2023년 06월', '15,120']
['칵테일, 러브, 좀비', '조예은', '안전가옥', '2020년 04월', '9,000']
['지구 끝의 온실', '김초엽', '자이언트북스', '2021년 08월', '13,500']
['밝은 밤', '최은영', '문학동네', '2021년 07월', '13,950']
['2023 제14회 젊은

[20권의 총 금액 출력]

In [22]:
from bs4 import BeautifulSoup
import urllib.request

# 한 권의 책 정보가 들어있는 <div class="goods.info"의 내용을 파라미터로 받음
def get_book_price(book_tag):
    book_price = book_tag.find("em", {"class":"yes_b"}).text
    
    return int(book_price.replace(",", ""))

In [27]:
bookUrl = "https://www.yes24.com/24/Category/Display/001001046001?ParamSortTp=05&PageNumber=1"

htmlObject = urllib.request.urlopen(bookUrl)
webPage = htmlObject.read()
bsObject = BeautifulSoup(webPage, 'html.parser')
tag = bsObject.find('ul', {"class":"clearfix"})
all_books = tag.findAll("div", {"class":"goods_info"})

total_price = 0
for book in all_books:
    total_price += get_book_price(book)
    
print("총액 => " + "{:,}".format(total_price) + " 원")

총액 => 250,560 원


##### 3-2. 소설 목록의 마지막 페이지까지 모든 내용 출력


In [None]:
from bs4 import BeautifulSoup
import urllib.request

# 한 권의 책 정보가 들어있는 <div class="goods.info"의 내용을 파라미터로 받음
def get_book_info(book_tag):
    name = book_tag.find("div", {"class":"goods_name"})
    book_name = name.find('a').text
    auth = book_tag.find("span", {"class":"goods_auth"})
    book_auth = auth.find('a').text
    book_pub = book_tag.find("span", {"class":"goods_pub"}).text
    book_price = book_tag.find("em", {"class":"yes_b"}).text
    book_date = book_tag.find("span", {"class":"goods_date"}).text
    
    return [book_name, book_auth, book_pub, book_date, book_price]

In [28]:
page = 1

while True:
    
    try:
        bookUrl = "https://www.yes24.com/24/Category/Display/001001046001?ParamSortTp=05&PageNumber={0}".format(page)

        htmlObject = urllib.request.urlopen(bookUrl)
        webPage = htmlObject.read()
        bsObject = BeautifulSoup(webPage, 'html.parser')
        tag = bsObject.find('ul', {"class":"clearfix"})
        all_books = tag.findAll("div", {"class":"goods_info"})

        for book in all_books:
            print(get_book_info(book))
        
        page += 1
    except:
        break

['불편한 편의점', '김호연', '나무옆의자', '2021년 04월', '12,600']
['아버지의 해방일지', '정지아', '창비', '2022년 09월', '13,500']
['불편한 편의점 2', '김호연', '나무옆의자', '2022년 08월', '12,600']
['메리골드 마음 세탁소', '윤정은', '북로망스', '2023년 03월', '13,500']
['하얼빈', '김훈', '문학동네', '2022년 08월', '14,400']
['모순', '양귀자', '쓰다', '2013년 04월', '11,700']
['아주 희미한 빛으로도', '최은영', '문학동네', '2023년 08월', '15,120']
['달러구트 꿈 백화점 ', '이미예', '팩토리나인', '2020년 07월', '12,420']
['작별인사', '김영하', '복복서가', '2022년 09월', '12,600']
['어서 오세요, 휴남동 서점입니다', '황보름', '클레이하우스', '2022년 01월', '13,500']
['이토록 평범한 미래', '김연수', '문학동네', '2022년 10월', '12,600']
['구의 증명', '최진영', '은행나무', '2023년 04월', '10,800']
['구의 증명', '최진영', '은행나무', '2015년 03월', '7,200']
['달러구트 꿈 백화점 2 (레인보우 에디션)', '이미예', '팩토리나인', '2021년 07월', '12,420']
['파견자들', '김초엽', '퍼블리온', '2023년 10월', '17,100']
['비가 오면 열리는 상점', '유영광', '클레이하우스', '2023년 06월', '15,120']
['칵테일, 러브, 좀비', '조예은', '안전가옥', '2020년 04월', '9,000']
['지구 끝의 온실', '김초엽', '자이언트북스', '2021년 08월', '13,500']
['밝은 밤', '최은영', '문학동네', '2021년 07월', '13,950']
['2023 제14회 젊은

##### [실습] 네이트 실시간 뉴스 크롤링

In [1]:
from bs4 import BeautifulSoup
import urllib.request
import time

def crawler(url):
    count = 1
    while True:
        htmlObject = urllib.request.urlopen(url)
        webPage = htmlObject.read()
        bsObject = BeautifulSoup(webPage, 'html.parser')
        
        news_div_list = bsObject.findAll("div", {"class":"mlt01"})
        print(f"{count}회 출력입니다")
        for news in news_div_list:
            title = news.find("h2", {"class":"tit"}).text
            link = news.find("a", {"class":"lt1"})["href"]
            pub = news.find("span", {"class":"medium"}).text.split('\t')[0]
            date = news.find("span", {"class":"medium"}).find("em").text
            print([title, link, pub, date])
            
        count += 1
        print()
        time.sleep(60)

In [2]:
url = "https://news.nate.com/recent?mid=n0100"
crawler(url)

1회 출력입니다
['이재명 부부 법카 제보자 공개 회견 "명백한 범죄…진실 말해 편해지길"', '//news.nate.com/view/20231018n13355?mid=n0100', '조선일보', '10-18 11:31']
['결혼·취업 못한 좌절 청년 포섭하는 하마스…분노를 노린다 [노석조의 외설]', '//news.nate.com/view/20231018n00238?mid=n0100', '조선일보', '10-18 11:30']
['수지·양세종, 올 블랙 하트 [SE★포토]', '//news.nate.com/view/20231018n14776?mid=n0100', '서울경제', '10-18 11:30']
["[포토]'이두나!' 수지, 은퇴한 아이돌 이두나로 변신", '//news.nate.com/view/20231018n14775?mid=n0100', '조이뉴스24', '10-18 11:30']
['국감서 업무현황보고하는 부산대 차정인총장', '//news.nate.com/view/20231018n14774?mid=n0100', '연합뉴스', '10-18 11:30']
['\'물오른 득점력\' 황희찬 "팀에 집중하면 개인 기록도 따라올 것"', '//news.nate.com/view/20231018n14773?mid=n0100', '쿠키뉴스', '10-18 11:30']
["베스핀글로벌, '韓-중동 디지털 이노베이션 포럼 2023' 성료", '//news.nate.com/view/20231018n14772?mid=n0100', '이데일리', '10-18 11:30']
['국감서 업무현황보고하는 부산대 차정인총장', '//news.nate.com/view/20231018n14771?mid=n0100', '연합뉴스', '10-18 11:30']
['수지·양세종, 비주얼 커플 [SE★포토]', '//news.nate.com/view/20231018n14770?mid=n0100', '서울경제', '10-18 11:30']
['[영상] "이 사람 보셨으면"…한손에 아