## 웹 크롤링 기초
----

### 1. 웹 크롤링 구조

#### 1) HTML, CSS

![HTML](../etc/html_img.png)

----
#### 2) 웹브라우저 개발자도구

![개발자도구](../etc/browser_1.png)

![개발자도구](../etc/browser_2.png)

----
#### 3) requests 모듈 사용하기

In [1]:
import requests

In [2]:
url = "https://naver.com"

In [3]:
res = requests.get(url)

In [5]:
print(res.status_code)

200


In [8]:
# print(res.text)

----
#### 4) BeautifulSoup 모듈 사용하기

In [23]:
import requests
from bs4 import BeautifulSoup

url = "https://www.naver.com/"
res = requests.get(url)
html = res.text

# HTML 정보를 분석해주는 모듈
soup = BeautifulSoup(html, "html.parser")

In [53]:
a_tag_list = soup.find_all("a")

In [54]:
print(a_tag_list)

[<a href="#topAsideButton"><span>상단영역 바로가기</span></a>, <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a>, <a href="#newsstand"><span>새소식 블록 바로가기</span></a>, <a href="#shopping"><span>쇼핑 블록 바로가기</span></a>, <a href="#feed"><span>관심사 블록 바로가기</span></a>, <a href="#account"><span>MY 영역 바로가기</span></a>, <a href="#widgetboard"><span>위젯 보드 바로가기</span></a>, <a href="#viewSetting"><span>보기 설정 바로가기</span></a>, <a aria-pressed="false" class="item _delAll" href="#" role="button">전체삭제</a>, <a class="kwd_help" data-clk="sly.help" href="https://help.naver.com/alias/search/word/word_35.naver" target="_blank">도움말</a>, <a class="kwd_help" data-clk="sly.help" href="https://help.naver.com/alias/search/word/word_35.naver" target="_blank">도움말</a>, <a class="close _keywordOnOff" href="#">자동저장 끄기</a>, <a data-clk="sly.help" href="https://help.naver.com/alias/search/word/word_35.naver" target="_blank">도움말</a>, <a class="close _close" href="#">닫기</a>, <a aria-pressed="false" class="btn_help _tg_btn" href="#"

In [57]:
a_tag_list[-2]

<a class="report" data-clk="sug.report" href="https://help.naver.com/alias/search/word/word_18.naver" target="_blank">신고</a>

In [58]:
a_tag_list[-2]['href']

'https://help.naver.com/alias/search/word/word_18.naver'

### 2. 웹 크롤링 실습

----
#### 1) 리스트 찾기
- 네이버에 '챗지피티' 검색 후, 뉴스 탭에 나오는 기사 5개 제목 출력하기

In [59]:
import requests
from bs4 import BeautifulSoup

url = "https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query=%EC%B1%97%EC%A7%80%ED%94%BC%ED%8B%B0"
res = requests.get(url)
html = res.text
soup = BeautifulSoup(html, "html.parser")

In [71]:
div = soup.find("div", attrs={"class":"group_news"})

In [77]:
a_tag_list = div.find_all("a", attrs={"class":"news_tit"})

In [78]:
a_tag_list[:5]

[<a class="news_tit" href="http://www.edaily.co.kr/news/newspath.asp?newsid=01082406638919096" onclick="return goOtherCR(this, 'a=nws*e.tit&amp;r=1&amp;i=880000E7_000000000000000005757233&amp;g=018.0005757233&amp;u='+urlencode(this.href));" target="_blank" title='"AI로 병원 일정 관리부터 치매간병서비스까지 제공"[와이즈에이아이 대해부②]'>"AI로 병원 일정 관리부터 치매간병서비스까지 제공"[와이즈에이아이 대해부②...</a>,
 <a class="news_tit" href="https://www.news1.kr/articles/5435291" onclick="return goOtherCR(this, 'a=nws*a.tit&amp;r=2&amp;i=08138263_000000000000000007577843&amp;g=421.0007577843&amp;u='+urlencode(this.href));" target="_blank" title="부산시, 시민과 함께하는 데이터와 챗지피티 특강">부산시, 시민과 함께하는 데이터와 <mark>챗지피티</mark> 특강</a>,
 <a class="news_tit" href="https://zdnet.co.kr/view/?no=20240602105240" onclick="return goOtherCR(this, 'a=nws*j.tit&amp;r=6&amp;i=8800011E_000000000000000002333391&amp;g=092.0002333391&amp;u='+urlencode(this.href));" target="_blank" title="에듀테크 뛰어든 오픈AI, 학교·비영리용 '챗GPT 에듀' 출시">에듀테크 뛰어든 오픈AI, 학교·비영리용 '챗GPT 에듀' 출시</a>,
 <a class="ne

In [79]:
for a in a_tag_list:
    print(a['title'], a['href'])

"AI로 병원 일정 관리부터 치매간병서비스까지 제공"[와이즈에이아이 대해부②] http://www.edaily.co.kr/news/newspath.asp?newsid=01082406638919096
부산시, 시민과 함께하는 데이터와 챗지피티 특강 https://www.news1.kr/articles/5435291
에듀테크 뛰어든 오픈AI, 학교·비영리용 '챗GPT 에듀' 출시 https://zdnet.co.kr/view/?no=20240602105240
농촌진흥청 국립식량과학원, 미래교육아카데미 챗GPT 강사진 초청 '챗지피티 AI 활용 업무효율화' 교육 성료 http://www.fntoday.co.kr/news/articleView.html?idxno=321962
챗지피티, 영화 ‘그녀’ 조핸슨 목소리 베꼈나…“친구도 구별 못 해” https://www.hani.co.kr/arti/international/international_general/1141380.html
전남도, 챗지피티(ChatGPT)로 도정 홍보 나선다 https://www.nocutnews.co.kr/news/6148627?utm_source=naver&utm_medium=article&utm_campaign=20240522023712
챗지피티 뺨치는 첨단의 농촌 소설 [책&생각] https://www.hani.co.kr/arti/culture/book/1141879.html
동양생명, '챗GPT 아이디어 페스티벌' 시상식 개최 http://www.goodkyung.com/news/articleView.html?idxno=237850
부동산원, 청소년에 디지털 역량 강화 교육 https://www.newsis.com/view/?id=NISX20240523_0002745226&cID=10405&pID=10400
국립부경대, '챗지피티 활용 진로·취업전략 캠프' 진행 http://www.enewstoday.co.kr/news/articleView.html?idxno=2129267


----
#### 2) 여러 검색어 입력하기
- '챗지피티' 이외의 검색어도 넣기
- **단, 너무 많이 requests를 호출할 경우, ip가 일시적으로 차단될 수 있으니 주의**

In [80]:
import requests
from bs4 import BeautifulSoup

keyword_list = ['뉴진스', '아이브', '에스파']
for keyword in keyword_list:
    url = f"https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query={keyword}"
    res = requests.get(url)
    html = res.text
    soup = BeautifulSoup(html, "html.parser")
    div = soup.find("div", attrs={"class":"group_news"})
    a_tag_list = div.find_all("a", attrs={"class":"news_tit"})
    for a in a_tag_list[:5]:
        print(a['title'], a['href'])

어도어 "뉴진스 향한 악플 선처 없다…제보 부탁" https://magazine.hankyung.com/business/article/202406058563b
"버니즈 안전·편의 최우선"…확 바뀐 뉴진스 라인프렌즈 팝업 가보니 https://zdnet.co.kr/view/?no=20240605174053
[Y초점] 반토막 난 뉴진스 'How Sweet' 판매량…좋은 시그널은 아니다 https://star.ytn.co.kr/_sn/0117_202406051457168310
뉴진스, 美 빌보드 ‘버블링 언더 핫 100’ 12위 https://sports.khan.co.kr/news/sk_index.html?art_id=202406050734003&sec_id=540301&pt=nv
뉴진스 ‘하우 스위트’ 빌보드 글로벌 7위…통산 5번째 톱10 https://www.hani.co.kr/arti/culture/culture_general/1143354.html
[단독] 아이브 안유진, 맥심 슈프림골드 모델 발탁 https://www.hankyung.com/article/2024060692307
아이브 ‘5월의 여왕’···제베원 함께 한터차트 1위 https://sports.khan.co.kr/news/sk_index.html?art_id=202406040843003&sec_id=540301&pt=nv
아이브, 6월 유럽·남미 투어 돌입 https://isplus.com/article/view/isp202406030201
아이브, 유럽 투어 시작 "행복하고 건강하게…성장해 올 것" https://news.jtbc.co.kr/article/article.aspx?news_id=NB12199200
한혜진, 아이브 안유진과 챌린지 비화 “딸이 부끄러워해”(컬투쇼) https://www.newsen.com/news_view.php?uid=202406061531320310
밟을 수 없는 에스파, 슈퍼노바·아마겟돈 쌍끌이 https://www.newsis.com/view/?id=

----
#### 3) pandas 데이터 프레임 구조

In [87]:
import pandas as pd

row_list = []
for idx in range(10):
    row = {'A': idx, 'B': idx+1}
    row_list.append(row)
    
print(row_list)

[{'A': 0, 'B': 1}, {'A': 1, 'B': 2}, {'A': 2, 'B': 3}, {'A': 3, 'B': 4}, {'A': 4, 'B': 5}, {'A': 5, 'B': 6}, {'A': 6, 'B': 7}, {'A': 7, 'B': 8}, {'A': 8, 'B': 9}, {'A': 9, 'B': 10}]


In [88]:
df = pd.DataFrame(row_list)

In [89]:
df.head()

Unnamed: 0,A,B
0,0,1
1,1,2
2,2,3
3,3,4
4,4,5


----
#### 4) pandas 데이터 프레임으로 바꾸기
- 원하는 검색어 및 뉴스 타이틀과 url을 데이터 프레임으로 변경하기

In [90]:
keyword_list = ['뉴진스', '아이브', '에스파']
row_list = []

for keyword in keyword_list:
    url = f"https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query={keyword}"
    res = requests.get(url)
    html = res.text
    soup = BeautifulSoup(html, "html.parser")
    div = soup.find("div", attrs={"class":"group_news"})
    a_tag_list = div.find_all("a", attrs={"class":"news_tit"})
    for a in a_tag_list[:5]:
        row = {'keyword': keyword, 'title': a['title'], 'url': a['href']}
        row_list.append(row)

In [91]:
df = pd.DataFrame(row_list)
df

Unnamed: 0,keyword,title,url
0,뉴진스,"어도어 ""뉴진스 향한 악플 선처 없다…제보 부탁""",https://magazine.hankyung.com/business/article...
1,뉴진스,"""버니즈 안전·편의 최우선""…확 바뀐 뉴진스 라인프렌즈 팝업 가보니",https://zdnet.co.kr/view/?no=20240605174053
2,뉴진스,[Y초점] 반토막 난 뉴진스 'How Sweet' 판매량…좋은 시그널은 아니다,https://star.ytn.co.kr/_sn/0117_20240605145716...
3,뉴진스,"뉴진스, 美 빌보드 ‘버블링 언더 핫 100’ 12위",https://sports.khan.co.kr/news/sk_index.html?a...
4,뉴진스,뉴진스 ‘하우 스위트’ 빌보드 글로벌 7위…통산 5번째 톱10,https://www.hani.co.kr/arti/culture/culture_ge...
5,아이브,"[단독] 아이브 안유진, 맥심 슈프림골드 모델 발탁",https://www.hankyung.com/article/2024060692307
6,아이브,아이브 ‘5월의 여왕’···제베원 함께 한터차트 1위,https://sports.khan.co.kr/news/sk_index.html?a...
7,아이브,"아이브, 6월 유럽·남미 투어 돌입",https://isplus.com/article/view/isp202406030201
8,아이브,"아이브, 유럽 투어 시작 ""행복하고 건강하게…성장해 올 것""",https://news.jtbc.co.kr/article/article.aspx?n...
9,아이브,"한혜진, 아이브 안유진과 챌린지 비화 공개 “딸이 부끄러워해”",https://www.mk.co.kr/article/11035003


----
#### 5) 이미지 다운로드 받기
- 뉴스 컨텐츠에 있는 썸네일 이미지 다운로드

In [92]:
import requests
from bs4 import BeautifulSoup

url = "https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query=%EC%B1%97%EC%A7%80%ED%94%BC%ED%8B%B0"
res = requests.get(url)
html = res.text
soup = BeautifulSoup(html, "html.parser")

In [95]:
div = soup.find("div", attrs={"class":"group_news"})
div_list = div.find_all("div", attrs={"class":"news_contents"})
div_list[0]

<div class="news_contents"> <a class="dsc_thumb" href="http://www.edaily.co.kr/news/newspath.asp?newsid=01082406638919096" onclick="return goOtherCR(this, 'a=nws*e.img&amp;r=1&amp;i=880000E7_000000000000000005757233&amp;g=018.0005757233&amp;u='+urlencode(this.href));" target="_blank"></a> <a class="news_tit" href="http://www.edaily.co.kr/news/newspath.asp?newsid=01082406638919096" onclick="return goOtherCR(this, 'a=nws*e.tit&amp;r=1&amp;i=880000E7_000000000000000005757233&amp;g=018.0005757233&amp;u='+urlencode(this.href));" target="_blank" title='"AI로 병원 일정 관리부터 치매간병서비스까지 제공"[와이즈에이아이 대해부②]'>"AI로 병원 일정 관리부

In [96]:
first_div = div_list[0]

In [102]:
first_div.find("a").find("img")



In [103]:
img = first_div.find("a").find("img")
img['data-lazysrc']

'https://search.pstatic.net/common/?src=https%3A%2F%2Fimgnews.pstatic.net%2Fimage%2Forigin%2F018%2F2024%2F06%2F06%2F5757233.jpg&type=f200_200&expire=2&refresh=true'

In [104]:
img_url = img['data-lazysrc']

In [105]:
res = requests.get(img_url)
save_path = '../data'
file_name = 'thumnail'

img_down = open(f'{save_path}/{file_name}.jpg', 'wb')
img_down.write(res.content)
img_down.close()