<a href="https://colab.research.google.com/github/zuryeong519/Web-crawling-and-scraping/blob/main/%EC%9B%B9%ED%81%AC%EB%A1%A4%EB%A7%81%EA%B3%BC%EC%8A%A4%ED%81%AC%EB%9E%98%ED%95%91.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 실습목표
- 인공지능 모델을 만들기 전에 과제를 어떻게 정의하는지 알 수 있다.
- 타인의 정의된 과제를 살펴보고 필요한 추가 정보가 무엇인지 생각하는 과정을 이해한다.
- 외부(웹) 데이터 수집을 위한 "웹 접속"에 대해 이해할 수 있다.
- 웹에 접속하여 필요한 데이터를 수집하는 과정과 알고 수집할 수 있다.

# 과제 정의

- 데이터를 수집하는 가장 좋은 방법은 내부 데이터를 사용하는 것이다.
- 내부 데이터를 사용하면 데이터에 대한 이해도가 높고, 원하는 형태로의 가공을 쉽게 할 수 있다.
- 그러나, 내부 데이터만으로 인공지능 학습용 데이터를 모두 갖추거나 분석할 수 없는 경우가 많다.
- 흔히 웹 사이트 또는 월드 와이드 웹(WWW)를 "데이터의 바다"라고 말한다.
- 내부 데이터 이외 원하는 데이터를 웹에서 얻는 웹 크롤링 및 스크래핑으로 데이터를 수집해 보겠다.

# 사전 지식

📑 HTML (HyperText Markup Language) : 웹 브라우저에 표시되도록 설계된 문서의 표준 마크업 언어 (Tag 언어)

📑 CSS (Cascading Style Sheets) : 마크업 언어가 실제 표시되는 방법을 기술하는 스타일 언어

📑 Javascript : 동적기능과 연결을 담당하는 언어

# 기본 웹 사이트 접속과 데이터 수신

## 보여지는 정보

In [None]:
# 패키지 로드
import requests
from bs4 import BeautifulSoup

import os
import json
import pandas as pd

- [설명]
  - 패키지는 import 되는 시점에 일부 메모리를 점유하게 된다.
  - 따라서 사용하지 않는 패키지는 import를 하지 않음으로 메모리를 절약할 수 있다.
  - 다만, 운영환경에서 실제 서비스를 하는 경우가 아닌, 개발하는 과정에서는 필요하지 않은 작업이다.
  - 사용하지 않는 패키지는 전체 프로그램을 코드를 살펴봐야 알 수 있다.
  - 하나씩 검색하여 사용 여부를 확인하는 과정이 필요하다.

In [None]:
# 웹 사이트 접속 및 데이터 수신
res = requests.get('https://v.daum.net/v/20231022120603705')

In [None]:
# 서버 접속 및 데이터 수신 결과코드 (200 - 정상, 그외 HTTP 통신결과 코드에 정의)
res.status_code

200

  - 서버에 접속 및 데이터 수신 후 결과코드를 해석하는 것은 중요하다.
  - 다만, 결과코드가 200인 경우만 정상이고 나머지는 해석이 필요한 결과코드다.

In [None]:
# 특정 사이트에 접속하여 데이터를 수신하고, 수신한 데이터와 결과코드를 리턴하는 함수
def get_data(url):
    res = requests.get(url)
    return res.content.decode('utf-8'), res.status_code

web_content_, web_status_code_ = get_data('https://naver.com')
print(web_status_code_)

200


In [None]:
# 수신 데이터 Header 정보
res.headers

{'Date': 'Mon, 20 May 2024 11:32:32 GMT', 'Content-Type': 'text/html;charset=UTF-8', 'Content-Length': '32446', 'Connection': 'keep-alive', 'content-encoding': 'gzip', 'Strict-Transport-Security': 'max-age=15724800; includeSubDomains'}

In [None]:
# 수신 데이터 Body 정보 (일반적으로 HTML)
web_data = res.content.decode('utf-8')
print(web_data)

<!doctype html>
<html class="os_window"> 
 <head data-cloud-area="head"> 
  <meta charset="utf-8"> 
  <meta http-equiv="X-UA-Compatible" content="IE=edge"> 
  <meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1,user-scalable=no"> 
  <meta name="format-detection" content="telephone=no"> 
  <meta name="referrer" content="unsafe-url"> 
  <title>탕후루 대신 바나나, 이걸 추천합니다</title> 
  <link rel="shortcut icon" href="//t1.daumcdn.net/top/favicon.ico"> 
  <meta property="mccp:docId" content="qXbWCXj3DG"> 
  <meta property="og:site_name" content="언론사 뷰"> 
  <meta property="og:title" content="탕후루 대신 바나나, 이걸 추천합니다"> 
  <meta property="og:regDate" content="20231022120603"> 
  <meta property="og:type" content="article"> 
  <meta property="og:article:author" content="오마이뉴스"> 
  <meta property="og:url" content="https://v.daum.net/v/20231022120603705"> 
  <meta property="og:image" content="https://img1.daumcdn.net/thumb/S1200x630/?fname=https://t1.daumcdn.net/news/202310/22/ohm

In [None]:
# 수신 데이터 구조 정비
soup = BeautifulSoup(web_data, 'html.parser')

In [None]:
# 기사제목 및 부가정보 수집
# <h3 class="tit_view" data-translation="true">탕후루 대신 바나나, 이걸 추천합니다</h3>
data = soup.find_all('h3', 'tit_view')

print('기사 제목 : ', data[0].text)
print('부가정보 : ', data[0].attrs)

기사 제목 :  탕후루 대신 바나나, 이걸 추천합니다
부가정보 :  {'class': ['tit_view'], 'data-translation': 'true'}


  - 수신한 웹 데이터에서 필요한 정보에 접근하는 방법은 필수로 알아야 한다.
  - 정보 접근 방법은 html 코드와 css 코드를 이용. (일반적으로 css 더 많이 사용)

In [None]:
# 기사 작성자를 알아내는 코드
data = soup.find_all('span', 'txt_info')
print('기사 작성자 : ', data[0].text)

# 기사 작성일자를 알아내는 코드
data = soup.find_all('span', 'num_date')
print('기사 작성일자 : ', data[0].text)

기사 작성자 :  한제원
기사 작성일자 :  2023. 10. 22. 12:06


## 감춰진 정보

- 추천 정보 : 이 기사에 대해 어떻게 생각하시나요?

In [None]:
# 웹 사이트 접속 및 데이터 수신
# headers = {'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJqdGkiOiJkNzBkMzRjMS1hN2VlLTQ1YmQtYTI5Yi01NDE5YzU3NDBkYmYiLCJjbGllbnRfaWQiOiIyNkJYQXZLbnk1V0Y1WjA5bHI1azc3WTgiLCJmb3J1bV9rZXkiOiJuZXdzIiwiZm9ydW1faWQiOi05OSwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJhdXRob3JpdGllcyI6WyJST0xFX0NMSUVOVCJdLCJzY29wZSI6W10sImV4cCI6MTcxNjIyNjE4OX0.WwH4QFEkarYBA59saUL78jzGUXATAuApPD8Hyj5-BeY'}

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'}
res = requests.get('https://action.daum.net/apis/v1/reactions/home?itemKey=20231022120603705', headers=headers)
res.status_code

200

In [None]:
# 수신한 데이터 출력 = 수신한 데이터는 HTML 데이터가 아니라 JSON 데이터
web_data = res.content.decode('utf-8')
print(web_data)

{"my":null,"item":{"stats":{"LIKE":14,"DISLIKE":0,"GREAT":0,"SAD":0,"ABSURD":0,"ANGRY":6,"RECOMMEND":1,"IMPRESS":0,"OPTION_A":0,"OPTION_B":0},"forumKey":"news"}}


In [None]:
# 수신한 JSON 데이터를 python Dict 자료형으로 변환 후 필요 데이터 선택
web_data_dict = json.loads(web_data)
reactions = web_data_dict['item']['stats']
reactions

{'LIKE': 14,
 'DISLIKE': 0,
 'GREAT': 0,
 'SAD': 0,
 'ABSURD': 0,
 'ANGRY': 6,
 'RECOMMEND': 1,
 'IMPRESS': 0,
 'OPTION_A': 0,
 'OPTION_B': 0}

In [None]:
# pandas 데이터프레임으로 변환
pd.DataFrame([reactions])

Unnamed: 0,LIKE,DISLIKE,GREAT,SAD,ABSURD,ANGRY,RECOMMEND,IMPRESS,OPTION_A,OPTION_B
0,14,0,0,0,0,6,1,0,0,0


# 수집 데이터 정의

- 접속 사이트 : https://search.daum.net/search?w=tot&q=
- 수집 대상 : '핀테크' 키워드 조회결과
- 수집건수 : 가능한 많이
- 저장 위치 : /contents/data

In [None]:
import requests
from bs4 import BeautifulSoup

search_keyword = '핀테크'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36',
           }

url = f'https://search.daum.net/search?w=tot&q={search_keyword}'
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.content.decode('utf-8'), 'html.parser')


In [None]:
soup

<!DOCTYPE html>

<html lang="ko" xmlns="http://www.w3.org/1999/xhtml">
<head profile="http://a9.com/-/spec/opensearch/1.1/">
<meta content="text/html;charset=utf-8" http-equiv="content-Type"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="off" name="autocomplete"/>
<meta content="always" name="referrer"/>
<meta content="telephone=no" name="format-detection">
<meta content="핀테크 – Daum 검색" property="og:title"/>
<meta content="https://search.daum.net/search?w=tot&amp;q=%ED%95%80%ED%85%8C%ED%81%AC" property="og:url"/>
<meta content="Daum 검색에서 핀테크에 대한 최신정보를 찾아보세요." property="og:description"/>
<meta content="https://search1.daumcdn.net/search/statics/common/img/og_search_20240403.png" property="og:image"/>
<meta content="다음검색" property="og:site_name"/>
<title>핀테크 – Daum 검색</title>
<link href="//search.daum.net/OpenSearch.xml" rel="search" title="Daum" type="application/opensearchdescription+xml"/>
<link charset="utf-8" href="//search1.daumcdn.net/search/statics/common

In [None]:
# 수집대상 정보 식별
# total = soup.find_all('a', 'tit_main')
total = soup.find_all('strong', 'tit-g clamp-g')  # 오류가 나면 직접 화면의 CSS 코드를 확인해야 해요. ^^*
total

[<strong class="tit-g clamp-g"> <a href="http://v.daum.net/v/20240520153300509" onclick='smartLog(this, "dc=DNS&amp;p=14&amp;d=26uI3QFADppBeTM7fz&amp;pg=1&amp;r=1&amp;rc=4&amp;e1=16O8sbGdUflWYlfqu4&amp;e3=0&amp;ext=dsid=26uI3QFADppBeTM7fz", event, {"cpid": {"value": "16O8sbGdUflWYlfqu4"}});' target="_blank"> KMAC, 한국<b>핀테크</b>지원센터 2024년 <b>핀테크</b> 인력양성 사업 ‘<b>핀테크</b> 인턴십 코스’ 교육생 모집 </a> </strong>,
 <strong class="tit-g clamp-g"> <a href="http://v.daum.net/v/20240515120008327" onclick='smartLog(this, "dc=DNS&amp;p=14&amp;d=26AAZmH1pyiRczDOlR&amp;pg=1&amp;r=2&amp;rc=4&amp;e1=16EJqgUM0mYHaQpZZ-&amp;e3=0&amp;ext=dsid=26AAZmH1pyiRczDOlR", event, {"cpid": {"value": "16EJqgUM0mYHaQpZZ-"}});' target="_blank"> '<b>핀테크</b> 위크 2024', 8월 27~29일 DDP서 개최 </a> </strong>,
 <strong class="tit-g clamp-g"> <a href="http://v.daum.net/v/20240520165122013" onclick='smartLog(this, "dc=DNS&amp;p=14&amp;d=26Xnts71hRIBSZ8XFS&amp;pg=1&amp;r=3&amp;rc=4&amp;e1=16iegqg-unkCM79rj6&amp;e3=0&amp;ext=dsid=26Xnts71hRIBS

In [None]:
# 식별된 정보 수집
search_result = []
for i in total:
    temp = []
    temp.append(i.text)  # 제목
    search_result.append(temp)

In [None]:
# 저장
search_result = pd.DataFrame(search_result, columns=['title'])
# if not os.path.isdir('/content/data'): os.mkdir('/content/data') # 오류나면 주석을 해제하고 실행하세요 ^^*
search_result.to_csv(f'/content/data/news_핀테크.csv')

# [실습 결과]

- 본 프로그램은 Baseline 프로그램으로 웹 데이터를 수집하는 일련의 과정을 담고 있다.
- 웹 사이트 정보를 수집하는 역량을 기르기 위해서는 다양한 웹 사이트에서 크롤링 또는 스크래핑이 필요하다.
- 아래의 URL 접속 후 정보를 수집해 보았다.
  - 접속 사이트 : https://fintechtimes.co.kr/news/article_list_all.html
  - 수집 대상 : 핀테경제신문의 최신 기사 제목
  - 수집건수 : 1 Page 기사 전체만 수집
  - 저장 위치 : /contents/data

In [None]:
import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'}

url = f'https://fintechtimes.co.kr/news/article_list_all.html'
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.content.decode('utf-8'), 'html.parser')

# 수집대상 정보 식별
total = soup.find_all('h2', 'clamp c2')

# 식별된 정보 수집
search_result = []
for i in total:
    temp = []
    temp.append(i.text)  # 제목
    search_result.append(temp)

# # 저장
search_result = pd.DataFrame(search_result, columns=['title'])
search_result.to_csv(f'news_핀테크.csv')

search_result

[<li class="name">김현진 </li>, <li class="name">김현태 </li>, <li class="name">김현진 </li>, <li class="name">김민주 </li>, <li class="name">김민한 </li>, <li class="name">김현태 </li>, <li class="name">김민주 </li>, <li class="name">김현태 </li>, <li class="name">김민주 </li>, <li class="name">김현진 </li>]


Unnamed: 0,title
0,"KB금융, 세계 최대 사모펀드 운용사 블랙스톤과 포괄적 업무협력 관계 구축"
1,"제일헬스사이언스, ‘2024 팜엑스포’ 참가"
2,"서유석 금융투자협회장, 2024년 ICSA 및 ICMA 연차총회 참석"
3,"동양생명, 1분기 순이익 885억원… 전분기比 13.1% ↑"
4,"알리바바그룹 1688닷컴, 온채널과 한국 도매시장 공략"
5,"대웅제약, 지사제 시장 꽉 잡았다… ‘스타빅’ 6개월 연속 처방액 1위"
6,"KB국민카드, 캐디피 결제도 KB Pay로 됩니다"
7,"휴온스푸디언스, 카카오메이커스서 가정의 달 프로모션 진행"
8,"신한라이프, 서울시 한강공원에 ‘빛나는숲 4호’ 조성 봉사활동 진행"
9,"KB금융, 세계 벌의 날 맞아 K-BEE 프로젝트 영상 캠페인 4탄 ‘꿀벌의 비상’..."
