## 데이터 수집에 도움이 되는 사이트

- **국가 통계포털**
    - https://kosis.kr
    - 통계청에서 관리하는 공공데이터 포털로 다양한 카테고리의 국가 통계데이터를 제공한다.
- **공공데이터 포털**
    - https://www.data.go.kr
    - 행정 안전부에서 제공하는 정부 데이터 포털
- **Kaggle**
    - https://kaggle.com
    - 데이터과학 관련 경진대회 플랫폼
    - 다양한 데이터들을 제공한다.
- **구글 데이터셋 서치**
    - https://datasetsearch.research.google.com
    - 구글에서 제공하는 데이터셋 검색 사이트
    - 키워드를 이용해 다양한 데이터셋을 검색하고 다운로드 받을 수 있다.
- **AI Hub**
    - https://aihub.or.kr
    - 국내외 기관/기업에서 추진한 지능정보산업 인프라 조성사업에서 공개한 AI 학습용 데이터셋들을 제공한다.
- **Roboflow Universe**
    - https://universe.roboflow.com/
    - Roboflow 라는 인공지능 회사에서 운영하는 데이터 저장소 사이트로 컴퓨터비전 관련 데이터셋을 주로 제공한다.
- 기타
    - **지자체**: 서울시 열린 데이터광장, 경기 데이터 드림
    - **금융관련**: 한국거래소, 금융통계정보시스템등
    - **영화관련**: 영화진흥위원회
    - **대중교통**: 국가교통데이터베이스, 교통카드 빅데이터 통합정보시스템등    
    - **관광관련**: 한국 관광 데이터랩등
    - **날씨정보**: 기상청 기상자료 개방포털, 네이버 날씨

## [크롬개발자 도구](https://developers.google.com/web/tools/chrome-devtools/)

- 크롬 개발자 도구는 웹 개발 및 디버깅을 위한 강력한 도구로 크롬 웹브라우저에 내장되어 있다.
    - `F12` 나 팝업 메뉴에서 `검사`를 선택한다.
    - 엣지 브라우저도 같은 개발자 도구를 제공한다.
- 웹 페이지의 HTML, CSS, JavaScript 코드를 검사하고 수정할 수 있으며, 네트워크 요청 응답 내용 분석, 성능 분석, 콘솔 로그 등 다양한 기능을 제공한다.
- 주요 기능
    - **요소 검사:** 웹 페이지의 특정 요소를 선택하여 HTML 구조, CSS 스타일, selector 등을 확인한다.
    - **콘솔:** JavaScript 코드를 실행할 수 있고 Javascript 실행시 발생한 오류 메시지 등을 확인할 수 있다.
    - **소스:** 웹 페이지의 JavaScript 코드를 확인할 수있고 디버깅을 위한 중단점(break point)를 설정하고 디버깅할 수 있다.
    - **네트워크:** 웹 페이지를 요청할 때 발생하는 요청 및 응답 데이터를 분석하고 성능을 측정할 수 있다.
    - **성능:** 웹 페이지의 로딩 시간, 렌더링 성능에 걸린 시간등을 분석할 수 있다.
    - **애플리케이션:** 쿠키, 로컬 스토리지, 세션 스토리지 등 클라이언트 저장 데이터 확인 할 수 있다.
- 개발자 도구는 크롤링 시 필수적인 도구이며, 수집할 페이지를 분석하는데 사용된다.

# BeautifulSoup
- Markup 언어 parsing 라이브러리
    - HTML이나 XML 문서 내에서 원하는 정보를 가져오기 위한 파이썬 라이브러리.
- https://www.crummy.com/software/BeautifulSoup/
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 설치(아나콘다 프롬프트에)
    - beautifulsoup4 설치
        - pip install beautifulsoup4
    - lxml 설치(html/xml parser)
        - pip install lxml 

## 코딩 패턴
1. 조회할 HTML내용을 전달하여 BeautifulSoup 객체 생성 
1. BeautifulSoup객체의 메소드들을 이용해 문서내에서 필요한 정보 조회
    - 태그이름과 태그 속성으로 조회
    - css selector를 이용해 조회
    - . 표기법을 이용한 탐색(Tree 구조 순서대로 탐색)

## BeautifulSoup 객체 생성
- BeautifulSoup(html str [, 파서])
    - 매개변수
        1. 정보를 조회할 html을 string으로 전달
        2. 파서
            - html.parser(기본파서)
            - lxml : 매우 빠르다. html, xml 파싱 가능(xml 파싱은 lxml만 가능)
                - 사용시 install 필요 
                - `conda install lxml`
                - `pip install lxml`
                - install 후 커널 restart 시킨다.

In [2]:
import os
print(os.getcwd())

C:\SKN13SM\SKN13_Sumin\04_web_crawling


In [3]:
## example.html 생성
# 문서 내용
html_content = """
<html>
  <head>
    <title>Example Page</title>
  </head>
  <body>
    <h1>Hello, BeautifulSoup!</h1>
    <p>This is a paragraph.</p>
    <a href="https://example.com">Visit Example.com</a>
  </body>
</html>
"""

# 파일 생성
with open("example.html", "w", encoding="utf-8") as f:
    f.write(html_content)

print("example.html 생성 완료!")


example.html 생성 완료!


In [11]:
## 파일 불러오기

# HTML을 파싱하기 위한 BeautifulSoup 라이브러리를 불러온다.
from bs4 import BeautifulSoup

# example.html 파일을 읽기 모드로 연다.
# r: read, 읽기 전용 / t: text, 텍스트 모드 
with open("example.html", "rt", encoding='utf-8') as fr:
    html_doc = fr.read() # html의 전체 내용을 html_doc에 문자열로 저장한다.

# 잘 불러와졌는지 확인 - 처음 50글자만 출력해서 내용을 확인한다. 
print(html_doc[:50])
print(type(html_doc)) # str


<html>
  <head>
    <title>Example Page</title>
 
<class 'str'>


In [6]:
## html_doc을 beautifulsoup으로 파싱해서 HTML 구조를 분석한다.
soup = BeautifulSoup(html_doc, "lxml")

In [8]:
## 구조화된 HTML이 예쁘게 출력된다. 
print(soup.prettify())

<html>
 <head>
  <title>
   Example Page
  </title>
 </head>
 <body>
  <h1>
   Hello, BeautifulSoup!
  </h1>
  <p>
   This is a paragraph.
  </p>
  <a href="https://example.com">
   Visit Example.com
  </a>
 </body>
</html>



## 문서내에서 원하는 정보 검색

### Tag 객체
- 하나의 태그(element)에 대한 정보를 다루는 객체.
    - BeautifulSoup 조회 메소드들의 **조회결과의 반환타입.**
    - 조회 함수들이 찾은 Element가 하나일 경우 **Tag 객체를, 여러개일 경우 Tag 객체들을 담은 List(ResultSet)**를 반환한다.
    - Tag 객체는 찾은 정보를 제공하는 메소드와 Attribute를 가지고 있다. 또 찾은 Tag가 하위 element를 가질 경우 찾을 수 있는 조회 메소드를 제공한다.
- 주요 속성/메소드
    - **태그의 속성값 조회**
        - tag객체.get('속성명') 
        - tag객체\['속성명'\]
        - ex) tag.get('href') 또는 tag\['href'\]
    - **태그내 text값 조회**
        - tag객체.get_text()
        - tag객체.text
        - ex) tag.get_text() 또는 tag.text
    - **contents 속성**
        - 조회한 태그의 모든 자식 요소들을 리스트로 반환
        - ex) child_list = tag.contents

## 조회 함수
- **태그의 이름으로 조회**
    - find_all()
    - find()
- **css selector를 이용해 조회**
    - select(), select_one()
- **`.` 표기법(dot notation)**
    - dom tree 구조의 계층 순서대로 조회
    - 위의 두방식으로 찾은 tag를 기준으로 그 주위의 element 들을 찾을 때 사용

### 태그의 이름으로 조회
- **find_all**(name=태그명, attrs={속성명:속성값, ..})
   - 이름의 모든 태그 element들을 리스트에 담아 반환.
   - 여러 이름의 태그를 조회할 경우 List에 태그명들을 묶어서 전달한다.
   - 태그의 attribute 조건으로만 조회할 경우 name을 생략한다. 
- **find**(name=태그명, attrs={속성명:속성값})
    - 이름의 태그중 첫번째 태그 element를 반환.

## 🥰 예습

In [37]:
## example_news.html 파일 생성

# 문서 내용
html_content = """
<html>
  <body>
    <div class="news">
      <h2>오늘의 뉴스</h2>
      <p class="content">날씨가 맑습니다.</p>
    </div>
    <div class="news">
      <h2>스포츠 뉴스</h2>
      <p class="content">축구에서 승리했습니다.</p>
    </div>
  </body>
</html>
"""

# 파일 생성
# open() 함수로 파일 열기
# 주요 파라미터: 파일명, 모드, 인코딩
with open("example_news.html", "w", encoding = "utf-8") as f: 
    f.write(html_content)

In [38]:
## 파일 불러오기

# HTML을 파싱하기 위한 BeautifulSoup 라이브러리를 불러온다. 
from bs4 import BeautifulSoup

# example_news.html을 읽기 모드로 연다.
with open("example_news.html", "rt", encoding = "utf-8") as fr:
    html_doc = fr.read()

# 잘 불러와졌는지 확인
print(html_doc[:100])


<html>
  <body>
    <div class="news">
      <h2>오늘의 뉴스</h2>
      <p class="content">날씨가 맑습니다.</p>


## 🥰 파싱이란? (Parsing)
- **파싱 = "문장을 분석해서 구조를 이해하는 일"이야!**

- 사람이 글을 읽으면 문장의 구조를 파악하잖아?
→ 주어, 동사, 목적어처럼.

- 컴퓨터도 HTML 같은 문서를 그냥 읽을 수는 없고,
분석해서 **태그의 구조를 이해**해야 다룰 수 있어!

- 그게 바로 파싱이야. 💡

`soup = BeautifulSoup(html_doc, "lxml")` 이 코드는 **HTML 문서를 파싱**해서 **BeautifulSoup 객체로 만드는 코드**야.

In [39]:
# html_doc을 BeautifulSoup으로 파싱
soup = BeautifulSoup(html_doc, "lxml")

- **html_doc**: 문자열로 되어있는 **html 문서**
- **"lxml"**: 어떤 **파서(parser)**를 쓸 건지 지정. lxml 파서는 빠르고 신뢰성이 좋다. 
- **soup**: 태그 구조가 분석된 html 문서를 담고 있는 **BeautifulSoup 객체**

In [40]:
print(html_doc)


<html>
  <body>
    <div class="news">
      <h2>오늘의 뉴스</h2>
      <p class="content">날씨가 맑습니다.</p>
    </div>
    <div class="news">
      <h2>스포츠 뉴스</h2>
      <p class="content">축구에서 승리했습니다.</p>
    </div>
  </body>
</html>



In [41]:
print(soup) # 파싱 결과 출력

<html>
<body>
<div class="news">
<h2>오늘의 뉴스</h2>
<p class="content">날씨가 맑습니다.</p>
</div>
<div class="news">
<h2>스포츠 뉴스</h2>
<p class="content">축구에서 승리했습니다.</p>
</div>
</body>
</html>



In [42]:
print(soup.prettify())

<html>
 <body>
  <div class="news">
   <h2>
    오늘의 뉴스
   </h2>
   <p class="content">
    날씨가 맑습니다.
   </p>
  </div>
  <div class="news">
   <h2>
    스포츠 뉴스
   </h2>
   <p class="content">
    축구에서 승리했습니다.
   </p>
  </div>
 </body>
</html>



## 🥰 태그 조회의 추천 학습 흐름
- 1단계) 태그명/클래스로 요소 찾기: `find()`, `find_all()`

- 2단계) 텍스트 꺼내기: `get_text()`

- 3단계) 속성 꺼내기:`["href"]`, `get("src")`

- 4단계) CSS 선택자로 정밀하게 찾기:`select()`, `select_one()`

In [28]:
### 1단계: 태그명, 클래스로 요소 찾기

In [22]:
# 모든 뉴스 구역 가져오기
print("1. 모든 뉴스 구역 가져오기: class = \"news\"인 것\n")
print(soup.find_all("div", class_="news"), "\n\n") 

# 각 뉴스의 본문만
print("2. 각 뉴스의 본문만 가져오기 - div(구역 나누는 태그) 아래 p(본문 태그):\n")
print(soup.select("div.news > p.content"))  

1. 모든 뉴스 구역 가져오기: class = "news"인 것

[<div class="news">
<h2>오늘의 뉴스</h2>
<p class="content">날씨가 맑습니다.</p>
</div>, <div class="news">
<h2>스포츠 뉴스</h2>
<p class="content">축구에서 승리했습니다.</p>
</div>] 


2. 각 뉴스의 본문만 가져오기 - div(구역 나누는 태그) 아래 p(본문 태그):

[<p class="content">날씨가 맑습니다.</p>, <p class="content">축구에서 승리했습니다.</p>]


In [29]:
### 2단계: 텍스트 꺼내기

In [24]:
print("뉴스 제목 가져오기:")
print(soup.find("h2").get_text())
# 1. find("h1"): "h2" 태그를 가진 요소를 찾아서
# 2. get_text(): 택스트를 가져온다. 

뉴스 제목 가져오기:
오늘의 뉴스


### 🩷 (참고) AttributeError: 본문에 "h1" 태그가 없는데 find("h1") 한 경우
- AttributeError: 'NoneType' object has no attribute 'get_text'
- 이 말은 쉽게 말해서:
  - soup.find("h1")가 아무것도 못 찾았어 → 그래서 None이 나왔고
  - 그 None한테 .get_text() 하니까 에러 난 거야! ❌

- ☑️ 해결방법 1: HTML에 "h1" 태그가 있는지 확인한다. 
- ☑️ 해결방법 2: if문으로 None 여부 체크 (바로 아래 코드)
- ☑️ 해결방법 3: `print(soup.prettify())` 코드로 구조 확인하기

In [25]:
title_tag = soup.find("h1")

if title_tag:
    print("뉴스 제목:", title_tag.get_text())
else:
    print("h1 태그를 찾을 수 없습니다 😥")


h1 태그를 찾을 수 없습니다 😥


In [43]:
### 잠시 수정!

# <p> 태그 선택
p_tag = soup.find("p", class_="content")
# (참고) 첫 번째 p 태그 뒤에 내용을 붙일 거라 find()를 씀. 
# 두 번째 것을 수정하고 싶다면 find_all() 써서 다 불러오자.

# <a> 태그 새로 만들기
new_a = soup.new_tag("a", href="https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%82%A0%EC%94%A8")
new_a.string = "오늘 날씨 보기"

# <p> 태그 바로 **뒤에** <a> 태그 추가
p_tag.insert_after(new_a)

# 결과 보기
print(soup.prettify())

<html>
 <body>
  <div class="news">
   <h2>
    오늘의 뉴스
   </h2>
   <p class="content">
    날씨가 맑습니다.
   </p>
   <a href="https://search.naver.com/search.naver?where=nexearch&amp;sm=top_hty&amp;fbm=0&amp;ie=utf8&amp;query=%EB%82%A0%EC%94%A8">
    오늘 날씨 보기
   </a>
  </div>
  <div class="news">
   <h2>
    스포츠 뉴스
   </h2>
   <p class="content">
    축구에서 승리했습니다.
   </p>
  </div>
 </body>
</html>



In [46]:
# 실제 html 파일에 저장하려면 open() 함수를 통해 write() 해주어야 한다.
with open("example_news.html", "w", encoding="utf-8") as f:
    f.write(str(soup))  # 수정된 soup 객체를 문자열로 변환해서 저장

In [30]:
### 3단계: 속성 꺼내기

In [None]:
print(soup.find("h2"))

In [47]:
from bs4 import BeautifulSoup

with open("example.html", "rt", encoding="utf-8") as fr:
    html_doc = fr.read()

soup = BeautifulSoup(html_doc, "lxml")

In [48]:
result = soup.find_all("div")

In [49]:
print(len(result))
result

2


[<div class="news">
 <h2>오늘의 뉴스</h2>
 <p class="content">날씨가 맑습니다.</p><a href="https://search.naver.com/search.naver?where=nexearch&amp;sm=top_hty&amp;fbm=0&amp;ie=utf8&amp;query=%EB%82%A0%EC%94%A8">오늘 날씨 보기</a>
 </div>,
 <div class="news">
 <h2>스포츠 뉴스</h2>
 <p class="content">축구에서 승리했습니다.</p>
 </div>]

In [50]:
tag1 = result[0]
print("content:", tag1.text, tag1.get_text())
print("class속성값:", tag1.get("class"), tag1['class'])

content: 
오늘의 뉴스
날씨가 맑습니다.오늘 날씨 보기
 
오늘의 뉴스
날씨가 맑습니다.오늘 날씨 보기

class속성값: ['news'] ['news']


In [51]:
result = soup.find("div")
print(type(result))
print("-"*50)
print(result)

<class 'bs4.element.Tag'>
--------------------------------------------------
<div class="news">
<h2>오늘의 뉴스</h2>
<p class="content">날씨가 맑습니다.</p><a href="https://search.naver.com/search.naver?where=nexearch&amp;sm=top_hty&amp;fbm=0&amp;ie=utf8&amp;query=%EB%82%A0%EC%94%A8">오늘 날씨 보기</a>
</div>


In [53]:
# 태그의 content와 attribute 조회

print("content text:", result.text)
print("-"*50)
print("content text:", result.get_text())
print("-"*50)
print("attribue의 value:", result.get("class"))
print("-"*50)
print("attribue의 value:", result["class"])

content text: 
오늘의 뉴스
날씨가 맑습니다.오늘 날씨 보기

--------------------------------------------------
content text: 
오늘의 뉴스
날씨가 맑습니다.오늘 날씨 보기

--------------------------------------------------
attribue의 value: ['news']
--------------------------------------------------
attribue의 value: ['news']


In [54]:
# 태그의 모든 자식 요소들 조회
result.contents

['\n',
 <h2>오늘의 뉴스</h2>,
 '\n',
 <p class="content">날씨가 맑습니다.</p>,
 <a href="https://search.naver.com/search.naver?where=nexearch&amp;sm=top_hty&amp;fbm=0&amp;ie=utf8&amp;query=%EB%82%A0%EC%94%A8">오늘 날씨 보기</a>,
 '\n']

In [59]:
from pprint import pprint

result = soup.find_all("a") 
print(result)
print("-"*50)
result = soup.find_all(["a", "span"])  #한번에 여러이름의 태그드을 조회.
print(result)
print("-"*50)
result = soup.find_all("div", attrs={"class":"name"}) # 태그이름 + 속성
print(result)
print("-"*50)
result = soup.find_all("div", attrs={"class":"animal_info", "id":"animal1"}) # 속성 조건이 여러개
print(result)
print("-"*50)
result = soup.find_all("a", attrs={"href":"https://www.coexaqua.com"})

# import re
# result = soup.find_all("a", attrs={"href":re.compile(r".com$")}) # 정규표현식-.com으로 끝나는.

pprint(result)

[<a href="https://search.naver.com/search.naver?where=nexearch&amp;sm=top_hty&amp;fbm=0&amp;ie=utf8&amp;query=%EB%82%A0%EC%94%A8">오늘 날씨 보기</a>]
--------------------------------------------------
[<a href="https://search.naver.com/search.naver?where=nexearch&amp;sm=top_hty&amp;fbm=0&amp;ie=utf8&amp;query=%EB%82%A0%EC%94%A8">오늘 날씨 보기</a>]
--------------------------------------------------
[]
--------------------------------------------------
[]
--------------------------------------------------
[]


In [None]:
result_list = []
for tag in result:
    print(tag.text, tag['href'])
    result_list.append([tag.text, tag['href']]) # list[text, href]


In [None]:
result_list

### CSS Selector를 이용해 조회
- **select(selector='css셀렉터')**
    - css 셀렉터와 일치하는 tag들을 반환한다.
- **select_one(selector='css셀렉터')**
    - css 셀렉터와 일치하는 tag를 반환한다.
    - 일치하는 것이 여러개일 경우 첫번째 것 하나만 반환한다.

In [None]:
from bs4 import BeautifulSoup

with open("example.html", "rt", encoding="utf-8") as fr:
    html_doc = fr.read()

soup = BeautifulSoup(html_doc, "lxml")


In [60]:
# css selector를 이용한 조회

result = soup.select("a")         #  태그이름(a)  
# result = soup.select("a, span") # 태그이름(여러개)
# result = soup.select("ul a")    # ul의 자손인 a태그 찾는다.

# result = soup.select_one("#animal1")             # 모든 태그중 id=animal1
# result = soup.select("ul + div")                 # ul의 다음 형제 태그중 div
# result = soup.select("body > div:nth-child(3)")  # body의 3번째 자식 div

# result = soup.select("a[href]")                        # href 속성이 있는 a 태그들
# result = soup.select("a[href='http://www.naver.com']") # href='http://www.naver.com' 속성을 가진 a 태그
# result = soup.select('a[href$=".do"]')                 # $=  href 속성값이 .do로 끝나는 a태그들
# result = soup.select('a[href^="https"]')               # =^  href 속성값이 https로 시작하는 a태그

pprint(result)

[<a href="https://search.naver.com/search.naver?where=nexearch&amp;sm=top_hty&amp;fbm=0&amp;ie=utf8&amp;query=%EB%82%A0%EC%94%A8">오늘 날씨 보기</a>]


In [None]:
for tag in result:
    print(tag.text, tag['href'], tag.name)