# 8일차 (2024.01.08)

- 개요
    - 데이터 수집 개요

# 데이터 수집개요

데이터 선정
- 요구사항 분석을 통해 분석 목표가 정해졌다면 어떤 데이터를 수집할 지 선정해야 한다.

데이터 수집 방법 선정
- 수집할 데이터를 선정했다면 어떻게 데이터를 수집할 지 그 방법을 정해야 한다.

- **어디서 구할 것인가?**
    - 사내 데이터베이스
    - 외부 데이터
        - 공개 데이터셋
        - 유료 데이터셋
        - 데이터 크롤링
             
데이터 수집 주기
- **일회성 데이터**
    - 수집한 데이터를 csv, txt등의 파일형식으로 저장하여 활용한다.
- **주기적으로 수집이 필요한 데이터**
    - 자동화 시스템 구축을 하여 데이터베이스에 데이터를 주기적으로 수집, 저장한다.

## 데이터 수집 사이트

- **국가 통계포털**: https://kosis.kr
- **공공데이터 포털**: https://www.data.go.kr
- **Kaggle**: 데이터과학 관련 경진대회 플랫폼
- **구글 데이터셋 서치**
- **AI Hub**: AI 학습용 데이터셋
- **Roboflow Universe**: 컴퓨터비전 관련 데이터셋

## BeautifulSoup
- Markup 언어 parsing 라이브러리
    - HTML, XML 문서 내에서 원하는 정보를 가져오기 위한 파이썬 라이브러리

코딩 패턴
1. 조회할 HTML 내용을 전달하여 BeautifulSoup 객체 생성 
2. BeautifulSoup 객체의 메소드들을 이용해 문서내에서 필요한 정보 조회
    - 태그 이름과 속성으로 조회
    - css selector를 이용해 조회
    - . 표기법을 이용한 탐색 (Tree 구조 순서대로 탐색)
  
- BeautifulSoup(html str [, 파서])

In [4]:
with open("../02_크롤링/example.html", "rt", encoding="utf-8") as fr:
    html = fr.read()
# print(html) # 데이터를 가져올 html 문서의 내용을 str으로 정의 => 인터넷에서 가져올 것

In [5]:
# import bs4
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')

In [6]:
print(soup.prettify())

<!-- html태그: 문서의 시작과 끝 표시-->
<!-- head: 문서의 설명 작성하는 태그-->
<!-- body: 문서의 내용을 작성하는 태그-->
<html>
 <head>
  <title>
   example.html 테스트
  </title>
  <meta charset="utf-8"/>
  <style>
   #animal1{color:red}
             .count {color:skyblue}
  </style>
 </head>
 <body>
  <h1>
   동물 목록
  </h1>
  <div id="animal1">
   <div class="animal">
    사자
   </div>
   <div class="count">
    3마리
   </div>
  </div>
  <div id="animal2">
   <div class="animal">
    호랑이
   </div>
   <div class="count">
    10마리
   </div>
  </div>
  <div id="animal3">
   <div class="animal">
    곰
   </div>
   <div class="count">
    5마리
   </div>
  </div>
  <div id="content">
   우리 동물원에는
   <span class="animal">
    기린
   </span>
   도
   <b class="count">
    30마리
   </b>
   있습니다.
  </div>
  <h1>
   다른 동물원
  </h1>
  <!--ul 태그: 순서가 없는 목록, ol: 순서가 있는 목록 -->
  <!--li 태그: ul/ol의 하위태그 - 목록을 구성하는 item을 작성-->
  <ul>
   <li>
    <a href="https://grandpark.seoul.go.kr/main/ko.do">
     서울대공원
    </a>
   </li>
   <li>
    <a href=

Tag 객체
- 하나의 태그(element)에 대한 정보를 다루는 객체.
    - BeautifulSoup 조회 메소드들의 **조회 결과의 반환 타입.**
    - Tag 객체는 찾은 정보를 제공하는 메소드와 Attribute를 가지고 있다.

- 주요 속성/메소드
    - **태그의 속성값 조회**
        - tag객체.get('속성명') 
        - tag객체\['속성명'\]
    - **태그내 text값 조회**
        - tag객체.get_text()
        - tag객체.text
    - **contents 속성**
        - 조회한 태그의 모든 자식 요소들을 리스트로 반환
        - ex) child_list = tag.contents

## 조회 함수
- **태그의 이름으로 조회**
    - find_all()
    - find()
- **css selector를 이용해 조회**
    - select(), select_one()
- **`.` 표기법(dot notation)**
    - dom tree 구조의 계층 순서대로 조회
    - 위의 두방식으로 찾은 tag를 기준으로 그 주위의 element 들을 찾을 때 사용

태그의 이름으로 조회
- **find_all**(name=태그명, attrs={속성명:속성값, ..})
   - 이름의 모든 태그 element들을 리스트에 담아 반환.
   - 태그의 attribute 조건으로만 조회할 경우 name을 생략한다. 
- **find**(name=태그명, attrs={속성명:속성값})
    - 이름의 태그중 첫번째 태그 element를 반환.

In [7]:
# find 메소드 실습
result = soup.find_all("a") # 태그명이 a인 element를 다 조회

print(type(result))
print(result)
print(type(result[0]))
print("==================")
print("태그안에 text:", result[0].text, result[0].get_text())
print("href 속성의 값:", result[0]['href'], result[0].get("href"))
print("==================")
for tag in result:
    # if tag.text == "서울대공원":
    #     continue
    print(tag.text, tag.get("href"))

<class 'bs4.element.ResultSet'>
[<a href="https://grandpark.seoul.go.kr/main/ko.do">서울대공원</a>, <a href="https://www.everland.com/web/everland/favorite/zootopia/index.html">에버랜드 동물원</a>, <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>, <a href="https://www.google.co.kr">구 글</a>, <a href="https://www.w3schools.com">HTML배우기</a>]
<class 'bs4.element.Tag'>
태그안에 text: 서울대공원 서울대공원
href 속성의 값: https://grandpark.seoul.go.kr/main/ko.do https://grandpark.seoul.go.kr/main/ko.do
서울대공원 https://grandpark.seoul.go.kr/main/ko.do
에버랜드 동물원 https://www.everland.com/web/everland/favorite/zootopia/index.html
코엑스 아쿠아리움 https://www.coexaqua.com
구 글 https://www.google.co.kr
HTML배우기 https://www.w3schools.com


In [8]:
result = soup.find_all(["a", "span"]) # <a>, <span> 모두 찾아라
result = soup.find_all("div", attrs={"class", "animal"}) # <div class="animal">
result = soup.find("div", attrs={"class", "count"}) # Tag 객체

print(len(result))
print(result)
print(result.get_text())

1
<div class="count">3마리</div>
3마리


### CSS Selector를 이용해 조회
- **select(selector='css셀렉터')**
    - css 셀렉터와 일치하는 tag들을 반환한다.
- **select_one(selector='css셀렉터')**
    - 일치하는 것이 여러 개일 경우 첫번째 것 하나만 반환한다.

In [9]:
# 태그 이름으로 찾기
result = soup.select("a") # a 태그들
result = soup.select("a, span") # a와 b 태그들. selector1, selector2

# 클래스 이름으로 찾기
result = soup.select(".count") # *.count => 모든 태그 중 class=count인 것들
result = soup.select("div.count") # div 태그 중 class가 count

print(len(result))
print(result)

3
[<div class="count">3마리</div>, <div class="count">10마리</div>, <div class="count">5마리</div>]


In [10]:
# id로 조회
result = soup.select_one("#animal1") # *#animal1 -> 모든 태그들 중 id=animal1
result

<div id="animal1">
<div class="animal">사자</div>
<div class="count">3마리</div>
</div>

In [11]:
# soup.select(), soup,find() 전체 문서 안에서 찾는다.
# 찾은 결과 Tag 하위의 요소들을 추가 검색
result.select_one(".count")

<div class="count">3마리</div>

In [12]:
result = soup.select("ul > li > a")
for tag in result:
    print(tag.text)

서울대공원
에버랜드 동물원
코엑스 아쿠아리움
