# 데이터 수집개요

## 데이터 선정

- 요구사항 분석을 통해 분석목표가 정해졌다면 어떤 데이터를 수집할지 선정해야 한다.
    - 수집 대상 데이터는 그 목적과 직접적 관련이 있는 데이터과 간접적 관련이 있는 데이터가 있다.
    - 예: 축구 승리에 미치는 영향을 주는 요인들
        - **축구와 직접 관련된 데이터(요인)**
            - 축구 기록 관련: 골, 득점 기대수치, 볼 점유율, 패스 성공율, 슈팅 시도, 태클 시도 및 성공등
            - 선수 관련: 연봉, 나이, 경력, 최근 경기 성적등
            - 기타: 홈 원정 여부, 경기 시작 시간, 최근 5경기 결과, 직전 경기 결과 등
        - **간접 관련된 데이터(요인)**
            - 경기 당일 날씨
            - 관중수, 응원단 수
            

## 데이터 수집 방법 선정
- 수집할 데이터를 선정했다면 그 다음은 어떻게 데이터를 수집할지 그 방법을 정해야 한다.
- **어디서 구할 것인가?**
    - 사내 데이터베이스
    - 외부 데이터
        - 외부 데이터일 경우 어디서 구할 수 있는지 조사해야한다.
            - 공개 데이터셋
            - 유료 데이터셋
            - 데이터 크롤링(crawling)
                - 크롤링시 법적 문제는 없는지 확인해야 한다.
- **수집할 데이터의 양은 충분한지 확인**
    - 의미 있는 결과를 얻으려면 다양한 패턴의 데이터를 의미 있는 양만큼 수집해야 한다.
    - 수집 데이터가 한쪽에 편향 되지 않아야 한다. 
        - 스팸메일을 분석하기 위한 데이터를 수집할 때 정상메일이 스팸메일보다 훨씬 만다면?
        - 지하철 호선별 평균이용량을 수집하는데 1호선은 7월, 2호선은 2월, 3호선은 12월 같이 다른 기준으로 데이터를 수집한다면?
- **수집할 데이터가 신뢰할만 한 데이터인지 확인 필요**
    - 4차산업혁명, 인터넷, SNS 발달로 데이터의 양이 급증가하여 데이터 수집이 쉬워짐.
    - 쉬어진 만큼 신뢰하기 힘든 데이터들도 급증함. 그래서 **수집한 데이터가 신뢰할 만한 데이터인지 구별하는 것이 중요해졌다.**
        - 특히 출처가 불분명한 데이터 (커뮤니티 글, 유튜브 영상, 지식IN 등)일 경우 확인이 필요함.

## 데이터 수집 주기
- 일회성인지 주기적으로 수집해야 하는 데이터인지에 따라 방법과 도구가 달라질 수 있다.
- **일회성 데이터**
    - 수집한 데이터를 csv, txt등의 파일형식으로 저장하여 활용한다.
    - 변하지 않는 데이터셋으로 국가나 도시정보등이 있다.
- **주기적으로 수집이 필요한 데이터**
    - 자동화 시스템 구축을 하여 데이터베이스에 데이터를 주기적으로 수집, 저장한다.
    - 변하는 데이터로 대부분이 여기에 속한다.

## 데이터 수집에 도움이 되는 사이트

- **국가 통계포털**
    - https://kosis.kr
    - 통계청에서 관리하는 공공데이터 포털로 다양한 카테고리의 국가 통계데이터를 제공한다.
- **공공데이터 포털**
    - https://www.data.go.kr
    - 행정 안전부에서 제공하는 정부 데이터 포털
- **Kaggle**
    - https://kaggle.com
    - 데이터과학 관련 경진대회 플랫폼
    - 다양한 데이터들을 제공한다.
- **구글 데이터셋 서치**
    - https://datasetsearch.research.google.com
    - 구글에서 제공하는 데이터셋 검색 사이트
    - 키워드를 이용해 다양한 데이터셋을 검색하고 다운로드 받을 수 있다.
- **AI Hub**
    - https://aihub.or.kr
    - 국내외 기관/기업에서 추진한 지능정보산업 인프라 조성사업에서 공개한 AI 학습용 데이터셋들을 제공한다.
- **Roboflow Universe**
    - https://universe.roboflow.com/
    - Roboflow 라는 인공지능 회사에서 운영하는 데이터 저장소 사이트로 컴퓨터비전 관련 데이터셋을 주로 제공한다.
- 기타
    - **지자체**: 서울시 열린 데이터광장, 경기 데이터 드림
    - **금융관련**: 한국거래소, 금융통계정보시스템등
    - **영화관련**: 영화진흥위원회
    - **대중교통**: 국가교통데이터베이스, 교통카드 빅데이터 통합정보시스템등    
    - **관광관련**: 한국 관광 데이터랩등
    - **날씨정보**: 기상청 기상자료 개방포털, 네이버 날씨

## [크롬개발자 도구](https://developers.google.com/web/tools/chrome-devtools/)

# BeautifulSoup
- Markup 언어 parsing 라이브러리
    - HTML이나 XML 문서 내에서 원하는 정보를 가져오기 위한 파이썬 라이브러리.
- https://www.crummy.com/software/BeautifulSoup/
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 설치
    - beautifulsoup4 설치
        - pip install beautifulsoup4
    - lxml 설치(html/xml parser)
        - pip install lxml 

In [1]:
!pip install lxml

Collecting lxml
  Downloading lxml-5.3.0-cp312-cp312-win_amd64.whl.metadata (3.9 kB)
Downloading lxml-5.3.0-cp312-cp312-win_amd64.whl (3.8 MB)
   ---------------------------------------- 0.0/3.8 MB ? eta -:--:--
   ---------------------------------------- 3.8/3.8 MB 37.8 MB/s eta 0:00:00
Installing collected packages: lxml
Successfully installed lxml-5.3.0


## 코딩 패턴
1. 조회할 HTML내용을 전달하여 BeautifulSoup 객체 생성 
1. BeautifulSoup객체의 메소드들을 이용해 문서내에서 필요한 정보 조회
    - 태그이름과 태그 속성으로 조회
    - css selector를 이용해 조회
    - . 표기법을 이용한 탐색(Tree 구조 순서대로 탐색)

## BeautifulSoup 객체 생성
- BeautifulSoup(html str [, 파서])
    - 매개변수
        1. 정보를 조회할 html을 string으로 전달
        2. 파서
            - html.parser(기본파서)
            - lxml : 매우 빠르다. html, xml 파싱 가능(xml 파싱은 lxml만 가능)
                - 사용시 install 필요 
                - `conda install lxml`
                - `pip install lxml`
                - install 후 커널 restart 시킨다.

In [2]:
from bs4 import BeautifulSoup

with open("example.html", "rt", encoding='utf-8') as fr:
    html_doc = fr.read()
print(html_doc[:50])

<!--HTML(5) 문서 선언-->
<!doctype html>
<!-- ROOT 태그:


In [None]:
soup = BeautifulSoup(html_doc, "lxml")
print(soup.prettify())

## 문서내에서 원하는 정보 검색

### Tag 객체
- 하나의 태그(element)에 대한 정보를 다루는 객체.
    - BeautifulSoup 조회 메소드들의 **조회결과의 반환타입.**
    - 조회 함수들이 찾은 Element가 하나일 경우 **Tag 객체를, 여러개일 경우 Tag 객체들을 담은 List(ResultSet)**를 반환한다.
    - Tag 객체는 찾은 정보를 제공하는 메소드와 Attribute를 가지고 있다. 또 찾은 Tag가 하위 element를 가질 경우 찾을 수 있는 조회 메소드를 제공한다.
- 주요 속성/메소드
    - **태그의 속성값 조회**
        - tag객체.get('속성명') 
        - tag객체\['속성명'\]
        - ex) tag.get('href') 또는 tag\['href'\]
    - **태그내 text값 조회**
        - tag객체.get_text()
        - tag객체.text
        - ex) tag.get_text() 또는 tag.text
    - **contents 속성**
        - 조회한 태그의 모든 자식 요소들을 리스트로 반환
        - ex) child_list = tag.contents

## 조회 함수
- **태그의 이름으로 조회**
    - find_all()
    - find()
- **css selector를 이용해 조회**
    - select(), select_one()
- **`.` 표기법(dot notation)**
    - dom tree 구조의 계층 순서대로 조회
    - 위의 두방식으로 찾은 tag를 기준으로 그 주위의 element 들을 찾을 때 사용

### 태그의 이름으로 조회
- **find_all**(name=태그명, attrs={속성명:속성값, ..})
   - 이름의 모든 태그 element들을 리스트에 담아 반환.
   - 여러 이름의 태그를 조회할 경우 List에 태그명들을 묶어서 전달한다.
   - 태그의 attribute 조건으로만 조회할 경우 name을 생략한다. 
- **find**(name=태그명, attrs={속성명:속성값})
    - 이름의 태그중 첫번째 태그 element를 반환.

In [3]:
from bs4 import BeautifulSoup

with open("example.html", "rt", encoding="utf-8") as fr:
    html_doc = fr.read()

soup = BeautifulSoup(html_doc, "lxml")

In [4]:
result = soup.find_all("div")

In [5]:
result

[<div class="animal_info" id="animal1">
 <div class="name">사자</div>
 <div>3마리</div>
 </div>,
 <div class="name">사자</div>,
 <div>3마리</div>,
 <div class="animal_info">
 <div class="name">호랑이</div>
 <div>10마리</div>
 </div>,
 <div class="name">호랑이</div>,
 <div>10마리</div>,
 <div class="animal_info">
 <div class="name">곰</div>
 <div>5마리</div>
 </div>,
 <div class="name">곰</div>,
 <div>5마리</div>,
 <div class="animal_info">
 <div class="name">낙타</div>
 <div>6마리</div>
 </div>,
 <div class="name">낙타</div>,
 <div>6마리</div>,
 <div id="potal">
 <a href="http://www.naver.com">네이버</a>
 <a href="http://www.naver.com">다음</a>
 <a href="http://www.naver.com">구글</a>
 <a href="http://www.naver.com">구글2</a>
 <a href="http://www.naver.com">구글3</a>
 <a href="http://www.naver.com">구글4</a>
 </div>]

In [9]:
tag1 = result[0]
print("content:", tag1.text, tag1.get_text())
print("class속성값:", tag1.get("class"), tag1['class'])

content: 
사자
3마리
 
사자
3마리

class속성값: ['animal_info'] ['animal_info']


In [10]:
result = soup.find("div")  # 1개
print(type(result))
print("-"*50)
print(result)

<class 'bs4.element.Tag'>
--------------------------------------------------
<div class="animal_info" id="animal1">
<div class="name">사자</div>
<div>3마리</div>
</div>


In [11]:
print("content text:", result.text)
# print("content text:", result.get_text())
# print("attribue의 value:", result.get("class"))
# print("attribue의 value:", result["class"])

content text: 
사자
3마리



In [12]:
result.contents

['\n', <div class="name">사자</div>, '\n', <div>3마리</div>, '\n']

In [24]:
from pprint import pprint

result = soup.find_all("a")              # 태그이름(a)
# result = soup.find_all(["a", "span"])  # 태그이름(여러개)
# result = soup.find_all("div", attrs={"class":"name"})
# result = soup.find_all("div", attrs={"class":"animal_info", "id":"animal1"})
# result = soup.find_all("a", attrs={"href":"https://www.coexaqua.com"})

# import re
# result = soup.find_all("a", attrs={"href":re.compile(r".com$")}) 
# 정규표현식 - .com 으로 끝나는 것만 출력됨.

pprint(result)

[<a href="https://grandpark.seoul.go.kr/main/ko.do">서울 대공원</a>,
 <a href="https://www.everland.com/web/everland/favorite/zootopia/index.html">에버랜드</a>,
 <a href="https://www.coexaqua.com">코엑스아쿠아리움</a>,
 <a href="http://www.naver.com">네이버</a>,
 <a href="http://www.naver.com">다음</a>,
 <a href="http://www.naver.com">구글</a>,
 <a href="http://www.naver.com">구글2</a>,
 <a href="http://www.naver.com">구글3</a>,
 <a href="http://www.naver.com">구글4</a>]


In [25]:
result_list = []
for tag in result:
    print(tag.text, tag['href'])
    result_list.append([tag.text, tag['href']]) # list[text, href]


서울 대공원 https://grandpark.seoul.go.kr/main/ko.do
에버랜드 https://www.everland.com/web/everland/favorite/zootopia/index.html
코엑스아쿠아리움 https://www.coexaqua.com
네이버 http://www.naver.com
다음 http://www.naver.com
구글 http://www.naver.com
구글2 http://www.naver.com
구글3 http://www.naver.com
구글4 http://www.naver.com


In [26]:
result_list

[['서울 대공원', 'https://grandpark.seoul.go.kr/main/ko.do'],
 ['에버랜드',
  'https://www.everland.com/web/everland/favorite/zootopia/index.html'],
 ['코엑스아쿠아리움', 'https://www.coexaqua.com'],
 ['네이버', 'http://www.naver.com'],
 ['다음', 'http://www.naver.com'],
 ['구글', 'http://www.naver.com'],
 ['구글2', 'http://www.naver.com'],
 ['구글3', 'http://www.naver.com'],
 ['구글4', 'http://www.naver.com']]

### CSS Selector를 이용해 조회
- **select(selector='css셀렉터')**
    - css 셀렉터와 일치하는 tag들을 반환한다.
- **select_one(selector='css셀렉터')**
    - css 셀렉터와 일치하는 tag를 반환한다.
    - 일치하는 것이 여러개일 경우 첫번째 것 하나만 반환한다.

In [None]:
from bs4 import BeautifulSoup

with open("example.html", "rt", encoding="utf-8") as fr:
    html_doc = fr.read()

soup = BeautifulSoup(html_doc, "lxml")


In [31]:
# result = soup.select("a")             # 태그이름(a)
# result = soup.select("a, span")       # 태그이름(여러개)
# result = soup.select("ul a")          # ul 의 자손인 a 태그를 찾는다.
# result = soup.select_one("#animal1")  # 모든 태그중  id 속성 = animal1
# result = soup.select("ul + div")      # ul의 다음 형제 태그중 div
# result = soup.select("body > div:nth-child(3)")  # body 의 3번째 자식 div
# result = soup.select("a[href]")       # href 속성이 있는 a 태그들
# result = soup.select("a[href='http://www.naver.com']")  # href='http://www.naver.com' 속성을 가진 a태그 
# result = soup.select('a[href$=".do"]')  # $ = href 속성값이 .do로 끝나는 a태그들
result = soup.select('a[href^="https"]') # =^ href 속성값이 https로 시작하는 a태그

pprint(result)

[<a href="https://grandpark.seoul.go.kr/main/ko.do">서울 대공원</a>,
 <a href="https://www.everland.com/web/everland/favorite/zootopia/index.html">에버랜드</a>,
 <a href="https://www.coexaqua.com">코엑스아쿠아리움</a>]


In [33]:
for tag in result:
    print(tag.text, tag['href'], tag.name)

서울 대공원 https://grandpark.seoul.go.kr/main/ko.do a
에버랜드 https://www.everland.com/web/everland/favorite/zootopia/index.html a
코엑스아쿠아리움 https://www.coexaqua.com a
