# 데이터 수집개요

## 데이터 선정

- 요구사항 분석을 통해 분석목표가 정해졌다면 어떤 데이터를 수집할지 선정해야 한다.
    - 수집 대상 데이터는 그 목적과 직접적 관련이 있는 데이터과 간접적 관련이 있는 데이터가 있다.
    - 예: 축구 승리에 미치는 영향을 주는 요인들
        - **축구와 직접 관련된 데이터(요인)**
            - 축구 기록 관련: 골, 득점 기대수치, 볼 점유율, 패스 성공율, 슈팅 시도, 태클 시도 및 성공등
            - 선수 관련: 연봉, 나이, 경력, 최근 경기 성적등
            - 기타: 홈 원정 여부, 경기 시작 시간, 최근 5경기 결과, 직전 경기 결과 등
        - **간접 관련된 데이터(요인)**
            - 경기 당일 날씨
            - 관중수, 응원단 수
            

## 데이터 수집 방법 선정
- 수집할 데이터를 선정했다면 그 다음은 어떻게 데이터를 수집할지 그 방법을 정해야 한다.
- **어디서 구할 것인가?**
    - 사내 데이터베이스
    - 외부 데이터
        - 외부 데이터일 경우 어디서 구할 수 있는지 조사해야한다.
            - 공개 데이터셋
            - 유료 데이터셋
            - 데이터 크롤링(crawling)
                - 크롤링시 법적 문제는 없는지 확인해야 한다.
- **수집할 데이터의 양은 충분한지 확인**
    - 의미 있는 결과를 얻으려면 다양한 패턴의 데이터를 의미 있는 양만큼 수집해야 한다.
    - 수집 데이터가 한쪽에 편향 되지 않아야 한다. 
        - 스팸메일을 분석하기 위한 데이터를 수집할 때 정상메일이 스팸메일보다 훨씬 만다면?
        - 지하철 호선별 평균이용량을 수집하는데 1호선은 7월, 2호선은 2월, 3호선은 12월 같이 다른 기준으로 데이터를 수집한다면?
- **수집할 데이터가 신뢰할만 한 데이터인지 확인 필요**
    - 4차산업혁명, 인터넷, SNS 발달로 데이터의 양이 급증가하여 데이터 수집이 쉬워짐.
    - 쉬어진 만큼 신뢰하기 힘든 데이터들도 급증함. 그래서 **수집한 데이터가 신뢰할 만한 데이터인지 구별하는 것이 중요해졌다.**
        - 특히 출처가 불분명한 데이터 (커뮤니티 글, 유튜브 영상, 지식IN 등)일 경우 확인이 필요함.

## 데이터 수집 주기
- 일회성인지 주기적으로 수집해야 하는 데이터인지에 따라 방법과 도구가 달라질 수 있다.
- **일회성 데이터**
    - 수집한 데이터를 csv, txt등의 파일형식으로 저장하여 활용한다.
    - 변하지 않는 데이터셋으로 국가나 도시정보등이 있다.
- **주기적으로 수집이 필요한 데이터**
    - 자동화 시스템 구축을 하여 데이터베이스에 데이터를 주기적으로 수집, 저장한다.
    - 변하는 데이터로 대부분이 여기에 속한다.

## 데이터 수집에 도움이 되는 사이트

- **국가 통계포털**
    - https://kosis.kr
    - 통계청에서 관리하는 공공데이터 포털로 다양한 카테고리의 국가 통계데이터를 제공한다.

- **공공데이터 포털**
    - https://www.data.go.kr
    - 행정 안전부에서 제공하는 정부 데이터 포털
- **Kaggle**
    - https://kaggle.com
    - 데이터과학 관련 경진대회 플랫폼
    - 다양한 데이터들을 제공한다.
- **구글 데이터셋 서치**
    - https://datasetsearch.research.google.com
    - 구글에서 제공하는 데이터셋 검색 사이트
    - 키워드를 이용해 다양한 데이터셋을 검색하고 다운로드 받을 수 있다.
- **AI Hub**
    - https://aihub.or.kr
    - 국내외 기관/기업에서 추진한 지능정보산업 인프라 조성사업에서 공개한 AI 학습용 데이터셋들을 제공한다.
- **Roboflow Universe**
    - https://universe.roboflow.com/
    - Roboflow 라는 인공지능 회사에서 운영하는 데이터 저장소 사이트로 컴퓨터비전 관련 데이터셋을 주로 제공한다.
- 기타
    - **지자체**: 서울시 열린 데이터광장, 경기 데이터 드림
    - **금융관련**: 한국거래소, 금융통계정보시스템등
    - **영화관련**: 영화진흥위원회
    - **대중교통**: 국가교통데이터베이스, 교통카드 빅데이터 통합정보시스템등    
    - **관광관련**: 한국 관광 데이터랩등
    - **날씨정보**: 기상청 기상자료 개방포털, 네이버 날씨

## [크롬개발자 도구](https://developers.google.com/web/tools/chrome-devtools/)

# BeautifulSoup
- Markup 언어 parsing 라이브러리
    - HTML이나 XML 문서 내에서 원하는 정보를 가져오기 위한 파이썬 라이브러리.
- https://www.crummy.com/software/BeautifulSoup/
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 설치
    - conda install beautifulsoup4
    - pip install beautifulsoup4


In [3]:
from bs4 import BeautifulSoup

In [2]:
import bs4

In [3]:
bs4.__version__

'4.11.1'

## 코딩 패턴
1. 조회할 HTML내용을 전달하여 BeautifulSoup 객체 생성 
1. BeautifulSoup객체의 메소드들을 이용해 문서내에서 필요한 정보 조회
    - 태그이름과 태그 속성으로 조회
    - css selector를 이용해 조회
    - . 표기법을 이용한 탐색(Tree 구조 순서대로 탐색)

## BeautifulSoup 객체 생성
- BeautifulSoup(html str [, 파서])
    - 매개변수
        1. 정보를 조회할 html을 string으로 전달
        2. 파서
            - html.parser(기본파서)
            - lxml : 매우 빠르다. html, xml 파싱 가능(xml 파싱은 lxml만 가능)
                - 사용시 install 필요 
                - `conda install lxml`
                - `pip install lxml`
                - install 후 커널 restart 시킨다.

In [5]:
#example_test.html로 부터 내용 조회
with open("example_test.html","rt",encoding='utf-8') as fr:
    docs = fr.read()
print(docs)

<!--주석: html태그:문서의시작과 끝 표시-->
<!--head:문서의 설명을 작성하는 태그-->
<!--body:문서의 내용을 작성하는 태그-->
<html> # 문서의 시작
	<head>
	<title>example_test.html </title>
	<meta charset='utf-8'>	
	<style>
		span{color:red} 
	</style>
	</head>
		
	<body>
		<h1>animal list</h1>
		<div id= "animal1">
			<div class="animal">lion</div>
			<div class="count">3</div>
		</div>
		<div id= "animal2">
			<div class="animal">tiger</div>
			<div class="count">5</div>
		</div>
		<div id= "animal3">
			<div class="animal">kangaroo</div>
			<div class="count">3</div>
		</div>
		<div id= "animal4">
			<div class="animal">bear</div>
			<div class="count">7</div>
		</div>
		<div id="content">
			we also have <span class="animal"> giraffe</span> and <b class="count">30</b>
		</div>
		<h1>
		other zoo
		
		</h1>
		<!--ul 태그: 순서가 없는 목록, ol : 순서가 있는 목록 -->
		<!--li 태그 : ul/ol의 하위태그 - 목록을 구성하는 item을 쟉성--> 
		<ul>
			<li><a href="https://english.visitkorea.or.kr/enu/ATR/SI_EN_3_1_1_1.jsp?cid=1051832">seoul children's grand park</a></li

In [None]:
html.parser(기본파서)
soup=BeautifulParser(docs)도 가능하고 ..Parser(docs,"lxml")도 가능

In [7]:
import lxml

In [6]:
soup=BeautifulSoup(docs,"lxml")

In [None]:
soup.find()

## 문서내에서 원하는 정보 검색

### Tag 객체
- 하나의 태그(element)에 대한 정보를 다루는 객체.
    - BeautifulSoup 조회 메소드들의 **조회결과의 반환타입.**
    - 조회 함수들이 찾은 Element가 하나일 경우 **Tag 객체를, 여러개일 경우 Tag 객체들을 담은 List(ResultSet)**를 반환한다.
    - Tag 객체는 찾은 정보를 제공하는 메소드와 Attribute를 가지고 있다. 또 찾은 Tag가 하위 element를 가질 경우 찾을 수 있는 조회 메소드를 제공한다.
- 주요 속성/메소드
    - **태그의 속성값 조회**
        - tag객체.get('속성명') 
        - tag객체\['속성명'\]
        - ex) tag.get('href') 또는 tag\['href'\]
    - **태그내 text값 조회**
        - tag객체.get_text()
        - tag객체.text
        - ex) tag.get_text() 또는 tag.text
    - **contents 속성**
        - 조회한 태그의 모든 자식 요소들을 리스트로 반환
        - ex) child_list = tag.contents

In [None]:
#element - start(begin) tag + content + stop(end) tag
#<div id= "animal1">
#    <div class="animal">lion</div>
#    <div class="count">3</div>
#</div>
#-> element 예시 상위 하위 element 계층관계도 존재
# lion과 3이 묶여서 하나의 정보를 의미

# 이름="값"의 형태로 속성을 정해줘야한다
# 여러개가 존재할때에도 ,를 사용하지 않는다 공백구분


## 조회 함수
- **태그의 이름으로 조회**
    - find_all()
    - find()
- **css selector를 이용해 조회**
    - select(), select_one()
- **`.` 표기법(dot notation)**
    - dom tree 구조의 계층 순서대로 조회
    - 위의 두방식으로 찾은 tag를 기준으로 그 주위의 element 들을 찾을 때 사용

In [None]:
# find()와 select_one()은 1개만 찾는다
# find와 select는 조회방법이 다름

### 태그의 이름으로 조회
- **find_all**(name=태그명, attrs={속성명:속성값, ..})
   - 이름의 모든 태그 element들을 리스트에 담아 반환.
   - 여러 이름의 태그를 조회할 경우 List에 태그명들을 묶어서 전달한다.
   - 태그의 attribute 조건으로만 조회할 경우 name을 생략한다. 
- **find**(name=태그명, attrs={속성명:속성값})
    - 이름의 태그중 첫번째 태그 element를 반환.

In [8]:
import re
# list로 묶인 태그 이름을 이용해서 조회
result1 = soup.find_all("a") #문서 내에서 <a>를 다 찾아라.
result2 = soup.find_all(["a","span"]) # <a>와 <span>을 찾아라
result3 = soup.find_all("div",attrs={"class":"animal"}) # <div class="animal">
result4=soup.find_all(attrs={"class":"animal"}) # 모든 태그들 중 class="animal"
result5=soup.find_all("a",{"href":"https://www.coexaqua.com"})
result6=soup.find_all("a",{"href":re.compile(r".com$")}) #.com으로 끝나는 경우
result7=soup.find_all(attrs={"href":re.compile(r"com")}) #.com을 포함하는 경우
print(result1)
print("-"*50)
print(result2)
print("-"*50)
print(result3)
print("-"*50)
print(result4)
print("-"*50)
print(result5)
print("-"*50)
print(result6)
print("-"*50)
print(result7)
print("-"*50)
print(type(result7[0]),result7[0])

[<a href="https://english.visitkorea.or.kr/enu/ATR/SI_EN_3_1_1_1.jsp?cid=1051832">seoul children's grand park</a>, <a href="https://www.river-park.com//">han river park</a>, <a href="https://www.coexaqua.com">coex aquarium</a>, <a href="https://www.google.co.kr">google</a>, <a href="https://www.w3schools.com">HTML study</a>]
--------------------------------------------------
[<span class="animal"> giraffe</span>, <a href="https://english.visitkorea.or.kr/enu/ATR/SI_EN_3_1_1_1.jsp?cid=1051832">seoul children's grand park</a>, <a href="https://www.river-park.com//">han river park</a>, <a href="https://www.coexaqua.com">coex aquarium</a>, <a href="https://www.google.co.kr">google</a>, <a href="https://www.w3schools.com">HTML study</a>]
--------------------------------------------------
[<div class="animal">lion</div>, <div class="animal">tiger</div>, <div class="animal">kangaroo</div>, <div class="animal">bear</div>]
--------------------------------------------------
[<div class="animal">

In [9]:
result=soup.find("div",attrs={"id":"animal1"}) #find는 하나만 찾는다. #find():tag
#result=soup.find_all("div",attrs={"id":"animal1"})
print(type(result))
print(result)
# tag 속성
print(result.get("id"),result["id"])
#print(result[0].get("id"),result["id"]) find_all 이면 index지정으로 특정해줘야한다.
# 하위 element
result.find(attrs={"class":"animal"})
result.div
# content() - text 조회
result.text, result.get_text()
result.contents

<class 'bs4.element.ResultSet'>
[<div id="animal1">
<div class="animal">lion</div>
<div class="count">3</div>
</div>]


AttributeError: ResultSet object has no attribute 'get'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

In [49]:
for t in result.contents:
    #print(t)
    #print(type(t))
    if isinstance(t,bs4.element.Tag):
        print(type(t))

<class 'bs4.element.Tag'>
<class 'bs4.element.Tag'>


### CSS Selector를 이용해 조회
- **select(selector='css셀렉터')**
    - css 셀렉터와 일치하는 tag들을 반환한다.
- **select_one(selector='css셀렉터')**
    - css 셀렉터와 일치하는 tag를 반환한다.
    - 일치하는 것이 여러개일 경우 첫번째 것 하나만 반환한다.

In [None]:
# html에 3가지 입력 가능
# html, css, javascript 까지 3가지를 통해서 html 문서 작성 가능
# html을 이용해서는 문서의 구조를 정의 - tag를 이용한 구조 설정
# css를 이용해서는 문서를 꾸며주는 역할 - style 정의
# javascript를 이용해서는 동적 처리의 역할 - 일반적인 프로그램언어 역할

In [None]:
#style 지정부 #여러개 할때는 ;으로 구분
#어떤 부분에 적용할지 정하는 것이 css selector 문법

In [7]:
soup

<!--주석: html태그:문서의시작과 끝 표시--><!--head:문서의 설명을 작성하는 태그--><!--body:문서의 내용을 작성하는 태그--><html><body><p> # 문서의 시작
	</p>
<title>example_test.html </title>
<meta charset="utf-8"/>
<style>
		span{color:red} 
	</style>
<h1>animal list</h1>
<div id="animal1">
<div class="animal">lion</div>
<div class="count">3</div>
</div>
<div id="animal2">
<div class="animal">tiger</div>
<div class="count">5</div>
</div>
<div id="animal3">
<div class="animal">kangaroo</div>
<div class="count">3</div>
</div>
<div id="animal4">
<div class="animal">bear</div>
<div class="count">7</div>
</div>
<div id="content">
			we also have <span class="animal"> giraffe</span> and <b class="count">30</b>
</div>
<h1>
		other zoo
		
		</h1>
<!--ul 태그: 순서가 없는 목록, ol : 순서가 있는 목록 -->
<!--li 태그 : ul/ol의 하위태그 - 목록을 구성하는 item을 쟉성-->
<ul>
<li><a href="https://english.visitkorea.or.kr/enu/ATR/SI_EN_3_1_1_1.jsp?cid=1051832">seoul children's grand park</a></li>
<li><a href="https://www.river-park.com//">han river park</a></li>
<li>lottewor

In [10]:
#태그명으로 조회
result1= soup.select("a") #a태그들
result2=soup.select("span,a") #여러 태그들을 ,로 연결 가능
print("개수:",len(result1))
result2

개수: 5


[<span class="animal"> giraffe</span>,
 <a href="https://english.visitkorea.or.kr/enu/ATR/SI_EN_3_1_1_1.jsp?cid=1051832">seoul children's grand park</a>,
 <a href="https://www.river-park.com//">han river park</a>,
 <a href="https://www.coexaqua.com">coex aquarium</a>,
 <a href="https://www.google.co.kr">google</a>,
 <a href="https://www.w3schools.com">HTML study</a>]

In [15]:
# class 속성으로 조회 => .클래스속성값
# 태그명.클래스속성값
result = soup.select("b.count")
# ex) result = soup.select(".count") 모든 태그들 중에 class="count"를 찾는다는 의미
# result = soup.select("b.count") b태그 들 중에서 class="count"를 찾는다
result


[<b class="count">30</b>]

In [17]:
# id 속성으로 조회 => id 속성값
# 태그명 #id 속성값
result=soup.select("#animal1") # list로 1개가 나온것이다.
result=soup.select_one("#animal1") # list가 아닌 tag로 반환된다.
result

<div id="animal1">
<div class="animal">lion</div>
<div class="count">3</div>
</div>

In [20]:
# 자식 태그(노드) 표현
# parent > child ==> 찾는 대상 : child이므로 parent 하위에 존재해야한다.
result = soup.select("#animal2 > .animal") #class가 animal이고 id가 animal2인것 >가 부모자식의 관계 표현
print(result)
#하위 관계가 2개 이상으로 늘어나면 조상, 자손의 관계라고 한다. 형제관계도 존재 previous sibling, next sibling



[<div class="animal">tiger</div>]


In [25]:
#result=soup.select("li>a")
result=soup.select("ul a") # ul -> li -> a 이므로 조상 자손 관계라 > 표시 하지 않고 그냥 공백으로 표시
# 자손은 자식을 포함한 관계이다.
print(result)
# 		<ul>
# 			<li><a href="https://english.visitkorea.or.kr/enu/ATR/SI_EN_3_1_1_1.jsp?cid=1051832">seoul children's grand park</a></li>			
# 			<li><a href="https://www.river-park.com//">han river park</li>
# 			<li>lotteworld</li>
# 			<li><a href="https://www.coexaqua.com">coex aquarium</a></li>
# 		</ul>

[<a href="https://english.visitkorea.or.kr/enu/ATR/SI_EN_3_1_1_1.jsp?cid=1051832">seoul children's grand park</a>, <a href="https://www.river-park.com//">han river park</a>, <a href="https://www.coexaqua.com">coex aquarium</a>]


In [26]:
for tag in result:
    print(tag.text, tag.get_text(), tag['href'], tag.get('href'))

seoul children's grand park seoul children's grand park https://english.visitkorea.or.kr/enu/ATR/SI_EN_3_1_1_1.jsp?cid=1051832 https://english.visitkorea.or.kr/enu/ATR/SI_EN_3_1_1_1.jsp?cid=1051832
han river park han river park https://www.river-park.com// https://www.river-park.com//
coex aquarium coex aquarium https://www.coexaqua.com https://www.coexaqua.com


In [30]:
result=soup.select("div:nth-child(2)") # div 중에서 2번째 자식 tag를 조회
len(result),result

(4,
 [<div class="count">3</div>,
  <div class="count">5</div>,
  <div class="count">3</div>,
  <div class="count">7</div>])

In [None]:
#개발자 도구(f12)의 도움을 받아 원하는 내용을 얻을 수 있다.