# GUIDE
- html, css를 간단하게 먼저 한다.
    - example.html을 같이 만든다.

# 데이터 수집개요

## 데이터 선정

- 요구사항 분석을 통해 분석목표가 정해졌다면 어떤 데이터를 수집할지 선정해야 한다.
    - 수집 대상 데이터는 그 목적과 직접적 관련이 있는 데이터과 간접적 관련이 있는 데이터가 있다.
    - 예: 축구 승리에 미치는 영향을 주는 요인들
        - **축구와 직접 관련된 데이터(요인)**
            - 축구 기록 관련: 골, 득점 기대수치, 볼 점유율, 패스 성공율, 슈팅 시도, 태클 시도 및 성공등
            - 선수 관련: 연봉, 나이, 경력, 최근 경기 성적등
            - 기타: 홈 원정 여부, 경기 시작 시간, 최근 5경기 결과, 직전 경기 결과 등
        - **간접 관련된 데이터(요인)**
            - 경기 당일 날씨
            - 관중수, 응원단 수
            

## 데이터 수집 방법 선정
- 수집할 데이터를 선정했다면 그 다음은 어떻게 데이터를 수집할지 그 방법을 정해야 한다.
- **어디서 구할 것인가?**
    - 사내 데이터베이스
    - 외부 데이터
        - 외부 데이터일 경우 어디서 구할 수 있는지 조사해야한다.
            - 공개 데이터셋
            - 유료 데이터셋
            - 데이터 크롤링(crawling)
                - 크롤링시 법적 문제는 없는지 확인해야 한다.
- **수집할 데이터의 양은 충분한지 확인**
    - 의미 있는 결과를 얻으려면 다양한 패턴의 데이터를 의미 있는 양만큼 수집해야 한다.
    - 수집 데이터가 한쪽에 편향 되지 않아야 한다. 
        - 스팸메일을 분석하기 위한 데이터를 수집할 때 정상메일이 스팸메일보다 훨씬 만다면?
        - 지하철 호선별 평균이용량을 수집하는데 1호선은 7월, 2호선은 2월, 3호선은 12월 같이 다른 기준으로 데이터를 수집한다면?
- **수집할 데이터가 신뢰할만 한 데이터인지 확인 필요**
    - 4차산업혁명, 인터넷, SNS 발달로 데이터의 양이 급증가하여 데이터 수집이 쉬워짐.
    - 쉬어진 만큼 신뢰하기 힘든 데이터들도 급증함. 그래서 **수집한 데이터가 신뢰할 만한 데이터인지 구별하는 것이 중요해졌다.**
        - 특히 출처가 불분명한 데이터 (커뮤니티 글, 유튜브 영상, 지식IN 등)일 경우 확인이 필요함.

## 데이터 수집 주기
- 일회성인지 주기적으로 수집해야 하는 데이터인지에 따라 방법과 도구가 달라질 수 있다.
- **일회성 데이터**
    - 수집한 데이터를 csv, txt등의 파일형식으로 저장하여 활용한다.
    - 변하지 않는 데이터셋으로 국가나 도시정보등이 있다.
- **주기적으로 수집이 필요한 데이터**
    - 자동화 시스템 구축을 하여 데이터베이스에 데이터를 주기적으로 수집, 저장한다.
    - 변하는 데이터로 대부분이 여기에 속한다.

## [크롬개발자 도구](https://developers.google.com/web/tools/chrome-devtools/)

# BeautifuSoup
- HTML이나 XML 문서 내에서 원하는 정보를 가져오기 위한 파이썬 라이브러리.
- https://www.crummy.com/software/BeautifulSoup/
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 설치
```
conda install beautifulsoup4
pip install beautifulsoup4
```

## 코딩 패턴
1. BeautifulSoup 클래스 import
2. BeautifulSoup 객체 생성 
    - 생성시 조회할 HTML 문서 전달
3. 문서내에서 필요한 정보 조회
    - 태그이름과 태그 속성으로 조회
    - css selector를 이용해 조회
    - . 표기법을 이용한 탐색(Tree 구조 순서대로 탐색)

In [9]:
# bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
#   Exception 발생: lxml 설치 한 뒤 커널 **restart 한다.**

soup = BeautifulSoup(html_doc, "lxml")
tags = soup.find_all('a')
tags = soup.find_all(['a', 'p'])  #여러 태그 조회 => 리스트
tags = soup.find_all([], 'cnt') # '' : 모든태그(빈 리스트) 중 class가 cnt인 것
tags = soup.find_all('span', attrs={'class':'cnt'}) #속성:값으로 조회 =>attrs:딕셔너리
tags = soup.find_all( attrs={'id':'content'})
# tags = soup.find_all("a", attrs={'href':re.compile('kr$')})  #값에 정규표현식 가능
# tags = soup.find_all('a', attrs={'href':re.compile("^https")})  # https로 시작하는.
# tags = soup.find_all('a', attrs={'href':re.compile("^http[^s]")}) #https 로 시작하지 않는
tags

[]

In [24]:
tags = soup.find_all('div', attrs={'id':'animal1'})
print(type(tags))
print(tags[0].contents)
for a in tags[0].contents:
    print(type(a))

# NavigableString : 문자열 element
# Tag: 태그 element    # 

<class 'bs4.element.ResultSet'>
['\n', <div class="animal">사자</div>, '\n', <div class="cnt">3마리</div>, '\n']
<class 'bs4.element.NavigableString'>
<class 'bs4.element.Tag'>
<class 'bs4.element.NavigableString'>
<class 'bs4.element.Tag'>
<class 'bs4.element.NavigableString'>


## BeautifulSoup 클래스 import

In [4]:
#1. 임포트 * bs4모듈
from bs4 import BeautifulSoup

## 객체 생성
- BeautifulSoup(html str [, 파서])
    - 매개변수
        1. 정보를 조회할 html을 string으로 전달
        2. 파서
            - html.parser(기본파서)
            - lxml : 매우 빠르다. html, xml 파싱 가능(xml 파싱은 lxml만 가능)
                - 사용시 install 필요 
                - `conda install lxml`
                - `pip install lxml`
                - install 후 커널 restart 시킨다.

In [5]:
with open(file="example.html", mode='rt', encoding='utf-8') as f:
    html_doc = f.read()
    print(html_doc);
soup = BeautifulSoup(html_doc)

<html>
    <head>
		<meta charset="utf-8">
        <title>조회할 대상</title>
    </head>
    <body>
		<div id='animal1'>
			<div class='animal'>사자</div>
			<div class='cnt'>3마리</div>
		</div>
		<p>
		<div id='animal2'>
			<div class='animal'>호랑이</div>
			<div class='cnt'>2마리</div>
		</div>
		<p>
		<div id='animal3'>
			<div class='animal'>기린</div>
			<div class='cnt'>5마리</div>
		</div>
		<p>
		<div id='content'>
			동물원에 <span class='animal'>기린</span>이 <span class='cnt'>5마리</span> 있습니다.
		</div>
		<p>
		<h1>동물원 링크</h1>
		<ul>
			<li><a href='https://grandpark.seoul.go.kr'>서울대공원</a></li>
			<li><a href='http://www.everland.com'>에버랜드 동물원</a></li>
			<li><a href='https://www.coexaqua.com'>코엑스 아쿠아리움</a></li>
		</ul>
		<a href='http://www.google.co.kr'>구글</a>
        
    </body>
</html>


In [6]:
# 문서 정리
print(soup.prettify())

<html>
 <head>
  <meta charset="utf-8"/>
  <title>
   조회할 대상
  </title>
 </head>
 <body>
  <div id="animal1">
   <div class="animal">
    사자
   </div>
   <div class="cnt">
    3마리
   </div>
  </div>
  <p>
  </p>
  <div id="animal2">
   <div class="animal">
    호랑이
   </div>
   <div class="cnt">
    2마리
   </div>
  </div>
  <p>
  </p>
  <div id="animal3">
   <div class="animal">
    기린
   </div>
   <div class="cnt">
    5마리
   </div>
  </div>
  <p>
  </p>
  <div id="content">
   동물원에
   <span class="animal">
    기린
   </span>
   이
   <span class="cnt">
    5마리
   </span>
   있습니다.
  </div>
  <p>
  </p>
  <h1>
   동물원 링크
  </h1>
  <ul>
   <li>
    <a href="https://grandpark.seoul.go.kr">
     서울대공원
    </a>
   </li>
   <li>
    <a href="http://www.everland.com">
     에버랜드 동물원
    </a>
   </li>
   <li>
    <a href="https://www.coexaqua.com">
     코엑스 아쿠아리움
    </a>
   </li>
  </ul>
  <a href="http://www.google.co.kr">
   구글
  </a>
 </body>
</html>


## 문서내에서 원하는 정보 검색

### Tag 객체
- 하나의 태그(element)에 대한 정보를 다루는 객체.
    - BeautifulSoup 조회 메소드들의 조회결과의 반환타입.
    - 조회 함수들을 이용해 조회하면 그 결과를 **Tag 객체**나 **Tag 객체들을 담은 List(ResultSet)**로 반환한다.
    - Tag 객체를 이용해 element로 부터 text나 attribute등을 조회하거나 그 하위 element 들을 추가로 조회할 수 있다.
- 주요 속성/메소드
    - **태그의 속성값 조회**
        - tag객체.get('속성명') 
        - tag객체\['속성명'\]
        - ex) tag.get('href') 또는 tag\['href'\]
    - **태그내 text값 조회**
        - tag객체.get_text()
        - tag객체.text
        - ex) tag.get_text() 또는 tag.text
    - **contents 속성**
        - 조회한 태그의 모든 자식 요소들을 리스트로 반환
        - ex) child_list = tag.contents

## 조회 함수
- **태그의 이름으로 조회**
    - find_all()
    - find()
- **css selector를 이용해 조회**
    - select(), select_one()
- **`.` 표기법(dot notation)**
    - dom tree 구조의 계층 순서대로 조회
    - 위의 두방식으로 찾은 tag를 기준으로 그 주위의 element 들을 찾을 때 사용

### 태그의 이름으로 조회
- **find_all**(name=태그명, attrs={속성명:속성값, ..})
   - 이름의 모든 태그 element들을 리스트에 담아 반환.
   - 여러 이름의 태그를 조회할 경우 List에 태그명들을 묶어서 전달한다.
   - 태그의 attribute 조건으로만 조회할 경우 name을 생략한다. 
- **find**(name=태그명, attrs={속성명:속성값})
    - 이름의 태그중 첫번째 태그 element를 반환.

In [2]:
from bs4 import BeautifulSoup

In [3]:
with open(file="example.html", mode='rt', encoding='utf-8') as f:
    html_doc = f.read()
    print(html_doc);
soup = BeautifulSoup(html_doc)

<html>
    <head>
		<meta charset="utf-8">
        <title>조회할 대상</title>
    </head>
    <body>
		<div id='animal1'>
			<div class='animal'>사자</div>
			<div class='cnt'>3마리</div>
		</div>
		<p>
		<div id='animal2'>
			<div class='animal'>호랑이</div>
			<div class='cnt'>2마리</div>
		</div>
		<p>
		<div id='animal3'>
			<div class='animal'>기린</div>
			<div class='cnt'>5마리</div>
		</div>
		<p>
		<div id='content'>
			동물원에 <span class='animal'>기린</span>이 <span class='cnt'>5마리</span> 있습니다.
		</div>
		<p>
		<h1>동물원 링크</h1>
		<ul>
			<li><a href='https://grandpark.seoul.go.kr'>서울대공원</a></li>
			<li><a href='http://www.everland.com'>에버랜드 동물원</a></li>
			<li><a href='https://www.coexaqua.com'>코엑스 아쿠아리움</a></li>
		</ul>
		<a href='http://www.google.co.kr'>구글</a>
        
    </body>
</html>


In [4]:
type(soup.find_all('div')[0])

bs4.element.Tag

In [9]:
#ani를 돌리면 각 태그사이의 엔터까지 조회된다. = bs4.element.NavigableString

ani1 = soup.find('div', attrs={'id':'animal1'})
print(ani1)
print("="*50)
for t in ani1:
    print(type(t), t, sep=": ")

<div id="animal1">
<div class="animal">사자</div>
<div class="cnt">3마리</div>
</div>
<class 'bs4.element.NavigableString'>: 

<class 'bs4.element.Tag'>: <div class="animal">사자</div>
<class 'bs4.element.NavigableString'>: 

<class 'bs4.element.Tag'>: <div class="cnt">3마리</div>
<class 'bs4.element.NavigableString'>: 



In [11]:
# Tag에서 조건에 맞는 하위태그를 조회 (#animal1 의 하위중 div 태그 조회)

ani1_info = ani1.find_all('div')
for info in ani1_info:
    print(info.text)

사자
3마리


In [12]:
from pprint import pprint
# class 가 animal인 태그들 조회 => 속성으로 조회
cls_animal_list = soup.find_all(attrs='animal')  #(attrs={'class':'animal'})
pprint(cls_animal_list)

[<div class="animal">사자</div>,
 <div class="animal">호랑이</div>,
 <div class="animal">기린</div>,
 <span class="animal">기린</span>]


In [13]:
# class 가 cnt인 태그 조회
cls_cnt_list = soup.find_all(attrs='cnt')# (attrs={'class':'cnt'})
pprint(cls_cnt_list)

[<div class="cnt">3마리</div>,
 <div class="cnt">2마리</div>,
 <div class="cnt">5마리</div>,
 <span class="cnt">5마리</span>]


In [15]:
# 두개 이상의 태그 조회: 묶어서 전달
tags = soup.find_all(['div','span'])
pprint(tags)

[<div id="animal1">
<div class="animal">사자</div>
<div class="cnt">3마리</div>
</div>,
 <div class="animal">사자</div>,
 <div class="cnt">3마리</div>,
 <div id="animal2">
<div class="animal">호랑이</div>
<div class="cnt">2마리</div>
</div>,
 <div class="animal">호랑이</div>,
 <div class="cnt">2마리</div>,
 <div id="animal3">
<div class="animal">기린</div>
<div class="cnt">5마리</div>
</div>,
 <div class="animal">기린</div>,
 <div class="cnt">5마리</div>,
 <div id="content">
			동물원에 <span class="animal">기린</span>이 <span class="cnt">5마리</span> 있습니다.
		</div>,
 <span class="animal">기린</span>,
 <span class="cnt">5마리</span>]


In [17]:
# id가 animal1 인 것 조회
id_animal1 = soup.find(attrs={'id':'animal1'})
pprint(id_animal1)
print('-'*10)
d = id_animal1.find(attrs={'class':'animal'})
print(d, d.get_text(), d.get('class'), sep=' :: ')

<div id="animal1">
<div class="animal">사자</div>
<div class="cnt">3마리</div>
</div>
----------
<div class="animal">사자</div> :: 사자 :: ['animal']


In [21]:
# 링크 조회
a_list = soup.find_all('a')
pprint(a_list)

[<a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="http://www.everland.com">에버랜드 동물원</a>,
 <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>,
 <a href="http://www.google.co.kr">구글</a>]


In [15]:
zoo_urls = [a.get('href') for a in a_list]
zoo_urls

['https://grandpark.seoul.go.kr',
 'http://www.everland.com',
 'https://www.coexaqua.com',
 'http://www.google.co.kr']

In [16]:
# tag.findXXXX() : tag(부모) 내의 element를 찾는다.
# soup.findXXXX() : 전체 문서내에서 element를 찾는다.

ani_1 = soup.find('div', attrs={'id': 'animal1'})
ani = ani_1.find(attrs={'class': 'animal'})
ani
# soup.find('div', attrs={'id':'animal1'}).find(attrs={'class':'animal'})

<div class="animal">사자</div>

In [23]:
# 정규식 이용 (name아니 attrs의 값에 정규식 사용가능. 패턴객체(re.compile())를 전달.)
# select에는 사용 못함.
# print(type(re.compile(r'animal\d')))
results = soup.find_all(attrs={'id': re.compile(r'animal\d')})
pprint(results)

[<div id="animal1">
<div class="animal">사자</div>
<div class="cnt">3마리</div>
</div>,
 <div id="animal2">
<div class="animal">호랑이</div>
<div class="cnt">2마리</div>
</div>,
 <div id="animal3">
<div class="animal">기린</div>
<div class="cnt">5마리</div>
</div>]


In [18]:
soup.find_all('a', attrs={'href':re.compile(r'kr$')})

[<a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="http://www.google.co.kr">구글</a>]

### CSS Selector를 이용해 조회
- select(selector='css셀렉터')
    - css 셀렉터와 일치하는 tag들을 반환한다.
- select_one(selector='css셀렉터')
    - css 셀렉터와 일치하는 tag를 반환한다.
    - 일치하는 것이 여러개일 경우 첫번째 것 하나만 반환한다.

#### 태그명으로 조회

In [19]:
soup.select('div')

[<div id="animal1">
 <div class="animal">사자</div>
 <div class="cnt">3마리</div>
 </div>,
 <div class="animal">사자</div>,
 <div class="cnt">3마리</div>,
 <div id="animal2">
 <div class="animal">호랑이</div>
 <div class="cnt">2마리</div>
 </div>,
 <div class="animal">호랑이</div>,
 <div class="cnt">2마리</div>,
 <div id="animal3">
 <div class="animal">기린</div>
 <div class="cnt">5마리</div>
 </div>,
 <div class="animal">기린</div>,
 <div class="cnt">5마리</div>,
 <div id="content">
 			동물원에 <span class="animal">기린</span>이 <span class="cnt">5마리</span> 있습니다.
 		</div>]

In [20]:
soup.select_one('div')

<div id="animal1">
<div class="animal">사자</div>
<div class="cnt">3마리</div>
</div>

In [21]:
soup.select('div, a')

[<div id="animal1">
 <div class="animal">사자</div>
 <div class="cnt">3마리</div>
 </div>,
 <div class="animal">사자</div>,
 <div class="cnt">3마리</div>,
 <div id="animal2">
 <div class="animal">호랑이</div>
 <div class="cnt">2마리</div>
 </div>,
 <div class="animal">호랑이</div>,
 <div class="cnt">2마리</div>,
 <div id="animal3">
 <div class="animal">기린</div>
 <div class="cnt">5마리</div>
 </div>,
 <div class="animal">기린</div>,
 <div class="cnt">5마리</div>,
 <div id="content">
 			동물원에 <span class="animal">기린</span>이 <span class="cnt">5마리</span> 있습니다.
 		</div>,
 <a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="http://www.everland.com">에버랜드 동물원</a>,
 <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>,
 <a href="http://www.google.co.kr">구글</a>]

#### class와 id로 조회

In [22]:
soup.select('.animal')

[<div class="animal">사자</div>,
 <div class="animal">호랑이</div>,
 <div class="animal">기린</div>,
 <span class="animal">기린</span>]

In [23]:
soup.select('#animal1')

[<div id="animal1">
 <div class="animal">사자</div>
 <div class="cnt">3마리</div>
 </div>]

In [24]:
#자식 조회
soup.select('#animal1 > .cnt')

[<div class="cnt">3마리</div>]

In [25]:
# 자손 조회
soup.select('ul a')
# bs.select('ul > a') 이건 조회안된다.

[<a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="http://www.everland.com">에버랜드 동물원</a>,
 <a href="https://www.coexaqua.com">코엑스 아쿠아리움</a>]

In [26]:
a_list = soup.select('ul a')
for a_tag in a_list:
    print(a_tag.get_text(), a_tag.text, sep=' - ');
    print(a_tag.get('href'), a_tag['href'],sep=' - ')

서울대공원 - 서울대공원
https://grandpark.seoul.go.kr - https://grandpark.seoul.go.kr
에버랜드 동물원 - 에버랜드 동물원
http://www.everland.com - http://www.everland.com
코엑스 아쿠아리움 - 코엑스 아쿠아리움
https://www.coexaqua.com - https://www.coexaqua.com


In [27]:
a_list2 = soup.select('a[href $= kr]')
a_list2

[<a href="https://grandpark.seoul.go.kr">서울대공원</a>,
 <a href="http://www.google.co.kr">구글</a>]

In [28]:
from bs4.element import NavigableString
uls = soup.find('ul')
#print(uls.contents)
for li in uls.contents: # 텍스트 element도 조회해서 사이사이 낀 엔터(\n)도 조회된다.
    if type(li)==NavigableString:  #문자열. 
        continue;
    print(li)

<li><a href="https://grandpark.seoul.go.kr">서울대공원</a></li>
<li><a href="http://www.everland.com">에버랜드 동물원</a></li>
<li><a href="https://www.coexaqua.com">코엑스 아쿠아리움</a></li>


In [29]:
soup.select('div:nth-of-type(2)') #같은 부모의 div중 2번째 (div중에서 2번째) -> 형제노드중 div 중에서 2번째인것. (div, p, div -> 세번째자식이지만 div중에는 2번째 이므로 선택된다. nth-child에서는 선택안됨)

[<div class="cnt">3마리</div>,
 <div id="animal2">
 <div class="animal">호랑이</div>
 <div class="cnt">2마리</div>
 </div>,
 <div class="cnt">2마리</div>,
 <div class="cnt">5마리</div>]

In [30]:
soup.select('div:nth-child(2)')  #두번째 자식노드인 div

[<div class="cnt">3마리</div>,
 <div class="cnt">2마리</div>,
 <div class="cnt">5마리</div>]

In [None]:
#  참고 

# 찾은 거에서 select로 찾을 수 있다. 원래 selector를 그대로 사용하면 된다.
soup = BeautifulSoup(html_doc, "lxml")
a =soup.select_one('div#animal1')
a
a.select("body div")