## 1. 파이썬을 이용한 웹 크롤링 기본 (requests 패키지와  bs4 패키지)
- requests 패키지 : 웹페이지에 접속해서 접속한 웹페이지를 객체로 가져올 수 있도록 해준다.
 - get : 사용자가 입력한 주소의 html 페이지를 가져온다.
- bs4 패키지 : html 태그를 파싱(해석)해서 필요한 데이타를 추출할 수 있도록 해준다.
 - BeautifulSoup : bs4 패키지 내의 클래스로 html 문서를 파싱 가능한 객체로 만들어준다
   - find : 찾고 싶은 태그중 가장 먼저 검색되는 태그를 찾아준다. 
   - find_all : 찾고 싶은 전체 테그를 찾아준다. 
   - get_text : 해당 태그의 데이타를 반환한다.

## 2. 웹페이지는 ?
- html, css, javascript 등으로 구성된다. 
- html 언어는 웹페이지를 만드는 기본 언어로 <태그> 보여줄 내용 </태그> 형식으로 되어 있음
- 알고있어야 할 html 기본 태그 
 - html, head, body, title, meta, h1~h6, p, br, strong, b, em, i, span, hr 등   
 - ul, ol, li, dl, dt, dd 등
 - table, thead, tbody, tr, th 등
 - img, a, div 등
- 웹페이지에 css(글자 모양, 크기, 색깔, 정렬 등)을 적용하는 3가지 방법
 - html 태그에 일일히 style 속성을 지정하는 방법(inline 방식)
 - head 태그 안에 style 태그를 만들고, 그 안에 style 관련 코드를 쓰는 방식(내부 style 시트 방식)
 - 별도의 화일에 style을 만들어 놓은 후 이용하는 방식(외부 style 시트 방식)

## 3. 웹페이지에서 원하는 데이타를 크롤링 하기 위해서는  ?
- requests 패키지와 BeautifulSoup 클래스를 이용하여 크롤링 코드를 작성한다. 
- 크롤링할 데이타의 html 태그를 확인한다.
- 크롤링 할 html 태그가 유일하면 find('태그')를 호출한다.
- 동일한 html 태그가 여러개 있을 때 그 중 하나를 선택하는 경우에는 
 - find('태그', class_='스타일이름') 
 - find('태그', '스타일이름')   # 위에서 class_ 를 생략할 수 있다 
 - find('태그', attrs={'속성':'값', '속성':'값', ....}) 
 - find(id='이름')
- 동일한 html 태그가 여러개 있을 때 모두를 다 선택해야 하는 경우에는 
 - find_all('태그') 함수를 이용한다

## 4. HTML 태그만을 이용한  크롤링 해보기 
- 문자열 변수 page에 아래와 같은 html 문서의 내용이 저장되어 있다.
- HTML 태그와 속성중 title, h1, p, id, align 을 이용하여 크롤링 해보시오.
- h1, p 태그처럼 여러번 반복되어 나와 있는 태그의 경우 모든 데이타를 다 크롤링 해보시오. 

In [16]:
from bs4 import BeautifulSoup

page = """     
<html> 
    <head>  
         <meta charset="utf-8">	
         <title> 웹 크롤링 기술 </title>
    </head>    
    <body>
        <h1> [1] 파이썬 문법 </h1> 
        <h2> [2] html 사용법 </h2> 
        <h3> [3] BeautifulSoap 클래스 사용법 </h3>         
        <p id='body1' align='left'> [4] Open API 사용법 익히기 </p> 
        <p id='body2' align='center'> [5] Selenium 패키지 사용법 익히기 </p> 
        <p id='body3' align='right'> [6] 웹크롤러 만드는 법 </p> 
        <h1 id='body4'> [5] 프로젝트 하기 </h1> 
    </body> 
</html>
"""

soup = BeautifulSoup(page,'html.parser')
data_title = soup.find('title')
print(data_title.get_text()) 

data_h1 = soup.find('h1')
print(data_h1.get_text())

data_p = soup.find(id='body4')
print(data_p.get_text())     

data_p = soup.find('p', attrs={ 'align':'center' })
print(data_p.get_text()) 

data_h1_all = soup.find_all('h1')
print(len(data_h1_all))
for i in data_h1_all :
    print(i.get_text())

 웹 크롤링 기술 
 [1] 파이썬 문법 
 [5] 프로젝트 하기 
 [5] Selenium 패키지 사용법 익히기 
2
 [1] 파이썬 문법 
 [5] 프로젝트 하기 


## 5. html 코드와 css 를 이용한  크롤링 해보기

In [20]:
from bs4 import BeautifulSoup

page = """
<html>
  <head>
    <title> sample test </title>
    <meta charset="utf-8">
<!-- 내부 스타일 시트 
    <style type="text/css">
        td {
            font-size: 2em;
            font-family: Gothic;
            text-align: cener;
            color: blue
        }
    </style>
-->
<!-- 외부 스타일 (외부 파일에 스타일을 정의한 후  href 속성에 파일 이름을 지정한다) -->
    <link rel="stylesheet" type="text/css" href="style.css">

  </head>
  <body>
    <table border=1 width="500">
        <thead>
            <tr>
                <th> 학번 </th>
                <th> 이름 </th>
            </tr>
        </thead>
        <tbody>
            <tr>
                <td style='text-align:right;color:red;font-size:16px'> 20123123</td>
                <td class='normal'> 홍길동</td> 
            </tr>
            <tr>
                <td class='highlight'> 20123124</td>
                <td class='normal'> 김철수</td>
            </tr>
        </tbody>
    </table>   
  </body>
</html>
"""

soup = BeautifulSoup(page,'html.parser')
data_th = soup.find_all('th')
for i in data_th :
    print(i.get_text())
    
data_titel = soup.find('title')    
print(data_titel.get_text())

data_td = soup.find_all('td') 
for i in data_td :
    print(i.get_text())

print()
data_td = soup.find('td',class_='highlight')
print(data_td.get_text())

print()
data_td = soup.find('td','highlight')
print(data_td.get_text())

 학번 
 이름 
 sample test 
 20123123
 홍길동
 20123124
 김철수

 20123124

 20123124


## 6. 웹페이지에서 원하는 부분 크롤링 해보기
- 크롬 브라우저를 이용하여 원하는 페이지를 검색한다
- 마우스 오른쪽 버튼을 눌러 페이지 소스 보기를 선택한다.
- 크롤링할 데이타의 html 태그를 확인한다.
- requests 패키지와 BeautifulSoup 클래스를 이용하여 크롤링 코드를 작성한다. 

### 6.1 웹 페이지  크롤링  해보기 1(네이버 사전 페이지의 제목 크롤링 해보기)

In [22]:
import requests
from bs4 import BeautifulSoup

page = requests.get('https://dict.naver.com/')    # 입력한 주소(https://dict.naver.com/)의 페이지 객체를 가져온다. 
soup = BeautifulSoup(page.content,'html.parser')  # 가져온 페이지 객체의 내용을 html 파서를 이용하여 파싱가능한 객체로 만들어준다

data_titel = soup.find('title')
print(data_titel)
print(data_titel.get_text())

<title>네이버 사전 (NAVER dictionary)</title>
네이버 사전 (NAVER dictionary)


### 6.2 웹 페이지  크롤링  해보기 2(다음 홈페이지의  IT 뉴스 헤드라인 크롤링 해보기) 

In [12]:
import requests
from bs4 import BeautifulSoup                  # 뉴스이기 때문에 날짜별로 실행시킬때 마다 결과가 다르게 나올 수 있다. 

page = requests.get('https://news.daum.net/digital')  # IT 뉴스의 헤드라인
soup = BeautifulSoup(page.content,'html.parser')

data = soup.find('strong', class_='tit_thumb')
print(data)
print(data.get_text())

page = requests.get('https://news.v.daum.net/v/20200420151205240')  # IT 뉴스의 헤드라인
soup = BeautifulSoup(page.content,'html.parser')
# data_p = soup.find('p')
# print(data_p.get_text())

data_p = soup.find_all('p')
print(data_p) 

print()
for i in data_p :
    print(i.get_text())
    #print(i.text)
    #print(i.string)



<strong class="tit_thumb">
<a class="link_txt" data-tiara-custom="contentUniqueKey=hamny-20200420151205240" data-tiara-id="20200420151205240" data-tiara-layer="article_main" data-tiara-ordnum="1" data-tiara-type="harmony" href="https://news.v.daum.net/v/20200420151205240">"코로나19 '확찐자' 늘어..덜 걷고 더 잔다"</a>
</strong>

"코로나19 '확찐자' 늘어..덜 걷고 더 잔다"

[<p>최근 신종 코로나바이러스 감염증(코로나19) 영향으로 자가 격리, 외출 자제, 재택근무 등 일상생활 패턴이 바뀌면서 '확찐자', '코로나 블루' 등 신조어가 생겨나고 있다.</p>, <p>'확찐자'는 코로나19로 실내 생활 비중이 늘어나면서 급격히 살을 찐 사람을 뜻하는 신조어다.</p>, <p>핏빗은 이러한 수치는 전 세계 사람들이 코로나19 확산을 막기 위해 '사회적 거리두기' 임무를 수행하고 있다는 점을 확연히 보여준다고 분석했다.</p>, <p class="desc_translate txt_newsview">Translated by <a class="link_kakaoi #util #translate #kakaoi_link" href="https://kakao.ai/" target="_blank">kakao i</a></p>, <p dmcf-pid="jGWKeXyxY9" dmcf-ptype="general">(지디넷코리아=황정빈 기자)최근 신종 코로나바이러스 감염증(코로나19) 영향으로 자가 격리, 외출 자제, 재택근무 등 일상생활 패턴이 바뀌면서 '확찐자', '코로나 블루' 등 신조어가 생겨나고 있다. '확찐자'는 코로나19로 실내 생활 비중이 늘어나면서 급격히 살을 찐 사람을 뜻하는 신조어다.</p>, <p dmcf-pid="jOaYdI