# 데이터 크롤링과 정제
### 크롤링(Crawling)과 스크레이핑(Scraping)
 - 크롤러
   - 자동으로 웹 페이지에 있는 정보를 수집하는 프로그램
   - 크롤링 : 웹 크롤러로 정보를 수집하는 일
   - Google 등의 검색 엔진에서 정보를 검색하는 방식
    -> 전 세계에 있는 웹 페이지 정보를 모아서 축적

 - 스크레이핑
   - 수집한 정보를 분석해서 필요한 정보를 추출
   - 전자 상거래 사이트에서 웹 크롤러로 다운 받음
    -> 웹페이지에서 상품 이름과 가격 등의 필요한 정보를 추출

#### 웹페이지 가져오기 함수
 - urllib.request.urlopen(url)
   - 해당 url에서 HTML파일이나 이미지 파일, 기타 파일을 가져오는 함수
   - 리턴값: HTTPResponse 객체
   - 데이터를 딕셔너리형태로 전송
   - 없는페이지 요청시 에러발생x
   - 추가 설치 필요



 - HTTPResponse.read()
   - HTML 콘텐츠를 읽어옴 (리턴값: bytes 형태)
   - 데이터를 바이너리형태로 전송
   - 없는페이지 요청시 에러발생
   - 기본 파이썬 패키지

In [None]:
# 웹 페이지 가져오기
from urllib.request import urlopen

html=urlopen('https://www.daangn.com/hot_articles')
print(type(html))
print(html.read())

In [2]:
# BeautifulSoup 라이브러리
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page1.html')
bs = BeautifulSoup(html.read(), 'html.parser')
print(bs)

<html>
<head>
<title>A Useful Page</title>
</head>
<body>
<h1>An Interesting Title</h1>
<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>
</body>
</html>



In [3]:
##### 시작과 끝 짝맞추기
 
#  <html> .....
#  <head>..</head>

# <h1>==> 마크다운의#과 같은기능
 
# .......</html>


#### 신뢰할 수 있는 연결과 예외 처리
 - 예외 처리
   - 페이지를 찾을 수 없는 경우
     - 404 Page Not Found 에러 발생: HTTPError 예외 발생 시킴
   - 서버를 찾을 수 없는 경우
     - 500 Internal Server Error 발생: URLError 예외 발생 시킴

In [4]:
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError

try:
    html = urlopen('http://www.pythonscraping.com/pages/error.html')
except HTTPError as e:
    print(e)
except URLError as e:
    print('The server could not be found!')
else:
    print('It worked!')

HTTP Error 404: Not Found


##### 예외처리
 - try: 
     - (예외발생할수있는 코드)
 - except 에러이름:
     - (예외발생시 실행할 코드)

#### 존재하지 않는 태그 예외 처리
 - 존재하지 않는 태그 접근
   - None 객체 반환
   - None 객체에 접근: AttributeError 발생

In [5]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def getTitle(url,tag):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return None
    try:
        bsObj = BeautifulSoup(html.read(), 'html.parser')
        value = bsObj.body.find(tag)
    except AttributeError as e:
        return None
    return value

tag='h2'

value = getTitle("http://www.pythonscraping.com/pages/page1.html", tag)

if value ==None:
    print('{0} could not be found'.format(tag))
else:
    print(value)

h2 could not be found


In [6]:
# HTML 기본 구조
# <!DOCTYPE html> : 문서형식선언
# <html>..
# <head>
# <title>제목</title>
# </head>
# <body>
# ........HTML 문서의 텍스트, 하이퍼링크, 이미지 등 콘텐츠 포함 영역
# <</body>>
# </html>


In [7]:
# HTML 글자 태그

# <meta> : <meta charset="utf-8"> => 데이터 표현 속성,표준 문자 세트 UTF-8
# 제목 나타내기 <h1></h1> ~ <h6></h6> : 마크다운 # ~ ###### 기능
# 단락 구분 태그 <p>...</p>
# 글자 굵게(Bold) : <b>...</b>
# 줄 바꿈 <br> 
# 공백 &nbsp; : 공백 문자 (non-breaking space의 약자), 스페이스는 개수와 상관없이 1개만 표시
# 이동 <a></a> : 웹 페이지에서 메뉴, 배너, 이미지 등을 클릭하면 지정된 페이지로 이동
#    - href 속성: 이동할 경로를 설정
#    - 예시 : <a href="page1.html">꽃잔디</a> => 꽃잔디를 클릭하면 링크로 이동

In [8]:
# 공간분할 <span></span> : 인라인(inline) 형식으로 공간 분할, 줄 바꿈이 가능함
#    <span style="background-color:red">span1</span>
#    <span style="background-color:blue">span2</span>

# 공간 분할 div : 블록 형식으로 공간을 분할: division의 약자, 줄 바꿈이 가능함
# <style>
# #section1 {
# background-color: greenyellow;
# }
# #section2 {
# background-color: coral;
# }
# </style>
# <body>
# <div id="section1">첫 번째 영역 </div>
# <div id="section2">두 번째 영역 </div>
# </body>

In [9]:
# HTML Table 구성 태그
# <table></table>   테이블을 만드는 태그
# <th></th>         테이블 헤더 부분 태그 (table header)
# <tr></tr>         테이블 행을 만드는 태그 (table row)
# <td></td>         테이블 열을 만드는 태그 (table data)

In [10]:
# HTML 태그 구성
# 태그(tag), 속성(attribute), 속성값(value)
# <span class=“red”>Heavens! what a virulent attack!</span>
#  태그   속성 속성값     텍스트                         태그

In [11]:
# 고급 HTML 분석: CSS 스타일

# HTML 분석
    # CSS 속성을 이용한 태그 검색
        # CSS(Cascading Style Sheets) 요소 활용
    # CSS 개요
        # 웹 페이지 스타일 및 레이아웃에 사용
        # 콘텐츠의 글꼴, 색상, 크기 및 간격을 변경 등
        # class와 id 속성 사용
# 형태
# #아이디{ 속성1:속성값; 속성2:속성값; }
# .클래스명{ 속성1:속성값; 속성2:속성값 }

# class와 id 차이점
    # id: 한 페이지에 한 요소에만 사용
        # 접근 방법: #id명
    # class: 여러 요소에 중복 사용 가능한 스타일 지정
        # 반복적으로 사용되는 스타일에 class를 이용하여 정의
        # 접근 방법: .class명


In [12]:
# 웹 크롤링 가능 여부 확인
# robots.txt 추가
# 웹사이트의 URL + /robots.txt 추가
# 예: https://www.oreilly.com/robots.txt