#  빅데이터 
* 엄청난 용량의 데이터 집합
* 너무 커서 기존의 어플리케이션으로는 분석, 검색, 저장, 수정이 다소 어려움
* 하지만, 데이터의 크기에 중점을 두지 않고, 그것으로부터 가치를 추출하기 위해 사용되는 아키텍처, 플랫폼, 및 기술을 총칭하는 의미

### 빅데이터의 특성
* 3V : 속도, 규모, 다양성
* 정확성(4V), 시각화(4V), 가치(5V)

### 빅데이터 종류
* 정형
* 반정형
* 비정형

### 빅데이터 처리과정
![](./img/data_step.png)

### 빅데이터 수집
* 조직의 내외부에 있는 다양한 시스템으로부터 원천 데이터를 모으는 것

### 크롤링 :
* crawling 또는 scraping은 웹페이지의 내용에서 필요한 데이터들을 추출하는 행위를 의미
* 단, 데이터 추출을 위해 필요한 모든 일련의 과정 역시 크롤링에 포함하기도 함
* 크롤링을 제대로 하기 위해서는 웹이 작동하는 방식과 웹 표준기술을 잘 파악하고 있어야 함

#### 설치할 패키지
* pip install requests
* pip install lxml
* pip install cssselect

#### 실습
* 한빛 출판네트워크 사이트의 `'새로나온책'`에서 `'도서제목','저자','가격'`들을 수집

In [6]:
pip install lxml

Note: you may need to restart the kernel to use updated packages.


In [2]:
pip install cssselect

Note: you may need to restart the kernel to use updated packages.


### 사용할 패키지 가져오기

In [3]:
import requests
from xml.etree import ElementTree
from lxml.html import tostring
from lxml import html

#### 크롤링 시작

In [4]:
# 크롤링 할 대상 url 지정
url = 'https://www.hanbit.co.kr/store/books/new_book_list.html'

In [6]:
# 지정한 url을 이용해서 get방식으로 요청하고 결과 받아옴
# requests.get(접속할 주소)
res = requests.get(url)

In [7]:
print(res.status_code)  # 요청에 대한 결과 확인
print(res.headers)      # 요청에 대한 응답헤더 확인

200
{'Date': 'Mon, 14 Aug 2023 03:13:17 GMT', 'Server': 'Apache', 'X-Frame-Options': 'SAMEORIGIN', 'X-Powered-By': 'PHP/5.3.3', 'Set-Cookie': 'PHPSESSID=0jvflq091pts7s7g3tj67jjj81; path=/, PHPSESSID=0jvflq091pts7s7g3tj67jjj81; path=/; secure; SameSite=None', 'Expires': 'Thu, 19 Nov 1981 08:52:00 GMT', 'Cache-Control': 'no-store, no-cache, must-revalidate, post-check=0, pre-check=0', 'Pragma': 'no-cache', 'Connection': 'close', 'Transfer-Encoding': 'chunked', 'Content-Type': 'text/html; charset=UTF-8'}


In [8]:
print(res.text[:500])

<!DOCTYPE html>
<html lang="ko">
<head>
<!--[if lte IE 8]>
<script>
  location.replace('/support/explorer_upgrade.html');
</script>
<![endif]-->
<meta charset="utf-8"/>
<title>한빛출판네트워크</title>
<link rel="shortcut icon" href="https://www.hanbit.co.kr/images/common/hanbit.ico"> 
<meta http-equiv="X-UA-Compatible" content="IE=Edge" />
<meta property="og:type" content="website"/>
<meta property="og:title" content="한빛출판네트워크"/>
<meta property="og:description" content="더 넓은 세상, 더 나은 미래를 위


In [9]:
# 응답으로 읽어온 문서내용을 객체로 만듦
doctree = html.fromstring(res.text)

#### 문서 객체에서 필요한 요소 추출
* css선택자나 xpath문법으로 필요한 요소를 추출함
* cssselect(css선택자)
* xpath(xpath경로)

In [10]:
# 제목 추출 : p 태그들 중 클래스 선택자가 book_tit인 요소를 활용
print(doctree.cssselect('p.book_tit a'))

[<Element a at 0x7fba896e0af0>, <Element a at 0x7fba896e0aa0>, <Element a at 0x7fba896e0960>, <Element a at 0x7fba896e0910>, <Element a at 0x7fba896e09b0>, <Element a at 0x7fba896e08c0>, <Element a at 0x7fba896e0730>, <Element a at 0x7fba896e0870>, <Element a at 0x7fba896e0820>, <Element a at 0x7fba896e07d0>, <Element a at 0x7fba896e0780>, <Element a at 0x7fba896e0320>, <Element a at 0x7fba896e06e0>, <Element a at 0x7fba896e0690>, <Element a at 0x7fba896e0640>, <Element a at 0x7fba896e05f0>, <Element a at 0x7fba896e05a0>, <Element a at 0x7fba896e0550>, <Element a at 0x7fba896e0500>, <Element a at 0x7fba896e04b0>]


In [11]:
# 특정한 요소 객체의 텍스트를 추출하려면 text_content 함수 사용
for title in doctree.cssselect('p.book_tit a'):
    print(title.text_content())

IT CookBook, 정보보안 이론과 실제(3판)
사라진 개발자들
보이지 않는 위협
투자의 구원자들
1학년 받아쓰기
IT CookBook, HTML5 웹 프로그래밍 입문(4판)
파이썬 크래시 코스
바다에서 보낸 어느 멋진 주말
불안이 많은 아이
STEM CookBook, 경영경제수학 첫걸음
관찰 가능성 엔지니어링
논리력을 키우는 영어 글쓰기
만화로 보는 피스톨 스토리
IT CookBook, 난생처음 데이터 분석 with 파이썬
나이가 든다는 착각
사실은 이것도 디자인입니다
육각형 개발자
AI 전쟁
일터로 간 뇌과학
UML다이어그램을 활용한 소프트웨어 창의 설계


In [17]:
# 저자 추출 : p 태그들 중 클래스 선택자가 book_writer인 요소를 활용
for writer in doctree.cssselect('p.book_writer'):
    print(writer.text_content())

Mark Stamp 
캐시 클라이먼 
김홍선 
로빈 위글스워스 
하유정 
윤인성 
에릭 마테스 
가엘 알메라스 
이다랑 
김진한 , 이재원 
알렉스 보텐 
이요안 
푸르공 , 이세환(감수) 
김규석 , 김주희 , 이준 
베카 레비 
김성연 
최범균 
하정우 , 한상기 
프레데리케 파브리티우스 
박현석 , 김연정 , 김연우 , 지현진 


In [20]:
# 가격 추출 : p 태그들 중 클래스 선택자가 price인 요소를 활용
for price in doctree.cssselect('span.price'):
    print(price.text_content().replace(',','').replace('원',''))

32000
18900
16920
24300
13500
29000
35100
16200
16200
26000
28800
20000
19800
26000
17820
17100
19800
17820
19800
24000


#### 추출한 요소들을 리스트에 저장

In [36]:
titles, writers, prices = [], [], []

for title in doctree.cssselect('p.book_tit a'):
    titles.append(title.text_content())

for writer in doctree.cssselect('p.book_writer'):
    writers.append(writer.text_content())

for price in doctree.cssselect('span.price'):
    prices.append(price.text_content().replace(',','').replace('원',''))

In [37]:
print(titles[:5])
print(writers[:5])
print(prices[:5])

['IT CookBook, 정보보안 이론과 실제(3판)', '사라진 개발자들', '보이지 않는 위협', '투자의 구원자들', '1학년 받아쓰기']
['Mark Stamp ', '캐시 클라이먼 ', '김홍선 ', '로빈 위글스워스 ', '하유정 ']
['32000', '18900', '16920', '24300', '13500']


#### 리스트에 저장한 내용을 파일에 저장

In [None]:
# newbooks.csv로 저장

In [65]:
import csv
import json
from collections import OrderedDict

In [66]:
with open('./data/newbooks.csv', 'w', encoding='utf-8', newline='') as f:
    wr = csv.writer(f)
    wr.writerow(['title', 'writer', 'price'])

    for i in range(len(titles)):
        wr.writerow([titles[i], writers[i], prices[i]])

In [67]:
# newbooks.json로 저장
# {"response":{"body":{"items":[{"?":"?","?":?,"?":"?"}, {}, ...] } } }
newbooks = OrderedDict()
items = OrderedDict()
body = OrderedDict()
books = []

for i in range(len(titles)):
    book = OrderedDict()
    book['title'] = titles[i]
    book['writer'] = writers[i]
    book['price'] = prices[i]
    books.append(book)

items['items'] = books
body['body'] = items
newbooks['response'] = body

In [71]:
with open('./data/newbooks.json', 'w', encoding='utf-8', newline='') as f:
       json.dump(newbooks, f, ensure_ascii=False)

#### 리스트에 저장한 내용을 디비에 저장

In [None]:
# newbooks 테이블 구조 : 도서번호, 도서명, 저자, 가격, 등록일
# create table newbooks (
#   bno       int            auto_increment,
#   title     varchar(100)   not null,
#   writer    varchar(100)   not null,
#   price     int            not null,
#   regdate   datetime       default current_timestamp,
#   primary key (bno)
# );

In [78]:
import mariadb

In [79]:
# mariadb 접속 정보
url = 'bigdata.cto1qluvf6xh.ap-northeast-2.rds.amazonaws.com'
uid = 'admin'
pwd = 'Bigdata_2023'
db = 'bigdata'

In [80]:
sql = 'insert into newbooks (title, writer, price) values (?,?,?)'
conn = None
cur = None

try:
    conn = mariadb.connect(host=url, user=uid, password=pwd, database=db)
    cur = conn.cursor()

    for i in range(len(titles)):
        params = (titles[i], writers[i], prices[i])
        cur.execute(sql, params)
        conn.commit()
        print(f'{i}번째 데이터 입력됨!')

except mariadb.Error as e:
    print('오류발생!!', e)
finally:
    cur.close()
    conn.close()

0번째 데이터 입력됨!
1번째 데이터 입력됨!
2번째 데이터 입력됨!
3번째 데이터 입력됨!
4번째 데이터 입력됨!
5번째 데이터 입력됨!
6번째 데이터 입력됨!
7번째 데이터 입력됨!
8번째 데이터 입력됨!
9번째 데이터 입력됨!
10번째 데이터 입력됨!
11번째 데이터 입력됨!
12번째 데이터 입력됨!
13번째 데이터 입력됨!
14번째 데이터 입력됨!
15번째 데이터 입력됨!
16번째 데이터 입력됨!
17번째 데이터 입력됨!
18번째 데이터 입력됨!
19번째 데이터 입력됨!
