### 웹 크롤링
- 라이브러리
    - requests
        - 웹서버에 요청을 보내고 응답을 받는 기능
        - 응답 데이터는 문자나 바이트형으로 들어온다.
    - bs4
        - BeaitfulSoup Class 이용
        - html로 이루어진 문자 데이터를 pasrsing 작업을 통해서 데이터에 타입을 변경하여 데이터를 쉽게 추출하는 기능
        - html은 TAG(element)를 기준으로 하여 데이터에 접근
        - 웹의 기본 구조를 파악을 하고 사용을 하면 조금 더 쉽게 접근이 가능
    - selenium
        - 웹 어플리케이션을 테스트하기 위한 라이브러리
        - 웹 브라우저를 python code를 이용하여 제어
            - 함수를 이용해서 특정 버튼을 클릭
            - 특정 위치에 데이터를 대입
        - 구글 크롬이 버전이 구버전인 경우에는 별도의 소프트웨어 설치가 필요


In [1]:
# 라이브러리 로드
import requests

In [2]:
# requests 안에 get() 함수를 이용하여 openapi에 요청을 보냈을 때는
# data가 json, xml 형태로 들어온다.
# 그러면 naver에 요청을 보내면 어떤 데이터가 들어올 것인가?
res = requests.get("http://www.naver.com")

In [3]:
res

<Response [200]>

In [4]:
# res에서 바이트형식으로 데이터를 받을 때는 content
# 문자열로 데이터를 확인할 때는 text
html_text = res.text

In [5]:
# html_text에서 네이버 글자를 찾아본다.
html_text.find('네이버')

378

In [6]:
html_text[378:410]

'네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요'

In [7]:
# html문서가 문자열로 이루어져 있을때는 데이터를 추출하기가 어렵다.
# 별도의 라이브러리를 설치한다.
# !pip install bs4

In [8]:
# 라이브러리 로드
from bs4 import BeautifulSoup as bs

In [9]:
# BeautifulSoup Class 생성 -> class 안에 데이터를 대입
# class 안에 데이터를 이용하여 추가적인 작업
# 해당 class를 생성 할때 생성자 함수는 2개의 인자 필요
# 첫 번째 인자 : 문자열로 이루어진 html
# 두 번째 인자 : 첫 번째 인자에 따라 변경 (html 문서를 변환 : html.parser)
soup = bs(html_text, 'html.parser')

In [10]:
soup

 <!DOCTYPE html>
 <html class="fzoom" lang="ko"> <head> <meta charset="utf-8"/> <meta content="origin" name="Referrer"/> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <title>NAVER</title> <meta content="NAVER" name="apple-mobile-web-app-title"> <meta content="index,nofollow" name="robots"> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양한 

- 태그의 이름을 기준으로 검색
    - soup.태그명 -> 해당 html 문서에서 해당 태그의 첫번째 태그를 되돌려주다.
    - soup.태그명.string -> 첫번째 태그에서 컨텐츠(태그 안에 데이터)를 되돌려준다.
        - ex) `<p>test data</p>` -> test data 출력
    - soup.태그명['속성명'] -> 첫 번째 태그에서 특정 속성의 값을 되돌려준다.
        - ex) `<a> href = 'http"//www.google.com'>google</a> -> 'http:www.google.com'을 출력

In [11]:
soup.a

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>

In [12]:
soup.a.string

'상단영역 바로가기'

In [13]:
soup.a['href']

'#topAsideButton'

- find()
    - html 데이터에서 특정 태그를 첫번째 정보를 출력
    - find(속성명 = 속성값) : 태그들 중에 특정 속성에 특정한 값을 가진 태그의 첫 번재 정보를 출력
    - 함수의 결과의 타입은 TAG 데이터의 타입으로 되돌려준다.
- find_all()
    - html 데이터에서 특정 태그의 모든 정보를 출력
    - limit 매개변수 : 찾는 태그의 개수를 지정
    - 함수의 결과의 타입은 TAG 데이터들이 모인 ResultSet 타입으로 되돌려준다. (find(), find_all() 함수를 사용하려면 TAG 데이터 탑입으로 데이터를 추출하여 사용)

In [14]:
type(soup)

bs4.BeautifulSoup

In [15]:

type(soup.find('a'))

bs4.element.Tag

In [16]:
type(soup.find_all('a'))

bs4.element.ResultSet

In [17]:
soup.find('a')

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>

In [18]:
# html 문서 안에 존재하는 모든 a태그의 정보를 확인
soup.find_all('a')

[<a href="#topAsideButton"><span>상단영역 바로가기</span></a>,
 <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a>,
 <a href="#newsstand"><span>새소식 블록 바로가기</span></a>,
 <a href="#shopping"><span>쇼핑 블록 바로가기</span></a>,
 <a href="#feed"><span>관심사 블록 바로가기</span></a>,
 <a href="#account"><span>MY 영역 바로가기</span></a>,
 <a href="#widgetboard"><span>위젯 보드 바로가기</span></a>,
 <a href="#viewSetting"><span>보기 설정 바로가기</span></a>]

In [19]:
# 네이버 메인 페이지는 비동기 방식 페이지이므로 전체의 html를 requests만 가지고 로드가 불가능
# 'https://finance.naver.com/'이 주소의 html를 불러와서 실습

# 특정 주소에 요청을 보낸다.
res = requests.get('http://finance.naver.com/')
# res에서 html데이터를 문자열로 저장
html_data = res.text
#BeautifulSoup을 사용하여 데이터 파싱
soup  = bs(html_data, 'html.parser')

In [20]:
# soup에서 div 태그 중 class의 값이 'section_sise_top' 태그를 찾는다.
# 해당 조건의 태그가 하나인지 확인
len(
    soup.find_all(
        'div',
        attrs = {
            'class' : 'section_sise_top'
        }
    )
)

1

In [21]:
# len() 함수를 이용하여 길이 확인하니 1이다. -> 해당 조건의 태그는 하나
div_data = soup.find(
    'div',
    attrs = {
        'class' : 'section_sise_top'
    }
)

In [22]:
# div_data table 태그의 개수를 확인
len(
    div_data.find_all(
        'table',
        attrs = {
            'class' : 'tbl_home'
        }
    )
)

# div_data에는 테이블이 8개 존재 -> KRX 4개, NXT 4개

8

In [23]:
table_list = div_data.find_all(
    'table'
)

In [24]:
table_data = table_list[0]

In [25]:
# table_data에서 thead를 찾는다.
thead_data = table_data.find('thead')

In [26]:
# 데이터들은 열을 나타내는 태그에 존재
# th 태그들에 데이터가 존재
# th 태그를 모두 찾는다.
th_list = thead_data.find_all('th')

In [27]:
# th 데이터에서 문자만 추출
# map (함수(lambda), 1차원 데이터)
cols = list(
    map(
        lambda x : x.string,
        th_list
    )
)

In [28]:
# table_data에서 tbody를 찾는다.
tbody_data = table_data.find('tbody')

In [29]:
# tbody_data에서 모든 tr태그를 찾는다. (tr 안에 th, td 데이터를 이용하여 1차원 데이터 구성)
tr_list = tbody_data.find_all('tr')

In [30]:
# tr_list에서 첫번째 데이터를 이용하여 th, td를 모두 찾는다.
tr_list[0].find_all(['th', 'td'])

[<th scope="row"><a href="/item/main.naver?code=096040" onclick="clickcr(this, 'spe.slist', '096040', '1', event);">이트론</a></th>,
 <td>5</td>,
 <td><em class="bu_p bu_pdn"><span class="blind">하락</span></em> 5</td>,
 <td>
 <em class="down">
 				-50.00%
 				</em>
 </td>]

In [31]:
# tr_list에서 첫번째 데이터를 이용하여 th,td를 모두 찾는다.
list (
    map(
        lambda x : x.get_text().strip(),
        tr_list[0].find_all(['th', 'td'])
    )
)

['이트론', '5', '하락 5', '-50.00%']

In [32]:
# 비어있는 리스트 생성
values = []
# tr_list를 이용하여 반복문을 실행
for td_data in tr_list:
    # 각 tr에서 th, td를 모두 추출
    value = list(
        map(
            lambda x: x.get_text().strip(),
            td_data.find_all(['th', 'td'])
        )
    )
    values.append(value)
values

[['이트론', '5', '하락 5', '-50.00%'],
 ['KODEX 200선물인버스2X', '1,244', '하락 35', '-2.74%'],
 ['엔케이', '1,395', '상승 5', '+0.36%'],
 ['KD', '916', '상승 149', '+19.43%'],
 ['씨피시스템', '2,595', '상승 185', '+7.68%'],
 ['이아이디', '65', '하락 37', '-36.27%'],
 ['이화전기', '400', '상승 105', '+35.59%'],
 ['보성파워텍', '4,315', '상승 360', '+9.10%'],
 ['KODEX 인버스', '3,405', '하락 55', '-1.59%'],
 ['상상인증권', '824', '상승 143', '+21.00%'],
 ['일승', '8,030', '상승 1,500', '+22.97%'],
 ['한국선재', '4,355', '상승 435', '+11.10%'],
 ['KODEX 2차전지산업레버리지', '1,030', '상승 30', '+3.00%'],
 ['대창솔루션', '528', '상승 37', '+7.54%'],
 ['클로봇', '25,800', '상승 3,750', '+17.01%']]

In [33]:
import pandas as pd

In [34]:
df = pd.DataFrame(values, columns=cols)
df

Unnamed: 0,종목명,현재가,전일대비,등락률
0,이트론,5,하락 5,-50.00%
1,KODEX 200선물인버스2X,1244,하락 35,-2.74%
2,엔케이,1395,상승 5,+0.36%
3,KD,916,상승 149,+19.43%
4,씨피시스템,2595,상승 185,+7.68%
5,이아이디,65,하락 37,-36.27%
6,이화전기,400,상승 105,+35.59%
7,보성파워텍,4315,상승 360,+9.10%
8,KODEX 인버스,3405,하락 55,-1.59%
9,상상인증권,824,상승 143,+21.00%


In [35]:
# section_sise_top_class 이름을 가진 div 태그의 모든 table를 데이터프레임으로 생성
file_num = 1
for table_data in table_list:
    thead_data = table_data.find('thead')
    th_list = thead_data.find_all('th')
    cols = list(
        map(
            lambda x : x.string,
            th_list
        )
    )
    tbody_data = table_data.find('tbody')
    tr_list = tbody_data.find_all('tr')
    values = []
    for td_data in tr_list:
        value = list(
            map(
                lambda x: x.get_text().strip(),
                td_data.find_all(['th', 'td'])
            )
        )
        values.append(value)
    globals()[f'df{file_num}'] = pd.DataFrame(values, columns=cols)
    # 각가의 파일로 저장
    globals()[f'df{file_num}'].to_csv(f'df{file_num}.csv')
    file_num += 1


In [52]:
df1

Unnamed: 0,종목명,현재가,전일대비,등락률
0,이트론,5,하락 5,-50.00%
1,KODEX 200선물인버스2X,1244,하락 35,-2.74%
2,엔케이,1395,상승 5,+0.36%
3,KD,916,상승 149,+19.43%
4,씨피시스템,2595,상승 185,+7.68%
5,이아이디,65,하락 37,-36.27%
6,이화전기,400,상승 105,+35.59%
7,보성파워텍,4315,상승 360,+9.10%
8,KODEX 인버스,3405,하락 55,-1.59%
9,상상인증권,824,상승 143,+21.00%


In [37]:
type(div_data)

bs4.element.Tag

In [38]:
# html 문서(url, file, html으로 이루어진 문자)를 read_html()에 입력하면 -> html 안에 있는 table 태그를 찾아서 데이터프레임으로 생성
pd.read_html(str(div_data))

  pd.read_html(str(div_data))


[                 종목명    현재가      전일대비      등락률
 0                이트론      5      하락 5  -50.00%
 1   KODEX 200선물인버스2X   1244     하락 35   -2.74%
 2                엔케이   1395      상승 5   +0.36%
 3                 KD    916    상승 149  +19.43%
 4              씨피시스템   2595    상승 185   +7.68%
 5               이아이디     65     하락 37  -36.27%
 6               이화전기    400    상승 105  +35.59%
 7              보성파워텍   4315    상승 360   +9.10%
 8          KODEX 인버스   3405     하락 55   -1.59%
 9              상상인증권    824    상승 143  +21.00%
 10                일승   8030  상승 1,500  +22.97%
 11              한국선재   4355    상승 435  +11.10%
 12  KODEX 2차전지산업레버리지   1030     상승 30   +3.00%
 13             대창솔루션    528     상승 37   +7.54%
 14               클로봇  25800  상승 3,750  +17.01%,
         종목명    현재가      전일대비      등락률
 0    오리엔탈정공  12000  상승 1,100  +10.09%
 1     원익홀딩스  11290  상승 1,950  +20.88%
 2        삼현  19330  상승 4,460  +29.99%
 3     세진중공업  23000    하락 500   -2.13%
 4    하나마이크론  15720  상승 1,700  +12.1

In [39]:
# 데이터프레임을 sql server에 insert
# !pip install sqlalchemy

In [40]:
from sqlalchemy import create_engine

In [41]:
# DB server의 정보를 입력
engine = create_engine(
    "mysql+pymysql://root:1234@localhost:3306/multicam"
)

In [43]:
#!pip install cryptography

In [None]:
# to_sql() 매개변수
# name : 테이블의 이름
# con : 데이터베이스의 주소
# index : index 데이터를 포함할 것인가(기본값 : True )
# if exsits : replace(교체), fail(실패 처리, 기본값), append(데이터를 추가)
df1.to_sql(
    name = 'test1234',
    con = engine
)

15

In [44]:
# pymysql을 이용하여 데이터프레임의 정보를 DB에 insert
from database import MyDB

In [45]:
# MyDB class 생성 -> 로컬 PC
db1 = MyDB()

In [48]:
# 데이터를 대입할 talbe을 생성
table_query = """
    create table
    if not exists
    `krx_top`(
    `NO` int primary key auto_increment,
    `종목명` varchar(50) not null,
    `현재가` int not null,
    `전일대비` varchar(20) not null,
    `등락률` varchar(10) not null
    )
"""

db1.sql_query(table_query)

'Query OK'

In [51]:
df1.loc[0,].to_list()

['이트론', '5', '하락 5', '-50.00%']

In [62]:
insert_qeruy = """
    insert into
    `krx_top`(
    `종목명`, `현재가`, `전일대비`, `등락률`
    )
    values
    (%s, %s, %s, %s)
"""

In [63]:
df1['현재가'] = df1['현재가'].str.replace(',', '')

In [64]:
db1.sql_query(insert_qeruy, *df1.loc[0,].to_list())
# 현재가 컬럼의 데이터가 숫자형으로 변환 불가능 -> ','제거

'Query OK'

In [None]:
# Cursor에 데이터를 대입
for i in range(0, len(df1)):
    db1.sql_query(insert_qeruy, *df1.loc[i,].to_list())

In [66]:
# DB 서버와 커서의 동기화
db1.db_commit()

commit 완료
서버와의 연결 종료
