### 웹 크롤링 
- 라이브러리 
    - requests
        - 웹서버에 요청을 보내고 응답을 받는 기능 
        - 응답 데이터는 문자나 바이트형로 들어온다. 
    - bs4
        - BeautifulSoup Class 이용
        - html로 이루어진 문자 데이터를 parsing 작업을 통해서 데이터 타입을 변경하여 데이터를 쉽게 추출하기 위한 기능
        - html은 TAG(element)를 기준으로 하여 데이터 접근
        - 웹의 기본 구조를 파악을 하고 사용을 하면 조금 더 쉽게 접근 가능
    - selenium
        - 웹 어플리케이션을 테스트하기 위한 라이브러리 
        - 웹 브라우져를 python code를 이용하여 제어 
            - 함수를 이용해서 특정 버튼을 클릭 
            - 특정 위치에 데이터를 대입 
        - 구글 크롬의 버전이 구버전인 경우에는 별도의 소프트웨어 설치가 필요

In [None]:
# 라이브러리 로드 
import requests

In [None]:
# requests 안에 get()함수를 이용하여 openapi에 요청을 보냈을때는 
# data가 json, xml 형태로 들어온다. 
# 그러면 naver에 요청을 보내면 어떤 데이터가 들어올것인가?
res = requests.get("http://www.naver.com")

In [None]:
res

In [None]:
# res에서 바이트형식으로 데이터를 받을때는 content
# 문자열로 데이터를 확인할때는 text
html_text = res.text

In [None]:
# html_text에서 네이버 글자를 찾아본다. 
html_text.find('네이버')

In [None]:
html_text[ 378:410 ]

In [None]:
# html 문서가 문자열로 이루어져있을때는 데이터를 추출하기가 어렵다. 
# 별도의 라이브러리 설치 
# !pip install bs4

In [None]:
# 라이브러리 로드 
from bs4 import BeautifulSoup as bs

In [None]:
# BeautifulSoup class 생성 -> class 안에 데이터를 대입 
# class 안의 데이터를 이용하여 추가적인 작업 
# 해당 class를 생성 할때 생성자 함수 2개의 인자 필요
# 첫번째 인자 : 문자열로 이루어진 html
# 두번째 인자 : 첫번째 인자의 따라 변경 ( html 문서를 변환 : html.parser )
soup = bs(html_text, 'html.parser')

In [None]:
soup

- 태그의 이름을 기준으로 검색 
    - soup.태그명 -> 해당 html 문서에서 해당 태그의 첫번째 태그를 되돌려준다. 
    - soup.태그명.string -> 첫번째 태그에서 콘텐츠(태그 안에 데이터)를 되돌려준다. 
        - ex) `<p>test data</p>` -> test data 출력
    - soup.태그명['속성명'] -> 첫번째 태그에서 특정 속성의 값을 되돌려준다. 
        - ex) `<a href ='http://www.google.com'>google</a>` -> 'http:www.google.com' 출력

In [None]:
soup.a

In [None]:
soup.a.string

In [None]:
soup.a['href']

- find()
    - html 데이터에서 특정 태그의 첫번째 정보를 출력 
    - find(속성명 = 속성값) : 태그들 중에 특정 속성에 특정한 값을 가진 태그의 첫번째 정보를 출력 
    - 함수의 결과의 타입은 TAG 데이터의 타입으로 되돌려준다. 
- find_all()
    - html 데이터에서 특정 태그의 모든 정보를 출력 
    - limit 매개변수 : 찾는 태그의 개수를 지정
    - 함수의 결과의 타입은 TAG 데이터들이 모인 ResultSet 타입으로 되돌려준다. ( find(), find_all() 함수를 사용하려면 TAG 데이터 타입으로 데이터를 추출하여 사용 )

In [None]:
type(soup)

In [None]:
type(soup.find('a'))

In [None]:
type(soup.find_all('a'))

In [None]:
soup.find('a')

In [None]:
# html 문서 안에 존재하는 모든 a태그의 정보를 확인 
soup.find_all('a')

In [None]:
# 네이버 메인페이지는 비동기 방식 페이지이므로 전체의 html를 
# requests만 가지고 로드가 불가능
# 'http://finance.naver.com/' 이 주소의 html를 불러와서 실습 

# 특정 주소에 요청을 보낸다. 
res = requests.get('http://finance.naver.com/')
# res에서 html데이터를 문자열로 저장 
html_data = res.text
# BeautifulSoup을 이용하여 데이터 파싱
soup = bs(html_data, 'html.parser')

In [None]:
# soup에서 div 태그중 class의 값이 'section_sise_top' 태그를 찾는다. 
# 해당 조건의 태그가 1개인가 확인
len(
    soup.find_all(
        'div', 
        attrs = {
            'class' : 'section_sise_top'
        }
    )
)

In [None]:
# len() 함수를 이용하여 길이 확인하니 1이다. -> 해당 조건의 태그는 하나
div_data = soup.find(
    'div', 
    attrs = {
        'class' : 'section_sise_top'
    }
)

In [None]:
# div_data table 태그의 개수를 확인 
len(
    div_data.find_all(
        'table', 
        attrs = {
            'class' : 'tbl_home'
        }
    )
)

# div_data에는 테이블이 8개 존재 -> KRX 4, NXT 4

In [None]:
table_list = div_data.find_all(
    'table'
)

In [None]:
table_data = table_list[0]

In [None]:
# table_data에서 thead를 찾는다. 
thead_data = table_data.find('thead')

In [None]:
# 데이터들은 열을 나타내는 태그에 존재 
# th 태그들에 데이터가 존재 
# th 태그를 모두 찾는다. 
th_list = thead_data.find_all('th')

In [None]:
# th 데이터에서 문자만 추출
# map(  함수(lamdba), 1차원 데이터  )
cols = list(
    map(
        lambda x : x.string, 
        th_list
    )
)

In [None]:
# table_data에서 tbody를 찾는다. 
tbody_data = table_data.find('tbody')

In [None]:
# tbody_data에서 모든 tr태그를 찾는다. 
# (tr 안에 th, td 데이터를 이용하여 1차원 데이터 구성)
tr_list = tbody_data.find_all('tr')

In [None]:
tr_list[0].find_all( ['th', 'td'] )

In [None]:
# tr_list에서 첫번째 데이터를 이용하여 th, td를 모두 찾는다. 
list(
    map(
        lambda x : x.get_text().strip(), 
        tr_list[0].find_all( ['th', 'td'] )
    )
)


In [None]:
# 비어있는 리스트 생성 
values = []
# tr_list를 이용하여 반복문을 실행 
for td_data in tr_list:
    # td_data에는 반복 실행할때마다 tr_list의 첫번째, 두번째 ... 대입
    value = list(
        map(
            lambda x : x.get_text().strip(), 
            td_data.find_all( ['th', 'td'] )
        )
    )
    values.append(value)
values


In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(values, columns = cols)
df

In [55]:
# section_sise_top class 이름을 가진 div 태그의 
# 모든 table를 데이터프레임으로 생성
file_num = 1
for table_data in table_list:
    thead_data = table_data.find('thead')
    th_list = thead_data.find_all('th')
    cols = list(
        map(
            lambda x : x.string, 
            th_list
        )
    )
    tbody_data = table_data.find('tbody')
    tr_list = tbody_data.find_all('tr')
    values = []
    # tr_list를 이용하여 반복문을 실행 
    for td_data in tr_list:
        # td_data에는 반복 실행할때마다 tr_list의 첫번째, 두번째 ... 대입
        value = list(
            map(
                lambda x : x.get_text().strip(), 
                td_data.find_all( ['th', 'td'] )
            )
        )
        values.append(value)
    globals()[f'df{file_num}'] = pd.DataFrame(values, columns = cols)
    # 각각의 파일로 저장
    globals()[f'df{file_num}'].to_csv(f'df{file_num}.csv')
    file_num += 1

In [54]:
df5

Unnamed: 0,종목명,현재가,전일대비,등락률
0,이트론,5,하락 -5,-50.00%
1,이아이디,83,하락 -19,-18.63%
2,오아,14990,"하락 -3,240",-17.77%
3,딥노이드,4890,하락 -840,-14.66%
4,압타머사이언스,1110,하락 -190,-14.62%
5,테고사이언스,16890,"하락 -1,860",-9.92%
6,대양전기공업,29100,"하락 -2,900",-9.06%
7,그린리소스,10700,"하락 -1,050",-8.94%
8,STX엔진,43650,"하락 -3,900",-8.20%
9,에프알텍,2520,하락 -215,-7.86%


In [57]:
type(div_data)

bs4.element.Tag

In [58]:
str(div_data)

'<div class="section_sise_top">\n<h2 class="h_type"><span>TOP 종목</span></h2>\n<!-- KRX, NXT 탭 -->\n<div class="area_tab_type">\n<ul class="top_tab_list">\n<!-- [D] 선택된 탭 \'is_active\' -->\n<li class="top_tab_item top_tab_krx is_active">\n<a class="top_tab_link" href="#" onclick="clickcr(this, \'top.krx\', \'\', \'\', event);return false;">KRX</a>\n</li>\n<li class="top_tab_item top_tab_nxt">\n<a class="top_tab_link" href="#" onclick="clickcr(this, \'top.nxt\', \'\', \'\', event);return false;">NXT</a>\n</li>\n</ul>\n<div class="text_nxt">\n                                넥스트레이드(NXT)\n                                <button class="buttton_tooltip" type="button">\n<span class="icon">\n<span class="blind">도움말</span>\n</span>\n</button>\n<div class="area_tooltip">\n<p>\n<strong>넥스트레이드(NXT)</strong>\n                                        넥스트레이드(NXT)란 대한민국\n                                        최초의 대체거래소(ATS,\n                                        Alternative Trading\n                 

In [59]:
# html 문서(url, file, html으로 이루어진 문자)를 read_html()에 입력하면 -> 
# html 안에 있는 table 태그를 찾아서 데이터프레임으로 생성
pd.read_html(str(div_data))

  pd.read_html(str(div_data))


[                 종목명   현재가      전일대비      등락률
 0   KODEX 200선물인버스2X  1248     하락 31   -2.42%
 1                이트론     5      하락 5  -50.00%
 2                엔케이  1390        보합    0.00%
 3              씨피시스템  2545    상승 135   +5.60%
 4                 KD   933    상승 166  +21.64%
 5              보성파워텍  4325    상승 370   +9.36%
 6               이아이디    83     하락 19  -18.63%
 7          KODEX 인버스  3415     하락 45   -1.30%
 8               한국선재  4305    상승 385   +9.82%
 9   KODEX 2차전지산업레버리지  1021     상승 21   +2.10%
 10                일승  8180  상승 1,650  +25.27%
 11              이화전기   319     상승 24   +8.14%
 12             대창솔루션   516     상승 25   +5.09%
 13               미투온  6430    상승 630  +10.86%
 14             상상인증권   847    상승 166  +24.38%,
         종목명    현재가      전일대비      등락률
 0    오리엔탈정공  11410    상승 510   +4.68%
 1     원익홀딩스  11400  상승 2,060  +22.06%
 2        삼현  17370  상승 2,500  +16.81%
 3     세진중공업  22200  하락 1,300   -5.53%
 4       네오셈   9120    상승 700   +8.31%
 5    하나마이크론 

In [None]:
df1.to_sql

In [65]:
# 데이터프레임을 sqlserver에 insert
# !pip install sqlalchemy

In [66]:
from sqlalchemy import create_engine

In [67]:
# DB server의 정보를 입력 
engine = create_engine(
    "mysql+pymysql://root:1234@localhost:3306/multicam"
)

In [None]:
# to_sql() 매개변수
# name : 테이블의 이름
# con : 데이터베이스의 주소
# index : index 데이터를 포함할것인가 ( 기본값 : True )
# if_exsits : replace(교체), fail(실패 처리, 기본값), append(데이터를 추가)
df1.to_sql(
    name = 'test1234', 
    con = engine
)

15

In [69]:
# pymysql을 이용하여 데이터프레임의 정보를 DB에 insert
from database import MyDB

In [70]:
# MyDB class 생성 -> 로컬 피씨
db1 = MyDB()

In [73]:
# 데이터를 대입할 table을 생성 
table_query = """
    create table 
    if not exists 
    `krx_top`(
    `No` int primary key auto_increment,
    `종목명` varchar(50) not null, 
    `현재가` int not null, 
    `전일대비` varchar(20) not null, 
    `등락률` varchar(10) not null
    )
"""
db1.sql_query(table_query)

'Query OK'

In [77]:
df1.loc[0,].to_list()

['KODEX 200선물인버스2X', '1,248', '하락 31', '-2.42%']

In [78]:
insert_query = """
    insert into 
    `krx_top`(
    `종목명`, `현재가`, `전일대비`, `등락률`
    )
    values 
    (%s, %s, %s, %s)
"""

In [84]:
df1['현재가'] = df1['현재가'].str.replace(',', '')

In [85]:
db1.sql_query(insert_query, *df1.loc[0,].to_list())
# 현재가 컬럼의 데이터가 숫자형으로 변환 불가능 -> ','제거

'Query OK'

In [None]:
# Cursor에 데이터를 대입
for i in range( 0, len(df1) ):
    db1.sql_query(insert_query, *df1.loc[i,].to_list())

In [87]:
# DB server와 cursor의 동기화
db1.db_commit()

commit 완료
서버와의 연결 종료
