### 웹 크롤링
- 라이브러리
    - requests
        - 웹 서버에 요청을 보내고 응답을 받는 기능
        - 응답 데이터는 문자나 바이트형으로 들어온다.
    - bs4
        - BeautifulSoup Class 사용
        - html로 이루어진 문자 데이터를 parsing 작업을 통해서 데이터의 타입을 변경하여 데이터를 쉽게 추출하기 위한 기능
        - html은 TAG(element)를 기준으로 하여 데이터 접근
        - 웹의 기본 구조를 파악하고 사용하면 조금 더 쉽게 접근 가능
    - selenium
        - 웹 어플리케이션을 테스트하기 위한 라이브러리
        - 웹 브라우저를 python code를 이용하여 제어
            - 함수를 이용해서 특정 버튼을 클릭
            - 특정 위치에 데이터를 대입
        - 구글 크롬의 버전이 구버전인 경우에는 별도의 소프트웨어 설치가 필요

In [33]:
# 라이브러리 로드
import requests

In [34]:
# requests 안에 get() 함수를 이용하여 openapi에 요청을 보냈을 때는 
# data가 json, xml 형태로 들어온다.
# 그러면 naver에 요청을 보내면 어떤 데이터가 들어올까?

res = requests.get("http://www.naver.com")

In [35]:
res

<Response [200]>

In [36]:
# res에서 byte 형식으로 데이터를 받을 때는 content
# 문자열로 데이터를 확인할 때는 text
html_text = res.text

In [37]:
html_text

'   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" 

In [38]:
# html_text에서 네이버 글자를 찾아본다.
html_text.find('네이버')

378

In [39]:
html_text[378:410]

'네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요'

In [40]:
# html 문서가 문자열로 이루어져있을때는 데이터를 추출하기가 어렵다.
# 별도의 라이브러리 설치
# !pip install bs4

In [41]:
# 라이브러리 로드
from bs4 import BeautifulSoup as bs

In [42]:
# BeautifulSoup Class 생성 = 클래스 안에 class를 대입한다.
# class 안의 데이터를 이용하여 추가적인 작업
# 해당 class를 생성할 때 생성자 함수 2개의 인자 필요
# 첫번째 인자: 문자열로 이루어진 html
# 두번째 인자: 첫번째 인자에 따라 변경 (html문서를 변환: html.parser)

soup = bs(html_text, 'html.parser')

In [43]:
soup

 <!DOCTYPE html>
 <html class="fzoom" lang="ko"> <head> <meta charset="utf-8"/> <meta content="origin" name="Referrer"/> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <title>NAVER</title> <meta content="NAVER" name="apple-mobile-web-app-title"> <meta content="index,nofollow" name="robots"> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양한 

- 태그의 이름을 기준으로 검색
    - soup.태그명 -> 해당 html 문서에서 해당 태그의 첫 번째 태그를 되돌려준다.
    - soup.태그명.string -> 첫 번째 태그에서 contents(태그 안에 데이터)를 되돌려준다.
        - ex)`<p>text data</p>`-> test data 출력
    - soup.태그명['속성명] -> 첫 번째 태그에서 특정 속성의 값을 되돌려준다.
        - ex) `<a href = 'https://www.google.com'>google</a>` -> 'https://www.google.com' 출력

In [44]:
soup.a
# a태그는 하이퍼링크

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>

In [45]:
soup.a.string

'상단영역 바로가기'

In [46]:
soup.a['href']

'#topAsideButton'

- find()
    - html 데이터에서 특정 태그의 첫번째 정보를 출력
    - find(속성명 = 속성값) : 태그들 중에 특정 속성의 특정한 값을 가진 태그의 첫 번째 정보를 출력
    - 함수의 결과의 타입은 TAG 데이터의 타입으로 되돌려준다.
- find_all()
    - html 데이터에서 특정 태그의 모든 정보를 출력
    - limit 매개변수 : 찾는 태그의 개수를 지정
    - 햠수의 결과의 타입은 TAG 데이터들이 모인 ResultSet 타입으로 되돌려준다. (find(), find_all() 함수를 사용하려면 TAG 데이터 타입으로 데이터를 추출하여 사용)

In [88]:
type(soup)
soup


<html lang="ko">
<head>
<title>네이버페이 증권</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<meta content="네이버페이 증권" name="apple-mobile-web-app-title">
<meta content="네이버페이 증권" property="og:title">
<meta content="https://ssl.pstatic.net/static/m/stock/im/2016/08/og_stock-200.png" property="og:image"/>
<meta content="https://finance.naver.com" property="og:url"/>
<meta content="국내 해외 증시 지수, 시장지표, 뉴스, 증권사 리서치 등 제공" property="og:description"/>
<meta content="article" property="og:type"/>
<meta content="" property="og:article:thumbnailUrl"/>
<meta content="네이버페이 증권" property="og:article:author"/>
<meta content="http://FINANCE.NAVER.COM" property="og:article:author:url"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20250828144601/css/finance_header.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstoc

In [89]:
type(soup.find('a'))
soup.find('a')

<a href="#menu" tabindex="1"><span>메인 메뉴로 바로가기</span></a>

In [49]:
type(soup.find_all('a'))
# find_all은 tag로 변경해서 사용해야한다. resultset으로 주기 때문

bs4.element.ResultSet

In [50]:
# html 문서 안에 존재하는 모든 a택의 정보를 확인
soup.find_all('a')

[<a href="#topAsideButton"><span>상단영역 바로가기</span></a>,
 <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a>,
 <a href="#newsstand"><span>새소식 블록 바로가기</span></a>,
 <a href="#shopping"><span>쇼핑 블록 바로가기</span></a>,
 <a href="#feed"><span>관심사 블록 바로가기</span></a>,
 <a href="#account"><span>MY 영역 바로가기</span></a>,
 <a href="#widgetboard"><span>위젯 보드 바로가기</span></a>,
 <a href="#viewSetting"><span>보기 설정 바로가기</span></a>]

In [53]:
# naver 메인페이지는 비동기 방식 페이지이므로 전체의 html을 request만 가지고 로드가 불가능
# 'https://finance.naver.com/' 이 주소의 html을 불러와서 실습

res = requests.get('http://finance.naver.com/')
#문자열로 저장
html_data = res.text
#beautifulSoup을 이용하여 데이터 파싱
soup = bs(html_data, 'html.parser')

In [59]:
# soup 에서
len(
    soup.find_all(
        'div',
        attrs = {
            'class' : 'section_sise_top'
        } 
    )
)



1

In [60]:
div_data = soup.find(
    'div',
    attrs = {
        'class' : 'section_sise_top'
    }
)

In [62]:
# div_data_table 태그의 개수를 확인
len(
    div_data.find_all(
        'table',
        attrs = {
            'class' : 'tbl_home'
        }
    )
)
# div_data 에는 테이블이 8개 존재 -> KRX 4, NXT 4

8

In [63]:
table_list = div_data.find_all(
    'table'
)

In [64]:
table_data = table_list[0]

In [65]:
# table_data에서 thead를 찾는다
thead_data = table_data.find('thead')

In [67]:
# 데이터들은 열을 나타내는 태그에 존재
# th 태그들에 데이터가 존재
# th 태그를 모두 찾는다.
th_list = thead_data.find_all('th')

In [72]:
# th 데이터에서 문자만 추출
# map( 함수->lambda, 1차원 데이터)
cols = list(
    map(
        lambda x : x.string,
        th_list
    )
)

In [76]:
# able_data에서 tbody 데이터를 찾는다
tbody_data = table_data.find('tbody')

In [77]:
# tbody 데이터에서 모든 tr 태그를 찾는다
# (tr 안에 th, td 데이터를 이용하여 1차원 데이터 구성)
tr_list = tbody_data.find_all('tr')

In [78]:
tr_list[0]

<tr class="down">
<th scope="row"><a href="/item/main.naver?code=252670" onclick="clickcr(this, 'spe.slist', '252670', '1', event);">KODEX 200선물인버스2X</a></th>
<td>1,248</td>
<td><em class="bu_p bu_pdn"><span class="blind">하락</span></em> 31</td>
<td>
<em class="down">
				-2.42%
				</em>
</td>
</tr>

In [86]:
tr_list[0].find_all(['th', 'td'])

[<th scope="row"><a href="/item/main.naver?code=252670" onclick="clickcr(this, 'spe.slist', '252670', '1', event);">KODEX 200선물인버스2X</a></th>,
 <td>1,248</td>,
 <td><em class="bu_p bu_pdn"><span class="blind">하락</span></em> 31</td>,
 <td>
 <em class="down">
 				-2.42%
 				</em>
 </td>]

In [91]:
# tr_list에서 첫 번째 데이터를 이용하여 th, td 데이터를 찾는다.
list(
    map(
        lambda x: x.get_text().strip(),
        tr_list[0].find_all(['th','td'])
    )
)

['KODEX 200선물인버스2X', '1,248', '하락 31', '-2.42%']

In [100]:
# 비어있는 리스트 생성
values = []
# tr_list를 이용하여 반복문을 실행

for td_data in tr_list:
    # td_data에는 반복 실행할 때마다 tr_list 의 첫번째, 두번째 ,, 대입
    value = list(
        map(
            lambda x: x.get_text().strip(),
            td_data.find_all(['th','td'])
        )   
    )  
    values.append(value)     
values

[['KODEX 200선물인버스2X', '1,248', '하락 31', '-2.42%'],
 ['이트론', '5', '하락 5', '-50.00%'],
 ['엔케이', '1,393', '상승 3', '+0.22%'],
 ['씨피시스템', '2,540', '상승 130', '+5.39%'],
 ['KD', '934', '상승 167', '+21.77%'],
 ['보성파워텍', '4,310', '상승 355', '+8.98%'],
 ['이아이디', '83', '하락 19', '-18.63%'],
 ['KODEX 인버스', '3,412', '하락 48', '-1.39%'],
 ['한국선재', '4,280', '상승 360', '+9.18%'],
 ['일승', '8,140', '상승 1,610', '+24.66%'],
 ['KODEX 2차전지산업레버리지', '1,021', '상승 21', '+2.10%'],
 ['대창솔루션', '511', '상승 20', '+4.07%'],
 ['이화전기', '319', '상승 24', '+8.14%'],
 ['미투온', '6,400', '상승 600', '+10.34%'],
 ['상상인증권', '845', '상승 164', '+24.08%']]

In [101]:
import pandas as pd

In [103]:
df = pd.DataFrame(values, columns = cols)
df

Unnamed: 0,종목명,현재가,전일대비,등락률
0,KODEX 200선물인버스2X,1248,하락 31,-2.42%
1,이트론,5,하락 5,-50.00%
2,엔케이,1393,상승 3,+0.22%
3,씨피시스템,2540,상승 130,+5.39%
4,KD,934,상승 167,+21.77%
5,보성파워텍,4310,상승 355,+8.98%
6,이아이디,83,하락 19,-18.63%
7,KODEX 인버스,3412,하락 48,-1.39%
8,한국선재,4280,상승 360,+9.18%
9,일승,8140,"상승 1,610",+24.66%


In [107]:
# section_sise_top class 이름을 가진 div 태그의 모든 table을 데이터프레임으로 생성

file_num = 1
for table_data in table_list:
    thead_data = table_data.find('thead')
    th_list = thead_data.find_all('th')
    cols = list(
        map(
            lambda x : x.string,
            th_list
        )
    )
    tbody_data = table_data.find('tbody')
    tr_list = tbody_data.find_all('tr')
    values = []
    # tr_list를 이용하여 반복문을 실행

    for td_data in tr_list:
        # td_data에는 반복 실행할 때마다 tr_list 의 첫번째, 두번째 ,, 대입
        value = list(
            map(
                lambda x: x.get_text().strip(),
                td_data.find_all(['th','td'])
            )   
        )  
        values.append(value) 

    globals()[f'df{file_num}'] = pd.DataFrame(values, columns = cols)
    # 각각의 파일로 저장
    globals()[f'df{file_num}'].to_csv(f'df{file_num}.csv')
    file_num += 1
    

In [106]:
df8

Unnamed: 0,종목명,현재가,전일대비,등락률
0,삼성전자,71100,"상승 1,000",+1.43%
1,SK하이닉스,287500,"상승 10,500",+3.79%
2,LG에너지솔루션,347000,"상승 3,500",+1.02%
3,삼성바이오로직스,1035000,"상승 4,000",+0.39%
4,한화에어로스페이스,947000,"하락 4,000",-0.42%
5,현대차,220000,"상승 1,500",+0.69%
6,HD현대중공업,502000,"하락 9,000",-1.76%
7,KB금융,109300,"상승 2,600",+2.44%
8,기아,105700,상승 800,+0.76%
9,두산에너빌리티,62000,"상승 1,100",+1.81%


In [109]:
type(div_data)

bs4.element.Tag

In [None]:
str(div_data)

In [114]:
# html 문서(url, file, html로 이루어진 문자)를 read_html() 함수에 입력하면 -> 
# html 안에 있는 table 태그를 찾아서 데이터프레임으로 생성
pd.read_html(str(div_data))
# 테이블만 가능

  pd.read_html(str(div_data))


[                 종목명   현재가      전일대비      등락률
 0   KODEX 200선물인버스2X  1248     하락 31   -2.42%
 1                이트론     5      하락 5  -50.00%
 2                엔케이  1393      상승 3   +0.22%
 3              씨피시스템  2540    상승 130   +5.39%
 4                 KD   934    상승 167  +21.77%
 5              보성파워텍  4310    상승 355   +8.98%
 6               이아이디    83     하락 19  -18.63%
 7          KODEX 인버스  3412     하락 48   -1.39%
 8               한국선재  4280    상승 360   +9.18%
 9                 일승  8140  상승 1,610  +24.66%
 10  KODEX 2차전지산업레버리지  1021     상승 21   +2.10%
 11             대창솔루션   511     상승 20   +4.07%
 12              이화전기   319     상승 24   +8.14%
 13               미투온  6400    상승 600  +10.34%
 14             상상인증권   845    상승 164  +24.08%,
         종목명    현재가      전일대비      등락률
 0    오리엔탈정공  11320    상승 420   +3.85%
 1     원익홀딩스  11400  상승 2,060  +22.06%
 2        삼현  17320  상승 2,450  +16.48%
 3     세진중공업  22050  하락 1,450   -6.17%
 4       네오셈   9120    상승 700   +8.31%
 5    하나마이크론 

In [118]:
# 데이터프레임을 sqlserver에 insert
# !pip install sqlalchemy

Collecting sqlalchemy
  Downloading sqlalchemy-2.0.43-cp313-cp313-macosx_11_0_arm64.whl.metadata (9.6 kB)
Downloading sqlalchemy-2.0.43-cp313-cp313-macosx_11_0_arm64.whl (2.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m32.3 MB/s[0m  [33m0:00:00[0m
[?25hInstalling collected packages: sqlalchemy
Successfully installed sqlalchemy-2.0.43


In [119]:
from sqlalchemy import create_engine

In [126]:
# DB server의 정보를 입력
engine = create_engine(
    "mysql+pymysql://root@localhost:3306/multicam"
)

In [None]:
# to_sql() 매개변수
# name : 테이블의 이름
# con : 데이터베이스의 주소
# index : index 데이터를 포함할 것인가(기본값 : True)
# if_exists : replace(교체), fail(실패, 기본값), append(데이터를 추가)
df1.to_sql(
    name = 'test1234',
    con = engine
)

In [135]:
# pymysql을 이용하여 데이터프레임의 정보를 DB에 insert
from database import MyDB

In [136]:
db1 = MyDB()

In [140]:
table_query = """
    create table
    if not exists
    `krx_top`(
    `No` int primary key auto_increment,
    `종목명` varchar(50) not null,
    `현재가` int not null,
    `전일대비` varchar(20) not null,
    `등락률` varchar(20)
    )
"""

db1.sql_query(table_query)

'Query OK'

In [142]:
df1.loc[0,].to_list()

['KODEX 200선물인버스2X', '1,248', '하락 31', '-2.42%']

In [143]:
insert_query = """
    insert into
    `krx_top`(
    `종목명`, `현재가`, `전일대비`, `등락률`
    )
    values
    (%s, %s, %s, %s)
"""

In [150]:
df1['현재가'] = df1['현재가'].str.replace(',', '')
# .str은 잠깐 문자열함수를 사용할 수 있는 형태로 바꿔줌

In [151]:
db1.sql_query(insert_query, *df1.loc[0,].to_list())
# 현재가 컬럼의 데이터가 숫자형으로 변환 불가능 -> ',' 제거

'Query OK'

In [152]:
# Cursor에 데이터를 대입
for i in range (0, len(df1)):
    db1.sql_query(insert_query, *df1.loc[i,].to_list())

In [153]:
# DB server와 cursor의 동기화
db1.commit_db()

Commit 완료
서버와의 연결 종료
