#### 웹 크롤링
1. 사용할 라이브러리 목록
    - requests
        - 웹 통신을 위한 라이브러리
        - 웹 서버에 요청을보내고 응답을 받아오는 라이브러리
        - get( 웹주소, prams = data, header = data )
    - bs4
        - BeautifulSoup class를 사용
        - html문서형 데이터를 parsing을 하여 데이터를 쉽게 추출할수 있도록 도와주는 기능
        - html의 TAG를 기준으로 데이터를 추출
        - 웹의 구조를 어느정도 인지하고 사용하면 쉽게 접근이 가능
        - Parser를 활용해서 python에서 접근이 쉽게 객체형태로 제공
    - selenium
        - 웹 어플리케이션을 테스트를 하기 위한 라이브러리
        - 웹 브라우저를 python이 code를 이용해서 제어
        - Chrome의 버전이 구버전이거나 selenium이 구 버전인 경우에는 별도의 소프트웨어를 설치
        - 특정 동적인 웹 페이지에서 데이터를 가지고 올때 사용

In [1]:
import requests
from bs4 import BeautifulSoup as bs

In [2]:
url = "http://www.naver.com"
response = requests.get(url)

In [3]:
response

<Response [200]>

In [4]:
html_data = response.text

In [5]:
type(html_data)

str

In [6]:
html_data.find('네이버')

378

In [7]:
html_data[378:410]

'네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요'

In [8]:
# parsing 작업 ; 데이터의 타입을 변경 ( 내가 사용하기 편한 형태로 변경 )
soup = bs(html_data, 'html.parser')

In [9]:
type(soup)

bs4.BeautifulSoup

- BeautifulSoup 내장함수
    - soup.태그명 -> html 문서에서 해당 태그명의 첫번째 정보를 출력
    - soup.태그명.string -> 첫번째 정보에서 contents부분의 문자를 출력
    - soup.태그명['속성명'] : 첫번째 태그의 정보에서 속성의 값을 출력
    - find(태그명)
        - html 문서에서 해당 태그명의 첫번째 정보를 출력
        - find(속성명 = 속성값) : 태그들 중 해당 속성을 가지고 속성값을 가진 태그의 첫번째 정보를 출력
        - 반환되는 값의 type은 TAG
    - find_all(태그명)
        - html 문서에서 해당 태그명의 모든 정보를 출력
        - limit 매개변수 : 태그 정보의 개수를 설정
        - 반환되는 값의 type이 TAG_list
        

In [10]:
# soup에서 a태그의 정보를 출력
print(soup.a)

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>


In [11]:
print(soup.find('a'))

<a href="#topAsideButton"><span>상단영역 바로가기</span></a>


In [12]:
print(soup.a.string)

상단영역 바로가기


In [13]:
print(soup.a['href'])

#topAsideButton


In [14]:
type(soup.a)

bs4.element.Tag

In [15]:
type(soup.find('a'))

bs4.element.Tag

In [16]:
type(soup.find_all('a'))

bs4.element.ResultSet

In [17]:
# a_list = soup.find_all('a', limit=3)
a_list = soup.find_all('a')

In [18]:
a_list

[<a href="#topAsideButton"><span>상단영역 바로가기</span></a>,
 <a href="#shortcutArea"><span>서비스 메뉴 바로가기</span></a>,
 <a href="#newsstand"><span>새소식 블록 바로가기</span></a>,
 <a href="#shopping"><span>쇼핑 블록 바로가기</span></a>,
 <a href="#feed"><span>관심사 블록 바로가기</span></a>,
 <a href="#account"><span>MY 영역 바로가기</span></a>,
 <a href="#widgetboard"><span>위젯 보드 바로가기</span></a>,
 <a href="#viewSetting"><span>보기 설정 바로가기</span></a>]

In [19]:
a_list[1].find('span')

<span>서비스 메뉴 바로가기</span>

In [20]:
# a_list에 있는 모든 원소들에 contents만 추출하여 새로운 리스트 생성

# case1 반복문 이용
contents_list = []

# 반복문 생성
for a_tag in a_list:
    # a_tag -> a_list에 있는 각 원소(TAG)들이 한번씩 대입
    contents_list.append( a_tag.string )

contents_list

['상단영역 바로가기',
 '서비스 메뉴 바로가기',
 '새소식 블록 바로가기',
 '쇼핑 블록 바로가기',
 '관심사 블록 바로가기',
 'MY 영역 바로가기',
 '위젯 보드 바로가기',
 '보기 설정 바로가기']

In [21]:
# while문
contents_list2 = []

# 초기값
i = 0

while True:
    try:
        contents_list2.append(a_list[i].get_text())
        i += 1
    except:
        break
contents_list2

['상단영역 바로가기',
 '서비스 메뉴 바로가기',
 '새소식 블록 바로가기',
 '쇼핑 블록 바로가기',
 '관심사 블록 바로가기',
 'MY 영역 바로가기',
 '위젯 보드 바로가기',
 '보기 설정 바로가기']

In [22]:
# case2 map함수를 이용
list(
    map(
        lambda x : x.string,
        a_list
    )
)

['상단영역 바로가기',
 '서비스 메뉴 바로가기',
 '새소식 블록 바로가기',
 '쇼핑 블록 바로가기',
 '관심사 블록 바로가기',
 'MY 영역 바로가기',
 '위젯 보드 바로가기',
 '보기 설정 바로가기']

In [23]:
def get_string(x):
    # x에는 TAG 데이터 대입
    result = x.get_text()
    return result

list(
    map(
        get_string,
        a_list
    )
)

['상단영역 바로가기',
 '서비스 메뉴 바로가기',
 '새소식 블록 바로가기',
 '쇼핑 블록 바로가기',
 '관심사 블록 바로가기',
 'MY 영역 바로가기',
 '위젯 보드 바로가기',
 '보기 설정 바로가기']

In [24]:
# 네이버 파이낸스
# 1. 요청을 보내고 응답을 받는다.
url = "https://finance.naver.com/"
response = requests.get(url)

In [25]:
response

<Response [200]>

In [26]:
# 2. 응답 메시지에서 문자로 출력변수에 저장
html_data = response.text

In [27]:
# bs4에 BeautifulSoup을 이용하여 데이터를 피싱 (class 생성)
soup = bs(html_data, 'html.parser')

In [28]:
# 주요뉴스의 헤드라인 텍스트를 출력
# div TAG들 중에 class 속성의 값이 "section_strategy"인 태그를 찾는다.

len(soup.find_all('div', attrs={
    'class' : 'section_strategy'
}))
# find_all로 태그를 검색하고 길이를 확인하니 1
# html 문서에서 해당 태그는 1개 -> find()함수를 이용

1

In [29]:
div_data = soup.find('div', attrs={
    'class' : 'section_strategy'
})

In [30]:
# div_data에서 li태그의 정보를 출력
li_list = div_data.find_all('li')

In [31]:
# li_list에서 텍스트를 추출하여 새로운 리스트로 생성
news_data = list(
    map(
        lambda x : x.get_text().strip(),
        li_list
    )
)

In [32]:
news_data

['"땡큐, 트럼프"…관세 여파로 가격 ↑, 철강·알류미늄株 급등 [줍줍리포트]',
 '“미장에서 국장으로 환승”… 韓 증시 ETF 담은 개미들',
 '너도나도 감액배당…“과세 개편은 신중” [마켓딥다이브]',
 '휴젤子 소액주주연합 뿔났다 “정부 밸류업 정책과 엇박자 ”[fn마켓워치]',
 '"휴지조각 될라"…금감원 찾은 홈플러스 유동화증권 투자자들',
 '홈플러스 전단채 투자자 "상거래채권으로 인정해달라…증권사·개인 뒷통수 친 MBK"']

In [33]:
# html 문서에서 div중 class가 krx_group_type인 태그 모두를 찾는다.
divs_list = soup.find_all('div', attrs={
    'class' : 'krx_group_type'
})

In [34]:
len(divs_list)

4

In [35]:
table_data1 = divs_list[0]

In [36]:
# table 태그의 데이터를 가지고 와서 데이터프레임으로 변경
# colummns의 값을 따로 추출 (1차원 데이터)
# thead 태그 안에 th 태그들의 텍스트 추출
thead_data = table_data1.find('thead')
th_list = thead_data.find_all('th')
# th에 있는 문자를 각각 추출하여 리스트로 생성
cols = list(
    map(
        lambda x : x.get_text(),
        th_list
    )
)
cols

['종목명', '현재가', '전일대비', '등락률']

In [37]:
# values의 값을 따로 추출 (2차원 데이터)
# tbody 태그의 정보를 추출
tbody_data = table_data1.find('tbody')
# tbody_data에서 모든 tr태그를 찾는다
tr_list = tbody_data.find_all('tr')
# tr_list에서 첫번째 데이터를 추출
tr_data = tr_list[0]
# tr_data에서 th태그와 td태그를 모두 찾는다.
val_list = tr_data.find_all(['th', 'td'])
# val_list에서 텍스트를 출력하여 새로운 리스트를 생성
first_values = list(
    map(
        lambda x : x.get_text().strip(),
        val_list
    )
)
first_values

['KODEX 200선물인버스2X', '2,225', '하락 80', '-3.47%']

In [38]:
values = []
for tr_data in tr_list:
    # tr_data에서 th태그와 td태그를 모두 찾는다.
    val_list = tr_data.find_all( ['th', 'td'] )
    value = []
    for val in val_list:
        # val -> <th>..., <td>.... TAG데이터
        # val에서 텍스트를 추출하여 value에 추가
        value.append( val.get_text().strip() )
    # 두번째 반복문이 종료한 뒤 value를 values에 추가
    values.append(value)
values

[['KODEX 200선물인버스2X', '2,225', '하락 80', '-3.47%'],
 ['삼성중공업', '14,370', '상승 150', '+1.05%'],
 ['티에스넥스젠', '243', '상승 37', '+17.96%'],
 ['인콘', '289', '상승 37', '+14.68%'],
 ['KODEX 코스닥150선물인버스', '3,850', '하락 30', '-0.77%'],
 ['동양철관', '901', '하락 40', '-4.25%'],
 ['KODEX 레버리지', '15,840', '상승 490', '+3.19%'],
 ['KODEX 코스닥150레버리지', '7,645', '상승 120', '+1.59%'],
 ['우듬지팜', '1,553', '상승 82', '+5.57%'],
 ['삼성전자', '55,200', '상승 1,600', '+2.99%'],
 ['KODEX 인버스', '4,480', '하락 80', '-1.75%'],
 ['티로보틱스', '14,390', '상승 1,970', '+15.86%'],
 ['에스엠씨지', '4,085', '상승 940', '+29.89%'],
 ['케이바이오', '239', '상승 13', '+5.75%'],
 ['아이씨티케이', '12,510', '상승 1,090', '+9.54%']]

In [39]:
def func_1(tr_data):
    # x 매개변수에 대입이 될 데이터? -> tr_list에 각 원소들이 대입
    val_list = tr_data.find_all( ['th', 'td'] )
    result = list(
        map(
            lambda val : val.get_text().strip(),
            val_list
        )
    )
    return result

values2 = list(
    map(
    func_1,
    tr_list
    )
)
values2

[['KODEX 200선물인버스2X', '2,225', '하락 80', '-3.47%'],
 ['삼성중공업', '14,370', '상승 150', '+1.05%'],
 ['티에스넥스젠', '243', '상승 37', '+17.96%'],
 ['인콘', '289', '상승 37', '+14.68%'],
 ['KODEX 코스닥150선물인버스', '3,850', '하락 30', '-0.77%'],
 ['동양철관', '901', '하락 40', '-4.25%'],
 ['KODEX 레버리지', '15,840', '상승 490', '+3.19%'],
 ['KODEX 코스닥150레버리지', '7,645', '상승 120', '+1.59%'],
 ['우듬지팜', '1,553', '상승 82', '+5.57%'],
 ['삼성전자', '55,200', '상승 1,600', '+2.99%'],
 ['KODEX 인버스', '4,480', '하락 80', '-1.75%'],
 ['티로보틱스', '14,390', '상승 1,970', '+15.86%'],
 ['에스엠씨지', '4,085', '상승 940', '+29.89%'],
 ['케이바이오', '239', '상승 13', '+5.75%'],
 ['아이씨티케이', '12,510', '상승 1,090', '+9.54%']]

In [40]:
import pandas as pd

In [41]:
# cols, values를 이용하여 데이터프레임을 생성 
df = pd.DataFrame(values, columns=cols)
df

Unnamed: 0,종목명,현재가,전일대비,등락률
0,KODEX 200선물인버스2X,2225,하락 80,-3.47%
1,삼성중공업,14370,상승 150,+1.05%
2,티에스넥스젠,243,상승 37,+17.96%
3,인콘,289,상승 37,+14.68%
4,KODEX 코스닥150선물인버스,3850,하락 30,-0.77%
5,동양철관,901,하락 40,-4.25%
6,KODEX 레버리지,15840,상승 490,+3.19%
7,KODEX 코스닥150레버리지,7645,상승 120,+1.59%
8,우듬지팜,1553,상승 82,+5.57%
9,삼성전자,55200,"상승 1,600",+2.99%


In [42]:
# divs_list의 데이터들을 한번씩 데이터프레임으로 변환
num = 1
for table_data in divs_list:
    # 컬럼의 데이터를 생성하는 부분
    thead_data = table_data.find('thead')
    th_list = thead_data.find_all('th')
    # th에 있는 문자를 각각 추출하여 리스트로 생성
    cols = list(
        map(
            lambda x : x.get_text(),
            th_list
        )
    )
    # values를 생성하는 부분
    tbody_data = table_data.find('tbody')
    # tbody_data에서 모든 tr태그를 찾는다
    tr_list = tbody_data.find_all('tr')

    values = []
    for tr_data in tr_list:
        # tr_data에서 th태그와 td태그를 모두 찾는다.
        val_list = tr_data.find_all( ['th', 'td'] )
        value = []
        for val in val_list:
            # val -> <th>..., <td>.... TAG데이터
            # val에서 텍스트를 추출하여 value에 추가
            value.append( val.get_text().strip() )
        # 두번째 반복문이 종료한 뒤 value를 values에 추가
        values.append(value)

    globals()[f"df{num}"] = pd.DataFrame(values, columns=cols)
    num += 1

In [43]:
df1

Unnamed: 0,종목명,현재가,전일대비,등락률
0,KODEX 200선물인버스2X,2225,하락 80,-3.47%
1,삼성중공업,14370,상승 150,+1.05%
2,티에스넥스젠,243,상승 37,+17.96%
3,인콘,289,상승 37,+14.68%
4,KODEX 코스닥150선물인버스,3850,하락 30,-0.77%
5,동양철관,901,하락 40,-4.25%
6,KODEX 레버리지,15840,상승 490,+3.19%
7,KODEX 코스닥150레버리지,7645,상승 120,+1.59%
8,우듬지팜,1553,상승 82,+5.57%
9,삼성전자,55200,"상승 1,600",+2.99%


In [44]:
df2

Unnamed: 0,종목명,현재가,전일대비,등락률
0,쓰리에이로직스,9510,"상한가 2,190",+29.92%
1,에스엠씨지,4085,상한가 940,+29.89%
2,클리노믹스,592,상한가 136,+29.82%
3,참엔지니어링,305,상한가 70,+29.79%
4,아센디오,2695,상승 610,+29.26%
5,씨앤씨인터내셔널,41925,"상승 9,075",+27.63%
6,파인메딕스,11350,"상승 2,150",+23.37%
7,그린리소스,17610,"상승 3,040",+20.86%
8,레이저옵텍,10060,"상승 1,730",+20.77%
9,퀄리타스반도체,17080,"상승 2,860",+20.11%


In [45]:
df3

Unnamed: 0,종목명,현재가,전일대비,등락률
0,더테크놀로지,589,하락 -251,-29.88%
1,오비고,5120,하락 -750,-12.78%
2,카이노스메드,1254,하락 -162,-11.44%
3,LIG넥스원,277500,"하락 -31,500",-10.19%
4,한화,45850,"하락 -5,150",-10.10%
5,디에이치엑스컴퍼니,891,하락 -99,-10.00%
6,엠앤씨솔루션,77600,"하락 -8,500",-9.87%
7,넥스틸,15480,"하락 -1,540",-9.05%
8,한성크린텍,1339,하락 -126,-8.60%
9,성우전자,2335,하락 -215,-8.43%


In [46]:
df4

Unnamed: 0,종목명,현재가,전일대비,등락률
0,삼성전자,55200,"상승 1,600",+2.99%
1,SK하이닉스,199150,"상승 11,350",+6.04%
2,LG에너지솔루션,347500,"상승 6,500",+1.91%
3,삼성바이오로직스,1084000,"상승 16,000",+1.50%
4,현대차,197700,"상승 2,100",+1.07%
5,셀트리온,187000,"상승 3,600",+1.96%
6,기아,99100,상승 700,+0.71%
7,삼성전자우,45800,상승 800,+1.78%
8,NAVER,213500,"상승 1,000",+0.47%
9,KB금융,76800,하락 600,-0.78%


In [47]:
df

Unnamed: 0,종목명,현재가,전일대비,등락률
0,KODEX 200선물인버스2X,2225,하락 80,-3.47%
1,삼성중공업,14370,상승 150,+1.05%
2,티에스넥스젠,243,상승 37,+17.96%
3,인콘,289,상승 37,+14.68%
4,KODEX 코스닥150선물인버스,3850,하락 30,-0.77%
5,동양철관,901,하락 40,-4.25%
6,KODEX 레버리지,15840,상승 490,+3.19%
7,KODEX 코스닥150레버리지,7645,상승 120,+1.59%
8,우듬지팜,1553,상승 82,+5.57%
9,삼성전자,55200,"상승 1,600",+2.99%


In [48]:
pd.read_html(str(divs_list[0]))[0]

  pd.read_html(str(divs_list[0]))[0]


Unnamed: 0,종목명,현재가,전일대비,등락률
0,KODEX 200선물인버스2X,2225,하락 80,-3.47%
1,삼성중공업,14370,상승 150,+1.05%
2,티에스넥스젠,243,상승 37,+17.96%
3,인콘,289,상승 37,+14.68%
4,KODEX 코스닥150선물인버스,3850,하락 30,-0.77%
5,동양철관,901,하락 40,-4.25%
6,KODEX 레버리지,15840,상승 490,+3.19%
7,KODEX 코스닥150레버리지,7645,상승 120,+1.59%
8,우듬지팜,1553,상승 82,+5.57%
9,삼성전자,55200,"상승 1,600",+2.99%


In [54]:
# KRX 상위 데이터와 NXT 상위 데이터를 모두 데이터프레임으로 생성

# div TAG중 class가 'section_sise_top'인 태그를 추출
div_data = soup.find('div', attrs={
    'class' : 'section_sise_top'
    }
)
div_data

<div class="section_sise_top">
<h2 class="h_type"><span>TOP 종목</span></h2>
<!-- KRX, NXT 탭 -->
<div class="area_tab_type">
<ul class="top_tab_list">
<!-- [D] 선택된 탭 'is_active' -->
<li class="top_tab_item top_tab_krx is_active">
<a class="top_tab_link" href="#" onclick="clickcr(this, 'top.krx', '', '', event);return false;">KRX</a>
</li>
<li class="top_tab_item top_tab_nxt">
<a class="top_tab_link" href="#" onclick="clickcr(this, 'top.nxt', '', '', event);return false;">NXT</a>
</li>
</ul>
<div class="text_nxt">
                                넥스트레이드(NXT)
                                <button class="buttton_tooltip" type="button">
<span class="icon">
<span class="blind">도움말</span>
</span>
</button>
<div class="area_tooltip">
<p>
<strong>넥스트레이드(NXT)</strong>
                                        넥스트레이드(NXT)란 대한민국
                                        최초의 대체거래소(ATS,
                                        Alternative Trading
                                        System)입니다. 아래는
  

In [56]:
# pandas에 내장된 read_html()함수를 이용하여 div_data의 테이블 태그를 모두 데이터프레임으로 변환
# div_data를 문자로 변경
div_data = str(div_data)

dfs = pd.read_html(div_data)

  dfs = pd.read_html(div_data)


In [None]:
# html5lib 에러 나는 경우
# !pip install html5lib



In [58]:
len(dfs)

8

In [59]:
# 홀수 위치의 데이터는 krx1, krx2, krx3, krx4 전역변수에 각각 대입

# 짝수 위치의 데이터는 nxt1, nxt2, nxt3, nxt4 전역변수에 각각 대입
# 조건식 : 홀수의 조건식? -> 2로 나누었을때 나머지 1인 경우

for i in range(len(dfs)):
    # print(i)
    # i가 0인 경우 krx1변수 생성 dfs[0]대입
    # i가 1인 경우 krx2변수 생성 dfs[1]대입
    num = i // 2 + 1
    if (i % 2 == 0):
        globals()[f"krx{num}"] = dfs[i]
    else:
        globals()[f"nxt{num}"] = dfs[i]

In [63]:
nxt4

Unnamed: 0,종목명,현재가,전일대비,등락률
0,S-Oil,60500,상승 300,+0.50%
1,LG유플러스,10660,상승 210,+2.01%
2,제일기획,17290,하락 130,-0.75%
3,롯데쇼핑,67500,보합,0.00%
4,와이지엔터테인먼트,62400,"상승 1,100",+1.79%
5,코오롱인더,32100,하락 300,-0.93%
6,에스에프에이,19530,하락 30,-0.15%
7,동국제약,15220,하락 90,-0.59%
8,컴투스,43050,"상승 1,300",+3.11%
9,골프존,59700,보합,0.00%
