### 웹 크롤링 
- 특정 주소로 요청을 보내고 받아온 응답 메시지(html)안에서 특정 위치의 데이터를 추출 
- 사용이 되는 라이브러리 : requests, bs4 (정적 웹페이지), selenium (동적 웹페이지)

### bs4
- bs4 라이브러리 안에 있는 BeautifulSoup Class를 사용
- html로 이루어진 문자형 데이터를 parsing(데이터의 형태를 변환) 작업을 하여 데이터를 쉽게 추출하기 위한 Class
- html의 TAG를 기준으로 데이터(contents)에 쉽게 접근 
- 웹의 구조를 어느정도 인지하고 사용을 하게 되면 쉽게 사용
- Parser를 활용하여 python에서 접근이 쉽게 객체(변수+함수)의 형태로 제공

In [None]:
import requests

In [None]:
# 요청을 보낼 주소를 변수에 저장 
url = 'https://www.naver.com'
# 요청을 보내고 응답 메시지를 변수에 저장 
response = requests.get(url)

In [None]:
from pprint import pprint

In [None]:
pprint(response.text)

In [None]:
print(type(response.text))

In [None]:
html_data = response.text

In [None]:
# html_data에서 '네이버' 문자열을 추출
# '네이버'의 위치를 확인 
print(html_data.index('네이버'))
print(html_data.find('네이버'))

In [None]:
html_data[378:400]

In [None]:
# bs4 라이브러리 설치 
# !pip install bs4

In [None]:
from bs4 import BeautifulSoup as bs

In [None]:
# html로 이루어진 문자열 데이터를 bs Class에 대입 
# 생성자 함수에는 2개의 인자값 대입 
# html로 이루어진 문자열, Parser 지정 
soup = bs(html_data, 'html.parser')

In [None]:
type(soup)

- BeautifulSoup Class
    - soup.태그명 : 해당 태그명의 첫번째 태그를 출력
    - soup.태그명.string : 첫번째 태그에서 contents를 출력
        - ex) `<p>test</p>` --> test
    - soup.태그명['속성명'] : 첫번째 태그에서 해당 속성의 값을 출력 
        - ex) `<a href='https://www.google.com'>구글</a>` --> https://www.google.com

In [None]:
soup.a

In [None]:
soup.a.string

In [None]:
soup.a['href']

- Class 안에 함수 
    - find()
        - html 데이터에서 특정 태그의 첫번째 정보를 출력
        - find(속성명 = 속성값) : 태그들 중에 해당 속성명과 속성의 값이 같은 첫번째 태그의 정보를 출력 
        - 결과 값의 타입이 TAG 형태로 출력 
        - find 함수는 TAG, BeautifulSoup 형태의 데이터에서 사용이 가능
    - find_all()
        - html 데이터에서 특정 태그의 모든 정보를 출력 
        - limit 매개변수 : 출력하는 데이터의 개수를 지정 
        - 결과 값의 타입이 TAG들이 모여있는 리스트와 흡사한 ResultSet 형태로 출력
    - get_text()
        - TAG형태의 데이터에서 contents만 추출

In [None]:
print(soup.find('a'))
print(soup.a)
print(type(soup.find('a')))
print(type(soup.a))

In [None]:
print(type(soup.find_all('a')))
print(soup.find_all('a'))
print(soup.find_all('a')[1])
print(type(soup.find_all('a')[1]))

In [None]:
# a태그들을 모두 찾아서 안에 텍스트를 추출하여 새로운 리스트에 대입
a_list = soup.find_all('a')
a_list

In [None]:
a_list[1].get_text()

In [None]:
# 비어있는 리스트 생성
a_data = []
for a in a_list:
    # print(a)
    # print(type(a))
    # print(a.get_text())
    # a_data에 a.get_text()의 결과를 추가 
    a_data.append( a.get_text() )

In [None]:
a_data

In [None]:
# map 함수 + lambda 함수 
list(
    map(
        lambda a : a.get_text(), 
        a_list
    )
)

In [None]:
soup.find_all('img')

In [None]:
# 네이버 증권 주소로 요청 보낸다. 
url2 = 'https://finance.naver.com/'

# requests를 이용하여 요청 보낸다. 
res = requests.get(url2)

# 응답 메시지를 문자형 데이터로 저장
html_data2 = res.text

In [None]:
html_data2

In [None]:
# bs Class를 이용하여 데이터 파싱 
soup2 = bs(html_data2, 'html.parser')

In [None]:
soup2.find('title')

In [None]:
# table 태그중에 class가 tbl_home인 태그만 찾는다. 
soup2.find_all('table', attrs={
    'class' : 'tbl_home'
})

In [None]:
# table 태그중 class가 tbl_home인 태그의 개수를 확인
len(
    soup2.find_all('table', attrs={
        'class' : 'tbl_home'
    })
)

In [None]:
# div 태그 중에 class가 section_sise_top인 태그의 개수를 확인 
len(
    soup2.find_all(
        'div', 
        attrs={
            'class' : 'section_sise_top'
        }
    )
)

In [None]:
# div 태그의 개수가 1인 것을 확인
# div 태그를 변수에 저장 
div_data = soup2.find(
    'div', 
    attrs={
        'class' : 'section_sise_top'
    }
)

In [None]:
type(div_data)

In [None]:
# Tag 타입의 데이터에서는 find() 함수가 사용 가능
len(
    div_data.find_all(
        'table', 
        attrs={
            'class' : 'tbl_home'
        }
    )
)

In [None]:
# 4개의 테이블 중 첫번째 테이블의 정보를 출력
tables = div_data.find_all(
    'table', 
    attrs = {
        'class' : 'tbl_home'
    }
)
table_data = tables[0]

In [None]:
table_data

In [None]:
# table_data에서 thead 태그를 추출 
thead_data = table_data.find('thead')
thead_data

In [52]:
# thead_data에서 th 태그를 모두 찾는다. 
th_list = thead_data.find_all('th')
th_list

[<th scope="col">종목명</th>,
 <th scope="col">현재가</th>,
 <th scope="col">전일대비</th>,
 <th scope="col">등락률</th>]

In [53]:
# map함수를 이용하여 th_list에서 contents들을 추출 
cols = list(
    map(
        lambda x : x.get_text(), 
        th_list
    )
)
cols

['종목명', '현재가', '전일대비', '등락률']

In [54]:
# tbody 태그를 추출 
tbody_data = table_data.find('tbody')

In [55]:
# tbody_data에서 tr 태그를 모두 찾는다. 
tr_list = tbody_data.find_all('tr')

In [58]:
tr_data = tr_list[0]

In [66]:

# tr_data에서 th태그를 찾는다.
th_data = tr_data.find('th')
# th_data의 텍스트를 리스트로 생성하여 변수에 저장
row_data = [th_data.get_text()]
row_data

['KODEX 200선물인버스2X']

In [None]:
# tr_data에서 td태그를 모두 찾는다. 
td_list = tr_data.find_all('td')
td_list

In [67]:
for td in td_list:
    # print(td)
    # print(td.get_text().strip())
    row_data.append(td.get_text().strip())
    # print(td.string)

In [68]:
row_data

['KODEX 200선물인버스2X', '2,140', '하락 50', '-2.28%']

In [73]:
# 비어있는 리스트 생성
values = []
# row_data를 만드는 과정을 tr_list의 길이만큼 반복실행
for tr_data in tr_list:
    # print(tr_data)
    # tr_data에서 th태그를 추출
    th_data = tr_data.find('th')
    row_data = [th_data.get_text()]

    # tr_data에서 td태그를 모두 추출
    td_list = tr_data.find_all('td')
    for td in td_list:
        row_data.append(
            td.get_text().strip()
        )
    # print(row_data)
    values.append(row_data)

In [None]:
values

In [75]:
import pandas as pd

In [None]:
# cols, values를 이용하여 데이터프레임을 생성
df = pd.DataFrame(values)
df.columns = cols
df

In [None]:
df2 = pd.DataFrame(values, columns=cols)
df2

In [None]:
!pip install openpyxl

In [78]:
# 데이터프레임을 excel 파일로 저장 
df.to_excel('finance.xlsx')

In [80]:
df2.to_csv('finance.csv', encoding='cp949')

In [None]:
!pip install lxml

In [83]:
# pandas의 read_html() 함수를 이용하여 table태그의 정보를 데이터프레임으로 저장 
# Tag data를 문자열 데이터로 변경 (div_data를 문자열로 변환)
div_str = str(div_data)
dfs = pd.read_html(div_str)

In [89]:
dfs[3]

Unnamed: 0,종목명,현재가,전일대비,등락률
0,삼성전자,76700,상승 400,+0.52%
1,SK하이닉스,177800,"상승 7,200",+4.22%
2,LG에너지솔루션,372000,하락 500,-0.13%
3,삼성바이오로직스,770000,"하락 10,000",-1.28%
4,삼성전자우,64300,상승 200,+0.31%
5,현대차,249500,하락 500,-0.20%
6,기아,118200,"상승 1,600",+1.37%
7,셀트리온,176600,하락 800,-0.45%
8,POSCO홀딩스,394500,"상승 2,000",+0.51%
9,KB금융,76000,"상승 6,700",+9.67%
