#### 웹 크롤링
1. 사용할 라이브러리 목록 
    - requests
        - 웹 통신을 위한 라이브러리 
        - 웹서버에 요청을 보내고 응답을 받아오는 라이브러리 
        - get( 웹주소, params = data, headers = data )
    - bs4
        - BeautifulSoup class를 사용
        - html문서형 데이터를 parsing을 하여 데이터를 쉽게 추출 할 수 있도록 도와주는 기능
        - html의 TAG를 기준으로 데이터를 추출 
        - 웹의 구조를 어느정도 인지하고 사용하면 쉽게 접근이 가능
        - Parser를 활용해서 python에서 접근이 쉽게 객체 형태로 제공
    - selenium 
        - 웹 어플리케이션를 테스트를 하기 위한 라이브러리 
        - 웹 브라우져를 python의 code를 이용해서 제어 
        - Chrome의 버전이 구버전이거나 selenium이 구 버전인 경우에는 별도의 소프트웨어를 설치 
        - 특정 동적인 웹 페이지에서 데이터를 가지고 올때 사용

In [None]:
import requests
from bs4 import BeautifulSoup as bs

In [None]:
url = "http://www.naver.com"
response = requests.get(url)

In [None]:
response

In [None]:
html_data = response.text

In [None]:
type(html_data)

In [None]:
html_data.find('네이버')

In [None]:
html_data[378:410]

In [None]:
# parsing 작업 : 데이터의 타입을 변경 ( 내가 사용하기 편한 형태로 변경 )
soup = bs(html_data, 'html.parser')

In [None]:
type(soup)

- BeautifulSoup 내장함수
    - soup.태그명 -> html 문서에서 해당 태그명의 첫번째 정보를 출력
    - soup.태그명.string -> 첫번째 정보에서 contents부분의 문자를 출력
    - soup.태그명['속성명'] : 첫번째 태그의 정보에서 속성의 값을 출력
    - find(태그명)
        - html 문서에서 해당 태그명의 첫번째 정보를 출력 
        - find(속성명 = 속성값) : 태그들 중 해당 속성을 가지고 속성값을 가신 태그의 첫번째 정보를 출력
        - 반환되는 값의 type은 TAG
    - find_all(태그명)
        - html 문서에서 해당 태그명의 모든 정보를 출력 
        - limit 매개변수 : 태그 정보의 개수를 설정
        - 반환되는 값의 type이 TAG_list

In [None]:
# soup에서 a태그의 정보를 출력 
print(soup.a)

In [None]:
print(soup.find('a'))

In [None]:
print(soup.a.string)

In [None]:
print(soup.a['href'])

In [None]:
type(soup.a)

In [None]:
type(soup.find('a'))

In [None]:
type(soup.find_all('a'))

In [None]:
# a_list = soup.find_all('a', limit=3)
a_list = soup.find_all('a')

In [None]:
a_list

In [None]:
a_list[1].find('span')

In [None]:
# a_list에 있는 모든 원소들에 contents만 추출하여 새로운 리스트 생성

# case1 반복문 이용 
contents_list = []

# 반복문 생성 
for a_tag in a_list:
    # a_tag -> a_list에 있는 각 원소(TAG)들이 한번씩 대입
    contents_list.append( a_tag.string )

contents_list

In [None]:
# while문
contents_list2 = []

# 초기값 
i = 0

while True:
    try:
        contents_list2.append(a_list[i].get_text())
        i += 1
    except:
        break
contents_list2

In [None]:
# case2 map함수를 이용
list(
    map(
        lambda x : x.string, 
        a_list
    )
)

In [None]:
def get_string(x):
    # x에는 TAG 데이터 대입 
    result = x.get_text()
    return result

list(
    map(
        get_string, 
        a_list
    )
)

In [None]:
# 네이버 파이낸스 
# 1. 요청을 보내고 응답을 받는다. 
url  = "https://finance.naver.com/"
response = requests.get(url)

In [None]:
response

In [None]:
# 2. 응답 메시지에서 문자로 출력 변수에 저장 
html_data = response.text

In [None]:
# bs4에 BeautifulSoup을 이용하여 데이터를 파싱 (class 생성성)
soup = bs(html_data, 'html.parser')

In [None]:
# 주요뉴스의 헤드라인 텍스트를 출력 
# div TAG들 중에 class 속성의 값이 "section_strategy"인 태그를 찾는다. 

len(soup.find_all('div', attrs={
    'class' : 'section_strategy'
}))
# find_all로 태그를 검색하고 길이를 확인하니 1
# html 문서에서 해당 태그는 1개 -> find()함수를 이용

In [None]:
div_data = soup.find('div', attrs={
    'class' : 'section_strategy'
})

In [None]:
# div_data에서 li태그의 정보를 모두 출력
li_list = div_data.find_all('li')

In [None]:
# li_list에서 텍스트 추출하여 새로운 리스트로 생성
news_data = list(
    map(
        lambda x : x.get_text().strip(), 
        li_list
    )
)

In [None]:
news_data

In [None]:
# html 문서에서 div중 class가 krx_group_type이 태그 모두를 찾는다. 
divs_list = soup.find_all('div', attrs={
    'class' : 'krx_group_type'
})

In [None]:
len(divs_list)

In [None]:
table_data1 = divs_list[0]

In [None]:
# table 태그의 데이터를 가지고 와서 데이터프레임으로 변경 
# columns의 값을 따로 추출 (1차원 데이터)
# thead 태그 안에 th 태그들의 텍스트 추출
thead_data = table_data1.find('thead')
th_list = thead_data.find_all('th')
# th_list에 있는 문자를 각각 추출하여 리스트로 생성
cols = list(
    map(
        lambda x : x.get_text(), 
        th_list
    )
)
cols


In [None]:
# values의 값을 따로 추출 (2차원 데이터)
# tbody태그의 정보를 추출 
tbody_data = table_data1.find('tbody')
# tbody_data에서 모든 tr태그를 찾는다
tr_list = tbody_data.find_all('tr')
# tr_list에서 우선 첫번째 데이터를 추출
tr_data = tr_list[0]
# tr_data에서 th태그와 td태그를 모두 찾는다. 
val_list = tr_data.find_all( ['th', 'td'] )
# val_list에서 텍스트를 출력하여 새로운 리스트를 생성
first_values = list(
    map(
        lambda x : x.get_text().strip(), 
        val_list
    )
)
first_values

In [None]:
values = []
for tr_data in tr_list:
    # tr_data에서 th태그와 td태그를 모두 찾는다. 
    val_list = tr_data.find_all( ['th', 'td'] )
    value = []
    for val in val_list:
        # val -> <th>..., <td>.... TAG데이터
        # val에서 텍스트를 추출하여 value에 추가
        value.append( val.get_text().strip() )
    # 두번째 반복문이 종료한 뒤 value를 values에 추가 
    values.append(value)
values

In [None]:
def func_1(tr_data):
    # tr_data 매개변수에 대입이 될 데이터? -> tr_list에 각 원소들이 대입
    val_list = tr_data.find_all( ['th', 'td'] )
    result = list(
        map(
            lambda val : val.get_text().strip(), 
            val_list
        )
    )
    return result

values2 = list(
    map(
        func_1, 
        tr_list
    )
)
values2

In [None]:
import pandas as pd

In [None]:
# cols, values를 이용하여 데이터프레임을 생성 
df = pd.DataFrame(values, columns=cols)
df

In [78]:
# divs_list의 데이터들을 한번씩 데이터프레임으로 변환
num = 1
for table_data in divs_list:
    # 컬럼의 데이터를 생성하는 부분분
    thead_data = table_data.find('thead')
    th_list = thead_data.find_all('th')
    # th_list에 있는 문자를 각각 추출하여 리스트로 생성
    cols = list(
        map(
            lambda x : x.get_text(), 
            th_list
        )
    )
    # values를 생성하는 부분
    tbody_data = table_data.find('tbody')
    # tbody_data에서 모든 tr태그를 찾는다
    tr_list = tbody_data.find_all('tr')

    values = []
    for tr_data in tr_list:
        # tr_data에서 th태그와 td태그를 모두 찾는다. 
        val_list = tr_data.find_all( ['th', 'td'] )
        value = []
        for val in val_list:
            # val -> <th>..., <td>.... TAG데이터
            # val에서 텍스트를 추출하여 value에 추가
            value.append( val.get_text().strip() )
        # 두번째 반복문이 종료한 뒤 value를 values에 추가 
        values.append(value)
    
    globals()[f"df{num}"] = pd.DataFrame(values, columns=cols)
    num += 1

In [None]:
df1

In [None]:
df2

In [None]:
df3

In [82]:
df4

Unnamed: 0,종목명,현재가,전일대비,등락률
0,삼성전자,54700,"상승 1,100",+2.05%
1,SK하이닉스,196200,"상승 8,400",+4.47%
2,LG에너지솔루션,345000,"상승 4,000",+1.17%
3,삼성바이오로직스,1079000,"상승 11,000",+1.03%
4,현대차,196700,"상승 1,100",+0.56%
5,셀트리온,186300,"상승 2,900",+1.58%
6,기아,98800,상승 400,+0.41%
7,삼성전자우,45450,상승 450,+1.00%
8,NAVER,214500,"상승 2,000",+0.94%
9,한화에어로스페이스,698000,"상승 20,000",+2.95%


In [None]:
df

In [None]:
pd.read_html(str(divs_list[0]))[0]

In [None]:
# KRX 상위 데이터와 NXT 상위 데이터를 모두 데이터프레임으로 생성 

# div TAG중 class가 'section_sise_top'인 태그를 추출
div_data = soup.find('div', attrs={
    'class' : 'section_sise_top'
})
div_data

In [89]:
# pandas에 내장된 read_html() 함수를 이용하여 div_data의 
# 테이블 태그를 모두 데이터프레임으로 변환
# div_data를 문자로 변경
div_data = str(div_data)

dfs = pd.read_html(div_data)

  dfs = pd.read_html(div_data)


In [None]:
# html5lib 에러 나는 경우 
!pip install html5lib

In [90]:
len(dfs)

8

In [93]:
# 홀수 위치의 데이터는 krx1, krx2, krx3, krx4 전역변수에 각각 대입
# 짝수 위치의 데이터는 nxt1, nxt2, nxt3, nxt4 전역변수에 각각 대입
# 조건식 : 홀수의 조건식? -> 2로 나누었을때 나머지 1인 경우

for i in range(len(dfs)):
    # print(i)
    # i가 0인 경우 krx1변수 생성 dfs[0]대입
    # i가 1인 경우 nxt1변수 생성 dfs[1]대입
    num = i // 2 + 1
    if (i % 2 == 0):
        globals()[f"krx{num}"] = dfs[i]
    else:
        globals()[f"nxt{num}"] = dfs[i]



In [None]:
nxt4

NameError: name 'nxt5' is not defined