In [17]:
import pandas as pd
from bs4 import BeautifulSoup
import requests as re
from collections import OrderedDict

In [14]:
def get_stock_data(n_page = 1):

    '''
    네이버금융 시가총액 페이지를 크롤링하는 코드입니다.

    return 데이터 타입은 DataFrame이며, 
    index는 기업명, 
    columns는 ['현재가','전일비','등락률','액면가','시가총액','상장주식수','외국인비율','거래량','PER','ROE'] 과 같습니다.
    
    parameter 설명:
    
    n_page : 크롤링 할 페이지 수
    '''

    # DataFrame의 index는 title class에 들어있는 기업명들을 사용할 것입니다.
    # index_ls는 기업명을 저장하는 리스트입니다.
    index_ls = []
    
    # col_ls는 DataFrame의 각 column의 이름이 저장된 리스트입니다.
    col_ls = ['현재가','전일비','등락률','액면가','시가총액','상장주식수','외국인비율','거래량','PER','ROE']

    # dict를 선언하여, DataFrame의 각 컬럼명을 key로, 값을 저장할 list를 value로 설정하였습니다
    dictionary = OrderedDict(\
                             [(col, []) for col in col_ls])
    
    
    return_df = pd.DataFrame()
    
    for i in range(1, n_page+1):
        url = re.get('https://finance.naver.com/sise/sise_market_sum.nhn?&page=%s'%i)
        url_ = url.content
        html = BeautifulSoup(url_, 'html.parser')
        tbody = html.select('tbody')


        # 기업명을 저장하는 반복문입니다.
        # 기업명은 아래의 CSS태크 아래에 저장되어 있습니다.
        for x in html.select('tbody > tr > td > a'):

            name = x.getText()

            if not name == '':
                index_ls.append(name)

        # 각 칼럼에 들어갈 값들을 가져와 저장하는 반복문입니다.
        for cnt, num in enumerate(html.select('.number')):

            text = num.get_text().replace('\n','').replace('\t', '')
            dictionary[col_ls[cnt%10]].append(text)
        
        
        # n번째 페이지에서 크롤링한 결과를 기록한 DataFrame입니다
        temp_df = pd.DataFrame(dictionary, index = index_ls)
        
        # 지금까지 크롤링한 결과에 합쳐서 종합!
        return_df = pd.concat([return_df, temp_df])
    
    return return_df

In [15]:
df = get_stock_data()

In [16]:
df.head()

Unnamed: 0,현재가,전일비,등락률,액면가,시가총액,상장주식수,외국인비율,거래량,PER,ROE
삼성전자,44950,250,+0.56%,100,2885486,6419325,52.47,6567400,8.29,21.01
SK하이닉스,71200,900,+1.28%,5000,518338,728002,48.31,2694966,4.87,36.8
셀트리온,290000,1000,+0.35%,1000,363648,125396,22.3,318512,90.77,17.84
삼성바이오로직스,509000,1000,+0.20%,2500,336780,66165,9.66,123404,-347.2,-2.41
삼성전자우,35950,100,+0.28%,100,324855,903629,84.16,1130581,6.63,
