## 명언 크롤링하기

#### https://quotes.toscrape.com/ 에서 명언, 저자 및 관련 링크를 스크래핑하여 데이터를 수집하는 간단한 파이썬 스크립트이다.

In [2]:
import requests as rq
from bs4 import BeautifulSoup
import time

text_list = []          # 1
author_list = []        # 1
infor_list = []         # 1

for i in range(1, 100):    # 2

    url = f'https://quotes.toscrape.com/page/{i}'
    quote = rq.get(url)
    quote_html = BeautifulSoup(quote.content, 'html.parser')            # 3

    quote_text = quote_html.select('div.quote > span.text')             # 4
    quote_text_list = [i.text for i in quote_text]

    quote_author = quote_html.select('div.quote > span > small.author') # 4
    quote_author_list = [i.text for i in quote_author]

    quote_link = quote_html.select('div.quote > span > a')              # 4
    quote_link_list = ['https://quotes.toscrape.com' + i['href'] for i in quote_link]

    if len(quote_text_list) > 0:   # 4

        text_list.extend(quote_text_list)
        author_list.extend(quote_author_list)
        infor_list.extend(quote_link_list)   # 5
        time.sleep(1)   # 6

    else:
        break   # 5

1: 명언과 말한 사람, 링크가 들어갈 빈 리스트(text_list, author_list, infor_list)를 만든다.  

2: for문을 1부터 100까지 적용하여 URL을 형성한다.  

3: HTML 정보를 받아 온 후 BeautifulSoup() 함수를 통해 파싱한다.  

4: 명언과 말한 사람, 링크에 해당하는 내용을 각각 추출한다.  

5: 해당 웹 페이지는 10페이지까지 데이터가 존재하며, 11페이지부터는 아무런 내용이 없다.  
   그러나 이러한 정보는 사전에 알 수 없기에 데이터가 있는 경우 위에서 생성한 리스트에  
   extend() 함수를 사용하여 데이터를 추가하며, 그렇지 않을 경우 break를 통해 for문을 종료한다.  
   
6: 한 번 루프가 돌 때마다 1초간 정리르 준다.  

#### 크롤링한 내용을 데이터프레임 형태로 만든다.

In [3]:
import pandas as pd

pd.DataFrame({'text': text_list, 'author': author_list, 'infor': infor_list})

Unnamed: 0,text,author,infor
0,“The world as we have created it is a process ...,Albert Einstein,https://quotes.toscrape.com/author/Albert-Eins...
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling,https://quotes.toscrape.com/author/J-K-Rowling
2,“There are only two ways to live your life. On...,Albert Einstein,https://quotes.toscrape.com/author/Albert-Eins...
3,"“The person, be it gentleman or lady, who has ...",Jane Austen,https://quotes.toscrape.com/author/Jane-Austen
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe,https://quotes.toscrape.com/author/Marilyn-Monroe
...,...,...,...
95,“You never really understand a person until yo...,Harper Lee,https://quotes.toscrape.com/author/Harper-Lee
96,“You have to write the book that wants to be w...,Madeleine L'Engle,https://quotes.toscrape.com/author/Madeleine-L...
97,“Never tell the truth to people who are not wo...,Mark Twain,https://quotes.toscrape.com/author/Mark-Twain
98,"“A person's a person, no matter how small.”",Dr. Seuss,https://quotes.toscrape.com/author/Dr-Seuss


## 금융 속보 크롤링하기
네이버 금융에서 실시간 속보의 제목을 크롤링 해오는 간단한 파이썬 스크립트이다.

In [2]:
import requests as rq
import pandas as pd
from bs4 import BeautifulSoup

url = 'https://finance.naver.com/news/news_list.nhn?mode=LSS2D&section_id=101&section_id2=258'
data = rq.get(url)   # 1
html = BeautifulSoup(data.content, 'html.parser')   # 2
html_select = html.select('dl > dd.articleSubject > a')   # 3

title = [i['title'] for i in html_select]

pd.DataFrame({'title': title})

Unnamed: 0,title
0,“이렇게까지”...홍보맨 같았던 트럼프의 ‘머스크 기 살리기’
1,“나 여기로 도망갈래”...날개 잃은 주식시장에 주목 받는 이 상품
2,"고려아연 자회사 SMH, 영풍 지분 10.3% 확보… 영풍 의결권 제한"
3,"홈플러스 사태 커지자…국민연금, 사모펀드 투자 제한 만지작"
4,"美 물가 2.8%로 둔화…월가 ""관세 모멘텀 남았다"""
5,美철강관세 강행·전세계 반발…트럼프발 글로벌무역전쟁 가열(종합3보)
6,미 소비자물가 예상치 하회...침체 우려 해소하며 한숨 돌려
7,"미래에셋, 인도서 비전선포식…""혁신 금융생태계 만들 것"""
8,"[속보] 美 2월 CPI, 전년 동기 대비 2.8% 상승…시장 예상치 하회"
9,"증선위, 회계처리 위반 세토피아에 과징금·과태료·검찰통보"


1: get() 함수를 이용해 페이지의 내용을 받아 온다.  

2: BeautifulSoup() 함수를 통해 HTML 정보를 BeautifulSoup 객체로 만든다.

3: select() 함수를 통해 원하는 태그로 접근해 들어간다. 

## 기업 공시 크롤링하기
한국거래서 상장공시시스템(kind.krx.co.kr)에서 공시 내용을 크롤링하는 간단한 파이썬 스크립트이다.

In [10]:
import requests as rq
from bs4 import BeautifulSoup
import pandas as pd

url = 'https://kind.krx.co.kr/disclosure/todaydisclosure.do'   # 1
payload = {
    'method': 'searchTodayDisclosureSub',
    'currentPageSize': '15',
    'pageIndex': '1',
    'OrderMode': '0',
    'orderStat': 'D',
    'forward': 'todaydisclosure_sub',
    'chose': 'S',
    'todayFlag': 'N',
    'selDate': '2022-07-27'
}

data = rq.post(url, data=payload)   # 2
html = BeautifulSoup(data.content, 'html.parser')   # 3

tbl = pd.read_html(html.prettify())   # 4
df = tbl[0]
df.columns = ['시간', '회사명', '공시제목', '제출인', '차트/주가']

df.head()

  tbl = pd.read_html(html.prettify())   # 4


Unnamed: 0,시간,회사명,공시제목,제출인,차트/주가
0,08:08,SK디앤디,투자설명서,SK디앤디,공시차트 주가차트
1,08:11,티사이언티픽,주식등의대량보유상황보고서(일반),위지트,공시차트 주가차트
2,08:14,SK하이닉스,연결재무제표기준영업(잠정)실적(공정공시),에스케이하이닉스,공시차트 주가차트
3,08:15,티사이언티픽,임원ㆍ주요주주특정증권등소유상황보고서,위지트,공시차트 주가차트
4,08:30,엔켐,주식등의대량보유상황보고서(일반),오정강,공시차트 주가차트


1: URL과 쿼리를 입력한다. 쿼리는 딕셔너리 형태로 입력하며, Form Data와 동일하게 입력해 준다.  
쿼리 중 marketType과 같이 값이 없는 항목은 입력하지 않아도 된다.  

2: POST() 함수를 통해 해당 URL에 원하는 쿼리를 요청한다.  

3: BeautifulSoup() 함수를 통해 파싱한다.  

4: prettify() 함수를 이용해 BeautifulSoup에서 파싱한 파서 트리를 유니코드 형태로 다시 돌려준다.  
read_html() 함수를 통해 표를 읽어 온다.