## 크롤링 프로젝트 : 주식 키워드 검색 서비스 
  

### 1. 데이터 크롤링 방법 및 과정


#### 1. 주식 데이터 크롤링

- 상장된 주식 전 종목 일자별 크롤링
- 주요 컬럼 : 종목코드 / 종목이름 / 일자 / 종가 / 시장구분(코스닥 + 코스피)
- 기간 : 현시점부터 1년
- 크롤링 사이트 : http://data.krx.co.kr/contents/MDC/MDI/mdiLoader/index.cmd?menuId=MDC0201020101
![image-3.png](attachment:image-3.png)

In [None]:
# 1년간 일자별 종목 주가데이터 크롤링

import pandas as pd
import requests
import time

# 날짜 생성
dates = pd.date_range("20200610", "20210610")

dfs = []

for date in dates:
    print(date, end=" ")
    date = str(date).split(" ")[0].replace("-", "")
    url = "http://data.krx.co.kr/comm/bldAttendant/getJsonData.cmd"
    params = {
        "bld": "dbms/MDC/STAT/standard/MDCSTAT01501",
        "mktId": "ALL",
        "trdDd": date,
        "share": "1",
        "money": "1",
        "csvxls_isNo": "false",
    }
    response = requests.post(url, params)
    datas = response.json()["OutBlock_1"]
    df = pd.DataFrame(datas)
    df["DATE"] = date
    dfs.append(df)
    time.sleep(1)

result_df = pd.concat(dfs)
result_df.reset_index(inplace=True)
result_df.to_csv("주식데이터20210610.csv")

In [4]:
stock_price = pd.read_csv('/Users/ksjo/Documents/cp/주식데이터20210610.csv',index_col=0)
stock_price

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Unnamed: 0,index,ISU_SRT_CD,ISU_ABBRV,MKT_NM,SECT_TP_NM,TDD_CLSPRC,FLUC_TP_CD,CMPPREVDD_PRC,FLUC_RT,TDD_OPNPRC,TDD_HGPRC,TDD_LWPRC,ACC_TRDVOL,ACC_TRDVAL,MKTCAP,LIST_SHRS,MKT_ID,DATE
0,0,060310,3S,KOSDAQ,중견기업부,2675,1,5,0.19,2680,2710,2670,127340,341592500,119846716925,44802511,KSQ,20200608
1,1,095570,AJ네트웍스,KOSPI,,3510,2,-35,-0.99,3545,3600,3485,89472,313486680,164346255450,46822295,STK,20200608
2,2,006840,AK홀딩스,KOSPI,,22900,1,250,1.10,23000,23350,22750,79806,1837907250,303369146900,13247561,STK,20200608
3,3,054620,APS홀딩스,KOSDAQ,중견기업부,10050,2,-100,-0.99,10150,10150,9790,353059,3513171520,204961921050,20394221,KSQ,20200608
4,4,265520,AP시스템,KOSDAQ,우량기업부,26500,3,0,0.00,26950,26950,26400,223428,5945646700,383726015500,14480227,KSQ,20200608
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5136,2565,000547,흥국화재2우B,KOSPI,,31950,1,650,2.08,31750,33900,31300,10183,335564900,4907520000,153600,STK,20210610
5137,2566,000545,흥국화재우,KOSPI,,11350,1,150,1.34,11250,11550,11250,7720,87901950,8716800000,768000,STK,20210610
5138,2567,003280,흥아해운,KOSPI,,258,0,0,0.0,0,0,0,0,0,30117000222,116732559,STK,20210610
5139,2568,037440,희림,KOSDAQ,중견기업부,8810,2,-890,-9.18,9480,9650,8220,1734940,15672918340,122657004750,13922475,KSQ,20210610


### 2. 주식관련 뉴스 크롤링
- 네이버 증권탭의 종목관련 뉴스 크롤링

![0](https://user-images.githubusercontent.com/80459891/121555821-493e1f80-ca4e-11eb-82cd-9f9691cf7a23.png)

- 각 종목 페이지의 뉴스탭에서 크롤링
- 종목코드를 url에 대입하여 상장된 모든 기업의 뉴스를 크롤링
- 해당 이슈를 주가와 연계하기 위해서 뉴스의 게시 날짜를 함께 크롤링

![1](https://user-images.githubusercontent.com/80459891/121555988-7094ec80-ca4e-11eb-8b43-8f3737771727.png)

In [None]:
%%writefile stock/stock/spiders/spider.py
import scrapy
import re 
import pandas as pd
from stock.items import StockItem

class StockSpider(scrapy.Spider):
    name = "Stock"

    def start_requests(self):
        # 주식 코드 리스트화
        codes = pd.read_csv("/home/ubuntu/crawling_project/news/stock_code.csv")["ISU_SRT_CD"].tolist()
        # 해당 종목 링크 생성
        urls = [f"https://finance.naver.com/item/news_news.nhn?code=%7Bcode%7D&page=&sm=title_entity_id.basic" for code in codes]
        for url in urls:
            yield scrapy.Request(url, callback=self.parse)

    def parse(self, response):
        # 해당 종목의 모든 페이지 url의 정보를 담는다.
        page_links = response.xpath('/html/body/div/table[2]/tr/td/a/@href').extract()
        last_page = re.findall('page=([0-9]{1,4})', page_links[-1])[0]
        stock_url = str(response.url)
        for page in range(1,int(last_page)+1):
            url = stock_url[:-25] + str(page) + stock_url[-25:]
            yield scrapy.Request(url, callback=self.parse_content1)

    def parse_content1(self, response):
        # 해당 종목의 한 페이지에 각 기사 링크의 정보를 담는다.
        links = response.xpath('/html/body/div/table[1]/tbody/tr/td[1]/a/@href').extract()
        for link in links:
            yield scrapy.Request("https://finance.naver.com/" + link, callback=self.parse_content2)

    def parse_content2(self, response):
        # 상세 페이지로 들어간 후 원하는 정보를 크롤링한다.
        item = StockItem()
        item["title"] = response.xpath('//[@id="content"]/div[2]/table/tbody/tr[1]/th/strong/text()').extract()
        item["news"] = response.xpath('//[@id="content"]/div[2]/table/tbody/tr[2]/th/span/text()').extract()
        item["date"] = response.xpath('//*[@id="content"]/div[2]/table/tbody/tr[2]/th/span/span/text()').extract()
        item["news_link"] = response.url
        item["stock_code"] = re.findall("code=([0-9a-zA-Z]{1,10})&page",response.url) # 6.11
        yield item

### 2. 데이터베이스 구축

#### DB 구축 과정
![image.png](attachment:image.png)


- GCP에 인스턴스 생성: Mysql 공용서버 개설
- mysql 워크벤 연결하여 데이터베이스 구축
- 현재 1년치의 데이터 크롤링하여 데이터베이스에 입력 완료
- 차후 크론탭을 활용하여 크롤링 자동화 구현

In [None]:
# 주가데이터 csv파일 불러오기
stock = pd.read_csv('/Users/ksjo/Documents/cp/주식데이터20210610.csv',index_col=0)
stock = stock.drop(columns='index')

# 데이터 전처리

# 컬럼명 db에 맞게 변경하기
stock.rename(columns={'ISU_SRT_CD':'Code','ISU_ABBRV':'Name','MKT_NM':'Market','SECT_TP_NM':'Depart',
                      'TDD_CLSPRC':'Close','FLUC_TP_CD':'Changecode','CMPPREVDD_PRC':'Changes','FLUC_RT':'ChangesRatio',
                     'TDD_OPNPRC':'Open','TDD_HGPRC':'High','TDD_LWPRC':'Low','ACC_TRDVOL':'Volume','ACC_TRDVAL':'Amount',
                      'MKTCAP':'Total','LIST_SHRS':'Stocks','MKT_ID':'MK_code','DATE':'Date'
                     }, inplace=True)

# 수치형데이터로 변환할 컬럼 , 제거
stock['Close'] = stock['Close'].str.replace(',','')
stock['Open'] = stock['Open'].str.replace(',','')
stock['High'] = stock['High'].str.replace(',','')
stock['Low'] = stock['Low'].str.replace(',','')
stock['Volume'] = stock['Volume'].str.replace(',','')
stock['Amount'] = stock['Amount'].str.replace(',','')
stock['Changes'] = stock['Changes'].str.replace(',','')
stock['Total'] = stock['Total'].str.replace(',','')
stock['Stocks'] = stock['Stocks'].str.replace(',','')
# NAN값 변경
stock = stock.fillna("nodata")

In [9]:
import pymysql
pymysql.install_as_MySQLdb()
import MySQLdb
from sqlalchemy import create_engine
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
import warnings     
warnings.filterwarnings(action='ignore')    


#1. mysqldb 접속객체
connect_datas = {
    'host': '34.64.193.138',
    'user': 'root',
    'passwd': 'dss17',
    'db': 'crawling_pjt',
    'charset': 'utf8'
}
db = MySQLdb.connect(**connect_datas)

# # MYsqldb로 테이블 생성 및 데이터타입 선언
# QUERY = """
#     CREATE TABLE stock_price (
#     종목코드 Varchar(30) NOT NULL,
#     종목명 Varchar(30) NOT NULL,
#     시장구분 Varchar(30) NOT NULL,
#     소속부 Varchar(50),
#     종가 INT NOT NULL,
#     등락기호 SMALLINT,
#     전일대비 INT NOT NULL,
#     등락률 FLOAT NOT NULL,
#     시가 INT NOT NULL,
#     고가 INT NOT NULL,
#     저가 INT NOT NULL,
#     거래량 BIGINT NOT NULL,
#     거래대금 BIGINT NOT NULL,
#     시가총액 BIGINT NOT NULL,
#     상장주식수 BIGINT NOT NULL,
#     시장코드 Varchar(30) NOT NULL,
#     날짜 DATE NOT NULL
#     )
# """
# # cursor객체 생성후 쿼리 실행
# curs = db.cursor()
# curs.execute(QUERY)

In [None]:
#2. sqlalchemy 클라이언트 설정
client = create_engine('mysql://root:dss17@34.64.193.138/crawling_pjt?charset=utf8',encoding="utf-8")
conn = client.connect()

#3. csv파일 db에 담기
stock.to_sql(name='stock_price',con=client,if_exists='append',index=False)
conn.close()

#### 주가데이터 

![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202021-06-11%20%E1%84%8B%E1%85%A9%E1%84%8C%E1%85%A5%E1%86%AB%201.02.09.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202021-06-11%20%E1%84%8B%E1%85%A9%E1%84%8C%E1%85%A5%E1%86%AB%201.02.09.png)

#### 주식종목별 뉴스 데이터

![2](https://user-images.githubusercontent.com/80459891/121556986-527bbc00-ca4f-11eb-93ec-30c8ceb40f6d.png)