## 댓글 크롤링 모듈
+ 원본 댓글 가져오는 프로세스
    + 각 종목별 종토방 댓글과 유튜브 댓글을 모두 취합하여, 하나의 리스트에 저장
    + 리스트에 저장된 데이터프레임을 모두 전처리
    + 전처리한 이후 날짜에 맞는 데이터만을 추려서 날짜 데이터 파일로 만듦

+ 폴더구성(root_path)
    + 크롤링 모듈 파일
    + data 
        + code : krx 관련파일, 훈련데이터
        + date : 날짜별 댓글 데이터
        + score : 공포탐욕 점수
        + youtube : 유튜브 댓글 데이터
        + model : 예측에 사용될 모델

In [2]:
# root path 설정
root_path = "C:/sh/study/krx데이콘/krx_2022/sh"

In [29]:
import pandas as pd
import numpy as np
import requests
from bs4 import BeautifulSoup
import datetime as dt

import datetime
import scrapetube
from googleapiclient.discovery import build

import soynlp
from soynlp.noun import LRNounExtractor_v2
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor
from soynlp.tokenizer import LTokenizer

import warnings
warnings.filterwarnings('ignore')

# 종목코드 가져오는 코드
def get_code(symbol):
    krx = pd.read_csv(root_path + '/data/code/krx_code.csv',encoding='utf-8')
    krx = krx.set_index('한글 종목약명')
    try:
        code = krx.at[symbol,'단축코드']
        return code
    except:
        print('종목명을 다시 확인해주세요.')
        return 0

# 종토방 댓글 가져오는 코드
def get_comment_csv(symbol,page,year,month,day):   
    code = get_code(symbol)
    date_list = [] # 날짜
    comment_list = [] # 댓글
    view_list = [] # 조회수
    good_list = [] # 좋아요
    bad_list = [] # 싫어요
    flag = 0
    for i in range(1,page+1):
        url = f'https://finance.naver.com/item/board.naver?code={code}&page={i}'
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.50'}
        res = requests.get(url, headers = headers)
        bs = BeautifulSoup(res.text, 'html.parser')
        for j in range(20):
            try:
                root = bs.find('div',{'class':'section inner_sub'}).find_all('tr',{'onmouseover':'mouseOver(this)'})[j].text.split('\n')
                
                date_list.append(root[1].replace('.','-'))
                
                if len(root) == 14: # 답글
                    comment_list.append('답글:'+root[4])
                    view_list.append(root[10])
                    good_list.append(root[11])
                    bad_list.append(root[12])          
                elif len(root) == 13: # 기본
                    comment_list.append(root[3])
                    view_list.append(root[9])
                    good_list.append(root[10])
                    bad_list.append(root[11])
                else: # 에러
                    comment_list.append('error')
                    view_list.append(0)
                    good_list.append(0)
                    bad_list.append(0)   
            except:
                break
            tp = [int(j) for j in root[1].split()[0].split('.')]
            if dt.datetime(tp[0],tp[1],tp[2]) < dt.datetime(year,month,day):
                flag = 1
                break
        if flag == 1:
            break
        print(f'\r{i}페이지 크롤링 완료.',end='')
        
    df = pd.DataFrame()
    df['날짜'] = date_list
    df['댓글'] = comment_list
    df['조회수'] = view_list
    df['좋아요'] = good_list
    df['싫어요'] = bad_list
    return df

# 종목이름 가져오는 코드
def get_company_name():
    df = pd.read_excel(root_path + '/data/code/KODEX_KTOP_30_20220629.xlsx',header=2).drop(0,axis=0)
    return df.종목명.tolist()

# 해당 년,월,일까지 종토방 댓글 가져오는 코드
# 종목이름 순서대로 각 데이터프레임을 리스트에 저장하여 반환
def get_date_comment(year,month,day):
    c_list = get_company_name()
    data_list = []
    for company in c_list:
        print(company,"크롤링")
        df = get_comment_csv(company,10000,year,month,day)
        data_list.append(df)
        print()
    return data_list

# 유튜브 댓글 크롤링
class YoutubeAPI():
    def __init__ (self,date):
        self.date = date
        self.api_key = 'AIzaSyB-ttkB5mrZ6eo_iXlZdSv7zu105SgS2-E'
        self.youtube = build('youtube', 'v3', developerKey=self.api_key)
        self.channel_id = 'UChlv4GSd7OQl3js-jkLOnFA' # 삼프로TV

        self.get_video_ids()
        
    def get_video_ids(self):
        videos = scrapetube.get_channel(self.channel_id)
        
        video_ids = []
        for video in videos:
            video_ids.append(video['videoId'])
        
        (date, date_range) = self.get_date_input()
        self.get_video_infos(video_ids, date, date_range)
        
    def get_date_input(self):
        date = self.date
        date_range = (0)
        
        return (date, date_range)
    
    def get_video_infos(self, video_ids, date, date_range):
        video_infos = []
        
        for i in range(date_range + 1):
            start = i * 50
            end = (i + 1) * 50
            
            video_request = self.youtube.videos().list(
                part='snippet',
                id=','.join(video_ids[start:end]))
            
            video_response = video_request.execute()
            
            for item in video_response['items']:
                title = item['snippet']['title']
                if ('글로벌 이슈체크' in title) or ('글로벌 마켓브리핑' in title) or ('직장인 vlog' in title):
                    continue
                if date in item['snippet']['publishedAt'].split()[0]:
                    video_infos.append([item['snippet']['title'], item['snippet']['publishedAt'], item['id']])
    
        df_ids = pd.DataFrame(video_infos, columns=['title', 'video_date', 'id'])
            
        self.get_comments(date, df_ids)
            
    def get_comments(self, date, df_ids):
        comments = []
        
        for video_id in df_ids['id']:
            api_obj = build('youtube', 'v3', developerKey=self.api_key)
            response = api_obj.commentThreads().list(part='snippet', videoId=video_id, maxResults=100).execute()
            
            while response:
                for item in response['items']:
                    comment = item['snippet']['topLevelComment']['snippet']
                    if date in comment['publishedAt'].split()[0]:
                        comments.append([video_id, comment['textDisplay'], comment['authorDisplayName'], comment['publishedAt'], comment['likeCount']])
            
                if 'nextPageToken' in response:
                    response = api_obj.commentThreads().list(part='snippet', videoId=video_id, pageToken=response['nextPageToken'], maxResults=100).execute()
                else:
                    break
                
        df_comments = pd.DataFrame(comments, columns=['id', 'comment', 'author', 'comment_date', 'num_likes'])
        
        df = pd.merge(df_comments, df_ids, on='id', how='outer')
        
        df.to_csv(root_path + f'/data/youtube/sampro_{date}.csv', index=False)
        
    def update_db(self, df):
        pass
    
    def execute_daily(self):
        pass

# 특수문자 제거
def clean_sents_df(target):
    df = target
    df['정제된 댓글'] = df['댓글'].str.replace('\\[삭제된 게시물의 답글\\]',' ')
    df['정제된 댓글'] = df['정제된 댓글'].str.replace('답글:',' ')
    df['정제된 댓글'] = df['정제된 댓글'].str.replace('[^가-힣]',' ').str.replace(' +',' ').str.strip()
    df = df[df['정제된 댓글'] != '']
    df = df.reset_index(drop=True)
    return  df

# 댓글 토큰화를 위한 말뭉치 준비
def return_tokenizer():
    corpus = DoublespaceLineCorpus(root_path + "/data/code/corpus_target.txt",iter_sent=True)
    noun_extractor = LRNounExtractor_v2(verbose=True)
    nouns = noun_extractor.train_extract(corpus)
    scores = {word:score.score for word, score in nouns.items()}
    tokenizer = LTokenizer(scores=scores)
    return tokenizer

# 오늘의 댓글 데이터를 저장 후 반환
def get_data_list(y,m,d):
    data_list = get_date_comment(y,m,d)
    if len(str(m)) == 1:
        m = f"0{m}"
    if len(str(d)) == 1:
        d = f"0{d}"
    date = f"{y}-{m}-{d}"
    ya = YoutubeAPI(date)
    df = pd.read_csv(root_path + f"/data/youtube/sampro_{date}.csv")
    df = df[["video_date","comment"]]
    df.columns = ["날짜","댓글"]
    data_list.append(df)
    return data_list

# 각 데이터를 전처리 후 리스트에 저장
def comment_prep(data_list):
    tokenizer = return_tokenizer()

    pp_list = []
    for company_data in data_list:
        target_df = clean_sents_df(company_data)
        target_df['토큰화 댓글'] = [tokenizer(str(i)) for i in target_df['정제된 댓글']]
        pp_list.append(target_df)
    
    for df in pp_list:
        date_list = []
        for i in range(len(df["날짜"])):
            date_list.append(df["날짜"][i][:10])
        df["날짜"] = date_list
    
    return pp_list

# 댓글 크롤링, 전처리, 파일로 저장
def date_crawler(y,m,d):
    data_list = get_data_list(y,m,d)
    pp_list = comment_prep(data_list)
    df_day = pp_list[0]
    for i in range(1,len(pp_list)):
        df_day = pd.concat([df_day, pp_list[i]])
    if len(str(m)) == 1:
        m = f"0{m}"
    if len(str(d)) == 1:
        d = f"0{d}"
    today = f"{y}-{m}-{d}"
    df_day = df_day[["날짜","정제된 댓글"]]
    df = df_day[df_day["날짜"] == today]
    df.dropna(inplace=True)
    df.to_csv(root_path + f"/data/date/{today}.csv")

def get_today_ymd():
    y = datetime.datetime.today().year
    m = datetime.datetime.today().month
    d = datetime.datetime.today().day
    return y,m,d


# 크롤링 실행
y,m,d = get_today_ymd()
date_crawler(y,m,d)

삼성전자 크롤링
78페이지 크롤링 완료.
NAVER 크롤링
2페이지 크롤링 완료.
삼성SDI 크롤링

LG화학 크롤링

카카오 크롤링
1페이지 크롤링 완료.
유한양행 크롤링

SK텔레콤 크롤링

POSCO홀딩스 크롤링
1페이지 크롤링 완료.
현대모비스 크롤링
2페이지 크롤링 완료.
SK이노베이션 크롤링

삼성화재 크롤링

롯데케미칼 크롤링

현대차 크롤링
2페이지 크롤링 완료.
셀트리온 크롤링
4페이지 크롤링 완료.
삼성전기 크롤링
1페이지 크롤링 완료.
아모레퍼시픽 크롤링

삼성물산 크롤링

이마트 크롤링
1페이지 크롤링 완료.
CJ ENM 크롤링

SK하이닉스 크롤링
4페이지 크롤링 완료.
한국조선해양 크롤링

LG전자 크롤링
1페이지 크롤링 완료.
기아 크롤링

넷마블 크롤링
2페이지 크롤링 완료.
삼성생명 크롤링

KB금융 크롤링

현대건설 크롤링

신한지주 크롤링

LG디스플레이 크롤링

미래에셋증권 크롤링

[Noun Extractor] use default predictors
[Noun Extractor] num features: pos=3929, neg=2321, common=107
[Noun Extractor] counting eojeols
[EojeolCounter] n eojeol = 1871785 from 3181877 sents. mem=0.446 Gb                    
[Noun Extractor] complete eojeol counter -> lr graph
[Noun Extractor] has been trained. #eojeols=16231321, mem=4.391 Gb
[Noun Extractor] batch prediction was completed for 460511 words
[Noun Extractor] checked compounds. discovered 464165 compounds
[Noun Extractor] postprocessing detaching_features : 411493 -> 