In [1]:
import requests
from bs4 import BeautifulSoup as bs
import yaml
from IPython.display import display
from time import sleep
import re
from tqdm import tqdm
import pandas as pd




In [2]:
from typing import List, Dict, Any, Set, Tuple, Union, Optional

In [3]:
url = "http://factcheck.snu.ac.kr/v2/facts/%d"

In [4]:
class Speaking:
    def __init__(self, num: int, predata: Optional[Dict[Any, Any]] = None):
        self.num = num
        if predata is None:
            self.responce = requests.get(url % self.num)
            if self.responce.status_code != 200:
                raise Exception(f"{self.responce.status_code} error at page {self.num}.")
            self.soup = bs(self.responce.text, 'html.parser')\
                # bs를 이용하여 구문 분석 후 soup에 저장합니다.
            self.detail = self.soup.select_one(".fcItem_detail_top") # 상세 페이지를 추출합니다.
            self.speacker = self.detail.select_one(".name").text.strip() # 발언자를 추출합니다.
            self.title = self.detail.select_one(".fcItem_detail_li_p > p:nth-child(1) > a").text.strip() # 제목을 추출합니다.
            self.source_element = self.detail.select_one(".source") # 출처가 담긴 html 요소를 추출합니다.
            self.source = {self.source_element.text.strip(): ""} \
                if self.source_element.select_one("a") == None\
                else {self.source_element.select_one("a").text.strip(): self.source_element.select_one("a")['href']} # 출처를 추출합니다.
            self.cartegories = {li.text for li in self.detail.select(".fcItem_detail_bottom li")} # 카테고리를 추출합니다.
            self.explain = self.soup.select_one(".exp").text.strip() # 설명을 추출합니다.
            self.factchecks = self.get_fc(self.soup)
        else:
            self.speacker = predata['speacker']
            self.title = predata['title']
            self.source = predata['source']
            self.cartegories = predata['cartegories']
            self.explain = predata['explain']
            self.factchecks = predata['factchecks']
    
    def as_dict(self): # 데이터를 딕셔너리 형태로 반환합니다.
        return {
            'speacker': self.speacker,
            'title': self.title,
            'source': self.source,
            'cartegories': self.cartegories,
            'explain': self.explain,
            'factchecks': self.factchecks
        }
    
    def as_yaml(self): # 데이터를 yaml 형태로 반환합니다.
        return yaml.dump(self.as_dict(), allow_unicode=True)

    def save_as_yaml(self, path:str):
        with open(path, 'w') as f:
            f.write(self.as_yaml())

    # SNU 팩트체크 사이트는 다음과 같이 팩트 체크 별 아이디와 점수를 보냅니다.
    # <ul> <li class="fcItem_vf_li">...</li>
    # <script charset="utf-8" type="text/javascript">
    # $(function () { showScore(아이디, 점수)}); </script> ... </ul>
    # 따라서 아이디와 점수를 추출하는 정규표현식을 사용합니다.

    
    # 아이디와 점수를 추출하는 함수를 정의합니다.

    def get_fc_id_score(self, soup:bs) -> List[Tuple[int, int]]:
        id_score: List[Tuple[int,int]] = [] # 아이디와 점수를 저장할 리스트
        id_score_re = re.compile(r'(?<=showScore\()\d+, \d+')
        for fc_item_script in soup.select(".fcItem_vf > ul > script"): # 팩트 체크 아이템의 스크립트를 찾습니다.
            id_score_str: str = id_score_re.search(fc_item_script.text).group() # 정규 표현식으로 아이디와 점수값을 담은 문자열을 추출합니다.
            id_score_int: Tuple = tuple(map(int, id_score_str.split(', '))) # 문자열을 정수로 변환합니다.
            id_score.append(id_score_int)
        return id_score



    # 작성 시간과 내용을 추출하는 함수를 정의합니다.

    def get_fc_time_contents(self, soup:bs) -> List[Tuple[str, str, str]]:
        time_contents: List[str] = [] # 시간과 내용을 저장할 리스트
        for fc_item in soup.select(".fcItem_vf > ul > li"): # 팩트 체크 아이템을 찾습니다.
            date = fc_item.select_one(".reg_date > p i:nth-child(1)").text # 작성 날짜를 추출합니다.
            time = fc_item.select_one(".reg_date > p i:nth-child(2)").text # 작성 시간을 추출합니다.
            raw_content = fc_item.select_one(".vf_exp_wrap").text # 팩트 체크 내용을 추출합니다.
            content = re.sub(r'\s{2,}', " ", raw_content.strip()) # 공백을 제거합니다.
            time_contents.append((date, time, content))
        return time_contents

    # 위의 함수들의 반환을 합쳐 최종적으로 아이디를 키로 갖고 나머지 내용을 값으로 갖는 딕셔너리를 반환하는 함수를 정의합니다.

    def get_fc(self, soup:bs) -> Dict[int, Dict[Any, Any]]:
        id_score = self.get_fc_id_score(soup) # 아이디와 점수를 추출합니다.
        time_contents = self.get_fc_time_contents(soup) # 작성 시간과 내용을 추출합니다.
        zipped = zip(id_score, time_contents) # 두 리스트를 합쳐 쌍을 생성합니다.
        return {id: {'score': score, 'date': date, 'time': time, 'content': content} for (id, score), (date, time, content) in zipped}


In [None]:
# 더이상 페이지가 없을 때까지 페이지들을 수집합니다.
speakings = []
errors = set()
for i in tqdm(range(1,5000)):
    try:
        speakings.append(Speaking(i))
    except:
        speakings.append(None)
        errors.add(i)
        if i > 3670:
            break
    if i % 10 == 0:
        sleep(1)

In [19]:
speaks_dict = {speaking.num: speaking.as_dict() for speaking in speakings if speaking is not None}
yaml.dump(speaks_dict, open('speakings.yaml', 'w', encoding="utf-8"), default_flow_style=False, allow_unicode=True)

In [6]:
speaks_dict = yaml.load(open('speakings.yaml', 'r', encoding="utf-8"), Loader=yaml.FullLoader)
speakings = [Speaking(id, contents) for id, contents in speaks_dict.items()]
for id in range(10):
    print(speakings[id].as_dict()['title'])

현재 지지율 1위 문재인 민주당 경선 후보 아들과 관련한 취업특혜 논란이 있다.
“77%로 미군 주둔비 부담 커…일본은 50%”
"더불어민주당도 국모닝 했다"
"대통령선거 본선에 나가기 직전에 사표를 제출하면 보궐선거는 없다"
“공공부문 일자리 81만개 만들 수 있다”
문재인캠프 영입인사의 과거 이력에 관한 주장은 사실과 다르다.
세월호 희생자들이 천안함 희생자들보다 보상을 많이 받았다는 주장과 세월호 관련 법안이 국회서 어떻게 처리되고 있는지 검증
Q: 자유한국당 홍준표 경남지사가 위안부 합의에 대해 "대통령이 되면 합의를 파기할 것"이라고 했습니다.
"홍준표 지사가 국회 운영위원장 시절, 판공비 일부를 집에서 쓰게 한 것은 문제다."

"민주당의 호남권 대선후보 경선 결과 무효표가 무려 10만여 표가 나왔다."


In [9]:
speakings[8].as_dict()

{'speacker': '김진태',
 'title': '"홍준표 지사가 국회 운영위원장 시절, 판공비 일부를 집에서 쓰게 한 것은 문제다."\r\n',
 'source': {'洪 "태극기팔아 대선나왔나", 金 "판공비를 집에 가져가나" | 연합뉴스': 'http://www.yonhapnews.co.kr/bulletin/2017/03/28/0200000000AKR20170328186100001.HTML?from=search'},
 'cartegories': {'정치, 19대 대선, 대통령 선거', '정치인(공직자)의 발언'},
 'explain': '3월28일 자유한국당 대선후보 TV 토론회에서 김진태 의원이 홍준표 경남 지사를 겨냥한 이 발언, 맞는 말일까?',
 'factchecks': {11: {'content': '검증내용 김 의원은 홍 지사가 여당 원내대표(국회운영위원장 겸직) 시절 집에 준 돈이 ‘판공비 일부’라고 하고, 홍 지사는 집에 준 돈은 ‘판공비’가 아니라, ‘개인 돈’ ‘월급 받은 것’이라고 맞선다.이 돈의 성격을 둘러싼 논란은 홍준표 지사가\xa02015년 5월11일과 12일, 세 차례 페이스북에 해명의 글에서 비롯했다.“2008년 여당 원내대표(국회운영위원장 겸직) 시절 매달 국회대책비로 4000만~5000만원씩 나와 이중 남은 돈을 집사람에게 생활비로 줬는데 이를 모았다” “이 국회대책비 중에는 운영위원장으로서의\xa0직책수당\xa0성격의 돈도 있다” “이 직책수당은\xa0급여 성격으로, 개인에게 지급되는 돈”….하지만, 당시 국회 관계자는 “여당 원내대표에게 주는 돈 중에서 ‘국회대책비’ ‘위원장 직책수당’이란 항목은 없다”며 “그의 발언은 ‘특수활동비’를 지칭한 것 같다”고 했다.특수활동비는 기밀이 요구되는 정보 및 수사, 이에 준하는 국정 수행에 지출되는 경비로, 영수증을 따로 제출하지 않아도 된다.그러나 기획재정부 지침에 따르면, 특수활동비는 국정수행 경비로만 써야 한다. 특수활동비를 사적으로 쓰면 업무상 횡령으로 처벌받을 수도