In [5]:
import requests
from bs4 import BeautifulSoup
import os
import json


class Incruit:
    def __init__(self):
        self.base_url = 'http://gongmo.incruit.com/list/gongmolist.asp'
        self.categories = ['?ct=1&category=10', '?ct=1&category=11']
        self.contests = dict()

    def crawling(self):
        """ 카테고리별 공모전 리스트 크롤링 """
        print("===== [Incruit]  Start Crawling data... =====")
        for category in self.categories:
            page = 1
            while 42:
                req = requests.get(self.base_url + category+"&page="+str(page))
                soup = BeautifulSoup(req.content, "html.parser")
                data_list = soup.find(id='tbdyGmScrap').find_all('a')
                if len(data_list) == 0: 
                    break
                self.scraping(data_list)
                page += 1
        print("===== [Incruit] Finish Crawling data... =====")

    def scraping(self, data_list):
        """
        공모전 세부 정보 크롤링 & dict 형태로 데이터 저장
        공모전 이름(title): [기간(host),
                          분류(classify) - 과학/공학, 소프트웨어 항목만,
                          주최자(host),
                          사이트링크(link)]
        """
        for data in data_list:
            req = requests.get(data.get('href'))
            soup = BeautifulSoup(req.content, "html.parser")
            tmp = soup.find(class_='tBrd1Gray').find_all('td')

            title = soup.find(class_='job_new_top_title').get_text()
            term = tmp[3].get_text()
            classify = tmp[0].get_text().replace("<br/>", ",")
            host = tmp[1].get_text()
            link = tmp[4].find('a').get('href').replace('\t', '')
            self.contests[title] = [term, classify, host, link]

    def save(self):
#         base_dir = os.path.dirname(os.path.abspath(__file__))
#         with open(os.path.join(base_dir, 'incruit.json'), 'w+', encoding='utf-8') as json_file:
#             json.dump(self.contests, json_file, ensure_ascii=False, indent='\t')
        file_path = './incruit.json'
        with open(file_path, 'w', -1, "utf-8") as json_file:
            json.dump(self.contests, json_file, ensure_ascii=False, indent='\t')            
        print("===== [Incruit] Save data... =====\n")

    def check_result(self):
        for key, value in self.contests.items():
            print(key, ":", value)

In [6]:
inc = Incruit()
inc.crawling()

===== [Incruit]  Start Crawling data... =====
===== [Incruit] Finish Crawling data... =====


In [7]:
len(inc.contests)

14

In [8]:
inc.save()

===== [Incruit] Save data... =====



In [9]:
inc.check_result()

2020 전북 기능성게임 아카데미[기능성게임제작대회] : ['2020.08.11 ~ 2020.09.04', '게임/소프트웨어', '(재)전라북도문화콘텐츠산업진흥원', 'http://www.jbga.co.kr/']
브랜디 코딩대회 [코드네임B_] : ['2020.08.08 ~ 2020.08.26', '게임/소프트웨어과학/공학', '브랜디', 'https://www.wanted.co.kr/events/codename_b']
Fintech AI 온라인 해커톤, 최대 1억원 창업 투자 지원 : ['2020.07.27 ~ 2020.08.16', '기획/아이디어게임/소프트웨어과학/공학', '앵커밸류', 'http://an-va.com']
2020년 디지털콘텐츠 테스트 실증 운영지원사업 기업 모집 : ['2020.06.26 ~ 2020.09.30', '게임/소프트웨어', '정보통신산업진흥원', 'http://www.dccenter.kr/']
넥슨컴퓨터박물관 가상현실 콘텐츠 공모전 <2020 NCM OPEN CALL V Reality> : ['2020.07.01 ~ 2020.08.31', '기획/아이디어디자인영상/사진/UCC게임/소프트웨어해외', '넥슨컴퓨터박물관', 'https://nexoncomputermuseum.org/?mcode=0706']
2020년 항공우주기술 기반 예비창업자 지원 사업, STAR Exploration : ['2020.07.27 ~ 2020.08.26', '기획/아이디어과학/공학', '한국항공우주연구원', 'http://star-exploration.com']
Ericsson Innovation Awards 2020​ - Reclaim the future : ['2020.08.03 ~ 2020.09.30', '기획/아이디어과학/공학', 'Ericsson', 'https://www.ericsson.com/eia2020']
[과학기술정보통신부] 2020 마이데이터 BI 기획개발 공모전 (~08/17) : ['2020.07.16 ~ 2020.08.17