In [1]:
import requests
from bs4 import BeautifulSoup as BS
import pandas as pd
#from tqdm import tqdm
import json
import time
import re
import datetime

In [2]:
# rocketpunch crawler
def rocketpunch_crawler(url, headers):
    session = requests.Session()
    res = session.get(url.format(1), headers=headers)
    res = json.loads(res.text)
    soup = BS(res['data']['template'], 'html.parser')

    page_size = soup.find('div', {'class': 'tablet computer large screen widescreen only'}).find_all('a', {'class': 'item'})[-1].text.strip()

    data_list = parse_page(soup)

    for i in range(2, int(page_size) + 1):
        res = session.get(url.format(i), headers=headers)
        res = json.loads(res.text)
        soup = BS(res['data']['template'], 'html.parser')
        data_list.extend(parse_page(soup))
        time.sleep(2) # for sake of politeness

    return data_list

# API 호출
# company_id, company_name, job_id, description, job_title, job_career
def parse_page(soup):
    data_list = []
    for company in soup.find_all('div', {'class': 'company item'}):
        company_data = {}
        company_data['company_id'] = company['data-company_id']
        for content in company.find_all('div', {'class': 'content'}):
            company_data['company_name'] = content.find('a', {'class': 'company-name nowrap header name'}).text.strip()
            company_data['description'] = content.find('div', {'class': 'description'}).text.strip()
            
            for job_detail in content.find_all('div', {'class': 'job-detail'}):
                job_data = company_data.copy()
                job_data['job_id'] = job_detail.find('a', {'class': 'nowrap job-title'})['href'].split('/')[2]
                job_data['job_title'] = job_detail.find('a', {'class': 'nowrap job-title'}).text.strip()
                job_data['job_career'] = job_detail.find('div', {'class': 'job-stat-info'}).text.strip().split(' / ')
                job_data['timestamp'] = datetime.datetime.now().strftime('%Y-%m-%d_%H:%M:%S')
                job_data['crawl_domain'] = 'www.rocketpunch.com'
                data_list.append(job_data)
                
    return data_list


In [3]:

# 공고 크롤링
# job_task, job_detail, job_industry, job_specialties, date_start, date_end, timestamp
def parse_job_page(data, headers):
    job_url = 'https://www.rocketpunch.com/jobs/{}'
    session = requests.Session()
    pattern = re.compile('[ㄱ-ㅎ가-힣]+')

    for job in data:
        res = session.get(job_url.format(job['job_id']), headers=headers)
        soup = BS(res.text, 'html.parser')
        
        # 주요 업무(업무 내용) : job_task
        job_task_div = soup.find('div', class_='duty break')
        
        task_span_hidden = job_task_div.find('span', class_='hide full-text')
        task_span_short = job_task_div.find('span', class_='short-text') if not task_span_hidden else None
        task_span = task_span_hidden.text if task_span_hidden else (task_span_short.text if task_span_short else "")
        job['job_task'] = task_span.strip() if task_span else ""
        
        # 업무 기술/활동분야 : job_specialties
        specialties_raw = soup.find('div', class_='job-specialties')
        specialties = [a.text for a in specialties_raw.find_all('a')]
        job['job_specialties'] = ', '.join(specialties)
        
        # 채용 상세 : job_detail
        detail_div = soup.find('div', class_='content break')
        detail_span_hidden = detail_div.find('span', class_='hide full-text')
        detail_span_short = detail_div.find('span', class_='short-text') if not detail_span_hidden else None
        detail_span = detail_span_hidden.text if detail_span_hidden else detail_span_short.text
        job['job_detail'] = detail_span.strip() if detail_span else ""
        
        # 산업 분야 : job_industry
        industry_div = soup.find('div', class_='job-company-areas')
        industry_text = [a.text for a in industry_div.find_all('a')]
        job['job_industry'] = ', '.join(industry_text)
        
        # 채용 시작일/만료일 : date_start, date_end
        job_date = soup.find('div', class_='job-dates')
        date_span = job_date.find_all('span')
        
        #수시채용, 상시채용 예외처리
        if any(pattern.search(span.text) for span in date_span):
            job['date_start'] = datetime.datetime.now().strftime('%Y-%m-%d')
            job['date_end'] = None
            
        else:
            if len(date_span) > 1:
                job['date_start'] = datetime.datetime.strptime(date_span[0].text.strip(), '%Y.%m.%d').date()
                job['date_end'] = datetime.datetime.strptime(date_span[1].text.strip(), '%Y.%m.%d').date()
            elif len(date_span) == 1:
                job['date_start'] = datetime.datetime.strptime(date_span[0].text.strip(), '%Y.%m.%d').date()

    return data

In [36]:
if __name__ == "__main__" :
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
    }
    url = 'https://www.rocketpunch.com/api/jobs/template?page={}'
    #data_list = rocketpunch_crawler(url, headers)
    detailed_data = parse_job_page(data_list, headers)

NameError: name 'task_span_short' is not defined

# 수정 코드

In [6]:
def parse_job_page(data, headers):
    job_url = 'https://www.rocketpunch.com/jobs/{}'
    session = requests.Session()
    pattern = re.compile('[ㄱ-ㅎ가-힣]+')

    for job in data:
        res = session.get(job_url.format(job['job_id']), headers=headers)
        soup = BS(res.text, 'html.parser')
        
        # 주요 업무(업무 내용) : job_task
        job_task_div = soup.find('div', class_='duty break')
        task_span_hidden = job_task_div.find('span', class_='hide full-text') if job_task_div else None
        task_span_short = job_task_div.find('span', class_='short-text') if job_task_div and not task_span_hidden else None
        task_span = task_span_hidden.text if task_span_hidden else (task_span_short.text if task_span_short else "")
        job['job_task'] = task_span.strip() if task_span else ""
        
        # 업무 기술/활동분야 : job_specialties
        specialties_raw = soup.find('div', class_='job-specialties')
        specialties = [a.text for a in specialties_raw.find_all('a')] if specialties_raw else []
        job['job_specialties'] = ', '.join(specialties)
        
        # 채용 상세 : job_detail
        detail_div = soup.find('div', class_='content break')
        detail_span_hidden = detail_div.find('span', class_='hide full-text') if detail_div else None
        detail_span_short = detail_div.find('span', class_='short-text') if detail_div and not detail_span_hidden else None
        detail_span = detail_span_hidden.text if detail_span_hidden else (detail_span_short.text if detail_span_short else "")
        job['job_detail'] = detail_span.strip() if detail_span else ""
        
        # 산업 분야 : job_industry
        industry_div = soup.find('div', class_='job-company-areas')
        industry_text = [a.text for a in industry_div.find_all('a')] if industry_div else []
        job['job_industry'] = ', '.join(industry_text)
        
        # 채용 시작일/만료일 : date_start, date_end
        job_date = soup.find('div', class_='job-dates')
        date_span = job_date.find_all('span') if job_date else []
        
        # 수시채용, 상시채용 예외처리
        if any(pattern.search(span.text) for span in date_span):
            job['date_start'] = datetime.datetime.now().strftime('%Y-%m-%d')
            job['date_end'] = None
        else:
            if len(date_span) > 1:
                job['date_start'] = datetime.datetime.strptime(date_span[0].text.strip(), '%Y.%m.%d').date()
                job['date_end'] = datetime.datetime.strptime(date_span[1].text.strip(), '%Y.%m.%d').date()
            elif len(date_span) == 1:
                job['date_start'] = datetime.datetime.strptime(date_span[0].text.strip(), '%Y.%m.%d').date()

    return data


In [8]:
if __name__ == "__main__" :
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
    }
    url = 'https://www.rocketpunch.com/api/jobs/template?page={}'
    data_list = rocketpunch_crawler(url, headers)
    detailed_data = parse_job_page(data_list, headers)

KeyboardInterrupt: 

### 수정사항 
parse_job_page(data, headers) 함수안의 변수마다 예외처리 코드 추가

In [9]:
detailed_data

[{'company_id': '21640',
  'company_name': '씨드앤',
  'description': '실내 적정 온도를 통해 지속가능한 사회와 환경을 만들어갑니다.',
  'job_id': '149219',
  'job_title': '필드 커뮤니케이션 매니저 (1년 이상)',
  'job_career': ['경력'],
  'timestamp': '2024-08-07_02:43:02',
  'crawl_domain': 'www.rocketpunch.com',
  'job_task': "[서비스운영기획부 팀 소개]‘저희 팀은 이런 장점이 있어요'👨🏻\u200d💻\xa0쭌님 / 팀장 / ENFJ: 씨드앤의 최전방에 위치하는 팀으로 제품 설치부터 CS 처리, 매장 관리까지 고객과 직접 소통하고 있습니다. 팀원들과 공동으로 업무를 수행하며 다져진 팀워크는 저희 팀의 큰 장점이며, PoC(검증 기간) 기간이 끝난 후 만족해 하는 고객의 모습을 보며 큰 보람을 느낄 수 있습니다.👨🏻\u200d💻\xa0이나님 / 부팀장 / INFP: 씨드앤의 모든 서비스의 시작을 담당하며 도전할 수 있는 기회가 많습니다. 화목하고 서로 의지하는 분위기의 팀에서 함께 새로운 업무를 배우고 성장할 수 있습니다.‘이런 팀원과 함께 하고 싶어요’👨🏻\u200d💻\xa0쭌님 / 팀장 / ENFJ: 다양한 고객들을 자주 마주하다보니, 사람들과 소통하는 것을 좋아하며 팀과 융화될 수 있는 협동심을 갖추신 분과 함께 하고 싶습니다. 또한 각기 다른 상황에 맞춰 임기응변이 뛰어나신 이성적이고 도전적인 분이셨으면 좋겠습니다.👨🏻\u200d💻\xa0이나님 / 부팀장 / INFP: 힘들어도 함께 웃으면서 일할 수 있는 긍정적인 분과 함께 하고 싶어요! 맡은 업무에 책임을 다 하는 진정성있는 분이셨으면 좋겠습니다. :)[주요 업무]- 기획 : 고객 커뮤니케이션을 통한 서비스(앱 또는 웹, CS 등) 개선점 기획하는 업무- 설치 : 건물 내 리프(Leaf) 시스템 설치 및 서비스 유지 관리하는

In [18]:
test = '상시채용'
pattern = re.compile('[ㄱ-ㅎ가-힣]+')
if pattern.search(test):
    print('true')

true


In [None]:
rocketpunch_list = rocketpunch_crawler()

In [22]:
rocketpunch_list.__len__()

148

In [23]:
import pandas as pd

In [24]:
df=pd.DataFrame(rocketpunch_list)

In [25]:
df.head(3)

Unnamed: 0,company_id,company_name,description,job_list,job_id,job_title,job_info,job_date
0,6532,마카롱팩토리,대한민국 1등 운전자 차량관리 필수앱 - 마이클,"[{'company_id': '6532', 'company_name': '마카롱팩토...",151375,프론트엔드 개발 (5년 이상),[경력],09/30 마감
1,6311,다날,데이터베이스 및 온라인정보 제공업체,"[{'company_id': '6311', 'company_name': '다날', ...",151201,다날 테스트 자동화 개발 담당 경력 채용,[경력],09/29 마감
2,160928,에이치디메디,쉽고 편한 의료 서비스 i약,"[{'company_id': '160928', 'company_name': '에이치...",151453,i약 SaaS 서버 엔지니어(Java/SpringBoot),"[5,000 - 8,000만원, 0.5% - 3.0%, 경력]",08/29 마감


In [26]:
# 유료광고와 겹치는지 확인용 -> 유료공고와 겹침으로 유료쪽 광고 크롤링x
df.loc[df['company_name'].isin(['제이제이앤컴퍼니스'])]

Unnamed: 0,company_id,company_name,description,job_list,job_id,job_title,job_info,job_date
64,203363,제이제이앤컴퍼니스,인공지능과 공정제어 기반의 해양 엔지니어링 전문 기업,"[{'company_id': '203363', 'company_name': '제이제...",151418,백엔드 엔지니어 정규직 채용 공고,[경력],08/23 마감


In [31]:
# 공고 크롤링
def parse_job_page():
    job_url = 'https://www.rocketpunch.com/jobs/151267'
    session = requests.Session()
    #print(data['job_id'])
    #res = session.get(job_url.format(data['job_id']), headers=headers)
    res = session.get(job_url, headers=headers)
    soup = BS(res.text, 'html.parser')
    
    div = soup.find('div', class_='duty break')
    #print(div)
    if div:
      span_hidden = div.find('span', class_='hide full-text')
      span_short = div.find('span', class_='short-text') if not span_hidden else None
      span = span_hidden.text if span_hidden else span_short
    print(span)
    
    job_date = soup.find('div', class_='job-dates')
    date_span = job_date.find_all('span')
    for i, date in enumerate(date_span):
      text = date.get_text(strip=True)
      date_only = text.split()[0]
      
      year = datetime.datetime.now().year
      mon = date_only.split('/')[0]
      day = date_only.split('/')[1]
      
      if i == 0 :
        date_start = datetime.datetime.strptime(f'{year}-{mon}-{day}', '%Y-%m-%d').date()
        print(date_start)
      else:
        date_end = datetime.datetime.strptime(f'{year}-{mon}-{day}', '%Y-%m-%d').date()
        print(date_end)
      
      

In [32]:
parse_job_page()

슬로그업의 개발 문화를 먼저 소개할게요.슬로거들은 ‘불확실한 가설과 위험은 마지막보다 초기에 대응한다’는 마음으로PM, 디자이너, 개발자 등 모든 구성원이 팀 단위로 프로덕트를 정의하고 설계해나가요.이중 백엔드 프로덕트 엔지니어는 다음과 같은 업무를 담당해요.- 프로젝트 목표와 기능별 목적에 관해 이해- 아이디어 단계부터 참여해 효율성 높고 창의적인 방향성 도출- 최소의 개발로 최대한 효과를 낼 수 있는 구조 고민- PM, PD와 협업해 단순 기능구현이 아닌 ‘문제 해결’을 목적으로 개발- 가설검증 단계에서 매우 빠른 속도로 프로토타입 구축- 기초검증된 목표를 효율적이고 확장성 있는 설계로 개발- 지속적 뉴테크 학습과 비지니스적 요소 고려로 유연하게 제품에 적용- 정기적 회고를 통해 부족한 점을 찾고 꾸준히 개선하며 지속 성장
2024-08-31
2024-07-31


'2024-08-07'