# 1. OKKY 사이트의 IT 분야 스크래퍼

In [None]:
import requests
from bs4 import BeautifulSoup
import json
import datetime

# 현재 날짜
current_date = datetime.datetime.now().date()

# 요청 URL
url = 'https://okky.kr/events/it'

# 웹 페이지 요청
response = requests.get(url)

# 페이지 내용을 파싱
soup = BeautifulSoup(response.content, 'html.parser')
script_tag = soup.find('script', id='__NEXT_DATA__')

# 스크립트 태그 내부의 JSON 데이터 추출
data = json.loads(script_tag.string)

# 'content' 배열 추출
content = data['props']['pageProps']['result']['content']

# 'titles'와 'nicknames' 추출 및 묶기
titles = [item['title'] for item in content]
nicknames = [item['displayAuthor']['nickname'] for item in content]
dateCreateds = [item['dateCreated'].split('T')[0] for item in content]

combined_data = [{'titles': title, 'names': name, 'dateCreated': dateCreated } for title, name, dateCreated in zip(titles, nicknames, dateCreateds)]

print(f"● {current_date} 기준 IT 이벤트 리스트 (출처: OKKY)")
print("https://okky.kr/events/it")
print()

# combined_data에서 'titles'와 'names'를 번갈아가며 출력
for idx, data in enumerate(combined_data, start=1):
    print(f"{idx}. {data['titles']} | {data['names']} | 작성일: {data['dateCreated']}")
    if idx < len(combined_data):
      print()  # 첫 번째와 두 번째 데이터 사이에 엔터 추가

● 2024-02-29 기준 IT 이벤트 리스트 (출처: OKKY)
https://okky.kr/events/it

1. [D-1] 글로벌 메신저 회사 개발자, 질문 받습니다 | GYEON G | 작성일: 2024-02-28

2. [멀티캠퍼스] IT 비전공자를 위한 오프라인 교육 K-High Tech Platform | 멀티캠퍼스 IT 취업교육 | 작성일: 2024-02-28

3. [멀티캠퍼스]✨데이터 분석&서비스개발(Python) 수강생 모집✨ | 멀티캠퍼스IT취업교육 | 작성일: 2024-02-28

4. [멀티캠퍼스]⭐채용연계 풀스택 개발(Java) 수강생 모집⭐ | 멀티캠퍼스IT취업교육 | 작성일: 2024-02-28

5. 2024 백엔드 개발자 무료 취업 전략 특강 | soeunbakday1 | 작성일: 2024-02-27

6. 2024 웹 트렌드 컨퍼런스(03.27 WED)_디지털 트렌드를 읽다! | 키파 | 작성일: 2024-02-26

7. 뱅크샐러드 개발자에게 개발자 취업 합격 비결 물어보세요! | 제로베이스_프론트엔드 취업 스쿨 | 작성일: 2024-02-24

8. [무료 온라인 세미나] 나 혼자 해도 알 수 있는 GA4 활용법 | 위어드섹터 인턴십 | 작성일: 2024-02-22

9. K-제로 트러스트, 베일을 벗다 : K-제로 트러스트 실증 사업 컨퍼런스 | SGA SOL | 작성일: 2024-02-20

10. [무료 교육] NHN Cloud for Games : NHN Cloud로 게임 구축하기 | NHN Cloud | 작성일: 2024-02-20

11. [30분 후 시작] 경품있는 플러터 실무진 무료 강의! 고려대출신 저자분이 직접 진행합니다 | Jeongjoo Lee | 작성일: 2024-02-17

12. [무료세미나] 창업을 하는데 웹/앱 외주가 걱정이라면? | GYEON G | 작성일: 2024-02-14

13. OpenTRS: 보안 잘하는 기업들이 버그바운티를 선택하는 이유! 버그바운티 200% 활용법 | Ya

# 2. 잡코리아 IT 일자리 현황

In [None]:
import requests
from bs4 import BeautifulSoup
import json
import datetime
import os

# 현재 날짜
current_date = datetime.datetime.now().date()

# 잡코리아 사이트
url = 'https://www.jobkorea.co.kr/recruit/joblist?menucode=duty'

# 크롤링 막혀서 헤더 설정
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
}

# 웹 페이지 요청
response = requests.get(url, headers=headers)

# 페이지 내용을 파싱
soup = BeautifulSoup(response.content, 'html.parser')

# 클래스가 nano has-scrollbar인 dd 태그 중에서 3번째
dd_tags = soup.find_all('dd', class_='nano has-scrollbar')
selector_tags = dd_tags[2];

# 모든 li 태그를 찾기
li_tags = selector_tags.find_all('li')

# 선택한 li 태그를 저장할 리스트
selected_li_tag = []

for li_tag in li_tags:
  data_value_json = li_tag.get('data-value-json')
  if data_value_json:
    data = json.loads(data_value_json)
    if data.get('groupName') == '개발·데이터':
      selected_li_tag = li_tag.get('data-value-json')

selected_li_json = json.loads(selected_li_tag)
result = selected_li_json['subList']

### 2-1) 단순히 보여주기

In [None]:
result = sorted(result, key=lambda x: x['giCnt'], reverse=True)

print(f"● {current_date} 기준으로 잡코리아 IT 직종 일자리 수 내림차순")
print()

for index, item in enumerate(result, start=1):
  print(f"{index}. {item['subName']} ( {item['giCnt']}개 )")

● 2024-02-29 기준으로 잡코리아 IT 직종 일자리 수 내림차순

1. 시스템엔지니어 ( 3059개 )
2. 웹개발자 ( 2965개 )
3. 소프트웨어개발자 ( 2769개 )
4. 백엔드개발자 ( 1906개 )
5. 앱개발자 ( 1569개 )
6. 네트워크엔지니어 ( 1513개 )
7. 프론트엔드개발자 ( 1477개 )
8. 보안엔지니어 ( 1075개 )
9. 게임개발자 ( 1056개 )
10. 머신러닝엔지니어 ( 752개 )
11. 하드웨어개발자 ( 726개 )
12. 데이터엔지니어 ( 576개 )
13. DBA ( 572개 )
14. 데이터사이언티스트 ( 559개 )
15. QA ( 526개 )
16. 웹퍼블리셔 ( 508개 )
17. 클라우드엔지니어 ( 443개 )
18. IT컨설팅 ( 436개 )
19. 블록체인개발자 ( 62개 )


### 2-2) 다운로드 받기 (일자별로)

In [None]:
# 저장할 폴더 경로 설정 (예: /경로/이름)
folder_path = "/content/collect_jobKorea"

# 폴더가 없다면 생성
os.makedirs(folder_path, exist_ok=True)

# 파일을 쓰기 모드로 열기
output_file_path = os.path.join(folder_path, f'{current_date}_job_counting.txt')

with open(output_file_path, 'w') as file:
    for item in result:
        # 리스트의 각 요소를 문자열로 변환하여 파일에 쓰기
        file.write(str(item) + '\n')

# 3. 잡코리아 일자리 원하는 만큼의 리스트 뽑기

In [None]:
import requests
from bs4 import BeautifulSoup
import json
import datetime
import os

# 1. 크롤링 막혀서 헤더 설정
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
}

# 2. 잡코리아 사이트 시작 1페이지
url = 'https://www.jobkorea.co.kr/recruit/joblist?menucode=duty&dutyCtgr=10031#anchorGICnt_1'

# 3. 담을 데이터
results = []

# 4. 스크래퍼할 시작 페이지와 마지막 페이지 설정 (설정값에 따라 result 데이터의 수 달라짐)
start_idx = 1
end_idx = 2

for page in range(start_idx, end_idx):
  # 5. 웹 페이지 요청 및 기본 파싱
  print(url)
  response = requests.get(url, headers=headers)
  soup = BeautifulSoup(response.content, 'html.parser')
  # 6. 채용공고가 들어있는 class 명으로 파싱
  tr_elements = soup.find_all('tr', class_="devloopArea")

  # 7. 하나의 아이템마다 우리가 원하는 정보들을 선택자를 잡아서 각각의 변수에 넣어두기
  for element in tr_elements:
    main_data = element.find_all('a', class_="link normalLog")
    deadline_data = element.find('td', class_="odd")
    deadline_data = deadline_data.find('span', class_="date dotum")

    # 8. 데이터를 모아서 reulst 리스트에 append (주의. main_data와 deadline_data 둘다 온전히 존재해야만 get을해서 가져올 수 있음)
    if main_data and deadline_data :
      company = main_data[0].text
      url = main_data[1].get('href')
      title = main_data[1].get('title')
      deadline = deadline_data.text

      result = { 'company': company, 'url': url, 'title' : title, 'deadline': deadline }
      results.append(result)

  # 9. 한 페이지 크롤링이 끝나면 +1
  url = 'https://www.jobkorea.co.kr/recruit/joblist?menucode=duty&dutyCtgr=10031#anchorGICnt_{}'.format(page + 1)

# 10. 현재 날짜
current_date = datetime.datetime.now().date()

# 보기좋게 프린트 찍기
print(f"● {current_date} 기준 IT 직종 일자리 리스트")
print()

for index, item in enumerate(results, start=1):
  print(f"{index}. [{item['company']}] {item['title']} ({item['deadline']})")
  print(f"> https://www.jobkorea.co.kr/{item['url']}")
  print()

https://www.jobkorea.co.kr/recruit/joblist?menucode=duty&dutyCtgr=10031#anchorGICnt_1
● 2024-02-29 기준 IT 직종 일자리 리스트

1. [TechWing] 2024 각 부문 신입/경력 사원 모집 (~03/15(금))
> https://www.jobkorea.co.kr//Recruit/GI_Read/44100153?rPageCode=PL&logpath=21

2. [에스케이쉴더스㈜] Cloud 기술영업 경력직 채용 (~03/05(화))
> https://www.jobkorea.co.kr//Recruit/GI_Read/44086280?rPageCode=PL&logpath=21

3. [린나이코리아㈜] 2024년 린나이코리아㈜ 신입 및 경력사원 모집 (~03/04(월))
> https://www.jobkorea.co.kr//Recruit/GI_Read/44075132?rPageCode=PL&logpath=21

4. [㈜예가람저축은행] 2024 상반기 예가람저축은행 각 부문별 [경력/신입] 직원 공개 채용 (~03/10(일))
> https://www.jobkorea.co.kr//Recruit/GI_Read/44071173?rPageCode=PL&logpath=21

5. [에스케이쉴더스㈜] 보안운영 신입/경력 채용(충북 오창) (~03/05(화))
> https://www.jobkorea.co.kr//Recruit/GI_Read/44050626?rPageCode=PL&logpath=21

6. [㈜나노시스템즈] [H/W]  전자회로 설계 개발 정규직 채용 (~03/24(일))
> https://www.jobkorea.co.kr//Recruit/GI_Read/44071699?rPageCode=PL&logpath=21

7. [신도계양사무기(인천점)] [연봉3,400-3,800이상] 복사기,컴퓨터,프린터 설치기사 모집 (~03/17(일))
> https://www.jobkorea.co.kr

# 4. 부트텐트 사이트 리스트

In [None]:
import requests
from bs4 import BeautifulSoup
import json
from datetime import datetime
import os

# 부트텐트 사이트
url = 'https://boottent.sayun.studio/camps'

# 크롤링 막혀서 헤더 설정
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
}

# 웹 페이지 요청
response = requests.get(url, headers=headers)

# 페이지 내용을 파싱
soup = BeautifulSoup(response.content, 'html.parser')
script_tag = soup.find('script', id='__NEXT_DATA__')

# 스크립트 태그 내부의 JSON 데이터 추출
data = json.loads(script_tag.string)

# 'data' 배열 추출
contents = data['props']['pageProps']['data']

# 결과 배열 담을 데이터
results = []

# 현재 시간
current_datetime = datetime.now()

# 날짜 유효한지 여부를 체크하는 로직
def convert_to_datetime(date_str):
  if len(date_str) != 16:
    date_str = date_str + " 23:59"

  try:
      # 문자열을 datetime 형식으로 변환 시도
      date_obj = datetime.strptime(date_str, '%Y-%m-%d %H:%M')
      return date_obj
  except ValueError:
      # ValueError가 발생하면 문자열을 그대로 반환
      return 'Invalid'

# 가져온 contents들을 가져와서 보기 편하게 객체로 변경한 뒤에, 리스트로 묶어줌
for content in contents:
  brandName = content.get('brandName', "")
  company = content.get('company', "")
  title = content.get('title',"")
  place = content.get('place', "")
  cost = ('무료' if content['costOption'] == 'free'
          else '정부지원무료(내일배움카드)' if content['costOption'] == 'govtFree'
          else '유료')
  qualification = content.get('qualification',"")
  onOff = ('Only 온라인' if content.get('offlineRequired', "") == 'onlyOnline'
           else '오프라인')
  startDate = content.get('startDate',"")
  startDate = convert_to_datetime(startDate)
  endDate = content.get('endDate',"")
  endDate = convert_to_datetime(endDate)
  deadline = content.get('regEndDate',"")
  deadline_datetime = convert_to_datetime(deadline)
  campId = content.get('campId',"")
  batchId = content.get('batchId',"")
  url = f"https://boottent.sayun.studio/camps/{campId}_{batchId}"

  result = {
    'company': f"{brandName} ({company})",
    'title': title,
    'place': f"{place}",
    'cost' : cost,
    'qualification': qualification,
    'onOff': onOff,
    'period': f"{startDate} ~ {endDate}",
    'deadline': deadline,
    'url': url
  }

  if (deadline_datetime != 'Invalid' and
      current_datetime < deadline_datetime):
    results.append(result)

# 현재 날짜
current_date = current_datetime.date()


# 보기좋게 프린트 찍기
print(f"● {current_date} 기준 부트캠프 리스트 (출처: 부트텐트)")
print()

for index, item in enumerate(results, start=1):
  if index < 26:
      print(f"{index}.")
      print(f"[{item['company']}] <{item['title']}>")
      print(f"장소: {item['place']} {item['onOff']}")
      print(f"비용: {item['cost']}")
      print(f"기간: {item['period']}")
      if item['qualification'] :
        print(f"지원자격: {item['qualification']}")
      print(f"지원마감: {item['deadline']}")
      print(f"링크: {item['url']}")
      print()

● 2024-02-29 기준 부트캠프 리스트 (출처: 부트텐트)

1.
[이젠컴퓨터아카데미 신림 (이젠컴퓨터아카데미)] <(게임콘텐츠제작) 게임그래픽전문가 양성>
장소: 서울 신림역 오프라인
비용: 정부지원무료(내일배움카드)
기간: 2024-02-26 23:59:00 ~ 2024-08-01 23:59:00
지원자격: - 하루 8시간교육을 진행함에 있어 건강상의 문제가 없는 내일배움카드 발급대상자
- 전액국비지원 특성상 정확한 커리큘럼 및 취업연계시스템의 안내를 위한 인터뷰(상담)1회 필요
지원마감: 2024-02-29 23:59
링크: https://boottent.sayun.studio/camps/ezensdr-gamegraphic_20240207162835

2.
[에이콘아카데미 (에이콘이즈)] <[프로젝트 중심] 자바(JAVA) 풀스택 캠프>
장소: 서울 2호선 강남역 1번출구 오프라인
비용: 정부지원무료(내일배움카드)
기간: 2024-04-01 23:59:00 ~ 2024-09-25 23:59:00
지원자격: - 전공, 학력 무관
- 국민 내일 배움 카드 발급 대상자
- 개발자 취업을 위해 6개월 간 공부를 하실 수 있는 분

지원마감: 2024-02-29 23:59
링크: https://boottent.sayun.studio/camps/acorn-javaandroid_20240206121624

3.
[에이콘아카데미 (에이콘이즈)] <[프로젝트 중심] 자바(JAVA) 중심 풀스택 캠프>
장소: 서울 2호선 강남역 1번출구 오프라인
비용: 정부지원무료(내일배움카드)
기간: 2024-03-27 23:59:00 ~ 2024-09-24 23:59:00
지원자격: - 전공, 학력 무관
- 국민 내일 배움 카드 발급 대상자
- 개발자 취업을 위해 6개월 간 공부를 하실 수 있는 분

지원마감: 2024-02-29 23:59
링크: https://boottent.sayun.studio/camps/acorn-javaandroid_20240201103401

4.
[

#5. 뉴스기사 (ITWORLD)

In [None]:
import requests
from bs4 import BeautifulSoup
import json
from datetime import datetime
import os

# 크롤링 막혀서 헤더 설정
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
}

# IT World 사이트(차례대로 개발자 - 미래기술 - AI/ML - 글로벌트렌드 -)
urls = [
    "https://www.itworld.co.kr/t/61023/%EA%B0%9C%EB%B0%9C%EC%9E%90",
    "https://www.itworld.co.kr/t/65212/%EB%AF%B8%EB%9E%98%EA%B8%B0%EC%88%A0",
    "https://www.itworld.co.kr/t/69500/AI%E3%86%8DML",
    "https://www.itworld.co.kr/t/55049/%EA%B8%80%EB%A1%9C%EB%B2%8C+%ED%8A%B8%EB%A0%8C%EB%93%9C",
    "https://www.itworld.co.kr/news"
]

for index, url in enumerate(urls, start=1):
  # 웹 페이지 요청
  response = requests.get(url, headers=headers)

  # 페이지 내용을 파싱
  soup = BeautifulSoup(response.content, 'html.parser')

  # 뉴스가 들어있는 class 명으로 파싱
  cardLists = soup.find_all('h5', class_="card-title")

  # 결과값 넣기
  results = []

  # 현재 날짜
  current_date = datetime.now().date()

  # 키워드 설정
  def getKeyword():
    keyword = ""

    if index == 1:
      keyword = "개발자"
    elif index == 2:
      keyword = "미래기술"
    elif index == 3:
      keyword = "AI/ML"
    elif index == 4:
      keyword = "글로벌트렌드"
    elif index == 5:
      keyword = "최신뉴스"

    return keyword

  # 뉴스를 원하는 갯수만큼 가져오기 (20개로 설정)
  totalNum = 20

  for cardIndex, card in enumerate(cardLists, start=0):
    title = card.find('a').text
    cardUrl = f"https://www.itworld.co.kr{card.find('a').get('href')}"
    result = {
        'title': title,
        'cardUrl': cardUrl
    }
    if cardIndex < totalNum: results.append(result)


  # 보기좋게 프린트 찍기
  print(f"● {current_date} 기준 IT 뉴스 (키워드: {getKeyword()})")
  print()

  for index, item in enumerate(results, start=1):
    print(f"{index}. {item['title']}")
    print(f"> {item['cardUrl']}")
    print()

  print()
  print()


● 2024-02-29 기준 IT 뉴스 (키워드: 개발자)

1. “배열ㆍ행렬을 더 빠르게” 파이썬 넘파이의 이해
> https://www.itworld.co.kr/t/61023/%EA%B0%9C%EB%B0%9C%EC%9E%90/326913

2. "깃허브 코파일럿이 보안 취약점까지 복제한다면?" AI 코딩 도구 주의보 
> https://www.itworld.co.kr/t/61023/%EA%B0%9C%EB%B0%9C%EC%9E%90/326563

3. “변화하는 직무 요구사항에 관리자도 압박감” 코세라 직무 기술 보고서 2024
> https://www.itworld.co.kr/t/61023/%EA%B0%9C%EB%B0%9C%EC%9E%90/326451

4. AI가 촉발한 IT 예산의 중심 이동, 일자리 재편 불가피
> https://www.itworld.co.kr/t/61023/%EA%B0%9C%EB%B0%9C%EC%9E%90/325527

5. "코딩 속도 개선 vs. 코드 품질 저하" AI 코딩 어시스턴트의 과제
> https://www.itworld.co.kr/t/61023/%EA%B0%9C%EB%B0%9C%EC%9E%90/324967

6. “개발자 83.6%, AI가 일부 업체 대체할 것”
> https://www.itworld.co.kr/t/61023/%EA%B0%9C%EB%B0%9C%EC%9E%90/324834

7. “자바를 자바라고 부르는 이유” 옛날 인터뷰로 알아보는 이름의 유래
> https://www.itworld.co.kr/t/61023/%EA%B0%9C%EB%B0%9C%EC%9E%90/324337

8. “비즈니스 통찰력 강화가 관건” IT 전문가의 이해 능력 향상 방법 5가지
> https://www.itworld.co.kr/t/61023/%EA%B0%9C%EB%B0%9C%EC%9E%90/323763

9. “컨텍스트 대화를 위한 런타임” 시멘틱 커널을 사용한 AI 에이전트 만들기
> https://www.itworld.co.k



---



# *** 크롤링 사이트 허용여부

In [None]:
from urllib.parse import urljoin
from urllib.robotparser import RobotFileParser

# 검색할 URL
url = "https://www.jobkorea.co.kr/recruit/joblist?menucode=duty&dutyCtgr=10031#anchorGICnt_1"

robot_url = urljoin(url, "/robots.txt")
print(robot_url)

robot_parser = RobotFileParser()
robot_parser.set_url(robot_url)
robot_parser.read()

print(robot_parser)
print('* 허용 가능한가 ?', robot_parser.can_fetch("Mybot", url))

https://www.jobkorea.co.kr/robots.txt
User-agent: ia_archiver
Allow: 

User-agent: GPTBot
Disallow: /

User-agent: *
Disallow: /Albamon/
Disallow: /aspnet_client/
Disallow: /Banner/
Disallow: /Booth/
Disallow: /Certpia/
Disallow: /Channel/
Disallow: /Corp/
Allow: /Corp/Lounge/
Allow: /Corp/Offer/List
Allow: /Corp/Main
Disallow: /count/
Disallow: /Customer_C/
Disallow: /Donation/
Disallow: /eBook/
Disallow: /JK_Consulting/
Disallow: /JK_IT_Training/
Disallow: /Job_Seeker/
Disallow: /List_GG/
Disallow: /Login/
Disallow: /Mail/
Disallow: /NewsLetter/
Disallow: /Popup/
Disallow: /Question/
Disallow: /SmartMatch/
Disallow: /SmartMatchClickBridge/
Disallow: /SMS/
Disallow: /Text/
Disallow: /Text_Co/
Disallow: /Text_Edu/
Disallow: /Text_Head/
Disallow: /Text_User/
Disallow: /User/
Allow: /User/Qstn/
Disallow: /Text_User_Edu/
Disallow: /Vertical/
Disallow: /WebMail/
Disallow: /List_Head/
Disallow: /SM/
Disallow: /gugu/
Disallow: /List_GI/GI_Preview.asp
Disallow: /List_HR/HR_GI_Preview.asp
Disa

## *** 셀레니움 방식 (현재 미사용)

셀리니움 깔고 크롬 드라이버 설치

In [None]:
!pip install selenium
!apt-get update
!apt-get install -y chromium-chromedriver
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

Collecting selenium
  Downloading selenium-4.18.1-py3-none-any.whl (10.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.0/10.0 MB[0m [31m46.3 MB/s[0m eta [36m0:00:00[0m
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.24.0-py3-none-any.whl (460 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m460.2/460.2 kB[0m [31m34.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.11.1-py3-none-any.whl (17 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl (10 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting h11<1,>=0.9.0 (from wsproto>=0.14->trio-websocket~=0.9->selenium)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
[?

셀레니움 버전 확인 및 크롬드라이버 잘깔렸는지 위치 확인

In [None]:
import selenium
print("Selenium version:", selenium.__version__)

Selenium version: 4.18.1


In [None]:
!which chromedriver

/usr/bin/chromedriver


부트텐트 사이트 셀레니움 방식으로 가져오기

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from datetime import datetime
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

def labeling(idx):
  label = ''

  if(idx == 1): label = '실행기관명'
  elif(idx == 2): label = '분야'
  elif(idx == 3): label = '신청마감기한'
  elif(idx == 4): label = '총비용'
  elif(idx == 5): label = '위치'
  elif(idx == 6): label = '교육기간'
  elif(idx == 7): label = '운영방식'
  elif(idx == 8): label = '선발절차/키워드'

  return label

def wait_for_element_by_xpath(driver, xpath, timeout=10):
    try:
        element = WebDriverWait(driver, timeout).until(
            EC.presence_of_element_located((By.XPATH, xpath))
        )
        return element
    except TimeoutException:
        print(f"Timeout: Element with XPath '{xpath}' not found within {timeout} seconds.")
        return None

def exe_chrowling():
  try:
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')

    driver = webdriver.Chrome(options=options)

    url = 'https://boottent.sayun.studio/camps'
    driver.get(url)

    words_to_remove = ['EVENT', '운영', '모아보기', '위치', '\n']

    base_xpath = '//*[@id="tableContainer"]/section/div[2]/section/div/div/div/div/div[2]/div[2]/table/tbody/tr['

    # 현재 날짜
    current_datetime = datetime.now()
    current_date = current_datetime.date()
    print(f"● {current_date} 기준 부트캠프 리스트 (출처: 부트텐트)")

    # Loop through the range of 2 to 100
    for i in range(2, 100):
        # Construct the full XPath for each row
        full_xpath = f"{base_xpath}{i}]"

        # 본격적으로 찾을 element 로딩될때까지 기다렸다가 스크래퍼하기
        tr_element = wait_for_element_by_xpath(driver, full_xpath)

        # First td
        first_td_elements = tr_element.find_elements(By.XPATH, './td[1]')

        a_elements = first_td_elements[0].find_elements(By.XPATH, './/a[@rel="noreferrer"]')

        href_value = ""

        if a_elements:
          href_value = a_elements[0].get_attribute('href')

        # Find all td elements within the tr
        td_elements = tr_element.find_elements(By.XPATH, './td')

        print()
        print(f"[{i-1}]")

        # Extract and print the text content of each td element
        for idx, td in enumerate(td_elements, start=1):
            td_text = td.text

            for word in words_to_remove:
              td_text = td_text.replace(word,'')

            print(f"{idx}. {labeling(idx)}: {td_text}")

            if idx == 8:
              print(f"8. 링크: {href_value}")
              break

        print()

  finally:
    driver.quit()


if __name__ == "__main__":
    exe_chrowling()

● 2024-02-29 기준 부트캠프 리스트 (출처: 부트텐트)

[1]
1. 실행기관명: 한국소프트웨어산업협회회원사 채용연계형 클라우드 솔루션즈 아키텍트 양성과정 2024년 1기
2. 분야: 클라우드
3. 신청마감기한: 모집중~2024/02/29
4. 총비용: 무료
5. 위치: 오프라인서울
6. 교육기간: 2024/02/14약 6개월2024/08/05
7. 운영방식: 풀타임월,화,수,목,금 / 09:00~18:00
8. 선발절차/키워드: 선발절차에 코딩없음퍼블릭클라우드TerraformAnsibleDocker&Container
8. 링크: https://boottent.sayun.studio/camps/sw-megazone_20240110100640


[2]
1. 실행기관명: 항해99개발자 단기 취업 리부트 코스 2기
2. 분야: 백엔드프론트엔드전공지식
3. 신청마감기한: 모집중~2024/03/15
4. 총비용: 190만원
5. 위치: 온라인
6. 교육기간: 2024/03/20약 2.5개월2024/05/29
7. 운영방식: 풀타임월,화,수,목,금,토 / 09:00~21:00
8. 선발절차/키워드: 선발절차에 코딩없음알고리즘자료구조CSJAVAJavaScrpit부하테스트
8. 링크: https://boottent.sayun.studio/camps/hanghae99-devcareer_20240116164640


[3]
1. 실행기관명: 멀티캠퍼스백엔드 개발(Java) 3월 과정
2. 분야: 백엔드
3. 신청마감기한: D - 10모집중~2024/03/10
4. 총비용: 무료 KDT
5. 위치: 온라인
6. 교육기간: 2024/03/11약 4개월2024/07/18
7. 운영방식: 풀타임월,화,수,목,금 / 09:00~18:00
8. 선발절차/키워드: 선발절차에 코딩없음JavaDatabaseSQLServletJSPMongoDBMECABWeka
8. 링크: https://boottent.sayun.studio/camps/multicampus-be_202401301742