In [6]:
import requests
from bs4 import BeautifulSoup
import csv

# indeed의 url을 분석하여 limit와 url을 잘 조합한다.
LIMIT = 50 
URL = f"https://kr.indeed.com/jobs?q=python&limit={LIMIT}"

# 마지막 페이지를 알아낸다
def get_last_page():
    result = requests.get(URL)
    soup = BeautifulSoup(result.text, 'html.parser')
    pagination = soup.find("div",{"class": "pagination"})
    links = pagination.find_all("a")
    pages = []
    for link in links[:-1]:
        pages.append(int(link.find("span").string))    
    max_page = pages[-1]    
    return max_page


# extract_jobs에서 쓰이는 용도
# 하나의 페이지에서 반복되는 job의 정보를 추출
def extract_job(html):
    title = html.find("h2",{"class":"title"}).find("a")["title"]        
    company = html.find("span",{"class":"company"})
    if company:
        company_anchor = company.find("a")
        if company.find("a") is not None:
            company = (str(company_anchor.string))
        else:
            company = (str(company.string))        
        company = company.strip()    
    else:
        company: None
    location = html.find("div",{"class":"recJobLoc"})["data-rc-loc"]
    job_id = html["data-jk"]    
    return {"title": title, "company": company, "location":location ,"link":f"https://kr.indeed.com/viewjob?jk={job_id}"}
    

# 마지막페이지까지 반복하며 페이지마다 job의 정보를 모두 추출
def extract_jobs(last_page):    
    jobs=[]
    for page in range(last_page):
        print(f"scrapping page {page}")
        result = requests.get(f"{URL}&start={page*LIMIT}")
        soup = BeautifulSoup(result.text, 'html.parser')
        results = soup.find_all("div",{"class":"jobsearch-SerpJobCard"})
        for result in results:        
            job = extract_job(result)        
            jobs.append(job)
    return jobs

        
def get_jobs():    
    last_page = get_last_page()
#     너무 많이 뽑혀서 2번만 반복하게 만듭(2개의 페이지에서만 정보를 뽑아옴)
#     jobs = extract_jobs(last_page)    
    jobs = extract_jobs(2)    
    return  jobs



def save_to_file(jobs):
    file = open("indeed_jobs.csv", mode = "w", encoding = "utf-8") 
    writer = csv.writer(file)    
    writer.writerow(["title", "company", "location", "link"])
    for job in jobs:
        writer.writerow(list(job.values()))
    return jobs
save_to_file(get_jobs())
    


scrapping page 0
scrapping page 1


[{'title': '다나와 - 2020년 신입/경력직',
  'company': '다나와',
  'location': '서울 양천구',
  'link': 'https://kr.indeed.com/viewjob?jk=ede0cb5f2ef3c702'},
 {'title': '신입 매니저 (python, sketchup design tool 사용 가능자 우대)',
  'company': 'PLA',
  'location': '인천 연수구',
  'link': 'https://kr.indeed.com/viewjob?jk=6bf7ac96cc93e2a1'},
 {'title': 'Software Engineer',
  'company': 'Google',
  'location': '서울',
  'link': 'https://kr.indeed.com/viewjob?jk=857ae30c0bacaa35'},
 {'title': '2021 Market Data Analyst - Seoul',
  'company': 'Bloomberg',
  'location': '서울',
  'link': 'https://kr.indeed.com/viewjob?jk=5b73d7ce16a8338a'},
 {'title': '데이터 사이언티스트 (빅데이터/Python/R/데이터마이닝)',
  'company': '이씨이십일알앤씨',
  'location': '서울 강남구',
  'link': 'https://kr.indeed.com/viewjob?jk=9b528300e8743fee'},
 {'title': '[Ghent University Global Campus] Hiring Research Professors',
  'company': '겐트대학교 글로벌캠퍼스',
  'location': '인천 연수구',
  'link': 'https://kr.indeed.com/viewjob?jk=bb8c019026aebec8'},
 {'title': '2020 하반기 DB그룹 신입사원 공개 (예정)',
