# Web scrapper
---

## intro
웹사이트에서 데이터를 추출하게 해주고 
한 회사에 대한 데이터를 많은 다른 웹사이트에서 가져오거나
같은 제품을 판매하는 여러 웹사이트의 가격들을 스크래핑 할 수도 있음 어디서 제일 싸게 살 수 있는지 확인 하도록

- beautifulsoup, 웹 사이트의 데이터를 받아올 수 있게 해주는 python 라이브러리 - 실제로는 html로부터 받아옴

- 태그 조사
  - div
  - ul
  - li
  - a
  - id와 class의 차이

## Installation 

In [10]:
# !conda install beautifulsoup4

## initial requests 

In [4]:
from requests import get

base_url = "https://weworkremotely.com/remote-jobs/search?term="
term = "python"

response = get(f"{base_url}{term}")

if response.status_code != 200:
    print("cant request website")
else:
    print(response.text)

<!DOCTYPE html><html><head><meta charset=utf-8 /><script>window.NREUM||(NREUM={});NREUM.info={"beacon":"bam.nr-data.net","errorBeacon":"bam.nr-data.net","licenseKey":"f7ae79e7ca","applicationID":"192262830","transactionName":"d1gPFhEMXVVWQxwMDVZEThEGAkNaWw==","queueTime":0,"applicationTime":60,"agent":""}</script><script>(window.NREUM||(NREUM={})).init={ajax:{deny_list:["bam.nr-data.net"]}};(window.NREUM||(NREUM={})).loader_config={licenseKey:"f7ae79e7ca",applicationID:"192262830"};;(()=>{var e,t,r={9071:(e,t,r)=>{"use strict";r.d(t,{I:()=>n});var n=0,i=navigator.userAgent.match(/Firefox[\/\s](\d+\.\d+)/);i&&(n=+i[1])},6562:(e,t,r)=>{"use strict";r.d(t,{P_:()=>v,Mt:()=>h,C5:()=>d,DL:()=>y,OP:()=>R,lF:()=>L,Yu:()=>A,Dg:()=>p,CX:()=>f,GE:()=>w,sU:()=>M});var n={};r.r(n),r.d(n,{agent:()=>x,match:()=>O,version:()=>T});var i=r(6797),o=r(909),a=r(8610);class s{constructor(e,t){try{if(!e||"object"!=typeof e)return(0,a.Z)("New setting a Configurable requires an object as input");if(!t||"object

## beautiful soup

In [6]:
# 링크들만 엑셀에 저장하고자 함
from bs4 import BeautifulSoup
import requests

base_url = "https://weworkremotely.com/remote-jobs/search?term="
search_term = "react"

response = requests.get(f"{base_url}{search_term}")
# response dtype : <class 'requests.models.Response'>
# 200(성공): 서버가 요청을 제대로 처리했다는 뜻
if response.status_code != 200:
    print('cant request website')
else:
    # jobs 클래스의 section 태그의 beautiful soup entitiy(jobs 변수)룰 job_section 변수에 반복 할당
    # job_section 변수 안의 li 태그 중 view-all클래스는 제외하고 
    # li에 있는 tooltip 클래스의 div 태그 속 로고를 표현할 뿐인 첫 번째 anchor를 제거한다. == 두 번째 anchor만 이용한다.
    # 두 번째 a태그 안에 있는 span 태그에 접근
    # 1. 링크는 href를 key로 찾으면 value값으로 찾을 수 있다.
    # 2. 회사명은 리스트 복수할당을 이용하여 find_all()메소드로 span태그 중 class에 company가 들어가는 것들을 모두 찾아 html을 보고 적절한 순서로 변수명을 정하여 할당
    # 3. 직함은 find()메소드로 title 클래스인 span태그를 찾는다. ※ find메서드를 쓰는 이유는 find_all()은 리스트를 가져오고 find()는 결과를 가져오기 때문에
    results = []
    soup = bs4.BeautifulSoup(response.text, 'html.parser') # Usage : beautiful soup에게 html을 보내준다는 뜻

    jobs = soup.find_all('section', class_ = 'jobs')
    # jobs 클래스의 section 태그의 beautiful soup entitiy(jobs 변수_iterable)룰 job_section 변수에 반복 할당
    for job_section in jobs: # jobs 변수는 2개의 섹션 태그를 리스트를 갖고 있음
        job_posts = job_section.find_all('li') # section태그 속 li태그 들을 전부 posts에 넣고
        job_posts.pop(-1)
        print("//////////////////////////\n")
        for post in job_posts:
            anchors = post.find_all('a') # li태그 속 a태그들을 anchors에 넣고
            anchor = anchors[1]          # a 태그들 중 두 번째만 사용한다.
            '''
            # beautiful soup 속 html 태그들은 dictionary처럼 바뀐다.
            # anchor의 자료형은 뭘까?? 
            # <class 'bs4.element.Tag'>
            # href는 태그가 아니라 속성이지 않나? 
            '''
            link = anchor['href'] # /remote-jobs/opencraft-senior-open-source-developer-devops-python-django-react-aws-openstack
            company, kind, region = anchor.find_all('span', class_ = 'company')
            title = anchor.find('span', class_='title')
            # dict 자료형 생성이 2중 반복문 안에 있다. 
            job_data = {
                'link' : f'https://weworkremotely.com/{link}',
                'company' : company.string,
                'region' : region.string,
                'position' : title.string
            }
            results.append(job_data)
            
    for r in results:
        print(r)
        print('///////////////')
            
# 5,8 Saving Results : 결과값에 태그를 제외하고 안의 텍스트만 추출하는 법 .string이라는 메소드 사용
# If a tag has only one child, and that child is a **navigableString**, the child is made available as .string
# e.g., beautifulsoup_element.string

NameError: name 'bs4' is not defined

In [12]:
import requests
from bs4 import BeautifulSoup

def scrape_jobs(term):
    url = f"https://remoteok.com/remote-{term}-jobs"
    headers = {
        "User-Agent": "Kimchi"
    }
    response = requests.get(url, headers=headers)

    if response.status_code == 200:
        soup = BeautifulSoup(response.content, "html.parser")
        job_elems = soup.find_all("tr", {"class": "job"})

        jobs = []

        for job_elem in job_elems:
            title_elem = job_elem.find("h2", {"itemprop": "title"})
            company_elem = job_elem.find("h3", {"itemprop": "name"})
            location_elem = job_elem.find("div", {"class": "location"})
            link_elem = job_elem.find("a", {"class": "preventLink"})["href"]

            title = title_elem.text.strip() if title_elem else "N/A"
            company = company_elem.text.strip() if company_elem else "N/A"
            location = location_elem.text.strip() if location_elem else "N/A"
            link = f"https://remoteok.com{link_elem}" if link_elem else "N/A"

            jobs.append({"title": title, "company": company, "location": location, "link": link})

        return jobs

    else:
        return None
    
    
scrape_jobs("python")

[{'title': 'Fullstack developer senior',
  'company': 'CloudDevs',
  'location': '🇪🇺 Europe',
  'link': 'https://remoteok.com/remote-jobs/remote-fullstack-developer-senior-clouddevs-207318'},
 {'title': 'Senior Backend Python Developer',
  'company': 'Proxify',
  'location': '🌏 Worldwide',
  'link': 'https://remoteok.com/remote-jobs/remote-senior-backend-python-developer-proxify-206355'},
 {'title': 'Workflow Automation Specialist',
  'company': 'Opzer.co',
  'location': '🌏 Worldwide',
  'link': 'https://remoteok.com/remote-jobs/remote-workflow-automation-specialist-opzer-co-202539'},
 {'title': 'Data Engineer',
  'company': 'Art Blocks',
  'location': 'Worldwide',
  'link': 'https://remoteok.com/remote-jobs/remote-data-engineer-art-blocks-201880'},
 {'title': 'Data Engineer Intern',
  'company': 'DeFiner',
  'location': 'Worldwide',
  'link': 'https://remoteok.com/remote-jobs/remote-data-engineer-intern-definer-199886'},
 {'title': 'DevOps Engineer Freelance',
  'company': 'Braintrust