# Web scrapper
---

## intro
웹사이트에서 데이터를 추출하게 해주고 
한 회사에 대한 데이터를 많은 다른 웹사이트에서 가져오거나
같은 제품을 판매하는 여러 웹사이트의 가격들을 스크래핑 할 수도 있음 어디서 제일 싸게 살 수 있는지 확인 하도록

- beautifulsoup, 웹 사이트의 데이터를 받아올 수 있게 해주는 python 라이브러리 - 실제로는 html로부터 받아옴

- 태그 조사
  - div
  - ul
  - li
  - a
  - id와 class의 차이

## Installation 

In [1]:
# !conda install beautifulsoup4

## initial requests 

In [2]:
import bs4
import requests

In [3]:
# 링크들만 엑셀에 저장하고자 함

base_url = "https://weworkremotely.com/remote-jobs/search?term="
search_term = "react"

response = requests.get(f"{base_url}{search_term}")
# response dtype : <class 'requests.models.Response'>
# 200(성공): 서버가 요청을 제대로 처리했다는 뜻
if response.status_code != 200:
    print('cant request website')
else:
    # jobs 클래스의 section 태그의 beautiful soup entitiy(jobs 변수)룰 job_section 변수에 반복 할당
    # job_section 변수 안의 li 태그 중 view-all클래스는 제외하고 
    # li에 있는 tooltip 클래스의 div 태그 속 로고를 표현할 뿐인 첫 번째 anchor를 제거한다. == 두 번째 anchor만 이용한다.
    # 두 번째 a태그 안에 있는 span 태그에 접근
    # 1. 링크는 href를 key로 찾으면 value값으로 찾을 수 있다.
    # 2. 회사명은 리스트 복수할당을 이용하여 find_all()메소드로 span태그 중 class에 company가 들어가는 것들을 모두 찾아 html을 보고 적절한 순서로 변수명을 정하여 할당
    # 3. 직함은 find()메소드로 title 클래스인 span태그를 찾는다. ※ find메서드를 쓰는 이유는 find_all()은 리스트를 가져오고 find()는 결과를 가져오기 때문에
    results = []
    soup = bs4.BeautifulSoup(response.text, 'html.parser')

    jobs = soup.find_all('section', class_ = 'jobs')
    # jobs 클래스의 section 태그의 beautiful soup entitiy(jobs 변수_iterable)룰 job_section 변수에 반복 할당
    for job_section in jobs: # jobs 변수는 2개의 섹션 태그를 리스트를 갖고 있음
        job_posts = job_section.find_all('li') # section태그 속 li태그 들을 전부 posts에 넣고
        job_posts.pop(-1)
        print("//////////////////////////\n")
        for post in job_posts:
            anchors = post.find_all('a') # li태그 속 a태그들을 anchors에 넣고
            anchor = anchors[1]          # a 태그들 중 두 번째만 사용한다.
            '''
            # beautiful soup 속 html 태그들은 dictionary처럼 바뀐다.
            # anchor의 자료형은 뭘까?? 
            # <class 'bs4.element.Tag'>
            # href는 태그가 아니라 속성이지 않나? 
            '''
            link = anchor['href'] # /remote-jobs/opencraft-senior-open-source-developer-devops-python-django-react-aws-openstack
            company, kind, region = anchor.find_all('span', class_ = 'company')
            title = anchor.find('span', class_='title')
            # dict 자료형 생성이 2중 반복문 안에 있다. 
            job_data = {
                'link' : f'https://weworkremotely.com/{link}',
                'company' : company.string,
                'region' : region.string,
                'position' : title.string
            }
            results.append(job_data)
            
    for r in results:
        print(r)
        print('///////////////')
            
# 5,8 Saving Results : 결과값에 태그를 제외하고 안의 텍스트만 추출하는 법 .string이라는 메소드 사용
# If a tag has only one child, and that child is a **navigableString**, the child is made available as .string
# e.g., beautifulsoup_element.string

//////////////////////////

//////////////////////////

{'link': 'https://weworkremotely.com//remote-jobs/brevity-inc-senior-developer-react-node-aws-long-term-contract', 'company': 'Brevity Inc.', 'region': 'USA Only', 'position': 'Senior Developer - React, Node, AWS - Long-Term Contract '}
///////////////
{'link': 'https://weworkremotely.com//remote-jobs/trustworthy-full-stack-software-engineer-react-python', 'company': 'Trustworthy', 'region': 'Anywhere in the World', 'position': 'Full Stack Software Engineer (React / Python)'}
///////////////
{'link': 'https://weworkremotely.com//remote-jobs/eight-full-stack-developer-node-js-react', 'company': 'Eight', 'region': 'UK Only', 'position': 'Full Stack Developer (Node.js/React)'}
///////////////
{'link': 'https://weworkremotely.com//remote-jobs/g2i-inc-senior-react-developer-remote', 'company': 'G2i Inc.', 'region': 'Americas Only/Europe Only', 'position': 'Senior React Developer - Remote'}
///////////////
{'link': 'https://weworkremote