## 인터넷, 웹, 웹 브라우저

- **인터넷** : 원거리에 퍼져있는 컴퓨터 네트워크를 서로 연결시켜주는 네트워크 시스템
- **웹** : 인터넷을 기반으로 사람들이 정보를 검색할 수 있는 정보 공간
- **웹 브라우저** : 웹 문서를 사용자에게 편하게 보여주는 소프트웨어

## 우리가 웹사이트에 접속할 때, 일어나는 일

1. **URL**이 브라우저에 입력되면, URL (the domain name)이 적절한 웹서버를 찾아서, 웹서버에 **request**를 보냄.
2. 서버는 브라우저에 HTML 페이지(+a)를 보냄으로서 **response**함. 
3. 브라우저는 내부에서 응답받은 HTML을 이용해 DOM (Document Object Model)을 통해 렌더 **트리** (tree representation) 생성
4. 생성된 랜더트리는 브라우저를 통해 사용자에게 보여짐.

- \* HTML 외에도 java script (JS), CSS 등이 웹페이지를 보는데 사용됨. 
    - CSS는 HTML 요소들의 스타일을 정의하고
    - JS는 주로 웹페이지를 동적으로 기능하게 만들어줌. 예를 들어, 이미지 슬라이드 같은 것들.

![크롬 브라우저가 웹페이지를 보여주는 과정](https://d2.naver.com/content/images/2015/06/helloworld-59361-3.png)

#### [Ex] 웹페이지의 HTML document를 요청해서 받아오기

In [None]:
import requests
url = 'https://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7'

# HTML를 구성하는 요소들

![HTML 컨테이너 요소의 일부](https://wikimedia.org/api/rest_v1/media/math/render/svg/9b19f2818482c6618c82e23b4e6a5a3a4d94c57d)

- HTML 컨테이너 요소의 일부 (source : [HTML 요소 by 위키피디아](https://ko.wikipedia.org/wiki/HTML_요소))

- tags = 'p'
    - HTML은 <p\> 시작태그와 </p\> 종료태그를 항상 포함함.
- attributes : { 'class' = 'foo' }
    - HTML 요소의 특성을 설정하는 구체적인 명령어들로 class 이외에 name, value 등이 자주 쓰임. 

# Selecting HTML elements with BeautifulSoup
- 간단한 웹페이지는 BeautifulSoup이라는 패키지를 통해 불러올 수 있음

In [None]:
from bs4 import BeautifulSoup

#### [EX] 웹 테이블 형태의 텍스트를 python 자료형으로 바꾸기
- "2009년 기준, 세계 10대 인터넷 다운로드 전송 속도"와 관련된 자료를 불러오세요

# Selecting HTML elements with Selenium + Chromedriver 


- 어떤 사이트의 경우, 어떤 조건(경우마다 다름)이 충족되어야지 볼 수 있는 웹사이트가 있음.
- 혹은 로그인 한다음,  특정 정보를 가져와야한다던가,  검색어를 통해 해야한다던가 하는 경우
- 이럴 때 쓸 수 있는 방법 중 하나가 셀레늄+크롬드라이버를 사용하는 것.

- 환경셋팅 
    -  로컬에서 작업시
        1. selenium 설치 : pip install selenium & 크롬 웹브라우저 설치
        2. [크롬환경설정](chrome://settings/help) 에서 본인 크롬 버젼 확인 
        3. [chromdriver 다운로드](http://chromedriver.chromium.org) 후, 다운한 파일을 현재 작업 중인 파일과 같은 폴더에 두기
        4.  selenium을 import
        5.  webdriver를 통해 웹브라우저 오픈
        ```
        driver = webdriver.Chrome('chromedriver')
        ```

    -  Colab에서 작업시
        1.  관련 package  설치

        ```
        !apt-get update
        !apt install chromium-chromedriver
        !pip install selenium
        ```

        2.  selenium을 import한 뒤에,  headless 설정

        ```
        from selenium import webdriver
        options = webdriver.ChromeOptions()
        options.add_argument('--headless')
        options.add_argument('--no-sandbox')
        options.add_argument('--disable-dev-shm-usage')
        ```

        3.  webdriver를 통해 웹브라우저 오픈
        ```
        driver = webdriver.Chrome('/usr/bin/chromedriver', options=options)
        ```



In [1]:
!apt-get update
!apt install chromium-chromedriver
!pip install selenium

Get:1 http://security.ubuntu.com/ubuntu bionic-security InRelease [88.7 kB]
Get:2 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ InRelease [3,626 B]
Ign:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  InRelease
Get:4 http://ppa.launchpad.net/c2d4u.team/c2d4u4.0+/ubuntu bionic InRelease [15.9 kB]
Ign:5 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  InRelease
Get:6 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  Release [697 B]
Hit:7 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  Release
Get:8 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  Release.gpg [836 B]
Hit:9 http://archive.ubuntu.com/ubuntu bionic InRelease
Get:10 http://archive.ubuntu.com/ubuntu bionic-updates InRelease [88.7 kB]
Get:11 http://security.ubuntu.com/ubuntu bionic-security/main amd64 Packages [1,995 kB]
Hit:12 http://ppa.launchpad.net/cra

In [3]:
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

In [4]:
driver = webdriver.Chrome('/usr/bin/chromedriver', options=options)

- 코로나-19  중앙방역대책본부 브리핑 모아보기
- 정부브리핑 리스트: https://www.korea.kr/news/policyBriefingList.do
- 2021년 3월 14일 중앙방역대책본부 브리핑: https://www.korea.kr/news/policyBriefingView.do?newsId=156441084&pageIndex=1&srchType=&startDate=2008-02-29&endDate=2021-03-14&srchWord=

** 실습 영상은 2020년 4월 8일 기준이지만, 현재 날짜에 맞춰 다시 실습해보세요. 결과물도 함께 첨부하였습니다.

In [6]:
url = "https://www.korea.kr/news/policyBriefingView.do?newsId=156441084&pageIndex=1&srchType=&startDate=2008-02-29&endDate=2021-03-14&srchWord="
driver.get(url)

In [None]:
title = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/h1')
speaker = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[1]/span[1]')
date = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[1]/span[2]')
body = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[2]/div[1]')

#### 자동으로 검색해서,  원하는 결과만 불러오기


- 안정적인 크롤링을 위한 XPath 팁
    - 인덱스 형태 '//*[@id="cbox_module"]/div/div[2]/ul/li/div/div\[2]/div' 의 XPath 지양 : 웹페이지 디자인 변화(광고의 추가라던가)에 취약
    - 코드 가독성이 떨어짐 (저번주의 나는 무엇을 짠건가....,  나의 팀원은 무엇을  짠건가....)
    - xpath를 바꾸거나, `find_elements_by_class_name`, `find_elements_by_name` 등 가독성이 좀 더 나은 함수를 사용하자



```
- $x('/html/head/title') : 트리의 절대적인 위치대로 접근. 제일 상위에 있는 순서대로. html > head > title 
- $x('//h1') : 트리의 상대적인 위치대로 접근. h1이 위치하든 상관없고 태그가 h1이면됨.
- $x('//h2') : 이것도 h2 태그에 접근하는 방식
- $x('//h2/span') : 위치에 상관없이 h2에 접근한 위, 그 하위에 있는 span에 접근
- $x('//h2/span[@class="mw-headline"]') : 위치에 상관없이 h2에 접근한 뒤, 그 하위에 있는 span에 접근 + class 속성 이름이 "mw-headline"이어야 함.
- $x('//*[@class="mw-headline"]') : 위치에 상관없이 class 속성 이름이 "mw-headline"인 요소에 접근
- $x('//h2/span[@class="mw-headline"]/text()') : 위치에 상관없이 h2에 접근한 뒤, 그 하위에 있는 span에 접근 + class 속성 이름이 "mw-headline"인 요소의 텍스트 값에 접근
- $x('//h2/span[contains(@class, "headline")]'): 위치에 상관없이 h2에 접근한 뒤, 그 하위에 있는 span에 접근 + class 속성 이름에 "headline"을 포함하고 있는 요소에 접근
```



In [None]:
title = driver.find_element_by_xpath('//article/div[@class="article-head"]/h1')
speaker = driver.find_element_by_xpath('//article/div[@class="article-head"]/div[@class="info"]/span[1]')
date = driver.find_element_by_xpath('//article/div[@class="article-head"]/div[@class="info"]/span[2]')
body = driver.find_element_by_xpath('//article/div[@class="article-content"]/div[@class="view-cont"]')

---

# Twitter

In [None]:
! pip install twint

##  검색어 기반으로 데이터 모으기

In [None]:
import twint

##  특정유저의 follower, following 검색하기

# Instagram
1. 로컬 컴퓨터에서 터미널(윈도우는 파워쉘)을 켜서 `pip install instalooter`
2. 설치 이후,  터미널에서 영상을 보면서 실습 진행

##  특정 유저의 프로필 다운로드

-  아래 셀에는 터미널 명령어를 적어주세요

In [None]:
#  

##  특정 해시태그로 검색한 결과 다운로드

-  아래 셀에는 터미널 명령어를 적어주세요


In [None]:
#  