## 인터넷, 웹, 웹 브라우저

- **인터넷** : 원거리에 퍼져있는 컴퓨터 네트워크를 서로 연결시켜주는 네트워크 시스템
- **웹** : 인터넷을 기반으로 사람들이 정보를 검색할 수 있는 정보 공간
- **웹 브라우저** : 웹 문서를 사용자에게 편하게 보여주는 소프트웨어

## 우리가 웹사이트에 접속할 때, 일어나는 일

1. **URL**이 브라우저에 입력되면, URL (the domain name)이 적절한 웹서버를 찾아서, 웹서버에 **request**를 보냄.
2. 서버는 브라우저에 HTML 페이지(+a)를 보냄으로서 **response**함. 
3. 브라우저는 내부에서 응답받은 HTML을 이용해 DOM (Document Object Model)을 통해 렌더 **트리** (tree representation) 생성
4. 생성된 랜더트리는 브라우저를 통해 사용자에게 보여짐.

- \* HTML 외에도 java script (JS), CSS 등이 웹페이지를 보는데 사용됨. 
    - CSS는 HTML 요소들의 스타일을 정의하고
    - JS는 주로 웹페이지를 동적으로 기능하게 만들어줌. 예를 들어, 이미지 슬라이드 같은 것들.

![크롬 브라우저가 웹페이지를 보여주는 과정](https://d2.naver.com/content/images/2015/06/helloworld-59361-3.png)

#### [Ex] 웹페이지의 HTML document를 요청해서 받아오기

In [None]:
import requests
url = 'https://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7'

# HTML를 구성하는 요소들

![HTML 컨테이너 요소의 일부](https://wikimedia.org/api/rest_v1/media/math/render/svg/9b19f2818482c6618c82e23b4e6a5a3a4d94c57d)

- HTML 컨테이너 요소의 일부 (source : [HTML 요소 by 위키피디아](https://ko.wikipedia.org/wiki/HTML_요소))

- tags = 'p'
    - HTML은 <p\> 시작태그와 </p\> 종료태그를 항상 포함함.
- attributes : { 'class' = 'foo' }
    - HTML 요소의 특성을 설정하는 구체적인 명령어들로 class 이외에 name, value 등이 자주 쓰임. 

# Selecting HTML elements with BeautifulSoup
- 간단한 웹페이지는 BeautifulSoup이라는 패키지를 통해 불러올 수 있음

In [None]:
from bs4 import BeautifulSoup

#### [EX] 웹 테이블 형태의 텍스트를 python 자료형으로 바꾸기
- "2009년 기준, 세계 10대 인터넷 다운로드 전송 속도"와 관련된 자료를 불러오세요

# Selecting HTML elements with Selenium + Chromedriver 


- 어떤 사이트의 경우, 어떤 조건(경우마다 다름)이 충족되어야지 볼 수 있는 웹사이트가 있음.
- 혹은 로그인 한다음,  특정 정보를 가져와야한다던가,  검색어를 통해 해야한다던가 하는 경우
- 이럴 때 쓸 수 있는 방법 중 하나가 셀레늄+크롬드라이버를 사용하는 것.

- 환경셋팅 
    -  로컬에서 작업시
        1. selenium 설치 : pip install selenium & 크롬 웹브라우저 설치
        2. [크롬환경설정](chrome://settings/help) 에서 본인 크롬 버젼 확인 
        3. [chromdriver 다운로드](http://chromedriver.chromium.org) 후, 다운한 파일을 현재 작업 중인 파일과 같은 폴더에 두기
        4.  selenium을 import
        5.  webdriver를 통해 웹브라우저 오픈
        ```
        driver = webdriver.Chrome('chromedriver')
        ```

    -  Colab에서 작업시
        1.  관련 package  설치

        ```
        !apt-get update
        !apt install chromium-chromedriver
        !pip install selenium
        ```

        2.  selenium을 import한 뒤에,  headless 설정

        ```
        from selenium import webdriver
        options = webdriver.ChromeOptions()
        options.add_argument('--headless')
        options.add_argument('--no-sandbox')
        options.add_argument('--disable-dev-shm-usage')
        ```

        3.  webdriver를 통해 웹브라우저 오픈
        ```
        driver = webdriver.Chrome('/usr/bin/chromedriver', options=options)
        ```



In [None]:
!apt-get update
!apt install chromium-chromedriver
!pip install selenium

In [None]:
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

In [None]:
driver = webdriver.Chrome('/usr/bin/chromedriver', options=options) 

- 코로나-19  중앙방역대책본부 브리핑 모아보기
- 정부브리핑 리스트: http://www.korea.kr/news/policyBriefingList.do
- 4월 8일 중앙방역대책본부 브리핑: http://www.korea.kr/news/policyBriefingView.do?newsId=156384579&pageIndex=1&srchType=&startDate=2008-02-29&endDate=2020-04-08&srchWord=

In [None]:
url = "http://www.korea.kr/news/policyBriefingView.do?newsId=156384579&pageIndex=1&srchType=&startDate=2008-02-29&endDate=2020-04-08&srchWord="
driver.get(url)

In [None]:
title = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/h1')
speaker = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[1]/span[1]')
date = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[1]/span[2]')
body = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[2]/div[1]')

In [None]:
title.text

'중앙방역대책본부 정례브리핑'

#### 자동으로 검색해서,  원하는 결과만 불러오기


In [None]:
url = "http://www.korea.kr/news/policyBriefingList.do"
driver.get(url)

In [None]:
input_ = driver.find_element_by_xpath('//*[@id="srchWord"]')
input_

<selenium.webdriver.remote.webelement.WebElement (session="47aa68b384fa8ebc6067273a1fce3cbd", element="b82dfe3e-ed53-4d4f-b6e1-07a133f95870")>

In [None]:
input_.send_keys('중앙방역대책본부')

In [None]:
btn = driver.find_element_by_xpath('//*[@id="mainForm"]/fieldset/div[2]/button')
btn

<selenium.webdriver.remote.webelement.WebElement (session="47aa68b384fa8ebc6067273a1fce3cbd", element="1457206f-ade0-43c0-bbb4-b8fdd366118c")>

In [None]:
btn.click()

In [None]:
pages_url = driver.find_elements_by_xpath('//*[@id="container"]/div/article/div[1]/table/tbody/tr/td[2]/a')
len(pages_url)

30

In [None]:
brief_url = []
for page in pages_url:
  brief_url.append(page.get_attribute('href'))

In [None]:
page_2 = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[2]/span[2]/a')
page_2.click()

In [None]:
pages_url = driver.find_elements_by_xpath('//*[@id="container"]/div/article/div[1]/table/tbody/tr/td[2]/a')
for page in pages_url:
  brief_url.append(page.get_attribute('href'))
len(brief_url)

60

In [None]:
page_3 = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[2]/span[3]/a')
page_3.click()

In [None]:
pages_url = driver.find_elements_by_xpath('//*[@id="container"]/div/article/div[1]/table/tbody/tr/td[2]/a')
for page in pages_url:
  brief_url.append(page.get_attribute('href'))
len(brief_url)

79

In [None]:
def ele_to_text(url):
  driver.get(url)

  title = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/h1')
  speaker = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[1]/span[1]')
  date = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[1]/span[2]')
  body = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[2]/div[1]')

  return{
      'title': title.text,
      'speaker': speaker.text,
      'date': date.text,
      'body': body.text
  }

In [None]:
from tqdm import tqdm

In [None]:
import time
from tqdm.notebook import tqdm

data = []

pbar = tqdm(range(len(brief_url)))

for url in brief_url:
  d = ele_to_text(url)
  data.append(d)
  time.sleep(3)
  pbar.update()
  
pbar.close()

HBox(children=(IntProgress(value=0, max=79), HTML(value='')))




In [None]:
import pandas as pd

df = pd.DataFrame(data)
df.to_csv('covid_19_brief.csv')

- 안정적인 크롤링을 위한 XPath 팁
    - 인덱스 형태 '//*[@id="cbox_module"]/div/div[2]/ul/li/div/div\[2]/div' 의 XPath 지양 : 웹페이지 디자인 변화(광고의 추가라던가)에 취약
    - 코드 가독성이 떨어짐 (저번주의 나는 무엇을 짠건가....,  나의 팀원은 무엇을  짠건가....)
    - xpath를 바꾸거나, `find_elements_by_class_name`, `find_elements_by_name` 등 가독성이 좀 더 나은 함수를 사용하자



```
- $x('/html/head/title') : 트리의 절대적인 위치대로 접근. 제일 상위에 있는 순서대로. html > head > title 
- $x('//h1') : 트리의 상대적인 위치대로 접근. h1이 위치하든 상관없고 태그가 h1이면됨.
- $x('//h2') : 이것도 h2 태그에 접근하는 방식
- $x('//h2/span') : 위치에 상관없이 h2에 접근한 위, 그 하위에 있는 span에 접근
- $x('//h2/span[@class="mw-headline"]') : 위치에 상관없이 h2에 접근한 뒤, 그 하위에 있는 span에 접근 + class 속성 이름이 "mw-headline"이어야 함.
- $x('//*[@class="mw-headline"]') : 위치에 상관없이 class 속성 이름이 "mw-headline"인 요소에 접근
- $x('//h2/span[@class="mw-headline"]/text()') : 위치에 상관없이 h2에 접근한 뒤, 그 하위에 있는 span에 접근 + class 속성 이름이 "mw-headline"인 요소의 텍스트 값에 접근
- $x('//h2/span[contains(@class, "headline")]'): 위치에 상관없이 h2에 접근한 뒤, 그 하위에 있는 span에 접근 + class 속성 이름에 "headline"을 포함하고 있는 요소에 접근
```



In [None]:
title = driver.find_element_by_xpath('//article/div[@class="article-head"]/h1')
speaker = driver.find_element_by_xpath('//article/div[@class="article-head"]/div[@class="info"]/span[1]')
date = driver.find_element_by_xpath('//article/div[@class="article-head"]/div[@class="info"]/span[2]')
body = driver.find_element_by_xpath('//article/div[@class="article-content"]/div[@class="view-cont"]')

In [None]:
speaker.text

'권준욱 중앙방역대책본부 부본부장'

---

# Twitter

In [None]:
! pip install twint

Collecting twint
  Downloading https://files.pythonhosted.org/packages/c5/d3/5a249973e0fdd5af1e505680e63ec1041ebba52a8b1dd12b758711c7201c/twint-2.1.19.tar.gz
Collecting aiohttp
[?25l  Downloading https://files.pythonhosted.org/packages/7c/39/7eb5f98d24904e0f6d3edb505d4aa60e3ef83c0a58d6fe18244a51757247/aiohttp-3.6.2-cp36-cp36m-manylinux1_x86_64.whl (1.2MB)
[K     |████████████████████████████████| 1.2MB 15.0MB/s 
[?25hCollecting aiodns
  Downloading https://files.pythonhosted.org/packages/da/01/8f2d49b441573fd2478833bdba91cf0b853b4c750a1fbb9e98de1b94bb22/aiodns-2.0.0-py2.py3-none-any.whl
Collecting cchardet
[?25l  Downloading https://files.pythonhosted.org/packages/1e/c5/7e1a0d7b4afd83d6f8de794fce82820ec4c5136c6d52e14000822681a842/cchardet-2.1.6-cp36-cp36m-manylinux2010_x86_64.whl (241kB)
[K     |████████████████████████████████| 245kB 52.5MB/s 
[?25hCollecting elasticsearch
[?25l  Downloading https://files.pythonhosted.org/packages/cc/cf/7973ac58090b960857da04add0b345415bf1e1741

##  검색어 기반으로 데이터 모으기

In [None]:
import twint

c = twint.Config()
c.Store_csv = True
c.Output = 'twitter.csv'
c.Search = '라라랜드'
c.Limit = 50

twint.run.Search(c)

1254385087514152963 2020-04-26 12:21:24 UTC <Ravithepink> 아니 저 발펄짝 저거 라라랜드에서 그 그거 아니냐
1254382816361504768 2020-04-26 12:12:23 UTC <jin_jin_0516> 라라랜드! 작은 아씨들! 벼랑위의 포뇨! 파퍼씨네 펭귄들! 마틸다! 나니아 연대기 정주행! 해리포터 정주행! 숲속으로!
1254380358604165126 2020-04-26 12:02:37 UTC <ebxrhdiddl> 저 티엠아인데 라라랜드 나온 라이언 고슬링이랑 생일 똑같아요
1254376215495864322 2020-04-26 11:46:09 UTC <hev_er> 라라랜드 첨으로 끝까지 제대로 보고 찔 짜는중  pic.twitter.com/xLZ5uvoub1
1254375274587676673 2020-04-26 11:42:25 UTC <eunyou_7> 노을이 지는 하늘이 아름다워  친구가 "인프피는 라라랜드속에 산다" 라고 얘기를 했다. 꺄 너무 좋잖아💃  pic.twitter.com/TBKlsskSrc
1254374691394867201 2020-04-26 11:40:06 UTC <maeillrecord> 라라랜드 그냥 소장용으로 살까봐 없으면 안돼 ...
1254374474880659457 2020-04-26 11:39:14 UTC <ceruleum_sch> 이걸로 해보고 에델이 이런 얼굴형이라도 ㄱㅊ읅 것 같으면 정착하고 아니면 라라랜드 이후 다시 돌아오려구요ㅋㅋㅋㅋㅋㅋㅋㅋ
1254373490150346752 2020-04-26 11:35:19 UTC <whitefish222> 라라랜드 존잼..... 근데 결말이... 😊😢 얘네들이 춤출때마다 자꾸 눈물 났는데 사실 예견된 결말에 대한 눈물이었던거 아닐까..  pic.twitter.com/SutiXMcbBj
1254372356690075648 2020-04-26 11:30:49 UTC <SH__all4u> 제 최애 영화 2개가 어바웃타임

##  특정유저의 follower, following 검색하기

In [None]:
c = twint.Config()
c.Store_csv = True
c.Output = 'twitter_follower.csv'
c.Username = 'ifcilling'
c.Limit = 30

twint.run.Followers(c)


mzcC39pTXIRYKaG
nalsumshop
namooo1216
playingkids_
Tenten_Miruku
ShinnSamuel
Rosa_in_youmu
kana509
Cyan_Sol_
noznoz1216
Lynne_DTOSFN
0_156_
mosimo_k_
sweet_ruby2019
MOKATE054
animalsfile
BeautifulArt14
Populars_Pups
egg9871
drrdishu
_POP_STEP_GET_U
xoclaiire
PrismGamingUK
cospre_on
_KOVAN_
GodOfMischief9
Wm5FYH0fgOcgiyT
I_am_Beru
do119119
118ddona0309
ekctu
Katou_photograp
lovelyddona
MarvelOfRogers
Lynne_cos
haji_co1
komomou
qamNIj0NsWV8gCf
D5KiPmiRKCO7sAg
ceylon_2413


In [None]:
c = twint.Config()
c.Store_object = True
c.Username = 'ifcilling'
c.Limit = 30

twint.run.Following(c)

namooo1216
seoul_dessert
kokuma28
arashi5official
Tenten_Miruku
hopegamewinner
miyari_s
osafune_club
busan_levels
My_S_ss_
kana509
Cyan_Sol_
noznoz1216
seseongintern
pls_painkiller
L_S_A_0521
mapadubu0505
Haim_105
_seontae
Hada_00
TT__TT_TT_TT
yolo3025
99S29
oT_Touki
Lynne_DTOSFN
post_sss
sesung_PR
0_156_
mosimo_k_
spi_bot_william
2BA_yuu
ryousei_tanaka
okamiya_kurumu
nakadahiroki
shogo_tamura
MOKATE054
nattu515
22cats_fanbot
gingastar1125
ORANGEJIN


In [None]:
followings = twint.output.follows_list

# Instagram
1. 로컬 컴퓨터에서 터미널(윈도우는 파워쉘)을 켜서 `pip install instalooter`
2. 설치 이후,  터미널에서 영상을 보면서 실습 진행

In [None]:
# ! pip install instalooter

##  특정 유저의 프로필 다운로드

-  아래 셀에는 터미널 명령어를 적어주세요

In [None]:
# instalooter user cdcgov ./ -n 10
# cdcgov라는 특정유저의 프로필에 있는 정보들을 10개 다운로드
# instalooter user cdcgov ./ -n 10 --dump-only
# 정보를 json형태로 받아옴

##  특정 해시태그로 검색한 결과 다운로드

-  아래 셀에는 터미널 명령어를 적어주세요


In [None]:
# instalooter hashtag "사회적거리두기" ./ -n 20
# 위와 비슷한 기능
# dump only하면 마찬가지로 json으로 받아올 수 있음