## 인터넷, 웹, 웹 브라우저

- **인터넷** : 원거리에 퍼져있는 컴퓨터 네트워크를 서로 연결시켜주는 네트워크 시스템
- **웹** : 인터넷을 기반으로 사람들이 정보를 검색할 수 있는 정보 공간
- **웹 브라우저** : 웹 문서를 사용자에게 편하게 보여주는 소프트웨어

## 우리가 웹사이트에 접속할 때, 일어나는 일

1. **URL**이 브라우저에 입력되면, URL (the domain name)이 적절한 웹서버를 찾아서, 웹서버에 **request**를 보냄.
2. 서버는 브라우저에 HTML 페이지(+a)를 보냄으로서 **response**함. 
3. 브라우저는 내부에서 응답받은 HTML을 이용해 DOM (Document Object Model)을 통해 렌더 **트리** (tree representation) 생성
4. 생성된 랜더트리는 브라우저를 통해 사용자에게 보여짐.

- \* HTML 외에도 java script (JS), CSS 등이 웹페이지를 보는데 사용됨. 
    - CSS는 HTML 요소들의 스타일을 정의하고
    - JS는 주로 웹페이지를 동적으로 기능하게 만들어줌. 예를 들어, 이미지 슬라이드 같은 것들.

![크롬 브라우저가 웹페이지를 보여주는 과정](https://d2.naver.com/content/images/2015/06/helloworld-59361-3.png)

#### [Ex] 웹페이지의 HTML document를 요청해서 받아오기

In [None]:
import requests

In [None]:
url = 'https://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7'

In [None]:
req = requests.get(url)

In [None]:
req.status_code

200

In [None]:
req.text 

'<!DOCTYPE html>\n<html class="client-nojs" lang="ko" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>인터넷 - 위키백과, 우리 모두의 백과사전</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ko","wgMonthNames":["","1월","2월","3월","4월","5월","6월","7월","8월","9월","10월","11월","12월"],"wgRequestId":"YE4PlIX7oYNlFxn6QHQ2qgAAAEA","wgCSPNonce":!1,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":0,"wgPageName":"인터넷","wgTitle":"인터넷","wgCurRevisionId":28930125,"wgRevisionId":28930125,"wgArticleId":93333,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["글로벌세계대백과를 인용한 문서","영어 표기를 포함한 문서","문화어 표기를 포함한 문서","모호한 표현이 구체적으로 지적된 문서","BNE 식별자를 포함한 위키백과 문서","BNF 식별자를 포함한 위키백과 문서","GND 식별자를 포함한 위키백과 문서",\n"HDS 식별자를 포함한 위키백과 문서","LCCN 식별자를 포함한 위키백과 문서","NARA 식별자를 포함한 위키백과 문서","NDL 식별자를 포함한 위키백과 문서","NLI 식별

# HTML를 구성하는 요소들

![HTML 컨테이너 요소의 일부](https://wikimedia.org/api/rest_v1/media/math/render/svg/9b19f2818482c6618c82e23b4e6a5a3a4d94c57d)

- HTML 컨테이너 요소의 일부 (source : [HTML 요소 by 위키피디아](https://ko.wikipedia.org/wiki/HTML_요소))

- tags = 'p'
    - HTML은 <p\> 시작태그와 </p\> 종료태그를 항상 포함함.
- attributes : { 'class' = 'foo' }
    - HTML 요소의 특성을 설정하는 구체적인 명령어들로 class 이외에 name, value 등이 자주 쓰임. 

# Selecting HTML elements with BeautifulSoup
- 간단한 웹페이지는 BeautifulSoup이라는 패키지를 통해 불러올 수 있음

In [None]:
from bs4 import BeautifulSoup

#### [EX] 웹 테이블 형태의 텍스트를 python 자료형으로 바꾸기
- "2009년 기준, 세계 10대 인터넷 다운로드 전송 속도"와 관련된 자료를 불러오세요

In [None]:
soup = BeautifulSoup(req.text, 'lxml')

In [None]:
table = soup.find_all('table', class_='wikitable')[0]

In [None]:
data = []

for ele in table.find_all('td'):
    data.append(ele.text)

data = {c: s for c, s in zip(data[::2], data[1::2])}
data

{' 네덜란드\n': '11.65\n',
 ' 대한민국\n': '20.97\n',
 ' 라트비아\n': '12.75\n',
 ' 루마니아\n': '12.46\n',
 ' 리투아니아\n': '13.12\n',
 ' 몰도바\n': '9.59\n',
 ' 벨기에\n': '11.71\n',
 ' 스웨덴\n': '12.99\n',
 ' 올란드 제도\n': '14.96\n',
 ' 일본\n': '15.78\n'}

# Selecting HTML elements with Selenium + Chromedriver 

## Selenium + Chromedriver 
- 어떤 사이트의 경우, 어떤 조건(경우마다 다름)이 충족되어야지 볼 수 있는 웹사이트가 있음.
- 혹은 로그인 한다음,  특정 정보를 가져와야한다던가,  검색어를 통해 해야한다던가 하는 경우
- 이럴 때 쓸 수 있는 방법 중 하나가 셀레늄+크롬드라이버를 사용하는 것.

- 환경셋팅 
    -  로컬에서 작업시
        1. selenium 설치 : pip install selenium & 크롬 웹브라우저 설치
        2. [크롬환경설정](chrome://settings/help) 에서 본인 크롬 버젼 확인 
        3. [chromdriver 다운로드](http://chromedriver.chromium.org) 후, 다운한 파일을 현재 작업 중인 파일과 같은 폴더에 두기
        4.  selenium을 import
        5.  webdriver를 통해 웹브라우저 오픈
        ```
        driver = webdriver.Chrome('chromedriver')
        ```

    -  Colab에서 작업시
        1.  관련 package  설치

        ```
        !apt-get update
        !apt install chromium-chromedriver
        !pip install selenium
        ```

        2.  selenium을 import한 뒤에,  headless 설정

        ```
        from selenium import webdriver
        options = webdriver.ChromeOptions()
        options.add_argument('--headless')
        options.add_argument('--no-sandbox')
        options.add_argument('--disable-dev-shm-usage')
        ```

        3.  webdriver를 통해 웹브라우저 오픈
        ```
        driver = webdriver.Chrome('/usr/bin/chromedriver', options=options)
        ```



In [1]:
!apt-get update
!apt install chromium-chromedriver
!pip install selenium

0% [Working]            Get:1 http://security.ubuntu.com/ubuntu bionic-security InRelease [88.7 kB]
0% [Waiting for headers] [1 InRelease 14.2 kB/88.7 kB 16%] [Connected to cloud.                                                                               Get:2 http://ppa.launchpad.net/c2d4u.team/c2d4u4.0+/ubuntu bionic InRelease [15.9 kB]
0% [Waiting for headers] [1 InRelease 14.2 kB/88.7 kB 16%] [Connected to cloud.                                                                               Hit:3 http://archive.ubuntu.com/ubuntu bionic InRelease
0% [Waiting for headers] [1 InRelease 88.7 kB/88.7 kB 100%] [Connected to cloud                                                                               Get:4 http://archive.ubuntu.com/ubuntu bionic-updates InRelease [88.7 kB]
                                                                               Get:5 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ InRelease [3,626 B]
                              

In [2]:
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

In [3]:
driver = webdriver.Chrome('/usr/bin/chromedriver', options=options)

- 코로나-19  중앙방역대책본부 브리핑 모아보기
- 정부브리핑 리스트: https://www.korea.kr/news/policyBriefingList.do
- 2021년 3월 14일 중앙방역대책본부 브리핑: https://www.korea.kr/news/policyBriefingView.do?newsId=156441084&pageIndex=1&srchType=&startDate=2008-02-29&endDate=2021-03-14&srchWord=

** 실습 영상은 2020년 4월 8일 기준이지만, 현재 날짜에 맞춰 다시 실습해보세요. 결과물도 함께 첨부하였습니다.

In [4]:
url = "https://www.korea.kr/news/policyBriefingView.do?newsId=156441084&pageIndex=1&srchType=&startDate=2008-02-29&endDate=2021-03-14&srchWord="
driver.get(url)

In [5]:
title = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/h1')
speaker = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[1]/span[1]')
date = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[1]/span[2]')
body = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[2]/div[1]')

In [None]:
print(speaker.text, date.text, title.text)

손영래 중앙사고수습본부 사회전략반장 2021.03.14 코로나19 중앙재난안전대책본부 정례브리핑


In [None]:
body.text

'<사회자>\n안녕하십니까? 보건복지부 홍보기획담당관입니다.\n\n지금부터 코로나바이러스감염증-19 중앙재난안전대책본부 비대면 정례브리핑을 시작하겠습니다.\n\n오늘 브리핑은 손영래 보건복지부 중앙사고수습본부 사회전략반장이 진행합니다. 고은미 통역사의 수어 통역이 제공됩니다.\n\n먼저, 손영래 사회전략반장이 코로나19 대응방안 등을 설명하겠습니다.\n\n\n<손영래 중앙사고수습본부 사회전략반장>\n3월 14일 일요일 정례브리핑을 시작하겠습니다.\n\n오늘 0시 기준으로 국내 발생 환자는 436명이며, 해외유입 환자는 23명입니다.\n\n어제 2분의 환자가 사망하셨습니다. 삼가 고인의 명복을 빌고 유가족분들에게도 심심한 조의의 말씀을 표합니다.\n\n3월 7일부터 3월 13일까지 1주간의 환자 발생과 유행 상황에 대해 설명드리겠습니다.\n\n지난 1주일간 하루 평균 국내 환자 수는 428명입니다. 이는 직전 1주간의 환자 수였던 372명보다 약 15% 증가한 수치입니다. 300명대 후반을 유지하던 그전 2주간에 비해 지난주는 유행이 확산되는 경향이 나타나고 있습니다.\n\n전국 감염재생산지수는 지난주 1.07로 그 전주의 0.94에 비해 상승하여 1 이상을 나타내고 있습니다.\n\n지역적으로 수도권의 환자 발생이 여전히 많은 가운데 비수도권의 환자 증가도 함께 나타나고 있습니다.\n\n수도권은 지난주 하루 평균 314명의 환자가 발생하였고, 이는 전체 환자의 약 73%에 해당합니다. 비수도권은 하루 발생 환자 수가 114명으로 직전 주의 77명보다 크게 증가하였습니다.\n\n특히, 부산·경남권의 환자 수가 2배가량 증가하였고 이는 울산과 진주에서 발생한 사우나 집단감염과 부산의 항운노조, 어시장 등의 집단감염의 영향으로 보입니다.\n\n감염 양상을 조금 더 살펴보면 방역관리가 취약한 다양한 일상 속에서 지속적으로 유행이 나타나고 있습니다.\n\n외국인 근로자가 많고 밀집·밀폐된 중소 제조업과 항운노조, 콜센터 등의 고위험 사업장의 감염이 다수 발생하고 있습니다

#### 자동으로 검색해서,  원하는 결과만 불러오기


In [6]:
url = 'https://www.korea.kr/news/policyBriefingList.do'
driver.get(url)

In [7]:
input_ = driver.find_element_by_xpath('//*[@id="srchWord"]')
input_

<selenium.webdriver.remote.webelement.WebElement (session="448881b9f9690fe5513fa4c9068b23b6", element="414bb6a2-43ed-475a-90c3-fc39f7b076dd")>

In [None]:
# 검색 키워드
input_.send_keys('중앙방역대책본부')

In [None]:
# 검색 버튼
btn = driver.find_element_by_xpath('//*[@id="mainForm"]/fieldset/div[2]/button')
btn

<selenium.webdriver.remote.webelement.WebElement (session="485ee456e3fe5e40337825008b76ccb4", element="009df4e2-1c60-4c43-a96e-e455ee2b1e58")>

In [None]:
btn.click()

In [12]:
pages_url = driver.find_elements_by_xpath('//*[@id="container"]/div/article/div[1]/table/tbody/tr[1]/td[2]/a') #tr[1]
print(len(pages_url), pages_url[0].get_attribute('href'))

1 https://www.korea.kr/news/policyBriefingView.do?newsId=156441940


In [11]:
pages_url = driver.find_elements_by_xpath('//*[@id="container"]/div/article/div[1]/table/tbody/tr/td[2]/a') #tr 전체 
print(len(pages_url))

30


In [None]:
# url 한개씩 가져오기
brief_url = []
for page in pages_url:
    brief_url.append(page.get_attribute('href'))
print(len(brief_url), brief_url[0])

30 https://www.korea.kr/news/policyBriefingView.do?newsId=156441439


In [None]:
# 2 페이지
page_2 = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[2]/span[2]/a')
page_2.click()

In [None]:
pages_url = driver.find_elements_by_xpath('//*[@id="container"]/div/article/div[1]/table/tbody/tr/td[2]/a') #tr 전체 
print(len(pages_url))

30


In [None]:
for page in pages_url:
    brief_url.append(page.get_attribute('href'))
print(len(brief_url))

60


In [None]:
# 3 페이지
page_3 = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[2]/span[3]/a')
page_3.click()

In [None]:
pages_url = driver.find_elements_by_xpath('//*[@id="container"]/div/article/div[1]/table/tbody/tr/td[2]/a') #tr 전체 
for page in pages_url:
    brief_url.append(page.get_attribute('href'))
print(len(brief_url))

90


In [None]:
# Text 가져오는 함수
def ele_to_text(url):
    driver.get(url)
    
    title = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/h1')
    speaker = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[1]/span[1]')
    date = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[1]/div[1]/span[2]')
    body = driver.find_element_by_xpath('//*[@id="container"]/div/article/div[2]/div[1]')
    
    return { 
        'title': title.text,
        'date': date.text,
        'body': body.text,
        'speaker': speaker.text
    }

In [None]:
# url text 가져오기
from tqdm import tqdm
import time

brief_data = []
for url in tqdm(brief_url):
    if url is not None: 
        #driver.get(url)
        data = ele_to_text(url)
        brief_data.append(data)
        time.sleep(3)

100%|██████████| 90/90 [10:28<00:00,  6.98s/it]


In [None]:
len(brief_data)

90

In [None]:
import pandas as pd
df = pd.DataFrame(brief_data)
df.to_csv('covid-19-brief.csv')

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90 entries, 0 to 89
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   title    90 non-null     object
 1   date     90 non-null     object
 2   body     90 non-null     object
 3   speaker  90 non-null     object
dtypes: object(4)
memory usage: 2.9+ KB


In [None]:
df.head()

Unnamed: 0,title,date,body,speaker
0,중앙방역대책본부 정례브리핑,2020.04.02,"4월 2일 코로나19 국내 발생현황을 말씀드리겠습니다.\n\n총 누적확진자수는 9,...",권준욱 중앙방역대책본부 부본부장
1,중앙방역대책본부 정례브리핑,2020.04.25,4월 25일 코로나바이러스감염증-19 국내 발생현황을 말씀드리겠습니다.\n\n총 누...,권준욱 중앙방역대책본부 부본부장
2,중앙방역대책본부 정례브리핑,2020.05.03,코로나바이러스감염증-19 국내 발생현황을 말씀드리겠습니다.\n\n5월 3일 현재 총...,정은경 중앙방역대책본부장
3,중앙방역대책본부 정례브리핑,2020.03.27,코로나바이러스감염증-19 국내 발생현황에 대해서 말씀드리겠습니다.\n\n3월 27일...,정은경 중앙방역대책본부장
4,중앙방역대책본부 정례브리핑(코로나19 관련),2020.05.20,코로나바이러스감염증-19 국내 발생현황을 말씀드리겠습니다.\n\n5월 20일 현재 ...,정은경 중앙방역대책본부장


In [None]:
import json
json.dump(brief_data, open('covid-ko-brief.json', 'w', encoding='utf8'))

- 안정적인 크롤링을 위한 XPath 팁
    - 인덱스 형태 '//*[@id="cbox_module"]/div/div[2]/ul/li/div/div\[2]/div' 의 XPath 지양 : 웹페이지 디자인 변화(광고의 추가라던가)에 취약
    - 코드 가독성이 떨어짐 (저번주의 나는 무엇을 짠건가....,  나의 팀원은 무엇을  짠건가....)
    - xpath를 바꾸거나, `find_elements_by_class_name`, `find_elements_by_name` 등 가독성이 좀 더 나은 함수를 사용하자

```
input_ = driver.find_element_by_name('srchWord')
btn = driver.find_element_by_class_name('btn-search')
```





```
- $x('/html/head/title') : 트리의 절대적인 위치대로 접근. 제일 상위에 있는 순서대로. html > head > title 
- $x('//h1') : 트리의 상대적인 위치대로 접근. h1이 위치하든 상관없고 태그가 h1이면됨.
- $x('//h2') : 이것도 h2 태그에 접근하는 방식
- $x('//h2/span') : 위치에 상관없이 h2에 접근한 위, 그 하위에 있는 span에 접근
- $x('//h2/span[@class="mw-headline"]') : 위치에 상관없이 h2에 접근한 뒤, 그 하위에 있는 span에 접근 + class 속성 이름이 "mw-headline"이어야 함.
- $x('//*[@class="mw-headline"]') : 위치에 상관없이 class 속성 이름이 "mw-headline"인 요소에 접근
- $x('//h2/span[@class="mw-headline"]/text()') : 위치에 상관없이 h2에 접근한 뒤, 그 하위에 있는 span에 접근 + class 속성 이름이 "mw-headline"인 요소의 텍스트 값에 접근
- $x('//h2/span[contains(@class, "headline")]'): 위치에 상관없이 h2에 접근한 뒤, 그 하위에 있는 span에 접근 + class 속성 이름에 "headline"을 포함하고 있는 요소에 접근
```



# Twitter

In [None]:
! pip install twint

##  검색어 기반으로 데이터 모으기

In [None]:
import twint

c = twint.Config()
c.Store_csv = True
c.Output = 'twitter.csv'
c.Search = '사회적 거리두기'
c.Limit = 50

twint.run.Search(c)

##  특정유저의 follower, following 검색하기

In [None]:
! pip install twint

In [None]:
c = twint.Config()
c.Store_csv = True # 결과를 csv로 저장
c.Output = 'twitter_follower.csv'
c.Username = ''  #  write user name
c.Limit = 30

twint.run.Followers(c)

CRITICAL:root:twint.feed:Follow:IndexError
CRITICAL:root:twint.feed:Follow:IndexError


Amy_shooj
Lara_v0
R12273056


In [None]:
c = twint.Config()
c.Store_object = True  #  결과를 python object로 저장
c.Username = ''  #  write user name
c.Limit = 30

twint.run.Following(c)
followings = twint.output.follows_list

CRITICAL:root:twint.feed:Follow:IndexError


# Instagram

In [None]:
! pip install instalooter

##  특정 유저의 프로필 다운로드

In [None]:
! instalooter user instagram

##  특정 해시태그로 검색한 결과 다운로드

In [None]:
! instalooter hashtag python /tmp -n 20