🏷️ **웹 동작원리**


---
<img src ='https://drive.google.com/uc?export=view&id=1amZ78fUnfp3o5Q1XVKDG3eAAzKaYlPrp'>

---

# Beautiful Soup 모듈
+ HTML 및 XML 문서 를 구문 분석하기 위한 Python 패키지
+ DOM 추출
+ 기본적으로 UTF-8 인코딩 방식이지만 CP949도 지원

🏷️ **웹 스크래핑(Web Scraping)과 웹 크롤링(Web Crawling)**


---
+ 웹 스크래핑(Web Scraping) : 웹 사이트 상에서 원하는 정보를 추출하는 기술
+ 웹 크롤링(Web Crawling) : 웹 크롤러(자동화봇)가정해진 규칙에 따라 웹 페이지를 수집해서 각 사이트의 정보를 분류하는 기술




---




## BeautifulSoup 모듈을 활용한 스크래핑

### 1. 웹 페이지 가져오기

In [None]:
#모듈 import 
from urllib.request import urlopen

url = 'https://news.daum.net/ranking/popular'

#웹 페이지 가져오기 
webpage = urlopen(url).read().decode('utf-8')
webpage[:200]

'\n<!DOCTYPE html>\n\n\n\n<html lang="ko" class="os_unknown none unknown version_0 ">\n<head>\n<meta charset="utf-8">\n<meta name="referrer" content="always" />\n\n<meta property="og:author" content="Daum 뉴스" />'

### 2. BeautifulSoup 객체 생성

```python
from bs4 import BeautifulSoup as bs

인스턴스명 = BeautifulSoup(markup, parser)
```
* 첫 번째 인자 : HTML 형식의 문자열
* 두 번째 인자 : 첫 번째 인자의 문자열을 해석하기 위한 파서

  * **파서(parser) 종류**
    + html.parser : 파이썬 표준 라이브러리에 포함된 파서로 빠르지만 유연하지 않기 때문에 단순한 HTML문서에 사용

        ```
        BeautifulSoup(markup, "html.parser")
        ```

    + lxml : 매우 빠르고 유연하지만 외부 의존
      - lxml의 HTML 파서
          ```
          BeautifulSoup(markup, "lxml")
          ```
      - lxml의 XML 파서
          ```
          BeautifulSoup(markup, "lxml-xml")
          ```

    + html5lib : 웹 브라우저와 동일한 방식으로 페이지 구문 분석하는 파서로 매우 느리지만 매우 유연하지만 외부 의존
        ```
        BeautifulSoup(markup, "html5lib")
      ```

In [None]:
#모듈 import 
from bs4 import BeautifulSoup as bs

#DOM 문서 만들기
html =bs(webpage, 'html.parser')

In [None]:
type(html)

bs4.BeautifulSoup

### 2. **Beautiful Soup 파싱 메소드**
+ 태그명
  + **.find(태그명)** : 조건에 맞는 태그 1개만 찾음
  + **.find_all(태그명)** : 조건에 맞는 모든 태그 찾음
+ css선택자
  + **.select_one(선택자)** : 조건에 맞는 CSS선택자 1개만 찾음
  + **.select(선택자)** : 조건에 맞는 CSS선택자 찾음

🏷️ **HTML과 CSS**


---



+ **HTML(Hyper Text Markup Language)**
  + 웹페이지 상에서 문단, 제목, 표, 이미지, 동영상 등을 정의하고 웹페이지 내용을 구조화하고 의미를 부여하는 마크업 언어
+ **CSS(Cascading Style Sheet)**
  + 색상, 레이아웃 및 글꼴등 웹페이지의 디자인 요소를 담당하는 선언형 언어로 스타일 시트(Style Sheet)라고도 하고, HTML로 작성된 웹페이지를 보기 좋게 꾸며주는 스타일 규칙 언어

+ 참고 사이트 : <https://www.w3schools.com/>


---



#mArticle > div.rank_news > ul.list_news2 > li



In [None]:
#자료 추출하기
lis = html.select('#mArticle > div.rank_news > ul.list_news2 > li')
print(type(lis), ' 요소 수 : ', len(lis))
print(lis[0])

<class 'list'>  요소 수 :  50
<li data-tiara-layer="news_list" data-tiara-ordnum="1" data-tiara-type="article">
<div class="rank_num rank_popular">
<span class="wrap_num">
<span class="num_rank">
<span class="num_news num1"></span>
<span class="screen_out">1</span>
</span>
</span>
</div>
<a class="link_thumb" href="https://v.daum.net/v/20210713152402855">
<img alt="은마아파트 수천만원 인테리어하고 들어간 집주인 '부글부글'" aria-hidden="true" class="thumb_g" src="https://img1.daumcdn.net/thumb/S95x77ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F202107%2F13%2Fked%2F20210713192002743qzli.jpg&amp;scode=media"/>
</a>
<div class="cont_thumb">
<strong class="tit_thumb">
<a class="link_txt" href="https://v.daum.net/v/20210713152402855">은마아파트 수천만원 인테리어하고 들어간 집주인 '부글부글'</a>
<span class="info_news">한국경제</span>
</strong>
<div class="desc_thumb">
<span class="link_txt">
                        "국민들 O개 훈련시키나요", "정책이 애들 장난입니까?", "쫓겨난 세입자, 수천만원 인테리어하고 들어간 집주인도 있습니다. 피해자가 한두명이 아닌데, 소송 갔으면 ...
                    </span>
</div

In [None]:
#필요한 자료 만들기
for li in lis :
  title = li.select_one('.cont_thumb > .tit_thumb > a').text.replace('"', '')
  info_news = li.select_one('.cont_thumb > .tit_thumb > .info_news').text
  print(title, ':', info_news)

은마아파트 수천만원 인테리어하고 들어간 집주인 '부글부글' : 한국경제
[단독] 가구업체 1위 한샘, 매물로 나왔다 : 한국경제
성매매업소 방이 43개, 처음 현장 보니 가슴 먹먹 : 오마이뉴스
정은경, 방역 실패 사과.. 오세훈 상생방역 4차 원인 아냐, 3분기 3600만명 접종 믿어달라 : 조선비즈
식사 후 하면 건강에 '독' 되는 행동 : 코메디닷컴
지지율 꺾이나?..기세등등하던 尹 캠프 '초비상' : 연합뉴스
사장 221만원, 알바 263만원..편의점 접고 알바하렵니다 : 중앙일보
친구 언니가 무서웠다..전북에서 찾은 대전 실종 초등생 : 서울신문
의령서 경비행기 이륙 1분만에 추락..2명 사망(종합) : 뉴스1
55억 '남산 뷰' 이태원집 매입한 박나래..5년간 200억 넘게 벌었다 : 뉴스1
윤석열의 '가족 리스크'..김건희, 이번엔 '공소시효 언급' 자충수 : 시사저널
남아공 폭동에 LG공장 전소·약탈..길도 다닐 수 없는 지경 : 중앙일보
최저임금 9160원에 노동계 '부글부글'..민주노총은 '총파업' 예고(종합) : 뉴시스
집주인 허락없이 페인트 칠한 세입자의 만행..손배 가능할까 : 동아일보
지상욱, 윤호중 '탱자 이준석' 발언에 말조심하라 : 연합뉴스
김의겸 김건희 논문, 본인 재직한 회사 사업계획서 베낀 것 : 연합뉴스
숙소까지 어떻게 왔는지 모르겠다..성산일출봉 점령한 들개 : 서울신문
대장암 위험 높이는 '의외의 습관' 3가지 : 헬스조선
[영상]철학 붕괴 윤희숙 연일 이준석 비판..하태경 자해정치[이슈시개] : 노컷뉴스
양어장을 탈출한 송어는 뇌가 커진다 : 한겨레
與, 박형준 '허위사실 공표' 檢 고발.. 朴 전형적 정치공작 : 아이뉴스24
與, 전국민 지원금으로 간다..25만→20만원은 추후 결정 : 한국경제
김제동에 7억 퍼주고 수신료 인상? KBS '맹공'하는 국힘 : 중앙일보
구미 친모 낳지도, 바꾸지도 않았다..검찰 징역 13년 구형 : 중앙일보
주문 6분 만에 띵동..초유의 쿠팡마트에 편의점 '발칵' : 한국경제
UFO구

## 해결문제
---
댓글많은 뉴스를 사이트의 제목을 수집해서 AI Cloud의 무료 AI 서비스 중 텍스트 감정 분석 결과를 분석하고 결과를 파일로 저장하시오.단, 감성분석 분석(긍정,중립,부정)은 함수를 이용하여 작성하고 댓글수와 제목의 쉼표는 제거하시오.

예시) 
news.csv 내용
```
순위,제목,댓글수,언론사,감성,신뢰도
1,故손정민 父 "서울경찰청 정민이와 나를 미워한다",2564,데일리안,부정,0.9970703125
2,신고만하면 한국인? "中에 나라 파냐" 국적법 때린 반중정서,2274,중앙일보,부정,0.99755859375
3,'잔여 백신' 첫날 젊은층 대거 몰렸다..AZ 부정적 시선 바뀌나,1726,파이낸셜뉴스,부정,0.98974609375
4,'도쿄올림픽 지도서 독도 삭제' 요구에 日정부 "수용 불가",1543,연합뉴스,부정,0.9873046875

...

47,"손정민 사건 제가 책임지고"..경찰 '김창룡 청장 가짜뉴스' 내사,115,뉴스1,부정,0.9921875
48,로또 1등 수령자에 통장 비번 요구·5억 적금 강매한 농협,105,뉴스1,부정,0.99072265625
49,'도쿄올림픽 지도서 독도 삭제' 韓요구에 日정부 "수용 불가",97,중앙일보,부정,0.986328125
50,올림픽 취소로 日 배상금 떠안나..日언론 "IOC와 불평등 계약",93,뉴스1,부정,0.99609375

```

https://news.daum.net/ranking/bestreply

In [2]:
from urllib.request import urlopen
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup as bs
import json

In [3]:
def getPage(url) :
  webpage = urlopen(url).read().decode('utf-8')
  return webpage

In [4]:
def AICloud(msg) :
  url = "http://svc.saltlux.ai:31781"
  headers={"Content-Type": "application/json"}

  apIKey = "b11ea326-1ce6-4242-ae33-93d35dc8520b"
  rqData = {
     "key": apIKey,
      "serviceId": "11987300804",
      "argument": {
         "type": "0",
         "query": msg
      }
  }

  # 요청 객체 생성
  req = Request(url, headers=headers)

  # 전달 데이터 json 형태로 만들기
  jdata = json.dumps(rqData).encode('utf-8')

  # 요청
  response = urlopen(req, jdata)

  # 요청에 대한 응답처리
  resp = response.read().decode('utf-8')
  resp = json.loads(resp)
  label = resp['label']
  score = resp['score']

  # 응답처리 반환
  return label, score

In [None]:
AICloud('나는 네가 좋다.')

('긍정', 0.9833984375)

In [5]:
url = 'https://news.daum.net/ranking/bestreply'

wp = getPage(url)
wp

'\n<!DOCTYPE html>\n\n\n\n<html lang="ko" class="os_unknown none unknown version_0 ">\n<head>\n<meta charset="utf-8">\n<meta name="referrer" content="always" />\n\n<meta property="og:author" content="Daum 뉴스" />\n<meta property="og:site_name" content="다음뉴스" />\n<meta property="og:title" content="뉴스 랭킹"/>\n<meta property="og:image" content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" />\n<meta property="og:description" content="다음뉴스" />\n<meta property="og:url" content="https://news.daum.net/ranking/bestreply" />\n<link rel="shortcut icon" href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico">\n\n<title>뉴스 랭킹 | 다음뉴스</title>\n\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n\n<link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/media/kraken/news/7031c97/common.css.merged.css" />\n<link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/media/kraken/news/7031c97/news.css.merged.css" />\n<link rel="stylesheet" type="text/css" href="//t1.daum

In [6]:
html = bs(wp, 'html.parser')

#mArticle > div.rank_news > ul.list_news2

In [7]:
lis = html.select('#mArticle > div.rank_news > ul.list_news2 > li')
lis[0]

<li data-tiara-layer="news_list" data-tiara-ordnum="1" data-tiara-type="article">
<div class="rank_num ">
<span class="wrap_num">
<span class="num_rank">
<span class="num_news num1"></span>
<span class="screen_out">1</span>
</span>
</span>
<span class="info_rank">
<span class="screen_out">댓글수</span>
<span class="ico_news2">5,737</span>
</span>
</div>
<a class="link_thumb" href="https://news.v.daum.net/v/20210713191444564">
<img alt="'이동훈 폭로' 대선판 강타하나..이준석 &quot;즉각 진상규명 착수&quot;" aria-hidden="true" class="thumb_g" src="https://img1.daumcdn.net/thumb/S95x77ht.u/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fnews%2F202107%2F13%2Fmoneytoday%2F20210713191447440kozh.jpg&amp;scode=media"/>
</a>
<div class="cont_thumb">
<strong class="tit_thumb">
<a class="link_txt" href="https://news.v.daum.net/v/20210713191444564">'이동훈 폭로' 대선판 강타하나..이준석 "즉각 진상규명 착수"</a>
<span class="info_news">머니투데이</span>
</strong>
<div class="desc_thumb">
<span class="link_txt">
                        '가짜 수산업자'로부터 금품수수 의혹을 받고 있는 이

In [8]:
lis[0].select_one('.screen_out').text

'1'

In [9]:
lis[0].select_one('.ico_news2').text.replace(',', '')

'5737'

In [13]:
lis[0].select_one('.tit_thumb > a').text

'\'이동훈 폭로\' 대선판 강타하나..이준석 "즉각 진상규명 착수"'

In [14]:
lis[0].select_one('.info_news').text

'머니투데이'

In [15]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [31]:
with open('/content/drive/MyDrive/2021_PNUAC_AIData/Data/news.csv', 'w') as fp :
  linehead = '순위,제목,댓글수,언론사,감성,신뢰도\n'
  fp.write(linehead)
  for li in lis :
    rank = li.select_one('.screen_out').text
    title = li.select_one('.tit_thumb > a').text.replace('"','').replace(',','/')
    cnt = li.select_one('.ico_news2').text.replace(',','')
    news = li.select_one('.info_news').text

    aicloud = AICloud(title)
    #aicloud = ('부정', '0.9')
    line = f'{rank},{title},{cnt},{news},{aicloud[0]},{aicloud[1]}\n'

    print(line)
    fp.write(line)

1,'이동훈 폭로' 대선판 강타하나..이준석 즉각 진상규명 착수,5737,머니투데이,부정,0.99072265625

2,[쿠키뉴스 여론조사] 윤석열/ 양자대결서 이재명에 '첫 패배'.. 尹 36.0% vs 李 43.9% ,2963,쿠키뉴스,부정,0.95751953125

3,트럼프/ 대선 당시 '재선하면 한미동맹 날려버릴 것' 언급,2524,연합뉴스,부정,0.9921875

4,이동훈 與/ 윤석열 치려고 공작,2162,서울신문,부정,0.97119140625

5,[인터뷰]추미애 이낙연/ 당대표 0점..권리당원 떠나고 지지율 폭락,1964,뉴시스,부정,0.9970703125

6,조국/ SNS에 '턱걸이' 인증 후 삭제..김근식 정상이 아닌 관종,1524,머니투데이,부정,0.99755859375

7,남학생은 목 조르고 여학생이 주물럭..일산 학폭 일파만파,1317,머니투데이,부정,0.99658203125

8,결혼식 49명/ 콘서트 5000명..장난하냐 분노한 예비신부들,1039,중앙일보,부정,0.99560546875

9,재난지원금 격돌..전국민 20만원씩 Vs 1000조 나랏빚,974,이데일리,부정,0.98779296875

10,은마아파트 지하 2300톤 쓰레기/ 진짜 충격인 건,934,오마이뉴스,부정,0.99560546875

11,김윤 코로나는 이미 독감 됐다..방역체계 바꿔야[한판승부],910,노컷뉴스,부정,0.9775390625

12,[쿠키뉴스 여론조사] '힘 빠진' 윤석열/ 범야권 內 지지율 30%선 붕괴,884,쿠키뉴스,부정,0.9892578125

13,이재명 이낙연/ 본인부터 돌아보라..공세로 기조 전환,870,YTN,부정,0.97216796875

14,'원정 유흥' 다니는 2030..오늘 비수도권도 거리두기 격상하나,748,머니투데이,부정,0.9091796875

15,[쿠키뉴스 여론조사] 민주당/ 한달만에 국민의힘 '재역전'.. 文대통령도 '동반 상승',713,쿠키뉴스,부정,0.80712890625

16,20대는 왜 이렇게 중국을 



---


※ 카카오톡 메신저 내용 분석해보기


---

