<a href="https://colab.research.google.com/github/Scholarstar/2021_PNUAC_AIData/blob/main/%EC%8A%A4%ED%81%AC%EB%9E%98%ED%94%BC_%ED%8C%80%EA%B3%BC%EC%A0%9C.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

🏷️ **웹 동작원리**


---
<img src ='https://drive.google.com/uc?export=view&id=1amZ78fUnfp3o5Q1XVKDG3eAAzKaYlPrp'>

---

# Beautiful Soup 모듈
+ HTML 및 XML 문서 를 구문 분석하기 위한 Python 패키지
+ DOM 추출
+ 기본적으로 UTF-8 인코딩 방식이지만 CP949도 지원

🏷️ **웹 스크래핑(Web Scraping)과 웹 크롤링(Web Crawling)**


---
+ 웹 스크래핑(Web Scraping) : 웹 사이트 상에서 원하는 정보를 추출하는 기술
+ 웹 크롤링(Web Crawling) : 웹 크롤러(자동화봇)가정해진 규칙에 따라 웹 페이지를 수집해서 각 사이트의 정보를 분류하는 기술




---




## BeautifulSoup 모듈을 활용한 스크래핑

팀 번호 : 13팀

주제 : html을 이용한 요일별 웹툰 제목과 이미지 정리

주제 선정 이유 : 팀 프로젝트 주제를 정하기 위해서 회의를 하던 도중 팀원들의 공통 관심사가 웹툰인 것을 알았고,  관심있는 주제로 작품을 만들었을 때 더 좋은 작품을 제작할 수 있다고 생각했습니다. 또한  웹툰을 스크래핑할 때 기술적으로도 프로젝트의 확장이 쉽다고 판단하여 (ex 요일별 스크래핑, 웹툰 순위 등) 웹툰이라는 주제를 최종적으로 선정했습니다.

수집한 자료에 대한 설명 : 네이버 웹툰 페이지에서 각 웹툰에 대한 정보를 불러와 요일별로 나누고, 순위를 메겨 JPG링크와 함께 csv파일에 저장하였습니다.

### 1. 웹 페이지 가져오기

In [None]:
#모듈 import 
from urllib.request import urlopen

url = 'https://comic.naver.com/webtoon/weekday'
#웹 페이지 가져오기 

webpage = urlopen(url).read().decode('utf-8')
webpage[:200]

'\r\n\r\n\r\n  \r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n\t\r\n\t\t\r\n\t\t\r\n\t\t\r\n\t\t\r\n\t\t<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\r\n\t\t\r\n\t<meta http-equiv="Content-type" content="te'

### 2. BeautifulSoup 객체 생성

```python
from bs4 import BeautifulSoup as bs

인스턴스명 = BeautifulSoup(markup, parser)
```
* 첫 번째 인자 : HTML 형식의 문자열
* 두 번째 인자 : 첫 번째 인자의 문자열을 해석하기 위한 파서

  * **파서(parser) 종류**
    + html.parser : 파이썬 표준 라이브러리에 포함된 파서로 빠르지만 유연하지 않기 때문에 단순한 HTML문서에 사용

        ```
        BeautifulSoup(markup, "html.parser")
        ```

    + lxml : 매우 빠르고 유연하지만 외부 의존
      - lxml의 HTML 파서
          ```
          BeautifulSoup(markup, "lxml")
          ```
      - lxml의 XML 파서
          ```
          BeautifulSoup(markup, "lxml-xml")
          ```

    + html5lib : 웹 브라우저와 동일한 방식으로 페이지 구문 분석하는 파서로 매우 느리지만 매우 유연하지만 외부 의존
        ```
        BeautifulSoup(markup, "html5lib")
      ```

In [None]:
#모듈 import 
from bs4 import BeautifulSoup as bs

#DOM 문서 만들기
html = bs(webpage, 'html.parser')

In [None]:
type(html)

bs4.BeautifulSoup

### 2. **Beautiful Soup 파싱 메소드**
+ 태그명
  + **.find(태그명)** : 조건에 맞는 태그 1개만 찾음
  + **.find_all(태그명)** : 조건에 맞는 모든 태그 찾음
+ css선택자
  + **.select_one(선택자)** : 조건에 맞는 CSS선택자 1개만 찾음
  + **.select(선택자)** : 조건에 맞는 CSS선택자 찾음

🏷️ **HTML과 CSS**


---



+ **HTML(Hyper Text Markup Language)**
  + 웹페이지 상에서 문단, 제목, 표, 이미지, 동영상 등을 정의하고 웹페이지 내용을 구조화하고 의미를 부여하는 마크업 언어
+ **CSS(Cascading Style Sheet)**
  + 색상, 레이아웃 및 글꼴등 웹페이지의 디자인 요소를 담당하는 선언형 언어로 스타일 시트(Style Sheet)라고도 하고, HTML로 작성된 웹페이지를 보기 좋게 꾸며주는 스타일 규칙 언어

+ 참고 사이트 : <https://www.w3schools.com/>


---



#mArticle > div.rank_news > ul.list_news2 > li

In [None]:
#자료 추출하기
week_list = html.findAll('div',{'class','col_inner'})
week = ['[월요일]','[화요일]','[수요일]','[목요일]','[금요일]','[토요일]','[일요일]']
for day in range(len(week_list)):
  print(week[day])
  title = week_list[day].findAll('a',{'class':'title'})
  title_list = [t.text for t in title]
  li_list = week_list[day].findAll('li')

  for li in li_list:
    img = li.find('img')
    img_src = img['src']

    index = 1
    
  for i in title:
    data = str(index)+". "+i.get_text()
    print(data, img_src)
    index += 1
  print('\n\n-------------------------------\n\n')


[월요일]
1. 신의 탑 https://shared-comic.pstatic.net/thumb/webtoon/756790/thumbnail/thumbnail_IMAG10_45728c1e-50de-44f1-a3f1-d1af29dfc9d2.jpg
2. 참교육 https://shared-comic.pstatic.net/thumb/webtoon/756790/thumbnail/thumbnail_IMAG10_45728c1e-50de-44f1-a3f1-d1af29dfc9d2.jpg
3. 뷰티풀 군바리 https://shared-comic.pstatic.net/thumb/webtoon/756790/thumbnail/thumbnail_IMAG10_45728c1e-50de-44f1-a3f1-d1af29dfc9d2.jpg
4. 윈드브레이커 https://shared-comic.pstatic.net/thumb/webtoon/756790/thumbnail/thumbnail_IMAG10_45728c1e-50de-44f1-a3f1-d1af29dfc9d2.jpg
5. 신입일기 https://shared-comic.pstatic.net/thumb/webtoon/756790/thumbnail/thumbnail_IMAG10_45728c1e-50de-44f1-a3f1-d1af29dfc9d2.jpg
6. 파이게임 https://shared-comic.pstatic.net/thumb/webtoon/756790/thumbnail/thumbnail_IMAG10_45728c1e-50de-44f1-a3f1-d1af29dfc9d2.jpg
7. 장씨세가 호위무사 https://shared-comic.pstatic.net/thumb/webtoon/756790/thumbnail/thumbnail_IMAG10_45728c1e-50de-44f1-a3f1-d1af29dfc9d2.jpg
8. 백수세끼 https://shared-comic.pstatic.net/thumb/webtoon/756790/thumbnail/thu

In [None]:
#필요한 자료 만들기


이준석, 접종 모습도 화제.. 상의 탈의하며 국민에게 불쾌감 줘 민망 : 세계일보
AZ 코로나 항체 치료제, 3상 시험서 유의미한 효과 못 거둬 : 연합뉴스
'건물 붕괴참사' 개입의혹 조폭출신 전 5·18단체 회장 해외도피(종합) : 연합뉴스
[영상]'목 안에서 튀어나온 입' 에일리언 물고기 정체는? : 헤럴드경제
물 좀 달라 외치다 숨진 청년, 어쩌다 41년만에 찾았나 : 오마이뉴스
전광훈 젖비린내 나는 이준석..민주·국민의힘 모두 해산 시켜야 : 아시아경제
14년 동안 8번 '무산'..보수·기독교 반대 이번엔 넘을까 : MBC
선글라스 낀 바이든에 발끈한 英 여왕은 안썼는데 : 서울신문
광복절부터 대체공휴일 된다는데..결국 공무원만 좋은 일? [이지효의 플러스 PICK] : 한국경제TV
[단독] '오피스텔 감금 살인' 피해 남성, 4월 실종 신고..친구 2명은 구속 : MBN
사적모임 8인, 식당·카페 영업 자정까지.. 7월부터 적용되나 : 한국일보
[단독] 눈뼈 부러지도록 버스기사 폭행..잡고 보니 수배자 : SBS
대체공휴일 전면확대..올해 4일 더 쉰다 : 한겨레
안철수 당명 바꿔 합당 기습제안..이준석 처음 듣는 얘기 : 한겨레
한국에 유수한 제약사 많다..美모더나 넘어 獨 큐어백도 위탁생산하나 : 조선비즈
네 친구 생리해?..지인 성관계 불발에 여친 폭행한 50대 : 이데일리
[제보영상] CCTV 확인했더니.. 배상도 안 된다는데, 너무 속상해요 : YTN
[단독] 이천시 공무원이 땅만 사면 '개발'..수상한 대박 : JTBC
북한도 이 정도론 안 미쳤다..탈북 유학생 美대학 비판 : 뉴시스
여성 고르는 유리방까지..모텔 개조해 불법 영업 : MBC
빚내서 이자 갚는 126만 명..하반기 금리마저 올리면? : MBC
1억써야 에르메스 버킨백 기회준다..명품큰손 한국 길들이는 에루샤 : 매일경제
광복절 금토일 연휴? 아니면 토일월?..여야 대체공휴일 경쟁 : 중앙일보
한국선 구경도 못하는데..中샤넬 진열대엔 '신상' 빼곡 직원들 바로 구매 가능합니다

## 해결문제
---
댓글많은 뉴스를 사이트의 제목을 수집해서 AI Cloud의 무료 AI 서비스 중 텍스트 감정 분석 결과를 분석하고 결과를 파일로 저장하시오.단, 감성분석 분석(긍정,중립,부정)은 함수를 이용하여 작성하고 댓글수와 제목의 쉼표는 제거하시오.

예시) 
news.csv 내용
```
순위,제목,댓글수,언론사,감성,신뢰도
1,故손정민 父 "서울경찰청 정민이와 나를 미워한다",2564,데일리안,부정,0.9970703125
2,신고만하면 한국인? "中에 나라 파냐" 국적법 때린 반중정서,2274,중앙일보,부정,0.99755859375
3,'잔여 백신' 첫날 젊은층 대거 몰렸다..AZ 부정적 시선 바뀌나,1726,파이낸셜뉴스,부정,0.98974609375
4,'도쿄올림픽 지도서 독도 삭제' 요구에 日정부 "수용 불가",1543,연합뉴스,부정,0.9873046875

...

47,"손정민 사건 제가 책임지고"..경찰 '김창룡 청장 가짜뉴스' 내사,115,뉴스1,부정,0.9921875
48,로또 1등 수령자에 통장 비번 요구·5억 적금 강매한 농협,105,뉴스1,부정,0.99072265625
49,'도쿄올림픽 지도서 독도 삭제' 韓요구에 日정부 "수용 불가",97,중앙일보,부정,0.986328125
50,올림픽 취소로 日 배상금 떠안나..日언론 "IOC와 불평등 계약",93,뉴스1,부정,0.99609375

```

https://news.daum.net/ranking/bestreply



---


※ 카카오톡 메신저 내용 분석해보기


---

