## 요청 보내기

In [34]:
#!pip install requests
import requests

GET 요청을 보내고 응답을 받아와 `res` 변수에 할당한다.

In [35]:
url = 'https://news.naver.com/'
res = requests.get(url)

In [36]:
res

<Response [200]>

응답의 상태 코드를 확인하면 200번을 얻는다.

In [37]:
res.status_code

200

## 상태코드

- 2XX: 성공
- 3XX: 다른 주소로 이동
- 4XX: 클라이언트 오류
  - 404: 존재하지 않는 주소
- 5XX: 서버 오류
  - 503: 서버가 다운 등의 문제로 서비스 불가 상태

## HTML

- 웹 페이지의 내용을 표현하는 방법
- 노드라는 단위로 구성
- 하나의 노드는 여는 태그, 태그의 내용, 닫는 태그로 구성
- 예: `<a href="http://www.google.com">구글</a>`
  - 여는 태그: `<a href="http://www.google.com">`
  - 내용: `구글`
  - 닫는 태그: `</a>`

## 개발자 도구

- 웹 브라우저에서 F12 또는 우클릭 후 "검사" 메뉴를 클릭하면 개발자도구로 진입
- HTML의 구조와 통신 내역 등을 확인

## HTML의 주요 태그

- div: 구역(division)
- span: 범위(span)
- ul: 번호 없는 리스트(unordered list)
- ol: 번호 리스트(ordered list)
- li: 리스트 항목(list item)
- a: 링크(anchor)

In [38]:
!pip install cssselect



HTML 해석을 위한 `lxml.html`을 불러온다.

In [39]:
import lxml.html

응답의 텍스트(`res.text`)를 해석한다.

In [40]:
root = lxml.html.fromstring(res.text)

`a` 태그를 모두 찾는다.

In [41]:
root.cssselect('a')

[<Element a at 0x92e47c8>,
 <Element a at 0x92e4728>,
 <Element a at 0x92e4818>,
 <Element a at 0x92e4868>,
 <Element a at 0x92e48b8>,
 <Element a at 0x92e4908>,
 <Element a at 0x92e4958>,
 <Element a at 0x92e49a8>,
 <Element a at 0x92e49f8>,
 <Element a at 0x92e4a48>,
 <Element a at 0x92e4a98>,
 <Element a at 0x92e4ae8>,
 <Element a at 0x92e4b38>,
 <Element a at 0x92e4b88>,
 <Element a at 0x92e4bd8>,
 <Element a at 0x92e4c28>,
 <Element a at 0x92e4c78>,
 <Element a at 0x92e4cc8>,
 <Element a at 0x92e4d18>,
 <Element a at 0x92e4d68>,
 <Element a at 0x92e4db8>,
 <Element a at 0x92e4e08>,
 <Element a at 0x92e4e58>,
 <Element a at 0x92e4ea8>,
 <Element a at 0x92e4ef8>,
 <Element a at 0x92e4f48>,
 <Element a at 0x92e4f98>,
 <Element a at 0x92e8048>,
 <Element a at 0x92e8098>,
 <Element a at 0x92e80e8>,
 <Element a at 0x92e8138>,
 <Element a at 0x92e8188>,
 <Element a at 0x92e81d8>,
 <Element a at 0x92e8228>,
 <Element a at 0x92e8278>,
 <Element a at 0x92e82c8>,
 <Element a at 0x92e8318>,
 

## 속성

HTML 태그는 **속성**(attribute)라는 추가 정보를 포함한다. 대표적인 것은 다음과 같다.

- `id`: 노드의 고유 아이디
- `class`: 노드의 서식 유형
- `href`: `a` 태그에만 사용. 링크된 주소.

## CSS 선택자

- HTML에서 특정 노드를 선택하기 위한 표기법
- `.cssselect` 함수에 사용한다

## 클래스의 선택자

- 특정 class의 태그를 지정할 때는 `태그.클래스`와 같이 `.`으로 표시한다
- 선택자에서 `p.tit`는 HTML에서 `<p class="tit">`

## 클래스가 2개일 때

- `태그.클래스1.클래스2`와 같이 `.`으로 구분하여 표시한다
- 선택자에서 `p.tit.ellipsis`는 HTML에서 `<p class="tit ellipsis">`
- `p.tit`이나 `p.ellipsis`만 해도 `p.tit.ellipsis`는 선택 된다

## 포함관계인 노드의 선택자



```html
<p class="tit ellipsis">
    <a href="...">아우디 A8</a>
</p>
```

- 위의 예는 `p` 태그 안에 `a` 태그가 포함됨
- 선택자에서 포함관계는 공백으로 표시: `p.tit a`

In [42]:
links = root.cssselect('.mlist2.no_bg a')

In [43]:
links

[<Element a at 0x92e8908>,
 <Element a at 0x92e8958>,
 <Element a at 0x92e89a8>,
 <Element a at 0x92e89f8>,
 <Element a at 0x92e8a48>,
 <Element a at 0x92e8d18>,
 <Element a at 0x92e8d68>,
 <Element a at 0x92e8db8>,
 <Element a at 0x92e8e08>,
 <Element a at 0x92e8e58>,
 <Element a at 0x92e9188>,
 <Element a at 0x92e91d8>,
 <Element a at 0x92e9228>,
 <Element a at 0x92e9278>,
 <Element a at 0x92e92c8>,
 <Element a at 0x92e9598>,
 <Element a at 0x92e95e8>,
 <Element a at 0x92e9638>,
 <Element a at 0x92e9688>,
 <Element a at 0x92e96d8>,
 <Element a at 0x92e98b8>,
 <Element a at 0x92e9908>,
 <Element a at 0x92e9958>,
 <Element a at 0x92e99a8>,
 <Element a at 0x92e99f8>,
 <Element a at 0x92e9cc8>,
 <Element a at 0x92e9d18>,
 <Element a at 0x92e9d68>,
 <Element a at 0x92e9db8>,
 <Element a at 0x92e9e08>]

## href 속성 모으기

링크의 걸린 주소를 수집한다

In [44]:
link = links[0]

In [45]:
link.attrib['href'] 

'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=011&aid=0003582680'

In [46]:
for link in links:
    print(link.attrib['href'])

https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=011&aid=0003582680
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=421&aid=0004081786
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=008&aid=0004245062
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=001&aid=0010939245
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=001&aid=0010939228
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=030&aid=0002826907
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=030&aid=0002826905
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=029&aid=0002538618
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=005&aid=0001215772
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=008&aid=0004245065
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=079&aid=0003246462
https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&

In [47]:
x = [1,2,3]

In [48]:
x.append(5) 

In [49]:
x

[1, 2, 3, 5]

In [50]:
urls = []
for link in links:
    urls.append(link.attrib['href'])

In [51]:
urls

['https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=011&aid=0003582680',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=421&aid=0004081786',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=008&aid=0004245062',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=001&aid=0010939245',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=001&aid=0010939228',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=030&aid=0002826907',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=030&aid=0002826905',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=029&aid=0002538618',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=005&aid=0001215772',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=008&aid=0004245065',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=079&aid=0003246462',
 'https://

## 상대주소

- `/mycar/mycar_view.php?no=1944109&gubun=K`는 스키마와 호스트가 생략된 상대주소

- 원래 주소 `http://www.bobaedream.co.kr/mycar/mycar_list.php?sel_m_gubun=ALL&page=2`를 이용해 절대주소로 변환

In [52]:
import urllib.parse

In [53]:
urllib.parse.urljoin(url, '/mycar/mycar_view.php?no=1944109&gubun=K')

'https://news.naver.com/mycar/mycar_view.php?no=1944109&gubun=K'

## 링크된 주소를 절대 주소로 수집

In [54]:
urls = []
for link in links:
    href = urllib.parse.urljoin(url, link.attrib['href'])
    urls.append(href)

In [55]:
urls

['https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=011&aid=0003582680',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=421&aid=0004081786',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=008&aid=0004245062',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=001&aid=0010939245',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=100&oid=001&aid=0010939228',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=030&aid=0002826907',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=030&aid=0002826905',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=029&aid=0002538618',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=005&aid=0001215772',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=101&oid=008&aid=0004245065',
 'https://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=102&oid=079&aid=0003246462',
 'https://

## 링크에서 텍스트를 추출

In [56]:
texts = []
for link in links:
    texts.append(link.text_content())

In [57]:
texts

["\n                                                    한국당 '국토위' 집안싸움 점입가경\n                                                ",
 '\n                                                    김현미 "총선 출마생각 변함없어…장관 임기 임명권자 뜻"\n                                                ',
 '\n                                                    적폐수사, 극단적 선택에…한국당 "윤석열 사과하라" vs 與 "朴정권부터"\n                                                ',
 '\n                                                    "향군 회장과 동석 불가"…독립단체 \'광복절행사 보이콧\' 시사\n                                                ',
 '\n                                                    서욱 육군총장 "동기생 생활관서 괴롭힘 발생…뿌리 뽑아야"\n                                                ',
 '\n                                                    [데스크가만났습니다]최재호 무학 회장"창립 90주년 맞아 새도약...국내 넘어 세계시장 도전"\n                                                ',
 "\n                                                    [단독]국내 플라스틱 소재 1위 'KEP' 두달째 조업 차질...삼성·LG 불똥 튀나\n                              

## 수집된 주소를 저장

In [26]:
import pandas as pd

In [27]:
df = pd.DataFrame({'url': urls, 'text': texts})

In [28]:
df.head()

Unnamed: 0,url,text
0,https://news.naver.com/main/read.nhn?mode=LSD&...,\n ...
1,https://news.naver.com/main/read.nhn?mode=LSD&...,\n ...
2,https://news.naver.com/main/read.nhn?mode=LSD&...,\n ...
3,https://news.naver.com/main/read.nhn?mode=LSD&...,\n ...
4,https://news.naver.com/main/read.nhn?mode=LSD&...,\n ...


In [29]:
df.to_excel('news_0708_naver.xlsx')