## 비정형 데이터 분석

- 정형(structured) 데이터: 표 형태의 데이터
- 비정형(unstructured) 데이터: 텍스트, 이미지, 음성 등

# 웹 스크래핑 1

### Python으로 URL 분석하기

In [1]:
import urllib.parse

In [2]:
p = urllib.parse.urlparse('http://www.bobaedream.co.kr/mycar/mycar_list.php?sel_m_gubun=ALL&page=2')

In [3]:
p.scheme

'http'

In [4]:
p.hostname

'www.bobaedream.co.kr'

In [5]:
p.path

'/mycar/mycar_list.php'

In [6]:
p.query

'sel_m_gubun=ALL&page=2'

### 요청보내기

In [7]:
import requests

In [8]:
# GET 요청을 보내고 응답을 받아와 res 변수에 할당한다.
url = 'http://www.bobaedream.co.kr/mycar/mycar_list.php?sel_m_gubun=ALL&page=2'
res = requests.get(url)

In [9]:
res # <Response [200]> 정상적으로 가져왔다는 뜻

<Response [200]>

In [10]:
res.status_code
# 응답의 상태 코드를 확인하면 200번을 얻는다.

200

In [11]:
requests.get('http://www.bobaedream.co.kr/aaaaaaa')

<Response [404]>

## 상태코드

- 2XX: 성공
- 3XX: 다른 주소로 이동
- 4XX: 클라이언트 오류
  - 404: 존재하지 않는 주소
- 5XX: 서버 오류
  - 503: 서버가 다운 등의 문제로 서비스 불가 상태

## HTML

- 웹 페이지의 내용을 표현하는 방법
- 노드라는 단위로 구성
- 하나의 노드는 여는 태그, 태그의 내용, 닫는 태그로 구성
- 예: `<a href="http://www.google.com">구글</a>`
  - 여는 태그: `<a href="http://www.google.com">`
  - 내용: `구글`
  - 닫는 태그: `</a>`

## 개발자 도구

- 웹 브라우저에서 F12 또는 우클릭 후 "검사" 메뉴를 클릭하면 개발자도구로 진입
- HTML의 구조와 통신 내역 등을 확인

## HTML의 주요 태그

- div: 구역(division)
- span: 범위(span)
- ul: 번호 없는 리스트(unordered list)
- ol: 번호 리스트(ordered list)
- li: 리스트 항목(list item)
- a: 링크(anchor)

## 응답 내용에서 특정 태그 찾기

먼저 cssselect 패키지를 설치한다.

In [12]:
!pip install cssselect



HTML 해석을 위한 lxml.html을 불러온다.

In [13]:
import lxml.html

응답의 텍스트(res.text)를 해석한다.

In [14]:
root = lxml.html.fromstring(res.text)

a 태그를 모두 찾는다.

In [15]:
root.cssselect('a')

[<Element a at 0x6efe4a8>,
 <Element a at 0x6efe638>,
 <Element a at 0x6f24868>,
 <Element a at 0x6f24a48>,
 <Element a at 0x6f24a98>,
 <Element a at 0x6f24ae8>,
 <Element a at 0x6f24b38>,
 <Element a at 0x6f24b88>,
 <Element a at 0x6f24bd8>,
 <Element a at 0x6f24c28>,
 <Element a at 0x6f24c78>,
 <Element a at 0x6f24cc8>,
 <Element a at 0x6f24d18>,
 <Element a at 0x6f24d68>,
 <Element a at 0x6f24db8>,
 <Element a at 0x6f24e08>,
 <Element a at 0x6f24e58>,
 <Element a at 0x6f24ea8>,
 <Element a at 0x6f24ef8>,
 <Element a at 0x6f24f48>,
 <Element a at 0x6f24f98>,
 <Element a at 0x6f26048>,
 <Element a at 0x6f26098>,
 <Element a at 0x6f260e8>,
 <Element a at 0x6f26138>,
 <Element a at 0x6f26188>,
 <Element a at 0x6f261d8>,
 <Element a at 0x6f26228>,
 <Element a at 0x6f26278>,
 <Element a at 0x6f262c8>,
 <Element a at 0x6f26318>,
 <Element a at 0x6f26368>,
 <Element a at 0x6f263b8>,
 <Element a at 0x6f26408>,
 <Element a at 0x6f26458>,
 <Element a at 0x6f264a8>,
 <Element a at 0x6f264f8>,
 

## 속성
HTML 태그는 **속성**(attribute)라는 추가 정보를 포함한다. 대표적인 것은 다음과 같다.

- `id`: 노드의 고유 아이디
- `class`: 노드의 서식 유형
- `href`: `a` 태그에만 사용. 링크된 주소.

## CSS 선택자
- HTML에서 특정 노드를 선택하기 위한 표기법
- `.cssselect` 함수에 사용한다

## 클래스의 선택자
- 특정 class의 태그를 지정할 때는 `태그.클래스`와 같이 `.`으로 표시한다
- 선택자에서 `p.tit`는 HTML에서 `<p class="tit">`

In [16]:
root.cssselect('em.cr')

[<Element em at 0x6f2fd68>,
 <Element em at 0x6f2fd18>,
 <Element em at 0x6f2fea8>,
 <Element em at 0x6f2fef8>,
 <Element em at 0x6f2ff48>,
 <Element em at 0x6f2ff98>,
 <Element em at 0x6f37048>,
 <Element em at 0x6f37098>,
 <Element em at 0x6f370e8>,
 <Element em at 0x6f37138>,
 <Element em at 0x6f37188>,
 <Element em at 0x6f371d8>,
 <Element em at 0x6f37228>,
 <Element em at 0x6f37278>,
 <Element em at 0x6f372c8>,
 <Element em at 0x6f37318>,
 <Element em at 0x6f37368>,
 <Element em at 0x6f373b8>]

## 클래스가 2개일 때
- `태그.클래스1.클래스2`와 같이 `.`으로 구분하여 표시한다
- 선택자에서 `p.tit.ellipsis`는 HTML에서 `<p class="tit ellipsis">`
- `p.tit`이나 `p.ellipsis`만 해도 `p.tit.ellipsis`는 선택 된다

## 포함관계인 노드의 선택자
```html
<p class="tit ellipsis">
    <a href="...">아우디 A8</a>
</p>
```
- 위의 예는 `p` 태그 안에 `a` 태그가 포함됨
- 선택자에서 포함관계는 공백으로 표시: `p.tit a`

In [17]:
links = root.cssselect('p.tit a')

In [18]:
links

[<Element a at 0x6f2c318>,
 <Element a at 0x6f2c548>,
 <Element a at 0x6f2c7c8>,
 <Element a at 0x6f2ca48>,
 <Element a at 0x6f2cc78>,
 <Element a at 0x6f2cea8>,
 <Element a at 0x6f2d138>,
 <Element a at 0x6f2d318>,
 <Element a at 0x6f2d548>,
 <Element a at 0x6f2d7c8>,
 <Element a at 0x6f2d9f8>,
 <Element a at 0x6f2dc28>,
 <Element a at 0x6f2de08>,
 <Element a at 0x6f2e098>,
 <Element a at 0x6f2e2c8>,
 <Element a at 0x6f2e4a8>,
 <Element a at 0x6f2e6d8>,
 <Element a at 0x6f2e908>,
 <Element a at 0x6f2eb38>,
 <Element a at 0x6f2ed68>]

## href 속성 모으기

링크의 걸린 주소를 수집한다

In [19]:
link = links[0]

In [20]:
link.attrib['href'] 

'/mycar/mycar_view.php?no=1979038&gubun=K'

In [21]:
for link in links:
    print(link.attrib['href'])

/mycar/mycar_view.php?no=1979038&gubun=K
/mycar/mycar_view.php?no=1964393&gubun=I
/mycar/mycar_view.php?no=1978673&gubun=I
/mycar/mycar_view.php?no=1979592&gubun=K
/mycar/mycar_view.php?no=1979595&gubun=K
/mycar/mycar_view.php?no=1979601&gubun=K
/mycar/mycar_view.php?no=1981793&gubun=K
/mycar/mycar_view.php?no=1981602&gubun=K
/mycar/mycar_view.php?no=1867560&gubun=I
/mycar/mycar_view.php?no=1899895&gubun=K
/mycar/mycar_view.php?no=1909585&gubun=K
/mycar/mycar_view.php?no=1968098&gubun=I
/mycar/mycar_view.php?no=1791298&gubun=K
/mycar/mycar_view.php?no=1888622&gubun=K
/mycar/mycar_view.php?no=1909162&gubun=K
/mycar/mycar_view.php?no=1905814&gubun=K
/mycar/mycar_view.php?no=1979646&gubun=K
/mycar/mycar_view.php?no=1979653&gubun=K
/mycar/mycar_view.php?no=1979907&gubun=K
/mycar/mycar_view.php?no=1981820&gubun=K


In [22]:
x = [1,2,3]
x.append(5)
x

[1, 2, 3, 5]

In [23]:
urls = []
for link in links:
    urls.append(link.attrib['href'])

In [24]:
urls

['/mycar/mycar_view.php?no=1979038&gubun=K',
 '/mycar/mycar_view.php?no=1964393&gubun=I',
 '/mycar/mycar_view.php?no=1978673&gubun=I',
 '/mycar/mycar_view.php?no=1979592&gubun=K',
 '/mycar/mycar_view.php?no=1979595&gubun=K',
 '/mycar/mycar_view.php?no=1979601&gubun=K',
 '/mycar/mycar_view.php?no=1981793&gubun=K',
 '/mycar/mycar_view.php?no=1981602&gubun=K',
 '/mycar/mycar_view.php?no=1867560&gubun=I',
 '/mycar/mycar_view.php?no=1899895&gubun=K',
 '/mycar/mycar_view.php?no=1909585&gubun=K',
 '/mycar/mycar_view.php?no=1968098&gubun=I',
 '/mycar/mycar_view.php?no=1791298&gubun=K',
 '/mycar/mycar_view.php?no=1888622&gubun=K',
 '/mycar/mycar_view.php?no=1909162&gubun=K',
 '/mycar/mycar_view.php?no=1905814&gubun=K',
 '/mycar/mycar_view.php?no=1979646&gubun=K',
 '/mycar/mycar_view.php?no=1979653&gubun=K',
 '/mycar/mycar_view.php?no=1979907&gubun=K',
 '/mycar/mycar_view.php?no=1981820&gubun=K']

## 상대주소

- `/mycar/mycar_view.php?no=1944109&gubun=K`는 스키마와 호스트가 생략된 상대주소

- 원래 주소 `http://www.bobaedream.co.kr/mycar/mycar_list.php?sel_m_gubun=ALL&page=2`를 이용해 절대주소로 변환

In [25]:
import urllib.parse

In [26]:
urllib.parse.urljoin(url, '/mycar/mycar_view.php?no=1944109&gubun=K')

'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1944109&gubun=K'

링크된 주소를 절대 주소로 수집

In [27]:
urls = []
for link in links:
    href = urllib.parse.urljoin(url, link.attrib['href'])
    urls.append(href)

In [28]:
urls

['http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1979038&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1964393&gubun=I',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1978673&gubun=I',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1979592&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1979595&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1979601&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1981793&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1981602&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1867560&gubun=I',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1899895&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1909585&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1968098&gubun=I',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1791298&gubun=K',
 'http://www.bobaedream.co.kr/mycar/mycar_view.php?no=1888622&gu

링크에서 텍스트를 추출

In [29]:
texts = []
for link in links:
    texts.append(link.text_content())

In [30]:
texts

['현대 아반떼MD M16 GDi  럭셔리',
 'BMW 뉴 520d xDrive M 스포츠 팩 G30',
 'BMW 528i xDrive',
 '현대 그랜져HG 300 프리미엄',
 '현대 아반떼MD M16 GDi  스마트',
 '현대 제네시스 BH330  그랜드',
 '케이씨 노블 클라쎄 카니발',
 '쌍용 G4 렉스턴 2.2 디젤 4WD 헤리티지',
 'BMW i3 솔 플러스',
 '현대 포터Ⅱ 윙바디',
 'GM대우 노부스 7톤 카고',
 '벤츠 스프린터 밴',
 'GM대우 노부스 11.5톤 카고',
 '기아 쏘렌토 2.5 TLX 4WD 고급형',
 '현대 포터Ⅱ 냉동탑차',
 '현대 갤로퍼2 7인승 롱바디 인터쿨러 슈퍼 고급형',
 '르노삼성 SM6 1.6 TCe  LE',
 '르노삼성 QM6 2.0 dCi 2WD  SE',
 '현대 아반떼MD M16 GDi 프리미엄',
 '기아 더 뉴 모하비 3.0 디젤 상시4WD  프레지던트']

수집된 주소를 저장

In [31]:
import pandas

In [32]:
df = pandas.DataFrame({'url': urls, 'text': texts})

In [33]:
df.head()

Unnamed: 0,url,text
0,http://www.bobaedream.co.kr/mycar/mycar_view.p...,현대 아반떼MD M16 GDi 럭셔리
1,http://www.bobaedream.co.kr/mycar/mycar_view.p...,BMW 뉴 520d xDrive M 스포츠 팩 G30
2,http://www.bobaedream.co.kr/mycar/mycar_view.p...,BMW 528i xDrive
3,http://www.bobaedream.co.kr/mycar/mycar_view.p...,현대 그랜져HG 300 프리미엄
4,http://www.bobaedream.co.kr/mycar/mycar_view.p...,현대 아반떼MD M16 GDi 스마트


In [34]:
df.to_excel('중고차.xlsx')

# 웹 스크랩 2

## 네이버 의사모
- PC버전: https://cafe.naver.com/duoin
- 모바일버전: https://m.cafe.naver.com/duoin

모바일 버전은 주소 m이 들어가있는 형태가 많음

## 본문 긁기
https://m.cafe.naver.com/ArticleRead.nhn?clubid=19773565&articleid=83048&page=1&boardtype=L&menuid=366

In [35]:
import requests
article_url = 'https://m.cafe.naver.com/ArticleRead.nhn?clubid=19773565&articleid=83048&page=1&boardtype=L&menuid=366'

In [36]:
res = requests.get(article_url)

## id 선택자

- 본문 영역은 다음 태그로 감싸여 있다

```html
<div id="postContent" class="post_cont font_zoom1" style="overflow-x:auto;">
```

- `id`는 선택자에서 `#`으로 표시

In [37]:
import lxml.html
root = lxml.html.fromstring(res.text)

In [38]:
root.cssselect('div#postContent')

[<Element div at 0x95ddd18>]

## 본문 내용 보기

- `cssselect`는 결과를 항상 리스트 형식으로 반환
- 본문은 리스트의 첫번째 값이므로 0번을 지정

In [39]:
content = root.cssselect('div#postContent')[0]

In [40]:
content.text_content()

'\n\n\t\t \n\t\t \n\t     \n\t\n\t\t\n\t\t\n\t\t\t\n\t\t\t\n\t\t\t\t \n  \n   \n   \n    \n    지난 영진산업 스피드랙 체인지업에 이어 이번에는 상도가구 몬스터랙을 검증해 보기로 하였습니다.\n    \n    \n    \u200b\n    \n    \n    일단 저는 1차 검증의 내용부터 밝혀보겠습니다.\n    \n    \n    \u200b\n    \n    \n    \u200b\n    \n    \n    http://www.sangdogagu.co.kr/shop/shopdetail.html?branduid=971834&xcode=073&mcode=005&scode=001&type=Y&sort=manual&cur_code=073005&GfDT=bm51W1o%3D\n    \n    \n   \n   \n    \n     \n      \n       \n          \n       \n       \n        \n        \n        상도가구 \n        가구의 모든것 상도가구,대량구매,사무용가구 \n        <="www.sangdogagu.co.kr<" p="p" style="overflow:hidden;color:rgb(0, 168, 50);white-space:nowrap;word-break:break-all;font-size:13px;margin-top:9px;text-overflow:ellipsis"> \n        \n       \n      \n     \n    \n   \n   \n   \n    \n    \u200b\n    \n    \n    \u200b\n    \n    \n    \u200b\n    \n    \n   \n   \n    \n     \n        \n     \n    \n   \n   \n    \n     \n        \n     \n      상도가구 쇼핑몰 게시정보\

## 정규표현식으로 공백지우기

- `\n`, `\t`는 엔터와 탭을 나타냄. 
- 공백문자는 택스트 분석에서 무시되므로 굳이 지울 필요는 없음
- 깔끔하게 처리하고 싶으면
- 불필요한 공백을 지우려면 다음과 같이 정규표현식 사용

In [41]:
import re

In [42]:
re.sub('[\s\u200b]+', ' ', content.text_content())

' 지난 영진산업 스피드랙 체인지업에 이어 이번에는 상도가구 몬스터랙을 검증해 보기로 하였습니다. 일단 저는 1차 검증의 내용부터 밝혀보겠습니다. http://www.sangdogagu.co.kr/shop/shopdetail.html?branduid=971834&xcode=073&mcode=005&scode=001&type=Y&sort=manual&cur_code=073005&GfDT=bm51W1o%3D 상도가구 가구의 모든것 상도가구,대량구매,사무용가구 <="www.sangdogagu.co.kr<" p="p" style="overflow:hidden;color:rgb(0, 168, 50);white-space:nowrap;word-break:break-all;font-size:13px;margin-top:9px;text-overflow:ellipsis"> 상도가구 쇼핑몰 게시정보 상도가구 쇼핑몰 표시 검증결과 비고 규격 180 x 80 x 40 (cm) 180.5 x 80 x40.2 (cm) 연결 브라켓과의 간섭으로 인한 차이가 있는 것으로 판단 됨 구성품 기둥 45cm 16개 / 기둥연결 브라켓 12개 / 가로받침 80cm 8개 / 가로 하프받침 80cm 5개 / 깊이받침 40cm 8개 선반 (80*40cm) 4개 / 안전좌(고무받침) 4개 이상없음 전용망치 포함 소재 초강력 강철프레임 철재이나 초강력인지는 차후 검증 프레임 두께 미표기 1~1.1mm 전체 검증제품 중 가장 두께 얇음 / 중량과 비례 도막두께 미표기 0.1~0.15mm(SNG) 블랙도장의 경우 매트블랙이 아닌 막도장 느낌이 듬 철재중량 프레임과 연결바 (합판은 제외) 미표기 10.24Kg 전체 검증제품 중 가장 중량이 적음 제조국 중국 상품포장 및 구성 상도가구 몬스터랙은 통프레임 방식이 아닌 4단 연결구조 프레임 방식으로 합판선반과 함께 포장되어 배송되기 때문에 각각 분리되 배송되는 통프레임 방식의 제품들보다 편리합니다. 포장상태도 양호해 보였으나 연결부속은 눌려서 문제가 있었습니다. 박

## 정규표현식 설명

- 정규표현식에서 `[]`는 교체할 글자 범위
- `\s`는 일반적 공백
- `\u200b는 유니코드의 `200B` 폭없는 공백 문자
- 끝의 +는 1개 이상이라는 뜻
- `[\s\u200b]+` '공백과 폭 없는 공백문자가 1개 이상 반복되는 경우'

## 회원 전용 게시판

- 모바일 버전으로 접속
- 우상단 ☰ 버튼 클릭 후 아래쪽에서 찾음

https://m.cafe.naver.com/ArticleList.nhn?search.clubid=19773565&search.menuid=98&search.boardtype=L

- 대부분 게시물이 회원만 볼 수 있음

https://m.cafe.naver.com/ArticleRead.nhn?clubid=19773565&articleid=82659&page=1&boardtype=L&menuid=98

회원 전용 게시판 스크랩

In [43]:
article_url = 'https://m.cafe.naver.com/ArticleRead.nhn?clubid=19773565&articleid=82659&page=1&boardtype=L&menuid=98'

In [44]:
res = requests.get(article_url)

In [45]:
root = lxml.html.fromstring(res.text)

본문을 읽을 수 없음

In [46]:
root.cssselect('#postContent')

[]

## 리퍼러 바꾸기

- 대부분 네이버 카페 게시물은 검색을 통해서 들어가면 게시물을 볼 수 있음
- 마치 검색을 거쳐온 것처럼 하면 회원 전용 게시물도 열람 가능
- 리퍼러(referer): 거쳐온 주소

In [47]:
search_url = 'https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=1'

In [48]:
res = requests.get(article_url, headers={'Referer': search_url})

In [49]:
root = lxml.html.fromstring(res.text)

본문 영역이 선택됨

In [50]:
root.cssselect('#postContent')

[<Element div at 0x9a4a408>]

## 한글이 깨지는 경우

대법원 홈페이지에 접속하면 한글이 깨져보인다

In [51]:
res = requests.get('http://scourt.go.kr/scourt/index.html')

In [52]:
root = lxml.html.fromstring(res.text)

In [53]:
root.cssselect('title')[0].text_content()

'´ëÇÑ¹Î±¹ ¹ý¿ø'

## 한글 인코딩
- 컴퓨터는 모든 것을 수(number)로 다룸
- 한글 인코딩: 한글을 수로 나타내는 방법
- 현재 국내에서 흔히 사용되는 인코딩은 2가지
  - UTF-8: 유니코드라는 국제 표준의 한 형식
  - EUC-KR: 완성형 국내 표준

## requests의 인코딩 처리
- 인코딩을 자동 인식하나 가끔 부정확
- 대법원 사이트의 경우 EUC-KR을 ISO-8859-1로 오인식
- ISO-8859-1은 서유럽 언어를 위한 유니코드 이전 국제표준(Latin-1)

## 인코딩 바꾸기
- 인코딩 값을 바꿔주면 됨
- 국내 사이트의 경우 `euc-kr`과 `utf8` 둘 중에 하나이므로 하나씩 시도

In [54]:
res.encoding

'ISO-8859-1'

In [55]:
res.encoding = 'euc-kr'
#res.encoding = 'utf-8'

다시 처리해보면

In [56]:
root = lxml.html.fromstring(res.text)

In [57]:
root.cssselect('title')[0].text_content()

'대한민국 법원'