# 웹 페이지 컨텐츠 수집 개요

간단한 형태의 웹페이지부터 내용을 추출

## #01. 웹 페이지 제작 기술

### [1] HTML

웹 페이지의 골격(페이지 구조)을(를) 구성하는 마크업 언어.

원래는 연구자들이 논문등의 책을 집필하기 위해 고안된 언어.

문서 작성에 최적화 되어 있다.

출처를 표시하기 위해 링크 기능이 HTML의 시작.


#### 기본구조

강조하고자 하는 문장을 앞뒤에 '<말머리>~</말머리>' 형식으로 강조한다.

이 단위를 태그(`Tag`)라고 한다.

```html
<말머리>강조하고자 하는 내용</말머리>
```

| 예 | 설명 |
|--|--|
| h1 | 가장 큰 수준의 제목 |
| h2 | 두 번째 수준의 제목 |
| p | 본문 |
| blockqute | 인용문 |
| a | 링크 |

> 특정 말머리를 시각적으로 강조하는 뷰어 프로그램이 웹 브라우저

HTML태그는 문서의 구조를 표현하기 위해 다른 태그를 포함할 수 있다.

```html
<blockquote>
    <h1>제목</h1>
    <p>내용</p>
</blockquote>
```

### [2] CSS

HTML에 디자인을 적용하기 위한 언어.

디자인이 적용될 대상(HTML 태그)을 지정하기 위해 **CSS 선택자(selector)** 라는 표기법을 사용한다.

파이썬은 CSS 선택자 표기법을 사용하여 내용을 추출할 대상을 지정한다.



## #02. CSS 선택자

CSS가 적용될 대상을 지정하는 방법.

만약 선택자 하위에 내용이 있다면 하위 내용들도 적용된다.

(예) 
```CSS
body { color : #f00;}  /* 선택 */
<body> 
    <span>내용
    </span>
    <span>
        <p>내용
        </p>
    </span>
    <span>
        <p>내용
        </p>
    </span>
</body>
```
>  span 모두에 해당 사항(color:#f00)이 적용됨

```CSS
CSS선택자{
    ... CSS 내용(색상, 크기, 위치 등을 설정)
}
```

### (1) 표현방법 구분

#### 태그이름

현재 웹 페이지 안에서 지정된 모든 태그에 적용된다.
```
h1 { color: red; }
```

#### class

앞에 점을 포함한 단어를 사용하여 selector를 정의하고 HTML태그의 class속성에서 점을 제외한 단어를 사용하여 연결한다.

태그 종류에 상관 없이 여러번 재사용이 가능하다.

주로 비슷한 모양의 디자인에 복수 적용된다. (예: 상품, 덧글 리스트)

```html
.hello { color: red; }
<div class="hello"> </div>
```

#### id

앞에 `#`을 포함한 단어를 사용하여 selector를 정의하고 HTML태그의 id속성에서 `#`을 제외한 단어를 사용하여 연결한다.

하나의 HTML문서 안에서 다른 요소와 중복될 수 없다.

```html
#hello {color: red; }
<div id="hello"> </div>
```

html은 에러가 없음

=> 예상치 못한 형태를 보여줌



### (2) 여러 개의 선택자 사용하기

콤마로 구분하여 선택자를 여러개 명시하면 동시에 여러 요소가 같은 디자인 속성을 공유할 수 있다.

콤마로 구분하면 AND의 의미가 있다.

```CSS
h1, h2, .myclass, #myid {
    ...
}
```
> h1,h2라는 태그와 myclass라는 class와 myid라는 id는 모두 동일한 속성({...})을 의미한다.

### (3) selector 조합하기

특정 요소를 자세하게 명시하고자 할 때 사용한다. (띄어쓰기 X)

#### 태그이름 + class

```css
  div.hello
```

#### 태그이름 + id

```css
  div#hello
```

### (4) 자식셀렉터 

HTML의 계층구조를 순차적으로 `>`를 사용하여 표현한 것.

바로 하위의 계층을 의미한다.

```CSS
div > span > input.form_control {
    ...
}
```

```html
<div>
    <span><input class="form_control" /></span>
</div>
```
### (5) 자손셀렉터

HTML의 계층구조를 공백을 사용하여 표현한 것. 반드시 순차적일 필요는 없다.

```CSS
div span input .form_control {
    ...
}
```

```html
<div>
    ...?...
        <span> ...?... 
                <input> ...?...
                    <...?... class="form_control">
                ...?... </input>
        ...?... </span>
    ...?...
</div>
```


```CSS
div span input.form_control{
    ...
}
```
```html
<div>
    ...?...
        <span> ...?... <input class="form_control" /> ...?... </span>
    ...?...
</div>


> 띄어쓰기 차이에 따라 의미하는바가 위와같이 다르다



### (6) 속성셀렉터

HTML태그의 속성과 값을 [] 안에 표현함

| 셀렉터 | 설명 |
|--------|------|
| a[href] | href라는 속성을 갖는 a태그 (값은 상관 없음) |
| a[href="#"] | href속성값이 "#"인 a태그 (값이 반드시 일치해야 함) |
| #hello[method='post'] | method속성의 값이 post인, id값이 hello인 어떤 태그 |
| .choose[value='123'] | value속성의 값이 123인, class값이 choose인 어떤 태그 |

href : hypertext reference

> 이 외에도 여러가지 표현 방법들이 있다.

### (7) 가상클래스

HTML요소가 어떤 상황을 직면했을"때" 적용되는 selector (~~할 때)

대부분 링크에 대해 적용한다.

| 가상클래스 | 설명 |
|---|---|
| link | 링크의 기본 상태 |
| visited | 방문한 경험이 있는 링크 |
| hover | 마우스가 올라가 있는 요소 |
| active | 마우스가 눌러져 있는 요소 |


```css
a:link { ... }
a:visited { ... }
a:hover { ... }
a:active { ... }
```

### (8) n번째 요소

CSS셀렉터가 복수 요소를 의미할 경우 그 중에서 몇 번째인지를 지정.


| 셀렉터 | 설명 |
|--------|------|
| foo:first-child | foo라는 셀렉터를 갖는 요소 중에서 첫번째 요소 |
| foo:last-child | foo라는 셀렉터를 갖는 요소 중에서 마지막 요소 |
| foo:nth-child(2) | foo라는 셀렉터를 갖는 요소 중에서 2번째 |
| foo:nth-child(odd) | 홀수번째 |
| foo:nth-child(2n) | 짝수번째 |
| foo:nth-child(3n) | 3의 배수 번째 |
| foo:nth-last-child(숫자) | nth-child와 같은 규칙이지만 뒤에서부터 요소를 카운트 |

> .nth-child는 1부터 카운트

## #03. CSS 구체성 단위

CSS 셀렉터에 id, class, tag이름이 갖는 점수를 계산하여 점수가 높은 selector가 우선 순위를 갖는다.

- id: 100점
- class: 10점
- tag: 1점