# 7. 로그인이 필요한 웹페이지 크롤링 이해 및 실습

- 로그인이 필요한 웹페이지는 쿠키 또는 세션을 사용하는 경우가 일반적이다.

<br>

## 7.1 한빛미디어 홈페이지(http://www.hanbit.co.kr) 마일리지 크롤링

- 마일리지를 확인하기 위해 로그인 정보가 필요
- 세션으로 관리되고 있음을 코드로 확인
- 세션 정보를 획득하고, 이를 사용해서 마일리지 페이지에 접근하여 마일리지 점수 확인

<br>

### 7.1.1 로그인 페이지 분석

- https://www.hanbit.co.kr/member/login.html
- `form` 태그를 이해할 필요가 있다.
- `form` 태그를 통해 ID/PW가 전달되는 것이 일반적이므로 해당 코드 확인
- 다음 두 태그가 코드를 이해하는 데 핵심

```html
<form name="frm"  id="frm"  action="#" method="post">
<input type="button" name="login_btn"  id="login_btn" value="로그인" class="btn_login" >
```

- javascript를 간결하게 만들기 위한 라이브러리인 jQuery 코드를 확인할 필요가 있음

```javascript
$(document).ready(function() { 
    $('#login_btn').click(function(){ login_proc(); });										
});


function login_proc(){					
    var chk_rule =  "m_id:isEmpty:아이디를 입력"				
                        +"@m_passwd:isEmpty:비밀번호를 입력"																																			
                        ;											 
    if(validateForm(chk_rule)){	
        $("#frm").attr("action","login_proc.php");
        $("#frm").submit();		
        //console.log("validate success!!");
    }
}
```

<br>

```javascript
$('#login_btn').click(function(){ login_proc(); });	
```

- `id`가 `login_btn`인 태그(`input type='button'`)가 click 되었을 때 `login_proc()` 함수를 호출하게 되어 있음

<br>

```javascript
$("#frm").attr("action","login_proc.php");
$("#frm").submit();
```

- `id`가 `frm`인 태그(form 태그)에 `action` 속성을 `login_proc.php`로 바꿔주고 전송하게 되어 있음
- 즉, 버튼을 누르면 `login_proc.php` 웹페이지에 `m_id` 값과 `m_passwd` 값을 넣어 전송해줌

<br>

- 마일리지는 http://www.hanbit.co.kr/myhanbit/myhanbit.html 페이지에서 CSS Selector로 확인

<br>

### 7.1.2 로그인 및 마일리지 정보 획득 시나리오

- `login.html` -> `login_proc.php` -> `index.html` 로 호출됨
- `login_proc.php` Request Method가 POST이고, Form 데이터에서 `m_id`, `m_passwd`를 확인할 수 있음

<br>

### 7.1.3 마일리지 정보 크롤링

In [39]:
import requests
from bs4 import BeautifulSoup

login_url = 'https://www.hanbit.co.kr/member/login_proc.php'

user = ''
password = ''

# requests.session 메서드는 해당 requests를 사용하는 동안 cookie를 header에 유지하도록 하여
# 세션이 필요한 HTTP 요청에 사용된다.
session = requests.session()

params = dict()
params['m_id'] = user
params['m_passwd'] = password

# javascript(jQuery) 코드를 분석해보니, 결국 login_proc.php를 m_id와 m_passwd 값과 함께
# POST로 호출하기 때문에 다음과 같이 requests.session.post() 메서드를 활용함
# 실제 코드 : <form name="frm" id="frm" action="#" method="post">

res = session.post(login_url, data=params)

# 응답 코드가 200 즉, OK가 아닌 경우 에러 발생
res.raise_for_status()
#print(res.status_code)
#print(res.text)

# 'Set-Cookie'로 PHPSESSID 라는 세션 ID 값이 넘어옴을 알 수 있다.
#print(res.headers)

# cookie로 세션을 로그인 상태를 관리하는 상태를 확인해보기 위한 코드
#print(session.cookies.get_dict())

# 여기서부터는 로그인이 된 세션이 유지된다.
# session에 header에는 Cookie에 PHPSESSID가 들어간다.
mypage_url = 'https://www.hanbit.co.kr/myhanbit/myhanbit.html'
res = session.get(mypage_url)

# 응답 코드가 200 즉, OK가 아닌 경우 에러를 발생시키는 메서드
res.raise_for_status()
#print(res.status_code)
#print(res.text)

soup = BeautifulSoup(res.text, 'html.parser')

# Chrome 개발자 도구에서 CSS Selector를 통해 간단히 가져온 CSS Selector 표현식 사용
#he_coin = soup.select_one('#container > div > div.sm_mymileage > dl.mileage_section2 > dd > span')
he_coin = soup.select_one('#container > div > div.sm_mymileage > dl.mileage_section1 > dd > span')
#print(he_coin)

# 다음과 같이 class를 .mileage_section1로, 그리고 그 하부 태그 중에 span이 있다는 식으로 표현도 가능함
# he_coin = soup.select_one('.mileage_section1 span')

print('mileage is ', he_coin.get_text())

mileage is  5,750
