In [1]:
## parser.py
import requests
from bs4 import BeautifulSoup

In [2]:
# HTTP GET Request
req = requests.get('https://beomi.github.io/beomi.github.io_old/')

In [3]:
#HTML 소스 가져오기
html = req.text

#HTTP Header 가져오기
#header = req.headers

#HTTP Status 가져오기(200: 정상)
#status = req.status_code

#HTTP가 정상적으로 되었는지 T/F
#is_ok = req.ok

#BeautifulSoup으로 html 소스를 python객체로 변환하기
# 첫 인자는 html소스코드, 두번째 인자는 어떤 parser를 이용할지 명시
# 이 파일에서는 Python 내장 html.parser를 이용

soup = BeautifulSoup(html, 'html.parser')

In [4]:
my_titles = soup.select(
    'h3 > a'
)

# my_titles 는 list객체
for title in my_titles:
    #Tag 안의 텍스트
    print('title: '+ title.text)
    # Tag의 속성을 가져오기(ex: href속성)
    print ('href: ' + title.get('href'))

title: 나만의 웹 크롤러 만들기(4): Django로 크롤링한 데이터 저장하기
href: /beomi.github.io_old/python/2017/02/28/HowToMakeWebCrawler-Save-with-Django.html
title: 나만의 웹 크롤러 만들기(3): Selenium으로 무적 크롤러 만들기
href: /beomi.github.io_old/python/2017/02/27/HowToMakeWebCrawler-With-Selenium.html
title: Django에 Social Login 붙이기: Django세팅부터 Facebook/Google 개발 설정까지
href: /beomi.github.io_old/python/2017/02/08/Setup-SocialAuth-for-Django.html
title: Django에 Custom인증 붙이기
href: /beomi.github.io_old/python/2017/02/01/Django-CustomAuth.html
title: 나만의 웹 크롤러 만들기(2): Login with Session
href: /beomi.github.io_old/python/2017/01/20/HowToMakeWebCrawler-With-Login.html
title: 나만의 웹 크롤러 만들기 with Requests/BeautifulSoup
href: /beomi.github.io_old/python/2017/01/19/HowToMakeWebCrawler.html
title: Celery로 TelegramBot 알림 보내기
href: /beomi.github.io_old/2016/12/27/TelegramBot-with-Celery.html
title: Virtualenv/VirtualenvWrapper OS별 설치&이용법
href: /beomi.github.io_old/2016/12/27/HowToSetup-Virtualenv-VirtualenvWrapper.html
title: [DjangoTDDS

In [5]:
#예제 정리
# Python 파일과 같은 위치에 result.json을 만들어 저장하는 예제다.

import requests
from bs4 import BeautifulSoup
import json
import os

#python file 위치 설정
BASE_DIR = os.path.dirname(os.path.abspath(''))
req = requests.get('https://beomi.github.io/beomi.github.io_old/')
html = req.text
soup = BeautifulSoup(html, 'html.parser')
my_titles = soup.select(
    'h3 > a'
)

data = {}

for title in my_titles:
    data[title.text] = title.get('href')
    
with open(os.path.join(BASE_DIR, 'result.json'), 'w+') as json_file:
    json.dump(data, json_file)

In [6]:
# 웹은 대다수가 HTTP기반으로 동작, 하지만 HTTP가 구현된 방식에서 웹 서버와 클라이언트는 지속적으로 연결을 유지한 상태가 아니라 요청-응답의 반복일 뿐이기 때문에, 이전 요청과 새로운 요청이 같은 사용자(같은 브라우저)에서 이루어졌는지를 확인하는 방법이 필요합니다.

# 1. 쿠키: 유저가 웹 사이트를 방문할 때 사용자의 브라우저에 심겨지는 작은 파일. Key-Value형식으로 로컬 브라우저에 저장
### 이 쿠키의 정보를 읽어 HTTP요청에 대해 브라우저를 식별한다. 하지만, 로컬에 저장된다는 근원적인 문제로 인해 악의적 사용자가 쿠키를 변조하거나 탈취해 정상적이지 않은 쿠키로 서버에 요청을 보낼 수 있습니다.
### 만약 로그인 식별을 로컬쿠키만을 신뢰해 로그인을 한 상태로 서버가 인식하면 쿠키변조를 통해 마치 관리자나 다른 유저처럼 행동할 수도 있다.

# 2. 세션: 브라우저가 웹 서버에 요청을 한 경우 서버 내에 해당 세션 정보를 파일이나 DB에 저장하고 클라이언트의 브라우저에 session-id라는 임의의 긴 문자열을 준다.
# 이때 사용되는 쿠키는 클라이언트와 서버간 연결이 끊어진 경우 삭제되는 메모리 쿠키 이용

#세션을 이용한 코딩

import requests

s= requests.Session()

req = s.get('https://www.clien.net/service/')

html = req.text
header = req.headers
status = req.status_code
is_ok = req.ok

In [7]:
# 웹은 대다수가 HTTP기반으로 동작, 하지만 HTTP가 구현된 방식에서 웹 서버와 클라이언트는 지속적으로 연결을 유지한 상태가 아니라 요청-응답의 반복일 뿐이기 때문에, 이전 요청과 새로운 요청이 같은 사용자(같은 브라우저)에서 이루어졌는지를 확인하는 방법이 필요합니다.

# 1. 쿠키: 유저가 웹 사이트를 방문할 때 사용자의 브라우저에 심겨지는 작은 파일. Key-Value형식으로 로컬 브라우저에 저장
### 이 쿠키의 정보를 읽어 HTTP요청에 대해 브라우저를 식별한다. 하지만, 로컬에 저장된다는 근원적인 문제로 인해 악의적 사용자가 쿠키를 변조하거나 탈취해 정상적이지 않은 쿠키로 서버에 요청을 보낼 수 있습니다.
### 만약 로그인 식별을 로컬쿠키만을 신뢰해 로그인을 한 상태로 서버가 인식하면 쿠키변조를 통해 마치 관리자나 다른 유저처럼 행동할 수도 있다.

# 2. 세션: 브라우저가 웹 서버에 요청을 한 경우 서버 내에 해당 세션 정보를 파일이나 DB에 저장하고 클라이언트의 브라우저에 session-id라는 임의의 긴 문자열을 준다.
# 이때 사용되는 쿠키는 클라이언트와 서버간 연결이 끊어진 경우 삭제되는 메모리 쿠키 이용

#세션을 이용한 코딩

import requests

s= requests.Session()

req = s.get('https://www.clien.net/service/')

html = req.text
header = req.headers
status = req.status_code
is_ok = req.ok

In [8]:
import requests

# Session 생성, with 구문 안에서 유지
with requests.Session() as s:
    #HTTP GET request: requests 대신 s 객체를 사용한다.
    req = s.get('https://www.clien.net/service/')

    html = req.text
    header = req.headers
    status = req.status_code
    is_ok = req.ok

In [9]:
# 클리앙 페이지의 로그인 쪽을 inspect하면 input 필드들의 name을 확인할 수 있다.
# _csrf : CSRF는 사용자의 요청이 악의적이거나 제 3자에 의해 변조된 요청이 아닌지 확인해주는 보안도구 중 하나
# CSRF를 사용하는 경우 CSRF값이 없는 폼 전송은 위험한 요청으로 생각하고 폼을 받아들이지 않습니다.
# auth.login() 함수 입력 유무 확인함수

# parser.py
import requests

# 로그인할 유저정보를 넣어주자 (모두 문자열)
LOGIN_INFO = {
    'userId': '사용자이름',
    'userPassword': '사용자패스워드'
}

# Session 생성, with 구문 안에서 유지
with requests.Session() as s:
    # HTTP POST request: 로그인을 위해 POST url와 함께 전송될 data를 넣어주자.
    login_req = s.post('https://www.clien.net/service/login', data=LOGIN_INFO)
    # 어떤 결과가 나올까요?
    print(login_req.status_code)

404


In [10]:
# _csrf값 가져오기
import requests
from bs4 import BeautifulSoup as bs

# 로그인할 유저 정보를 넣어줍시다. (모두 문자열)
LOGGIN_INFO = {
    'userId' : 'myidid',
    'userPassword' : 'mypassword123'
}

# Session 생성, with 구문 안에서 유지
with requests.Session() as s:
    # 우선 클리앙 홈페이지에 입장
    first_page = s.get('https://www.clien.net/service')
    html = first_page.text
    soup = bs(html, 'html.parser')
    csrf = soup.find('input',{'name': '_csrf'}) 
    #input 태그 중에서 name이 _csrf인 것을 찾습니다.
    print(csrf['value']) # 위에서 찾은 태그의 value를 가져옵니다.
    
    #이제 LOGIN_INFO에 csrf값을 넣어줍시다.
    # (p.s.) Python3에서 두 dict를 합치는 방법은 {**dict1, **dict2}으로 dict들을 unpacking하는 것입니다.
    
    LOGIN_INFO = {**LOGIN_INFO, **{'_csrf': csrf['value']}}
    print(LOGIN_INFO)
    
    #이제 다시 로그인을 해봅시다.
    login_req = s.post('https://www.clien.net/service/login', data=LOGIN_INFO)
    print(login_req.status_code)
    #로그인이 되지 않으면 경고를 띄워준다.
    
    if login_req.status_code != 200:
        raise Exception('로그인 안됨')
        
    #여기부터는 로그인 된 세션
    post_one = s.get('https://www.clien.net/service/board/rule/10707408')
    soup = bs(post_one.text, 'html.parser') # Soup으로 만들어 주자.
    #아래 css selector는 공지글 제목을 콕하고 집어줍니다.
    title = soup.select('#div_content > div.post-title > div.title-subject > div')
    contents = soup.select('#div_content > div.post.box > div.post-content > div.post-article.fr-view')
    # HTML을 제대로 파싱한 뒤에는 .text속성을 이용합니다.
    
    #print(title[0].text) # 글제목의 문자만을 가져와 본다.
    #[0]을 하는 이유는 select로 하나만 가져와도 title 자체는 리스트이기 때문
    #print((contents[0].text))
    print(len(title))


2b7ba157-aaf4-4a45-a85c-15f179ddd6b9
{'userId': '사용자이름', 'userPassword': '사용자패스워드', '_csrf': '2b7ba157-aaf4-4a45-a85c-15f179ddd6b9'}
200
0


In [11]:
# parser.py
import requests
from bs4 import BeautifulSoup as bs

# 로그인할 유저정보를 넣어줍시다. (모두 문자열입니다!)
LOGIN_INFO = {
    'userId': 'myidid',
    'userPassword': 'mypassword123'
}

# Session 생성, with 구문 안에서 유지
with requests.Session() as s:
    # 우선 클리앙 홈페이지에 들어가 봅시다.
    first_page = s.get('https://www.clien.net/service')
    html = first_page.text
    soup = bs(html, 'html.parser')
    csrf = soup.find('input', {'name': '_csrf'}) # input태그 중에서 name이 _csrf인 것을 찾습니다.
    print(csrf['value']) # 위에서 찾은 태그의 value를 가져옵니다.

    # 이제 LOGIN_INFO에 csrf값을 넣어줍시다.
    # (p.s.)Python3에서 두 dict를 합치는 방법은 {**dict1, **dict2} 으로 dict들을 unpacking하는 것입니다.
    LOGIN_INFO = {**LOGIN_INFO, **{'_csrf': csrf['value']}}
    print(LOGIN_INFO)

    # 이제 다시 로그인을 해봅시다.
    login_req = s.post('https://www.clien.net/service/login', data=LOGIN_INFO)
    # 어떤 결과가 나올까요? (200이면 성공!)
    print(login_req.status_code)
    # 로그인이 되지 않으면 경고를 띄워줍시다.
    if login_req.status_code != 200:
        raise Exception('로그인이 되지 않았어요! 아이디와 비밀번호를 다시한번 확인해 주세요.')

    # -- 여기서부터는 로그인이 된 세션이 유지됩니다 --
    # 이제 장터의 게시글 하나를 가져와 봅시다. 아래 예제 링크는 중고장터 공지글입니다.
    post_one = s.get('https://www.clien.net/service/board/rule/10707408')
    soup = bs(post_one.text, 'html.parser') # Soup으로 만들어 줍시다.
    # 아래 CSS Selector는 공지글 제목을 콕 하고 집어줍니다.
    title = soup.select('#div_content > div.post-title > div.title-subject > div')
    contents = soup.select('#div_content > div.post.box > div.post-content > div.post-article.fr-view')
    # HTML을 제대로 파싱한 뒤에는 .text속성을 이용합니다.
    print(title[0].text) # 글제목의 문자만을 가져와봅시다.
    # [0]을 하는 이유는 select로 하나만 가져와도 title자체는 리스트이기 때문입니다.
    # 즉, 제목 글자는 title이라는 리스트의 0번(첫번째)에 들어가 있습니다.
    print(contents[0].text) # 글내용도 마찬가지겠지요?

9f884364-77fa-4622-8731-c57e4a829bfd
{'userId': 'myidid', 'userPassword': 'mypassword123', '_csrf': '9f884364-77fa-4622-8731-c57e4a829bfd'}
200


IndexError: list index out of range

In [15]:
#Selenium은 webdriver라는 것을 통해 디바이스에 설치된 브라우저들을 제어할 수 있다.
# Chrome WebDriver 
# PhantomJS webdriver: WebTesting을 위해 나온 Headless Browser다.(즉, 화면이 존재하지 않는다)

from selenium import webdriver

## Chrome의 경우 | 아까 받은 chromedriver의 위치를 지정해준다.
driver = webdriver.Chrome('/Users/Jeongyeop/Crawler/chromedriver.exe')

In [18]:
from selenium import webdriver

driver = webdriver.Chrome('/Users/Jeongyeop/Crawler/chromedriver.exe')
#암묵적으로 웹 자원 로드를 위해 3초를 기다려 준다.
driver.implicitly_wait(3)

driver.get('https://google.com')

In [None]:
#Selenium은 driver객체를 통해 여러가지 메소드를 제공한다.
# url에 접근하는 api, get('http://url.com')

#페이지의 단일 element에 접근하는 api,
# find_element_by_name('HTML_name')
# find_element_by_id('HTML_id')
# find_element_by_xpath('/html/body/some/xpath')

## 페이지의 여러 elements에 접근하는 api등이 있다.
# find_element_by_css_selector('#css>div.selector')
# find_element_by_class_name('some_class_name')
# find_element_by_tag_name('h1')


In [25]:
# 네이버 로그인하기
from selenium import webdriver

driver = webdriver.Chrome('/Users/Jeongyeop/Crawler/chromedriver.exe')
driver.implicitly_wait(3)
## url에 접근한다.
driver.get('https://nid.naver.com/nidlogin.login')

## 아이디/비밀번호를 입력해준다.
driver.find_element_by_name('id').send_keys('ID')
driver.find_element_by_name('pw').send_keys('password')
driver.find_element_by_xpath('//*[@id="frmNIDLogin"]/fieldset/input').click()

## 자동입력 방지문자로 이 방법으로 로그인 할 수 없다.