# 크롤링과 웹 기본

### 1. 크롤링 기본 코드

In [1]:
# 1. 라이브러리 임포트
import requests                 # 웹 페이지 가져오는 라이브러리
from bs4 import BeautifulSoup   # 웹 페이지 분석 라이브러리 

# 2. 웹페이지 가져오기 => requests 모듈 사용
res = requests.get('http://v.media.daum.net/v/20170615203441266')

# 3. 웹페이지 파싱 => BeautifulSoup 모듈 사용
soup = BeautifulSoup(res.content, 'html.parser')

# 4. 필요한 데이터 추출 => BeautifulSoup 모듈 사용
mydata = soup.find('title')  # title 태그의 내용 추출 => 필요한 내용을 가지고 있는 HTML 언어의 일부분을 적어서 추출

# 5. 추출한 데이터 활용하기
print(mydata.get_text())    # 텍스트만 출력

잔금대출에도 DTI 규제 적용 검토


### 2. HTML 페이지에서 필요한 데이터 추출 방법

In [2]:
from bs4 import BeautifulSoup

html = '''
<html> 
  <body> 
    <h1 id='title'>[1]크롤링이란?</h1> 
    <p class='cssstyle'>p1 웹페이지에서 필요한 데이터를 추출하는 것</p> 
    <p id='p2' align='center'>p2 파이썬을 중심으로 다양한 웹크롤링 기술 발달</p> 
  </body> 
</html>
'''

soup = BeautifulSoup(html, "html.parser")

# p 태그 문장이 두 개인데 이 중에 하나를 선택하려면?
# 1. data = soup.find('p', class_='cssstyle')
# 2. data = soup.find('p', 'cssstyle')
# 3. data = soup.find('p', attrs = {'align': 'center'})
# 4. data = soup.find(id='body')

In [3]:
print(soup.find('p').get_text())
print(soup.find('p', class_='cssstyle').get_text())          # class_= '' => 생략가능(값만 적을 수 있다.)
print(soup.find('p', attrs={'align': 'center'}).get_text())  # attrs={:} => 속성과 속성값으로 추출
print(soup.find(id='p2').get_text())

p1 웹페이지에서 필요한 데이터를 추출하는 것
p1 웹페이지에서 필요한 데이터를 추출하는 것
p2 파이썬을 중심으로 다양한 웹크롤링 기술 발달
p2 파이썬을 중심으로 다양한 웹크롤링 기술 발달


In [19]:
# find_all() 함수 사용하기
paragraph_data = soup.find_all('p')  # 리스트 형태로 반환됨.

for paragraph in paragraph_data:
    print(paragraph.get_text())

p1 웹페이지에서 필요한 데이터를 추출하는 것
p2 파이썬을 중심으로 다양한 웹크롤링 기술 발달


In [20]:
paragraph_data

[<p class="cssstyle">p1 웹페이지에서 필요한 데이터를 추출하는 것</p>,
 <p align="center" id="p2">p2 파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>]

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://davelee-fun.github.io/blog/crawl_test')
soup = BeautifulSoup(res.content, 'html.parser')

titles = soup.find_all('li', 'course')

for title in titles:
    print(title.get_text())

In [24]:
# find()로 가져온 데이터를 find_all()로 다시 추출하기
section = soup.find('ul', id='dev_course_list')
titles = section.find_all('li', 'course')

for title in titles:
    print(title.get_text())

(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]
(초급) - 필요한 프로그램 설치 시연 [5]
(초급) - 데이터를 엑셀 파일로 만들기 [9]
(초급) -     엑셀 파일 이쁘게! 이쁘게! [8]
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 [7]
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]
(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]
(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


### 3. Python의 문자열 함수로 데이터를 원하는 형태로 다듬기

In [27]:
# 3. Python의 문자열 함수로 데이터를 원하는 형태로 다듬기
import requests
from bs4 import BeautifulSoup

res = requests.get('https://davelee-fun.github.io/blog/crawl_test')
soup = BeautifulSoup(res.content, 'html.parser')

section = soup.find('ul', id='dev_course_list')
titles = section.find_all('li', 'course')

# split() => 특정한 문자를 기준으로 구분된 리스트로 만들기
# strip() => 공백 제거
# str() => 숫자를 문자열로 만들기
for index, title in enumerate(titles):
    print(str(index + 1) + '.', title.get_text().split('-')[-1].split('[')[0].strip())

1. 강사가 실제 사용하는 자동 프로그램 소개
2. 필요한 프로그램 설치 시연
3. 데이터를 엑셀 파일로 만들기
4. 엑셀 파일 이쁘게! 이쁘게!
5. 나대신 주기적으로 파이썬 프로그램 실행하기
6. 파이썬으로 슬랙(slack) 메신저에 글쓰기
7. 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기
8. 네이버 API 사용해서, 블로그에 글쓰기
9. 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기


### 4. CSS Selector 사용하기

In [2]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://davelee-fun.github.io/blog/crawl_test_css.html')
soup = BeautifulSoup(res.content, 'html.parser')
items = soup.select('li')                               # 첫번째 데이터만 추출하려면 select_one()

for item in items:
    print (item.get_text())

(왕초보) - 클래스 소개
(왕초보) - 블로그 개발 필요한 준비물 준비하기
(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기
(왕초보) - 초간단 페이지 만들어보기
(왕초보) - 이쁘게 테마 적용해보기
(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기
(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기
(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]
(초급) - 필요한 프로그램 설치 시연 [5]
(초급) - 데이터를 엑셀 파일로 만들기 [9]
(초급) -     엑셀 파일 이쁘게! 이쁘게! [8]
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 [7]
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]
(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]
(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


In [29]:
items = soup.select('html body h1')  # 태그 경로 나열

for item in items:
    print (item.get_text())

잔재미코딩 크롤링 테스트 페이지 (커리큘럼)


In [5]:
# > 바로 아래 태그 => ul 태그 바로 아래 li 태그
items = soup.select('ul > li')  

for item in items:
    print (item.get_text())

(왕초보) - 클래스 소개
(왕초보) - 블로그 개발 필요한 준비물 준비하기
(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기
(왕초보) - 초간단 페이지 만들어보기
(왕초보) - 이쁘게 테마 적용해보기
(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기
(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기
(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]
(초급) - 필요한 프로그램 설치 시연 [5]
(초급) - 데이터를 엑셀 파일로 만들기 [9]
(초급) -     엑셀 파일 이쁘게! 이쁘게! [8]
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 [7]
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]
(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]
(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


In [None]:
# '.클래스명'
items = soup.select('.course')

for item in items:
    print (item.get_text())

In [None]:
# '#id명'
items = soup.select('#start')

for item in items:
    print (item.get_text())

In [6]:
# '태그.클래스이름1.클래스이름2'
items = soup.select('li.course.paid')

for item in items:
    print (item.get_text())

(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


In [None]:
# 복합 예제 '태그명#id명.클래스명'
items = soup.select('ul#hobby_course_list li.course')

for item in items:
    print (item.get_text())   

In [35]:
# select_one()
item = soup.select_one('ul#dev_course_list > li.course.paid')
print (item.get_text())

(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


In [8]:
# find와 select 비교 => 상호호환 가능(select()와 find_all() 상화 교체 가능)
res = requests.get('https://davelee-fun.github.io/blog/crawl_html_css.html')
soup = BeautifulSoup(res.content, 'html.parser')

# tr을 리스트로 가져와 그 안의 td 추출
items = soup.select('tr')

for item in items:
    columns = item.select('td')
    row_str = ''

    for column in columns:
        row_str += ', ' + column.get_text()
    print (row_str[2:])

일정, 커리큘럼 타이틀, 난이도
5.1 ~ 6.15, 나만의 엣지있는 블로그 사이트 만들기 (취미로 익히는 IT), 초급
6.16 ~ 7.31, 파이썬과 데이터과학 첫걸음 (IT 기본기 익히기), 중급
