### 1. 웹 페이지 Title 가져오기

In [1]:
# 1. 크롤링 라이브러리 임포트
import requests                 # 웹 페이지 가져오는 라이브러리
from bs4 import BeautifulSoup   # 웹 페이지 분석 라이브러리 

In [None]:
# 2. 웹 페이지 가져오기 => requests 모듈 사용
res = requests.get('http://gsm.gen.hs.kr/main/main.php')
print('res', type(res))
print('res.content', type(res.content))
res.content

In [None]:
# 3. 웹 페이지 파싱 => BeautifulSoup 모듈 사용
soup = BeautifulSoup(res.content, 'html.parser')
print('soup', type(soup))
print(soup)

In [16]:
# 4. 필요한 데이터 추출 => BeautifulSoup 모듈 사용
mydata = soup.find('title')      # title 태그의 내용 추출 
print(type(mydata))
print(mydata)
print(mydata.text)

<class 'bs4.element.Tag'>
<title>광주소프트웨어마이스터고등학교</title>
광주소프트웨어마이스터고등학교


In [17]:
# 1. 크롤링 라이브러리 임포트
import requests                 # 웹 페이지 가져오는 라이브러리
from bs4 import BeautifulSoup   # 웹 페이지 분석 라이브러리 

# 2. 웹 페이지 가져오기 => requests 모듈 사용
res = requests.get('http://gsm.gen.hs.kr/main/main.php')

# 3. 웹 페이지 파싱 => BeautifulSoup 모듈 사용
soup = BeautifulSoup(res.content, 'html.parser')

# 4. 필요한 데이터 추출 => BeautifulSoup 모듈 사용
mydata = soup.find('title')      
print(mydata.text)

광주소프트웨어마이스터고등학교


### 2. HTML 페이지에서 필요한 데이터 추출 방법 살펴보기

In [None]:
from bs4 import BeautifulSoup

html = '''
<html> 
  <head>
    <title>광주소프트웨어마이스터고등학교</title>
  </head>
  <body> 
    <h1 id='title'>[1]크롤링이란?</h1> 
    <p class='cssstyle'>p1 웹페이지에서 필요한 데이터를 추출하는 것</p> 
    <p id='p2' align='center'>p2 파이썬을 중심으로 다양한 웹크롤링 기술 발달</p> 
  </body> 
</html>
'''

soup = BeautifulSoup(html, 'html.parser')

In [None]:
# find() 함수에서 태그로 가져오기
print(soup.find('title').get_text())
print(soup.find('p').get_text())
print(soup.find('p', class_='cssstyle').get_text())          # class_= '' => 생략가능(값만 적을 수 있다.)
print(soup.find('p', attrs={'align': 'center'}).get_text())  # attrs={:} => 속성과 속성값으로 추출
print(soup.find(id='p2').get_text())

광주소프트웨어마이스터고등학교
p1 웹페이지에서 필요한 데이터를 추출하는 것
p1 웹페이지에서 필요한 데이터를 추출하는 것
p2 파이썬을 중심으로 다양한 웹크롤링 기술 발달
p2 파이썬을 중심으로 다양한 웹크롤링 기술 발달


In [25]:
# find_all() 함수로 해당 요소 모두 가져오기
paragraph_data = soup.find_all('p')  # 리스트 형태로 반환됨.

for paragraph in paragraph_data:
    print(paragraph.get_text())

p1 웹페이지에서 필요한 데이터를 추출하는 것
p2 파이썬을 중심으로 다양한 웹크롤링 기술 발달


In [32]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://gsm.gen.hs.kr/sub/page.php?page_code=info_08')
soup = BeautifulSoup(res.content, 'html.parser')

all_group = soup.find_all('h4')

for group in all_group:
    print(group.get_text())

교직원소개
교무기획부
교육연구부
학생생활안전부
전문교육부
마이스터부
취업진로교육부
창체방과후교육부
인문교육부
1학년부
2학년부
3학년부
개별화지원팀
건강관리지원팀
행정실[본관1층]


### 3. CSS Selector 사용하기

In [1]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://gsm.gen.hs.kr/sub/page.php?page_code=info_08')
soup = BeautifulSoup(res.content, 'html.parser')

all_group = soup.select('h4')

for group in all_group:
    print(group.get_text())

교직원소개
교무기획부
교육연구부
학생생활안전부
전문교육부
마이스터부
취업진로교육부
창체방과후교육부
인문교육부
1학년부
2학년부
3학년부
개별화지원팀
건강관리지원팀
행정실[본관1층]


In [2]:
items = soup.select('html body h4')  # 태그 경로 나열

for item in items:
    print (item.get_text())

교직원소개
교무기획부
교육연구부
학생생활안전부
전문교육부
마이스터부
취업진로교육부
창체방과후교육부
인문교육부
1학년부
2학년부
3학년부
개별화지원팀
건강관리지원팀
행정실[본관1층]


In [5]:
# > 바로 아래 태그 => h2 태그 바로 아래 span 태그
items = soup.select('h2 > span')  # 'h2'

for item in items:
    print (item.get_text())

학교소개


In [9]:
# '.클래스명'
items = soup.select('.cStyle.MAT20')

for item in items:
    print (item.get_text())

교직원소개
교무기획부
교육연구부
학생생활안전부
전문교육부
마이스터부
취업진로교육부
창체방과후교육부
인문교육부
1학년부
2학년부
3학년부
개별화지원팀
건강관리지원팀
행정실[본관1층]


In [48]:
# '#id명'
top_menu = soup.select('#topMenu > li > a')

for item in top_menu:
    print (f'[{item.get_text()}]', end=' ')
print()


items = soup.select('#topMenu1Sub .depth_link2')
a = [i.get_text() for i in items]
print(a)

zzz = []
for i, item in enumerate(range(len(top_menu)), start=1):
    items = soup.select(f'#topMenu{i}Sub .depth_link2')
    zzz.append([i.get_text() for i in items])
    
for i, item in zzz:
    print(item[i])

# for item in items:
#     print (item.get_text())
    
# items

# sub_menus = []
# for i in range(len(top_menu)):
#     sub_menu = soup.select(f'#topMenu{i+1}Sub > ul > li:nth-child(1) > a')
#     print(sub_menu)
#     # l = [i.get_text() for i in sub_menu]
#     # print(l)
#     # sub_menus.append(l)

# sub_menus

# for i, item in enumerate(sub_menu, start=1):
#     print (item.get_text())

# items = soup.select('#topMenu1 > a')
# # print(items, type(items))

# for item in items:
#     print (item.get_text())

[학교소개] [입학안내] [학교소식] [교육마당] [학생마당] [연구학교] [취업/진로] [정보공개 참여] [인트라넷] 
['인사말', '학교연혁', '학교현황', '학교상징', '교훈&교가', '교육목표', '학과소개', '교직원소개', '홍보동영상', '학교규칙', '찾아오시는길', '학교알리미']


ValueError: too many values to unpack (expected 2)

### 4. 학교 소식(공지사항) 가져오기

In [None]:
# 1. 크롤링 라이브러리 임포트
import requests                 # 웹 페이지 가져오는 라이브러리
from bs4 import BeautifulSoup   # 웹 페이지 분석 라이브러리 

# 2. 웹 페이지 가져오기 => requests 모듈 사용
res = requests.get('http://gsm.gen.hs.kr/xboard/board.php?tbnum=3')

# 3. 웹 페이지 파싱 => BeautifulSoup 모듈 사용
soup = BeautifulSoup(res.content, 'html.parser')

# 4. 필요한 데이터 추출 => BeautifulSoup 모듈 사용
mydata = soup.find_all('td')     
print(type(mydata)) 
print(len(mydata))
mydata

In [None]:
# 4. 필요한 데이터 추출 => BeautifulSoup 모듈 사용
mydata = soup.find_all('td', class_='left')   # id='id이름', attrs = {'속성': '속성값', ...}    
print(type(mydata)) 
print(len(mydata))
mydata

In [None]:
for i in mydata:
  print(i.text)