# Beautifulsoup: 通过 CSS 类查找
**首先我们还需要打开一个 [page](https://mofanpy.com/static/scraping/list.html)，然后我们可以在这个页面的 html 上应用 beautifulsoup。**

In [2]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

# 如果是中文网页，需要解码，添加 decode('utf-8')
html = urlopen("https://mofanpy.com/static/scraping/list.html").read().decode('utf-8')
# 使用 BeautifulSoup 解析html
soup = BeautifulSoup(html, 'html.parser')
format_html = soup.prettify()
print(format_html)

<!DOCTYPE html>
<html lang="cn">
 <head>
  <meta charset="utf-8"/>
  <title>
   爬虫练习 列表 class | 莫烦 Python
  </title>
  <style>
   .jan {
      background-color: yellow;
    }

    .feb {
      font-size: 25px;
    }

    .month {
      color: red;
    }
  </style>
 </head>
 <body>
  <h1>
   列表 爬虫练习
  </h1>
  <p>
   这是一个在
   <a href="/">
    莫烦 Python
   </a>
   的
   <a href="/tutorials/data-manipulation/scraping/">
    爬虫教程
   </a>
   里无敌简单的网页, 所有的 code 让你一目了然, 清晰无比.
  </p>
  <ul>
   <li class="month">
    一月
   </li>
   <ul class="jan">
    <li>
     一月一号
    </li>
    <li>
     一月二号
    </li>
    <li>
     一月三号
    </li>
   </ul>
   <li class="feb month">
    二月
   </li>
   <li class="month">
    三月
   </li>
   <li class="month">
    四月
   </li>
   <li class="month">
    五月
   </li>
  </ul>
 </body>
</html>



**使用名为 lxml 的方法解析此 html，创建一个 soup 对象。查找所有具有 class=month 的“li”标签。**

In [7]:
soup = BeautifulSoup(html, features="html.parser")

# use class to narrow search
month = soup.find_all('li',{"class": "month"})
print(month)
for m in month:
    print(m.get_text())

[<li class="month">一月</li>, <li class="feb month">二月</li>, <li class="month">三月</li>, <li class="month">四月</li>, <li class="month">五月</li>]
一月
二月
三月
四月
五月


**或者使用一些有用的函数来查找标签。使用键访问找到的标签的属性，就像在 python 字典中所做的那样。**

In [12]:

jan = soup.find('ul', {"class": 'jan'})  
d_jan = jan.find_all('li')              
for d in d_jan:
    print(d.get_text())


一月一号
一月二号
一月三号


In [13]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

# 如果是中文网页，需要解码，添加 decode('utf-8')
html = urlopen("https://www.runoob.com/markdown/md-tutorial.html").read().decode('utf-8')
# 使用 BeautifulSoup 解析html
soup = BeautifulSoup(html, 'html.parser')
format_html = soup.prettify()
print(format_html)

<!DOCTYPE html>
<html>
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <title>
   Markdown 教程 | 菜鸟教程
  </title>
  <meta content="max-image-preview:large" name="robots"/>
  <style>
   img:is([sizes="auto" i], [sizes^="auto," i]) { contain-intrinsic-size: 3000px 1500px }
  </style>
  <link href="http://www.runoob.com/markdown/md-tutorial.html" rel="canonical"/>
  <meta content="Markdown 教程,markdown" name="keywords"/>
  <meta content="Markdown 教程   Markdown 是一种轻量级标记语言，它允许人们使用易读易写的纯文本格式编写文档。 Markdown 语言在 2004 由约翰·格鲁伯（英语：John Gruber）创建。 Markdown 的设计理念是'易读易写'，让人们能够使用简单的纯文本格式来编写结构化文档。 Markdown 编写的文档可以导出 HTML 、Word、图像、PDF、Epub 等多种格式的文档。  Markdown.." name="description"/>
  <link href="https://static.jyshare.com/images/favicon.ico" rel="shortcut icon"/>
  <link href="/wp-content/themes/runoob/style.css?v=1.187" media="all" rel="stylesheet" type="text/css">
   <link href="https://static.jysh

In [58]:
soup = BeautifulSoup(format_html, features="html.parser")

# 使用类缩小搜索范围
herf_class = soup.find_all('ul',{"class":"double-li"})
# print(herf_class)
# 提取所有信息
link_data = [(link.get('href'), link.get('title'), link.get_text(strip=True)) 
             for ul in herf_class 
             for link in ul.find_all('a')]

# 打印结果
for href, title, text in link_data:
    print(f"链接: {href}")
    print(f"标题: {title}")
    print(f"文本: {text}")
    print("-" * 50)

herf_list = soup.find_all('a')
# print(herf_list,end='\n\n')

#提取所有类型的链接
# all_herf = [l['href'] for l in herf_list if l['href'].startswith('http') or 'www' in l['href']]
all_herf = [
    'https:' + l['href'] if l['href'].startswith('//') else l['href']
    for l in herf_list
    if l['href'].startswith('http') or 'www' in l['href']
]

for he in all_herf:
    print("链接地址："+he)

链接: //www.runoob.com/html/html-tutorial.html
标题: HTML 教程
文本: HTML 教程
--------------------------------------------------
链接: //www.runoob.com/html/html5-intro.html
标题: HTML5 教程
文本: HTML5 教程
--------------------------------------------------
链接: //www.runoob.com/css/css-tutorial.html
标题: CSS 教程
文本: CSS 教程
--------------------------------------------------
链接: //www.runoob.com/css3/css3-tutorial.html
标题: CSS3 教程
文本: CSS3 教程
--------------------------------------------------
链接: //www.runoob.com/tailwindcss/tailwindcss-tutorial.html
标题: Tailwind CSS 教程
文本: Tailwind CSS 教程
--------------------------------------------------
链接: //www.runoob.com/bootstrap4/bootstrap4-tutorial.html
标题: Bootstrap4 教程
文本: Bootstrap4 教程
--------------------------------------------------
链接: //www.runoob.com/bootstrap5/bootstrap5-tutorial.html
标题: Bootstrap5 教程
文本: Bootstrap5 教程
--------------------------------------------------
链接: //www.runoob.com/font-awesome/fontawesome-tutorial.html
标题: Font Awesome 教程
文本: Fo