# 一、CSS选择器

Beautiful Soup还提供了另外一种选择器，那就是CSS选择器。CSS选择器可以参考http://www.w3school.com.cn/cssref/css_selectors.asp了解。

CSS是层叠样式表(英文全称：Cascading Style Sheets)是一种用来表现HTML（标准通用标记语言的一个应用）或XML（标准通用标记语言的一个子集）等文件样式的计算机语言。CSS不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。 [1] 

在网络爬虫的页面解析中，CCS选择器实际上是一把效率甚高的利器。

使用CSS选择器的优势：

使用CSS选择器时，只需要调用select()方法，传入相应的CSS选择器即可。

In [57]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.select('.panel .panel-heading'))

[<div class="panel-heading">
<h4>Hello</h4>
</div>]


In [63]:
print(soup.select('ul li'))

[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>, <li class="element">Foo</li>, <li class="element">Bar</li>]


In [62]:
print(soup.select('#list-2 .element'))

[<li class="element">Foo</li>, <li class="element">Bar</li>]


In [5]:
print(type(soup.select('ul')[0]))

<class 'bs4.element.Tag'>


这里我们用了3次CSS选择器，返回的结果均是符合CSS选择器的节点组成的列表。例如，select('ul li')则是选择所有ul节点下面的所有li节点，结果便是所有的li节点组成的列表。

这里我们用了3次CSS选择器，返回的结果均是符合CSS选择器的节点组成的列表。例如，select('ul li')则是选择所有ul节点下面的所有li节点，结果便是所有的li节点组成的列表。

最后一句打印输出了列表中元素的类型。可以看到，类型依然是Tag类型。

# 二、CSS基本语法

### 1、元素选择器：

直接选择文档元素：比如head，p

### 2、类选择器

## <img src="图1.png">

### 3、ID选择器：

## <img src="图2.png">

### 4、属性选择器：

## <img src="图3.png">

### 5、后代（包含）选择器：

## <img src="图4.png">

### 6、子元素选择器：

## <img src="图5.png">

# 四、CSS选择器的使用方法介绍

## 1、嵌套选择

select()方法支持嵌套选择。例如，先选择所有ul节点，再遍历每个ul节点，选择其li节点，样例如下：

In [65]:
html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''

'\n<div class="panel">\n    <div class="panel-heading">\n        <h4>Hello</h4>\n    </div>\n    <div class="panel-body">\n        <ul class="list" id="list-1">\n            <li class="element">Foo</li>\n            <li class="element">Bar</li>\n            <li class="element">Jay</li>\n        </ul>\n        <ul class="list list-small" id="list-2">\n            <li class="element">Foo</li>\n            <li class="element">Bar</li>\n        </ul>\n    </div>\n</div>\n'

In [81]:
soup.select('.element')

[<li class="element">Foo</li>,
 <li class="element">Bar</li>,
 <li class="element">Jay</li>,
 <li class="element">Foo</li>,
 <li class="element">Bar</li>]

In [66]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')

In [67]:
soup.select('ul')#选择出了所有标签为ul的，以列表形式存储

[<ul class="list" id="list-1">
 <li class="element">Foo</li>
 <li class="element">Bar</li>
 <li class="element">Jay</li>
 </ul>, <ul class="list list-small" id="list-2">
 <li class="element">Foo</li>
 <li class="element">Bar</li>
 </ul>]

In [69]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.select('ul'):
    print(ul.select('li'))

[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>]
[<li class="element">Foo</li>, <li class="element">Bar</li>]


In [73]:
[u.string for u in soup.select('ul')[0].select('li')]

['Foo', 'Bar', 'Jay']

这里正常输出了所有ul节点下所有li节点组成的列表。

## 2、获取属性值

节点类型是Tag类型，所以获取属性还可以用原来的方法。仍然是上面的HTML文本，这里尝试获取每个ul节点的id属性：

In [8]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
soup.select('ul')

[<ul class="list" id="list-1">
 <li class="element">Foo</li>
 <li class="element">Bar</li>
 <li class="element">Jay</li>
 </ul>, <ul class="list list-small" id="list-2">
 <li class="element">Foo</li>
 <li class="element">Bar</li>
 </ul>]

In [74]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for ul in soup.select('ul'):
    print(ul['class'])
    

['list']
['list', 'list-small']


直接传入中括号和属性名，以及通过attrs属性获取属性值，都可以成功。

## 3、获取文本

要获取文本，当然也可以用前面所讲的string属性。此外，还有一个方法，那就是get_text()，示例如下

In [77]:
soup.select('li')[0].string

'Foo'

In [13]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
for li in soup.select('li'):
    print('Get Text:', li.get_text())
    print('String:', li.string)

Get Text: Foo
String: Foo
Get Text: Bar
String: Bar
Get Text: Jay
String: Jay
Get Text: Foo
String: Foo
Get Text: Bar
String: Bar


到此，Beautiful Soup的用法基本就介绍完了，最后做一下简单的总结。

1）推荐使用lxml解析库，必要时使用html.parser。

2）节点选择筛选功能弱但是速度快。

3）建议使用find()或者find_all()查询匹配单个结果或者多个结果。

4）如果对CSS选择器熟悉的话，可以使用select()方法选择。

# 三、实践案例

使用CSS选择器来爬取猫眼电影TOP100榜

In [12]:
##1、爬取一页

In [37]:
import requests
url='https://maoyan.com/board/4?offset=0'
headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
res=requests.get(url,headers=headers,proxies=proxies)
print(res.status_code)

200


In [39]:
import requests
url='https://maoyan.com/board'
headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
res=requests.get(url,headers=headers,proxies=proxies)
print(res.status_code)

200


In [40]:
print(res.text)
html=res.text

<!DOCTYPE html>

<!--[if IE 8]><html class="ie8"><![endif]-->
<!--[if IE 9]><html class="ie9"><![endif]-->
<!--[if gt IE 9]><!--><html><!--<![endif]-->
<head>
  <title>热映口碑榜 - 猫眼电影 - 一网打尽好电影</title>
  
  <link rel="dns-prefetch" href="//p0.meituan.net"  />
  <link rel="dns-prefetch" href="//p1.meituan.net"  />
  <link rel="dns-prefetch" href="//ms0.meituan.net" />
  <link rel="dns-prefetch" href="//s0.meituan.net" />
  <link rel="dns-prefetch" href="//ms1.meituan.net" />
  <link rel="dns-prefetch" href="//analytics.meituan.com" />
  <link rel="dns-prefetch" href="//report.meituan.com" />
  <link rel="dns-prefetch" href="//frep.meituan.com" />

  
  <meta charset="utf-8">
  <meta name="keywords" content="猫眼电影,电影排行榜,热映口碑榜,最受期待榜,国内票房榜,北美票房榜,猫眼TOP100">
  <meta name="description" content="猫眼电影热门榜单,包括热映口碑榜,最受期待榜,国内票房榜,北美票房榜,猫眼TOP100,多维度为用户进行选片决策">
  <meta http-equiv="cleartype" content="yes" />
  <meta http-equiv="X-UA-Compatible" content="IE=edge" />
  <meta name="renderer" content="webkit"

In [23]:
#使用CSS解析

In [41]:
soup=BeautifulSoup(html,'lxml')
print(soup)

<!DOCTYPE html>
<!--[if IE 8]><html class="ie8"><![endif]--><!--[if IE 9]><html class="ie9"><![endif]--><!--[if gt IE 9]><!--><html><!--<![endif]-->
<head>
<title>热映口碑榜 - 猫眼电影 - 一网打尽好电影</title>
<link href="//p0.meituan.net" rel="dns-prefetch"/>
<link href="//p1.meituan.net" rel="dns-prefetch"/>
<link href="//ms0.meituan.net" rel="dns-prefetch"/>
<link href="//s0.meituan.net" rel="dns-prefetch"/>
<link href="//ms1.meituan.net" rel="dns-prefetch"/>
<link href="//analytics.meituan.com" rel="dns-prefetch"/>
<link href="//report.meituan.com" rel="dns-prefetch"/>
<link href="//frep.meituan.com" rel="dns-prefetch"/>
<meta charset="utf-8"/>
<meta content="猫眼电影,电影排行榜,热映口碑榜,最受期待榜,国内票房榜,北美票房榜,猫眼TOP100" name="keywords"/>
<meta content="猫眼电影热门榜单,包括热映口碑榜,最受期待榜,国内票房榜,北美票房榜,猫眼TOP100,多维度为用户进行选片决策" name="description"/>
<meta content="yes" http-equiv="cleartype"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="webkit" name="renderer"/>
<meta content="true" name="HandheldFriendly"/>

In [44]:
soup.select('dd p')

[<p class="name"><a data-act="boarditem-click" data-val="{movieId:1277939}" href="/films/1277939" title="我和我的祖国">我和我的祖国</a></p>,
 <p class="star">
                 主演：黄渤,张译,韩昊霖
         </p>,
 <p class="releasetime">上映时间：2019-09-30</p>,
 <p class="score"><i class="integer">9.</i><i class="fraction">7</i></p>,
 <p class="name"><a data-act="boarditem-click" data-val="{movieId:1190122}" href="/films/1190122" title="叶问4：完结篇">叶问4：完结篇</a></p>,
 <p class="star">
                 主演：甄子丹,吴樾,吴建豪
         </p>,
 <p class="releasetime">上映时间：2019-12-20</p>,
 <p class="score"><i class="integer">9.</i><i class="fraction">4</i></p>,
 <p class="name"><a data-act="boarditem-click" data-val="{movieId:416}" href="/films/416" title="盗梦空间">盗梦空间</a></p>,
 <p class="star">
                 主演：莱昂纳多·迪卡普里奥,渡边谦,约瑟夫·高登-莱维特
         </p>,
 <p class="releasetime">上映时间：2010-09-01</p>,
 <p class="score"><i class="integer">9.</i><i class="fraction">2</i></p>,
 <p class="name"><a data-act="boarditem-click" data-val="{mo

In [50]:
soup.select('dd p a')#通过select嵌套选择出p节点，第一个电影的名字

[<a data-act="boarditem-click" data-val="{movieId:1277939}" href="/films/1277939" title="我和我的祖国">我和我的祖国</a>,
 <a data-act="boarditem-click" data-val="{movieId:1190122}" href="/films/1190122" title="叶问4：完结篇">叶问4：完结篇</a>,
 <a data-act="boarditem-click" data-val="{movieId:416}" href="/films/416" title="盗梦空间">盗梦空间</a>,
 <a data-act="boarditem-click" data-val="{movieId:1279731}" href="/films/1279731" title="宠爱">宠爱</a>,
 <a data-act="boarditem-click" data-val="{movieId:1256872}" href="/films/1256872" title="为国而歌">为国而歌</a>,
 <a data-act="boarditem-click" data-val="{movieId:78003}" href="/films/78003" title="西游·降魔篇">西游·降魔篇</a>,
 <a data-act="boarditem-click" data-val="{movieId:337058}" href="/films/337058" title="不期而遇">不期而遇</a>,
 <a data-act="boarditem-click" data-val="{movieId:344809}" href="/films/344809" title="美容针">美容针</a>,
 <a data-act="boarditem-click" data-val="{movieId:1301459}" href="/films/1301459" title="海林都">海林都</a>,
 <a data-act="boarditem-click" data-val="{movieId:1263827}" href=

In [53]:
list1=[]
for s in soup.select('dd p a'):
    list1.append(s.string)

In [54]:
list1

['我和我的祖国',
 '叶问4：完结篇',
 '盗梦空间',
 '宠爱',
 '为国而歌',
 '西游·降魔篇',
 '不期而遇',
 '美容针',
 '海林都',
 '魔镜奇缘3']

In [27]:
soup.select('.star')

[<p class="star">
                 主演：张国荣,张丰毅,巩俐
         </p>, <p class="star">
                 主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿
         </p>, <p class="star">
                 主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼
         </p>, <p class="star">
                 主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特
         </p>, <p class="star">
                 主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩
         </p>, <p class="star">
                 主演：费雯·丽,克拉克·盖博,奥利维娅·德哈维兰
         </p>, <p class="star">
                 主演：周星驰,巩俐,郑佩佩
         </p>, <p class="star">
                 主演：费雯·丽,罗伯特·泰勒,露塞尔·沃特森
         </p>, <p class="star">
                 主演：连姆·尼森,拉尔夫·费因斯,本·金斯利
         </p>, <p class="star">
                 主演：周星驰,莫文蔚,张柏芝
         </p>]

In [28]:
soup.select('.star')[0].string.strip()#可以直接利用‘.属性名’

'主演：张国荣,张丰毅,巩俐'

In [29]:
soup.select('.releasetime')[0].string#提取出上映时间

'上映时间：1993-07-26'

In [30]:
soup.select('.score .integer')[0].string+soup.select('.score .fraction')[0].string#提取出评分

'9.5'

In [31]:
soup.select('dd p a')[0]['data-val']#提取属性data-val

'{movieId:1203}'

In [32]:
#以上分析均为提取第一条信息

In [33]:
#解析所有的电影名
title=[]
for i in range(len(soup.select('dd p a'))):
    title.append(soup.select('dd p a')[i].string)
    print(title)

['霸王别姬']
['霸王别姬', '肖申克的救赎']
['霸王别姬', '肖申克的救赎', '这个杀手不太冷']
['霸王别姬', '肖申克的救赎', '这个杀手不太冷', '罗马假日']
['霸王别姬', '肖申克的救赎', '这个杀手不太冷', '罗马假日', '泰坦尼克号']
['霸王别姬', '肖申克的救赎', '这个杀手不太冷', '罗马假日', '泰坦尼克号', '乱世佳人']
['霸王别姬', '肖申克的救赎', '这个杀手不太冷', '罗马假日', '泰坦尼克号', '乱世佳人', '唐伯虎点秋香']
['霸王别姬', '肖申克的救赎', '这个杀手不太冷', '罗马假日', '泰坦尼克号', '乱世佳人', '唐伯虎点秋香', '魂断蓝桥']
['霸王别姬', '肖申克的救赎', '这个杀手不太冷', '罗马假日', '泰坦尼克号', '乱世佳人', '唐伯虎点秋香', '魂断蓝桥', '辛德勒的名单']
['霸王别姬', '肖申克的救赎', '这个杀手不太冷', '罗马假日', '泰坦尼克号', '乱世佳人', '唐伯虎点秋香', '魂断蓝桥', '辛德勒的名单', '喜剧之王']


In [34]:
#解析所有的演员
star=[]
for i in range(len(soup.select('.star'))):
    star.append(soup.select('.star')[i].string.strip())
    print(star)

['主演：张国荣,张丰毅,巩俐']
['主演：张国荣,张丰毅,巩俐', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿']
['主演：张国荣,张丰毅,巩俐', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼']
['主演：张国荣,张丰毅,巩俐', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特']
['主演：张国荣,张丰毅,巩俐', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩']
['主演：张国荣,张丰毅,巩俐', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演：费雯·丽,克拉克·盖博,奥利维娅·德哈维兰']
['主演：张国荣,张丰毅,巩俐', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演：费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演：周星驰,巩俐,郑佩佩']
['主演：张国荣,张丰毅,巩俐', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演：费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演：周星驰,巩俐,郑佩佩', '主演：费雯·丽,罗伯特·泰勒,露塞尔·沃特森']
['主演：张国荣,张丰毅,巩俐', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演：莱昂纳多·迪卡普

In [35]:
#解析所有的上映时间
releasetime=[]
for i in range(len(soup.select('.releasetime'))):
    releasetime.append(soup.select('.releasetime')[i].string)
    print(releasetime)

['上映时间：1993-07-26']
['上映时间：1993-07-26', '上映时间：1994-09-10(加拿大)']
['上映时间：1993-07-26', '上映时间：1994-09-10(加拿大)', '上映时间：1994-09-14(法国)']
['上映时间：1993-07-26', '上映时间：1994-09-10(加拿大)', '上映时间：1994-09-14(法国)', '上映时间：1953-08-20(意大利)']
['上映时间：1993-07-26', '上映时间：1994-09-10(加拿大)', '上映时间：1994-09-14(法国)', '上映时间：1953-08-20(意大利)', '上映时间：1998-04-03']
['上映时间：1993-07-26', '上映时间：1994-09-10(加拿大)', '上映时间：1994-09-14(法国)', '上映时间：1953-08-20(意大利)', '上映时间：1998-04-03', '上映时间：1939-12-15(美国)']
['上映时间：1993-07-26', '上映时间：1994-09-10(加拿大)', '上映时间：1994-09-14(法国)', '上映时间：1953-08-20(意大利)', '上映时间：1998-04-03', '上映时间：1939-12-15(美国)', '上映时间：1993-07-01(中国香港)']
['上映时间：1993-07-26', '上映时间：1994-09-10(加拿大)', '上映时间：1994-09-14(法国)', '上映时间：1953-08-20(意大利)', '上映时间：1998-04-03', '上映时间：1939-12-15(美国)', '上映时间：1993-07-01(中国香港)', '上映时间：1940-05-17(美国)']
['上映时间：1993-07-26', '上映时间：1994-09-10(加拿大)', '上映时间：1994-09-14(法国)', '上映时间：1953-08-20(意大利)', '上映时间：1998-04-03', '上映时间：1939-12-15(美国)', '上映时间：1993-07-01(中国香港)', '上映时间：1940-05-17(美国)', '上映时间：1993-11-3

In [36]:
#解析所有的评分
score=[]
for i in range(len(soup.select('.score .integer'))):
    score.append(soup.select('.score .integer')[i].string+soup.select('.score .fraction')[i].string)
    print(score)

['9.5']
['9.5', '9.5']
['9.5', '9.5', '9.5']
['9.5', '9.5', '9.5', '9.0']
['9.5', '9.5', '9.5', '9.0', '9.4']
['9.5', '9.5', '9.5', '9.0', '9.4', '9.1']
['9.5', '9.5', '9.5', '9.0', '9.4', '9.1', '9.1']
['9.5', '9.5', '9.5', '9.0', '9.4', '9.1', '9.1', '9.2']
['9.5', '9.5', '9.5', '9.0', '9.4', '9.1', '9.1', '9.2', '9.2']
['9.5', '9.5', '9.5', '9.0', '9.4', '9.1', '9.1', '9.2', '9.2', '9.1']


In [37]:
#解析所有的movieId

In [38]:
movieId=[]
for i in range(len(soup.select('dd p a'))):
    movieId.append(soup.select('dd p a')[i]['data-val'])
    print(movieId)

['{movieId:1203}']
['{movieId:1203}', '{movieId:1297}']
['{movieId:1203}', '{movieId:1297}', '{movieId:4055}']
['{movieId:1203}', '{movieId:1297}', '{movieId:4055}', '{movieId:2641}']
['{movieId:1203}', '{movieId:1297}', '{movieId:4055}', '{movieId:2641}', '{movieId:267}']
['{movieId:1203}', '{movieId:1297}', '{movieId:4055}', '{movieId:2641}', '{movieId:267}', '{movieId:7431}']
['{movieId:1203}', '{movieId:1297}', '{movieId:4055}', '{movieId:2641}', '{movieId:267}', '{movieId:7431}', '{movieId:837}']
['{movieId:1203}', '{movieId:1297}', '{movieId:4055}', '{movieId:2641}', '{movieId:267}', '{movieId:7431}', '{movieId:837}', '{movieId:2760}']
['{movieId:1203}', '{movieId:1297}', '{movieId:4055}', '{movieId:2641}', '{movieId:267}', '{movieId:7431}', '{movieId:837}', '{movieId:2760}', '{movieId:3667}']
['{movieId:1203}', '{movieId:1297}', '{movieId:4055}', '{movieId:2641}', '{movieId:267}', '{movieId:7431}', '{movieId:837}', '{movieId:2760}', '{movieId:3667}', '{movieId:9025}']


In [39]:
#目前有5个字段：title、star、releasetime、score、movieId，下面使用csv模块导出即可。

In [40]:
movietopdata=list(zip(title,star,releasetime,score,movieId))#先使用zip进行压缩，然后变成列表的形式
print(movietopdata)

[('霸王别姬', '主演：张国荣,张丰毅,巩俐', '上映时间：1993-07-26', '9.5', '{movieId:1203}'), ('肖申克的救赎', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '上映时间：1994-09-10(加拿大)', '9.5', '{movieId:1297}'), ('这个杀手不太冷', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '上映时间：1994-09-14(法国)', '9.5', '{movieId:4055}'), ('罗马假日', '主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '上映时间：1953-08-20(意大利)', '9.0', '{movieId:2641}'), ('泰坦尼克号', '主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '上映时间：1998-04-03', '9.4', '{movieId:267}'), ('乱世佳人', '主演：费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '上映时间：1939-12-15(美国)', '9.1', '{movieId:7431}'), ('唐伯虎点秋香', '主演：周星驰,巩俐,郑佩佩', '上映时间：1993-07-01(中国香港)', '9.1', '{movieId:837}'), ('魂断蓝桥', '主演：费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '上映时间：1940-05-17(美国)', '9.2', '{movieId:2760}'), ('辛德勒的名单', '主演：连姆·尼森,拉尔夫·费因斯,本·金斯利', '上映时间：1993-11-30(美国)', '9.2', '{movieId:3667}'), ('喜剧之王', '主演：周星驰,莫文蔚,张柏芝', '上映时间：1999-02-13(中国香港)', '9.1', '{movieId:9025}')]


In [41]:
movietopdata[0]

('霸王别姬', '主演：张国荣,张丰毅,巩俐', '上映时间：1993-07-26', '9.5', '{movieId:1203}')

In [42]:
import pandas as pd

In [43]:
col=['title','star','releasetime','score','movieId']

In [44]:
topdata=pd.DataFrame(movietopdata,columns=col)

In [45]:
topdata.to_csv('topdata.csv',encoding='utf-8')