# python数据分析之Panads-1

## 1.1 Panads基本介绍 

Python Data Analysis Library 或 Pandas是基于Numpy的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

In [None]:
import pandas as pd
import numpy as np

### Pandas 基本数据结构 

``pandas``有两种常用的基本结构：
+ ``Series``
    + 一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很接近。Series**能保存不同种数据类型**，字符串、boolean值、数字等都能保存在Series中。
+ ``DataFrame``
    + 二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。

## 1.2 Pandas库的series类型 

一维``Series``可以用一维列表初始化：

In [2]:

index = ['a','b','c','d','x','y'] #设置索引，np.nan设置空值
s = pd.Series([1,3.,.5,np.nan,'a',8],index=index)
print(s)

a      1
b    3.0
c    0.5
d    NaN
x      a
y      8
dtype: object


默认情况下，``Series``的下标都是数字（可以使用额外参数指定），类型是统一的。

### 索引——数据的行标签 

In [3]:
s.index #从0到6（不含），1为步长

Index(['a', 'b', 'c', 'd', 'x', 'y'], dtype='object')

### 值

In [4]:
s.values

array([1, 3.0, 0.5, nan, 'a', 8], dtype=object)

In [5]:
s[3]

nan

切片操作

In [6]:
s[2:5] #左闭右开

c    0.5
d    NaN
x      a
dtype: object

In [7]:
s[::2]

a      1
c    0.5
x      a
dtype: object

索引赋值

In [8]:
s.index.name = '索引'
s

索引
a      1
b    3.0
c    0.5
d    NaN
x      a
y      8
dtype: object

In [9]:
s.index = list('abcdef')
s

a      1
b    3.0
c    0.5
d    NaN
e      a
f      8
dtype: object

In [10]:
s['a':'c':2] #依据自己定义的数据类型进行切片，不是左闭右开了

a      1
c    0.5
dtype: object

## 1.3 Pandas库的DataFrame类型

``DataFrame``则是个二维结构，这里首先构造一组时间序列，作为我们第一维的下标：

In [11]:
date = pd.date_range("20180101", periods = 6)
print(date)

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')


然后创建一个``DataFrame``结构：

In [12]:
df = pd.DataFrame(np.random.rand(6,4), index = date, columns = list("ABCD"))
df

Unnamed: 0,A,B,C,D
2018-01-01,0.998863,0.786803,0.185481,0.344101
2018-01-02,0.471519,0.800805,0.617044,0.515511
2018-01-03,0.800896,0.895762,0.244006,0.2335
2018-01-04,0.11155,0.782777,0.635288,0.014344
2018-01-05,0.874008,0.399089,0.659809,0.333214
2018-01-06,0.146069,0.728675,0.454346,0.13007


默认情况下，如果不指定``index``参数和``columns``，那么它们的值将从用0开始的数字替代。

In [13]:
df = pd.DataFrame(np.random.randn(6,4))
df

Unnamed: 0,0,1,2,3
0,-0.058836,-0.696291,-0.390801,1.300397
1,-0.040135,0.312233,-0.890659,0.038763
2,-0.328185,0.524442,-0.873945,-0.4631
3,0.776411,-1.337035,0.854793,2.768461
4,-1.361704,-0.584474,-0.13286,-0.455166
5,-0.353041,1.064109,2.063375,-0.598316


除了向``DataFrame``中传入二维数组，我们也可以使用字典传入数据：

In [14]:
df2 = pd.DataFrame({'A':1.,'B':pd.Timestamp("20181001"),'C':pd.Series(1,index = list(range(4)),dtype = float),'D':np.array([3]*4, dtype = int),'E':pd.Categorical(["test","train","test","train"]),'F':list("abcd")}) #B:时间戳,E分类类型
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2018-10-01,1.0,3,test,a
1,1.0,2018-10-01,1.0,3,train,b
2,1.0,2018-10-01,1.0,3,test,c
3,1.0,2018-10-01,1.0,3,train,d


In [15]:
# df2[0,0]='a'
# print(df2)
df2.dtypes #查看各个列的数据类型

A           float64
B    datetime64[ns]
C           float64
D             int64
E          category
F            object
dtype: object

字典的每个``key``代表一列，其``value``可以是各种能够转化为``Series``的对象。

与``Series``要求所有的类型都一致，``DataFrame``只要求每一列数据的格式相同。

### 查看数据 

#### 头尾数据

``head``和``tail``方法可以分别查看最前面几行和最后面几行的数据（默认为5）：

In [16]:
df.head()

Unnamed: 0,0,1,2,3
0,-0.058836,-0.696291,-0.390801,1.300397
1,-0.040135,0.312233,-0.890659,0.038763
2,-0.328185,0.524442,-0.873945,-0.4631
3,0.776411,-1.337035,0.854793,2.768461
4,-1.361704,-0.584474,-0.13286,-0.455166


最后3行：

In [17]:
df.tail(3)

Unnamed: 0,0,1,2,3
3,0.776411,-1.337035,0.854793,2.768461
4,-1.361704,-0.584474,-0.13286,-0.455166
5,-0.353041,1.064109,2.063375,-0.598316


### 下标，列标，数据 

下标使用``index``属性查看：

In [18]:
df.index

RangeIndex(start=0, stop=6, step=1)

列标使用``columns``属性查看：

In [19]:
df.columns

RangeIndex(start=0, stop=4, step=1)

数据值使用``values``查看：

In [20]:
df.values

array([[-0.05883648, -0.69629135, -0.390801  ,  1.30039693],
       [-0.04013481,  0.31223294, -0.89065907,  0.03876265],
       [-0.3281849 ,  0.52444208, -0.8739455 , -0.46310046],
       [ 0.7764113 , -1.33703538,  0.85479306,  2.76846071],
       [-1.36170401, -0.584474  , -0.13285964, -0.45516632],
       [-0.35304066,  1.06410936,  2.06337544, -0.5983163 ]])

## 1.4 pandas读取数据及数据操作 

我们将以豆瓣的电影数据作为我们深入了解Pandas的一个示例。

In [21]:
df = pd.read_excel(r"豆瓣电影数据.xlsx",index_col = 0) 
#csv:read_csv;绝对路径或相对路径默认在当前文件夹下。r告诉编译器不需要转义
#具体其它参数可以去查帮助文档 ?pd.read_excel

In [22]:
df.head()

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


### 行操作 

In [23]:
df.iloc[1]

名字                     控方证人
投票人数                42995.0
类型                 剧情/悬疑/犯罪
产地                       美国
上映时间    1957-12-17 00:00:00
时长                      116
年代                     1957
评分                      9.5
首映地点                     美国
Name: 1, dtype: object

In [24]:
df.iloc[0:5] #左闭右开

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


也可以使用loc

In [25]:
df.loc[0:5] #不是左闭右开

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆


####  添加一行

In [26]:
dit = {"名字":"复仇者联盟3","投票人数":123456,"类型":"剧情/科幻","产地":"美国","上映时间":"2018-05-04 00:00:00","时长":142,"年代":2018,"评分":np.nan,"首映地点":"美国"}
s = pd.Series(dit)
s.name = 38738

In [27]:
s

名字                   复仇者联盟3
投票人数                 123456
类型                    剧情/科幻
产地                       美国
上映时间    2018-05-04 00:00:00
时长                      142
年代                     2018
评分                      NaN
首映地点                     美国
Name: 38738, dtype: object

In [28]:
df = df.append(s) #覆盖掉原来的数据重新进行赋值
df[-5:]

  df = df.append(s) #覆盖掉原来的数据重新进行赋值


Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38734,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国
38738,复仇者联盟3,123456.0,剧情/科幻,美国,2018-05-04 00:00:00,142,2018,,美国


#### 删除一行 

In [29]:
df = df.drop([38738])
df[-5:]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38733,神学院 S,46.0,Adult,法国,1905-06-05 00:00:00,58,1983,8.6,美国
38734,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国


### 列操作 

In [30]:
df.columns

Index(['名字', '投票人数', '类型', '产地', '上映时间', '时长', '年代', '评分', '首映地点'], dtype='object')

In [31]:
df["名字"][:5] #后面中括号表示只想看到的行数，下同

0    肖申克的救赎
1      控方证人
2     美丽人生 
3      阿甘正传
4      霸王别姬
Name: 名字, dtype: object

In [32]:
df[["名字","类型"]][:5]

Unnamed: 0,名字,类型
0,肖申克的救赎,剧情/犯罪
1,控方证人,剧情/悬疑/犯罪
2,美丽人生,剧情/喜剧/爱情
3,阿甘正传,剧情/爱情
4,霸王别姬,剧情/爱情/同性


#### 增加一列 

In [33]:
df["序号"] = range(1,len(df)+1) #生成序号的基本方式
df[:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点,序号
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节,1
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国,2
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利,3
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映,4
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港,5


#### 删除一列

In [34]:
df = df.drop("序号",axis = 1) #axis指定方向，0为行1为列，默认为0
df[:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


#### 通过标签选择数据
``df.loc[[index],[colunm]]``通过标签选择数据

In [35]:
df.loc[1,"名字"]

'控方证人'

In [36]:
df.loc[[1,3,5,7,9],["名字","评分"]] #多行跳行多列跳列选择

Unnamed: 0,名字,评分
1,控方证人,9.5
3,阿甘正传,9.4
5,泰坦尼克号,9.4
7,新世纪福音战士剧场版：Air/真心为你 新世紀エヴァンゲリオン劇場版 Ai,9.4
9,这个杀手不太冷,9.4


### 条件选择 

#### 选取产地为美国的所有电影 

In [37]:
df[df["产地"] == "美国"][:5] #内部为bool

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆
6,辛德勒的名单,306904.0,剧情/历史/战争,美国,1993-11-30 00:00:00,195,1993,9.4,华盛顿首映


#### 选取产地为美国的所有电影，并且评分大于9分的电影

In [38]:
df[(df.产地 == "美国") & (df.评分 > 9)][:5] #df.标签:更简洁的写法

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆
6,辛德勒的名单,306904.0,剧情/历史/战争,美国,1993-11-30 00:00:00,195,1993,9.4,华盛顿首映


#### 选取产地为美国或中国大陆的所有电影，并且评分大于9分

In [39]:
df[((df.产地 == "美国") | (df.产地 == "中国大陆")) & (df.评分 > 9)][:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆


## 1.5 缺失值及异常值处理 

### 缺失值处理方法：
|**方法**|**说明**|
|-:|-:|
|**dropna**|根据标签中的缺失值进行过滤，删除缺失值|
|**fillna**|对缺失值进行填充|
|**isnull**|返回一个布尔值对象，判断哪些值是缺失值|
|**notnull**|isnull的否定式|

### 判断缺失值

In [40]:
df[-2:-1]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38736,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国


In [41]:
df[df["名字"].isnull()][:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
231,,144.0,纪录片/音乐,韩国,2011-02-02 00:00:00,90,2011,9.7,美国
361,,80.0,短片,其他,1905-05-17 00:00:00,4,1964,5.7,美国
369,,5315.0,剧情,日本,2004-07-10 00:00:00,111,2004,7.5,日本
372,,263.0,短片/音乐,英国,1998-06-30 00:00:00,34,1998,9.2,美国
374,,47.0,短片,其他,1905-05-17 00:00:00,3,1964,6.7,美国


In [42]:
df[df["名字"].notnull()][:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


### 填充缺失值 

In [43]:
df["评分"]

0        9.6
1        9.5
2        9.5
3        9.4
4        9.4
        ... 
38733    8.6
38734    7.6
38735    7.1
38736    8.0
38737    6.6
Name: 评分, Length: 38738, dtype: float64

In [44]:
df[df["评分"].isnull()]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点


In [45]:
df[df["评分"].isnull()][:10] #注意这里特地将前面加入的复仇者联盟令其评分缺失来举例

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点


In [46]:
df["评分"].fillna(np.mean(df["评分"]), inplace = True) #使用均值来进行替代，inplace意为直接在原始数据中进行修改
df[-5:]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38733,神学院 S,46.0,Adult,法国,1905-06-05 00:00:00,58,1983,8.6,美国
38734,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国


In [47]:
df1 = df.fillna("未知电影") #谨慎使用，除非确定所有的空值都是在一列中，否则所有的空值都会填成这个
#不可采用df["名字"].fillna("未知电影")的形式，因为填写后数据格式就变了，变成Series了

In [48]:
df1[df1["名字"].isnull()][:10]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点


### 删除缺失值

```python
df.dropna() 参数

how = 'all':删除全为空值的行或列
inplace = True: 覆盖之前的数据
axis = 0: 选择行或列，默认是行
```

In [49]:
len(df)

38738

In [50]:
df2 = df.dropna()

In [51]:
len(df2)

38175

In [52]:
df.dropna(inplace = True)

In [53]:
len(df) #inplace覆盖掉原来的值

38175

### 处理异常值

异常值，即在数据集中存在不合理的值，又称离群点。比如年龄为-1，笔记本电脑重量为1吨等，都属于异常值的范围。

In [54]:
df[df["投票人数"] < 0] #直接删除，或者找原始数据来修正都行

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
19777,皇家大贼 皇家大,-80.0,剧情/犯罪,中国香港,1985-05-31 00:00:00,60,1985,6.3,美国
19786,日本的垃圾去中国大陆 にっぽんの“ゴミ” 大陆へ渡る ～中国式リサイクル錬,-80.0,纪录片,日本,1905-06-26 00:00:00,60,2004,7.9,美国
19797,女教徒,-118.0,剧情,法国,1966-05-06 00:00:00,135,1966,7.8,美国


In [55]:
df[df["投票人数"] % 1 != 0] #小数异常值

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
19791,女教师 女教,8.3,剧情/犯罪,日本,1977-10-29 00:00:00,100,1977,6.6,日本
19804,女郎漫游仙境 ドレミファ娘の血は騒,5.9,喜剧/歌舞,日本,1985-11-03 00:00:00,80,1985,6.7,日本
19820,女仆日记,12.87,剧情,法国,2015-04-01 00:00:00,96,2015,5.7,法国
38055,逃出亚卡拉,12.87,剧情/动作/惊悚/犯罪,美国,1979-09-20 00:00:00,112,1979,7.8,美国


**对于异常值，一般来说数量都会很少，在不影响整体数据分布的情况下，我们直接删除就可以了**

**其他属性的异常值处理，我们会在格式转换部分，进一步讨论**

In [56]:
df = df[df.投票人数 > 0]
df = df[df["投票人数"] % 1 == 0]

## 1.6 数据保存 

### 数据处理之后，然后将数据重新保存到movie_data.xlsx 

In [57]:
df.to_excel("movie_data.xlsx") #默认路径为现在文件夹所在的路径

KeyboardInterrupt: 