# Pandas

In [1]:
import pandas as pd
import numpy as np

## Series

In [2]:
s=pd.Series([1,3,5])
s

0    1
1    3
2    5
dtype: int64

In [3]:
s=pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [4]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [5]:
s.values

array([ 1.,  3.,  5., nan,  6.,  8.])

In [6]:
s[3]

nan

In [7]:
s[2:5]

2    5.0
3    NaN
4    6.0
dtype: float64

In [8]:
s[::2]

0    1.0
2    5.0
4    6.0
dtype: float64

In [9]:
s.index.name='索引'
s

索引
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [10]:
s.index=list('abcdef')
s

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

In [11]:
s['a':'c']   #字符串切片，右边也是闭合

a    1.0
b    3.0
c    5.0
dtype: float64

## DataFrame

In [12]:
date=pd.date_range('20180101',periods=6)
print(date)

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')


In [13]:
df=pd.DataFrame(np.random.randn(6,4))   #二维数组来传入数据
df

Unnamed: 0,0,1,2,3
0,0.310146,-0.404985,1.196727,-1.183107
1,-1.287908,1.369649,0.823171,0.686869
2,0.007892,1.435484,-0.328321,0.06392
3,-0.887596,0.610645,0.800587,-0.091656
4,0.146208,-0.330618,-0.106347,-0.003795
5,1.042481,-0.885282,1.264616,-0.99389


In [14]:
df=pd.DataFrame(np.random.randn(6,4),index=date,columns=list('ABCD'))   #指定行、列的索引
df

Unnamed: 0,A,B,C,D
2018-01-01,1.183538,-0.61103,0.942018,0.352902
2018-01-02,0.151798,0.668326,0.316707,0.465136
2018-01-03,0.904615,-1.228282,-0.775492,0.765023
2018-01-04,0.558301,0.585779,-3.431127,1.345288
2018-01-05,-0.053255,0.204921,0.822799,0.499416
2018-01-06,-0.341952,-0.445952,0.50323,-1.240451


In [15]:
df2=pd.DataFrame({'A':1.,'B':pd.Timestamp('20181001'),'C':pd.Series(1,index=list(range(4)),dtype=float),'D':np.array([3]*4,dtype=int),'E':pd.Categorical(['test','train','test','train']),'F':'abc'})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2018-10-01,1.0,3,test,abc
1,1.0,2018-10-01,1.0,3,train,abc
2,1.0,2018-10-01,1.0,3,test,abc
3,1.0,2018-10-01,1.0,3,train,abc


## 查看数据

In [16]:
df.head()

Unnamed: 0,A,B,C,D
2018-01-01,1.183538,-0.61103,0.942018,0.352902
2018-01-02,0.151798,0.668326,0.316707,0.465136
2018-01-03,0.904615,-1.228282,-0.775492,0.765023
2018-01-04,0.558301,0.585779,-3.431127,1.345288
2018-01-05,-0.053255,0.204921,0.822799,0.499416


In [17]:
df.tail(3)

Unnamed: 0,A,B,C,D
2018-01-04,0.558301,0.585779,-3.431127,1.345288
2018-01-05,-0.053255,0.204921,0.822799,0.499416
2018-01-06,-0.341952,-0.445952,0.50323,-1.240451


In [18]:
df.index   #查看行标签

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')

In [26]:
df.columns   #查看列标签值

Index(['A', 'B', 'C', 'D'], dtype='object')

## 读取与操作数据

In [33]:
df=pd.read_excel(r'material/movie-list.xlsx')   #r 表示不需要转义

In [35]:
df.tail(5)

Unnamed: 0,序号,电影名,评分,电影产地,上映时间,电影主演,豆瓣链接
163,164,圣剑天骄,0.0,电影产地： 香港,上映时间： 1986,"电影主演: 鞠觉亮 , 刘德华 , 张卫健 , 庄静而",https://movie.douban.com/subject/19945745/?fro...
164,165,追龙 追龍,0.0,电影产地： 香港,上映时间： 2018,"电影主演: 王晶 , 甄子丹 , 刘德华 , 郑则仕",https://movie.douban.com/subject/26425068/?fro...
165,166,神犬小七 第三季,0.0,电影产地： 中国大陆,上映时间： 2017,"电影主演: 袁晓满 , 姜潮 , 宋妍霏 , 王洋",https://movie.douban.com/subject/26910950/?fro...
166,167,热血合唱团 熱血合唱團,0.0,电影产地： 香港,上映时间： 香港,"电影主演: 剧情 , 2017 , 关信辉 , 刘德华",https://movie.douban.com/subject/26991880/?fro...
167,168,鼓舞,0.0,电影产地： 香港,上映时间： 暂无,"电影主演: 香港 , 1985 , 刘德华 , 毛舜筠",https://movie.douban.com/subject/3408346/?from...


In [36]:
df.iloc[0]

序号                                                      1
电影名                                           星星同学会 星星同學會
评分                                                    8.9
电影产地                                            电影产地： 香港 
上映时间                                          上映时间：  脱口秀 
电影主演                        电影主演:  2009 , 杨家宝 , 吴君如 , 钱嘉乐
豆瓣链接    https://movie.douban.com/subject/26426069/?fro...
Name: 0, dtype: object

In [37]:
df.iloc[0:5]

Unnamed: 0,序号,电影名,评分,电影产地,上映时间,电影主演,豆瓣链接
0,1,星星同学会 星星同學會,8.9,电影产地： 香港,上映时间： 脱口秀,"电影主演: 2009 , 杨家宝 , 吴君如 , 钱嘉乐",https://movie.douban.com/subject/26426069/?fro...
1,2,无间道(正序版),8.7,电影产地： 香港,上映时间： 2006,"电影主演: 刘伟强 , 刘德华 , 梁朝伟 , 黎明",https://movie.douban.com/subject/4860078/?from...
2,3,暗战 暗戰,8.4,电影产地： 香港,上映时间： 1999,"电影主演: 杜琪峰 , 刘德华 , 刘青云 , 蒙嘉慧",https://movie.douban.com/subject/1298898/?from...
3,4,异域 異域,8.3,电影产地： 台湾,上映时间： 1990,"电影主演: 朱延平 , 庹宗华 , 刘德华 , 郎雄",https://movie.douban.com/subject/1307756/?from...
4,5,金鸡,8.1,电影产地： 香港,上映时间： 2002,"电影主演: 赵良骏 , 吴君如 , 曾志伟 , 陈奕迅",https://movie.douban.com/subject/1303630/?from...


In [38]:
df.loc[0:5]  #比iloc多一行

Unnamed: 0,序号,电影名,评分,电影产地,上映时间,电影主演,豆瓣链接
0,1,星星同学会 星星同學會,8.9,电影产地： 香港,上映时间： 脱口秀,"电影主演: 2009 , 杨家宝 , 吴君如 , 钱嘉乐",https://movie.douban.com/subject/26426069/?fro...
1,2,无间道(正序版),8.7,电影产地： 香港,上映时间： 2006,"电影主演: 刘伟强 , 刘德华 , 梁朝伟 , 黎明",https://movie.douban.com/subject/4860078/?from...
2,3,暗战 暗戰,8.4,电影产地： 香港,上映时间： 1999,"电影主演: 杜琪峰 , 刘德华 , 刘青云 , 蒙嘉慧",https://movie.douban.com/subject/1298898/?from...
3,4,异域 異域,8.3,电影产地： 台湾,上映时间： 1990,"电影主演: 朱延平 , 庹宗华 , 刘德华 , 郎雄",https://movie.douban.com/subject/1307756/?from...
4,5,金鸡,8.1,电影产地： 香港,上映时间： 2002,"电影主演: 赵良骏 , 吴君如 , 曾志伟 , 陈奕迅",https://movie.douban.com/subject/1303630/?from...
5,6,爱在阳光下 愛在陽光下,8.1,电影产地： 香港,上映时间： 2003,"电影主演: 刘德华 , 刘德华 , 郑秀文 , 林子祥",https://movie.douban.com/subject/3798935/?from...


In [39]:
dit={'序号':'3','电影名':'复仇啊复仇','评分':'6.5','电影产地':'电影产地：火星','上映时间':'上映时间：2055','电影主演':'电影主演：筷子兄弟','豆瓣链接':'https://5.com'}
s=pd.Series(dit)
s.name=300

In [40]:
s

序号                  3
电影名             复仇啊复仇
评分                6.5
电影产地          电影产地：火星
上映时间        上映时间：2055
电影主演        电影主演：筷子兄弟
豆瓣链接    https://5.com
Name: 300, dtype: object

In [41]:
df=df.append(s)
df[-5:]

Unnamed: 0,序号,电影名,评分,电影产地,上映时间,电影主演,豆瓣链接
164,165,追龙 追龍,0.0,电影产地： 香港,上映时间： 2018,"电影主演: 王晶 , 甄子丹 , 刘德华 , 郑则仕",https://movie.douban.com/subject/26425068/?fro...
165,166,神犬小七 第三季,0.0,电影产地： 中国大陆,上映时间： 2017,"电影主演: 袁晓满 , 姜潮 , 宋妍霏 , 王洋",https://movie.douban.com/subject/26910950/?fro...
166,167,热血合唱团 熱血合唱團,0.0,电影产地： 香港,上映时间： 香港,"电影主演: 剧情 , 2017 , 关信辉 , 刘德华",https://movie.douban.com/subject/26991880/?fro...
167,168,鼓舞,0.0,电影产地： 香港,上映时间： 暂无,"电影主演: 香港 , 1985 , 刘德华 , 毛舜筠",https://movie.douban.com/subject/3408346/?from...
300,3,复仇啊复仇,6.5,电影产地：火星,上映时间：2055,电影主演：筷子兄弟,https://5.com


In [42]:
df=df.drop([300])
df[-5:]

Unnamed: 0,序号,电影名,评分,电影产地,上映时间,电影主演,豆瓣链接
163,164,圣剑天骄,0,电影产地： 香港,上映时间： 1986,"电影主演: 鞠觉亮 , 刘德华 , 张卫健 , 庄静而",https://movie.douban.com/subject/19945745/?fro...
164,165,追龙 追龍,0,电影产地： 香港,上映时间： 2018,"电影主演: 王晶 , 甄子丹 , 刘德华 , 郑则仕",https://movie.douban.com/subject/26425068/?fro...
165,166,神犬小七 第三季,0,电影产地： 中国大陆,上映时间： 2017,"电影主演: 袁晓满 , 姜潮 , 宋妍霏 , 王洋",https://movie.douban.com/subject/26910950/?fro...
166,167,热血合唱团 熱血合唱團,0,电影产地： 香港,上映时间： 香港,"电影主演: 剧情 , 2017 , 关信辉 , 刘德华",https://movie.douban.com/subject/26991880/?fro...
167,168,鼓舞,0,电影产地： 香港,上映时间： 暂无,"电影主演: 香港 , 1985 , 刘德华 , 毛舜筠",https://movie.douban.com/subject/3408346/?from...
