# Pandas

In [4]:
import pandas as pd
import numpy as np

## 基本数据结构

- `Series`
    - 一维数组，能保存不同种数据类型
- `DataFrame`
    - `Series` 容器 

默认下标是数字

In [8]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
print('-' * 50)

s = pd.Series([1, 3, 5, np.nan, 6, 8], index=['a', 'b', 'c', 'd', 'e', 'f'])
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
--------------------------------------------------
a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64


In [19]:
s.index = [2, 4, 8 ,10, 5, 6]  # 随便起的
s

2     1.0
4     3.0
8     5.0
10    NaN
5     6.0
6     8.0
dtype: float64

In [22]:
s.index = ['a', 'b', 'c', 'd', 'e', 'f']
s

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

## 索引行标签

In [9]:
s.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

## 取值

In [10]:
s.values

array([ 1.,  3.,  5., nan,  6.,  8.])

In [11]:
s[0]

1.0

## 切片

In [13]:
s[2:5]

c    5.0
d    NaN
e    6.0
dtype: float64

In [14]:
s[2:]

c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

In [15]:
s[::2]

a    1.0
c    5.0
e    6.0
dtype: float64

## 索引赋值

In [23]:
s.index.name = "啊这"
s

啊这
a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

In [25]:
s['a': 'c']

啊这
a    1.0
b    3.0
c    5.0
dtype: float64

<font color='red'>
    注意这里不是左闭右开
             

## DataFrame

In [26]:
date = pd.date_range('20180101', periods=6)
date

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')

二维数组传数据

In [28]:
df = pd.DataFrame(np.random.randn(6, 4), columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,0.950989,1.176706,-0.56289,0.695487
1,0.244875,0.533781,0.982731,0.565945
2,-0.956888,-0.391869,0.216026,0.13799
3,-0.186703,-0.71473,-2.172319,2.488095
4,-0.784752,-0.801912,0.571258,-2.085292
5,1.332211,1.571756,0.48253,-0.535059


字典传数据

In [35]:
df2 = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20180101'),
    'C' : pd.Series(1, index=list(range(4)), dtype=float),
    'D' : np.array([3] * 4, dtype=int),
    'E' : pd.Categorical(['test', 'train', 'test',  'train']),
    'F' : 'abc'
})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2018-01-01,1.0,3,test,abc
1,1.0,2018-01-01,1.0,3,train,abc
2,1.0,2018-01-01,1.0,3,test,abc
3,1.0,2018-01-01,1.0,3,train,abc


## 查看格列数据类型

In [40]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float64
D             int32
E          category
F            object
dtype: object

key 作为 Index, value 是可以转换为 Series 的对象

## 查看数据

In [36]:
df.head()  # 默认为5

Unnamed: 0,A,B,C,D
0,0.950989,1.176706,-0.56289,0.695487
1,0.244875,0.533781,0.982731,0.565945
2,-0.956888,-0.391869,0.216026,0.13799
3,-0.186703,-0.71473,-2.172319,2.488095
4,-0.784752,-0.801912,0.571258,-2.085292


In [38]:
df.head(3)

Unnamed: 0,A,B,C,D
0,0.950989,1.176706,-0.56289,0.695487
1,0.244875,0.533781,0.982731,0.565945
2,-0.956888,-0.391869,0.216026,0.13799


In [37]:
df.tail()

Unnamed: 0,A,B,C,D
1,0.244875,0.533781,0.982731,0.565945
2,-0.956888,-0.391869,0.216026,0.13799
3,-0.186703,-0.71473,-2.172319,2.488095
4,-0.784752,-0.801912,0.571258,-2.085292
5,1.332211,1.571756,0.48253,-0.535059


## 下标，列标，数据

In [41]:
df.index

RangeIndex(start=0, stop=6, step=1)

In [42]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [43]:
df.values

array([[ 0.95098933,  1.17670567, -0.56289018,  0.69548685],
       [ 0.24487512,  0.53378071,  0.98273122,  0.56594515],
       [-0.95688819, -0.39186938,  0.21602577,  0.1379901 ],
       [-0.18670275, -0.71472961, -2.17231929,  2.48809491],
       [-0.78475231, -0.80191233,  0.57125831, -2.08529212],
       [ 1.3322115 ,  1.57175629,  0.48252999, -0.53505911]])

## 读取数据、数据操作

In [45]:
df = pd.read_excel(r"豆瓣电影数据.xlsx")
df.head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


## 行操作

In [47]:
df.iloc[0]

Unnamed: 0                      0
名字                         肖申克的救赎
投票人数                     692795.0
类型                          剧情/犯罪
产地                             美国
上映时间          1994-09-10 00:00:00
时长                            142
年代                           1994
评分                            9.6
首映地点                       多伦多电影节
Name: 0, dtype: object

In [48]:
df.iloc[0:5]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


loc : 闭区间

In [49]:
df.loc[0:5]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆


## 添加一行

In [88]:
dit = {
    '名字': "AAA",
    '投票人数' : 5555,
    '类型': "kkk",
    '产地' : 'uuu',
    '时长' : 5555,
    '年代' : 10255,
    '评分' : np.nan,
    '首映地点' : "iiii"
}
s = pd.Series(dit)
s.name = 38738
s

名字        AAA
投票人数     5555
类型        kkk
产地        uuu
时长       5555
年代      10255
评分        NaN
首映地点     iiii
Name: 38738, dtype: object

In [89]:
df = df.append(s)
df.tail()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38734,38734.0,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,38735.0,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,38736.0,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,38737.0,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国
38738,,AAA,5555.0,kkk,uuu,,5555,10255,,iiii


## 删除一行

In [58]:
df = df.drop([38738])
df.tail()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38733,38733.0,神学院 S,46.0,Adult,法国,1905-06-05 00:00:00,58,1983,8.6,美国
38734,38734.0,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,38735.0,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,38736.0,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,38737.0,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国


## 列操作

In [59]:
df.columns

Index(['Unnamed: 0', '名字', '投票人数', '类型', '产地', '上映时间', '时长', '年代', '评分',
       '首映地点'],
      dtype='object')

In [63]:
df['名字'][:5]

0    肖申克的救赎
1      控方证人
2     美丽人生 
3      阿甘正传
4      霸王别姬
Name: 名字, dtype: object

In [70]:
df[['名字', '年代']][:5]

Unnamed: 0,名字,年代
0,肖申克的救赎,1994
1,控方证人,1957
2,美丽人生,1997
3,阿甘正传,1994
4,霸王别姬,1993


<font color='red'>
    注意这里传入列表
             

## 增加一列

In [72]:
df['序号'] = range(1, len(df) + 1)
df.head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点,序号
0,0.0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节,1
1,1.0,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国,2
2,2.0,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利,3
3,3.0,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映,4
4,4.0,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港,5


## 删除一列

In [73]:
df = df.drop('序号', axis=1)

In [74]:
df.head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1.0,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2.0,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3.0,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4.0,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


注意是 `axis=1`

## 通过标签选择数据

In [75]:
df.loc[1, '名字']

'控方证人'

In [76]:
df.loc[[1, 3, 5, 7, 9], ['名字', '评分']]

Unnamed: 0,名字,评分
1,控方证人,9.5
3,阿甘正传,9.4
5,泰坦尼克号,9.4
7,新世纪福音战士剧场版：Air/真心为你 新世紀エヴァンゲリオン劇場版 Ai,9.4
9,这个杀手不太冷,9.4


## 条件选择

In [79]:
df[df['产地'] == '美国'].head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1.0,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,3.0,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
5,5.0,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆
6,6.0,辛德勒的名单,306904.0,剧情/历史/战争,美国,1993-11-30 00:00:00,195,1993,9.4,华盛顿首映


In [81]:
df[(df.产地 == '美国') & (df.评分 > 9)].head() 

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1.0,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,3.0,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
5,5.0,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆
6,6.0,辛德勒的名单,306904.0,剧情/历史/战争,美国,1993-11-30 00:00:00,195,1993,9.4,华盛顿首映


<font color='red'>
    注意这里中间不能用 and 必须用 &

In [84]:
df[((df.产地 == '美国') | (df.产地 == '中国大陆')) & (df.评分 > 9)].head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1.0,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,3.0,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4.0,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,5.0,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆


## 缺失值及异常值处理

1. dropna
    - 剔除缺失值
2. fillna
    - 填充
3. isnull
    - 返回布尔值对象
4. notnull

## 判断缺失值

In [86]:
df['名字'].isnull()

0        False
1        False
2        False
3        False
4        False
         ...  
38733    False
38734    False
38735    False
38736    False
38737    False
Name: 名字, Length: 38738, dtype: bool

In [87]:
df[df['名字'].isnull()]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
231,231.0,,144.0,纪录片/音乐,韩国,2011-02-02 00:00:00,90,2011,9.7,美国
361,361.0,,80.0,短片,其他,1905-05-17 00:00:00,4,1964,5.7,美国
369,369.0,,5315.0,剧情,日本,2004-07-10 00:00:00,111,2004,7.5,日本
372,372.0,,263.0,短片/音乐,英国,1998-06-30 00:00:00,34,1998,9.2,美国
374,374.0,,47.0,短片,其他,1905-05-17 00:00:00,3,1964,6.7,美国
...,...,...,...,...,...,...,...,...,...,...
38523,38523.0,,2190.0,动作/恐怖/战争,日本,1905-06-27 00:00:00,85,2005,7.0,美国
38555,38555.0,,32.0,纪录片,美国,1905-06-19 00:00:00,88,1997,8.1,美国
38560,38560.0,,49.0,纪录片/音乐,美国,2004-09-25 00:00:00,107,2004,8.4,美国
38643,38643.0,,62.0,恐怖,美国,2003-12-30 00:00:00,90,2003,5.2,美国


## 填充缺失值

最好用于数值型

In [90]:
df[df['评分'].isnull()][:10]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38738,,AAA,5555.0,kkk,uuu,,5555,10255,,iiii


In [91]:
df['评分'].fillna(np.mean(df['评分']), inplace=True)  # inplace 保证在原始数据上修改

In [92]:
df.tail()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38734,38734.0,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,38735.0,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,38736.0,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,38737.0,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国
38738,,AAA,5555.0,kkk,uuu,,5555,10255,6.935704,iiii


用于object型

In [96]:
df1 = df['名字'].fillna("未知电影")
df1[df1.isnull()]

Series([], Name: 名字, dtype: object)

## 删除缺失值

In [None]:
df.dropna(how='all', inplace=True, axis=0)  # how='all' : 删除全为0的

## 处理异常值

In [97]:
df[df['投票人数'] < 0]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
19777,19777.0,皇家大贼 皇家大,-80.0,剧情/犯罪,中国香港,1985-05-31 00:00:00,60,1985,6.3,美国
19786,19786.0,日本的垃圾去中国大陆 にっぽんの“ゴミ” 大陆へ渡る ～中国式リサイクル錬,-80.0,纪录片,日本,1905-06-26 00:00:00,60,2004,7.9,美国
19797,19797.0,女教徒,-118.0,剧情,法国,1966-05-06 00:00:00,135,1966,7.8,美国


In [99]:
df[df['投票人数'] % 1 != 0]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
19791,19791.0,女教师 女教,8.3,剧情/犯罪,日本,1977-10-29 00:00:00,100,1977,6.6,日本
19804,19804.0,女郎漫游仙境 ドレミファ娘の血は騒,5.9,喜剧/歌舞,日本,1985-11-03 00:00:00,80,1985,6.7,日本
19820,19820.0,女仆日记,12.87,剧情,法国,2015-04-01 00:00:00,96,2015,5.7,法国
38055,38055.0,逃出亚卡拉,12.87,剧情/动作/惊悚/犯罪,美国,1979-09-20 00:00:00,112,1979,7.8,美国


In [105]:
# df = df[df['投票人数'] > 0 & df['投票人数'] % 1 == 0]  # 不好使的~
df = df[df['投票人数'] > 0]
df = df[df['投票人数'] % 1 == 0]

In [106]:
df[df['投票人数'] < 0]
df[df['投票人数'] % 1 != 0]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点


## 数据保存

In [107]:
df.to_excel(r"movie_data.xlsx")