In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('./data/douban.csv')

# 设置数据输出时对齐


In [2]:
pd.set_option('display.unicode.east_asian_width', True)
print(df)

                             电影名        状态  评分  星级   
0                              狗神  nowplaying   8.3   4.5  \
1                            三大队  nowplaying   7.9   4.0   
2                              怒潮  nowplaying   NaN   NaN   
3            名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5   
4                              旺卡  nowplaying   7.6   4.0   
5                      涉过愤怒的海  nowplaying   7.5   4.0   
6                          瞒天过海  nowplaying   6.3   3.5   
7                          照明商店  nowplaying   6.5   3.5   
8                            爆裂点  nowplaying   6.5   3.5   
9                          月光武士  nowplaying   NaN   NaN   
10           饥饿游戏：鸣鸟与蛇之歌  nowplaying   7.0   3.5   
11                       我本是高山  nowplaying   NaN   NaN   
12                     再见，李可乐  nowplaying   6.7   3.5   
13                       河边的错误  nowplaying   7.3   4.0   
14                           拿破仑  nowplaying   6.5   3.5   
15   蜡笔小新：新次元！超能力大决战  nowplaying   8.1   4.0   
16                      

# Series对象

**pandas. Series(data, index=index)**
* data: 表示数据，支持列表、字典、numpy数组等
* index: 表示行标签(索引)


In [3]:
tmp = pd.Series([1, 2, 3, 4, 5])
print(tmp)

0    1
1    2
2    3
3    4
4    5
dtype: int64


## 手动设置索引


In [4]:
tmp = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(tmp)

a    1
b    2
c    3
d    4
e    5
dtype: int64


### 位置索引


In [5]:
tmp = pd.Series([10, 20, 30, 40, 50])
print(tmp[3])

40


### 标签索引


In [6]:
tmp = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'r', 'e'])
print(tmp['r'])

4


## 切片索引


In [7]:
tmp = pd.Series([1, 2, 3, 4, 5])
print(tmp[0:3])

tmp = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'q', 'd', 'e'])
print(tmp['q':'d'])

0    1
1    2
2    3
dtype: int64
q    3
d    4
dtype: int64


## index属性 values属性


In [8]:
tmp = pd.Series([1, 2, 36, 4, 5], index=['a', 'b', 'q', 'd', 'e'])
print(tmp.index)
print(tmp.values)

Index(['a', 'b', 'q', 'd', 'e'], dtype='object')
[ 1  2 36  4  5]


## Series常见属性

| 属性 | 说明 |
| ---- | --- |
| Series.index | 获取行索引(行标签) |
| Series.values | 返回包含数据的数组 |
| Series.dtype | 返回基础的数据类型对象 |
| Series.shape | 返回基础形状的元组 |
| Series.size | 返回元素个数 |


# DataFrame对象

**pandas. DataFrame(data, index, columns, dtype, copy)**
* data: 表示数据，可以是ndarray, 列表, 字典等
* index: 表示行标签(索引)
* columns: 表示列标签
* dtype: 每一列数据的数据类型，与Python的数据类型有区别
* copy: 用于复制数据


In [9]:
tmp = pd.DataFrame(data=[[1, 2, 3], [4, 5, 6], [7, 8, 9]],
                   index=[1, 2, 3],
                   columns=['a', 'b', 'c'])
print(tmp)

   a  b  c
1  1  2  3
2  4  5  6
3  7  8  9


## 数据类型比较

| Pandas数据类型 | Python数据类型 |
| ------------- | ------------- |
| object | str |
| int64 | int |
| float64 | float |
| bool | bool |
| datetime64 | datetime64[ns] |
| timedelta[ns] | NA |
| category | NA |


## 重要属性

| 属性 | 说明 | 举例 |
| ---- | ---- | ---- |
| values | 查看所有元素的值 | df.values |
| dtypes | 查看所有元素的类型 | df.dtypes |
| index | 查看所有行名(索引) | df.index |
| columns | 查看所有列名 | df.columns |
| T | 行列转换(转置) | df. T |
| head | 查看前n条数据，默认5条 | df.head()<br/>df.head(10) |
| tail | 查看后n条数据，默认5条 | df.tail()<br/>df.tail(10) |
| shape | 查看行列数 | df.shape |
| describe | 查看每列的统计汇总信息 | df.describe() |
| count | 返回每一列中非空值的个数 | df.count() |
| sum | 返回每一列的和，无法计算***会报错*** | df.sum() |
| max | 返回每一列的最大值 | df.max() |
| min | 返回每一列的最小值 | df.min() |
| argmax | 返回某一列最大值所在的行索引 | df.argmax() |
| argmin | 返回某一列最小值所在的行索引 | df.argmin() |
| idxmax | 返回某一列最大值所在的列索引 | df.idxmax() |
| idxmin | 返回某一列最小值所在的列索引 | df.idxmin() |
| mean | 返回每一列的平均值 | df.mean() |
| median | 返回每一列的中位数 | df.median() |
| var | 返回每一列的方差 | df.var() |
| std | 返回每一列的标准差 | df.std() |
| isnull | 检查df中的空值，空值为True，非空为False，返回布尔类型数组 | df.isnull() |
| notnull | 检查df中的空值，非空为True，空值为False，返回布尔类型数组 | df.notnull() |


In [10]:
print(df.values)
# print(df.values[0:3])
print(df.dtypes)

[['狗神' 'nowplaying' 8.3 4.5 '114分钟'
  '2023-12-15(中国大陆)/2023-08-31(威尼斯国际电影节)/2023-09-27(法国)/2023-10-15(平遥国际电影展)'
  '剧情' '法国 美国' '吕克·贝松' '卡莱伯·兰德里·琼斯 / 克里斯托弗·邓汉 / 马里莎·贝伦森'
  '被暴戾的父亲伤害、被囚禁在狗笼生活数年的道格（卡莱伯·兰德里·琼斯 饰），长大后只能与他的数百只狗相互陪伴。然而命运对他的摧残从未停止，在经历了家庭、爱情、生存的一系列痛苦打击后，道格化身为最危险艳丽的“狗神”杀手，和他的狗群一起，向所有伤害过他的人发起了绝不饶恕的复仇与反抗......'
  21292.0]
 ['三大队' 'nowplaying' 7.9 4.0 '132分钟'
  '2023-12-15(中国大陆)/2023-11-03(金鸡国产新片展)' '剧情/犯罪' '中国大陆' '戴墨'
  '张译 / 李晨 / 魏晨'
  '刑侦大队队长程兵（张译 饰）带领的三大队在办理一起恶性案件的过程中导致嫌犯之一意外死亡，被判入狱。出狱后依然坚持以普通人身份追踪在逃嫌犯。'
  59951.0]
 ['怒潮' 'nowplaying' nan nan '106分钟' '2023-12-16(中国大陆)' '剧情/动作/悬疑/犯罪'
  '中国大陆' '马浴柯' '张家辉 / 阮经天 / 王大陆'
  '横跨黑白两道只手遮天的洪泰集团正值换选之际，一个神秘杀手陈安（张家辉 饰）却突然只身闯入这个是非混乱的旋涡，搅得洪泰集团大乱。身处警察阵营的麦朗汶（阮经天 饰）和黑帮阵营的马文康（王大陆 饰）也盯上了他……各方势力伺机而动，谁才是幕后的操控者？一场生猛混战一触即发。'
  nan]
 ['名侦探柯南：黑铁的鱼影' 'nowplaying' 6.7 3.5 '110分钟'
  '2023-12-16(中国大陆)/2023-04-14(日本)' '动作/动画/悬疑/惊悚/犯罪/冒险' '日本' '立川让'
  '高山南 / 林原惠美 / 山崎和佳奈'
  '故事发生在东京八丈岛近海，一座将全球各地警方监控相连接的高科技设施——“太平洋浮标”即将启动。为了与欧洲刑警组织管辖的范围联网，来自世界各地的工程师聚集在这里。基于人脸识

In [11]:
print(df.index)
# print(type(df.index))
print(df.columns)

RangeIndex(start=0, stop=49, step=1)
Index(['电影名', '状态', '评分', '星级', '时长', '上映时间', '类型',
       '制片国家', '导演', '演员', '简介', '评价人数'],
      dtype='object')


In [12]:
print(df.T)

                                                                                                    0    
电影名                                                 狗神                                             \
状态                                             nowplaying                                              
评分                                                    8.3                                              
星级                                                    4.5                                              
时长                                                114分钟                                              
上映时间  2023-12-15(中国大陆)/2023-08-31(威尼斯国际电影节)/2023-09-...                                  
类型                                                   剧情                                              
制片国家                                          法国 美国                                              
导演                                              吕克·贝松                                    

In [13]:
print(df.head())
print(df.head(2))


                   电影名        状态  评分  星级     时长   
0                    狗神  nowplaying   8.3   4.5  114分钟  \
1                  三大队  nowplaying   7.9   4.0  132分钟   
2                    怒潮  nowplaying   NaN   NaN  106分钟   
3  名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5  110分钟   
4                    旺卡  nowplaying   7.6   4.0  116分钟   

                                                        上映时间   
0  2023-12-15(中国大陆)/2023-08-31(威尼斯国际电影节)/2023-09-...  \
1    2023-12-15(中国大陆)/2023-11-03(金鸡国产新片展)               
2                               2023-12-16(中国大陆)               
3              2023-12-16(中国大陆)/2023-04-14(日本)               
4  2023-12-08(中国大陆)/2023-12-06(中国台湾)/2023-12-15(美...      

                            类型          制片国家       导演   
0                           剧情         法国 美国  吕克·贝松  \
1                      剧情/犯罪          中国大陆       戴墨   
2            剧情/动作/悬疑/犯罪          中国大陆     马浴柯   
3  动作/动画/悬疑/惊悚/犯罪/冒险              日本     立川让   
4            喜剧/歌舞/奇幻/冒险  美国 英国 加拿大    保

In [14]:
print(df.tail())
print(df.tail(2))

            电影名      状态  评分  星级     时长   
44    年会不能停！  upcoming   NaN   NaN  117分钟  \
45    金色面具英雄  upcoming   NaN   NaN      NaN   
46          金手指  upcoming   NaN   NaN  125分钟   
47  一闪一闪亮星星  upcoming   NaN   NaN  107分钟   
48       非诚勿扰3  upcoming   NaN   NaN      NaN   

                                         上映时间            类型   
44                           2023-11-25(中国大陆)  剧情/悬疑/犯罪  \
45                           2023-12-08(中国大陆)  剧情/悬疑/犯罪   
46                           2023-12-08(中国大陆)  剧情/悬疑/奇幻   
47                           2023-12-08(中国大陆)       动作/犯罪   
48  2023-12-15(中国大陆)/2023-11-03(金鸡国际影展)            剧情   

             制片国家                  导演   
44           中国大陆                董润年  \
45    中国大陆 加拿大  肖恩·帕特里克·奥赖利   
46  中国香港 中国大陆                庄文强   
47           中国大陆           陈小明 章攀   
48           中国大陆                冯小刚   

                                               演员   
44                             大鹏 / 白客 / 庄达菲  \
45  朗·普尔曼 / 帕顿·奥斯瓦尔特 / 克里斯托弗·普卢默   
4

In [15]:
print(df.shape)

(49, 12)


In [16]:
print(df.describe())

            评分       星级       评价人数
count  28.000000  28.000000      36.000000
mean    6.717857   3.535714   66908.777778
std     1.219913   0.622548   99764.503864
min     2.400000   1.500000    1166.000000
25%     6.450000   3.500000   20425.500000
50%     6.700000   3.500000   31644.500000
75%     7.350000   4.000000   51508.250000
max     8.600000   4.500000  422227.000000


In [17]:
print(df.count())

电影名      49
状态        49
评分        28
星级        28
时长        44
上映时间    49
类型        49
制片国家    49
导演        47
演员        46
简介        49
评价人数    36
dtype: int64


In [18]:
print(df['评分'].sum())
print(df['评分'].max())
print(df['评分'].min())

188.1
8.6
2.4


In [19]:
print(df['评价人数'].argmax())
print(df['评价人数'].argmin())
print(df['评价人数'].idxmax())
print(df['评价人数'].idxmin())

31
30
31
30


In [20]:
print(df['评分'].mean())
print(df['评分'].median())
print(df['评分'].var())
print(df['评分'].std())

6.7178571428571425
6.7
1.488187830687831
1.2199130422648292


In [21]:
print(df.isnull())
print(df.notnull())

    电影名   状态   评分   星级   时长  上映时间   类型  制片国家   导演   
0    False  False  False  False  False     False  False     False  False  \
1    False  False  False  False  False     False  False     False  False   
2    False  False   True   True  False     False  False     False  False   
3    False  False  False  False  False     False  False     False  False   
4    False  False  False  False  False     False  False     False  False   
5    False  False  False  False  False     False  False     False  False   
6    False  False  False  False  False     False  False     False  False   
7    False  False  False  False  False     False  False     False  False   
8    False  False  False  False  False     False  False     False  False   
9    False  False   True   True  False     False  False     False  False   
10   False  False  False  False  False     False  False     False  False   
11   False  False   True   True  False     False  False     False  False   
12   False  False  False  False  Fa

## 导入数据


### 导入excel

**pandas.read_excel(io, sheet_name, header)**
* io: 文件路径或文件对象
* sheet_name: 工作表，值可以是None、字符串、整数或列表，默认值为0
    - sheet_name=0: 第一个Sheet页的数据作为DataFrame对象
    - sheet_name='Sheet1': 名为'Sheet1'的页的数据作为DataFrame对象
    - sheet_name=[0,1,'Sheet2']: 第一个，第二个，以及名为'Sheet2'的页的数据作为DataFrame对象
* header: 指定作为列名的行，默认值为0


In [22]:
tmp = pd.read_excel('./data/C++名单.xlsx', sheet_name='C++395人', header=1)
print(tmp)

     序号        学号    姓名                  学院    年级              专业   
0       1  2212080001  吕博宇  计算机与信息工程学院  2022级  计算机科学与技术  \
1       2  2212080069    周瑞  计算机与信息工程学院  2022级  计算机科学与技术   
2       3  1916020148  熊英杰  计算机与信息工程学院  2022级  计算机科学与技术   
3       4  2212080072  孙刚强  计算机与信息工程学院  2022级  计算机科学与技术   
4       5  2212080047  吴永贵  计算机与信息工程学院  2022级  计算机科学与技术   
..    ...         ...     ...                   ...     ...               ...   
394   395  2310120054  胡天姿  计算机与信息工程学院  2023级          计算机类   
395   396  2125050318    王可              软件学院  2021级          软件工程   
396   397  2212080153  黄景浩  计算机与信息工程学院  2022级  计算机科学与技术   
397   398  2212080160  魏文博  计算机与信息工程学院  2022级  计算机科学与技术   
398   399  2212080156  贾晨琦  计算机与信息工程学院  2022级  计算机科学与技术   

    性别           参赛分类           考场  
0     男  C/C++程序设计竞赛  计算机大楼201  
1     男  C/C++程序设计竞赛  计算机大楼201  
2     男  C/C++程序设计竞赛  计算机大楼201  
3     男  C/C++程序设计竞赛  计算机大楼201  
4     男  C/C++程序设计竞赛  计算机大楼201  
..   ...                ...            ..

### 导入csv

**pandas.read_csv(filepath, sep, header, encoding)**
* filepath: 文件路径
* sep: 指定分隔符，默认为逗号
* header: 指定作为列名的行，默认值为0
* encoding: 指定字符集，默认为'utf-8'


In [23]:
tmp = pd.read_csv('./data/douban.csv', sep=',', header=0, encoding='utf-8')
print(tmp)

                             电影名        状态  评分  星级   
0                              狗神  nowplaying   8.3   4.5  \
1                            三大队  nowplaying   7.9   4.0   
2                              怒潮  nowplaying   NaN   NaN   
3            名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5   
4                              旺卡  nowplaying   7.6   4.0   
5                      涉过愤怒的海  nowplaying   7.5   4.0   
6                          瞒天过海  nowplaying   6.3   3.5   
7                          照明商店  nowplaying   6.5   3.5   
8                            爆裂点  nowplaying   6.5   3.5   
9                          月光武士  nowplaying   NaN   NaN   
10           饥饿游戏：鸣鸟与蛇之歌  nowplaying   7.0   3.5   
11                       我本是高山  nowplaying   NaN   NaN   
12                     再见，李可乐  nowplaying   6.7   3.5   
13                       河边的错误  nowplaying   7.3   4.0   
14                           拿破仑  nowplaying   6.5   3.5   
15   蜡笔小新：新次元！超能力大决战  nowplaying   8.1   4.0   
16                      

### 导入html

**pandas.read_html(io, match, header, encoding)**
* io: 文件路径或URL
* match: 正则表达式，返回与正则表达式匹配的表格，默认为None
* header: 指定作为列名的行，默认值为0
* encoding: 指定字符集，默认为'utf-8'

`` `eg. 需要另一个名为lxml的库的帮助来解析HTML和XML文件` ``


In [63]:
tmp = pd.read_html('./data/测试.html', match='.*', header=0, encoding='utf-8')
print(type(tmp))
print(len(tmp))
print(tmp[0])
print(tmp[1])

<class 'list'>
2
  Programming Language             Creator  Year
0                    C      Dennis Ritchie  1972
1               Python    Guido Van Rossum  1989
2                 Ruby  Yukihiro Matsumoto  1995
   Area (sq.ft)  Price (USD)
0         12000          500
1         32000          700


## 数据抽取

* loc: 以行名和列名作为参数，当只有一个参数时，默认是行名
* iloc: 以行和列位置的***索引***作为参数，***0表示第一行***，当只有一个参数时，默认是行索引，抽取整行数据


### 单行数据


In [25]:
tmp = pd.DataFrame(data=[[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12],
                         [13, 15]],
                   index=['a', 'c', 'e', 'r', 'd'],
                   columns=['A', 'B', 'C'])

print(tmp.loc['d'])
print()
print(tmp.iloc[1])

A    13.0
B    15.0
C     NaN
Name: d, dtype: float64

A    4.0
B    5.0
C    6.0
Name: c, dtype: float64


### 多行数据


#### 连续数据

用冒号

loc: 为闭区间 [l, r]

iloc: 为开区间 [l, r)


In [26]:
print(tmp.loc['a':'r'], '\n')
print(tmp.iloc[0:3])

    A   B     C
a   1   2   3.0
c   4   5   6.0
e   7   8   9.0
r  10  11  12.0

   A  B    C
a  1  2  3.0
c  4  5  6.0
e  7  8  9.0


#### 离散数据(间隔的数据)

用列表


In [27]:
print(tmp.loc[['a', 'r']])
print()
print(tmp.iloc[[0, 4]])

    A   B     C
a   1   2   3.0
r  10  11  12.0

    A   B    C
a   1   2  3.0
d  13  15  NaN


### 单列数据


In [28]:
print(tmp.loc[:, 'A'])
print()
print(tmp.iloc[:, 0])
print()
print(tmp['A'])
print()
print(tmp.A)

a     1
c     4
e     7
r    10
d    13
Name: A, dtype: int64

a     1
c     4
e     7
r    10
d    13
Name: A, dtype: int64

a     1
c     4
e     7
r    10
d    13
Name: A, dtype: int64

a     1
c     4
e     7
r    10
d    13
Name: A, dtype: int64


### 多列数据


#### 连续数据

loc: 为闭区间 [l, r]

iloc: 为开区间 [l, r)


In [29]:
print(tmp.loc[:, 'A':'B'])
print()
print(tmp.iloc[:, 0:1])

    A   B
a   1   2
c   4   5
e   7   8
r  10  11
d  13  15

    A
a   1
c   4
e   7
r  10
d  13


#### 离散数据(间隔的数据)


In [30]:
print(tmp.loc[:, ['A', 'B']])
print()
print(tmp.iloc[:, [0, 1]])
print()
print(tmp[['A', 'C']])

    A   B
a   1   2
c   4   5
e   7   8
r  10  11
d  13  15

    A   B
a   1   2
c   4   5
e   7   8
r  10  11
d  13  15

    A     C
a   1   3.0
c   4   6.0
e   7   9.0
r  10  12.0
d  13   NaN


### 指定行列(多行多列)


In [31]:
print(tmp.loc['e', 'B'])
print()
print(tmp.iloc[2, 1])
print()
print(tmp.loc[['e', 'r'], ['B', 'C']])
print()
print(tmp.iloc[[2, 3], [1, 2]])

8

8

    B     C
e   8   9.0
r  11  12.0

    B     C
e   8   9.0
r  11  12.0


### 按条件抽取数据

* df[条件]
* df.loc[条件]
* df.query(expr, inplace=False, **kwargs)
  + expr: 条件表达式 如果列名中有特殊符号（如空格），需要用反引号
  + inplace: 是否原地修改


In [32]:
print(tmp.loc[(tmp['A'] > 7) & (tmp['B'] > 7)])
print()
print(tmp[(tmp['A'] > 7) | (tmp['B'] > 7)])
print()
print(tmp.query('`A`>7 & `B`>7'))

    A   B     C
r  10  11  12.0
d  13  15   NaN

    A   B     C
e   7   8   9.0
r  10  11  12.0
d  13  15   NaN

    A   B     C
r  10  11  12.0
d  13  15   NaN


## 增加数据


### 增加行


#### 一行


In [33]:
# 直接添加
tmp.loc['f'] = [1, 2, 3]
print(tmp, '\n')

# 利用已有数据添加
tmp.loc['f'] = tmp.loc['d'] + 1
print(tmp, '\n')

# 利用字典添加
tmp.loc['f'] = {'A': 456, 'B': 234, 'C': 31}
print(tmp, '\n')

    A   B     C
a   1   2   3.0
c   4   5   6.0
e   7   8   9.0
r  10  11  12.0
d  13  15   NaN
f   1   2   3.0 

    A   B     C
a   1   2   3.0
c   4   5   6.0
e   7   8   9.0
r  10  11  12.0
d  13  15   NaN
f  14  16   NaN 

     A    B     C
a    1    2   3.0
c    4    5   6.0
e    7    8   9.0
r   10   11  12.0
d   13   15   NaN
f  456  234  31.0 



#### 多行

**pandas.concat(objs, axis, join, keys, ignore_index)**
* objs: 参与链接的pandas对象的列表或字典。***唯一的必须参数***
* axis: 链接的轴向，0为行链接，1为列链接。默认为0。
* join: "inner", "outer", 指明其他轴向上的索引连接方式是交集(inner)还是并集(outer)。默认为"outer"。
* keys: 用于在连接轴上形成层次化的索引，默认为None。
    - 在连接轴上形成的索引，该连接轴上的索引用元组表示。
* ignore_index: 忽略原数据索引，重新建立0, 1, 2, 3... 的整数索引。默认为False。
* 其余参数详情可见 [pandas.concat用法详解](https://blog.csdn.net/Asher117/article/details/84799845)


In [34]:
d1 = pd.DataFrame(
    {
        'A': [123, 324, 4536, 2324],
        'B': [123, 324, 4536, 2324],
        'C': [123, 324, 4536, 2324]
    },
    index=['g', 'b', 'h', 'i'])

d2 = pd.DataFrame(
    {
        'A': [9, 8, 4, 2, 3],
        'C': [9, 8, 4, 2, 3],
        'D': [9, 8, 4, 2, 3]
    },
    index=['g', 'c', 'r', 'z', 'p'])

# axis=0时同理
d = pd.concat([d1, d2], axis=1, keys=['x', 'y'])
print(d, '\n')
print(d.loc[:, ('x', 'A'):('y', 'A')])

        x                    y          
        A       B       C    A    C    D
g   123.0   123.0   123.0  9.0  9.0  9.0
b   324.0   324.0   324.0  NaN  NaN  NaN
h  4536.0  4536.0  4536.0  NaN  NaN  NaN
i  2324.0  2324.0  2324.0  NaN  NaN  NaN
c     NaN     NaN     NaN  8.0  8.0  8.0
r     NaN     NaN     NaN  4.0  4.0  4.0
z     NaN     NaN     NaN  2.0  2.0  2.0
p     NaN     NaN     NaN  3.0  3.0  3.0 

        x                    y
        A       B       C    A
g   123.0   123.0   123.0  9.0
b   324.0   324.0   324.0  NaN
h  4536.0  4536.0  4536.0  NaN
i  2324.0  2324.0  2324.0  NaN
c     NaN     NaN     NaN  8.0
r     NaN     NaN     NaN  4.0
z     NaN     NaN     NaN  2.0
p     NaN     NaN     NaN  3.0


### 增加列


#### 直接添加


In [35]:
d[('x', 'E')] = [1, 2, 3, 4, 5, 6, 7, 8]
print(d, '\n')

        x                    y            x
        A       B       C    A    C    D  E
g   123.0   123.0   123.0  9.0  9.0  9.0  1
b   324.0   324.0   324.0  NaN  NaN  NaN  2
h  4536.0  4536.0  4536.0  NaN  NaN  NaN  3
i  2324.0  2324.0  2324.0  NaN  NaN  NaN  4
c     NaN     NaN     NaN  8.0  8.0  8.0  5
r     NaN     NaN     NaN  4.0  4.0  4.0  6
z     NaN     NaN     NaN  2.0  2.0  2.0  7
p     NaN     NaN     NaN  3.0  3.0  3.0  8 



#### 指定位置添加

**DataFrame.insert(location, column, value)**
* location: 插入列的位置。位置从0开始
* column: 插入列的列名。如果是层次化的索引(多层的)，需要用元组表示
* value: 插入列的值


In [36]:
d.insert(3, ('y', 'F'), [0, 9, 8, 7, 6, 5, 4, 3])
print(d, '\n')

        x                  y                 x
        A       B       C  F    A    C    D  E
g   123.0   123.0   123.0  0  9.0  9.0  9.0  1
b   324.0   324.0   324.0  9  NaN  NaN  NaN  2
h  4536.0  4536.0  4536.0  8  NaN  NaN  NaN  3
i  2324.0  2324.0  2324.0  7  NaN  NaN  NaN  4
c     NaN     NaN     NaN  6  8.0  8.0  8.0  5
r     NaN     NaN     NaN  5  4.0  4.0  4.0  6
z     NaN     NaN     NaN  4  2.0  2.0  2.0  7
p     NaN     NaN     NaN  3  3.0  3.0  3.0  8 



## 数据修改


### 修改标题


#### 行标题


In [37]:
# 方法1
d.index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
print(d, '\n')

# 方法2   inplace表示 是直接修改，还是返回修改后的对象
d.rename(mapper={
    'a': 'A',
    'b': 'B',
    'c': 'C',
    'd': 'D',
    'e': 'E',
    'f': 'F',
    'g': 'G',
    'h': 'H'
},
         inplace=True)
print(d)

        x                  y                 x
        A       B       C  F    A    C    D  E
a   123.0   123.0   123.0  0  9.0  9.0  9.0  1
b   324.0   324.0   324.0  9  NaN  NaN  NaN  2
c  4536.0  4536.0  4536.0  8  NaN  NaN  NaN  3
d  2324.0  2324.0  2324.0  7  NaN  NaN  NaN  4
e     NaN     NaN     NaN  6  8.0  8.0  8.0  5
f     NaN     NaN     NaN  5  4.0  4.0  4.0  6
g     NaN     NaN     NaN  4  2.0  2.0  2.0  7
h     NaN     NaN     NaN  3  3.0  3.0  3.0  8 

        x                  y                 x
        A       B       C  F    A    C    D  E
A   123.0   123.0   123.0  0  9.0  9.0  9.0  1
B   324.0   324.0   324.0  9  NaN  NaN  NaN  2
C  4536.0  4536.0  4536.0  8  NaN  NaN  NaN  3
D  2324.0  2324.0  2324.0  7  NaN  NaN  NaN  4
E     NaN     NaN     NaN  6  8.0  8.0  8.0  5
F     NaN     NaN     NaN  5  4.0  4.0  4.0  6
G     NaN     NaN     NaN  4  2.0  2.0  2.0  7
H     NaN     NaN     NaN  3  3.0  3.0  3.0  8


#### 列标题


In [38]:
# 方法1
d.columns = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
print(d, '\n')

# 方法2   inplace表示 是直接修改，还是返回修改后的对象
d.rename(columns={
    'A': 'a',
    'B': 'b',
    'C': 'c',
    'D': 'd',
    'E': 'e',
    'F': 'f',
    'G': 'g',
    'H': 'h'
},
         inplace=True)
print(d)

        A       B       C  D    E    F    G  H
A   123.0   123.0   123.0  0  9.0  9.0  9.0  1
B   324.0   324.0   324.0  9  NaN  NaN  NaN  2
C  4536.0  4536.0  4536.0  8  NaN  NaN  NaN  3
D  2324.0  2324.0  2324.0  7  NaN  NaN  NaN  4
E     NaN     NaN     NaN  6  8.0  8.0  8.0  5
F     NaN     NaN     NaN  5  4.0  4.0  4.0  6
G     NaN     NaN     NaN  4  2.0  2.0  2.0  7
H     NaN     NaN     NaN  3  3.0  3.0  3.0  8 

        a       b       c  d    e    f    g  h
A   123.0   123.0   123.0  0  9.0  9.0  9.0  1
B   324.0   324.0   324.0  9  NaN  NaN  NaN  2
C  4536.0  4536.0  4536.0  8  NaN  NaN  NaN  3
D  2324.0  2324.0  2324.0  7  NaN  NaN  NaN  4
E     NaN     NaN     NaN  6  8.0  8.0  8.0  5
F     NaN     NaN     NaN  5  4.0  4.0  4.0  6
G     NaN     NaN     NaN  4  2.0  2.0  2.0  7
H     NaN     NaN     NaN  3  3.0  3.0  3.0  8


### 修改数据


#### 单值


In [39]:
d.loc['E', 'b'] = 95
print(d, '\n')
d.iloc[5, 1] = 96
print(d, '\n')

        a       b       c  d    e    f    g  h
A   123.0   123.0   123.0  0  9.0  9.0  9.0  1
B   324.0   324.0   324.0  9  NaN  NaN  NaN  2
C  4536.0  4536.0  4536.0  8  NaN  NaN  NaN  3
D  2324.0  2324.0  2324.0  7  NaN  NaN  NaN  4
E     NaN    95.0     NaN  6  8.0  8.0  8.0  5
F     NaN     NaN     NaN  5  4.0  4.0  4.0  6
G     NaN     NaN     NaN  4  2.0  2.0  2.0  7
H     NaN     NaN     NaN  3  3.0  3.0  3.0  8 

        a       b       c  d    e    f    g  h
A   123.0   123.0   123.0  0  9.0  9.0  9.0  1
B   324.0   324.0   324.0  9  NaN  NaN  NaN  2
C  4536.0  4536.0  4536.0  8  NaN  NaN  NaN  3
D  2324.0  2324.0  2324.0  7  NaN  NaN  NaN  4
E     NaN    95.0     NaN  6  8.0  8.0  8.0  5
F     NaN    96.0     NaN  5  4.0  4.0  4.0  6
G     NaN     NaN     NaN  4  2.0  2.0  2.0  7
H     NaN     NaN     NaN  3  3.0  3.0  3.0  8 



#### 整行(列)


In [40]:
d.loc['G'] = [1, 2, 3, 4, 5, 6, 7, pd.NA]  #整行修改
print(d, '\n')

d.iloc[-1, :] = [pd.NA for _ in range(8)]  #整行修改
print(d, '\n')

d.loc[:, 'a'] = [pd.NA for _ in range(8)]  #整列修改
print(d, '\n')

d.iloc[:, -1] = [pd.NA for _ in range(8)]  #整列修改
print(d, '\n')


        a       b       c  d    e    f    g    h
A   123.0   123.0   123.0  0  9.0  9.0  9.0  1.0
B   324.0   324.0   324.0  9  NaN  NaN  NaN  2.0
C  4536.0  4536.0  4536.0  8  NaN  NaN  NaN  3.0
D  2324.0  2324.0  2324.0  7  NaN  NaN  NaN  4.0
E     NaN    95.0     NaN  6  8.0  8.0  8.0  5.0
F     NaN    96.0     NaN  5  4.0  4.0  4.0  6.0
G     1.0     2.0     3.0  4  5.0  6.0  7.0  NaN
H     NaN     NaN     NaN  3  3.0  3.0  3.0  8.0 

        a       b       c    d    e    f    g    h
A   123.0   123.0   123.0  0.0  9.0  9.0  9.0  1.0
B   324.0   324.0   324.0  9.0  NaN  NaN  NaN  2.0
C  4536.0  4536.0  4536.0  8.0  NaN  NaN  NaN  3.0
D  2324.0  2324.0  2324.0  7.0  NaN  NaN  NaN  4.0
E     NaN    95.0     NaN  6.0  8.0  8.0  8.0  5.0
F     NaN    96.0     NaN  5.0  4.0  4.0  4.0  6.0
G     1.0     2.0     3.0  4.0  5.0  6.0  7.0  NaN
H     NaN     NaN     NaN  NaN  NaN  NaN  NaN  NaN 

      a       b       c    d    e    f    g    h
A  <NA>   123.0   123.0  0.0  9.0  9.0  9.0  1.

## 数据删除

**DataFrame.drop(label, axis, index, columns, level, inplace, errors)**
* label：表示行或列标签。
* axis：0表示按行删除，1表示按列删除，默认0。
* index：删除行。
* columns：删除列。
* level：针对有两级索引的数据。
* inplace：对原数组作出修改并返回一个新数组，默认False，True表示直接替换原数组。
* errors：默认raise，ignore取消错误。


### 删除指定行/列


In [41]:
d.drop(['a'], axis=1, inplace=True)  # 删除'a'列
print(d, '\n')

d.drop(labels='h', axis=1, inplace=True)  # 删除'h'列
print(d, '\n')

d.drop(['A'], inplace=True)  # 删除'A'行
print(d, '\n')

d.drop(labels='B', axis=0, inplace=True)  # 删除'B'行
print(d, '\n')

        b       c    d    e    f    g     h
A   123.0   123.0  0.0  9.0  9.0  9.0  <NA>
B   324.0   324.0  9.0  NaN  NaN  NaN  <NA>
C  4536.0  4536.0  8.0  NaN  NaN  NaN  <NA>
D  2324.0  2324.0  7.0  NaN  NaN  NaN  <NA>
E    95.0     NaN  6.0  8.0  8.0  8.0  <NA>
F    96.0     NaN  5.0  4.0  4.0  4.0  <NA>
G     2.0     3.0  4.0  5.0  6.0  7.0  <NA>
H     NaN     NaN  NaN  NaN  NaN  NaN  <NA> 

        b       c    d    e    f    g
A   123.0   123.0  0.0  9.0  9.0  9.0
B   324.0   324.0  9.0  NaN  NaN  NaN
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
E    95.0     NaN  6.0  8.0  8.0  8.0
F    96.0     NaN  5.0  4.0  4.0  4.0
G     2.0     3.0  4.0  5.0  6.0  7.0
H     NaN     NaN  NaN  NaN  NaN  NaN 

        b       c    d    e    f    g
B   324.0   324.0  9.0  NaN  NaN  NaN
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
E    95.0     NaN  6.0  8.0  8.0  8.0
F    96.0     NaN  5.0  4.0  4.0  4.0
G     2.0     3.0  4.0  5.0  6

### 删除特定条件数据


In [42]:
tmp = d.drop(d[d['b'] < 10].index)  # 删除'b'的值小于10行
print(tmp, '\n')

tmp = d.drop(d[d['d'].isin([8, 6])].index)  # 删除'd'的值是8或6的行
print(tmp, '\n')

tmp = d.drop(d[d['c'].isna()].index)  # 删除'c'的值为空的行
print(tmp, '\n')

        b       c    d    e    f    g
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
E    95.0     NaN  6.0  8.0  8.0  8.0
F    96.0     NaN  5.0  4.0  4.0  4.0
H     NaN     NaN  NaN  NaN  NaN  NaN 

        b       c    d    e    f    g
D  2324.0  2324.0  7.0  NaN  NaN  NaN
F    96.0     NaN  5.0  4.0  4.0  4.0
G     2.0     3.0  4.0  5.0  6.0  7.0
H     NaN     NaN  NaN  NaN  NaN  NaN 

        b       c    d    e    f    g
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
G     2.0     3.0  4.0  5.0  6.0  7.0 



## 数据清洗


### 缺失值


In [43]:
print(d.isnull(), '\n')
print(d.notnull(), '\n')
print(d.isna())

       b      c      d      e      f      g
C  False  False  False   True   True   True
D  False  False  False   True   True   True
E  False   True  False  False  False  False
F  False   True  False  False  False  False
G  False  False  False  False  False  False
H   True   True   True   True   True   True 

       b      c      d      e      f      g
C   True   True   True  False  False  False
D   True   True   True  False  False  False
E   True  False   True   True   True   True
F   True  False   True   True   True   True
G   True   True   True   True   True   True
H  False  False  False  False  False  False 

       b      c      d      e      f      g
C  False  False  False   True   True   True
D  False  False  False   True   True   True
E  False   True  False  False  False  False
F  False   True  False  False  False  False
G  False  False  False  False  False  False
H   True   True   True   True   True   True


#### 删除


In [44]:
# 删除缺失值
tmp = df.iloc[0:10, 0:4].dropna(inplace=False)
print(tmp, '\n')

tmp = df[df['状态'] == 'nowplaying'].iloc[:, 0:4]
print(tmp, '\n')

# 选择b列中不为空的行
tmp = d[d['b'].notna()]
print(tmp, '\n')


                   电影名        状态  评分  星级
0                    狗神  nowplaying   8.3   4.5
1                  三大队  nowplaying   7.9   4.0
3  名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5
4                    旺卡  nowplaying   7.6   4.0
5            涉过愤怒的海  nowplaying   7.5   4.0
6                瞒天过海  nowplaying   6.3   3.5
7                照明商店  nowplaying   6.5   3.5
8                  爆裂点  nowplaying   6.5   3.5 

                             电影名        状态  评分  星级
0                              狗神  nowplaying   8.3   4.5
1                            三大队  nowplaying   7.9   4.0
2                              怒潮  nowplaying   NaN   NaN
3            名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5
4                              旺卡  nowplaying   7.6   4.0
5                      涉过愤怒的海  nowplaying   7.5   4.0
6                          瞒天过海  nowplaying   6.3   3.5
7                          照明商店  nowplaying   6.5   3.5
8                            爆裂点  nowplaying   6.5   3.5
9                          月光武士  nowpl

#### 填充

对于缺失值比例高于某个值，可以选择放弃该指标，进行删除处理
**DataFrame.fillna(value, method, axis, inplace, limit, downcast)**
* value：用于填充的空值的值。
* method： {'backfill', 'bfill', 'pad', 'ffill', None}, default None。
    - pad / ffill表示用前面行/列的值，填充当前行/列的空值
    - backfill / bfill表示用后面行/列的值，填充当前行/列的空值。
* axis：轴。0或'index'，表示按行删除；1或'columns'，表示按列删除。
* inplace：是否原地替换。布尔值，默认为False。如果为True，则在原DataFrame上进行操作，返回值为None。
* limit：int， default None。如果method被指定，对于连续的空值，这段连续区域，最多填充前 limit 个空值（如果存在多段连续区域，每段最多填充前 limit 个空值）。如果method未被指定， 在该axis下，最多填充前 limit 个空值（不论空值连续区间是否间断）
* downcast：dict, default is None，字典中的项为，为类型向下转换规则。或者为字符串“infer”，此时会在合适的等价类型之间进行向下转换，比如float64 to int64 if possible。


In [45]:
# 将状态为'upcoming'的行的评分中的空值设为0
tmp = df.copy()
tmp[tmp['状态'] == 'upcoming'] = tmp[tmp['状态'] == 'upcoming'].fillna(0)
print(tmp.iloc[:, 0:3], '\n')

                             电影名        状态  评分
0                              狗神  nowplaying   8.3
1                            三大队  nowplaying   7.9
2                              怒潮  nowplaying   NaN
3            名侦探柯南：黑铁的鱼影  nowplaying   6.7
4                              旺卡  nowplaying   7.6
5                      涉过愤怒的海  nowplaying   7.5
6                          瞒天过海  nowplaying   6.3
7                          照明商店  nowplaying   6.5
8                            爆裂点  nowplaying   6.5
9                          月光武士  nowplaying   NaN
10           饥饿游戏：鸣鸟与蛇之歌  nowplaying   7.0
11                       我本是高山  nowplaying   NaN
12                     再见，李可乐  nowplaying   6.7
13                       河边的错误  nowplaying   7.3
14                           拿破仑  nowplaying   6.5
15   蜡笔小新：新次元！超能力大决战  nowplaying   8.1
16                             热搜  nowplaying   6.3
17                       飞鸭向前冲  nowplaying   NaN
18                             星愿  nowplaying   6.7
19                    

#### 线性插值

**DataFrame.interpolate(method=‘linear', axis=0, limit=None, inplace=False, limit_direction=None, limit_area=None, downcast=None, \*\*kwargs)**
* method ： str，默认为 linear 使用插值方法。可用的插值方法：
    - linear：忽略索引，线性等距插值。这是MultiIndexes支持的唯一方法。
    - time: 在以天或者更高频率的数据上插入给定的时间间隔长度数据。
    - index, values: 使用索引的实际数值。
    - pad：使用现有值填写NaN。
    - nearest, zero, slinear, quadratic, cubic, spline, barycentric, polynomial: 传递给 scipy.interpolate.interp1d。这些方法使用索引的数值。polynomial 和 spline 都要求您还指定一个顺序（int），例如 ，df.interpolate(method='polynomial', order=5)
    - krogh, piecewise_polynomial, spline, pchip, akima：包括类似名称的SciPy插值方法。
    - from_derivatives：指 scipy.interpolate.BPoly.from_derivatives，它替换了scipy 0.18中的piecewise_polynomial插值方法。
* axis ： {0或'index', 1或'columns', None}, 默认为None；沿轴进行interpolate。
* limit ： int, 要填充的连续NaN的最大数量。必须大于0。
* inplace ： bool, 默认为False；如果可以，更新现有数据。
* limit_direction ： {'forward'，'backward'，'both'}，默认为 forward；如果指定了限制，则将沿该方向填充连续的NaN。
* limit_area ： {None, 'inside', 'outside'}, 默认为None；如果指定了限制，则连续的NaN将填充此限制。
    - None：无填充限制。
    - inside：仅填充有效值包围的NaN。
    - outside: 仅在有效值之外填充NaN。


In [46]:
tmp = df.loc[0:3, '电影名':'星级']
print(tmp)
tmp.interpolate(method='linear', axis=0, inplace=True)
tmp

                   电影名        状态  评分  星级
0                    狗神  nowplaying   8.3   4.5
1                  三大队  nowplaying   7.9   4.0
2                    怒潮  nowplaying   NaN   NaN
3  名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5


Unnamed: 0,电影名,状态,评分,星级
0,狗神,nowplaying,8.3,4.5
1,三大队,nowplaying,7.9,4.0
2,怒潮,nowplaying,7.3,3.75
3,名侦探柯南：黑铁的鱼影,nowplaying,6.7,3.5


#### 双线性插值

已知函数 f 在 Q11 = (x1, y1)、Q12 = (x1, y2), Q21 = (x2, y1) 以及 Q22 = (x2, y2) 四个点的值。求未知函数 f 在点 P = (x, y) 的值。
$$
f(x, y) = \frac{f(Q_{11})}{(x_2-x_1)(y_2-y_1)}(x_2-x)(y_2-y) +\frac{f(Q_{21})}{(x_2-x_1)(y_2-y_1)}(x-x_1)(y_2-y)+\frac{f(Q_{12})}{(x_2-x_1)(y_2-y_1)}(x_2-x)(y-y_1)
$$

![image.png](attachment:image.png)


### 重复值

对于数据中存在的重复数据，包括重复的行或者某几行中的某几列的值重复（视具体数据来定），一般做删除处理，主要使用drop_duplicates方法。


#### 查看

**DataFrame.duplicated(subset=None, keep='first')**
* subset: 查找特定列上的重复项，默认为None
* keep: 
    - first: 默认值，对于每一组重复的值，第一次出现的值设置为False，其他所有值设置为True 
    - last: 每组重复值的最后一次出现被设置为False，而其他所有重复值被设置为True。
    - False: 所有重复项都为True


In [47]:
d.loc['I'] = d.loc['E']
print(d, '\n')
print(d.duplicated(), '\n')
print(d.duplicated(['c']), '\n')
print(d.duplicated(['c'], keep='last'), '\n')
print(d.duplicated(['c'], keep=False), '\n')

        b       c    d    e    f    g
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
E    95.0     NaN  6.0  8.0  8.0  8.0
F    96.0     NaN  5.0  4.0  4.0  4.0
G     2.0     3.0  4.0  5.0  6.0  7.0
H     NaN     NaN  NaN  NaN  NaN  NaN
I    95.0     NaN  6.0  8.0  8.0  8.0 

C    False
D    False
E    False
F    False
G    False
H    False
I     True
dtype: bool 

C    False
D    False
E    False
F     True
G    False
H     True
I     True
dtype: bool 

C    False
D    False
E     True
F     True
G    False
H     True
I    False
dtype: bool 

C    False
D    False
E     True
F     True
G    False
H     True
I     True
dtype: bool 



#### 删除

**DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)**
* subset: 查找特定列上的重复项，默认为None
* keep: 
    - first: 默认值，对于每一组重复的值，保留第一次出现的值
    - last: 每组重复值的最后一次出现被保留，而其他所有重复值被删除
    - False: 所有重复项都删除
* inplace: 是否原地修改，默认为False


In [48]:
print(d, '\n')
tmp = d.drop_duplicates()
print(tmp, '\n')
tmp = d.drop_duplicates(keep='last')
print(tmp, '\n')
tmp = d.drop_duplicates(keep=False)
print(tmp, '\n')
tmp = d.drop_duplicates(subset=['c'], keep='last')
print(tmp, '\n')

        b       c    d    e    f    g
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
E    95.0     NaN  6.0  8.0  8.0  8.0
F    96.0     NaN  5.0  4.0  4.0  4.0
G     2.0     3.0  4.0  5.0  6.0  7.0
H     NaN     NaN  NaN  NaN  NaN  NaN
I    95.0     NaN  6.0  8.0  8.0  8.0 

        b       c    d    e    f    g
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
E    95.0     NaN  6.0  8.0  8.0  8.0
F    96.0     NaN  5.0  4.0  4.0  4.0
G     2.0     3.0  4.0  5.0  6.0  7.0
H     NaN     NaN  NaN  NaN  NaN  NaN 

        b       c    d    e    f    g
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
F    96.0     NaN  5.0  4.0  4.0  4.0
G     2.0     3.0  4.0  5.0  6.0  7.0
H     NaN     NaN  NaN  NaN  NaN  NaN
I    95.0     NaN  6.0  8.0  8.0  8.0 

        b       c    d    e    f    g
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
F    96.0     NaN  5.0  4.0  4.0  4.0
G     

### 异常值

异常值指超出或低于正常范围的值

判断：
* 根据给定的数据范围判断
* 均方差：如果一个数据分布近似正态分布，那么大约68%的数据值会在均值的一个标准差范围内，大约95%的数据值会在均值的两个标准差范围内，大约99.7%的数据值会在均值的三个标准差范围内。
* 箱形图：显示一组数据分散情况的统计图。可以将数据通过四分位数进行图形化描述，通过数据的上限和下限作为数据分布的边界。

处理：
* 删除（最常用）
* 将异常值作为缺失值处理
* 将异常值作为特殊情况进行分析，研究异常出现的原因


### 索引设置

便于查询数据

* 如果索引是唯一的，Pandas会实验哈希表优化，查找数据的时间复杂度为O(1)。
* 如果索引不是唯一的，但是有序，Pandas会使用二分查找算法，查找数据的时间复杂度为O(logN)。
* 如果索引是完全随机的，那么每次查询都要扫描数据表，查找数据的时间复杂度为O(N)。


#### 设置索引


##### reindex

**DataFrame.reindex(labels, index, columns, axis, method, copy, level, fill_value, limit, tolerance)**
* labels: 标签。
* index: 行索引。
* columns: 列索引。
* axis:0表示行，1表示列。
* method: 重新设置索引时，选择插值方法。
  + bfill/backfill(向后填充)。
  + fill/pad(向前填充)。
* fill_value: 缺失值要填充的数据，如fill_value=0，用0填充。


In [49]:
print(tmp, '\n')
print(tmp.reindex(index=['A', 'B', 'C', 'D', 'e']), '\n')
print(tmp.reindex(index=['A', 'B', 'C', 'D', 'e', 'I', 'G']), '\n')

        b       c    d    e    f    g
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
G     2.0     3.0  4.0  5.0  6.0  7.0
I    95.0     NaN  6.0  8.0  8.0  8.0 

        b       c    d   e   f   g
A     NaN     NaN  NaN NaN NaN NaN
B     NaN     NaN  NaN NaN NaN NaN
C  4536.0  4536.0  8.0 NaN NaN NaN
D  2324.0  2324.0  7.0 NaN NaN NaN
e     NaN     NaN  NaN NaN NaN NaN 

        b       c    d    e    f    g
A     NaN     NaN  NaN  NaN  NaN  NaN
B     NaN     NaN  NaN  NaN  NaN  NaN
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
e     NaN     NaN  NaN  NaN  NaN  NaN
I    95.0     NaN  6.0  8.0  8.0  8.0
G     2.0     3.0  4.0  5.0  6.0  7.0 



##### set_index

设置索引

**DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)**
* keys : 要设置为索引的列名（如有多个应放在一个列表里）
* drop : 将设置为索引的列删除，默认为True
* append : 是否将新的索引追加到原索引后（即是否保留原索引），默认为False
* inplace : 是否在原DataFrame上修改，默认为False
* verify_integrity : 是否检查索引有无重复，默认为False


In [50]:
print(tmp, '\n')
print(tmp.set_index(['b']), '\n')
print(tmp.set_index(['d'], drop=False, append=True), '\n')


        b       c    d    e    f    g
C  4536.0  4536.0  8.0  NaN  NaN  NaN
D  2324.0  2324.0  7.0  NaN  NaN  NaN
G     2.0     3.0  4.0  5.0  6.0  7.0
I    95.0     NaN  6.0  8.0  8.0  8.0 

             c    d    e    f    g
b                                 
4536.0  4536.0  8.0  NaN  NaN  NaN
2324.0  2324.0  7.0  NaN  NaN  NaN
2.0        3.0  4.0  5.0  6.0  7.0
95.0       NaN  6.0  8.0  8.0  8.0 

            b       c    d    e    f    g
  d                                      
C 8.0  4536.0  4536.0  8.0  NaN  NaN  NaN
D 7.0  2324.0  2324.0  7.0  NaN  NaN  NaN
G 4.0     2.0     3.0  4.0  5.0  6.0  7.0
I 6.0    95.0     NaN  6.0  8.0  8.0  8.0 



##### reset_index

重置索引

**DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill='')**
* level：数值类型可以为：int、str、tuple或list，默认无，仅从索引中删除给定级别。默认情况下移除所有级别。控制了具体要还原的那个等级的索引 。
* drop：**当指定drop=False时，则索引列会被还原为普通列；否则，经设置后的新索引值被会丢弃。默认为False。**
* inplace：输入布尔值，表示当前操作是否对原数据生效，默认为False。
* col_level：数值类型为int或str，默认值为0，如果列有多个级别，则确定将标签插入到哪个级别。默认情况下，它将插入到第一级。
* col_fill：对象，默认‘’，如果列有多个级别，则确定其他级别的命名方式。如果没有，则重复索引名。


In [51]:
tmp = df.iloc[:11, :5]
tmp1 = tmp.set_index(['电影名'])
print(tmp1, '\n')

tmp2 = tmp1.reset_index(drop=False)
print(tmp2, '\n')
tmp3 = tmp1.reset_index(drop=True)
print(tmp3, '\n')


                              状态  评分  星级     时长
电影名                                                 
狗神                    nowplaying   8.3   4.5  114分钟
三大队                  nowplaying   7.9   4.0  132分钟
怒潮                    nowplaying   NaN   NaN  106分钟
名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5  110分钟
旺卡                    nowplaying   7.6   4.0  116分钟
涉过愤怒的海            nowplaying   7.5   4.0  144分钟
瞒天过海                nowplaying   6.3   3.5  105分钟
照明商店                nowplaying   6.5   3.5   99分钟
爆裂点                  nowplaying   6.5   3.5  138分钟
月光武士                nowplaying   NaN   NaN  110分钟
饥饿游戏：鸣鸟与蛇之歌  nowplaying   7.0   3.5  158分钟 

                    电影名        状态  评分  星级     时长
0                     狗神  nowplaying   8.3   4.5  114分钟
1                   三大队  nowplaying   7.9   4.0  132分钟
2                     怒潮  nowplaying   NaN   NaN  106分钟
3   名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5  110分钟
4                     旺卡  nowplaying   7.6   4.0  116分钟
5             涉过愤怒的海  nowplaying   7

### 排序

**DataFrame.sort_values(by, axis, ascending, inplace, kind, na_position, ignore_index)**
* by: 要排序的名称列表。
* axis: 排列方向
  + 0: 按列的值排列 所有行。默认
  + 1: 按行的值排列 所有列。
* ascending: 升序或降序排序，布尔值。
  + True: 升序排序。默认
  + False: 降序排序。
* kind: 指定排序算法，quicksort, mergesort, heapsort，默认为quicksort。
* na_position: 空值的位置，first空值在数据开头，last空值在数据最后，默认last。
* ignore_index: 布尔值，是否忽略索引，值为True标记索引，False忽略索引。


In [52]:
tmp1 = tmp.sort_values(by=['评分'], ascending=False)
print(tmp1, '\n')
tmp2 = tmp.sort_values(by=['评分'], ignore_index=True)
print(tmp2, '\n')

tmp3 = tmp.sort_values(by=['评分', '星级'], ascending=[False, False])
print(tmp3, '\n')

print(d.sort_values(by=['G'], axis=1, ascending=False, kind='mergesort'))

                    电影名        状态  评分  星级     时长
0                     狗神  nowplaying   8.3   4.5  114分钟
1                   三大队  nowplaying   7.9   4.0  132分钟
4                     旺卡  nowplaying   7.6   4.0  116分钟
5             涉过愤怒的海  nowplaying   7.5   4.0  144分钟
10  饥饿游戏：鸣鸟与蛇之歌  nowplaying   7.0   3.5  158分钟
3   名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5  110分钟
7                 照明商店  nowplaying   6.5   3.5   99分钟
8                   爆裂点  nowplaying   6.5   3.5  138分钟
6                 瞒天过海  nowplaying   6.3   3.5  105分钟
2                     怒潮  nowplaying   NaN   NaN  106分钟
9                 月光武士  nowplaying   NaN   NaN  110分钟 

                    电影名        状态  评分  星级     时长
0                 瞒天过海  nowplaying   6.3   3.5  105分钟
1                 照明商店  nowplaying   6.5   3.5   99分钟
2                   爆裂点  nowplaying   6.5   3.5  138分钟
3   名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5  110分钟
4   饥饿游戏：鸣鸟与蛇之歌  nowplaying   7.0   3.5  158分钟
5             涉过愤怒的海  nowplaying   7.5   4.0  144分钟
6    

### 排名

**rank(method='average', numeric_only=None, na_option='keep', ascending=True, pct=False)**
<!-- * axis：表示排名是根据哪个轴，axis=0 表示横轴，axis=1 表示纵轴 -->
* method：取值可以为'average'，'first'，'min'， 'max'，'dense'；默认是 average
  + average：平均排名
  + first：根据排序后的第一个位置的排名
  + min：根据排序后的最小位置的排名
  + max：根据排序后的最大位置的排名
  + dense：相同的数值排名相同，下个数值的排名不出现跳跃
* numeric_only：是否仅仅计算数字型的 columns
* na_optiaon：空值是否参与排名 以及 如何排名；取值为 keep、top、bottom
  + keep：保留空值
  + top：空值排名在最前面
  + bottom：空值排名在最后面
* ascending： 升序或降序排序，布尔值。
  + True: 升序排序。默认
  + False: 降序排序。
* pct：是否以排名的百分比显示排名；所有排名和最大排名的百分比值


In [53]:
# 计算每一列的对应的排名
print(tmp.rank(), '\n')

# 计算星级的排名
print(tmp['星级'].rank(method='first'), '\n')
print(tmp['星级'].rank(method='min'), '\n')
print(tmp['星级'].rank(method='max'), '\n')
print(tmp['星级'].rank(method='dense', pct=True), '\n')


    电影名  状态  评分  星级  时长
0      9.0   6.0   9.0   9.0   5.0
1      1.0   6.0   8.0   7.0   7.0
2      3.0   6.0   NaN   NaN   2.0
3      2.0   6.0   4.0   3.0   3.5
4      4.0   6.0   7.0   7.0   6.0
5      6.0   6.0   6.0   7.0   9.0
6     10.0   6.0   1.0   3.0   1.0
7      7.0   6.0   2.5   3.0  11.0
8      8.0   6.0   2.5   3.0   8.0
9      5.0   6.0   NaN   NaN   3.5
10    11.0   6.0   5.0   3.0  10.0 

0     9.0
1     6.0
2     NaN
3     1.0
4     7.0
5     8.0
6     2.0
7     3.0
8     4.0
9     NaN
10    5.0
Name: 星级, dtype: float64 

0     9.0
1     6.0
2     NaN
3     1.0
4     6.0
5     6.0
6     1.0
7     1.0
8     1.0
9     NaN
10    1.0
Name: 星级, dtype: float64 

0     9.0
1     8.0
2     NaN
3     5.0
4     8.0
5     8.0
6     5.0
7     5.0
8     5.0
9     NaN
10    5.0
Name: 星级, dtype: float64 

0     1.000000
1     0.666667
2          NaN
3     0.333333
4     0.666667
5     0.666667
6     0.333333
7     0.333333
8     0.333333
9          NaN
10    0.333333
Name: 星级, dty

### 分组

**DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, dropna=True)**
* by：用于分组的列名或函数。可以是一个列名、一个函数、一个列表或一个字典。
* axis：分组轴。如果 axis=0（默认值），则沿着行方向分组；如果 axis=1，则沿着列方向分组。
* level：在多层索引的情况下，用于指定分组的级别。
* as_index：是否将分组键作为索引返回。如果 as_index=True（默认值），则返回一个带有分组键作为索引的对象；否则返回一个不带索引的对象。
* sort：是否对分组键进行排序。如果 sort=True（默认值），则对分组键进行排序；否则不排序。
* group_keys：是否在结果中包含分组键。如果 group_keys=True（默认值），则在结果中包含分组键；否则不包含。
* squeeze：是否压缩返回结果。如果 squeeze=True，则尝试压缩返回结果；否则不压缩。
* observed：是否仅使用观察到的类别进行分组。仅适用于类别类型数据。
* dropna：是否删除包含缺失值的行。如果 dropna=True（默认值），则删除包含缺失值的行；否则保留。


In [54]:
# 按照 星级 分组
group = df.groupby(by='星级')

# 计算每个分组中 评分的最大值
max_rating = group['评分'].max()
print(max_rating, '\n')


星级
1.5    2.4
2.0    4.1
3.0    6.0
3.5    7.2
4.0    8.1
4.5    8.6
Name: 评分, dtype: float64 



#### agg（aggregate） 聚合操作

**DataFrame.agg(func=None, axis=0, \*args, \*\*kwargs)**
* func：聚合函数，默认是numpy中的聚合函数。
* axis：聚合方向，0表示按行聚合，1表示按列聚合。
* *args：其他参数。
* **kwargs：其他关键字参数。


In [55]:
# 按照 星级 分组
group = df.groupby(by='星级')

# 计算每个分组中 评分的最大值和标准差 评价人数的最小值和方差
info = group.agg({'评分': [np.max, np.std], '评价人数': [np.min, np.var]})
print(info, '\n')

     评分           评价人数              
     amax       std     amin           var
星级                                      
1.5   2.4       NaN   4059.0           NaN
2.0   4.1       NaN   1166.0           NaN
3.0   6.0  0.212132  16917.0  3.640604e+09
3.5   7.2  0.287352   2449.0  2.294865e+08
4.0   8.1  0.318479   5155.0  2.700215e+10
4.5   8.6  0.212132  21292.0  2.620081e+10 



#### transform

**transform(func, axis=0, \*args, \*\*kwargs)**
* func：必需参数，指定要应用于 DataFrame 的函数。该函数可以接受任意数量的参数，但通常需要至少一个参数，即要应用函数的列或分组。
* axis：可选参数，指定应用函数的轴。axis=0 表示应用函数到列，axis=1 表示应用函数到行。默认值为 axis=0。
* *args：可选参数，用于传递额外的参数给函数。
* **kwargs：可选参数，用于传递额外的关键字参数给函数。


In [56]:
tmp = df.iloc[:11, :5]
group = tmp.groupby(by='星级')

# 计算对应分组内评分的平均值，形成一列，添加到原表后
tmp['平均分数'] = group['评分'].transform('mean')
print(tmp, '\n')

# tmp[['最大评分', '最小评分']] = group.transform(lambda x: {
#     '最大评分': [x['评分'].max()],
#     '最小评分': [x['评分'].min()]
# })
# print(tmp, '\n')

                    电影名        状态  评分  星级     时长  平均分数
0                     狗神  nowplaying   8.3   4.5  114分钟  8.300000
1                   三大队  nowplaying   7.9   4.0  132分钟  7.666667
2                     怒潮  nowplaying   NaN   NaN  106分钟       NaN
3   名侦探柯南：黑铁的鱼影  nowplaying   6.7   3.5  110分钟  6.600000
4                     旺卡  nowplaying   7.6   4.0  116分钟  7.666667
5             涉过愤怒的海  nowplaying   7.5   4.0  144分钟  7.666667
6                 瞒天过海  nowplaying   6.3   3.5  105分钟  6.600000
7                 照明商店  nowplaying   6.5   3.5   99分钟  6.600000
8                   爆裂点  nowplaying   6.5   3.5  138分钟  6.600000
9                 月光武士  nowplaying   NaN   NaN  110分钟       NaN
10  饥饿游戏：鸣鸟与蛇之歌  nowplaying   7.0   3.5  158分钟  6.600000 

