# 1、数据处理

## 1.1、数据加载
首先，我们需要将收集的数据加载到内存中，才能进行进一步的操作。pandas提供了非常多的读取数据的函数，分别应用在各种数据源环境中，我们常用的函数为：
* read_csv
* read_table
* read_sql

说明：
* read_csv与read_table默认使用的分隔符不同。

### 常用参数
read_csv与read_table常用的参数：
- sep / delimiter
- header
- names
- index_col
- usecols

In [2]:
import numpy as np
import pandas as pd

In [7]:
# 读取csv文件，返回一个DataFrame类型的对象。
# 在读取的时候，默认会将第一行记录当成标题。如果没有标题，我们可以指定header=None。
df = pd.read_csv(r"c:/student.csv", header=None)
display(df.head())

Unnamed: 0,0,1,2,3,4
0,95002,刘晨,女,19,IS
1,95017,王风娟,女,18,IS
2,95018,王一,女,19,IS
3,95013,冯伟,男,21,CS
4,95014,王小丽,女,19,CS


In [9]:
# read_csv默认使用逗号作为分隔符，我们可以使用sep或delimiter来指定分隔符。
df = pd.read_csv(r"c:/student.csv", header=None, sep=",")
display(df.head())

Unnamed: 0,0,1,2,3,4
0,95002,刘晨,女,19,IS
1,95017,王风娟,女,18,IS
2,95018,王一,女,19,IS
3,95013,冯伟,男,21,CS
4,95014,王小丽,女,19,CS


In [10]:
# 如果header为None，read_csv默认会自己生成列标签。（0， 1， 2， 3……）。我们可以通过names参数来指定列标签（标题）
df = pd.read_csv(r"c:/student.csv", header=None, names=["学号", "姓名", "性别", "年龄", "部门"])
display(df.head())

Unnamed: 0,学号,姓名,性别,年龄,部门
0,95002,刘晨,女,19,IS
1,95017,王风娟,女,18,IS
2,95018,王一,女,19,IS
3,95013,冯伟,男,21,CS
4,95014,王小丽,女,19,CS


In [14]:
# 对于行索引，默认会自动生成（0， 1， 2， 3 ……）如果我们需要自己指定某列充当行索引（例如，数据库，数据表中的主键）
# 我们可以使用index_col参数来进行设置。
df = pd.read_csv(r"c:/student.csv", header=None, index_col=0)
display(df.head())

Unnamed: 0_level_0,1,2,3,4
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
95002,刘晨,女,19,IS
95017,王风娟,女,18,IS
95018,王一,女,19,IS
95013,冯伟,男,21,CS
95014,王小丽,女,19,CS


In [16]:
# 我们可以使用usecols来控制需要哪些列。如果某列充当索引列（index_col），则充当索引列的标签，也需要指定在usecols中。
df = pd.read_csv(r"c:/student.csv", header=None, index_col=0, usecols=[0, 1, 2])
display(df.head())

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
95002,刘晨,女
95017,王风娟,女
95018,王一,女
95013,冯伟,男
95014,王小丽,女


从数据库中读取数据。与read_csv相同，也会返回DataFrame对象。

In [37]:
import sqlite3
con = sqlite3.connect("test.db")
con.execute("drop table if exists person")
con.commit()
# 创建数据表
con.execute("create table person(id int primary key, name varchar(30), age int)")
# 向表中插入数据
con.execute("insert into person(id, name ,age) values(33, 'sk', 17)")
# 从数据库中读取数据，sql指定查询的数据（用来构造DataFrame）。con数据库的链接。
t = pd.read_sql("select id, name, age from person", con)
display(t)

Unnamed: 0,id,name,age
0,33,sk,17


### 写入文件
DataFrame与Series对象的to_csv方法，可以将数据写入文件或者指定的数据流中。
* to_csv

### 常用参数
* sep 分隔符
* header 是否写入标题行，默认为True。
* na_rep 空值的表示
* index 是否写入索引，默认为True。
* index_label 索引字段的名称
* columns 写入的字段，默认为全部写入。

In [45]:
df = pd.DataFrame(np.arange(15).reshape(3, 5))
df[5] = np.nan
display(df)

# 默认以逗号作为分隔符，可以使用sep来自定义分隔符。
df.to_csv("data1.csv", sep="-")

# 默认情况会写入标题（行标签索引）。可以使用header进行设置是否写入标题。True，写入（默认），False不写入。
df.to_csv("data2.csv", header=False)

# 默认情况下，空值不显示，我们可以自定义空值的显式效果（内容）。
df.to_csv("data3.csv", header=False, na_rep="空")

# 行索引，默认写入，我们可以通过参数index来设置是否写入行索引。True，写入（默认）， False，不写入。
df.to_csv("data4.csv", header=False, na_rep="空", index=False)

# 可以通过index_label来设置行索引的名称。
df.to_csv("data5.csv", index_label="index_name")

# 我们可以通过colomns列来设置那些列写入到文件中。默认为写入所有列。
df.to_csv("data6.csv", columns=[1, 3], header=False, na_rep="空", index=False)

Unnamed: 0,0,1,2,3,4,5
0,0,1,2,3,4,
1,5,6,7,8,9,
2,10,11,12,13,14,


In [47]:
# to_csv 不仅可以写入硬盘文件中，也可以写入内存（类文件对象）中。【处理速度更快，性能更好】
# 类文件对象：像文件那样具有read，write等功能的对象。

# StringIO 处理文本类型
# BytesIO 处理二进制类型
from io import StringIO, BytesIO
# 创建一个类文件对象
str_io = StringIO()
df.to_csv(str_io)

# 查看文件指针的位置
display(str_io.tell())

# 调整文件指针的位置。将指针调整到文件的最前端。
str_io.seek(0)
display(str_io.read())

# 可以调用getvalue方法取出StringIO对象中的数据。（不用调整指针，再去读取）
display(str_io.getvalue())

61

',0,1,2,3,4,5\r\n0,0,1,2,3,4,\r\n1,5,6,7,8,9,\r\n2,10,11,12,13,14,\r\n'

',0,1,2,3,4,5\r\n0,0,1,2,3,4,\r\n1,5,6,7,8,9,\r\n2,10,11,12,13,14,\r\n'

# 2、数据清洗
我们需要对数据进行一些预处理操作，才能用到后续的数据分析与机器学习中。这是因为，无论数据的来源为何处，我们都不可能保证数据一定是准确无误的。  
数据清洗可以包含以下几方面内容：
* 处理缺失值
* 处理异常值
* 处理重复值



In [50]:
df = pd.read_csv("spider.csv", header=None)
display(df.head())

Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,,
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,


## 2.1、缺失值处理
### 发现缺失值
Pandas中，会将float类型的nan与None视为缺失值，我们可以通过如下方法来检测缺失值：
* info
* isnull
* notnull

说明：
* 判断是否存在空值，可以将isnull与any或all结合使用。

In [53]:
# 检测缺失值，首先可以调用info方法进行整体查看。
# info方法可以显示DataFrame中每列的相关信息。
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1396 entries, 0 to 1395
Data columns (total 5 columns):
0    1396 non-null object
1    1396 non-null object
2    1396 non-null object
3    1098 non-null float64
4    1098 non-null float64
dtypes: float64(2), object(3)
memory usage: 54.7+ KB


In [57]:
# 没有空值。
display(df.isnull().head())
display(df[2].isnull().any())
display(df[3].isnull().any())

Unnamed: 0,0,1,2,3,4
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,True,True
3,False,False,False,False,False
4,False,False,False,True,True


False

True

### 丢弃缺失值
对于缺失值，我们可以将其进行丢弃处理（dropna）。
 
说明：
* how：指定dropna丢弃缺失值的行为，默认为any。
* axis：指定丢弃行或者丢弃列（默认为丢弃行）。
* thresh：当非空数值达到该值时，保留数据，否则删除。
* inplace：指定是否就地修改，默认为False。

In [83]:
display(df.head())

# 处理空值。丢弃空值，使用dropna。
df.dropna().info()

# 默认情况下，how的值为any，表示只要存在空值，就丢弃行（列），我们可以指定为all，表示所有值为空值时，才进行删除。
df.dropna(how="all").info()

Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,,
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,


<class 'pandas.core.frame.DataFrame'>
Int64Index: 1098 entries, 0 to 1395
Data columns (total 5 columns):
0    1098 non-null object
1    1098 non-null object
2    1098 non-null object
3    1098 non-null float64
4    1098 non-null float64
dtypes: float64(2), object(3)
memory usage: 51.5+ KB
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1396 entries, 0 to 1395
Data columns (total 5 columns):
0    1396 non-null object
1    1396 non-null object
2    1396 non-null object
3    1098 non-null float64
4    1098 non-null float64
dtypes: float64(2), object(3)
memory usage: 65.4+ KB


In [84]:
# 默认，存在空值，会丢弃行，我们可以指定丢弃列。(axis=0表示按行删除，axis=1表示按列删除。)
display(df.dropna(axis=1).head())

# 有时候，how的any与all可能都不太合适。any的条件太宽松，all又太严格。我们可以自定义删除的门槛。
# 通过thresh来指定（门槛）。指的是非空的数据至少要达到thresh指定的数量时，整个行（列）才会保留，否则就删除。
df.dropna(thresh=3).head()
# 可以使用inplace来设置是否进行就地修改。默认为False。

Unnamed: 0,0,1,2
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...


Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,,
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,


### 填充缺失值
我们也可以对缺失值进行填充（fillna）。

说明：
* value：填充所使用的值。可以是一个字典，这样就可以为DataFrame的不同列指定不同的填充值。
* method：指定前值（上一个有效值）填充（pad / ffill），还是后值（下一个有效值）填充（backfill / bfill）。
* limit：如果指定method，表示最大连续NaN的填充数量，如果没有指定method，则表示最大的NaN填充数量。
* inplace：指定是否就地修改，默认为False。

In [85]:
# 填充值 fillna进行填充。
# 使用固定值来填充所有的列。
df1 = df.fillna(10000)
display(df1.head())

# 可以提供一个字典，这样就能够为不同的列，填充不同的值。
# 字典的key指定索引，value指定填充值。
df2 = df.fillna({3: 5000, 4:1000})
display(df2.head())

Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,10000.0,10000.0
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,10000.0,10000.0


Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,5000.0,1000.0
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,5000.0,1000.0


In [88]:
# 我们可以使用method，来指定向前（后）填充。此种情况下，主要应用是记录之间有着紧密的关联（趋势）。例如，房价，股票。

# 使用上一个有效值进行填充。
display(df.fillna(method="ffill").head(6))
# 使用下一个有效值进行填充。
display(df.fillna(method="bfill").head(6))

Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,273.0,1447.17
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,52.0,337.27
5,2015-5-28,http://www.favolist.com/,屋顶;温岚;80;励志,217.0,903.29


Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,52.0,337.27
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,217.0,903.29
5,2015-5-28,http://www.favolist.com/,屋顶;温岚;80;励志,217.0,903.29


In [91]:
# limit参数。如果指定method，则表示最多连续填充。
# 如果没有指定method，则表示总共填充。
display(df.fillna(method="bfill", limit=1).head(6))
display(df.fillna(value=50000, limit=2).head(6))

# 设置是否就地修改，默认为False。
df.fillna("aa", inplace=True)
display(df.head(6))

Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,52.0,337.27
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,217.0,903.29
5,2015-5-28,http://www.favolist.com/,屋顶;温岚;80;励志,217.0,903.29


Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,50000.0,50000.0
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,50000.0,50000.0
5,2015-5-28,http://www.favolist.com/,屋顶;温岚;80;励志,217.0,903.29


Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,aa,aa
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,aa,aa
5,2015-5-28,http://www.favolist.com/,屋顶;温岚;80;励志,217,903.29


## 2.2、无效值处理
### 检测无效值
可以通过DataFrame对象的describe方法查看数据的统计信息。不同类型的列，统计信息也不太相同。

In [94]:
df = pd.read_csv("spider.csv", header=None)
display(df.head())

# 如果DataFrame当中存在数值列，则describe值显示数值列。
df.describe()

# 数值列的统计与非数值列的统计，结果不同。
# df[[0, 1, 2]].describe()

Unnamed: 0,0,1,2,3,4
count,1396,1396,1396,1396,1396
unique,213,23,60,284,1094
top,2015-12-10,http://www.movie.com/bor/,一起走过的日子;刘德华;80;伤感,aa,aa
freq,16,100,32,298,298


## 2.3、重复值处理
在处理数据中，可能会出现重复的数据，我们通常需要将重复的记录删除。

### 发现重复值
我们可以通过duplicated方法来发现重复值。该方法返回Series类型的对象，值为布尔类型，表示是否与上一行重复。

参数说明：
* subset：指定依据哪些列判断是否重复，默认为所有列。
* keep：指定记录被标记为重复（True）的规则。默认为first。

### 删除重复值
通过drop_duplicates可以删除重复值。

参数说明：
* subset：指定依据哪些列判断是否重复，默认为所有列。
* keep：指定记录删除（或保留）的规则。默认为First。
* inplace：指定是否就地修改，默认为False。

In [100]:
df = pd.read_csv("spider.csv", header=None)
display(df.head())

# 检测重复值
display(df.duplicated().any())

# 查看重复记录
display(df[df.duplicated()])

# 如果需要查看所有重复的记录，可以使用keep参数。
# keep：
# frist：前面的记录标记为True。
# last： 后面的记录标记为True。
# False：所有记录都标记为True。
df[df.duplicated(keep=False)]

# 可以使用subset参数来指定重复的规则。默认为所有列一致才认为是重复的。
# 规则改为：只要第0，与第1列相同，则认为是重复的。
display(df.duplicated(subset=[0, 1]))

Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,,
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,


True

Unnamed: 0,0,1,2,3,4
509,2015-12-7,http://www.movie.com/bor/12386／,《爱之初体验》;2015.8.7;2015.8.23;上海锦瑟天下影视有限公司;海涛;张超，...,,
658,2015-12-6,http://www.movie.com/bor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,,
733,2015-12-6,http://www.movie.com/bor/12386／,《一念天堂》;2015.12.31;2016.2.13;天河盛宴，凯德盛世（北京）投资管理有...,,
760,2015-12-17,http://www.movie.com/bor/12386／,《百团大战》;2015.8.28;2015.10.11;八一电影制片厂；中国电影股份有限公司...,,
812,2015-12-10,http://www.movie.com/bor/12386／,《坏蛋必须死》;2015.11.27;2015.12.20;北京新力量、华谊兄弟、南京大道行...,,
914,2015-12-23,http://www.movie.com/bor/,《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联...,,
947,2015-12-25,http://www.movie.com/bor/12386／,《怦然星动》;2015.12.3;2016.1.10;欢瑞世纪，嘉行传媒，青春光线;陈国辉;...,,
986,2015-12-14,http://www.movie.com/bor/,《简单爱》;2015.7.3;2015.7.19;中视合利（北京）文化投资有限公司一鸣影业公...,,
1087,2015-12-13,http://www.movie.com/dor/,《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒（北京）有限公司、北京盛...,,
1094,2015-12-10,http://www.movie.com/bor/12386／,《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒（北京）有限公司、北京盛...,,


0       False
1       False
2       False
3       False
4       False
        ...  
1391     True
1392    False
1393     True
1394     True
1395    False
Length: 1396, dtype: bool

In [103]:
# 删除重复值
df.drop_duplicates([0])

Unnamed: 0,0,1,2,3,4
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,,
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,
5,2015-5-28,http://www.favolist.com/,屋顶;温岚;80;励志,217.0,903.29
6,2015-8-1,http://www.apinpai.com/,小兔子乖乖;小蓓蕾组合;90;儿歌,184.0,473.07
7,2015-8-6,http://www.99inf.com/,光辉岁月;beyond;80;励志,72.0,1051.73
8,2015-6-28,http://www.qudee.com/,逃脱;李玟;90;伤感,123.0,483.23
9,2015-8-7,http://www.alifenfen.com/,星;邓丽君;80;励志,257.0,1779.36


# 3、数据过滤
可以使用布尔数组或者索引数组的方式来过滤数据。  
另外，也可以用DataFrame类的query方法来进行数据过滤。在query方法中也可以使用外面定义的变量，需要在变量前加上@。

In [112]:
df = pd.read_csv("spider.csv", header=None)

# 数据过滤通常的方式：
# 通过判断条件生成一个布尔类型的数组，然后，DataFrame使用该布尔数组进行行过滤。
df[0] == "2015-12-25"
display(df[df[0] == "2015-12-25"])

# 过滤的第二种方式。
df.columns = ["date", "url", "name", "num1", "num2"]
display(df.query("date == '2015-12-25'"))

# 如果在query方法中，需要使用外面定义的变量，可以在变量名称前加上@符号，进行引用。
s = "2015-12-25"
display(df.query("date == @s"))

Unnamed: 0,0,1,2,3,4
32,2015-12-25,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,
42,2015-12-25,http://www.movie.com/dor/,《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、...,,
65,2015-12-25,http://www.movie.com/bor/12386／,《少年班》;2015.6.19;2015.7.19;工夫影业；华谊兄弟;肖洋;孙红雷，周冬雨...,,
305,2015-12-25,http://www.movie.com/bor/12386／,《天将雄师》;2015.2.19;2015.4.6;耀莱文化，华谊兄弟，上海电影集团;李仁港...,,
320,2015-12-25,http://www.movie.com/bor/,《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒（北京）有限公司、北京盛...,,
484,2015-12-25,http://www.movie.com/dor/,《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏，窦骁，...,,
493,2015-12-25,http://www.movie.com/dor/,《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业（北京）有限公司、太...,,
751,2015-12-25,http://www.movie.com/bor/12386／,《怦然星动》;2015.12.3;2016.1.10;欢瑞世纪，嘉行传媒，青春光线;陈国辉;...,,
752,2015-12-25,http://www.movie.com/bor/12386／,《爱情魔发师》;2015.7.17;2015.8.2;北京仁和博纳文化传媒有限公司;倾海;游...,,
791,2015-12-25,http://www.movie.com/bor/,《天将雄师》;2015.2.19;2015.4.6;耀莱文化，华谊兄弟，上海电影集团;李仁港...,,


Unnamed: 0,date,url,name,num1,num2
32,2015-12-25,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,
42,2015-12-25,http://www.movie.com/dor/,《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、...,,
65,2015-12-25,http://www.movie.com/bor/12386／,《少年班》;2015.6.19;2015.7.19;工夫影业；华谊兄弟;肖洋;孙红雷，周冬雨...,,
305,2015-12-25,http://www.movie.com/bor/12386／,《天将雄师》;2015.2.19;2015.4.6;耀莱文化，华谊兄弟，上海电影集团;李仁港...,,
320,2015-12-25,http://www.movie.com/bor/,《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒（北京）有限公司、北京盛...,,
484,2015-12-25,http://www.movie.com/dor/,《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏，窦骁，...,,
493,2015-12-25,http://www.movie.com/dor/,《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业（北京）有限公司、太...,,
751,2015-12-25,http://www.movie.com/bor/12386／,《怦然星动》;2015.12.3;2016.1.10;欢瑞世纪，嘉行传媒，青春光线;陈国辉;...,,
752,2015-12-25,http://www.movie.com/bor/12386／,《爱情魔发师》;2015.7.17;2015.8.2;北京仁和博纳文化传媒有限公司;倾海;游...,,
791,2015-12-25,http://www.movie.com/bor/,《天将雄师》;2015.2.19;2015.4.6;耀莱文化，华谊兄弟，上海电影集团;李仁港...,,


Unnamed: 0,date,url,name,num1,num2
32,2015-12-25,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,
42,2015-12-25,http://www.movie.com/dor/,《闯入者》;2015.4.30;2015.5.24;冬春文化、银润传媒、合润传媒、安乐电影、...,,
65,2015-12-25,http://www.movie.com/bor/12386／,《少年班》;2015.6.19;2015.7.19;工夫影业；华谊兄弟;肖洋;孙红雷，周冬雨...,,
305,2015-12-25,http://www.movie.com/bor/12386／,《天将雄师》;2015.2.19;2015.4.6;耀莱文化，华谊兄弟，上海电影集团;李仁港...,,
320,2015-12-25,http://www.movie.com/bor/,《探灵档案》;2015.3.7;2015.3.22;壹马时代文化传媒（北京）有限公司、北京盛...,,
484,2015-12-25,http://www.movie.com/dor/,《破风》;2015.8.7;2015.9.13;恒大影视文化有限公司;林超贤;彭于晏，窦骁，...,,
493,2015-12-25,http://www.movie.com/dor/,《分手再说我爱你》;2015.12.24;2016.1.17;爱奇艺影业（北京）有限公司、太...,,
751,2015-12-25,http://www.movie.com/bor/12386／,《怦然星动》;2015.12.3;2016.1.10;欢瑞世纪，嘉行传媒，青春光线;陈国辉;...,,
752,2015-12-25,http://www.movie.com/bor/12386／,《爱情魔发师》;2015.7.17;2015.8.2;北京仁和博纳文化传媒有限公司;倾海;游...,,
791,2015-12-25,http://www.movie.com/bor/,《天将雄师》;2015.2.19;2015.4.6;耀莱文化，华谊兄弟，上海电影集团;李仁港...,,


# 4、数据转换
## 4.1、应用与映射
Series与DataFrame对象可以进行行（列）或元素级别的映射转换操作。对于Series，可以调用apply或map方法。对于DataFrame，可以调用apply或applymap方法。  
* apply：通过函数实现映射转换。【Series传递元素，DataFrame传递行或列。】
* map：对当前Series的值进行映射转换。参数可以是一个Series，一个字典或者是一个函数。
* applymap：通过函数实现元素级的映射转换。

## 4.2、替换
Series或DataFrame可以通过replace方法可以实现元素值的替换操作。
* to_replace：被替换值，支持单一值，列表，字典，正则表达式。
* regex：是否使用正则表达式，默认为False。

## 4.3、字符串矢量级运算
Series含有一个str属性，通过str能够进行字符串的矢量级运算。

In [118]:
# 向apply方法中传递的函数，需要定义一个参数。对于Series，依次传递每一个元素。对于DataFrame，则会依次传递每一行（每一列）。（取决于axis的值。）
# 函数的返回值，用来表示处理的结果。
def manage(x):
    print(x)
    return x ** 2 + 10
    
s = pd.Series([1, 2, 3, 4])
s1 = s.apply(manage)
display(s1)

# 对于非常简单的函数，我们可以使用lambda来实现。
s2 = s.apply(lambda x: x ** 2 + 10)
display(s2)

1
2
3
4


0    11
1    14
2    19
3    26
dtype: int64

0    11
1    14
2    19
3    26
dtype: int64

In [123]:
# Series的map函数，提供的是一种映射。
s = pd.Series([1, 2, 3, 4])
map_series = pd.Series(["a", "b", "c", "d"], index=[1, 2, 3, 4])

# 参数可以是Series，则根据Series的index来进行映射，获取结果值。
s1 = s.map(map_series)
display(s1)

# 参数也可以是一个字典。则根据字典的key进行映射，获取字典的value值。
map_dict = {1:"a", 2:"b", 3:"c", 4:"d"}
s2 = s.map(map_dict)
display(s2)

# map的参数也可以是一个函数，此时与apply有些类似。
s3 = s.map(lambda x: x + 3)
df = pd.read_csv("spider.csv", header=None)display(s3)

0    a
1    b
2    c
3    d
dtype: object

0    a
1    b
2    c
3    d
dtype: object

0    4
1    5
2    6
3    7
dtype: int64

In [141]:
df = pd.read_csv("spider.csv", header=None)
df.columns = ["date", "url", "name", "num1", "num2"]

# 关于DataFrame的apply与applymap方法。
df.apply(lambda x : print(type(x)))

# 自行求均值。
df[["num1", "num2"]].apply(lambda x: x.mean())

# 参数为一个函数，DataFrame中的每个元素都会调用一次该函数（将元素传递给该函数），获得一个映射的结果（函数的返回值）。
# applymap函数是一个元素级的映射，类似与Series的map函数。
df1 = df[["num1", "num2"]].applymap(lambda x: x + 100000)
display(df1[df.notnull()].dropna().head(6))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


Unnamed: 0,num1,num2
0,100216.0,101392.68
1,100273.0,101447.17
3,100052.0,100337.27
5,100217.0,100903.29
6,100184.0,100473.07
7,100072.0,101051.73


In [149]:
df = pd.read_csv("spider.csv", header=None)
df.columns = ["date", "url", "name", "num1", "num2"]
# 显示前n行，默认为5.
display(df.head())
# 显示后n行
display(df.tail())
# 随机采样，随机选择n行。n默认为1.
display(df.sample(5))

s = df[["date", "url"]].head()
display(s)

Unnamed: 0,date,url,name,num1,num2
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,,
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,


Unnamed: 0,date,url,name,num1,num2
1391,2015-7-31,http://beijing.faxinxi.cn/,同道中人;张国荣;80;励志,87.0,927.3
1392,2015-4-20,http://www.denghuo.com/,忘记拥抱;a-lin;80;伤感,31.0,684.56
1393,2015-4-2,http://www.yifawang.cn/,路...一直都在;陈奕迅;90;励志,47.0,1419.74
1394,2015-4-15,http://www.wuhan58.com/index.php,像我一样骄傲;赵传;80;励志,124.0,1434.67
1395,2015-5-16,http://www.favolist.com/,最冷一天;陈奕迅;90;伤感,103.0,1020.5


Unnamed: 0,date,url,name,num1,num2
941,2015-12-10,http://www.movie.com/dor/,《天将雄师》;2015.2.19;2015.4.6;耀莱文化，华谊兄弟，上海电影集团;李仁港...,,
210,2015-7-3,http://beijing.faxinxi.cn/,太阳星辰;张学友;80;励志,135.0,1358.12
480,2015-6-24,http://info.tianya.cn,加油;林俊杰/mc hotdog;90;励志,191.0,1135.37
402,2015-5-7,http://info.tianya.cn,借过;容祖儿;90;伤感,39.0,960.86
940,2015-12-21,http://www.movie.com/dor/,《万物生长》;2015.4.17;2015.5.24;北京劳雷影业、杭州果麦文化传媒、北京联...,,


Unnamed: 0,date,url
0,2015-4-28,http://www.apinpai.com/
1,2015-8-24,http://www.apinpai.com/
2,2015-12-14,http://www.movie.com/dor/
3,2015-4-2,http://bj.qu114.com/
4,2015-12-19,http://www.movie.com/dor/


In [155]:
# replace的参数，可以是单一值。
s1 = s.replace("2015-4-28", "2015-5-28")
display(s1)

# replace也支持一个列表。将列表中的每一个元素都替换成2015-5-28(value参数指定的值。)
s2 = s.replace(["2015-4-28", "2015-8-24", "2015-12-14"], "2015-5-28")
display(s2)

# 将多个值，每个值都替换成不同的值。
s3 = s.replace(["2015-4-28", "2015-8-24"], ["2015-4-29", "2015-8-25"])
display(s3)

# replace也支持字典的形式。用来将多个值，替换成不同的值。key指定要替换的值，对应的value指定要替换成什么值。
s4 = s.replace({"2015-4-28":"2015-4-29", "2018-8-24":"2015-8-25"})
display(s4)

# replace也支持正则表达式的形式。（这种是最为灵活的方式）
# 注意：当需要进行正则表达式模式匹配时，需要将regex参数设置为True。（默认为False）
s5 = s.replace(r"[0-9]{4}-4-28", "2017", regex=True)
display(s5)

Unnamed: 0,date,url
0,2015-5-28,http://www.apinpai.com/
1,2015-8-24,http://www.apinpai.com/
2,2015-12-14,http://www.movie.com/dor/
3,2015-4-2,http://bj.qu114.com/
4,2015-12-19,http://www.movie.com/dor/


Unnamed: 0,date,url
0,2015-5-28,http://www.apinpai.com/
1,2015-5-28,http://www.apinpai.com/
2,2015-5-28,http://www.movie.com/dor/
3,2015-4-2,http://bj.qu114.com/
4,2015-12-19,http://www.movie.com/dor/


Unnamed: 0,date,url
0,2015-4-29,http://www.apinpai.com/
1,2015-8-25,http://www.apinpai.com/
2,2015-12-14,http://www.movie.com/dor/
3,2015-4-2,http://bj.qu114.com/
4,2015-12-19,http://www.movie.com/dor/


Unnamed: 0,date,url
0,2015-4-29,http://www.apinpai.com/
1,2015-8-24,http://www.apinpai.com/
2,2015-12-14,http://www.movie.com/dor/
3,2015-4-2,http://bj.qu114.com/
4,2015-12-19,http://www.movie.com/dor/


Unnamed: 0,date,url
0,2017,http://www.apinpai.com/
1,2015-8-24,http://www.apinpai.com/
2,2015-12-14,http://www.movie.com/dor/
3,2015-4-2,http://bj.qu114.com/
4,2015-12-19,http://www.movie.com/dor/


In [157]:
df = pd.read_csv("spider.csv", header=None)
df.columns = ["date", "url", "name", "num1", "num2"]
df.head()
df.replace(["2015-4-28", "http://www.movie.com/dor/"], ["2034", "abcd"]).head()

Unnamed: 0,date,url,name,num1,num2
0,2034,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,abcd,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,,
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,abcd,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,


In [164]:
df = pd.read_csv("spider.csv", header=None)
df.columns = ["date", "url", "name", "num1", "num2"]

def t(item):
    return "2034" if item == "2015-4-28" else item

# replace的操作我们也可以通过apply或map来实现。
# s.map({"2015-4-28":"2034"})
display(df["date"].map(t).head())

0          2034
1     2015-8-24
2    2015-12-14
3      2015-4-2
4    2015-12-19
Name: date, dtype: object

In [169]:
# Series的str属性
s = pd.Series([1, 2, 3])
display(s)

# 错误，使用Series的str属性时，需要Series元素的值是str（字符串）类型。
s = pd.Series(["abc", "def", "kefe"])
display(s.str)

# str 的类型为pandas.core.strings.StringMethods，该类型提供了很多方法（与Python中str类型提供的方法相似），能够进行字符串的矢量级运算。
display(s.str)
display(s.str.upper())
display(s.str.contains("b"))

0    1
1    2
2    3
dtype: int64

<pandas.core.strings.StringMethods at 0xa3a44a8>

<pandas.core.strings.StringMethods at 0xa3a44a8>

0     ABC
1     DEF
2    KEFE
dtype: object

0     True
1    False
2    False
dtype: bool

In [174]:
df = pd.read_csv("spider.csv", header=None)
df.columns = ["date", "url", "name", "num1", "num2"]
display(df.head())

# df2 = df[1].str.startswith("http://www.movie.com/dor/")
# display(df2)

# 选择（过滤）所有电影相关的记录
# t = df[df[1].str.startswith("http://www.movie.com/dor/")]
# sp = t[2].str.split(";")

# 一列拆分成多列，在split的同时，增加参数expand的值为True。如果没有使用expand（默认为Fasle），则使用一个列表来存放拆分之后的元素。
# sp = t[2].str.split(";", expand=True)
# sp.info()

# 注意：我们执行替换之后，尽管Series元素的值是数值类型，但是，我们Series对象的类型是没有改变的。
# sp[7] = sp[7].str.replace("票房（万）", "")

# 对类型进行转换，转换成我们需要的类型（float）
# sp[7] = sp[7].astype(np.float64)
# display(sp[7].mean())

Unnamed: 0,date,url,name,num1,num2
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,,
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,


# 5、数据合并
## concat
我们可以通过DataFrame或Series类型的concat方法，来进行连接操作，连接时，会根据索引进行对齐。
* axis：指定连接轴，默认为0。
* join：指定连接方式，默认为外连接。【outer：并集，inner：交集】
* keys：可以用来区分不同的数据组。
* join_axes：指定连接结果集中保留的索引。
* ignore_index：忽略原来连接的索引，创建新的整数序列索引，默认为False。

In [175]:
df = pd.read_csv("spider.csv", header=None)
df.columns = ["date", "url", "name", "num1", "num2"]
display(df.head())

Unnamed: 0,date,url,name,num1,num2
0,2015-4-28,http://www.apinpai.com/,采蘑菇的小姑娘;小蓓蕾组合;90;儿歌,216.0,1392.68
1,2015-8-24,http://www.apinpai.com/,我;张国荣;80;励志,273.0,1447.17
2,2015-12-14,http://www.movie.com/dor/,《恶棍天使》;2015.12.24;2016.2.13;天津橙子映像传媒有限公司、北京光线影...,,
3,2015-4-2,http://bj.qu114.com/,my way;张敬轩;90;励志,52.0,337.27
4,2015-12-19,http://www.movie.com/dor/,《失孤》;2015.3.20;2015.5.3;华谊兄弟传媒集团、源合圣影视、映艺娱乐;彭三...,,


 ## append
在对行进行连接时，也可以使用Series或DataFrame的append方法。

In [206]:
head = df[["date", "num1", "num2"]].head()
tail = df[["date", "num1", "num2"]].tail()
tail.columns = ["date", "num4", "num3"]
# display(head, tail)

# 在进行concat拼接（堆叠），时，会根据索引进行对齐。如果无法对齐，会产生空值。（NaN）
# display(pd.concat((head, tail), sort=False))

# 通过轴axis指定堆叠方向。0竖直方向，1水平方向。
# display(pd.concat((head, tail), axis=0, sort=False))

# 我们可以通过join指定连接方式。（outer，结果集显示并集， inner结果集显示交集。）
# display(pd.concat((head, tail), join="inner"))

# 可以通过keys观看数据来源那一张表。（产生一个层级索引）
# display(pd.concat((head, tail), keys=["head", "tail"]))

# 通过join_axes指定要保留的索引。
# display(pd.concat((head, tail), join_axes=[head.columns]))
# display(pd.concat((head, tail), join_axes=[tail.columns]))

# 可以通过ignore_index设置为True，忽略以前的索引，重新创建连续的索引。
display(pd.concat((head, tail), ignore_index=True, sort=True))

Unnamed: 0,date,num1,num2,num3,num4
0,2015-4-28,216.0,1392.68,,
1,2015-8-24,273.0,1447.17,,
2,2015-12-14,,,,
3,2015-4-2,52.0,337.27,,
4,2015-12-19,,,,
5,2015-7-31,,,927.3,87.0
6,2015-4-20,,,684.56,31.0
7,2015-4-2,,,1419.74,47.0
8,2015-4-15,,,1434.67,124.0
9,2015-5-16,,,1020.5,103.0


## merge
通过pandas或DataFrame的merge方法，可以进行两个DataFrame的连接，这种连接类似于SQL中对两张表进行的join连接。  
* how：指定连接方式。可以是inner, outer, left, right，默认为inner。
* on 指定连接使用的列（该列必须同时出现在两个DataFrame中），默认使用两个DataFrame中的所有同名列进行连接。
* left_on / right_on：指定左右DataFrame中连接所使用的列。
* left_index / right_index：是否将左边（右边）DataFrame中的索引作为连接列，默认为False。
* suffixes：当两个DataFrame列名相同时，指定每个列名的后缀（用来区分），默认为_x与_y。

In [None]:
df = pd.DataFrame([[100, 2, 3], [3, 4, 5], [7, 8, 9]])
df2 = pd.DataFrame([[1, 2, 4], [3, 4, 6], [10, 11, 12]], columns=[0, 1, 3])
display(df, df2)
# 根据所有同名字段（标签名）进行等值连接。
# df.merge(df2)
# 可以通过how指定连接方式。默认为内连接。
# df.merge(df2, how="left")
# df.merge(df2, how="right")
# df.merge(df2, how="outer")

# 我们还可以通过on来指定连接的列（on指定的列必须同时出现在两个表之中）。（默认使用所有同名的列进行等值连接）
# display(df.merge(df2))
# display(df.merge(df2, on=1))

# 如果连接的列名不同，则我们可以使用left_on与right_on参数分别指定左，右两张表用来进行等值连接的索引名。
# df.merge(df2, left_on=1, right_on=3)

# 我们可以通过left_index，right_index来指定，是否使用索引来充当连接条件。True，是，False，不是。
# 注意：left_index（right_index）与left_on(right_on)不能同时指定。
# df.merge(df2, left_index=True, right_index=True)
# df.merge(df2, left_index=True, right_on=1)

# 我们也可以自定义连接的后缀。（两张表存在同名字段时，可以使用。默认为_x，_y）
# df.merge(df2, left_index=True, right_index=True, suffixes=["_table1", "_table2"])

## join
与merge方法类似，但是默认使用索引进行连接。
* how：指定连接方式。可以是inner, outer, left, right，默认为left。
* on：设置当前DataFrame对象使用哪个列与参数对象的索引进行连接。
* lsuffix / rsuffix：当两个DataFrame列名相同时，指定每个列名的后缀（用来区分），如果不指定，列名相同会产生错误。

In [None]:
df = pd.DataFrame([[100, 2, 3], [3, 4, 5], [7, 8, 9]])
df2 = pd.DataFrame([[1, 2, 4], [3, 4, 6], [10, 11, 12]], columns=[0, 1, 3], index=[0, 1, 3])
display(df, df2)
# join与merge类似，都是进行两张表的连接。
# 不同：
#1 merge默认进行的内连接（inner），join默认进行的左外连接（left）。
#2 当出现同名字段（列索引）时，merge可以自动补后缀（_x, _y），但是join不会自动补后缀，而是会产生错误。
#3 merge默认使用同名的列进行等值连接。join默认使用左右两表的索引进行连接。
#4 merge中on参数，指定两张表中共同的字段，而join中on参数，仅指定左表中的字段（右表依然使用索引）。

# 如果没有指定连接方式，默认为左外连接（left）
# df.join(df2,lsuffix="_x", rsuffix="_y")
# 我们可以通过how指定连接方式。
# df.join(df2, lsuffix="_x", rsuffix="_y", how="outer")

# on参数指定当前的表中使用哪个列与参数表（右侧表）的索引进行连接。
df.join(df2, lsuffix="_x", rsuffix="_y", on=0)

# merge与join侧重点不同，merge侧重的是使用字段进行连接，而join侧重的是使用索引进行连接。