# pandas

## 本地数据的读取

### 文本数据的读取
pd.read_csv(filepath_or_buffer, sep=",", header="infer", names=None, usecols=None, skiprows=None, skipfooter=None, converters=None, encording=None)  
file_or_buffer:指定txt或者csv文件所在的具体位置  
sep:指定原数据集中各字段的之间的分隔符，默认为“，”  
header:指定原数据集中的第一行作为表头， 默认将第一行作为字段名称 None  
names：如果原数据集中没有表头字段，可以通过该参数在数据读取时给数据添加具体的表头  
usecols：指定需要读取原数据集中的哪些变量名  
skiprows: 数据读取时，指定需要跳过原数据集开头的行数  
skipfooter:数据读取时，指定需要跳过数据集末尾的行数  
converters: 用于数据类型的转换（以字典形式指定）  
encoding: 如果文件中含有中文，有时需要指定字符编码  

In [1]:
import pandas as pd

In [5]:
data01 = pd.read_csv(r'./data_for_pandas/data_test01.txt', 
                    skiprows=2, sep=',', skipfooter=3, engine='python')
data01

Unnamed: 0,id,year,month,day,gender,occupation,income
0,1,1990,3,7,男,销售经理,6&000
1,2,1989,8,10,女,化妆师,8&500
2,3,1991,10,10,男,后端开发,13&500
3,4,1992,10,7,女,前端设计,6&500
4,5,1985,6,15,男,数据分析师,18&000


In [6]:
#指定id列的数据类型为str，数据类型转换
data01 = pd.read_csv(r'./data_for_pandas/data_test01.txt', 
                    skiprows=2, sep=',', skipfooter=3, 
                     converters={'id':str}, engine='python')
data01

Unnamed: 0,id,year,month,day,gender,occupation,income
0,1,1990,3,7,男,销售经理,6&000
1,2,1989,8,10,女,化妆师,8&500
2,3,1991,10,10,男,后端开发,13&500
3,4,1992,10,7,女,前端设计,6&500
4,5,1985,6,15,男,数据分析师,18&000


In [8]:
#指定字符编码
data01 = pd.read_csv(r'./data_for_pandas/data_test01.txt', 
                    skiprows=2, sep=',', skipfooter=3, 
                     converters={'id':str}, encoding='utf-8',
                     engine='python')
data01

Unnamed: 0,id,year,month,day,gender,occupation,income
0,1,1990,3,7,男,销售经理,6&000
1,2,1989,8,10,女,化妆师,8&500
2,3,1991,10,10,男,后端开发,13&500
3,4,1992,10,7,女,前端设计,6&500
4,5,1985,6,15,男,数据分析师,18&000


In [11]:
#指定千字符
data01 = pd.read_csv(r'./data_for_pandas/data_test01.txt', 
                    skiprows=2, sep=',', skipfooter=3, 
                     converters={'id':str}, encoding='utf-8',
                     thousands='&' ,engine='python')
data01

Unnamed: 0,id,year,month,day,gender,occupation,income
0,1,1990,3,7,男,销售经理,6000
1,2,1989,8,10,女,化妆师,8500
2,3,1991,10,10,男,后端开发,13500
3,4,1992,10,7,女,前端设计,6500
4,5,1985,6,15,男,数据分析师,18000


In [12]:
#给无表头文件设置表头
data01 = pd.read_csv(r'./data_for_pandas/data_test01.txt', 
                    skiprows=2, sep=',', skipfooter=3, 
                     converters={'id':str}, encoding='utf-8',
                     thousands='&' ,header=None, engine='python')
data01

Unnamed: 0,0,1,2,3,4,5,6
0,1,1990,3,7,男,销售经理,6000
1,2,1989,8,10,女,化妆师,8500
2,3,1991,10,10,男,后端开发,13500
3,4,1992,10,7,女,前端设计,6500
4,5,1985,6,15,男,数据分析师,18000


In [13]:
#给无表头文件添加表头
data01 = pd.read_csv(r'./data_for_pandas/data_test01.txt', 
                    skiprows=2, sep=',', skipfooter=3, 
                     converters={'id':str}, encoding='utf-8',
                     thousands='&' ,header=None, 
                     names = ['id', 'year', 'month', 'day', 'gender', 'occupation', 'income'], 
                     engine='python')
data01

Unnamed: 0,id,year,month,day,gender,occupation,income
0,1,1990,3,7,男,销售经理,6000
1,2,1989,8,10,女,化妆师,8500
2,3,1991,10,10,男,后端开发,13500
3,4,1992,10,7,女,前端设计,6500
4,5,1985,6,15,男,数据分析师,18000


In [15]:
#读取特定的变量
data01 = pd.read_csv(r'./data_for_pandas/data_test01.txt', 
                    skiprows=2, sep=',', skipfooter=3, 
                     converters={'id':str}, encoding='utf-8',
                     thousands='&' ,header=None, 
                     names = ['id', 'year', 'month', 'day', 'gender', 'occupation', 'income'], 
                     usecols = ['id', 'occupation', 'income'], 
                     engine='python')
data01

Unnamed: 0,id,occupation,income
0,1,销售经理,6000
1,2,化妆师,8500
2,3,后端开发,13500
3,4,前端设计,6500
4,5,数据分析师,18000


### 电子表格读取

pd.read_excel(io, sheetname=0, header=0, skiprows=None,skip_footer=0, index_col=None, names=None, na_values=None, thousands=None, convert_float=True)  
io：指定电子表格的具体路径  
sheetname：指定需要读取电子表格中的第几个Sheet，既可以传递整数也可以传递具体的Sheet名称  
header:  
skiprows  
skip_footer  
index_col：指定那些列作为数据框的行索引（标签）  
na_values：指定原始数据中哪些特殊值代表了缺失值  
thousands：指定原始数据集中的千分位符  
convert_float：默认将所有的数值型字段转换为浮点型字段  
converters: 通过字典的形式，指定某些列需要转换的形式  

In [8]:
import pandas as pd

In [6]:
pd.read_excel('./data_for_pandas/data_test02.xlsx')#xlrd包的问题

XLRDError: Excel xlsx file; not supported

In [9]:
pd.read_excel('./data_for_pandas/data_test02.xlsx')

XLRDError: Excel xlsx file; not supported

In [10]:
pd.read_excel(r'./data_for_pandas/data_test02.xlsx', engine='openpyxl')#解决方法：使用openpyxl替代

Unnamed: 0,00101,儿童裤,黑色,109
0,1123,儿童上衣,红色,229
1,1010,儿童鞋,蓝色,199
2,100,儿童内衣,灰色,159


In [11]:
pd.read_excel(r'./data_for_pandas/data_test02.xlsx', engine='openpyxl',
             header=None, names=['ID','Products', 'Color', 'Size'],
             converters={'ID':str})

Unnamed: 0,ID,Products,Color,Size
0,101,儿童裤,黑色,109
1,1123,儿童上衣,红色,229
2,1010,儿童鞋,蓝色,199
3,100,儿童内衣,灰色,159


## 远程数据读取

### 数据库连接

pip install pymysql
pymysql.connect(host=None, user=None, password="", database=None, port=0, charset="")  
host：指定需要访问的MySQL服务器ip  
user:指定访问MySQL数据的用户名  
password：指定访问MySQL数据库的密码  
database:指定访问MySQL数据库的密码  
port:指定访问端口号  
charset：指定读取数据库的字符集，如果数据库中表格含有中文，尝试使用'utf8'或者'gbk'  

In [None]:
import pymysql
bridge = pymysql.connect(host='', user='', password='', database='')
bridge.close()#数据读取后，及时关闭桥梁


### 数据库读取

pd_read_sql(sql, con)
pd.read_sql_table(table_name, con)

sql：指定SQL查询语句，根据查询语句的逻辑返回对应的数据框  
con：指定数据库与python之间的连接器，pymysql.connect  
table_name:指定数据库中某张表的名称，根据表的名称返回对应的数据框  

In [None]:
pd.read_sql("select * from shouxin", con=bridge)

## 数据查看

### 数据概况

In [None]:
# 数据规模
df.shape

#列名称
df.colums

#数据类型
df.dtypes

# 统计描述
df.describe() #默认对数值型数据，做统计描述

# 统计描述
df.describe(include='object') #对非数值型变量做统计描述，离散型变量的频次统计




### 数据子集的筛选

In [None]:
# 列的筛选
df.column_name #点方法，缺点：每次只能取出一列，列的名称必须是一个整体，中间不能有空格
df['column_name'] #索引方法
df[['column_name_1', 'column_name_2',..,'column_name_n']] #索引方法同时取出多列


In [None]:
# 行的筛选
df.loc[condition]
df.loc[(condition_1) & (condition_2)]
df.loc[df.column_name=='test_name', :]#取出数据中column_name列中名称对应为test_name的行
df.loc[(df.column_name_1=='test_name') & (df[column_name_2] > test_number), :]##取出数据中column_name_1列中名称对应为test_name，并且column_name_2列中的数值大于test_number的行


In [None]:
# 行和列的同时筛选
df.loc[(df.column_name_1=='test_name') & (df[column_name_2] > test_number), ['column_name_3', 'column_name_4']]#取出满足条件的行的column_name_3和column_name_4列

## 数据清洗

### 数据类型更改

In [None]:
pd.to_datatime
df.column.astype

In [12]:
sec_car = pd.read_csv('./data_for_pandas/sec_cars.csv')
sec_car.head()

Unnamed: 0,Brand,Name,Boarding_time,Km(W),Discharge,Sec_price,New_price
0,众泰,众泰T600 2016款 1.5T 手动 豪华型,2016年5月,3.96,国4,6.8,9.42万
1,众泰,众泰Z700 2016款 1.8T 手动 典雅型,2017年8月,0.08,"国4,国5",8.8,11.92万
2,众泰,大迈X5 2015款 1.5T 手动 豪华型,2016年9月,0.8,国4,5.8,8.56万
3,众泰,众泰T600 2017款 1.5T 手动 精英贺岁版,2017年3月,0.3,国5,6.2,8.66万
4,众泰,众泰T600 2016款 1.5T 手动 旗舰型,2016年2月,1.7,国4,7.0,11.59万


In [13]:
sec_car.dtypes

Brand             object
Name              object
Boarding_time     object
Km(W)            float64
Discharge         object
Sec_price        float64
New_price         object
dtype: object

In [17]:
#时间类型的更改
pd.to_datetime(sec_car.Boarding_time, format='%Y年%m月')#format，输入原始数据的类型
sec_car.Boarding_time = pd.to_datetime(sec_car.Boarding_time, format='%Y年%m月')#重新赋值

In [18]:
sec_car.dtypes

Brand                    object
Name                     object
Boarding_time    datetime64[ns]
Km(W)                   float64
Discharge                object
Sec_price               float64
New_price                object
dtype: object

In [19]:
sec_car.New_price

0         9.42万
1        11.92万
2         8.56万
3         8.66万
4        11.59万
          ...  
10979    23.86万
10980    23.86万
10981    20.28万
10982    28.65万
10983    24.95万
Name: New_price, Length: 10984, dtype: object

In [20]:
sec_car.New_price[:-1]#此时是对这一列的所有元素进行切片，结果是最后一个元素未取，并不是对元素本身进行切片


0         9.42万
1        11.92万
2         8.56万
3         8.66万
4        11.59万
          ...  
10978    22.46万
10979    23.86万
10980    23.86万
10981    20.28万
10982    28.65万
Name: New_price, Length: 10983, dtype: object

In [21]:
sec_car.New_price.str[:-1]#str参数，对元素本身进行切片

0         9.42
1        11.92
2         8.56
3         8.66
4        11.59
         ...  
10979    23.86
10980    23.86
10981    20.28
10982    28.65
10983    24.95
Name: New_price, Length: 10984, dtype: object

In [22]:
sec_car.New_price.str[:-1].astype(float)

0         9.42
1        11.92
2         8.56
3         8.66
4        11.59
         ...  
10979    23.86
10980    23.86
10981    20.28
10982    28.65
10983    24.95
Name: New_price, Length: 10984, dtype: float64

In [23]:
sec_car.New_price = sec_car.New_price.str[:-1].astype(float)
sec_car.dtypes

Brand                    object
Name                     object
Boarding_time    datetime64[ns]
Km(W)                   float64
Discharge                object
Sec_price               float64
New_price               float64
dtype: object

### 冗余数据的识别和处理

In [None]:
df.duplicated
df.drop_duplicates

In [25]:
data = pd.read_excel(r"./data_for_pandas/data_test04.xlsx", engine='openpyxl')
data.head()

Unnamed: 0,appcategory,appname,comments,install,love,size,update
0,网上购物-商城-团购-优惠-快递,每日优鲜,1297,204.7万,89.00%,15.16MB,2017年10月11日
1,网上购物-商城,苏宁易购,577,7996.8万,73.00%,58.9MB,2017年09月21日
2,网上购物-商城-优惠,唯品会,2543,7090.1万,86.00%,41.43MB,2017年10月13日
3,网上购物-商城-优惠,唯品会,2543,7090.1万,86.00%,41.43MB,2017年10月13日
4,网上购物-商城,拼多多,1921,3841.9万,95.00%,13.35MB,2017年10月11日


In [26]:
data.duplicated()#默认判断数据中有无完全相同的行

0    False
1    False
2    False
3     True
4    False
5    False
6    False
7    False
8     True
9     True
dtype: bool

In [27]:
data.duplicated(subset='appname')#对特定的列进行重复判断

0    False
1    False
2    False
3     True
4    False
5    False
6    False
7    False
8     True
9     True
dtype: bool

In [30]:
data.drop_duplicates()#所有的重复

Unnamed: 0,appcategory,appname,comments,install,love,size,update
0,网上购物-商城-团购-优惠-快递,每日优鲜,1297,204.7万,89.00%,15.16MB,2017年10月11日
1,网上购物-商城,苏宁易购,577,7996.8万,73.00%,58.9MB,2017年09月21日
2,网上购物-商城-优惠,唯品会,2543,7090.1万,86.00%,41.43MB,2017年10月13日
4,网上购物-商城,拼多多,1921,3841.9万,95.00%,13.35MB,2017年10月11日
5,网上购物-商城-优惠,寺库奢侈品,1964,175.4万,100.00%,17.21MB,2017年09月30日
6,网上购物-商城,淘宝,14244,4.6亿,68.00%,73.78MB,2017年10月13日
7,网上购物-商城-团购-优惠,当当,134,1615.3万,61.00%,37.01MB,2017年10月17日


In [31]:
data.drop_duplicates(subset='appname')#删除特定列重复的数据

Unnamed: 0,appcategory,appname,comments,install,love,size,update
0,网上购物-商城-团购-优惠-快递,每日优鲜,1297,204.7万,89.00%,15.16MB,2017年10月11日
1,网上购物-商城,苏宁易购,577,7996.8万,73.00%,58.9MB,2017年09月21日
2,网上购物-商城-优惠,唯品会,2543,7090.1万,86.00%,41.43MB,2017年10月13日
4,网上购物-商城,拼多多,1921,3841.9万,95.00%,13.35MB,2017年10月11日
5,网上购物-商城-优惠,寺库奢侈品,1964,175.4万,100.00%,17.21MB,2017年09月30日
6,网上购物-商城,淘宝,14244,4.6亿,68.00%,73.78MB,2017年10月13日
7,网上购物-商城-团购-优惠,当当,134,1615.3万,61.00%,37.01MB,2017年10月17日


In [32]:
data.drop_duplicates(inplace=True)#在原始数据上进行删除

In [33]:
data

Unnamed: 0,appcategory,appname,comments,install,love,size,update
0,网上购物-商城-团购-优惠-快递,每日优鲜,1297,204.7万,89.00%,15.16MB,2017年10月11日
1,网上购物-商城,苏宁易购,577,7996.8万,73.00%,58.9MB,2017年09月21日
2,网上购物-商城-优惠,唯品会,2543,7090.1万,86.00%,41.43MB,2017年10月13日
4,网上购物-商城,拼多多,1921,3841.9万,95.00%,13.35MB,2017年10月11日
5,网上购物-商城-优惠,寺库奢侈品,1964,175.4万,100.00%,17.21MB,2017年09月30日
6,网上购物-商城,淘宝,14244,4.6亿,68.00%,73.78MB,2017年10月13日
7,网上购物-商城-团购-优惠,当当,134,1615.3万,61.00%,37.01MB,2017年10月17日


### 异常值的识别和处理
Z得分法：按照平均值和标准差进行淘汰数据，平均值±n标准差（数据近似服从正态分布）   
分位数法：上界：上四分位数+1.5（上四分位数-下四分位数）；下界：下四分位数-1.5（上四分位数-下四分位数）  
距离法  

### 缺失值的识别和处理

df.isnull#缺失值判断  
df.fillna#缺失值填充  
df.dropna#缺失值删除  

In [34]:
data_05 = pd.read_excel(r'./data_for_pandas/data_test05.xlsx', engine='openpyxl')
data_05.head()

Unnamed: 0,uid,regit_date,gender,age,income
0,81200457,2016-10-30,M,23.0,6500.0
1,81201135,2016-11-08,M,27.0,10300.0
2,80043782,2016-10-13,F,,13500.0
3,84639281,2017-04-17,M,26.0,6000.0
4,73499801,2016-03-21,,,4500.0


In [35]:
data_05.isnull()#整体判断

Unnamed: 0,uid,regit_date,gender,age,income
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,True,False
3,False,False,False,False,False
4,False,False,True,True,False
5,False,False,False,False,True
6,False,False,False,False,False
7,False,False,False,True,False
8,False,False,False,False,False
9,False,False,False,False,True


In [36]:
data_05.isnull().any()#判断每一列

uid           False
regit_date    False
gender         True
age            True
income         True
dtype: bool

In [37]:
data_05.isnull().any(axis=0)#默认axis=0

uid           False
regit_date    False
gender         True
age            True
income         True
dtype: bool

In [38]:
data_05.isnull().sum(axis=0)#缺失数量

uid           0
regit_date    0
gender        1
age           3
income        2
dtype: int64

In [40]:
data_05.isnull().sum(axis=0)/data_05.shape[0]#缺失比例

uid           0.0
regit_date    0.0
gender        0.1
age           0.3
income        0.2
dtype: float64

In [42]:
data_05.dropna()#删除，原数据修改inplace参数

Unnamed: 0,uid,regit_date,gender,age,income
0,81200457,2016-10-30,M,23.0,6500.0
1,81201135,2016-11-08,M,27.0,10300.0
3,84639281,2017-04-17,M,26.0,6000.0
6,63881943,2015-10-07,M,21.0,10000.0
8,77638351,2016-07-12,M,25.0,18000.0


In [43]:
data_05

Unnamed: 0,uid,regit_date,gender,age,income
0,81200457,2016-10-30,M,23.0,6500.0
1,81201135,2016-11-08,M,27.0,10300.0
2,80043782,2016-10-13,F,,13500.0
3,84639281,2017-04-17,M,26.0,6000.0
4,73499801,2016-03-21,,,4500.0
5,72399510,2016-01-18,M,19.0,
6,63881943,2015-10-07,M,21.0,10000.0
7,35442690,2015-04-10,F,,5800.0
8,77638351,2016-07-12,M,25.0,18000.0
9,85200189,2017-05-18,M,22.0,


In [45]:
data_05.fillna(value= 0)#直接所有填充

Unnamed: 0,uid,regit_date,gender,age,income
0,81200457,2016-10-30,M,23.0,6500.0
1,81201135,2016-11-08,M,27.0,10300.0
2,80043782,2016-10-13,F,0.0,13500.0
3,84639281,2017-04-17,M,26.0,6000.0
4,73499801,2016-03-21,0,0.0,4500.0
5,72399510,2016-01-18,M,19.0,0.0
6,63881943,2015-10-07,M,21.0,10000.0
7,35442690,2015-04-10,F,0.0,5800.0
8,77638351,2016-07-12,M,25.0,18000.0
9,85200189,2017-05-18,M,22.0,0.0


In [47]:
data_05.fillna(value={'gender':data_05.gender.mode(), 'age':data_05.age.mean(), 'income':data_05.income.median()})#不同变量的填充：gender的众数，年龄的平均值，收入的中位数

Unnamed: 0,uid,regit_date,gender,age,income
0,81200457,2016-10-30,M,23.0,6500.0
1,81201135,2016-11-08,M,27.0,10300.0
2,80043782,2016-10-13,F,23.285714,13500.0
3,84639281,2017-04-17,M,26.0,6000.0
4,73499801,2016-03-21,,23.285714,4500.0
5,72399510,2016-01-18,M,19.0,8250.0
6,63881943,2015-10-07,M,21.0,10000.0
7,35442690,2015-04-10,F,23.285714,5800.0
8,77638351,2016-07-12,M,25.0,18000.0
9,85200189,2017-05-18,M,22.0,8250.0


In [48]:
data_05.fillna(value={'gender':data_05.gender.mode()[0], 'age':data_05.age.mean(), 'income':data_05.income.median()})#众数返回的是一个包含众数的容器，可能有多个众数，所以要用容器的值的取法

Unnamed: 0,uid,regit_date,gender,age,income
0,81200457,2016-10-30,M,23.0,6500.0
1,81201135,2016-11-08,M,27.0,10300.0
2,80043782,2016-10-13,F,23.285714,13500.0
3,84639281,2017-04-17,M,26.0,6000.0
4,73499801,2016-03-21,M,23.285714,4500.0
5,72399510,2016-01-18,M,19.0,8250.0
6,63881943,2015-10-07,M,21.0,10000.0
7,35442690,2015-04-10,F,23.285714,5800.0
8,77638351,2016-07-12,M,25.0,18000.0
9,85200189,2017-05-18,M,22.0,8250.0


## 数据的汇总

### 透视表功能

pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='ALL')  
data：指定需要构造透视表的数据集  
value：指定需要拉入”数值“框的字段列表  
index：指定需要拉入”行标签“框的字段列表  
columns: 指定需要拉入”列标签“框的字段列表  
aggfunc：指定数值的统计函数，默认为统计均值，也可以指定numpy模块中的其他统计函数  
fill_value：指定一个标量，用于填充缺失值  
margins：bool类型参数，是否需要显示行或列的总计值，默认为False  
dropna:bool类型参数，是否需要删除整列为缺失的字段，默认为True  
margins_name：指定行或列的总计名称，默认为ALL  


In [49]:
data_06 = pd.read_csv(r"./data_for_pandas/diamonds.csv")
data_06.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [50]:
pd.pivot_table(data_06, index='color', values='price', aggfunc='mean')

Unnamed: 0_level_0,price
color,Unnamed: 1_level_1
D,3169.954096
E,3076.752475
F,3724.886397
G,3999.135671
H,4486.669196
I,5091.874954
J,5323.81802


In [51]:
pd.pivot_table(data_06, index='color', columns='clarity',values='price', aggfunc='size')

clarity,I1,IF,SI1,SI2,VS1,VS2,VVS1,VVS2
color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
D,42,73,2083,1370,705,1697,252,553
E,102,158,2426,1713,1281,2470,656,991
F,143,385,2131,1609,1364,2201,734,975
G,150,681,1976,1548,2148,2347,999,1443
H,162,299,2275,1563,1169,1643,585,608
I,92,143,1424,912,962,1169,355,365
J,50,51,750,479,542,731,74,131


### 分组汇总

groupby：用于汇总前，设定被分组的变量  
aggreate：可基于groupby的结果做进一步否认统计汇总  
aggreate阶段，需要以字典的形式传递参数，用于选择被统计的变量和对应的统计方法  

In [52]:
import numpy as np

In [54]:
#通过group方法，指定分组变量
grouped = data_06.groupby(by=['color', 'cut'])
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fbce48c1910>

In [56]:
# 对分组变量进行统计汇总
result = grouped.aggregate({'color':np.size, 'carat':np.min, 'price':np.mean, 'table':np.max})
result

Unnamed: 0_level_0,Unnamed: 1_level_0,color,carat,price,table
color,cut,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
D,Fair,163,0.25,4291.06135,73.0
D,Good,662,0.23,3405.382175,66.0
D,Ideal,2834,0.2,2629.094566,62.0
D,Premium,1603,0.2,3631.292576,62.0
D,Very Good,1513,0.23,3470.467284,64.0
E,Fair,224,0.22,3682.3125,73.0
E,Good,933,0.23,3423.644159,65.0
E,Ideal,3903,0.2,2597.55009,62.0
E,Premium,2337,0.2,3538.91442,62.0
E,Very Good,2400,0.2,3214.652083,65.0


In [57]:
#调整变量名的顺序
result = pd.DataFrame(result, columns=['color', 'carat', 'price', 'table'])
result

Unnamed: 0_level_0,Unnamed: 1_level_0,color,carat,price,table
color,cut,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
D,Fair,163,0.25,4291.06135,73.0
D,Good,662,0.23,3405.382175,66.0
D,Ideal,2834,0.2,2629.094566,62.0
D,Premium,1603,0.2,3631.292576,62.0
D,Very Good,1513,0.23,3470.467284,64.0
E,Fair,224,0.22,3682.3125,73.0
E,Good,933,0.23,3423.644159,65.0
E,Ideal,3903,0.2,2597.55009,62.0
E,Premium,2337,0.2,3538.91442,62.0
E,Very Good,2400,0.2,3214.652083,65.0


In [59]:
#数据集重命名
result.rename(columns={'color':'counts', 'carat':'min_weight', 'price':'avg_price', 'tabel':'max_table'})

Unnamed: 0_level_0,Unnamed: 1_level_0,counts,min_weight,avg_price,table
color,cut,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
D,Fair,163,0.25,4291.06135,73.0
D,Good,662,0.23,3405.382175,66.0
D,Ideal,2834,0.2,2629.094566,62.0
D,Premium,1603,0.2,3631.292576,62.0
D,Very Good,1513,0.23,3470.467284,64.0
E,Fair,224,0.22,3682.3125,73.0
E,Good,933,0.23,3423.644159,65.0
E,Ideal,3903,0.2,2597.55009,62.0
E,Premium,2337,0.2,3538.91442,62.0
E,Very Good,2400,0.2,3214.652083,65.0


### 数据的合并与连接

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None)  
objs：指定需要合并的对象，可以是序列、数据框或者面板数据构成的列表  
axis：指定数据合并的轴，默认为0，表示合并多个数据的行，如果为1，就表示合并多个数据的列  
jion：指定合并的方式，默认为outer，表示合并所有数据，如果改为inner，表示合并公共部分的数据  
join_axes：合并数据后，指定保留的数据轴  
ignore_index：bool类型的参数，表示是否忽略原数据集的索引，默认为False，如果改为True，就表示忽略原索引并生成新索引  
keys：为合并后的数据添加新索引，用于区分各个数据部分  

注意：concat行合并，数据源的变量名称完全相同（变量名顺序没有要求）  

In [62]:
# 构造数据集df1和df2
df1 = pd.DataFrame({'name':['张三', '李四', '王二'], 'age':[21, 25, 22], 'gender':['男', '女', '男']})
df2 = pd.DataFrame({'name':['丁一', '赵五'], 'age':[23, 22], 'gender':['女', '女']})
df1
df2

Unnamed: 0,name,age,gender
0,丁一,23,女
1,赵五,22,女


In [63]:
#数据集的纵向合并
pd.concat([df1, df2])

Unnamed: 0,name,age,gender
0,张三,21,男
1,李四,25,女
2,王二,22,男
0,丁一,23,女
1,赵五,22,女


In [66]:
pd.concat([df1, df2], keys=['df1', 'df2'])#标识数据来源不同数据集


Unnamed: 0,Unnamed: 1,name,age,gender
df1,0,张三,21,男
df1,1,李四,25,女
df1,2,王二,22,男
df2,0,丁一,23,女
df2,1,赵五,22,女


In [68]:
pd.concat([df1, df2], keys=['df1', 'df2']).reset_index()#将数据集的标识，变成列变量

Unnamed: 0,level_0,level_1,name,age,gender
0,df1,0,张三,21,男
1,df1,1,李四,25,女
2,df1,2,王二,22,男
3,df2,0,丁一,23,女
4,df2,1,赵五,22,女


In [69]:
pd.concat([df1, df2], keys=['df1', 'df2']).reset_index().drop(labels='level_1', axis=1)#按照行方向，去掉某一列

Unnamed: 0,level_0,name,age,gender
0,df1,张三,21,男
1,df1,李四,25,女
2,df1,王二,22,男
3,df2,丁一,23,女
4,df2,赵五,22,女


In [70]:
pd.concat([df1, df2], keys=['df1', 'df2']).reset_index().drop(labels='level_1', axis=1).rename(columns={'level_0':'class'})#修改列名称

Unnamed: 0,class,name,age,gender
0,df1,张三,21,男
1,df1,李四,25,女
2,df1,王二,22,男
3,df2,丁一,23,女
4,df2,赵五,22,女


pd.merge(left, right, how='inner', on=None, right_on=None, left_index=False, right_index=False, suffixes=('\_x', '\_y'))  
left：指定需要连接的主表  
right：指定需要连接的辅表  
how：指定连接方式，默认为inner内连接，还有其他选项，如左连接left、右连接right和外连接outer  
on：指定连接两张表的共同字段  
left_on：指定主表中需要连接的共同字段  
right_on：指定辅表中需要连接的共同字段  
left_index：bool类型，是否将主表中的行索引用作表连接的共同字段，默认为False  
right_index：bool类型，是否将辅表中的行索引用作表连接的共同字段，默认为False  
sort：bool类型参数，是否对连接后的数据按照共同字段排序，默认为False  
suffixes：如果数据连接的结果中存在重叠的变量名，则使用各自的前缀进行区分  


In [71]:
# 构造数据集
df3 = pd.DataFrame({'id':[1,2,3,4,5],'name':['张三','李四','王二','丁一','赵五'],'age':[27,24,25,23,25],'gender':['男','男','男','女','女']})
df4 = pd.DataFrame({'Id':[1,2,2,4,4,4,5], 'score':[83,81,87,75,86,74,88], 'kemu':['科目1','科目1','科目2','科目1','科目2','科目3','科目1']})
df5 = pd.DataFrame({'id':[1,3,5],'name':['张三','王二','赵五'],'income':[13500,18000,15000]})

In [72]:
print(df3)
print(df4)
print(df5)

   id name  age gender
0   1   张三   27      男
1   2   李四   24      男
2   3   王二   25      男
3   4   丁一   23      女
4   5   赵五   25      女
   Id  score kemu
0   1     83  科目1
1   2     81  科目1
2   2     87  科目2
3   4     75  科目1
4   4     86  科目2
5   4     74  科目3
6   5     88  科目1
   id name  income
0   1   张三   13500
1   3   王二   18000
2   5   赵五   15000


In [73]:
#df3和df4的连接
merge1 = pd.merge(left=df3, right=df4, how='left', left_on='id', right_on='Id')
merge1

Unnamed: 0,id,name,age,gender,Id,score,kemu
0,1,张三,27,男,1.0,83.0,科目1
1,2,李四,24,男,2.0,81.0,科目1
2,2,李四,24,男,2.0,87.0,科目2
3,3,王二,25,男,,,
4,4,丁一,23,女,4.0,75.0,科目1
5,4,丁一,23,女,4.0,86.0,科目2
6,4,丁一,23,女,4.0,74.0,科目3
7,5,赵五,25,女,5.0,88.0,科目1


In [74]:
#连接结果与df5连接
merge2 = pd.merge(left=merge1, right=df5, how='left')
merge2

Unnamed: 0,id,name,age,gender,Id,score,kemu,income
0,1,张三,27,男,1.0,83.0,科目1,13500.0
1,2,李四,24,男,2.0,81.0,科目1,
2,2,李四,24,男,2.0,87.0,科目2,
3,3,王二,25,男,,,,18000.0
4,4,丁一,23,女,4.0,75.0,科目1,
5,4,丁一,23,女,4.0,86.0,科目2,
6,4,丁一,23,女,4.0,74.0,科目3,
7,5,赵五,25,女,5.0,88.0,科目1,15000.0
