pandas用法大全https://blog.csdn.net/liufang0001/article/details/77856255

# pandas概述

pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包，类似于 Numpy 的核心是 ndarray，pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。

# Series

Series是一种类似于一维数组的对象，由一组数据和一组与之相关的数据标签（索引）组成。比较像列表（数组）和字典的结合体，有序，同时支持索引和键。

## Series数据创建

In [None]:
import pandas as pd
pd.Series([1,5,-6,'t']) #默认通过列表或数组创建方式,基本任意的一维数据都可以用来构造 Series 对象
pd.Series([1,5,-6,9], index=['a', 'b', 'c', 'd']) #指定标签创建
pd.Series({'a':1, 'b':2}) #字典方式创建

## Series数据属性

In [None]:
import pandas as pd
a = pd.Series(data=[1,3,5,7],index = ['a','b','x','y'])
a.index #索引
a.values #值
a[a>3] #布尔过滤
a.mean() #平均值
a.sum() #总和
a.cumsum() #累加和
a['a']  #
a[['a','b','d']] #花式索引

# DataFrame

## 数据创建

DataFrame是一个表格型的数据结构（二维数据结构），含有一组有序的列。DataFrame可以被看做是由Series组成的字典，并且共用一个索引。  
pandas.DataFrame( data, index, columns, dtype, copy)  
data：数据类型，如:ndarray，series，map，lists，dict，constant和另一个DataFrame。  
index：行标签，索引或数组类型，没有提供行标签时默认赋值为0开始的等差数组。    
columns：列标签，索引或数组类型，没有提供列标签时默认赋值为0开始的等差数组。  
dtype : 数据类型，默认为空。只允许有一种数据类型，如果为空，自动推断类型。  
copy：布尔类型，默认为False。从输入值中拷贝数据，只对输入为DataFrame或者二维数组时有影响。

In [16]:
import pandas as pd
import numpy as np

# 通过字典的方式创建，key相当于列名（也可以理解为数据库的字段），自动创建整数索引。
data1 = pd.DataFrame({'one': [1,2,3,4,], 'two': [4,3,2,1]})

# 通过字典和Series对象创建: 取Series对象中标签的并集作为索引，缺失值为NaN
data2 = pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']),'two':pd.Series([1,2,3,4],index=['b','a','c','d'])})

# 通过数组/列表创建
dates=pd.date_range('20180612',periods=6) #定义索引名字
data3 = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['A','B','C','D']) #index为行索引，columns为列索引，默认从0排序指定

# series转DataFrame
a = pd.Series(data=[1,3,5,7],index = ['a','b','x','y'])
data4 = a.to_frame('one')

# data1
# data2
# data3
data4

Unnamed: 0,one
a,1
b,3
x,5
y,7


In [18]:
data2

Unnamed: 0,one,two
a,1.0,2
b,2.0,1
c,3.0,3
d,,4


In [23]:
dic = {}
data2[['one','two']].values[0]
dic[1]=[2]
dic

array([1., 2.])

{1: [2]}

In [24]:
dic[1].append(2)

In [25]:
dic

{1: [2, 2]}

# 数据导入导出

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None……）  
filepath_or_buffer : 要读取的csv文件的URL，本地或者远程文件均可  
header：int或int列表,默认'infer’,指定行数用来作为列名，数据开始行数,如果文件中没有列名，则默认为0，否则设置为None。  
sep：str，默认‘,’指定分隔符，如果不指定参数，则会尝试使用逗号分隔。  
文件读取几点注意事项：  
1、文件路径问题：  
pandas.read_csv('C:\Users\Administrator\Desktop\2014.csv')可能会报错：(unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape，原因是'\user'中 '\u' 对python来说是一个转义字符，整个路径无法识别，方法1：将所有斜杠\改成反斜杠/；方法2：在'C:\Users\Administrator\Desktop\2014.xls'前面添加一个r，表示原始字符，r'C:\Users\Administrator\Desktop\2014.xls'  
2、编码问题：  
文件不是utf-8编码的，所以默认格式无法解码，报错'utf-8' codec can't decode byte 0xd0 in position 0，方法：添加encoding = 'gb18030'等格式尝试解码  

In [None]:
import pandas as pd
import numpy as np

#导入
# pd.read_csv(filename)：从CSV文件导入数据
# pd.read_table(filename)：从限定分隔符的文本文件导入数据
# pd.read_excel(filename)：从Excel文件导入数据
# pd.read_sql(query, connection_object)：从SQL表/库导入数据
# pd.read_json(json_string)：从JSON格式的字符串导入数据
# pd.read_html(url)：解析URL、字符串或者HTML文件，抽取其中的tables表格
# pd.read_clipboard()：从你的粘贴板获取内容，并传给read_table()
# pd.DataFrame(dict)：从字典对象导入数据，Key是列名，Value是数据

#导出
# df.to_csv(filename)：导出数据到CSV文件
# df.to_excel(filename)：导出数据到Excel文件
# df.to_sql(table_name, connection_object)：导出数据到SQL表
# df.to_json(filename)：以Json格式导出数据到文本文件

data=pd.read_csv('data\students.csv')
data

data = pd.read_csv('data\students.csv',index_col = ['Student ID'],encoding = 'gb18030')#index_col指定Student ID列作为行索引
data

a = ['one','two','three']
b = [1,2,3]
data = pd.DataFrame({'english':a,'number':b})
data.to_csv('data/b.csv',index=False,sep=',') #index=False,保存数据没有行索引

# 数据检查、统计

In [9]:
import pandas as pd
import numpy as np

dates=pd.date_range('20180612',periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns = ['A','B','C','D'])

# df.shape #维度
# df.info() #数据表基本信息
# df.describe() #整体统计
# df.dtypes  #数据类型
# df.index #行标签
# df.columns #列标签
# df.values #值

# df.isnull() #检查DataFrame对象中的空值，返回每个元素的Boolean值
# df.notnull()#检查DataFrame对象中的非空值，返回每个元素的Boolean值
# np.any(df.isnull())==True #检查整个数据表是否有丢失的情况，有则返回一个true
# df['A'].isnull() #某一列空值
# df['A'].unique() #某一列的唯一值
# df.T #转置
# df.head(4) #前4行
# df.tail(3) #后3行

False

In [None]:
# df.mean() #返回所有列的均值
# df.corr(method='pearson') #返回列与列之间的相关系数，默认皮尔森系数
# df.cov() #返回协方差矩阵
# df.count() #返回每一列中的非空值的个数
# df.max() #返回每一列的最大值
# df.min() #返回每一列的最小值
# df['A'].argmin() #最小值的索引位置
# df['A'].argmax() #最大值的索引位置
# df['A'].idxmin()#最小值的索引位置
# df['A'].idxmax()#最大值的索引位置
# df.median() #返回每一列的中位数
# df.std() #返回每一列的标准差
# df.var() #每一列的方差
# df.sum() #按照列求和
# df.median() #中位数
# df.cumsum()  #累计求和
# df.cumprod() #累计相乘
# df.diff() #计算一阶差分（对时间序列很有用）
# df.pct_change() #计算百分数变化
# df.quantile() #样本分位数

In [1]:
import pandas as pd
import numpy as np

data=pd.read_csv('data\students.csv')

data['age'].value_counts() #统计'年龄'该列各数值出现的频次，按照降序排列
data['age'].value_counts(ascending=True) #升序
data['age'].value_counts(normalize=True) #统计各频次占比情况

FileNotFoundError: File b'data\\students.csv' does not exist

# 数据索引、筛选

## 直接索引

In [None]:
# 一维
# 行维度：整数切片、标签切片、<布尔数组>
# 列维度：标签索引、标签列表、Callable

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])

# df['A'] #输出第A列,Series类型
# df.A  #与上面效果一样输出第A列,Series类型
# df[['A']] #输出第A列,DataFrame类型
# df[['A','C']] #输出第A、C列

# df[0:3] #输出0到第3行
# df['a':'c']#行切片

# df[lambda df: df.columns[0]] 

## loc标签名索引

In [4]:
# 二维，先行后列
# 行维度：标签索引、标签切片、标签列表、<布尔数组>、Callable
# 列维度：标签索引、标签切片、标签列表、<布尔数组>、Callable

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])

# df.loc['a'] # 单行标签
# df.loc['a', :] # 单行标签
# df.loc['a':'d', :] #行标签切片
# df.loc[['a','b','c'], :] #多个行标签
# df.loc[lambda _df: _df.A > 0, :]

# df.loc[:, 'A'] #单个列标签
# df.loc[:, 'A':'C'] #列标签切片
# df.loc[:, ['A','B','C']] #多个列标签
# df.loc[:, lambda _df: ['A', 'B']]

In [41]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])
df.iloc[1,2]

6

## iloc位置索引

In [7]:
# 二维，先行后列
# 行维度：整数索引、整数切片、整数列表、<布尔数组>
# 列维度：整数索引、整数切片、整数列表、<布尔数组>、Callable

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])

# df.iloc[3]#输出第3行,Series类型
# df.iloc[[3]]#输出第3行,DataFrame类型
# df.iloc[3, :] #单行位置
# df.iloc[:3, :] #行位置切片
# df.iloc[[0,2,4], :] #多位置索引
# df.iloc[lambda _df: [0, 1], :]

# df.iloc[:, 1] #单个列位置
# df.iloc[:, 0:3] #列位置切片
# df.iloc[:, [0,1,2]] #多个列位置
# df.iloc[:, lambda _df: [0, 1]]

A    12
B    13
C    14
D    15
Name: d, dtype: int32

## at标签名精确索引

In [None]:
# 精确定位单元格
# 行维度：标签索引
# 列维度：标签索引

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])

df.at['a', 'A']

## at标签名精确索引

In [None]:
# 精确定位单元格
# 行维度：位置索引
# 列维度：位置索引

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])

df.iat[0, 0]

## 布尔筛选

In [6]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])


# df.A[df.A>4] #输出A列中大于4的数
# df['A'][df['A']>4]#与上面效果一样，输出A列中大于4的数
# df[(df['A']>3)&(df['B']<8)]#实现多列同时筛选，A列大于4同时B列小于5
# df[(df['A']>3)|(df['B']<8)]#实现多列同时筛选，A列大于4或者B列小于5
# df[[True,True,True,False,False,False]] # 前三行（布尔数组长度等于行数）

# df.loc[:, df.loc['a']>0]          # a行大于0的列
# df.loc[:, df.iloc[0]>0]           # 0行大于0的列
# df.loc[:, lambda _df: ['A', 'B']]
# df.loc[[True,True,True,False,False,False], :] # 前三行（布尔数组长度等于行数）
# df.loc[df['A']>0, :]
# df.loc[df.loc[:,'A']>0, :]
# df.loc[df.iloc[:,0]>0, :]
# df.loc[:, [True,True,True,False]] # 前三列（布尔数组长度等于列数）
# df.loc[lambda _df: _df.A > 0, :]
# df.A.loc[lambda s: s > 0]


# df.iloc[:, df.loc['a']>0] #×
# df.iloc[:, df.iloc[0]>0]  #×
# df.iloc[df['A']>0, :]       #×
# df.iloc[df.loc[:,'A']>0, :] #×
# df.iloc[df.iloc[:,0]>0, :]  #×

Unnamed: 0,A,B,C,D
c,8,9,10,11
d,12,13,14,15
e,16,17,18,19
f,20,21,22,23


## isin() 筛选

In [None]:
import pandas as pd
import numpy as np
import sys

df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])
df['E']=['0', '3','0','1','1','2']
df
df[df['E'].isin(['0','2'])] #筛选出E列的值在['0','2']的所有数据
df['E'][df['E'].isin(['0','2'])]='偶数'#将E列中(E列的值在['0','2'])的数值设为‘偶数’
df

# 数据清理

## 缺失查看

In [9]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D'])
df.iloc[0,1]=np.nan
df.iloc[1,2]=np.nan

df.isnull() #检查DataFrame对象中的空值，返回每个元素的Boolean值
df.notnull()#检查DataFrame对象中的非空值，返回每个元素的Boolean值
df.isnull().sum() #各列空值数量统计
np.any(df.isnull())==True #检查整个数据表是否有丢失的情况，有则返回一个true
df['A'].isnull() #检查某一列中的空值，返回每个元素的Boolean值
df[df['B'].notnull()] #返回Dataframe中B列非空对应行的值

Unnamed: 0,A,B,C,D
0,False,True,False,False
1,False,False,True,False
2,False,False,False,False


Unnamed: 0,A,B,C,D
0,True,False,True,True
1,True,True,False,True
2,True,True,True,True


A    0
B    1
C    1
D    0
dtype: int64

True

0    False
1    False
2    False
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
1,4,5.0,,7
2,8,9.0,10.0,11


## 删除

**DataFrame.drop(labels, axis=0, level=None, inplace=False, errors=’raise’)**   
labels : 一个或者一列label值，要删除对象的索引   
axis=0，删除行（默认），axis=1，删除列       
inplace=False，默认该删除操作不改变原数据，而是返回一个执行删除操作后的新dataframe    
inplace=True，则会直接在原数据上进行删除操作，删除后就回不来了。 

In [15]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D'])
df.iloc[0,1]=np.nan
df.iloc[1,2]=np.nan

# df.drop(['B', 'C'], axis=1) #删除B、C列
# df.drop(columns=['B','C']) #删除B、C列 ？貌似不行
# df.drop([0, 1]) #删除0、1行

#dataframe2的index是dataframe1子集的时候，通过下面方式从dataframe1中去掉dataframe2
# dataframe1.drop(dataframe2.index)

**DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)**  
axis=0，删除行（默认），axis=1，删除列  
how='any',只要有nan就丢掉,how='all'所有数据都没有才丢掉  
thresh: int, 默认值 None,一个阈值，行或列中有至少thresh个值是非空的就保留    
inplace=False，默认该删除操作不改变原数据，inplace=True，则会直接在原数据上进行删除操作。  

In [16]:
import pandas as pd
import numpy as np

dates=pd.date_range('20180612',periods=6) #定义标签名字
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D']) #index为行索引，columns为列索引，默认从0排序指定
df.iloc[0,1]=np.nan
df.iloc[1,2]=np.nan

# df = df.dropna()#删除所有包含空值的行,参数axis为1丢掉整列，参数how为‘any’只要有nan就丢掉，为'all'所有数据都没有才丢掉

## 填充

In [3]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D'])
df.iloc[0,1]=np.nan
df.iloc[1,2]=np.nan
df
df.fillna(value=0) #对丢失值用0替代
df.fillna(df.mean())#对丢失值用平均值替代
df['B'].fillna(df['B'].mean()) #使用列B的均值对NA进行填充

Unnamed: 0,A,B,C,D
0,0,,2.0,3
1,4,5.0,,7
2,8,9.0,10.0,11


Unnamed: 0,A,B,C,D
0,0,0.0,2.0,3
1,4,5.0,0.0,7
2,8,9.0,10.0,11


Unnamed: 0,A,B,C,D
0,0,7.0,2.0,3
1,4,5.0,6.0,7
2,8,9.0,10.0,11


0    7.0
1    5.0
2    9.0
Name: B, dtype: float64

## 类型、列名、索引更改

In [None]:
import pandas as pd
import numpy as np

dates=pd.date_range('20180612',periods=6) #定义标签名字
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D']) #index为行索引，columns为列索引，默认从0排序指定

df = df.astype(float) #将dataframe或Series中的数据类型更改为float类型、np.str类型
df['A'] = df['A'].map(str.strip) #清楚某字段的字符空格
df['name']=df['name'].str.lower() #大小写转换

df.columns = ['a','b','c','d'] #重命名列名
df = df.rename(columns=lambda x: x + '1')#批量更改列名
df = df.rename(columns={'A': 'a'})#选择性更改列名

df = df.set_index('A')#设置A列为索引列
df = df.reset_index() #新index是以0开始的递增整数列，原index会变成一个新的列，如果不需要原index可以加drop = True：重置索引,比如在groupby操作后

## 替换

In [5]:
import pandas as pd
import numpy as np

dates=pd.date_range('20180612',periods=6) #定义标签名字
df=pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D']) #index为行索引，columns为列索引，默认从0排序指定

df = df.replace(3,1)#用1代替所有等于3的值
df = df.replace([4,3],['one','three'])#用'one'代替4，用'three'代替3

## 去重

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)    
subset : 单个列标签或列标签列表，用来指定特定的列，默认所有列  
keep : {‘first’,‘last’, False}, 默认‘first’,分别表示保留第一次出现的重复项、最后一次出现的重复项、删除所有重复项  
inplace : 布尔值，True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本  

In [11]:
import pandas as pd 
df1=pd.DataFrame([[1,1,1,1],[1,1,1,1],[2,1,4,3],[5,6,7,9]],columns=['A','B','C','D'])
df1

df1.drop_duplicates(subset=['A','B','C','D'],keep=False) #去除所有列的重复值
df1.drop_duplicates(subset=['A','B','C','D'],keep='first') #去除所有列的重复值，保留第一次出现的重复值

df2=pd.DataFrame([[1,1,1,1],[1,1,4,3],[5,6,7,9],[5,4,2,1]],columns=['A','B','C','D'])
df2
df2.drop_duplicates(subset=['A','B'],keep='first') #去除AB列的重复值，保留第一次出现的重复值

Unnamed: 0,A,B,C,D
0,1,1,1,1
1,1,1,1,1
2,2,1,4,3
3,5,6,7,9


Unnamed: 0,A,B,C,D
2,2,1,4,3
3,5,6,7,9


Unnamed: 0,A,B,C,D
0,1,1,1,1
2,2,1,4,3
3,5,6,7,9


Unnamed: 0,A,B,C,D
0,1,1,1,1
1,1,1,4,3
2,5,6,7,9
3,5,4,2,1


Unnamed: 0,A,B,C,D
0,1,1,1,1
2,5,6,7,9
3,5,4,2,1


# 排序、组合

In [None]:
import pandas as pd
import numpy as np

dates=pd.date_range('20180612',periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns = ['A','B','C','D'])

df.sort_index(axis=1,ascending=False) #横向倒序排序
df.sort_values(by='C',ascending=False) #按照列名字为'c'的该列值大小进行排序

In [25]:
data = pd.read_csv('data\pandas学习.csv',encoding = 'gb18030')
data

# 1、指定分组列，统计其他所有列(mean均值、sum求和、size分组大小、count计数、min最小值、最大值）
data1 = data.groupby('编号').mean()
data2 = data.groupby('编号').sum()
data3 = data.groupby(['编号', '学历']).mean()
data4 = data.groupby('编号').size() #每组大小
data5 = data.groupby('编号').count() #每列/指定列该组计数个数

#2、指定分组列，统计指定列(mean均值、sum求和、size分组大小、count计数、min最小值、最大值）
data4 = data['费用'].groupby(data['编号']).mean() #数据为series格式，注意groupby括号中形式，与统计所有列不一样
data5 = data[['费用']].groupby(data['编号']).mean() #数据为dataframe格式，
data6 = data['费用'].groupby([data['编号'], data['学历']]).mean() #数据为series格式
data7 = data[['费用']].groupby([data['编号'], data['学历']]).mean() #数据为dataframe格式
data8 = data[['费用','时间']].groupby([data['编号'], data['学历']]).mean()
data4

Unnamed: 0,编号,学历,费用,时间
0,X1,本科,5,20
1,X1,本科,6,30
2,X1,本科,8,50
3,X2,大专,3,40
4,X2,大专,4,24
5,X2,大专,4,34
6,X3,中专,3,56
7,X3,中专,2,24
8,X3,中专,5,34


Unnamed: 0_level_0,费用,时间,个数
编号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
X1,19,100,3
X2,11,98,3
X3,10,114,3


编号
X1    6.333333
X2    3.666667
X3    3.333333
Name: 费用, dtype: float64

# 数据合并

## concat：纵向+横向

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False,copy=True)  
objs:待合并的对象集合，可以是Serice,Dataframe  
axis:{0，1，...}合并方向，默认为0表示纵向，1表示横向  
join:{inner,outer}:合并方式，默认为outer，表示并集，inner表示交集  
join_axes:按哪些对象的索引保存  
ignore_index:{False,True},是否忽略原index，默认为不忽略  
keys:为原始dataframe添加一个键，默认为无  

**axis=0纵向合并，join决定各列数据的交集、并集方式，join_axes和ignore_index决定合并后的行标签（按照谁保存，是否忽略原行标签）  
axis=1横向合并，join决定各行数据的交集、并集方式，join_axes和ignore_index决定合并后的列标签（按照谁保存，是否忽略原列标签）
**

In [5]:
import pandas as pd
import numpy as np

#concat轴向连接，也称全连接，单纯地把两个表拼在一起
#在默认的 axis=0 情况下，pd.concat([obj1,obj2]) 函数的效果与 obj1.append(obj2) 是相同的
#在axis=1 的情况下，pd.concat([df1,df2],axis=1) 的效果与 pd.merge(df1,df2,left_index=True,right_index=True,how='outer') 是相同的。
df1=pd.DataFrame(np.ones((3,4))*0,columns=['a','b','c','d'])
df2=pd.DataFrame(np.ones((3,4))*1,columns=['a','b','c','d'])
df3=pd.DataFrame(np.ones((3,4))*2,columns=['a','b','c','d'])
# pd.concat([df1,df2,df3],axis=0,ignore_index=True) #纵向合并,行标签重新索引
# pd.concat([df1,df2,df3],axis=1,ignore_index=True) #横向合并,列标签重新索引

df4=pd.DataFrame(np.random.randn(3,4),columns=['a','b','c','d'])
df5=pd.DataFrame(np.random.randn(2,3),columns=['b','d','a'])
pd.concat([df4,df5]) #纵向合并，原行标签
pd.concat([df4,df5],ignore_index=True)#纵向合并，行标签重新索引
pd.concat([df4,df5],axis=1) #横向合并，原列标签
pd.concat([df4,df5],axis=1,ignore_index=True) #横向合并，列标签重新索引

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  from ipykernel import kernelapp as app


Unnamed: 0,a,b,c,d
0,-0.120067,-1.986629,0.985207,1.093962
1,0.342548,0.938187,-1.809717,-0.803926
2,-0.151417,-0.692169,-0.29778,0.040409
0,0.221826,-1.757713,,1.718326
1,0.257353,-1.727783,,-1.340762


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  app.launch_new_instance()


Unnamed: 0,a,b,c,d
0,-0.120067,-1.986629,0.985207,1.093962
1,0.342548,0.938187,-1.809717,-0.803926
2,-0.151417,-0.692169,-0.29778,0.040409
3,0.221826,-1.757713,,1.718326
4,0.257353,-1.727783,,-1.340762


Unnamed: 0,a,b,c,d,b.1,d.1,a.1
0,-0.120067,-1.986629,0.985207,1.093962,-1.757713,1.718326,0.221826
1,0.342548,0.938187,-1.809717,-0.803926,-1.727783,-1.340762,0.257353
2,-0.151417,-0.692169,-0.29778,0.040409,,,


Unnamed: 0,0,1,2,3,4,5,6
0,-0.120067,-1.986629,0.985207,1.093962,-1.757713,1.718326,0.221826
1,0.342548,0.938187,-1.809717,-0.803926,-1.727783,-1.340762,0.257353
2,-0.151417,-0.692169,-0.29778,0.040409,,,


In [17]:
import pandas as pd
import numpy as np

#join参数: 如果为’inner’得到的是两表的交集,默认outer得到的是两表的并集。
df1=pd.DataFrame(np.ones((3,4))*0,columns=['a','b','c','d'],index=[1,2,3])
df2=pd.DataFrame(np.ones((3,4))*1,columns=['b','c','d','e'],index=[2,3,4])
df1
df2

pd.concat([df1,df2],join='outer',ignore_index=True) #纵向合并，列并集
pd.concat([df1,df2],join='inner',ignore_index=True) #纵向合并，列交集
pd.concat([df1,df2],axis=1,join='outer',ignore_index=True) #横向合并，行并集
pd.concat([df1,df2],axis=1,join='inner',ignore_index=True) #横向合并，行交集

Unnamed: 0,a,b,c,d
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0


Unnamed: 0,b,c,d,e
2,1.0,1.0,1.0,1.0
3,1.0,1.0,1.0,1.0
4,1.0,1.0,1.0,1.0


Unnamed: 0,a,b,c,d,e
0,0.0,0.0,0.0,0.0,
1,0.0,0.0,0.0,0.0,
2,0.0,0.0,0.0,0.0,
3,,1.0,1.0,1.0,1.0
4,,1.0,1.0,1.0,1.0
5,,1.0,1.0,1.0,1.0


Unnamed: 0,b,c,d
0,0.0,0.0,0.0
1,0.0,0.0,0.0
2,0.0,0.0,0.0
3,1.0,1.0,1.0
4,1.0,1.0,1.0
5,1.0,1.0,1.0


Unnamed: 0,0,1,2,3,4,5,6,7
1,0.0,0.0,0.0,0.0,,,,
2,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0
3,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0
4,,,,,1.0,1.0,1.0,1.0


Unnamed: 0,0,1,2,3,4,5,6,7
2,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0
3,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0


In [19]:
import pandas as pd
import numpy as np

#join_axes参数：指定根据那个轴来对齐数据
df1=pd.DataFrame(np.ones((3,4))*0,columns=['a','b','c','d'],index=[1,2,3])
df2=pd.DataFrame(np.ones((3,4))*1,columns=['b','c','d','e'],index=[2,3,4])
df1
df2
pd.concat([df1,df2],axis=1,join_axes=[df1.index]) #横向合并,只保留df1的行标签
pd.concat([df1,df2],axis=0,join_axes=[df1.columns]) #纵向合并,只保留df1的列标签

Unnamed: 0,a,b,c,d
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0


Unnamed: 0,b,c,d,e
2,1.0,1.0,1.0,1.0
3,1.0,1.0,1.0,1.0
4,1.0,1.0,1.0,1.0


Unnamed: 0,a,b,c,d,b.1,c.1,d.1,e
1,0.0,0.0,0.0,0.0,,,,
2,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0
3,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0


Unnamed: 0,a,b,c,d
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0
2,,1.0,1.0,1.0
3,,1.0,1.0,1.0
4,,1.0,1.0,1.0


## merge横向

**merge可以根据一个或多个键将不同DataFrame中的行连接起来,类似于 SQL 中的 JOIN。该函数的典型应用场景是，针对同一个主键存在两张包含不同字段的表，现在我们想把他们整合到一张表里。在此典型情况下，结果集的行数并没有增加，列数则为两个元数据的列数和减去连接键的数量。**  
merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=('_x', '_y'), copy=True, indicator=False)  
参数说明：  
left与right：两个不同的DataFrame  
how：指的是合并(连接)的方式有inner(交集),left(并集),right(右外连接),outer(全外连接);默认为inner  
on : 用于显示指定列名（键名），如果该列在两个对象上的列名不同，则可以通过 left_on=None, right_on=None 来分别指定。或者想直接使用行索引作为连接键的话，就将 left_index=False, right_index=False 设为 True。   
left_on：左则DataFrame中用作连接键的列名;这个参数中左右列名不相同，但代表的含义相同时非常有用。  
right_on：右则DataFrame中用作 连接键的列名  
left_index：使用左则DataFrame中的行索引做为连接键  
right_index：使用右则DataFrame中的行索引做为连接键  
sort：默认为True，将合并的数据进行排序。在大多数情况下设置为False可以提高性能  
suffixes：字符串值组成的元组，用于指定当左右DataFrame存在相同列名时在列名后面附加的后缀名称，默认为('_x','_y')  
copy：默认为True,总是将数据复制到数据结构中；大多数情况下设置为False可以提高性能  
indicator：在 0.17.0中还增加了一个显示合并数据中来源情况；如只来自己于左边(left_only)、两者(both)  

In [20]:
import pandas as pd
import numpy as np

#merge合并
left=pd.DataFrame({'key':['K0','K1','K2','K3'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3']})
right=pd.DataFrame({'key':['K0','K1','K2','K4'],
                   'C': ['C0', 'C1', 'C2', 'C3'],
                   'D': ['D0', 'D1', 'D2', 'D3']})
left
right
# pd.merge(left,right,on='key',how='inner')#基于key列交集合并
pd.merge(left,right,on='key',how='outer') #基于key列并集合并



left=pd.DataFrame({'key1':['K0','K0','K1','K2'],
                    'key2':['K0','K1','K0','K1'],
                   'A': ['A0', 'A1', 'A2', 'A3'],
                   'B': ['B0', 'B1', 'B2', 'B3']})
right=pd.DataFrame({'key1':['K0','K1','K1','K2'],
                    'key2':['K0','K0','K0','K0'],
                   'C': ['C0', 'C1', 'C2', 'C3'],
                   'D': ['D0', 'D1', 'D2', 'D3']})
left
right
#how=[inner/outer/left/right],mysql中类似的使用，选择合并方式
pd.merge(left,right,on=['key1','key2'],how='inner') #基于key1,key2两列交集合并

Unnamed: 0,A,B,key
0,A0,B0,K0
1,A1,B1,K1
2,A2,B2,K2
3,A3,B3,K3


Unnamed: 0,C,D,key
0,C0,D0,K0
1,C1,D1,K1
2,C2,D2,K2
3,C3,D3,K4


Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K2,C2,D2
3,A3,B3,K3,,
4,,,K4,C3,D3


Unnamed: 0,A,B,key1,key2
0,A0,B0,K0,K0
1,A1,B1,K0,K1
2,A2,B2,K1,K0
3,A3,B3,K2,K1


Unnamed: 0,C,D,key1,key2
0,C0,D0,K0,K0
1,C1,D1,K1,K0
2,C2,D2,K1,K0
3,C3,D3,K2,K0


Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A2,B2,K1,K0,C1,D1
2,A2,B2,K1,K0,C2,D2


## append纵向

In [30]:
import pandas as pd
import numpy as np

#append：纵向拼接，没有axis、how参数
df1=pd.DataFrame(np.ones((3,4))*0,columns=['a','b','c','d'])
df2=pd.DataFrame(np.ones((3,4))*1,columns=['a','b','c','d'])
df3=pd.DataFrame(np.ones((3,4))*2,columns=['a','b','c','d'])

df1.append(df2,ignore_index=True) #纵向拼接，行标签重新索引
df1.append([df2,df3],ignore_index=True)#一次性拼接多个

s1=pd.Series([1,2,3,4],index=['a','b','c','d'])
df1.append(s1,ignore_index=True) #拼接一行Series

Unnamed: 0,a,b,c,d
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,1.0,1.0,1.0,1.0
4,1.0,1.0,1.0,1.0
5,1.0,1.0,1.0,1.0


Unnamed: 0,a,b,c,d
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,1.0,1.0,1.0,1.0
4,1.0,1.0,1.0,1.0
5,1.0,1.0,1.0,1.0
6,2.0,2.0,2.0,2.0
7,2.0,2.0,2.0,2.0
8,2.0,2.0,2.0,2.0


Unnamed: 0,a,b,c,d
0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,1.0,2.0,3.0,4.0


# 其他操作

## apply函数

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)  
apply函数可以对DataFrame对象进行操作，作用于整行或者整列上  

In [11]:
import pandas as pd
import numpy as np
# apply()可作用在DataFrame和series上，对整行或者整列进行操作

df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])


# df.apply(lambda x:x+1) #每列数值加1
# df['A'].apply(lambda x:x+1) #A列数值加1
# df.apply(lambda x: x.max() - x.min()) #返回每列最大值减最小值
# df['每列和'] = df.apply(lambda x: x.sum(), axis=1)
# df.loc['每行和'] = df.apply(lambda x: x.sum())

pandas.core.series.Series

## map函数

map()主要是将函数作用于一个Series的每一个元素

In [None]:
import pandas as pd
import numpy as np
# map()作用在series格式上，针对Series的每个元素进行操作

df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])
df
df['B'] = df['B'].map(lambda x: '%.3f' % x)  #B列每个元素转浮点数 ?为什么dtypes的时候显示的是objects类型
# df['A'] = df['A'].map(lambda x: x+1 if x>3 else x)  #A列每个元素如果大于3则加1
# df['C'] = df['C'].map(str) #将'b'列转为str类型 #astype也能实现
# df['C'] = df['C'].map(str.strip) #去掉该列字符串的前后空格

In [21]:
import pandas as pd
import numpy as np
# map()作用在series格式上，针对Series的每个元素进行操作

df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])
df
df['B'] = df['B'].map(lambda x: None)
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15
e,16,17,18,19
f,20,21,22,23


Unnamed: 0,A,B,C,D
a,0,,2,3
b,4,,6,7
c,8,,10,11
d,12,,14,15
e,16,,18,19
f,20,,22,23


In [10]:
import pandas as pd
import numpy as np

# 数值替换
x = pd.Series([1,2,3], index=['one', 'two', 'three'])
y = pd.Series(['foo', 'bar', 'baz'], index=[1,2,3])
z = {1: 'A', 2: 'B', 3: 'C'}
x.map(y)
x.map(z)

one      foo
two      bar
three    baz
dtype: object

one      A
two      B
three    C
dtype: object

## applymap函数

applymap主要针对单个元素  

In [None]:
import pandas as pd
import numpy as np
# applymap作用在Dataframe格式上，针对每个元素进行操作

df = pd.DataFrame(np.arange(24).reshape((6,4)),index=list('abcdef'),columns = ['A','B','C','D'])
df
df.applymap(lambda x: '%.2f' % x) #每个元素转浮点数
df.applymap(lambda x: x+1) #每个元素加1

## iterrows()遍历

In [10]:
import pandas as pd
import numpy as np
data = pd.DataFrame(np.arange(6).reshape((3,2)),index=list('abc'),columns = ['A','B'])
#
for index, row in data.iterrows(): 
#     print('index:',index) #行标签
#     print('index类型:',type(index)) #str类型
#     print('行数据：',row)
#     print('行数据类型:',type(row))
#     print('行数据索引:',row.index)
    print('A列数值:',row['A'])

A列数值: 0
A列数值: 2
A列数值: 4


## get_dummies()编码

**pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False)**  


In [20]:
import pandas as pd
colors=pd.DataFrame([1,2,3],index=['yellow','red','blue'],columns=['hat'])

colors
hat_ranks=pd.get_dummies(colors['hat'])
hat_ranks

Unnamed: 0,hat
yellow,1
red,2
blue,3


Unnamed: 0,1,2,3
yellow,1,0,0
red,0,1,0
blue,0,0,1


## 日期转换

**字符串转日期**  
方式一：pd.to_datetime(date)，字符串转为Timestamp格式，可继续通过time、date等方法获取对应的时间、日期  
方式二：datetime.strptime，字符串转为Timestamp格式，可继续通过time、date等方法获取对应的时间、日期  
方式三：time.strptime(date,"%Y/%m/%d %H:%M:%S")，返回时间元祖，可分别获取年、月、日、小时、天、周……
方式四：pd.date_range，生成时间序列  

**日期转字符串**  
方式一：str  
方式二：strftime，处理的类型是time.struct_time，实际上是一个tuple  

In [1]:
from datetime import datetime
import pandas as pd
import time
# 方式一
datetime1 = pd.to_datetime('2018/7/26 15:29')
datetime1.time()
# 方式二
datetime2 = datetime.strptime("2016-06-07", "%Y-%m-%d") 
datetime2.date()
# 方式三
datetime3 = time.strptime('2018/7/4 13:16:40',"%Y/%m/%d %H:%M:%S")
datetime3.tm_mon
# 方式四
datetime4 = pd.date_range('20180612',periods=6)
datetime4[0]

datetime.time(15, 29)

datetime.date(2016, 6, 7)

7

Timestamp('2018-06-12 00:00:00', freq='D')

In [2]:
timeArray = time.strptime('2018/7/4 13:16:40',"%Y/%m/%d %H:%M:%S")
otherStyleTime = time.strftime("%Y-%m-%d", timeArray) 
otherStyleTime
timeArray

'2018-07-04'

time.struct_time(tm_year=2018, tm_mon=7, tm_mday=4, tm_hour=13, tm_min=16, tm_sec=40, tm_wday=2, tm_yday=185, tm_isdst=-1)

# 新增

In [28]:
import pandas as pd
df = pd.DataFrame({'class':['a','a','b','b','a','a','b','c','c'],'score':[3,5,6,7,8,9,10,11,14]})
df.sort_values(by = ['class','score'],ascending = [1,0]) #按照class和score两列进行排序，其中class升序，score降序
df.sort_values(by = ['class','score'],ascending = [1,0]).groupby('class').head(2) #排序后分组，head()、first()、last()分别取每组前n个，第一个，最后一个
df.sort_values(by = ['class','score'],ascending = [1,0]).groupby('class').head(2).groupby('class').last() #每组取第二大

Unnamed: 0,class,score
5,a,9
4,a,8
1,a,5
0,a,3
6,b,10
3,b,7
2,b,6
8,c,14
7,c,11


Unnamed: 0,class,score
5,a,9
4,a,8
6,b,10
3,b,7
8,c,14
7,c,11


Unnamed: 0_level_0,score
class,Unnamed: 1_level_1
a,8
b,7
c,11
