# Pandas

Pandas是开源的Python类库，用于数据分析、数据管理、数据可视化。
- 高性能
- 容易使用的数据结构
- 容易使用的数据分析工具

相关类库：`numpy`和`scikit-learn`

In [35]:
import pandas as pd
import numpy as np

# Pandas的数据结构

- DataFrame
- Series

![](../images/dataframe_and_series.png)

## Series

Series其实就可以理解为一个K-V的map，但它的value可以有不同的类型，你是python的字典。

### 从列表创建

In [15]:
s = pd.Series([1, 3, 5, np.nan, 'abc', 8])
s

0      1
1      3
2      5
3    NaN
4    abc
5      8
dtype: object

In [16]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [17]:
s.values

array([1, 3, 5, nan, 'abc', 8], dtype=object)

### 同时指定index

In [18]:
# 创建的时候，指定index
s1 = pd.Series([1, 3, 5, np.nan, 'abc', 8], index=[
               'a', 'b', 'c', 'd', 'e', 'f'])
s1

a      1
b      3
c      5
d    NaN
e    abc
f      8
dtype: object

In [21]:
print(s1.index)

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')
[1 3 5 nan 'abc' 8]


### 使用字典创建

In [24]:
s2 = pd.Series({'name': 'xiaoming', 'age': 18, 'sex': 'male'})
s2

name    xiaoming
age           18
sex         male
dtype: object

### 访问Series

In [25]:
# 单一key值，返回的是一个python type
s2['age']

18

In [26]:
#　多key值下，返回的依然是一个series
s2[['name', 'age']]

name    xiaoming
age           18
dtype: object

## DataFrame

DataFrame是一个表格型的数据结构
- 每列可以是不同的数据类型（数值、字符串、布尔值等）
- 既有行索引index，也有列索引index
- 可以被看做由Series组成的字典

### 字典序列来创建DataFrame

In [27]:
data = {
    'state': ['Ohio', 'Ohio', 'Nevada'],
    'year': [2000, 2001, 2001],
    'pop': [1.5, 1.7, 2.4]
}
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Nevada,2001,2.4


In [28]:
df.dtypes

state     object
year       int64
pop      float64
dtype: object

### 从DataFrame中取出行或列

DataFrame本质就是一个按列存储的字典，所以直接用`[‘key]`得到的就是对应列的数据，如果要查询某一行的数据，则需要使用`loc`方法。查询某一行或某一列得到的结果都是一个`Series`

In [30]:
df['year']

0    2000
1    2001
2    2001
Name: year, dtype: int64

In [32]:
df.loc[1]

state    Ohio
year     2001
pop       1.7
Name: 1, dtype: object

多key查询的话，返回的就是DataFrame了

In [33]:
df[['state', 'year']]

Unnamed: 0,state,year
0,Ohio,2000
1,Ohio,2001
2,Nevada,2001


In [34]:
df.loc[1:2]

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Nevada,2001,2.4


# Pandas读取数据
uniquendas需要读取**表格类型**的数据，它的特征是数据都是按行组织的，每一行就是一条记录，每行记录，包括了多个列，每个列都是一个属性，它们的类型可能各不相同。

常见的表格类的的数据有：

- csv,tsv,txt　这样用逗号、tab分割的纯文本文件，我们可以使用`pd.read_csv`来读取。
- excel　微软年xls或xlsx文件，我们可以使用`pd.read_excel`来读取。
- mysql 关系型数据表，我们可以使用`pd.read_sql`来读取

## 读取纯文本文件

我们先来读取一个标准的CSV文件，它的前10行如下：
```txt
userId,movieId,rating,timestamp
1,1,4.0,964982703
1,3,4.0,964981247
1,6,4.0,964982224
1,47,5.0,964983815
1,50,5.0,964982931
1,70,3.0,964982400
1,101,5.0,964980868
1,110,4.0,964982176
1,151,5.0,964984041
```
其中第一行是列名，下面的每一行都是对应列的值，属性与属性之间以逗号分割。

In [3]:
fpath = '../data/ml-latest-small/ratings.csv'
ratings = pd.read_csv(fpath)

In [4]:
# 查看前几行数据
ratings.head(5)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [5]:
# 查看整个表的行数和列数
ratings.shape

(100836, 4)

In [6]:
# 获取整个表的行索引
ratings.index

RangeIndex(start=0, stop=100836, step=1)

In [7]:
# 获取整个表的列索引
ratings.columns

Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')

## 读取text文件

下面我们来读取一个纯文件的文件，它的前10行内容如下：
```txt
2019-09-10	139	92
2019-09-09	185	153
2019-09-08	123	59
2019-09-07	65	40
2019-09-06	157	98
2019-09-05	205	151
2019-09-04	196	167
2019-09-03	216	176
2019-09-02	227	148
2019-09-01	105	61
```
它的每一行是一个用`\t`分割的数据行，每行有3列，它没有标题行。

In [8]:
fpath = '../data/crazyant/access_pvuv.txt'
pvuv = pd.read_csv(
    fpath,
    sep='\t',  # 设置分割符
    header=None,
    names=['pdata', 'pv', 'uv'])  # 手动指定列表

In [10]:
pvuv.head(5)

Unnamed: 0,pdata,pv,uv
0,2019-09-10,139,92
1,2019-09-09,185,153
2,2019-09-08,123,59
3,2019-09-07,65,40
4,2019-09-06,157,98


## 读取Excel文件

我们将上面的pvuv数据放到一个xls文件中，然后将其读取出来。

In [11]:
fpath = '../data/crazyant/access_pvuv.xlsx'
pvuv_excel = pd.read_excel(fpath)
pvuv_excel.head(5)

Unnamed: 0,日期,PV,UV
0,2019-09-10,139,92
1,2019-09-09,185,153
2,2019-09-08,123,59
3,2019-09-07,65,40
4,2019-09-06,157,98


## 读取MySQL数据库

In [13]:
#import pymysql
#conn = pymsql.connect(host='localhost',user='root',password='123456',database='test',charset='utf8')
#mysql_page = pd.read_sql('select * from crazyant_pvuv', con=conn)

# DataFrame数据查询

## 读取数据

为了演示DataFrame如何查询数据，我们这里使用了一份2018年北京全年天气的数据，每一行就是一天的天气数据。

In [48]:
df = pd.read_csv('../data/beijing_tianqi/beijing_tianqi_2018.csv')
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1


默认加载的出来的数据，行索引是一个自动生成的Range，下面我们将行索引改为日期

In [49]:
print(df.index)
df.set_index('ymd', inplace=True)
df.head()

RangeIndex(start=0, stop=365, step=1)


Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1
2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1
2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1


然后对于温度的两列，它目前是一个字符串，温度数字后带了温度符号℃，下面我们来将其去掉。

In [50]:
df['bWendu'] = df['bWendu'].str.replace("℃", "").astype('int32')
df['yWendu'] = df['yWendu'].str.replace("℃", "").astype('int32')
df.head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2
2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1
2018-01-03,2,-5,多云,北风,1-2级,28,优,1
2018-01-04,0,-8,阴,东北风,1-2级,28,优,1
2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1


## loc方法

`df.loc[row_selector, col_selector]`

其中`selector`可以是一个列表，也可以是一个范围，还可能是一个布尔数组，还可以是一个lambda表达式

In [55]:
df.loc['2018-01-01':'2018-01-05', ['fengli', 'aqi', 'aqiInfo']]

Unnamed: 0_level_0,fengli,aqi,aqiInfo
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2018-01-01,1-2级,59,良
2018-01-02,1-2级,49,优
2018-01-03,1-2级,28,优
2018-01-04,1-2级,28,优
2018-01-05,1-2级,50,优


In [56]:
df.loc['2018-01-01':'2018-01-05', 'tianqi':'aqiLevel']

Unnamed: 0_level_0,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-01-01,晴~多云,东北风,1-2级,59,良,2
2018-01-02,阴~多云,东北风,1-2级,49,优,1
2018-01-03,多云,北风,1-2级,28,优,1
2018-01-04,阴,东北风,1-2级,28,优,1
2018-01-05,多云~晴,西北风,1-2级,50,优,1


In [62]:
# 构造一个布尔的数组，用于在行上进行筛选
condition = df['yWendu'] < 10
print(condition.head())
df.loc[condition, :].head()

ymd
2018-01-01    True
2018-01-02    True
2018-01-03    True
2018-01-04    True
2018-01-05    True
Name: yWendu, dtype: bool


Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2
2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1
2018-01-03,2,-5,多云,北风,1-2级,28,优,1
2018-01-04,0,-8,阴,东北风,1-2级,28,优,1
2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1


In [65]:
df.loc[lambda df: (df['bWendu'] <= 30) & (df['yWendu'] >= 15), :].head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-04-28,27,17,晴,西南风,3-4级,125,轻度污染,3
2018-04-29,30,16,多云,南风,3-4级,193,中度污染,4
2018-05-04,27,16,晴~多云,西南风,1-2级,86,良,2
2018-05-09,29,17,晴~多云,西南风,3-4级,79,良,2
2018-05-10,26,18,多云,南风,3-4级,118,轻度污染,3


In [67]:
# 自定义筛选函数
def query_my_data(df):
    return df.index.str.startswith('2018-09') & df['aqiLevel'] == 1


df.loc[query_my_data, :].head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-09-01,27,19,阴~小雨,南风,1-2级,50,优,1
2018-09-04,31,18,晴,西南风,3-4级,24,优,1
2018-09-05,31,19,晴~多云,西南风,3-4级,34,优,1
2018-09-06,27,18,多云~晴,西北风,4-5级,37,优,1
2018-09-07,27,16,晴,西北风,3-4级,22,优,1


# DataFrame新增和修改数据列

- 直接赋值
- df.apply
- df.assign
- 按条件选择分组分别赋值

数据上我们还是使用2018年全年北京天气的数据

In [73]:
df = pd.read_csv('../data/beijing_tianqi/beijing_tianqi_2018.csv')
df.set_index('ymd', inplace=True)

## 直接赋值

In [74]:
# 对某一列进行修改，直接替换
df['bWendu'] = df['bWendu'].str.replace("℃", "").astype('int32')
df['yWendu'] = df['yWendu'].str.replace("℃", "").astype('int32')

In [75]:
# 新加列
df.loc[:, 'wencha'] = df['bWendu'] - df['yWendu']
df.head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,wencha
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2,9
2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1,7
2018-01-03,2,-5,多云,北风,1-2级,28,优,1,7
2018-01-04,0,-8,阴,东北风,1-2级,28,优,1,8
2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1,9


## apply方法

它对整个df按行或按列，执行一个函数，该函数拿到一行或一列(series）后，计算得到一个值。最终这些值组成一个新的Series。

In [77]:
def get_wendu_type(x):
    if x['bWendu'] > 30:
        return '高温'
    if x['yWendu'] < -10:
        return '低温'
    return '常温'


df.loc[:, 'wenduType'] = df.apply(get_wendu_type, axis=1)
df['wenduType'].value_counts()

常温    286
高温     71
低温      8
Name: wenduType, dtype: int64

## assign方法

df.assign返回一个扩充列后的新的DataFrame，对原df没有影响。

In [79]:
df.assign(
    yWenddu_huashi=lambda x: x['yWendu']*9/5+32,
    bWendu_huashi=lambda x: x['bWendu']*9/5+32,
).head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,wencha,wenduType,yWenddu_huashi,bWendu_huashi
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2,9,常温,21.2,37.4
2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1,7,常温,23.0,35.6
2018-01-03,2,-5,多云,北风,1-2级,28,优,1,7,常温,23.0,35.6
2018-01-04,0,-8,阴,东北风,1-2级,28,优,1,8,常温,17.6,32.0
2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1,9,常温,21.2,37.4


## 按条件选择分组分别赋值

In [80]:
df['wencha_type'] = ''
df.loc[df['bWendu']-df['yWendu'] > 10, 'wencha_type'] = '温差大'
df.loc[df['bWendu']-df['yWendu'] <= 10, 'wencha_type'] = '温差正常'
df['wencha_type'].value_counts()

温差正常    187
温差大     178
Name: wencha_type, dtype: int64

# Pandas的数据统计函数

数据上我们还是使用2018年全年北京天气的数据

## 数值列的统计

In [81]:
df = pd.read_csv('../data/beijing_tianqi/beijing_tianqi_2018.csv')
df.set_index('ymd', inplace=True)
# 对某一列进行修改，直接替换
df['bWendu'] = df['bWendu'].str.replace("℃", "").astype('int32')
df['yWendu'] = df['yWendu'].str.replace("℃", "").astype('int32')

describe会按列(只统计数值列)进行各均指标项的统计，因为在DataFrame中只有同一个列下的数据类型才保证一致，所以统计都是针对列来做的。

In [82]:
df.describe()

Unnamed: 0,bWendu,yWendu,aqi,aqiLevel
count,365.0,365.0,365.0,365.0
mean,18.665753,8.358904,82.183562,2.090411
std,11.858046,11.755053,51.936159,1.029798
min,-5.0,-12.0,21.0,1.0
25%,8.0,-3.0,46.0,1.0
50%,21.0,8.0,69.0,2.0
75%,29.0,19.0,104.0,3.0
max,38.0,27.0,387.0,6.0


In [85]:
# 对某一列单独统计
df['bWendu'].mean(), df['bWendu'].max(), df['bWendu'].min()

(18.665753424657535, 38, -5)

## 非数值列的统计

对于数值类的，我们可以统计上面的指标，但是对于非数值类的字符串，可以去重，和统计次数

In [91]:
df['tianqi'].unique()

array(['晴~多云', '阴~多云', '多云', '阴', '多云~晴', '多云~阴', '晴', '阴~小雪', '小雪~多云',
       '小雨~阴', '小雨~雨夹雪', '多云~小雨', '小雨~多云', '大雨~小雨', '小雨', '阴~小雨',
       '多云~雷阵雨', '雷阵雨~多云', '阴~雷阵雨', '雷阵雨', '雷阵雨~大雨', '中雨~雷阵雨', '小雨~大雨',
       '暴雨~雷阵雨', '雷阵雨~中雨', '小雨~雷阵雨', '雷阵雨~阴', '中雨~小雨', '小雨~中雨', '雾~多云',
       '霾'], dtype=object)

In [89]:
df['tianqi'].value_counts().head()

晴         101
多云         95
多云~晴       40
晴~多云       34
多云~雷阵雨     14
Name: tianqi, dtype: int64

## 相关系数与协方差

相关系统和协方差可以让我们发现不同列数据之间的协同关系

In [92]:
df.cov()

Unnamed: 0,bWendu,yWendu,aqi,aqiLevel
bWendu,140.613247,135.529633,47.462622,0.879204
yWendu,135.529633,138.181274,16.186685,0.264165
aqi,47.462622,16.186685,2697.364564,50.749842
aqiLevel,0.879204,0.264165,50.749842,1.060485


In [93]:
df.corr()

Unnamed: 0,bWendu,yWendu,aqi,aqiLevel
bWendu,1.0,0.972292,0.077067,0.071999
yWendu,0.972292,1.0,0.026513,0.021822
aqi,0.077067,0.026513,1.0,0.948883
aqiLevel,0.071999,0.021822,0.948883,1.0


In [94]:
# 单独统计两列的
df['aqi'].corr(df['aqiLevel'])

0.9488829918394053

# Pandas的字符列的字符串操作函数

Pandas针对于纯字符列，提供了丰富的字符串处理函数，可以使用`df.str.xx_methold`对字符串列进行整体操作。比如前面处理的北京天气数据集时，把温度列从字符串改成了整数，用于的就是str.replace函数。

更多的函数，可以参考Pandas的文档：https://pandas.pydata.org/docs/user_guide/text.html#method-summary

In [130]:
df = pd.read_csv('../data/beijing_tianqi/beijing_tianqi_2018.csv')
# 对某一列进行修改，直接替换
df['bWendu'] = df['bWendu'].str.replace("℃", "").astype('int32')
df['yWendu'] = df['yWendu'].str.replace("℃", "").astype('int32')
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2,-5,多云,北风,1-2级,28,优,1
3,2018-01-04,0,-8,阴,东北风,1-2级,28,优,1
4,2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1


In [135]:
# 筛选出来3月份的数据
# selector是一个新的Series，但它的值是True或False
selector = df['ymd'].str.startswith('2018-03')
df[selector].head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
59,2018-03-01,8,-3,多云,西南风,1-2级,46,优,1
60,2018-03-02,9,-1,晴~多云,北风,1-2级,95,良,2
61,2018-03-03,13,3,多云~阴,北风,1-2级,214,重度污染,5
62,2018-03-04,7,-2,阴~多云,东南风,1-2级,144,轻度污染,3
63,2018-03-05,8,-3,晴,南风,1-2级,94,良,2


# DataFrame与Numpy之间的转换

`DataFrame.to_numpy()`能够将DataFrame内部的数据转换为Numpy的格式，但是如果DataFrame的各列的数据类型不同，这个操作的性能不好。因为Numpy的数组中所有元素都是同一种类型的，但是DataFrame不同列一般有各自的类型，如果要把DataFrame转化为Numpy，则Numpy只能统一用`object`这种类型来存储这些数据。

In [25]:
# df的转换是很直接的，它不会括Index和Column label
df.to_numpy()

array([[-0.82116825,  0.68691811, -0.57437224, -0.51381593],
       [-1.30599631, -0.42525199,  1.04587325, -1.21146024],
       [ 0.39011073,  1.42047673, -0.45644481, -0.96378537],
       [ 1.01326861,  0.33951391, -0.2587354 ,  0.16254726],
       [ 0.9587333 ,  0.56907815, -0.93964561, -0.49146054],
       [-0.7804852 , -1.73253211, -0.77650545,  0.87583804]])

In [26]:
# df2只能把所有的元素都转换为object
df2.to_numpy()

array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

# 多张数据表的合并Merge和concat

其中Merge完成的是，按某一个key值合并两张表（Join)，比如一个是用户信息表，一个是用户对电影的评分表，它们都是userID这个列，我们可以以这一列来对齐，并两个表，合成一个表，属性字段就扩充了。
合并中可能遇到的问题是：左表和右表中的key可能存在多行的问题，以及存在一起你有我无，我有你无的问题（inner,outer等），以及两表中有列字段名冲突的问题。

```python
merge(left, right, how: str = 'inner', on=None, left_on=None, right_on=None, left_index: bool = False, right_index: bool = False, sort: bool = False, suffixes=('_x', '_y'), copy: bool = True, indicator: bool = False, validate=None) -> 'DataFrame'
```

Concat也是把两张表合在一起：如果是水平方向Concat，那其实就是扩展新列，要求两个表的行数要一致。如果是竖直扩展，那么要求列名要相同，这里也会遇到你有我无，我有你无的问题。

```python
concat(objs: Union[Iterable[ForwardRef('NDFrame')], Mapping[Union[Hashable, NoneType], ForwardRef('NDFrame')]], axis=0, join='outer', ignore_index: bool = False, keys=None, levels=None, names=None, verify_integrity: bool = False, sort: bool = False, copy: bool = True) -> Union[ForwardRef('DataFrame'), ForwardRef('Series')]
```

# Pandas分组数据统计

所谓的分组统计与前面讲到的对于整个DataFrame或Series的统计，不同的是，它是按某一个列（一般它的值是一个有限个类别，类似枚举）中的数据的类别，对其他的数据列进行数据统计。

下面这个例子就说明了，我们可以按A列或B列　对数据进行聚类，然后统计出其他数字列的统计量。

In [140]:
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})
df

Unnamed: 0,A,B,C,D
0,foo,one,-0.358475,-1.430385
1,bar,one,-0.168087,-0.087554
2,foo,two,1.483075,-0.121488
3,bar,three,-0.878697,-2.195139
4,foo,two,-1.418998,1.41825
5,bar,two,1.352149,0.252529
6,foo,one,-0.810374,-0.336063
7,foo,three,1.075436,1.199049


In [144]:
df.groupby('A').mean()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,0.101788,-0.676721
foo,-0.005867,0.145872


In [97]:
df.groupby(['A', 'B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-1.465725,-0.505399
bar,three,0.310713,1.100831
bar,two,0.835902,0.918426
foo,one,-0.450746,0.2455
foo,three,-0.526225,-0.920646
foo,two,-0.84072,-0.516555


In [145]:
g = df.groupby('A')
for name, df in g:
    print(name)
    print(df)

bar
     A      B         C         D
1  bar    one -0.168087 -0.087554
3  bar  three -0.878697 -2.195139
5  bar    two  1.352149  0.252529
foo
     A      B         C         D
0  foo    one -0.358475 -1.430385
2  foo    two  1.483075 -0.121488
4  foo    two -1.418998  1.418250
6  foo    one -0.810374 -0.336063
7  foo  three  1.075436  1.199049
