# 连接

In [1]:
import numpy as np
import pandas as pd

## 关系型连接

### 连接的基本概念

### 值连接merge
    通过几列值的组合进行连接

In [2]:
df1 = pd.DataFrame({'Name':['San Zhang','Si Li'],
                    'Age':[20,30]})
df2 = pd.DataFrame({'Name':['Si Li','Wu Wang'],
                    'Gender':['F','M']})
df1.merge(df2, on='Name', how='left')

Unnamed: 0,Name,Age,Gender
0,San Zhang,20,
1,Si Li,30,F


    如果两个表中想要连接的列不具备相同的列名，可以通过 left_on 和 right_on 指定

In [3]:
df1 = pd.DataFrame({'df1_name':['San Zhang','Si Li'],
                    'Age':[20,30]})
df2 = pd.DataFrame({'df2_name':['Si Li','Wu Wang'],
                    'Gender':['F','M']})
df1.merge(df2, left_on='df1_name', right_on='df2_name', how='left')

Unnamed: 0,df1_name,Age,df2_name,Gender
0,San Zhang,20,,
1,Si Li,30,Si Li,F


    如果两个表中的列出现了重复的列名，那么可以通过 suffixes 参数指定

In [4]:
df1 = pd.DataFrame({'Name':['San Zhang'],'Grade':[70]})
df2 = pd.DataFrame({'Name':['San Zhang'],'Grade':[80]})
df1.merge(df2, on='Name', how='left', suffixes=['_Chinese','_Math'])

Unnamed: 0,Name,Grade_Chinese,Grade_Math
0,San Zhang,70,80


### 索引连接index
    如果想要进行类似于 merge 中以多列为键的操作的时候， join 需要使用多级索引

## 方向连接

### concat
    最常用的有三个参数，它们是 axis, join, keys 
    axis：拼接方向
    join：连接形式
    keys：在新表中指示来自于哪一张旧表的名字

### 序列与表的合并
    append：行
    assign：列

In [5]:
df1 = pd.DataFrame({'Name':['San Zhang','Si Li'], 'Age':[20,21]})

s = pd.Series(['Wu Wang', 21], index = df1.columns)
df1.append(s, ignore_index=True)

  df1.append(s, ignore_index=True)


Unnamed: 0,Name,Age
0,San Zhang,20
1,Si Li,21
2,Wu Wang,21


## 类连接操作

### 比较
    比较两个表或者序列的不同处并将其汇总展示
### 组合
    combine 函数能够让两张表按照一定的规则进行组合

## 练习

### 美国疫情数据集

In [7]:
date = pd.date_range('20200412', '20201116').to_series()
date = date.dt.month.astype('string').str.zfill(2
       ) +'-'+ date.dt.day.astype('string'
       ).str.zfill(2) +'-'+ '2020'
date = date.tolist()

L = []

for d in date:
    df = pd.read_csv('data/us_report/' + d + '.csv', index_col='Province_State')
    data = df.loc['New York', ['Confirmed','Deaths',
                  'Recovered','Active']]
    L.append(data.to_frame().T)

res = pd.concat(L)
res.index = date
res.head()

Unnamed: 0,Confirmed,Deaths,Recovered,Active
04-12-2020,189033,9385,23887.0,179648.0
04-13-2020,195749,10058,23887.0,185691.0
04-14-2020,203020,10842,23887.0,192178.0
04-15-2020,214454,11617,23887.0,202837.0
04-16-2020,223691,14832,23887.0,208859.0
