# 1. Load The Data

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 将csv文件导入python并且这已经是生成了dataframe格式了
person = pd.read_csv("Person.csv")
address = pd.read_csv("Address.csv")

# 这里其实是生成了默认的index 0,1,2...
# 但是其实我们可以让某一列作为index
# person = pd.read_csv("Person.csv",index_col = 'personId') -> 这样子就使得personId成为了index
# 那么我们在join的时候，如果on = ‘’那么就会直接按照index进行join

In [3]:
person

Unnamed: 0,personId,lastName,firstName
0,1,Wang,Allen
1,2,Alice,Bob


In [4]:
address

Unnamed: 0,addressId,personId,city,state
0,1,2,New York City,New York
1,2,3,Leetcode,California


# 2. Data Processing

### Join的用法
https://zhuanlan.zhihu.com/p/45442554 -> Pandas DataFrame连接表，Merge, Join, Concat的对比
#### DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
- DataFrame: 表a
- other: 表b
- on: 按照哪一列进行join，如果不写，那么就是默认按照index join
- how: 就是sql里面的left，right，inner，outer，默认left
- Isuffix：如果有重复列，那么靠左边的后缀
- rsuffix：如果有重复列，那么靠右边的后缀

#### 注意的几点
- 列名有重复的时候，必须在JOIN的时候设置lsuffix, rsuffix参数，否则会报错；如果列名不重复，则直接用' df1.join(df2) '即可。
- 用JOIN实现基于列索引的合并主要考虑三种情况：
    - 列名不同，列内容有相同：需要用到 l.join(r.set_index(r的某一列), on='l中的要和r join的那一列')
    - 列名相同，列内容有相同：需要用到 l.join(r.set_index(r的某一列), on='l中要和r join的那一列，但因列名相同，所以和前面的是一样的')；特别注意，即使列名相同了，也必须用到set_index(key)否则连接就会出现很奇怪的情况，有些甚至就是null
    - 列名不同，列内容也不同：典型的行索引，不能用JOIN的ON参数进行列连接



In [7]:
join_res = person.join(address.set_index('personId'), on = 'personId')[['firstName','lastName','city','state']] # 选择某些列
# 我们一旦用了set_index，那么相当于address这一张表的personId将作为address的index，然后按照personId与person进行join
# 那么address这张表的personId就不会出现在结果里，因为它已经变成了address的index了
join_res

Unnamed: 0,firstName,lastName,city,state
0,Allen,Wang,,
1,Bob,Alice,New York City,New York


# Output

In [1]:
# Person table:
# +----------+----------+-----------+
# | personId | lastName | firstName |
# +----------+----------+-----------+
# | 1        | Wang     | Allen     |
# | 2        | Alice    | Bob       |
# +----------+----------+-----------+

# Address table:
# +-----------+----------+---------------+------------+
# | addressId | personId | city          | state      |
# +-----------+----------+---------------+------------+
# | 1         | 2        | New York City | New York   |
# | 2         | 3        | Leetcode      | California |
# +-----------+----------+---------------+------------+

# Output: 
# +-----------+----------+---------------+----------+
# | firstName | lastName | city          | state    |
# +-----------+----------+---------------+----------+
# | Allen     | Wang     | Null          | Null     |
# | Bob       | Alice    | New York City | New York |
# +-----------+----------+---------------+----------+

