# 1.Series原型

pandas.Series(data, index, dtype, name, copy)

data：一组数据，可以是字典，ndarray，标量。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

说的直白一点，Series 其实就是一个带标签的数组

# 2.创建

In [3]:
import numpy as np
import pandas as pd

# 带索引的一列数据
s1 = pd.Series([1, 2, 3, 4, 5], name='s1')
print(s1)

0    1
1    2
2    3
3    4
4    5
Name: s1, dtype: int64


In [18]:
# 索引为 a b c d e
s2 = pd.Series(np.arange(5), index=['a', 'b', 'c', 'd', 'e'], name='s2')
print(s2)

a    0
b    1
c    2
d    3
e    4
Name: s2, dtype: int32


In [19]:
# 创建一个字典,用key来构成表的索引
temp_dict = {"name": "zhangsan", "age": 27, "tel": 10086}
s3 = pd.Series(temp_dict, name='s3')
print(s3)

name    zhangsan
age           27
tel        10086
Name: s3, dtype: object


In [20]:
# data 是标量时,指定索引 index,得到一个值为 data 等长的 Series
s4 = pd.Series(1., index=list("abcde"), name='s4')
print(s4)

a    1.0
b    1.0
c    1.0
d    1.0
e    1.0
Name: s4, dtype: float64


In [7]:
def create_series() -> pd.core.series.Series:
    """
    :return: return a Series, def create_series() -> Series:
    """

    s = pd.Series(np.arange(4), index=list("abcd"), name="python")
    
    return s

create_series()

a    0
b    1
c    2
d    3
Name: python, dtype: int32

# 3.切片与索引

In [8]:
print(s2)
# 支持数字索引操作
print(s2[0])
print("-" * 50)  # 分割线

a    0
b    1
c    2
d    3
e    4
dtype: int32
0
--------------------------------------------------


In [9]:
# 支持切片操作
print(s2[:3])
print("-" * 50)  # 分割线

a    0
b    1
c    2
dtype: int32
--------------------------------------------------


In [10]:
# 花式索引
print(s2[[1, 0, 2]])
print("-" * 100)  # 分割线

b    1
a    0
c    2
dtype: int32
----------------------------------------------------------------------------------------------------


In [11]:
# 布尔索引
print(s2[s2>2])

d    3
e    4
dtype: int32


In [12]:
# 使用字典一样使用 Series :
s2 = pd.Series(np.arange(5), index=['a', 'b', 'c', 'd', 'e'])
print(s2["a"])

0


# 4.向量化操作

In [13]:
# 对应位置相加
result1 = s2 + s2
print(result1)
print("-" * 50)  # 分割线

a    0
b    2
c    4
d    6
e    8
dtype: int32
--------------------------------------------------


In [14]:
# 对应位置相乘
result2 = s2 * s2
print(result2)
print("-" * 50)  # 分割线

a     0
b     1
c     4
d     9
e    16
dtype: int32
--------------------------------------------------


In [15]:
# 各个位置加2
result3 = s2 + 2
print(result3)

a    2
b    3
c    4
d    5
e    6
dtype: int32


# 5.自动对齐

In [21]:
# 对于上面两个不能完全对齐的 Series,结果的 index 是两者的并集,同时不能对齐的部分当作缺失值处理
print(s2[1:])
print(s2[:-1])
result = s2[1:] + s2[:-1]
print(result)

b    1
c    2
d    3
e    4
Name: s2, dtype: int32
a    0
b    1
c    2
d    3
Name: s2, dtype: int32
a    NaN
b    2.0
c    4.0
d    6.0
e    NaN
Name: s2, dtype: float64


# 6.缺失值检测
## 6-1.Series.fillna() 填充缺失值
```
Series.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
values： dict, Series, or DataFrame (填充nan的值，不能是list)。
method： {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None (填充方法，用前/后面的值进行填充)。
axis： {0 or ‘index’} (前后或上下填充)
limit： nt, default None (连续填充的值的数量)
```
## 6-2.Series.dropna() 删除缺失值
````
Series.dropna(axis=0, inplace=False, how=None)
axis： 默认为 0，表示逢空值剔除整行，如果设置参数 axis＝1 表示逢空值去掉整列。
inplace： 如果设置 True，将计算得到的值直接覆盖之前的值并返回 None，修改的是源数据。
how： 默认为 any 如果一行（或一列）里任何一个数据有出现 NA 就去掉整行，如果设置 how='all' 一行（或列）都是 NA 才去掉这整行。
```

In [22]:
# 创建一个带缺失值Series
s = pd.Series([1, 2, None, 4, None])
print(s)

0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64


In [23]:
# 检测缺失值
print(s.isna())
print("-" * 50)

0    False
1    False
2     True
3    False
4     True
dtype: bool
--------------------------------------------------


In [24]:
# 填充缺失值，填充值为0.
print(s.fillna(0.))  

0    1.0
1    2.0
2    0.0
3    4.0
4    0.0
dtype: float64


# 7.属性

In [25]:
s = pd.Series(np.arange(5), index=list("abcde"), name='s')
print(s)

a    0
b    1
c    2
d    3
e    4
Name: s, dtype: int32


In [26]:
# name 属性、index 属性和 values 属性
print(s.name)
print(s.index)
print(s.values)

s
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
[0 1 2 3 4]


# 8.DataFrame原型
pandas.DataFrame( data, index, columns, dtype, copy)

参数说明:
```
data：一组数据(ndarray、series, map, lists, dict 等类型)。
index：索引值，或者可以称为行标签。
columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
dtype：数据类型。
copy：拷贝数据，默认为 False。
```

In [32]:
# 使用单个列表创建
data = [1, 2, 3, 4, 5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


In [29]:
# 使用嵌套列表创建并指定列索引
data = [['xiaoming', 10], ['xiaohong', 11], ['xiaozhang', 12]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)

        Name  Age
0   xiaoming   10
1   xiaohong   11
2  xiaozhang   12


In [30]:
# 使用数组创建
data = {'Name': ['xiaoming', 'zhangsan', 'lisi'], 'Age':[10, 11, 21]}
df = pd.DataFrame(data)
print(df)

       Name  Age
0  xiaoming   10
1  zhangsan   11
2      lisi   21


In [31]:
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 6, 'c': 7}]
df = pd.DataFrame(data, index=["first", "second"])  # 指定行索引
print(df)

        a  b    c
first   1  2  NaN
second  5  6  7.0


In [33]:
def create_dataframe() -> pd.core.frame.DataFrame:
    """
    :return: return a DataFrame, create_series() -> pd.core.frame.DataFrame:
    """
    data = {"name": ["Tom", "Jack", "Mike"], "age": [28, 34, 29]}

    df = pd.DataFrame(data, index=list("abc"))

    return df

create_dataframe()

Unnamed: 0,name,age
a,Tom,28
b,Jack,34
c,Mike,29


# 9、基本属性与整体情况查询
```
DataFrame 的基础属性

df.shape # 形状，行数列数
df.dtypes # 列数据类型
df.ndim # 数据维度
df.index # 行索引
df.columns # 列索引
df.values # 对象值，二维ndarray数组
DataFrame 的整体情况查询

df.head() # 显示头部几行
df.tail() # 显示尾部几行
df.info() # 相关信息概览：行数，列数，列索引，列非空值个数，列类型，内存占用
df.describe() # 快速综合统计结果：计数，均值，标准差，最大值，四分位数，最小值
```

In [5]:
df = pd.DataFrame(np.random.randn(6,4), columns=list('ABCD'))  # 正太分布随机数
print(df)

          A         B         C         D
0  0.682363 -0.664743  1.594414 -0.398526
1  0.574822 -2.030716 -0.454394  0.392949
2 -1.043943  0.177280 -0.842788  0.551177
3 -0.930581 -0.440019 -0.041714 -0.395423
4  0.774822  0.264441 -1.446011 -0.851739
5  0.891774 -0.511272  1.099170  1.058710


In [4]:
df2 = pd.DataFrame({'A' : 1.,
                          'B' : pd.Timestamp('20130102'),
                          'C' : pd.Series(1,index=list(range(4)), dtype='float32'),
                          'D' : np.array([3] * 4, dtype='int32'),
                          'E' : pd.Categorical(["test","train","test","train"]),
                          'F' : 'foo' })

print(df2)

     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo


In [6]:
# 查看一下创建的 df2 的各列数据类型
print(df2.dtypes)

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object


In [7]:
# 查看一下 df2 的形状和数据维度
print(df2.shape)
print(df2.ndim)

(4, 6)
2


In [8]:
# 查看前三行数据
print(df.head(3))
print("-" * 50)  # 分割线
# 查看后三行数据
print(df.tail(3))

          A         B         C         D
0  0.682363 -0.664743  1.594414 -0.398526
1  0.574822 -2.030716 -0.454394  0.392949
2 -1.043943  0.177280 -0.842788  0.551177
--------------------------------------------------
          A         B         C         D
3 -0.930581 -0.440019 -0.041714 -0.395423
4  0.774822  0.264441 -1.446011 -0.851739
5  0.891774 -0.511272  1.099170  1.058710


In [9]:
# 行索引
print(df.index)
print("-" * 50)  # 分割线
# 列索引
print(df.columns)

RangeIndex(start=0, stop=6, step=1)
--------------------------------------------------
Index(['A', 'B', 'C', 'D'], dtype='object')


In [10]:
# 数据
print(df.values)

[[ 0.68236347 -0.6647434   1.5944144  -0.39852608]
 [ 0.57482199 -2.0307161  -0.4543944   0.39294853]
 [-1.04394339  0.1772799  -0.84278804  0.5511773 ]
 [-0.93058127 -0.44001946 -0.0417143  -0.39542307]
 [ 0.77482166  0.26444099 -1.4460106  -0.85173932]
 [ 0.89177357 -0.51127231  1.09917025  1.05871   ]]


In [11]:
# 相关信息概览
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
A    6 non-null float64
B    6 non-null float64
C    6 non-null float64
D    6 non-null float64
dtypes: float64(4)
memory usage: 320.0 bytes
None


In [13]:
# 快速查看综合统计结果
print(df.describe())

              A         B         C         D
count  6.000000  6.000000  6.000000  6.000000
mean   0.158209 -0.534172 -0.015220  0.059525
std    0.894122  0.825836  1.162617  0.720896
min   -1.043943 -2.030716 -1.446011 -0.851739
25%   -0.554230 -0.626376 -0.745690 -0.397750
50%    0.628593 -0.475646 -0.248054 -0.001237
75%    0.751707  0.022955  0.813949  0.511620
max    0.891774  0.264441  1.594414  1.058710


In [14]:
# 转置
print(df.T)

          0         1         2         3         4         5
A  0.682363  0.574822 -1.043943 -0.930581  0.774822  0.891774
B -0.664743 -2.030716  0.177280 -0.440019  0.264441 -0.511272
C  1.594414 -0.454394 -0.842788 -0.041714 -1.446011  1.099170
D -0.398526  0.392949  0.551177 -0.395423 -0.851739  1.058710


In [15]:
def describe_get(data):
    """
    :param data: the source data
    :return: return a DataFrame
    """
    # -- write your code here --
    
    return data.describe()

describe_get(df)

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.158209,-0.534172,-0.01522,0.059525
std,0.894122,0.825836,1.162617,0.720896
min,-1.043943,-2.030716,-1.446011,-0.851739
25%,-0.55423,-0.626376,-0.74569,-0.39775
50%,0.628593,-0.475646,-0.248054,-0.001237
75%,0.751707,0.022955,0.813949,0.51162
max,0.891774,0.264441,1.594414,1.05871


# 10、练习
请在 solution.py 里完善代码，实现 create_dataframe 函数功能，构建一个 DataFrame 数据类型，要求如下：

- 所构建的 DataFrame 类型的 index 为 "a, b, c"
- 所构建的 DataFrame 类型的 columns 为 "name, age"
- name 列的值为 "Tom, Jack, Mike"
- age 列的值不做限制，可自由填写

In [16]:
def create_dataframe() -> pd.core.frame.DataFrame:
    """
    :return: return a DataFrame, create_series() -> pd.core.frame.DataFrame:
    """
    
    df = pd.DataFrame({'name':['Tom', 'Jack', 'Mike'], 'age':[32, 43, 3]}, index=list('abc'), columns=['name', 'age'])
    return df

create_dataframe()

Unnamed: 0,name,age
a,Tom,32
b,Jack,43
c,Mike,3


# 11、索引

In [19]:
# 创建一个6行3列的正太分布结构
df = pd.DataFrame(np.random.randn(6,4), index=list("abcdef"), columns=list('ABCD')) 
print(df)

          A         B         C         D
a -0.202269 -0.150799 -0.812402 -0.927449
b  0.050479  0.389905 -0.474669  0.323952
c -0.839139  0.390124  0.013735 -1.165266
d -1.598000 -0.213705  0.002848  1.790616
e -0.283202 -2.141117 -1.287279 -1.314012
f -0.159533 -0.182399 -0.669201 -1.617804


In [20]:
# 创建一个3行4列的结构
df2 = pd.DataFrame(np.arange(12).reshape(3, 4), index=list("abc"), columns=list("WXYZ"))
print(df2)

   W  X   Y   Z
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11


In [21]:
# 读取单列
print(df["A"])
print("-" * 50)
# 读取多列
print(df[["A", "C"]])

a   -0.202269
b    0.050479
c   -0.839139
d   -1.598000
e   -0.283202
f   -0.159533
Name: A, dtype: float64
--------------------------------------------------
          A         C
a -0.202269 -0.812402
b  0.050479 -0.474669
c -0.839139  0.013735
d -1.598000  0.002848
e -0.283202 -1.287279
f -0.159533 -0.669201


In [22]:
print(df.A)

a   -0.202269
b    0.050479
c   -0.839139
d   -1.598000
e   -0.283202
f   -0.159533
Name: A, dtype: float64


In [23]:
# 读取行
print(df[0:3])

          A         B         C         D
a -0.202269 -0.150799 -0.812402 -0.927449
b  0.050479  0.389905 -0.474669  0.323952
c -0.839139  0.390124  0.013735 -1.165266


In [24]:
print(df["a":"c"])

          A         B         C         D
a -0.202269 -0.150799 -0.812402 -0.927449
b  0.050479  0.389905 -0.474669  0.323952
c -0.839139  0.390124  0.013735 -1.165266


# 注意列是双中括号

In [25]:
# 读取多行多列
print(df["a":"c"][["A", "D"]])

          A         D
a -0.202269 -0.927449
b  0.050479  0.323952
c -0.839139 -1.165266


## 虽然 DataFrame 支持 ndarray 的索引语法，但是我们推荐使用 .loc, .iloc 方法进行索引。

In [26]:
# 查询单行
print(df2.loc["a"])
print("-" * 50)  # 分隔符
# 查询多行
print(df2.loc[["a", "c"]])

W    0
X    1
Y    2
Z    3
Name: a, dtype: int32
--------------------------------------------------
   W  X   Y   Z
a  0  1   2   3
c  8  9  10  11


## 连续切片，“,”左边为行索引，右边为列索引

In [27]:
# 写法1, 离散的多行多列
print(df2.loc[["a", "b"], ["W", "Y"]])

print("-" * 50)  # 分隔符

# 写法2，连续的多行离散的多列
print(df2.loc[df2.index[0:2], ["W", "Y"]])
    
print("-" * 50)  # 分隔符

# 写法3，连续的多行多列
print(df2.loc["a": "c", "W": "Y"])

   W  Y
a  0  2
b  4  6
--------------------------------------------------
   W  Y
a  0  2
b  4  6
--------------------------------------------------
   W  X   Y
a  0  1   2
b  4  5   6
c  8  9  10


## .iloc 根据位置读取，也可以进行切片

In [28]:
# 获取前两行
# 注意：pandas 的位置切片是左闭右开
print(df2.iloc[0:2])

   W  X  Y  Z
a  0  1  2  3
b  4  5  6  7


In [29]:
# 获取前2行前3列
print(df2.iloc[0:2, 0:3])

   W  X  Y
a  0  1  2
b  4  5  6


In [31]:
# 只传入 ‘:’ 获取所有行或列
print(df2.iloc[:, 0:2])
print("-" * 50)  # 分隔符
print(df2.iloc[0:2, :])

   W  X
a  0  1
b  4  5
c  8  9
--------------------------------------------------
   W  X  Y  Z
a  0  1  2  3
b  4  5  6  7


# 布尔值索引

In [32]:
print(df > 0)

       A      B      C      D
a  False  False  False  False
b   True   True  False   True
c  False   True   True  False
d  False  False   True   True
e  False  False  False  False
f  False  False  False  False


In [33]:
print(df.A > 0)

a    False
b     True
c    False
d    False
e    False
f    False
Name: A, dtype: bool


In [34]:
print(df[df['A'] > 0])

          A         B         C         D
b  0.050479  0.389905 -0.474669  0.323952


In [35]:
# 能传入多个条件，不同的条件之间需要用括号括起来。
print(df2[(df2 > 1) & (df2 < 10)])

     W    X    Y    Z
a  NaN  NaN  2.0  3.0
b  4.0  5.0  6.0  7.0
c  8.0  9.0  NaN  NaN


# 12、层次化索引

pandas 的层次化索引，它是 pandas 的一项比较重要的功能，它能够让我们在一个轴上拥有多个索引级别，另一种说法是它能以低纬度形式来处理高纬度数据。

## 1.Series 层次化索引

In [36]:
# 有3个班级，我们来统计一下每个班级的男女生人数
data = [16, 17, 21, 18, 19, 22]
s = pd.Series(data, index=[["first", "first", "second", "second", "third", "third"], ["male", "female", "male", "female", "male", "female"]])
print(s)

first   male      16
        female    17
second  male      21
        female    18
third   male      19
        female    22
dtype: int64


In [37]:
# 显示层次化索引
print(s.index)

MultiIndex([( 'first',   'male'),
            ( 'first', 'female'),
            ('second',   'male'),
            ('second', 'female'),
            ( 'third',   'male'),
            ( 'third', 'female')],
           )


In [41]:
# 传入第一个索引
print(s["first"])

male      16
female    17
dtype: int64


In [42]:
# 获取一二班的男女生人数
print(s["first": "second"]) 

print('-' * 50)

# 也可以多项选择
print(s[["first", "third"]])

first   male      16
        female    17
second  male      21
        female    18
dtype: int64
--------------------------------------------------
first  male      16
       female    17
third  male      19
       female    22
dtype: int64


In [43]:
# 获取一班的男生人数
print(s["first", "male"])

print('-' * 50)

# 获取各班的女生人数
print(s[:, "female"])

16
--------------------------------------------------
first     17
second    18
third     22
dtype: int64


In [44]:
# 获取一班的男生人数
print(s["first"]["male"])

print('-' * 50)

# 获取各班的女生人数
print(s["first": "third"][:, "female"])

16
--------------------------------------------------
first     17
second    18
third     22
dtype: int64


## 2.DataFrame 层次化索引

In [38]:
# 统计一下三个班级中数学、语文、英语三门学科男生和女生考试成绩的等级划分
data = np.random.randint(10, 20, (6, 9))  # [10， 20)之间的随机整数
index = [["first", "first", "second", "second", "third", "third"], ["male", "female", "male", "female", "male", "female"]]
columns = [["Ch", "Ch", "Ch", "Ma", "Ma", "Ma", "En", "En", "En"], ["A", "B", "C", "A", "B", "C", "A", "B", "C"]]
df = pd.DataFrame(data, index=index, columns=columns)
print(df)

               Ch          Ma          En        
                A   B   C   A   B   C   A   B   C
first  male    10  18  12  18  19  13  15  11  14
       female  16  16  10  15  19  14  12  12  10
second male    11  13  19  10  15  17  12  17  12
       female  19  12  19  14  16  16  10  19  15
third  male    16  18  11  14  13  16  13  18  12
       female  17  19  11  12  17  14  18  11  17


In [39]:
# 显示层次化索引
print(df.index)

MultiIndex([( 'first',   'male'),
            ( 'first', 'female'),
            ('second',   'male'),
            ('second', 'female'),
            ( 'third',   'male'),
            ( 'third', 'female')],
           )


In [40]:
print(df.columns)

MultiIndex([('Ch', 'A'),
            ('Ch', 'B'),
            ('Ch', 'C'),
            ('Ma', 'A'),
            ('Ma', 'B'),
            ('Ma', 'C'),
            ('En', 'A'),
            ('En', 'B'),
            ('En', 'C')],
           )


In [45]:
print(df["Ma"])

                A   B   C
first  male    18  19  13
       female  15  19  14
second male    10  15  17
       female  14  16  16
third  male    14  13  16
       female  12  17  14


In [46]:
print(df.loc["first"])

        Ch          Ma          En        
         A   B   C   A   B   C   A   B   C
male    10  18  12  18  19  13  15  11  14
female  16  16  10  15  19  14  12  12  10


In [47]:
print(df.loc["first", "En"])

         A   B   C
male    15  11  14
female  12  12  10


In [48]:
print(df["Ch"]["A"])

first   male      10
        female    16
second  male      11
        female    19
third   male      16
        female    17
Name: A, dtype: int32


In [49]:
print(df.loc["first", ["Ch", "En"]])

        Ch          En        
         A   B   C   A   B   C
male    10  18  12  15  11  14
female  16  16  10  12  12  10


In [50]:
print(df.loc["first", "Ch"]["A"])

male      10
female    16
Name: A, dtype: int32


In [54]:
df.loc["first", "Ch"]["A"]

male      10
female    16
Name: A, dtype: int32

In [51]:
print(df.loc["first", :].loc["male"])

Ch  A    10
    B    18
    C    12
Ma  A    18
    B    19
    C    13
En  A    15
    B    11
    C    14
Name: male, dtype: int32


## 居然练习写错了，不能使用小括号

In [55]:
 df.loc['second', 'Ma']['A']

male      10
female    14
Name: A, dtype: int32

# 13、数据的合并
Pandas 包的 merge、join 方法可以完成数据的合并，merge 方法主要基于两个 DataFrame 的共同列进行合并，join 方法主要基于两个 DataFrame 的索引进行合并。

## 1. Merge
merge 方法是基于共同列，将两个 DataFrame 合并
```
pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
```

参数说明：
- left/right：左/右位置的 DataFrame。
- how：数据合并的方式。left：基于左 DataFrame 列的数据合并；right：基于右DataFrame列的数据合并；outer：基于列的数据外合并（取并集）；inner：基于列的数据内合并（取交集）；默认为inner。
- on：用来合并的列名，这个参数需要保证两个 DataFrame 有相同的列名。
- left_on/right_on：左/右 DataFrame 合并的列名，也可为索引，数组和列表。
- left_index/right_index：是否以 index 作为数据合并的列名，True 表示是。
- sort：根据 DataFrame 合并的 keys 排序，默认是 True。
- suffixes: 若有相同列且该列没有作为合并的列，可通过 suffixes 设置该列的后缀名，一般为元组和列表类型。

In [57]:
df1 = pd.DataFrame({'key':['s','s','w','x','x','n','f','c'], 'data1':range(8)})
print(df1)
print("-" * 50)  # 分割线
df2 = pd.DataFrame({'key':['w','w','s','s','x','f'], 'data2':range(6)})
print(df2)

  key  data1
0   s      0
1   s      1
2   w      2
3   x      3
4   x      4
5   n      5
6   f      6
7   c      7
--------------------------------------------------
  key  data2
0   w      0
1   w      1
2   s      2
3   s      3
4   x      4
5   f      5


In [58]:
# 未指定合并的列，默认选取两者重复的列
print(pd.merge(df1, df2))

  key  data1  data2
0   s      0      2
1   s      0      3
2   s      1      2
3   s      1      3
4   w      2      0
5   w      2      1
6   x      3      4
7   x      4      4
8   f      6      5


In [59]:
print(pd.merge(df1, df2, how="outer", on="key"))

   key  data1  data2
0    s      0    2.0
1    s      0    3.0
2    s      1    2.0
3    s      1    3.0
4    w      2    0.0
5    w      2    1.0
6    x      3    4.0
7    x      4    4.0
8    n      5    NaN
9    f      6    5.0
10   c      7    NaN


In [60]:
print(pd.merge(df1, df2, how="left"))

   key  data1  data2
0    s      0    2.0
1    s      0    3.0
2    s      1    2.0
3    s      1    3.0
4    w      2    0.0
5    w      2    1.0
6    x      3    4.0
7    x      4    4.0
8    n      5    NaN
9    f      6    5.0
10   c      7    NaN


In [61]:
df1 = pd.DataFrame({'key1': ['foo', 'foo', 'bar'], 'key2': ['one', 'two', 'one'],'val': [1, 2, 3]})
print(df1)
print("-" * 50)  # 分割线
df2 = pd.DataFrame({'key1': ['foo', 'foo','bar','bar'], 'key2': ['one', 'one', 'one','two'],'val': [4,5,6,7]})
print(df2)

  key1 key2  val
0  foo  one    1
1  foo  two    2
2  bar  one    3
--------------------------------------------------
  key1 key2  val
0  foo  one    4
1  foo  one    5
2  bar  one    6
3  bar  two    7


In [62]:
print(pd.merge(df1, df2, on=["key1", "key2"], how="right"))

  key1 key2  val_x  val_y
0  foo  one    1.0      4
1  foo  one    1.0      5
2  bar  one    3.0      6
3  bar  two    NaN      7


In [63]:
# 当合并的数据有相同的列时，结构会默认在后面添加 _x, _y 来区分，我们也可以通过 suffixes 参数来手动指定
print(pd.merge(df1, df2, on=["key1", "key2"], suffixes=["_left", "_right"]))

  key1 key2  val_left  val_right
0  foo  one         1          4
1  foo  one         1          5
2  bar  one         3          6


## 2. Join
```
DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
```
参数说明：
- other：DataFrame，或者带有名字的 Series，或者 list，如果传递的是 Series，那么其 name 属性应当是一个集合，并且该集合将会作为结果 DataFrame 的列名。
- on：列名称，或者列名称的 list/tuple，或者类似形状的数组连接的列，默认使用索引连接。
- how： {‘left’, ‘right’, ‘outer’, ‘inner’} , 连接的方式，默认为左连接。
- lsuffix：String 左 DataFrame 中重复列的后缀。
- rsuffix：String 右 DataFrame 中重复列的后缀。
- sort：按照字典顺序对结果在连接键上排序。如果为False，连接键的顺序取决于连接类型（关键字）。

In [71]:
df1 = pd.DataFrame(np.arange(8).reshape(2, 4), index=["one", "two"], columns=list("ABCD"))
print(df1)
print("-" * 50)  # 分割线
df2 = pd.DataFrame(np.arange(12).reshape(3, 4), index=["one", "two", "three"], columns=list("WXYZ"))
print(df2)

     A  B  C  D
one  0  1  2  3
two  4  5  6  7
--------------------------------------------------
       W  X   Y   Z
one    0  1   2   3
two    4  5   6   7
three  8  9  10  11


In [69]:
print(df1.dtypes)

A    int32
B    int32
C    int32
D    int32
dtype: object


In [70]:
print(df2.dtypes)

C    int32
D    int32
E    int32
F    int32
dtype: object


### 执行语句时报错columns overlap but no suffix specified: Index(['C', 'D'], dtype='object'),然后发现是两个DataFrame 的列名重复了，join不会像merge一样，merge会将重名的列明自动加上_x,_y加以区分，而join直接报错。所以，我们的解决方法是修改其列名就好了。

教程中代码写错，但是运行结果是正确的。

In [72]:
print(df1.join(df2))

     A  B  C  D  W  X  Y  Z
one  0  1  2  3  0  1  2  3
two  4  5  6  7  4  5  6  7


In [73]:
print(df2.join(df1))

       W  X   Y   Z    A    B    C    D
one    0  1   2   3  0.0  1.0  2.0  3.0
two    4  5   6   7  4.0  5.0  6.0  7.0
three  8  9  10  11  NaN  NaN  NaN  NaN


# 14、分割与组合

## Grouping

分组的过程呢分为：
- 拆分： 进行分组的根据
- 应用： 每个分组运行的计算规则
- 合并： 把每个分组的计算结果合并起来

```
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=<no_default>, observed=False, dropna=True)
```

参数说明:
- by：接收list，string，mapping，generator，用于确定分组的依据，无默认。
- axis：接收int，表示操作的轴向，默认为0，对列进行操作。
- level：接收int或者索引名，代表标签所在级别。
- as_index：表示聚合后的聚合标签是否以DataFrame索引形式输出，默认为True。
- sort：表示是否对分组依据分组标签进行排序。
- group_keys：表示是否显示分组标签的名称。
- squeeze：表示是否在允许的情况下对返回数据进行降维。

In [74]:
# 用字典创建DataFrame
data = {"lessons": ['Ch', 'En', 'Ch', 'En', 'Ch', 'Ma', 'En', 'Ma'],
        "grade": ['A', 'A', 'B', 'B', 'C', 'A', 'C', 'B'],
        "male": np.random.randint(10, 20, 8),  # [10, 20)的8个随机整数
        "female": np.random.randint(10, 20, 8)}
df = pd.DataFrame(data)
print(df)

  lessons grade  male  female
0      Ch     A    11      13
1      En     A    10      12
2      Ch     B    18      12
3      En     B    17      16
4      Ch     C    10      10
5      Ma     A    14      18
6      En     C    14      14
7      Ma     B    14      19


In [75]:
print(df.groupby(by="lessons"))

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000000000A5564C8>


#### DataFrameGroupBy 对象有很多经过优化的方法：
- count：计算分组中非NA值的数量
- sum：计算非NA值的和
- mean：计算非NA值的平均值
- median：计算非NA值的算术中位数
- std、var：无偏（分母为n-1）标准差和方差
- min、max：非NA值的最小值和最大值