## 数据操作与分析

### 1.排序

在数据分析中，排序是一个常见的操作。Pandas 提供了 sort_values() 方法来对 DataFrame 或 Series 进行排序。

```python
DataFrame.sort_values(by, axis=0, ascending=True, inplace=False)
```

In [2]:
import pandas as pd

# 创建一个示例 DataFrame
data = {
    '姓名': ['Alice', 'Bob', 'Charlie'],
    '年龄': [25, 30, 35],
    '城市': ['北京', '上海', '广州']
}

df = pd.DataFrame(data)

# 按照年龄列进行升序排序
sorted_df = df.sort_values(by='年龄')
print("按年龄升序排序:")
print(sorted_df)

# 按照年龄列进行降序排序
sorted_df_desc = df.sort_values(by='年龄', ascending=False)
print("\n按年龄降序排序:")
print(sorted_df_desc)

按年龄升序排序:
        姓名  年龄  城市
0    Alice  25  北京
1      Bob  30  上海
2  Charlie  35  广州

按年龄降序排序:
        姓名  年龄  城市
2  Charlie  35  广州
1      Bob  30  上海
0    Alice  25  北京


### 2.分组与聚合

分组和聚合是数据分析中非常重要的步骤，可以帮助我们从数据中提取更有意义的信息。Pandas 提供了 groupby() 方法来实现这一功能。

In [6]:
# 创建一个包含更多信息的示例 DataFrame
data = {
    '姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    '性别': ['女', '男', '男', '男', '女'],
    '年龄': [25, 30, 35, 40, 30],
    '城市': ['北京', '上海', '广州', '北京', '上海']
}

df = pd.DataFrame(data)

# 按性别分组并计算每组的平均年龄
grouped = df.groupby('性别')['年龄'].mean()
print("按性别分组后的平均年龄:")
print(grouped)

按性别分组后的平均年龄:
性别
女    27.5
男    35.0
Name: 年龄, dtype: float64


Pandas 支持多种聚合函数，如 mean, sum, count 等，可以在 groupby 后应用这些函数。

In [8]:
# 根据城市分组并计算每组的数量
city_count = df.groupby('城市').size()
print("\n按城市分组后的数量:")
print(city_count)

# 多个聚合函数
aggregated = df.groupby('性别')['年龄'].agg(['mean', 'sum', 'count'])
print("\n按性别分组后的聚合结果:")
print(aggregated)



按城市分组后的数量:
城市
上海    2
北京    2
广州    1
dtype: int64

按性别分组后的聚合结果:
    mean  sum  count
性别                  
女   27.5   55      2
男   35.0  105      3


### 3.合并与连接数据
在前面的讨论中，我们已经介绍了如何使用 concat(), merge() 和 join() 方法来合并和连接数据。这里我们再稍作总结

concat() 可以沿着某个轴连接多个 DataFrame

In [10]:
# 创建两个示例 DataFrame
df1 = pd.DataFrame({'名字': ['Alice', 'Bob'], '年龄': [25, 30]})
df2 = pd.DataFrame({'名字': ['Charlie', 'David'], '年龄': [35, 40]})

# 沿着行连接
concat_df = pd.concat([df1, df2], axis=0)
print("\n使用 concat 连接的 DataFrame:")
print(concat_df)


使用 concat 连接的 DataFrame:
        名字  年龄
0    Alice  25
1      Bob  30
0  Charlie  35
1    David  40


merge() 是基于一个或多个键将两个 DataFrame 进行合并。

In [16]:
import pandas as pd

# 创建两个示例 DataFrame
df1 = pd.DataFrame({
    '员工ID': [1, 2, 3],
    '姓名': ['Alice', 'Bob', 'Charlie']
})

df2 = pd.DataFrame({
    '员工ID': [1, 2, 4],
    '部门': ['人事', '财务', '市场']
})

print("数据集1：\n", df1)
print("数据集2：\n", df2)

数据集1：
    员工ID       姓名
0     1    Alice
1     2      Bob
2     3  Charlie
数据集2：
    员工ID  部门
0     1  人事
1     2  财务
2     4  市场


In [22]:
# 内连接，只有在两个 DataFrame 中都存在的员工ID会被保留
merged_inner_df = df1.merge(df2, on='员工ID', how='inner')
print("内连接结果:")
print(merged_inner_df)

内连接结果:
   员工ID     姓名  部门
0     1  Alice  人事
1     2    Bob  财务


In [19]:
# 外连接，保留所有员工ID，不存在的地方填充 NaN
merged_outer_df = df1.merge(df2, on='员工ID', how='outer')
print("\n外连接结果:")
print(merged_outer_df)


外连接结果:
   员工ID       姓名   部门
0     1    Alice   人事
1     2      Bob   财务
2     3  Charlie  NaN
3     4      NaN   市场


In [20]:
# 左连接，仅保留左侧 DataFrame 的所有行
merged_left_df = df1.merge(df2, on='员工ID', how='left')
print("\n左连接结果:")
print(merged_left_df)


左连接结果:
   员工ID       姓名   部门
0     1    Alice   人事
1     2      Bob   财务
2     3  Charlie  NaN


In [24]:
# 右连接，仅保留右侧 DataFrame 的所有行
merged_right_df = df1.merge(df2, on='员工ID', how='right')
print("\n右连接结果:")
print(merged_right_df)


右连接结果:
   员工ID     姓名  部门
0     1  Alice  人事
1     2    Bob  财务
2     4    NaN  市场


**使用 join()**

join() 方法主要用于根据索引连接 DataFrame。它提供了一种简单的方式来结合两个 DataFrame，特别是在一个 DataFrame 的索引与另一个 DataFrame 的某一列匹配时。
```python
DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
```

In [26]:
# 创建两个示例 DataFrame，设置索引
df3 = pd.DataFrame({'部门': ['人事', '财务']}, index=[1, 2])
df4 = pd.DataFrame({'地点': ['北京', '上海']}, index=[1, 2])

# 使用 join 将 df4 添加到 df3
joined_df = df3.join(df4)
print("\n使用 join 合并的结果:")
print(joined_df)


使用 join 合并的结果:
   部门  地点
1  人事  北京
2  财务  上海
