# Pandas 的基础使用

Pandas 是一个强大的 Python 数据分析工具包，它提供了快速、灵活以及表达力强的数据结构，旨在使数据清洗和分析工作变得更加简单易行。  
以下是一个简单的示例，展示了如何使用Python的Pandas库来处理经济或管理研究中的数据。

## 1. 安装 pandas  
如果您还没有安装 Pandas，可以通过以下命令安装：

In [ ]:
!pip install pandas

## 2. 导入 pandas

In [2]:
import pandas as pd

## 3. 创建Dataframe数据集  
pandas 也提供了多种直接读取文件的方式（pd.read_csv, pd.read_excel, pd.read_stata etc.)， 此案例为方便说明，直接生成两个数据集

In [3]:
import pandas as pd

# 创建员工工资数据集
data_employee = {
    'EmployeeID': [1, 2, 3, 4, 5],
    'Name': ['John', 'Anna', 'Peter', 'Linda', 'Martin'],
    'Salary': [50000, 60000, 55000, 52000, 58000]
}
df_employee = pd.DataFrame(data_employee)

# 创建产品销售数据集
data_sales = {
    'ProductID': [101, 102, 103, 104, 105],
    'ProductName': ['Apple', 'Banana', 'Cherry', 'Date', 'Elderberry'],
    'Sales': [200, 150, 300, 250, 180]
}
df_sales = pd.DataFrame(data_sales)

## 4. 查看数据结构

In [4]:
# 查看员工数据集的结构
print(df_employee.info())

# 查看产品销售数据集的结构
print(df_sales.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   EmployeeID  5 non-null      int64 
 1   Name        5 non-null      object
 2   Salary      5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   ProductID    5 non-null      int64 
 1   ProductName  5 non-null      object
 2   Sales        5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes
None


对于较大的表格，我们希望只显示dataframe的前n行，可以使用df.head(n)函数

In [5]:
df_employee.head(2)

Unnamed: 0,EmployeeID,Name,Salary
0,1,John,50000
1,2,Anna,60000


## 5. 数据选择

In [6]:
# 选择Salary列
salary = df_employee['Salary']

# 选择前两行
first_two_rows = df_employee.head(2)

## 6.  数据合并

In [7]:
# 假设我们要根据EmployeeID和ProductID进行合并
df_combined = pd.merge(df_employee, df_sales, left_on='EmployeeID', right_on='ProductID')

## 7. 数据描述性统计

In [8]:
# 计算Salary的描述性统计
descriptive_stats = df_employee['Salary'].describe()
print(descriptive_stats)

count        5.000000
mean     55000.000000
std       4123.105626
min      50000.000000
25%      52000.000000
50%      55000.000000
75%      58000.000000
max      60000.000000
Name: Salary, dtype: float64


## 8. 使用groupby方法可以对数据进行分组，然后进行聚合操作。

In [9]:
# 假设我们要根据ProductName分组求和Sales，并计算每组内的样本数量
grouped_sales = df_sales.groupby('ProductName')['Sales'].agg(['sum', 'count'])
print(grouped_sales)

             sum  count
ProductName            
Apple        200      1
Banana       150      1
Cherry       300      1
Date         250      1
Elderberry   180      1
