# Pandas

## 基础

In [None]:
import numpy as np
import pandas as pd

s = pd.Series([1,23,4,np.nan,1]) # 创建一个包含NaN值的Series对象
print(s)

dates = pd.date_range('20260101', periods=6) # 创建一个日期范围
print(dates)

df1 = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD')) # 创建一个DataFrame对象，包含随机数
print(df1)

df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20260102'),
                    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D': np.array([3] * 4, dtype='int32'),
                    'E': pd.Categorical(['test', 'train', 'test', 'train']),
                    'F': 'foo'})
print(df2)
print(df2.dtypes) # 输出DataFrame对象中每列的数据类型
print(df2.index) # 输出DataFrame对象的索引
print(df2.columns) # 输出DataFrame对象的列标签
print(df2.values) # 输出DataFrame对象的值
print(df2.describe()) # 输出DataFrame对象的统计摘要
print(df2.T) # 转置DataFrame对象
print(df2.sort_index(axis=1, ascending=False)) # 按列标签降序排序DataFrame对象
print(df2.sort_values(by='B')) # 按列'B'的值升序排序DataFrame对象

## pandas 选择数据

In [None]:
print(df1.A, df1['A']) # 访问DataFrame对象的列
print(df1[0:3]) # 访问DataFrame对象的行
print(df1['20260102':'20260104']) # 访问DataFrame对象的行，使用标签切片 
print(df1.loc['20260102']) # 访问DataFrame对象的行，使用标签索引
print(df1.loc[:, ['A', 'B']]) # 访问DataFrame对象的列，使用标签索引
print(df1.loc['20260102', ['A', 'B']]) # 访问DataFrame对象的元素，使用标签索引
print(df1.iloc[1:3,1:2]) # 访问DataFrame对象的元素，使用位置索引
print(df1[df1.A > 0]) # 使用布尔索引访问DataFrame   

## pandas 设置值

In [None]:
df1.iloc[2, 1] = 0 # 修改DataFrame对象中的元素
df1.loc['20260102', 'B'] = 0 # 修改DataFrame对象中的元素
df1[df1.A > 4] = 0 # 使用布尔索引修改DataFrame对象中的元素
df1.loc[df1['A'] > 4, 'A'] = 0 # 使用标签索引和布尔索引修改DataFrame对象中的元素
df1['F'] = np.nan # 添加一个新的列，值为NaN
df1['E'] = pd.Series([1,2,3,4,5,6], index=pd.date_range('20260101', periods=6)) # 添加一个新的列，值为一个Series对象
print(df1)

## 处理丢失数据

In [None]:
print(df1.dropna(axis=0, how='any')) # 删除包含NaN值的行
print(df1.fillna(value=5)) # 用指定的值填充NaN值
print(df1.isnull()) # 检测DataFrame对象中的NaN值
print(np.any(df1.isnull())) # 检测DataFrame对象中是否存在NaN值

## 导入导出数据

In [None]:
data = pd.read_csv('data.csv') # 从CSV文件中读取数据，创建一个DataFrame对象
data.to_csv('data.csv') # 将DataFrame对象写入CSV文件

## pandas 合并 concatenating

In [None]:
df1 = pd.DataFrame(np.ones((3,4))*0, columns=list('ABCD')) # 创建一个DataFrame对象，包含全0的值
df2 = pd.DataFrame(np.ones((3,4))*1, columns=list('ABCD')) # 创建一个DataFrame对象，包含全1的值
df3 = pd.DataFrame(np.ones((3,4))*2, columns=list('ABCD')) # 创建一个DataFrame对象，包含全2的值

res = pd.concat([df1, df2, df3], axis=0, ignore_index=True) # 按行连接DataFrame对象，忽略索引
print(res)

In [None]:
df1 = pd.DataFrame(np.ones((3,4))*0, columns=list('ABCD'), index=[0,1,2]) # 创建一个DataFrame对象，包含全0的值，指定索引
df2 = pd.DataFrame(np.ones((3,4))*1, columns=list('BCDE'), index=[1,2,3]) # 创建一个DataFrame对象，包含全1的值，指定索引

res1 = pd.concat([df1, df2], axis=0, join='outer', ignore_index=True) # 按行连接DataFrame对象，使用外连接，忽略索引
print(res1)
res2 = pd.concat([df1, df2], axis=0, join='inner', ignore_index=True) # 按行连接DataFrame对象，使用内连接，忽略索引
print(res2)
res3 = pd.concat([df1, df2], axis=1).reindex([0, 1, 2]) # 按列连接DataFrame对象，使用指定的索引
print(res3)

In [None]:
df1 = pd.DataFrame(np.ones((3,4))*0, columns=list('ABCD')) # 创建一个DataFrame对象，包含全0的值
df2 = pd.DataFrame(np.ones((3,4))*1, columns=list('ABCD')) # 创建一个DataFrame对象，包含全1的值

res = pd.concat([df1, df2], ignore_index=True)
print(res)

## pandas 合并 merge

In [None]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})
res = pd.merge(left, right, on='key') # 根据'key'列连接两个DataFrame对象，默认使用内连接
print(res)

In [None]:
left = pd.DataFrame({'key1': ['K0', 'K1', 'K2', 'K3'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key1': ['K0', 'K1', 'K2', 'K3'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})
res = pd.merge(left, right, on=['key1', 'key2'], how='inner') # 根据'key1'和'key2'列连接两个DataFrame对象，使用内连接
print(res)
res1 = pd.merge(left, right, on=['key1', 'key2'], how='outer', indicator=True) # 根据'key1'和'key2'列连接两个DataFrame对象，使用外连接,并添加一个指示连接类型的列
print(res1)

## pandas 绘图

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

data = pd.Series(np.random.randn(1000), index=np.arange(1000)) # 创建一个包含1000个随机数的Series对象，索引为0到999
data = data.cumsum() # 对Series对象进行累积求和
data.plot() # 绘制Series对象的折线图
plt.show()

In [None]:
data = pd.DataFrame(np.random.randn(1000, 4), index=np.arange(1000), columns=['A', 'B', 'C', 'D']) # 创建一个包含1000行4列随机数的DataFrame对象，索引为0到999，列标签为'A'、'B'、'C'、'D'
data = data.cumsum() # 对DataFrame对象进行累积求和
data.plot() # 绘制DataFrame对象的折线图
plt.show()

In [None]:
ax = data.plot.scatter(x='A', y='B', color='red', label='Scatter Plot') # 绘制DataFrame对象的散点图，指定x轴和y轴的列
data.plot.scatter(x='C', y='D', color='blue', label='Scatter Plot 2', ax=ax) # 在同一个图上绘制另一个散点图，指定x轴和y轴的列
plt.show()