In [None]:
import pandas as pd
import numpy as np
import os
os.chdir(r'D:\workspace\ai_23_work_bj\pandasProject')   # 修改相对路径的位置.
# os.getcwd()

# 解决中文显示问题，下面的代码只需运行一次即可
import matplotlib as plt
plt.rcParams['font.sans-serif'] = ['SimHei']    # 如果是Mac本, 不支持SimHei的时候, 可以修改为 'Microsoft YaHei' 或者 'Arial Unicode MS'
plt.rcParams['axes.unicode_minus'] = False

# 1. Pandas初体验

## 1.1 折线图绘制 中国GDP变化趋势

In [None]:
# 1. 读取数据.
# 绝对路径
# df = pd.read_csv(r'D:\workspace\ai_23_work_bj\pandasProject\data\1960-2019全球GDP数据.csv', encoding='gbk')

# 相对路径
df = pd.read_csv('./data/1960-2019全球GDP数据.csv', encoding='gbk')
df

In [None]:
# 2. 加载中国的数据.
china_df = df[df.country == '中国']
china_df

In [None]:
# 3. 设置 year字段为 索引列.
china_df.set_index('year', inplace=True)    # inplace=True, 表示修改原数据.
china_df

In [None]:
# 4. 绘制折线图 
# china_df.plot()
china_df.GDP.plot()

In [None]:
# 5. 参考上述思路, 绘制中美日 三国GDP折线图.
usa_df = df[df.country == '美国'].set_index('year')
jp_df = df[df.country == '日本'].set_index('year')
usa_df
jp_df

In [None]:
# 6. 绘制三国折线图
china_df.GDP.plot()
usa_df.GDP.plot()
jp_df.GDP.plot()

## 1.2 绘制中美日三国 GDP 折线图, 加入图例 -> 拼音

In [None]:
# 1. 获取中美日三国的数据.
china_df = df[df.country == '中国'].set_index('year')
usa_df = df[df.country == '美国'].set_index('year')
jp_df = df[df.country == '日本'].set_index('year')
china_df

In [None]:
# 2. 分别修改 中美日三国的 GDP字段名为: 'china', 'usa', 'jp'
china_df.rename(columns={'GDP': 'china'}, inplace=True)
usa_df.rename(columns={'GDP': 'usa'}, inplace=True)
jp_df.rename(columns={'GDP': 'jp'}, inplace=True)
# 3. 查看修改后的数据
china_df

In [None]:
# 4. 绘制折线图.
china_df.china.plot(legend=True)    # 设置图例
usa_df.usa.plot(legend=True)
jp_df.jp.plot(legend=True)

## 1.3 绘制中美日三国 GDP 折线图, 加入图例 -> 中文

In [None]:
# 1. 获取中美日三国的数据.
china_df = df[df.country == '中国'].set_index('year')
usa_df = df[df.country == '美国'].set_index('year')
jp_df = df[df.country == '日本'].set_index('year')
china_df

In [None]:
# 2. 分别修改 中美日三国的 GDP字段名为: '中国', '美国', '日本'
china_df.rename(columns={'GDP': '中国'}, inplace=True)
usa_df.rename(columns={'GDP': '美国'}, inplace=True)
jp_df.rename(columns={'GDP': '日本'}, inplace=True)
# 3. 查看修改后的数据
china_df

In [None]:
# 4. 绘制折线图.
china_df.中国.plot(legend=True)    # 设置图例
usa_df.美国.plot(legend=True)
jp_df.日本.plot(legend=True)

# 2. Series对象入门

In [None]:
# Pandas中有两大核心对象, 分别是: DataFrame和Series, 其中, Series -> 一列数据, DataFrame -> 多列数据

## 2.1 创建Series对象

In [None]:
# 1. 创建Series对象, 采用: 默认自增索引.
s1 = pd.Series([1,2,3,4,5])
print(s1)

In [None]:
# 2. 创建Series对象, 采用: 自定义索引.
s2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s2)

In [None]:
# 3. 使用字典, 元组创建Series对象. 
# 元组形式
s3 = pd.Series((11, 22, 33, 44, 55))
print(s3)

# 字典形式.
s4 = pd.Series({'a': 1, 'b': 3, 'c': 5})
print(s4)

In [None]:
# 4. 使用numpy -> 创建Series对象.
s5 = pd.Series(np.arange(5))
print(s5)

## 2.2 Series对象的属性

In [None]:
# 1. 构建Series对象, 索引为: A-F, 值为: 0-5
# s6 = pd.Series(data=[0, 1, 2, 3, 4, 5], index=['A', 'B', 'C', 'D', 'E', 'F'])

# 加入列表推导式 
s6 = pd.Series(data=[i for i in range(6)], index=[i for i in 'ABCDEF'])
print(s6)

In [None]:
# 2. 获取Series对象的 索引列(的值)
print(s6.index)     # Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

In [None]:
# 3. 获取Series对象的 值列(的值)
print(s6.values)

In [None]:
# 4. Series支持根据 索引 获取元素, 即: Series对象[索引值]
print(s6['D'])  # 3

# 5. 根据索引, 修改Series对象的 元素值
s6['D'] = 99
print(s6)

# 3. DataFrame对象入门

## 3.1 创建DataFrame对象

In [None]:
# 场景1: 通过 字典 + 列表的方式实现. 
# 1. 准备数据集, 每个键值对 = 1列数据
info = {
    'name': ['水冷哥', '深情哥', '紫琪', '德华'],
    'gender': ['女', '男', '保密', '保密'],
    'age': [81, 80, 66, 55]
}

# 2. 把上述的数据集, 封装成DataFrame对象.
df1 = pd.DataFrame(data=info)

# 3. 打印结果.
df1

In [None]:
# 场景2: 通过 列表 + 元组 的方式实现.
# 1. 准备数据集, 每个元组 = 1行数据
info = [
    ('刘亦菲', '女', 39),
    ('迪丽热巴', '女', 31),
    ('王志奇', '未知', 66),
]

# 2. 把上述的数据集, 封装成DataFrame对象.
df2 = pd.DataFrame(data=info, columns=['姓名', '性别', '年龄'])
df2

In [None]:
# 场景3: 通过 numpy的ndarray -> pandas DataFrame 的方式实现.
# 1. 创建numpy的 ndarray对象.
arr1 = np.arange(12).reshape(3, 4)
arr1

In [None]:
# 2. 把上述的ndarray对象, 封装成DataFrame对象.
df3 = pd.DataFrame(data=arr1, columns=['a', 'b', 'c', 'd'])
df3

## 3.2 学生信息处理 -> DataFrame简单案例

In [None]:
# 1. 生成10名同学, 5门功课的成绩, 成绩范围: 40 ~ 100
score_df = pd.DataFrame(np.random.randint(40, 101, (10, 5)))    # 10行, 5列   包左不包右
score_df

In [None]:
# 2. 修改DataFrame对象的 列名 和 索引列值.
column_names = ['语文', '数学', '英语', '政治', '体育']

# index_names = ['同学0', '同学1', '同学2', '同学3', '同学4', '同学5', '同学6', '同学7', '同学8', '同学9']
index_names = ['同学' + str(i) for i in range(score_df.shape[0])]

# 3. 具体的修改DataFrame对象 列名 和 索引值的动作.
# score_df.columns = column_names
# score_df.index = index_names

# rename函数也可以.
# score_df.rename(index={0:'同学0', 1:'同学1'}, columns={0: 'AI课程', 1: '大数据课程'}, inplace=True)

#                     i的值: 0 ~ 9                                                               i的值: 0 ~ 4 
score_df.rename(
    index={i:index_names[i] for i in range(score_df.shape[0])}, 
    columns={i: column_names[i] for i in range(score_df.shape[1])}, 
    inplace=True
)

# 4. 打印修改后的结果.
score_df

## 3.3 DataFrame的基本属性

In [None]:
# shape 维度, 即: 行列数
print(score_df.shape)   # (10, 5)

# index: 索引列
print(score_df.index)

# columns: 列名
print(score_df.columns)

# values: 数据(值)
print(score_df.values)

In [None]:
# 行列转置, T
score_df.T

## 3.4 DataFrame的基本函数

In [None]:
# 1. 查看df对象
score_df

In [None]:
# 1. head(n), 查看前n行数据
# score_df.head()     # 默认是 5 条
score_df.head(3)      # 指定数据条数

In [None]:
# 2. tail(n), 查看后n行数据
score_df.tail()     # 默认是 5 条
score_df.tail(2)    # 指定数据条数

In [None]:
# 3. info(), 查看df对象的详细信息
score_df.info()

In [None]:
# 4. describe(), 查看df对象的 描述性 统计信息
score_df.describe()

In [None]:
# 5. reset_index() 重置索引列.
# score_df.reset_index(drop=False)    # drop=False, 默认值, 不删除原索引列.

score_df.reset_index(drop=True)       # drop=True, 删除原索引列.

In [None]:
# 6. set_index(): 重新设置索引.
# score_df.set_index('语文')        # 语文成绩充当索引列.

# 语文, 英语充当索引列. 
score_df.set_index(['语文', '英语'])

## 3.5 Pandas的数据类型介绍

In [None]:
# Pandas中的数据类型几乎和Python中是一致的, 只不过有几个不太一样.
# 例如: Python: str -> Pandas: object,  Python: None -> Pandas: nan,NAN,NaN,    
# Pandas还支持category分类类型, 针对于分类数据操作更快, 更节省内存. 

In [None]:
# 1. 创建DataFrame对象.
df = pd.DataFrame({
    'name': [np.NaN, '深情哥', '紫琪', '德华'],
    'gender': ['女', '男', '保密', np.nan],
    'age': [81, 80, np.NAN, 55]
})

df

In [None]:
# 2. 查看df对象的 详细信息
df.info()

In [None]:
# 3. 演示 日期类型 datetime
df2 = pd.DataFrame(['2025-03-29', '2025-03-30', '2025-03-31'], dtype='datetime64[ns]')
print(df2)
print(df2.dtypes)

In [None]:
# 4. 演示 日期差类型 timedelta
start_date = pd.to_datetime('2004-08-21')
end_date = pd.to_datetime('2025-03-29')

# 打印结果
print(end_date - start_date)
print(type(end_date - start_date))

In [None]:
# 5. 演示下 category类型
s1 = pd.Series(['男', '女', '保密'], dtype='category')
print(s1)
print(type(s1))
print(s1.dtypes)    # category

# 4.Pandas的基本操作

## 4.1 加载数据

In [None]:
# 1. 加载数据
df = pd.read_csv('./data/stock_day.csv')
df

In [None]:
# 2. 移除不需要的字段. 
df.drop(columns=['ma5', 'ma10', 'ma20', 'v_ma5', 'v_ma10', 'v_ma20'], axis=0, inplace=True)   # 0: 列, 1: 行

In [None]:
# 3. 查看处理后的数据.
df              # 查看数据.
df.info()       # 查看详细信息
df.describe()   # 查看描述性统计信息

## 4.2 索引操作

In [None]:
# 场景1: 根据行列索引获取元素, 先列后行.
df['open']['2018-02-23']    # 22.88

# 尝试用: 先行后列
# df['2018-02-23']['open']    # 错误写法

In [None]:
# 场景2: 结合 loc 根据: 行索引 和 列名 来获取元素.
# 格式: df.loc[行索引, 列名]
# 格式: df.iloc[行号, 列索引]
df.loc['2018-02-27', 'high']        # 获取一条数据
df.loc['2018-02-27':'2018-02-14', ['open', 'high']]

In [None]:
# 场景3: 结合 iloc 根据: 行号 和 列索引 来获取元素.
df.iloc[0:5, 0:2]   # 获取多条数据

## 4.3 赋值操作

In [None]:
# 1. 查看源数据.
df

In [None]:
# 2. 赋值操作
df['open'] = 23
df.low = 1          # 效果同上, 更简单, 但是有弊端, 如果 字段有空格等, 该方式不行, 例如:  df.max value 必须写成 df['max value']

# 3. 查看结果
df

## 4.4 排序操作

In [None]:
# 1. 查看原数据
df

In [None]:
# 2. 基于开盘价格做 升序 排列.
# df.sort_values(by='open', ascending=True)   # 升序.
df.sort_values(by='open', ascending=False)    # 降序.

In [None]:
# 3. 基于开盘价格降序排列, 价格一样, 基于 当日最高价格(high) 降序排列.
df.sort_values(by=['open', 'high'], ascending=[False, False])

In [None]:
# 4. 按照索引排序.
df.sort_index(ascending=True)   # 默认升序.

In [None]:
# 5. 演示 Series对象也有 sort_index(), sort_values() 排序方法.
# df.open.sort_index(ascending=True)    # 索引升序
df.open.sort_values(ascending=False)    # 价格降序

# 5. DataFrame的运算

## 5.1 算术运算

In [None]:
# 1. 查看源数据.
df

In [None]:
# 2. 针对于 close列值 + 2 处理.
# df.close.add(2)       # 效果同下
df.close + 2        # Series对象 和 数值运算, 则 Series中的每个数值都会和该数字进行运算.

In [None]:
# 3. 针对于 low列的值 - 10 处理
# df.low.sub(10)
df.low - 10     # 效果同上

## 5.2 逻辑运算符 &, |

In [None]:
# 1. 查看源数据.
df

In [None]:
# 2. 完成需求.
# 需求1: 筛选出 open列值 > 23的数据. 
df[df.open > 23]

# 需求2: 筛选出 open列值 > 23, 且 < 24的数据.
df[(df.open > 23) & (df.open < 24)]           # 细节: 多组判断记得加 小括号.

df[(df['open'] > 23) & (df['open'] < 24)]     # 标准写法.

In [None]:
# 3. 可以通过 query()函数, 优化上述的代码.
df.query('open > 23 & open < 24')

In [None]:
# 4. 固定值的筛选, isin
# 需求: 查询 open价格为 23.53, 23.67价格数据.
df[(df.open == 23.53) | (df.open == 23.67)]
df[df.open.isin([23.53, 23.67])]


df.query('open == 23.53 | open == 23.67')
df.query('open in [23.67, 23.53]')


## 5.3 统计函数

In [None]:
# 1. 查看源数据
df

In [None]:
# 2. 演示常用的统计函数
df.describe()   # 查看各列的描述性的 统计信息, 例如: 个数, 最大值, 最小值, 平均值, 中位数, 25%分位数, 75%分位数.

In [None]:
# 统计函数 count(), mean(), median(), min(), max(), std(), var(), sum()
df.sum()        # 针对于 每列(DataFrame对象) 进行求和.
df.high.sum()   # 针对于 high列(Series对象) 进行求和.
df.mean()       # 针对于 每列(DataFrame对象) 进行求平均值.
df.median()     # 针对于 每列(DataFrame对象) 进行求中位数.

df.cumsum()     # 针对于 每列(DataFrame对象) 进行求累计求和.

- apply()函数 -> 它可以执行自定义函数

In [None]:
# 背景: 目前我们用的都是Pandas提供好的函数, 例如: count(), max(), min()...
# 如果要传入一些自定义的逻辑, 此时就需要用到 apply()函数了
# 格式: df.apply(自定义函数, axis=0)   # 0 -> 列, 1 -> 行

In [None]:
# 需求: 同时 获取到 多列的 最大值 和 最小值的差值.  例如: open列, close列
# df.open.max() - df.open.min()
# df.close.max() - df.close.min()
# 思路1: 分解版.
# 1. 自定义函数 my_func, 接收 某列的数据, 计算该列的最大值和最小值, 返回差值.
def my_func(col):
    return col.max() - col.min()

# 2. 获取到 open列和 close列.
df[['open', 'close']]
df.loc[:, ['open', 'close']]
df.iloc[:, [0, 2]]
df.iloc[:, 0:3:2]

# 3. 通过apply()函数, 调用上述的自定义函数, 作用到 指定的列.
df[['open', 'close']].apply(my_func, axis=1)  # axis=1, 表示对 行 进行操作.
df[['open', 'close']].apply(my_func, axis=0)  # axis=0, 表示对 列 进行操作.
df[['open', 'close']].apply(my_func)  # 效果同上, 默认是axis=0,  底层 -> 把df的各列分别传入函数, 计算结果.

In [110]:
# 思路2: 合并版, 通过 lambda函数实现.
df[['open', 'close']].apply(lambda col: col.max() - col.min())

open     22.74
close    22.85
dtype: float64