In [None]:
import pandas as pd
import numpy as np
import os
os.chdir(r'D:\workspace\ai_23_work_bj\pandasProject')   # 修改相对路径的位置.
# os.getcwd()

# 解决中文显示问题，下面的代码只需运行一次即可
import matplotlib as plt
plt.rcParams['font.sans-serif'] = ['SimHei']    # 如果是Mac本, 不支持SimHei的时候, 可以修改为 'Microsoft YaHei' 或者 'Arial Unicode MS'
plt.rcParams['axes.unicode_minus'] = False

# 1. Pandas的增删改查操作 -> 增

In [None]:
# 1. 准备数据.
df = pd.read_csv('./data/1960-2019全球GDP数据.csv', encoding='gbk')
df

In [None]:
# 2. 从原始数据集中 拷贝一部分出来 做操作. 
df2 = df[:5].copy()
df2

In [None]:
# 3. 新增列. 
# 思路1: 通过直接 赋值 的方式 新增1列.    column, 列
df2['c1'] = 23              # 写法1: 固定值 
df2['c2'] = ['cxk', 'lyf', 'wyf', 'wyb', '水冷哥'] # 写法2: 传入列表
df2['c3'] = df2.year * 2    # 写法3: 通过已有的列(Series) 来计算新列的值.

def my_fun1():
    return 25000

df2['c4'] = my_fun1()       # 写法4: 通过函数来计算新列的值.

# 4. 打印结果
df2

In [None]:
# 思路2: 通过 assign() 的方式 新增1列.
df3 = df[:5].copy()
df3

In [None]:
# 写法1: 通过 assign()函数 -> 新增1列.
df3.assign(c1 = 23)

In [None]:
# 写法2: 通过 assign()函数 -> 新增n列.
df3.assign(
    c1 = 23,
    c2 = ['cxk', 'lyf', 'wyf', 'wyb', '水冷哥'],
    c3 = df3.year * 2,
    c4 = my_fun1()
)

# 2.Pandas的增删改查操作 -> 删和去重

In [None]:
# 1. 准备数据.
df4 = df[:10].copy()
df4

In [None]:
# 2. 删除行 -> drop()函数, 除非指定inplace=True, 否则不会修改原始数据.
# df4.drop(index=[0, 2, 4])         # 不会修改原始数据.
df4.drop(index=[0], inplace=True)   # 会修改原始数据.

In [None]:
# 3. 删除列 -> del关键字, 会直接修改元数据.
del df4['year']     # 删除year列.
df4

In [None]:
# 4. 删除列 -> drop()函数
# df4.drop(columns=['country'], inplace=True)
df4

In [None]:
# 5. 去重. 
# 场景1: DataFrame去重 -> 以 行 做单位比较.
df5 = df[:5].copy()

# 拼接df5 和 df5 -> 组合成 有重复数据的 DataFrame.
df6 = pd.concat([df5, df5])
df6

# DataFrame去重
df6.drop_duplicates()   # 如果设置inplace=True, 则会修改原始数据.

In [None]:
# 场景2: Series去重 -> 以 列 做单位比较.
df6.country.drop_duplicates()
df.country.drop_duplicates()

# 3. Pandas的增删改查操作 -> 改

In [None]:
# 1. 准备源数据.
df7 = df[:5].copy()
df7

In [None]:
# 2. 新增1列
df7['c1'] = 23
df7

In [None]:
# 3. 修改GDP列值.
df7['GDP'] = [1, 2, 1, 66666666, -123]  # 直接修改原数据了.
df7

In [None]:
# 4. 采用 replace()替换.
# 美国 -> usa
df7.country.replace('美国','usa', inplace=True)   # 会修改原

# 日本 -> 岛国
df7.country.replace('日本','岛国', inplace=True)
df7

# 4. Pandas的增删改查操作 -> 查 和 排序

In [None]:
# 1. 查看源数据
df

In [None]:
# 2. 获取前5条数据.
df.head(5)
df.head()   # 效果同上, 默认是5条

In [None]:
# 3. 获取后3条数据.
df.tail(3)

In [None]:
# 4. 根据列名获取数据.
df['year']          # 获取year列 -> Series对象
df.year             # 获取year列 -> Series对象, 效果同上.

df[['year']]        # 获取year列 -> DataFrame对象

df[['year', 'country']]     # 获取year和country列 -> DataFrame对象

In [None]:
# 5. 根据 行索引值来获取数据.
df[:5]      # 前5条
df[1:5:2]   # 1, 3, 包左不包右.
df[10::5]   # 从10开始, 到末尾结束, 步长为 5

In [None]:
# 6. 通过query()函数, 结合条件获取.
# 需求: 查询中美日三国 2015 ~ 2019年的数据.
df.query('country in ["中国", "美国", "日本"] and year in [2015, 2016, 2017, 2018, 2019]')
df.query('country in ["中国", "美国", "日本"] and (year >= 2015 and year <= 2019)')

In [None]:
# 7. 排序.
df.sort_index(ascending=False)      # 根据 行索引值排序, 降序.

In [None]:
# 根据内容, 例如: year 降序, 一致就根据 GDP降序.
df.sort_values(['year', 'GDP'], ascending=False)
df.sort_values(['year', 'GDP'], ascending=[False, True])    # year 降序, GDP升序.

In [None]:
# 8. rank()函数, 类似于SQL的窗口函数. 
df7 = pd.DataFrame({
    '姓名':['小明', '小美', '小强', '小兰'],
    '成绩':[100, 90, 90, 80]
})
df7

In [None]:
# 9. rank()直接排名
# df7.rank()      # 针对于每列都会排名

# 给df新增1列, 用于显示排名.
df7['成绩排名_min'] = df7.成绩.rank(method='min', ascending=False)
df7['成绩排名_max'] = df7.成绩.rank(method='max', ascending=False)
df7['成绩排名_dense'] = df7.成绩.rank(method='dense', ascending=False)
df7['成绩排名_avg'] = df7.成绩.rank(method='average', ascending=False)
df7['成绩排名_默认'] = df7.成绩.rank(ascending=False)

df7