# 数据处理


## math 数学工具

$\text{\color{red}只适用于单个数值计算}$


### 特殊数值


In [1]:
import math

vals = {
    "pi": math.pi,  # 圆周率，3.141592653589793
    "e": math.e,  # 自然常数e，2.718281828459045
    "tau": math.tau,  # 圆周率的两倍（2π）
    "inf": math.inf,  # 无穷大
    "nan": math.nan,  # 非数字（Not a Number）
}
for key, value in vals.items():
    print(f"{key}: {value}")

pi: 3.141592653589793
e: 2.718281828459045
tau: 6.283185307179586
inf: inf
nan: nan


In [2]:
from math import (
    gcd,
    lcm,
    factorial,
    sqrt,
    isqrt,
    comb,
    ceil,
    floor,
    trunc,
    fabs,
    exp,
    log,
    log2,
    log10,
    pow,
)

### 数值操作


In [3]:
x = 12.23
y = 702

operations = {
    "ceil(x)": ceil(x),  # 向上取整
    "floor(x)": floor(x),  # 向下取整
    "trunc(x)": trunc(x),  # 截断为整数（向0取整，也是去掉小数）
    "fabs(y)": fabs(y),  # 绝对值（返回float）
}

for key, value in operations.items():
    print(f"{key}: {value}")

ceil(x): 13
floor(x): 12
trunc(x): 12
fabs(y): 702.0


### math.gcd() 最大公因数 math.lcm() 最小公倍数


In [4]:
operations = {
    "24, 18最大公约数": gcd(24, 18),  # 最大公约数（仅限整数）
    "24, 18最小公倍数": lcm(24, 18),  # 最小公倍数
}
for key, value in operations.items():
    print(f"{key}: {value}")

24, 18最大公约数: 6
24, 18最小公倍数: 72


### 数值计算


In [5]:
x = 10
y = 2
operations = {
    "factorial(x)：": factorial(x),  # 120
    "exp(x)": exp(x),  # e的x次幂
    "sqrt(x)": sqrt(x),  # 平方根
    "isqrt(x)": isqrt(x),  # 整数平方根（返回整数）
    "exp(x)": exp(x),  # e的x次幂
    "log(x)": log(x),  # 自然对数 ln(x)
    "log10(x)": log10(x),  # 以10为底的对数
    "log2(x)": log2(x),  # 以2为底的对数
    "pow(x, y)": pow(x, y),  # x的y次幂（返回float
}
for key, value in operations.items():
    print(f"{key}: {value}")

factorial(x)：: 3628800
exp(x): 22026.465794806718
sqrt(x): 3.1622776601683795
isqrt(x): 3
log(x): 2.302585092994046
log10(x): 1.0
log2(x): 3.321928094887362
pow(x, y): 100.0


### math.comb(m,n) 组合

实现$C^{n}_{m}$，功能类似于 iterools.combinations()，只不过这个只计算组合数量


In [6]:
print(comb(5, 2))  # 10  (5 选 2 组合)

10


## statistics 统计工具

$\text{\color{red}适用于list和tuple小规模计算}$


In [7]:
import statistics as stats  # 统计模块，这种方式导入模块可以给它起个别名

### 中心趋势


In [8]:
data = [1, 3, 3, 6, 7, 8, 9, 10]
results = {
    "mean(data)": stats.mean(data),  # 平均值
    "median(data)": stats.median(data),  # 中位数
    "mode(data)": stats.mode(data),  # 众数（最常见的值）
    "multimode(data)": stats.multimode(data),  # 返回所有众数列表（Python 3.8+）
    "median_low(data)": stats.median_low(data),  # 取中间偏小
    "median_high(data)": stats.median_high(data),  # 取中间偏大
}
for key, value in results.items():
    print(f"{key}: {value}")

mean(data): 5.875
median(data): 6.5
mode(data): 3
multimode(data): [3]
median_low(data): 6
median_high(data): 7


### 离散程度


In [9]:
results = {
    "样本方差 variance": stats.variance(data),  # 样本方差（除以n-1）
    "总体方差 pvariance": stats.pvariance(data),  # 总体方差（除以n）
    "样本标准差 standard deviation": stats.stdev(data),  # 样本标准差 = sqrt(variance)
    "总体标准差 population standard deviation": stats.pstdev(
        data
    ),  # 总体标准差 = sqrt(pvariance)
}
for key, value in results.items():
    print(f"{key}: {value}")

样本方差 variance: 10.410714285714286
总体方差 pvariance: 9.109375
样本标准差 standard deviation: 3.2265638511757806
总体标准差 population standard deviation: 3.018174116912409


## numpy 大规模计算工具

$\text{\color{red}支持大规模数据，数组和矩阵的计算}$


In [10]:
import numpy as np

data = [1, 2, 3, 4]

results = {
    "numpy.mean(data)": np.mean(data),  # 平均值
    "numpy.median(data)": np.median(data),  # 中位数
    "numpy.std(data)": np.std(data),  # 标准差
    "numpy.var(data)": np.var(data),  # 方差
    "numpy.sqrt(data)": np.sqrt(data),  # 平方根
    "numpy.log(data)": np.log(data),  # 自然对数
    "numpy.log10(data)": np.log10(data),  # 以10为底的对数
    "numpy.log2(data)": np.log2(data),  # 以2为底的对数
    "numpy.exp(data)": np.exp(data),  # e的x次幂
    "numpy.power(data, 2)": np.power(data, 2),  # x的y次幂
    "numpy.ceil(data)": np.ceil(data),  # 向上取整
    "numpy.floor(data)": np.floor(data),  # 向下取整
    "numpy.trunc(data)": np.trunc(data),  # 截断为整数（向0取整）
    "numpy.abs(data)": np.abs(data),  # 绝对值
    "numpy.sum(data)": np.sum(data),  # 求和
    "numpy.prod(data)": np.prod(data),  # 乘积
    "numpy.min(data)": np.min(data),  # 最小值
    "numpy.max(data)": np.max(data),  # 最大值
}
for key, value in results.items():
    print(f"{key}: {value}")
import pandas as pd

numpy.mean(data): 2.5
numpy.median(data): 2.5
numpy.std(data): 1.118033988749895
numpy.var(data): 1.25
numpy.sqrt(data): [1.         1.41421356 1.73205081 2.        ]
numpy.log(data): [0.         0.69314718 1.09861229 1.38629436]
numpy.log10(data): [0.         0.30103    0.47712125 0.60205999]
numpy.log2(data): [0.        1.        1.5849625 2.       ]
numpy.exp(data): [ 2.71828183  7.3890561  20.08553692 54.59815003]
numpy.power(data, 2): [ 1  4  9 16]
numpy.ceil(data): [1 2 3 4]
numpy.floor(data): [1 2 3 4]
numpy.trunc(data): [1 2 3 4]
numpy.abs(data): [1 2 3 4]
numpy.sum(data): 10
numpy.prod(data): 24
numpy.min(data): 1
numpy.max(data): 4


## pandas 数据处理库


### Series 一维带标签的数组（类似于 Excel 的一列）


In [11]:
import pandas as pd

a = pd.Series([1, 2, 3])  # 创建一个Series对象
print(a)  # 打印Series对象
print(a[0])  # 访问第一个元素

0    1
1    2
2    3
dtype: int64
1


In [12]:
# 创建一个带有索引的Series对象
s = pd.Series([10, 20, 30], index=["a", "b", "c"])
print(s)

a    10
b    20
c    30
dtype: int64


In [13]:
print(s.index)  # 输出索引

Index(['a', 'b', 'c'], dtype='object')


In [14]:
print(s.values)  # 输出值

[10 20 30]


In [15]:
print(s["a"])  # 访问索引为"a"的值

10


In [16]:
print(s[1])  # 访问第二个值

20


  print(s[1])  # 访问第二个值


In [17]:
print(s[1:])  # 切片访问

b    20
c    30
dtype: int64


In [18]:
print(s[["a", "b"]])  # 访问多个索引

a    10
b    20
dtype: int64


### DataFrame 二维表格数据结构


#### DataFrame 创建


In [19]:
# 方式一
data = {"Name": ["Alice", "Bob"], "Age": [25, 30]}
df = pd.DataFrame(data)
print(df)

    Name  Age
0  Alice   25
1    Bob   30


In [20]:
# 方式二
data = [
    {"Name": "Alice", "Age": 25},
    {"Name": "Bob", "Age": 30},
]
df = pd.DataFrame(data)
print(df)

    Name  Age
0  Alice   25
1    Bob   30


In [21]:
# 方式三
data = [
    ["Alice", 25],
    ["Bob", 30],
]
columns = ["Name", "Age"]
df = pd.DataFrame(data, columns=columns)
print(df)

    Name  Age
0  Alice   25
1    Bob   30


#### DataFrame 查看数据


##### 数据整体描述


In [22]:
df = pd.DataFrame(
    {
        "Name": ["Alice", "Bob", "Charlie", "Marone", "Jack", "Tom"],
        "Age": [25, 30, 35, 25, 45, 50],
        "Salary": [50000, 60000, 70000, 80000, 90000, 100000],
        "City": [
            "New York",
            "Los Angeles",
            "Chicago",
            "Houston",
            "Phoenix",
            "Philadelphia",
        ],
    }
)
df.head()  # 查看前5行

Unnamed: 0,Name,Age,Salary,City
0,Alice,25,50000,New York
1,Bob,30,60000,Los Angeles
2,Charlie,35,70000,Chicago
3,Marone,25,80000,Houston
4,Jack,45,90000,Phoenix


In [23]:
df.tail(3)  # 查看后3行

Unnamed: 0,Name,Age,Salary,City
3,Marone,25,80000,Houston
4,Jack,45,90000,Phoenix
5,Tom,50,100000,Philadelphia


In [24]:
df.shape  # 查看维度

(6, 4)

In [25]:
df.info()  # 数据结构概览

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    6 non-null      object
 1   Age     6 non-null      int64 
 2   Salary  6 non-null      int64 
 3   City    6 non-null      object
dtypes: int64(2), object(2)
memory usage: 324.0+ bytes


In [26]:
df.describe()  # 数值列的统计描述

Unnamed: 0,Age,Salary
count,6.0,6.0
mean,35.0,75000.0
std,10.488088,18708.286934
min,25.0,50000.0
25%,26.25,62500.0
50%,32.5,75000.0
75%,42.5,87500.0
max,50.0,100000.0


##### 查看列数据


In [27]:
# 查看某一列数据
print(df["Name"])  # 打印姓名列
print(df.Age)  # 打印年龄列

0      Alice
1        Bob
2    Charlie
3     Marone
4       Jack
5        Tom
Name: Name, dtype: object
0    25
1    30
2    35
3    25
4    45
5    50
Name: Age, dtype: int64


In [28]:
# 查看多列数据
print(df[["Name", "Age"]])  # 打印姓名和年龄列

      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3   Marone   25
4     Jack   45
5      Tom   50


In [29]:
# 查看特定列的统计描述
df["Age"].describe()  # 年龄列的统计描述

count     6.000000
mean     35.000000
std      10.488088
min      25.000000
25%      26.250000
50%      32.500000
75%      42.500000
max      50.000000
Name: Age, dtype: float64

##### 查看行数据


**.iloc[]**

是基于位置索引查找，不包含结束位置


In [30]:
# 查看行数据
print(df.iloc[0])  # 打印第一行数据

Name         Alice
Age             25
Salary       50000
City      New York
Name: 0, dtype: object


In [31]:
print(df.iloc[1:3])  # 打印第二到第三行数据

      Name  Age  Salary         City
1      Bob   30   60000  Los Angeles
2  Charlie   35   70000      Chicago


In [32]:
print(df.iloc[[0, 2, 4]])  # 打印第一、第三和第五行数据

      Name  Age  Salary      City
0    Alice   25   50000  New York
2  Charlie   35   70000   Chicago
4     Jack   45   90000   Phoenix


In [33]:
print(df.iloc[:, 0])  # 打印第一列数据

0      Alice
1        Bob
2    Charlie
3     Marone
4       Jack
5        Tom
Name: Name, dtype: object


In [34]:
print(df.iloc[:, 1:3])  # 打印第二到第三列数据

   Age  Salary
0   25   50000
1   30   60000
2   35   70000
3   25   80000
4   45   90000
5   50  100000


In [35]:
print(df.iloc[:, [0, 2]])  # 打印第一和第三列数据

      Name  Salary
0    Alice   50000
1      Bob   60000
2  Charlie   70000
3   Marone   80000
4     Jack   90000
5      Tom  100000


In [36]:
print(df.iloc[0:3, 1:3])  # 打印第一到第三行和第二到第三列的数据

   Age  Salary
0   25   50000
1   30   60000
2   35   70000


In [37]:
print(df.iloc[[0, 2], [1, 3]])  # 打印第一和第三行的第二和第四列数据

   Age      City
0   25  New York
2   35   Chicago


In [38]:
print(df.iloc[0:3, [1, 3]])  # 打印第一到第三行的第二和第四列数据

   Age         City
0   25     New York
1   30  Los Angeles
2   35      Chicago


**.loc[]**

是基于标签查找，包含结束位置，使用行列名


In [39]:
print(df.index.values)  # 查看索引值： [0 1 2 3 4 5]
df = df.rename(index={3: "我"})  # 修改索引
print(df)
df

[0 1 2 3 4 5]
      Name  Age  Salary          City
0    Alice   25   50000      New York
1      Bob   30   60000   Los Angeles
2  Charlie   35   70000       Chicago
我   Marone   25   80000       Houston
4     Jack   45   90000       Phoenix
5      Tom   50  100000  Philadelphia


Unnamed: 0,Name,Age,Salary,City
0,Alice,25,50000,New York
1,Bob,30,60000,Los Angeles
2,Charlie,35,70000,Chicago
我,Marone,25,80000,Houston
4,Jack,45,90000,Phoenix
5,Tom,50,100000,Philadelphia


In [40]:
df.loc["我"]  # 查看索引为"我"的行数据

Name       Marone
Age            25
Salary      80000
City      Houston
Name: 我, dtype: object

In [41]:
df.loc["我", "Name"]  # 查看索引为"我"的行数据的姓名列数据

'Marone'

In [42]:
df.loc["我", "Name":"Salary"]  # 查看索引为"我"的行数据的姓名到薪水列数据

Name      Marone
Age           25
Salary     80000
Name: 我, dtype: object

#### DataFrame 编辑


In [43]:
print(df)  # 查看所有数据

      Name  Age  Salary          City
0    Alice   25   50000      New York
1      Bob   30   60000   Los Angeles
2  Charlie   35   70000       Chicago
我   Marone   25   80000       Houston
4     Jack   45   90000       Phoenix
5      Tom   50  100000  Philadelphia


##### 索引编辑


替换某一列为索引


In [44]:
df.set_index("Name", inplace=True)  # 将姓名列设置为索引
print(df)  # 查看数据
print(df.index)  # 查看索引

         Age  Salary          City
Name                              
Alice     25   50000      New York
Bob       30   60000   Los Angeles
Charlie   35   70000       Chicago
Marone    25   80000       Houston
Jack      45   90000       Phoenix
Tom       50  100000  Philadelphia
Index(['Alice', 'Bob', 'Charlie', 'Marone', 'Jack', 'Tom'], dtype='object', name='Name')


还原索引


In [45]:
df_reset = df.reset_index()  # 重置索引
print("旧数据:")
print(df)  # 查看旧数据
print("\n")
print("新数据:")
print(df_reset)  # 查看新数据

旧数据:
         Age  Salary          City
Name                              
Alice     25   50000      New York
Bob       30   60000   Los Angeles
Charlie   35   70000       Chicago
Marone    25   80000       Houston
Jack      45   90000       Phoenix
Tom       50  100000  Philadelphia


新数据:
      Name  Age  Salary          City
0    Alice   25   50000      New York
1      Bob   30   60000   Los Angeles
2  Charlie   35   70000       Chicago
3   Marone   25   80000       Houston
4     Jack   45   90000       Phoenix
5      Tom   50  100000  Philadelphia


##### 内容编辑


编辑内容


In [46]:
# 修改某个值
# 方式一
df = df_reset
df.loc[3, "City"] = "Guangzhou"
print(df)  # 查看数据

print("\n")

# 方式二（不推荐）
df["City"][4] = "Shenzhen"
print(df)  # 查看数据

      Name  Age  Salary          City
0    Alice   25   50000      New York
1      Bob   30   60000   Los Angeles
2  Charlie   35   70000       Chicago
3   Marone   25   80000     Guangzhou
4     Jack   45   90000       Phoenix
5      Tom   50  100000  Philadelphia


      Name  Age  Salary          City
0    Alice   25   50000      New York
1      Bob   30   60000   Los Angeles
2  Charlie   35   70000       Chicago
3   Marone   25   80000     Guangzhou
4     Jack   45   90000      Shenzhen
5      Tom   50  100000  Philadelphia


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df["City"][4] = "Shenzhen"
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["City"][4] = "Shenzhen"


In [47]:
# 修改一行
df.loc[2] = ["YiYi", 21, 80000, "Hangzhou"]
print(df)  # 查看数据

     Name  Age  Salary          City
0   Alice   25   50000      New York
1     Bob   30   60000   Los Angeles
2    YiYi   21   80000      Hangzhou
3  Marone   25   80000     Guangzhou
4    Jack   45   90000      Shenzhen
5     Tom   50  100000  Philadelphia


In [48]:
# 增加一行
df.loc[6] = ["Tony", 28, 90000, "Beijing"]
print(df)  # 查看数据

     Name  Age  Salary          City
0   Alice   25   50000      New York
1     Bob   30   60000   Los Angeles
2    YiYi   21   80000      Hangzhou
3  Marone   25   80000     Guangzhou
4    Jack   45   90000      Shenzhen
5     Tom   50  100000  Philadelphia
6    Tony   28   90000       Beijing


In [49]:
# 删除一行
df.drop(index=1, inplace=True)  # 删除索引为1的行，用index参数表示删除行
df.drop(
    [0, 5], axis=0, inplace=True
)  # 删除索引为0和5的行，inplace=True表示在原数据上修改，否则会返回一个新的数据
print(df)  # 查看数据

     Name  Age  Salary       City
2    YiYi   21   80000   Hangzhou
3  Marone   25   80000  Guangzhou
4    Jack   45   90000   Shenzhen
6    Tony   28   90000    Beijing


In [50]:
# 此时索引不连续了，可以重置索引
df = df.reset_index(drop=True)  # 重置索引，drop=True表示不保留旧索引
print(df)  # 查看数据

     Name  Age  Salary       City
0    YiYi   21   80000   Hangzhou
1  Marone   25   80000  Guangzhou
2    Jack   45   90000   Shenzhen
3    Tony   28   90000    Beijing


In [51]:
# 修改一列
df["Age"] = df["Age"] + 1  # 年龄加1
print(df)  # 查看数据

     Name  Age  Salary       City
0    YiYi   22   80000   Hangzhou
1  Marone   26   80000  Guangzhou
2    Jack   46   90000   Shenzhen
3    Tony   29   90000    Beijing


In [52]:
# 增加一列
df["test"] = 1223
df["年龄段"] = df["Age"].apply(
    lambda x: "青年" if x < 30 else ("中年" if x < 50 else "老年")
)
print(df)  # 查看数据

     Name  Age  Salary       City  test 年龄段
0    YiYi   22   80000   Hangzhou  1223  青年
1  Marone   26   80000  Guangzhou  1223  青年
2    Jack   46   90000   Shenzhen  1223  中年
3    Tony   29   90000    Beijing  1223  青年


In [53]:
# 删除一列
df.drop(columns="Salary", inplace=True)  # 删除薪水列
df.drop("test", axis=1, inplace=True)  # 当axis = 1时删除列，删除test列
print(df)  # 查看数据

     Name  Age       City 年龄段
0    YiYi   22   Hangzhou  青年
1  Marone   26  Guangzhou  青年
2    Jack   46   Shenzhen  中年
3    Tony   29    Beijing  青年


##### 缺失值编辑 (缺失值：Null, NaN)


缺失值处理


In [54]:
df.loc[2, "Age"] = np.nan  # 将第三行的年龄设置为缺失值
df.loc[3, "年龄段"] = np.nan  # 将第四行的年龄段设置为缺失值
print(df)  # 查看数据

     Name   Age       City  年龄段
0    YiYi  22.0   Hangzhou   青年
1  Marone  26.0  Guangzhou   青年
2    Jack   NaN   Shenzhen   中年
3    Tony  29.0    Beijing  NaN


In [55]:
# 查找缺失值
print(df.isna())  # 查看缺失值

    Name    Age   City    年龄段
0  False  False  False  False
1  False  False  False  False
2  False   True  False  False
3  False  False  False   True


In [56]:
# 逐列查找
print(df.isna().any())  # 查看每列是否有缺失值，.any()表示一列中有一个True就返回True

Name    False
Age      True
City    False
年龄段      True
dtype: bool


In [57]:
# 逐行查找
print(
    df.isna().any(axis=1)
)  # 查看每行是否有缺失值，.any(axis=1)表示一行中有一个True就返回True

0    False
1    False
2     True
3     True
dtype: bool


In [58]:
# 替换缺失值
df["Age"].fillna(0, inplace=True)  # 将缺失值替换为0
print(df)  # 查看数据

     Name   Age       City  年龄段
0    YiYi  22.0   Hangzhou   青年
1  Marone  26.0  Guangzhou   青年
2    Jack   0.0   Shenzhen   中年
3    Tony  29.0    Beijing  NaN


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Age"].fillna(0, inplace=True)  # 将缺失值替换为0


In [59]:
# 替换缺失值
df["年龄段"].fillna(
    df["年龄段"].mode()[0], inplace=True
)  # 将缺失值替换为众数 **.mode()返回一个Series对象，里面是不同元素出现次数的排名，最多的在第一个，所以用[0]取第一个元素
print(df)  # 查看数据

     Name   Age       City 年龄段
0    YiYi  22.0   Hangzhou  青年
1  Marone  26.0  Guangzhou  青年
2    Jack   0.0   Shenzhen  中年
3    Tony  29.0    Beijing  青年


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["年龄段"].fillna(


In [60]:
df["Nationality"] = df["City"].apply(
    lambda x: "中国" if x in ["Guangzhou", "Hangzhou"] else np.nan
)  # 根据城市列添加国籍列
print(df)  # 查看数据

     Name   Age       City 年龄段 Nationality
0    YiYi  22.0   Hangzhou  青年          中国
1  Marone  26.0  Guangzhou  青年          中国
2    Jack   0.0   Shenzhen  中年         NaN
3    Tony  29.0    Beijing  青年         NaN


In [61]:
# 删除缺失值
df = df.dropna()  # 删除所有缺失值
print(df)  # 查看数据

     Name   Age       City 年龄段 Nationality
0    YiYi  22.0   Hangzhou  青年          中国
1  Marone  26.0  Guangzhou  青年          中国


#### DataFrame 读写文件


可以读 csv，xlsx 文件

read_csv()和 read_excel()，操作一样，以 csv 为例


In [62]:
# 读取csv文件
df_csv = pd.read_csv("template.csv")  # 读取csv文件，括号里是文件路径
print(df_csv)  # 查看数据

    ID    Name  Age       Hobby       City
0  524  Marone   25        YiYi  Guangzhou
1  702    YiYi   21      Marone   Hangzhou
2  987    Jack   22  Basketball   Shenzhen
3  434    Tony   28    Football   Shanghai


In [63]:
df_csv = pd.read_csv("template.csv", header=None)  # 不要表头，把表头当成数据
print(df_csv)  # 查看数据

     0       1    2           3          4
0   ID    Name  Age       Hobby       City
1  524  Marone   25        YiYi  Guangzhou
2  702    YiYi   21      Marone   Hangzhou
3  987    Jack   22  Basketball   Shenzhen
4  434    Tony   28    Football   Shanghai


In [64]:
df_csv = pd.read_csv("template.csv", index_col="ID")  # 将ID列设置为索引
print(df_csv)  # 查看数据

       Name  Age       Hobby       City
ID                                     
524  Marone   25        YiYi  Guangzhou
702    YiYi   21      Marone   Hangzhou
987    Jack   22  Basketball   Shenzhen
434    Tony   28    Football   Shanghai


In [65]:
headers = ["Student ID", "Name", "Age", "Hobby", "City"]  # 自定义表头,修改了第一项
df_csv = pd.read_csv(
    "template.csv", names=headers
)  # 自定义表头，但会保留原表头作为数据
print(df_csv)  # 查看数据

# 修改表头（推荐）
df_csv = pd.read_csv("template.csv")
df_csv.columns = headers  # 修改表头
print(df_csv)  # 查看数据

df_csv = pd.read_csv(
    "template.csv", names=headers, skiprows=1
)  # 跳过第一行，即跳过原表头
print(df_csv)  # 查看数据

  Student ID    Name  Age       Hobby       City
0         ID    Name  Age       Hobby       City
1        524  Marone   25        YiYi  Guangzhou
2        702    YiYi   21      Marone   Hangzhou
3        987    Jack   22  Basketball   Shenzhen
4        434    Tony   28    Football   Shanghai
   Student ID    Name  Age       Hobby       City
0         524  Marone   25        YiYi  Guangzhou
1         702    YiYi   21      Marone   Hangzhou
2         987    Jack   22  Basketball   Shenzhen
3         434    Tony   28    Football   Shanghai
   Student ID    Name  Age       Hobby       City
0         524  Marone   25        YiYi  Guangzhou
1         702    YiYi   21      Marone   Hangzhou
2         987    Jack   22  Basketball   Shenzhen
3         434    Tony   28    Football   Shanghai


写 csv 文件


文件位置：

1. [Class_5_example_results/student.csv](Class_5_example_results/student.csv)
2. [Class_5_example_results/student2.csv](Class_5_example_results/student2.csv)


In [66]:
df_csv.to_csv(
    "Class_5_example_results/student.csv", index=False
)  # 保存为csv文件，index=False表示不保存索引
df_csv.to_csv(
    "Class_5_example_results/student2.csv", index=True, header=False
)  # 保存为csv文件，保存索引，不保存表头

### DataFrame 高阶处理


In [67]:
df = pd.DataFrame(
    {
        "Name": ["Alice", "Bob", "Charlie", "Marone", "Jack", "Tom", "Bob", "Lily"],
        "Age": [25, 30, 35, 25, 45, 50, 30, 34],
        "Salary": [50000, 60000, 70000, 80000, 90000, 100000, 60000, 80000],
        "City": [
            "New York",
            "Los Angeles",
            "Chicago",
            "Houston",
            "Phoenix",
            "Philadelphia",
            "Los Angeles",
            "Rhode Island",
        ],
        "Gender": ["F", "M", "M", "M", "M", "M", "M", "F"],
    }
)

df

Unnamed: 0,Name,Age,Salary,City,Gender
0,Alice,25,50000,New York,F
1,Bob,30,60000,Los Angeles,M
2,Charlie,35,70000,Chicago,M
3,Marone,25,80000,Houston,M
4,Jack,45,90000,Phoenix,M
5,Tom,50,100000,Philadelphia,M
6,Bob,30,60000,Los Angeles,M
7,Lily,34,80000,Rhode Island,F


#### 排序


In [68]:
print("按照年龄升序排序:")
df_sorted = df.sort_values(by="Age")  # 按照年龄升序排序，默认是升序
print(df_sorted)  # 查看数据
print("\n")

print("按照薪水降序排序:")
df_sorted = df.sort_values(by="Salary", ascending=False)  # 按照薪水降序排序
print(df_sorted)  # 查看数据
print("\n")

print("按照年龄升序，薪水降序排序:")
df_sorted = df.sort_values(
    by=["Age", "Salary"], ascending=[True, False]
)  # 按照年龄升序，薪水降序排序，返回一个新的数据
print(df_sorted)  # 查看数据
print("\n")

print("按照索引升序排序:")
df_sorted_index = df_sorted.sort_index()  # 按照索引升序排序，默认是升序
print(df_sorted_index)  # 查看数据
print("\n")

print("按照年龄升序，薪水降序排序，更改原数据:")
df.sort_values(
    by=["Age", "Salary"], ascending=[True, False], inplace=True
)  # 按照年龄升序，薪水降序排序，保留原数据
print(df)
print("\n")

print("按照年龄升序，薪水降序排序，更改原数据，保留索引:")
df.sort_values(
    by=["Age", "Salary"], ascending=[True, False], inplace=True, ignore_index=True
)  # 按照年龄升序，薪水降序排序，保留原数据，重置索引
print(df)

按照年龄升序排序:
      Name  Age  Salary          City Gender
0    Alice   25   50000      New York      F
3   Marone   25   80000       Houston      M
1      Bob   30   60000   Los Angeles      M
6      Bob   30   60000   Los Angeles      M
7     Lily   34   80000  Rhode Island      F
2  Charlie   35   70000       Chicago      M
4     Jack   45   90000       Phoenix      M
5      Tom   50  100000  Philadelphia      M


按照薪水降序排序:
      Name  Age  Salary          City Gender
5      Tom   50  100000  Philadelphia      M
4     Jack   45   90000       Phoenix      M
3   Marone   25   80000       Houston      M
7     Lily   34   80000  Rhode Island      F
2  Charlie   35   70000       Chicago      M
1      Bob   30   60000   Los Angeles      M
6      Bob   30   60000   Los Angeles      M
0    Alice   25   50000      New York      F


按照年龄升序，薪水降序排序:
      Name  Age  Salary          City Gender
3   Marone   25   80000       Houston      M
0    Alice   25   50000      New York      F
1      Bob   30 

#### 重复值


In [69]:
df.duplicated()  # 查看重复值，返回布尔值
print("查看重复值:")
print(df.duplicated())  # 查看重复值
print("\n")

# 去掉重复值，返回新的数据 * 原本的df不变
df1 = df.drop_duplicates()

# 查看原本数据
print("原本数据:")
print(df)
print("\n")

# 查看去掉重复值后的数据
print("去重后数据:")
print(df1)
print("\n")

# 查看唯一值
print("查看唯一值:")
print(df["Gender"].unique())  # 查看性别列的唯一值

查看重复值:
0    False
1    False
2    False
3     True
4    False
5    False
6    False
7    False
dtype: bool


原本数据:
      Name  Age  Salary          City Gender
0   Marone   25   80000       Houston      M
1    Alice   25   50000      New York      F
2      Bob   30   60000   Los Angeles      M
3      Bob   30   60000   Los Angeles      M
4     Lily   34   80000  Rhode Island      F
5  Charlie   35   70000       Chicago      M
6     Jack   45   90000       Phoenix      M
7      Tom   50  100000  Philadelphia      M


去重后数据:
      Name  Age  Salary          City Gender
0   Marone   25   80000       Houston      M
1    Alice   25   50000      New York      F
2      Bob   30   60000   Los Angeles      M
4     Lily   34   80000  Rhode Island      F
5  Charlie   35   70000       Chicago      M
6     Jack   45   90000       Phoenix      M
7      Tom   50  100000  Philadelphia      M


查看唯一值:
['M' 'F']


#### 筛选


In [70]:
# 筛选年龄小于40岁的人
print("筛选年龄小于40岁的:")
print(df[df["Age"] < 40])
print("\n")

# 筛选薪水高于70000的人
print("筛选薪水高于70000的人:")
print(df[df["Salary"] > 70000])
print("\n")

# 筛选年龄小于40且薪水高于70000的人
print("年龄小于40且薪水高于70000的人:")
print(df[(df["Age"] < 40) & (df["Salary"] > 70000)])  # 注意&的两边要加括号

筛选年龄小于40岁的:
      Name  Age  Salary          City Gender
0   Marone   25   80000       Houston      M
1    Alice   25   50000      New York      F
2      Bob   30   60000   Los Angeles      M
3      Bob   30   60000   Los Angeles      M
4     Lily   34   80000  Rhode Island      F
5  Charlie   35   70000       Chicago      M


筛选薪水高于70000的人:
     Name  Age  Salary          City Gender
0  Marone   25   80000       Houston      M
4    Lily   34   80000  Rhode Island      F
6    Jack   45   90000       Phoenix      M
7     Tom   50  100000  Philadelphia      M


年龄小于40且薪水高于70000的人:
     Name  Age  Salary          City Gender
0  Marone   25   80000       Houston      M
4    Lily   34   80000  Rhode Island      F


#### 分组


In [71]:
df_grouped = df.groupby("Gender")  # 按照年龄分组
print(df_grouped)  # 得到一个DataFrameGroupBy对象，不可以直接查看

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x105890230>


In [72]:
for group_name, group_data in df_grouped:  # 遍历分组来查看
    print(f"Group: {group_name}")
    print(group_data)
    print("\n")

Group: F
    Name  Age  Salary          City Gender
1  Alice   25   50000      New York      F
4   Lily   34   80000  Rhode Island      F


Group: M
      Name  Age  Salary          City Gender
0   Marone   25   80000       Houston      M
2      Bob   30   60000   Los Angeles      M
3      Bob   30   60000   Los Angeles      M
5  Charlie   35   70000       Chicago      M
6     Jack   45   90000       Phoenix      M
7      Tom   50  100000  Philadelphia      M




In [73]:
# 分组后的数据
print("分组后的数据:")
print(df_grouped.size())  # 查看每组的大小
print("\n")

print("每组年龄的平均值:")
print(df_grouped["Age"].mean())  # 查看每组年龄的平均值
print("\n")

print("每组年龄的总和:")
print(df_grouped["Age"].sum())  # 查看每组年龄的总和
print("\n")

print("每组年龄的最大值:")
print(df_grouped["Age"].max())  # 查看每组年龄的最大值
print("\n")

print("每组薪水的最小值:")
print(df_grouped["Salary"].min())  # 查看每组薪水的最小值
print("\n")

分组后的数据:
Gender
F    2
M    6
dtype: int64


每组年龄的平均值:
Gender
F    29.500000
M    35.833333
Name: Age, dtype: float64


每组年龄的总和:
Gender
F     59
M    215
Name: Age, dtype: int64


每组年龄的最大值:
Gender
F    34
M    50
Name: Age, dtype: int64


每组薪水的最小值:
Gender
F    50000
M    60000
Name: Salary, dtype: int64




#### 聚合 .agg()

**单列数据聚合一个函数**

In [74]:
print("薪水的平均值:")
print(df["Salary"].agg("mean"))  # 对薪水列进行聚合操作，跟直接使用.mean()一样
print("\n")

print("薪水的总和:")
print(df["Salary"].agg("sum"))  # 查看薪水列的总和，跟直接使用.sum()一样
print("\n")

print("查看最大的年龄:")
print(df["Age"].agg("max"))  # 查看年龄列的最大值，跟直接使用.max()一样

薪水的平均值:
73750.0


薪水的总和:
590000


查看最大的年龄:
50


**单列数据聚合多个函数**

In [75]:
print("查看最多和最少的薪水:")
print(df["Salary"].agg(["max", "min"]))  # 查看薪水列的最大值和最小值

查看最多和最少的薪水:
max    100000
min     50000
Name: Salary, dtype: int64


**多列数据聚合多个函数**

In [76]:
print("查看最大年龄和最少薪水:")
print(df.agg({"Age": "max", "Salary": "min"}))  # 查看最大年龄和最少薪水

查看最大年龄和最少薪水:
Age          50
Salary    50000
dtype: int64


**数据聚合自定义函数**


In [77]:
def range(x):  # 定义一个函数，计算最大值和最小值的差
    return x.max() - x.min()

def most_common(x):  # 定义一个函数，计算众数
    return x.mode()[0] if not x.empty else None


print("查看年龄的范围:")
print(df["Age"].agg(range))  # 查看年龄列的范围
print("\n")

print("查看年龄和薪水的范围:")
print(df.agg({"Age": range, "Salary": range}))  # 查看年龄和薪水的范围
print("\n")

print("查看年龄和城市的众数:")
print(df.agg({"Age": most_common, "City": most_common}))  # 查看年龄和城市的众数


查看年龄的范围:
25


查看年龄和薪水的范围:
Age          25
Salary    50000
dtype: int64


查看年龄和城市的众数:
Age              25
City    Los Angeles
dtype: object


**分组聚合（常用）**


In [78]:
print("不同性别平均工资:")
print(df.groupby("Gender").agg({"Salary": "mean"}))  # 查看不同性别的平均工资
print("\n")

print("不同性别的人数:")
print(df.groupby("Gender").agg({"Gender": "count"}))  # 查看不同性别的人数
print("\n")

print("不同性别的平均年龄和薪水:")
print(
    df.groupby("Gender").agg({"Age": "mean", "Salary": "mean"})
)  # 查看不同性别的平均年龄和薪水
print("\n")

print("不同性别的薪水的方差:")
print(df.groupby("Gender").agg({"Salary": "var"}))  # 查看不同性别的薪水的方差
print("\n")

print("不同年龄的平均薪水和标准差:")
print(
    df.groupby("Age").agg({"Salary": ["mean", "std"]})
)  # 查看不同年龄段的平均薪水,标准差  *NaN表示没有数据，想想为啥
print("\n")

不同性别平均工资:
              Salary
Gender              
F       65000.000000
M       76666.666667


不同性别的人数:
        Gender
Gender        
F            2
M            6


不同性别的平均年龄和薪水:
              Age        Salary
Gender                         
F       29.500000  65000.000000
M       35.833333  76666.666667


不同性别的薪水的方差:
              Salary
Gender              
F       4.500000e+08
M       2.666667e+08


不同年龄的平均薪水和标准差:
       Salary              
         mean           std
Age                        
25    65000.0  21213.203436
30    60000.0      0.000000
34    80000.0           NaN
35    70000.0           NaN
45    90000.0           NaN
50   100000.0           NaN




## re, textwrap 字符串处理


In [79]:
import re
import textwrap

text = "hello 123 world 456"
print(re.findall(r"\d+", text))  # ['123', '456']
print(re.sub(r"\d+", "X", text))  # 'hello X world X'

wrapped_text = textwrap.wrap(
    "This is a very long sentence that needs wrapping.", width=10
)
print("\n".join(wrapped_text))  # 自动换行

['123', '456']
hello X world X
This is a
very long
sentence
that needs
wrapping.


## 作业


In [80]:
# Q1: 按要求修改数据库

# 把学号列改为索引
