# 6 Pandas的函数应用

In [1]:
import pandas as pd
import numpy as np
# Numpy ufunc 函数，randn跟的是维数
df = pd.DataFrame(np.random.randn(5,4) - 1)
print(df)
print(np.abs(df)) #绝对值

          0         1         2         3
0  0.102685 -0.955206 -0.329060 -0.121688
1 -0.135726  0.611218  1.652473 -1.989394
2 -0.956041 -1.031173  0.549868 -0.365762
3 -0.737798 -0.187664 -1.486818 -3.092073
4 -2.364394  0.476481 -2.237084 -2.266572
          0         1         2         3
0  0.102685  0.955206  0.329060  0.121688
1  0.135726  0.611218  1.652473  1.989394
2  0.956041  1.031173  0.549868  0.365762
3  0.737798  0.187664  1.486818  3.092073
4  2.364394  0.476481  2.237084  2.266572


In [2]:
#apply默认作用在列上,x是每一列,因为axis=0
print(df.apply(lambda x : x.max()))

0    0.102685
1    0.611218
2    1.652473
3   -0.121688
dtype: float64


In [3]:
#apply作用在行上
print(df.apply(lambda x : x.max(), axis=1))

0    0.102685
1    1.652473
2    0.549868
3   -0.187664
4    0.476481
dtype: float64


In [4]:
# 使用applymap应用到每个数据
print(df.map(lambda x : '%.2f' % x))
df.dtypes

       0      1      2      3
0   0.10  -0.96  -0.33  -0.12
1  -0.14   0.61   1.65  -1.99
2  -0.96  -1.03   0.55  -0.37
3  -0.74  -0.19  -1.49  -3.09
4  -2.36   0.48  -2.24  -2.27


0    float64
1    float64
2    float64
3    float64
dtype: object

In [5]:
type('%.2f' % 1.3456)

str

## 6.4 索引排序（不重要）

In [6]:
import numpy as np
import pandas as pd

# 使用 NumPy 生成一个大小为 5 的随机整数数组，每个数值在 [0, 4) 范围内
print(np.random.randint(5, size=5))  # 输出一个包含 5 个随机整数的数组
print('-' * 50)

# 创建一个 pandas Series 对象
# 数据范围是 10 到 14，索引是随机生成的整数（范围 [0, 4)，大小为 5）
s4 = pd.Series(range(10, 15), index=np.random.randint(5, size=5))
print(s4)  # 输出 Series 对象
print('-' * 50)

# **索引排序**
# `sort_index()` 方法对 Series 的索引进行排序，返回一个新的排好索引的 Series
print(s4.sort_index())  # 输出按索引排序后的 Series
print(s4)  # 原 Series 未改变，说明 `sort_index()` 返回的是新对象

# **索引方式的区别**
# 使用 `iloc` 按位置索引，选取前 3 个数据
print(s4.iloc[0:3])  # 输出前 3 个位置的数据

# 如果使用切片语法 `[0:3]`：
# 默认按 **位置索引** 选择数据，和 `iloc` 表现一致
s4[0:3]  # 返回前 3 个位置的数据


[3 0 2 2 0]
--------------------------------------------------
1    10
1    11
1    12
4    13
3    14
dtype: int64
--------------------------------------------------
1    10
1    11
1    12
3    14
4    13
dtype: int64
1    10
1    11
1    12
4    13
3    14
dtype: int64
1    10
1    11
1    12
dtype: int64


1    10
1    11
1    12
dtype: int64

In [None]:
# s4.loc[1:2] #loc索引值唯一时可以切片

In [7]:
# DataFrame
df4 = pd.DataFrame(np.random.randn(5, 5),
                   index=np.random.randint(5, size=5),
                   columns=np.random.randint(5, size=5))
print(df4)
#轴零是行索引排序
df4_isort = df4.sort_index(axis=0, ascending=False)
print(df4_isort)

          2         4         3         1         1
4  0.207077 -0.847682 -2.380047  1.129825  0.660733
0 -0.150995 -1.140167  1.451081 -1.111487  0.128186
0  1.001023 -0.063503  0.307389  0.220592  1.310088
3  1.227751 -1.042762 -0.303662  0.627927  0.052625
2 -0.807611 -1.386943 -0.201614 -0.795476  0.829581
          2         4         3         1         1
4  0.207077 -0.847682 -2.380047  1.129825  0.660733
3  1.227751 -1.042762 -0.303662  0.627927  0.052625
2 -0.807611 -1.386943 -0.201614 -0.795476  0.829581
0  1.001023 -0.063503  0.307389  0.220592  1.310088
0 -0.150995 -1.140167  1.451081 -1.111487  0.128186


In [8]:
#轴1是列索引排序
df4_isort = df4.sort_index(axis=1, ascending=True)
print(df4_isort)

          1         1         2         3         4
4  1.129825  0.660733  0.207077 -2.380047 -0.847682
0 -1.111487  0.128186 -0.150995  1.451081 -1.140167
0  0.220592  1.310088  1.001023  0.307389 -0.063503
3  0.627927  0.052625  1.227751 -0.303662 -1.042762
2 -0.795476  0.829581 -0.807611 -0.201614 -1.386943


# 6.5 按值排序（机器学习，深度学习不重要，数据分析才需要）

In [9]:
# 导入 pandas 和 random 库
import pandas as pd
import random

# **生成随机数据**
# 使用列表生成式创建一个包含 24 个随机整数的列表，每个整数范围在 [0, 100] 之间
l = [random.randint(0, 100) for i in range(24)]  # 生成随机数列表

# 将随机数列表转换为 6 行 4 列的 NumPy 数组，并创建一个 pandas DataFrame
df4 = pd.DataFrame(np.array(l).reshape(6, 4))  # 生成 DataFrame 对象

# 输出生成的原始 DataFrame
print(df4)  # 打印初始 DataFrame 数据
print('-' * 50)

# **按值排序**
# 使用 `sort_values` 方法对 DataFrame 的值进行排序
# 参数解析：
# - `by=3`：按第 3 列（列名为 3）中的值进行排序
# - `axis=0`：按行排序（默认值，交换的是行的顺序）
# - `ascending=False`：按降序排列
df4_vsort = df4.sort_values(by=3, axis=0, ascending=False)

# 输出按第 3 列降序排列后的 DataFrame
print(df4_vsort)


     0   1   2   3
0   77  37  60  25
1   67  56  91  82
2   94   9  55   7
3    5  45  67  81
4  100  18  38   5
5   62  32  96  27
--------------------------------------------------
     0   1   2   3
1   67  56  91  82
3    5  45  67  81
5   62  32  96  27
0   77  37  60  25
2   94   9  55   7
4  100  18  38   5


In [10]:
#按轴1排序，by后行索引名，交换的是列
df4_vsort = df4.sort_values(by=3,axis=1, ascending=False) #寻找的是index里的3
print(df4_vsort)

    3   2   1    0
0  25  60  37   77
1  82  91  56   67
2   7  55   9   94
3  81  67  45    5
4   5  38  18  100
5  27  96  32   62


# 6.6 处理缺失数据（重要）

In [11]:
df_data = pd.DataFrame([np.random.randn(3), [1., 2., np.nan],
                       [np.nan, 4., np.nan], [1., 2., 3.]])
print(df_data.head())

          0         1         2
0  0.592392 -0.296142 -0.442657
1  1.000000  2.000000       NaN
2       NaN  4.000000       NaN
3  1.000000  2.000000  3.000000


In [12]:
df_data.iloc[2,0]

np.float64(nan)

In [14]:
#isnull来判断是否有空的数据
print(df_data.isnull())

       0      1      2
0  False  False  False
1  False  False   True
2   True  False   True
3  False  False  False


In [15]:
#帮我计算df_data缺失率
print(df_data.isnull().sum()/len(df_data))

0    0.25
1    0.00
2    0.50
dtype: float64


## 删除缺失数据

In [17]:
#默认一个样本，任何一个特征缺失，就删除
#inplace True是修改的是原有的df
#subset=[0]是指按第一列来删除,第一列有空值就删除对应的行
print(df_data.dropna(subset=[0]))
df_data

          0         1         2
0  0.592392 -0.296142 -0.442657
1  1.000000  2.000000       NaN
3  1.000000  2.000000  3.000000


Unnamed: 0,0,1,2
0,0.592392,-0.296142,-0.442657
1,1.0,2.0,
2,,4.0,
3,1.0,2.0,3.0


In [18]:
#用的不多，用在某个特征缺失太多时，才会进行删除
print(df_data.dropna(axis=1))  #某列由nan就删除该列

          1
0 -0.296142
1  2.000000
2  4.000000
3  2.000000


## 填充缺失数据

In [None]:
# 均值，中位数，众数填充

In [19]:
#给零列的空值填为-100，按特征（按列）去填充
print(df_data.iloc[:,0].fillna(-100.))
df_data

0      0.592392
1      1.000000
2   -100.000000
3      1.000000
Name: 0, dtype: float64


Unnamed: 0,0,1,2
0,0.592392,-0.296142,-0.442657
1,1.0,2.0,
2,,4.0,
3,1.0,2.0,3.0


In [20]:
#依次拿到每一列
for i in df_data.columns:
    print(df_data.loc[:,i])

0    0.592392
1    1.000000
2         NaN
3    1.000000
Name: 0, dtype: float64
0   -0.296142
1    2.000000
2    4.000000
3    2.000000
Name: 1, dtype: float64
0   -0.442657
1         NaN
2         NaN
3    3.000000
Name: 2, dtype: float64


In [21]:
df_data.iloc[:,0].fillna(-100.,inplace=True) #inplace=True后面会被删除

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_data.iloc[:,0].fillna(-100.,inplace=True) #inplace=True后面会被删除


In [22]:
df_data.iloc[:,2]=df_data.iloc[:,2].fillna(df_data.iloc[:,2].mean()) #用均值填充空值

In [23]:
df_data

Unnamed: 0,0,1,2
0,0.592392,-0.296142,-0.442657
1,1.0,2.0,1.278672
2,-100.0,4.0,1.278672
3,1.0,2.0,3.0
