In [1]:
import pandas as pd
import numpy as np
from scipy import stats

# 数据读取
以下是一个典型的机器学习数据预处理步骤：
- 分离特征和标签：将目标变量单独保存
- 清理数据：删除对模型训练无用的列
- 准备训练数据：剩下的列作为特征用于模型训练

In [2]:
df = pd.read_csv('./data/train.csv')
label = df['TARGET']
# 将 DataFrame 中的 'TARGET' 列单独保存为 label 变量
print(label)
df = df.drop(['ID', 'TARGET'], axis=1)
# ['ID', 'TARGET']：要删除的列名列表
# axis=1：表示删除列（axis=0 是删除行）

0        0
1        0
2        0
3        0
4        0
        ..
76015    0
76016    0
76017    0
76018    0
76019    0
Name: TARGET, Length: 76020, dtype: int64


# 基本描述统计
## 统计指标示例
### 1. 基础分析

In [None]:

#### （1）缺失值 miss values
# 这行代码定义了一个缺失值集合，包含了数据中可能出现的各种缺失值表示方式：
# - np.nan：标准的缺失值（NaN）
# - 9999999999：用极大正数表示缺失
# - -999999：用极大负数表示缺失
missSet = [np.nan, 9999999999, -999999]

#### (2)去重计数 count distinct
# iloc：基于位置的索引器
# [:, 0]：选择所有行（:）和第一列（0）
data = df.iloc[:, 0].unique()
print(data)
len(data)


[      2     229     178       0       8       3       4      10     110
       7     177       1       6     137      17 -999999      13      14
     148       5      11      15     122      22       9      58     121
      12     127      33     125     209      72      31      51      16
     107     174     141     191     104     129      18      49      73
      94     131     219     187     114      28      89     115      53
     126      47      84     235     161     197      23      30     146
     158     138      26     120      66     216     215      90      20
      21     103     192     142      29     163     223      95      98
      38     156      97     105     150     183     184      52      54
     220      25     225      86     124      27     162      19     195
     218      24      60     108      82      36     102     175     144
     169      64     201      79      91     159     135      45      61
     189     118     168      78     188      69   

In [None]:
# nunique()：返回非重复值的数量
# lambda 参数: 表达式
  # lambda：Python 的关键字，用于创建匿名函数
  # x：参数名，代表传入的每个元素
  # :：分隔符，分隔参数和表达式
  # x.nunique()：表达式，对参数 x 执行的操作
count_un = df.iloc[:, 0:3].apply(lambda x: x.nunique())
print(count_un)


### （3）0值
np.sum(df.iloc[:, 0] == 0) # 算有多少个0值
count_zero = df.iloc[:,0:3].apply(lambda x:np.sum(x==0))
print(count_zero)

# #### （4）数据类型
# df.dtypes


### 2. 均值和中位数

In [None]:
#### (1) 均值
np.mean(df.iloc[:, 0]) # 没有去除缺失值前的均值很低
print('未处理的mean：',np.mean(df.iloc[:, 0]))

# 去除缺失值
# np.isin(element, test_elements) 检查第一个数组中的元素是否在第二个数组中
# ~ 是 Python 中的按位取反操作符（bitwise NOT operator），在布尔数组中用于逻辑取反。
# df.iloc[:, 0][ [True, False, False] ]
handledData = df.iloc[:, 0][~np.isin(df.iloc[:, 0], missSet)]
handledMead = np.mean(handledData)
print('handledMead: ', handledMead)

# 对数据框中第1~3列（0:3），逐列去除缺失值（missSet）后计算均值，并输出每列的均值
df_mean = df.iloc[:, 0:3].apply(lambda x: np.mean(x[~np.isin(x, missSet)]))
print('df_mean: ', df_mean)

未处理的mean： -1523.1992765061825
handledMead:  2.717577466273187
df_mean:  var3                   2.717577
var15                 33.212865
imp_ent_var16_ult1    86.208265
dtype: float64
未处理的中位数： 2.0
处理后的中位数： 2.0
df_mode:     var3  var15  imp_ent_var16_ult1
0     2     23                 0.0


In [None]:
#### (2) 中位数
np.median(df.iloc[:, 0]) # 没有去除缺失值前的中位数很低
print('未处理的中位数：',np.median(df.iloc[:, 0]))

# 去除缺失值
handledData = df.iloc[:, 0][~np.isin(df.iloc[:, 0], missSet)]
handledMedian = np.median(handledData)
print('处理后的中位数：', handledMedian)

In [15]:
#### (3) 众数 mode value
# stats.mode() 计算数组的众数（出现频率最高的值）
# 返回众数值和出现次数
result = stats.mode([1, 2, 2, 3, 2])
print(result)  # ModeResult(mode=array([2]), count=array([3]))
print(result[0])    # 众数: 2
# print(result.mode[0]) # 这个是会报错的，因为当输入数据只有一个众数时，stats.mode() 返回的 mode 是标量，标量值不能用[0]索引
print(result[1])   # 出现次数: 3

df_mode = df.iloc[:, 0:3].apply(
  # 这里的[1]表示取次数而不是众数，【0】表示众数
  lambda x: stats.mode(x[~np.isin(x, missSet)])[0]
  )
print('df_mode: ', df_mode)

ModeResult(mode=np.int64(2), count=np.int64(3))
2
3
df_mode:  var3                   2.0
var15                 23.0
imp_ent_var16_ult1     0.0
dtype: float64


In [None]:
#### (4) 频数 mode percentage
df_mode_count = df.iloc[:, 0:3].apply(
  lambda x: stats.mode(x[~np.isin(x, missSet)])[1]
  )
# df.shape[0]：DataFrame 的总行数（样本数量）
df_mode_percentage = df_mode_count / df.shape[0]
print('df_mode_count: ', df_mode_count)
print('df_mode_percentage: ', df_mode_percentage)

# 假设数据如下：
# df 有 1000 行数据
# 列A的众数是2，出现了300次
# 列B的众数是1，出现了500次
# 列C的众数是3，出现了200次

df_mode_count = [300, 500, 200]  # 每列众数出现次数
df.shape[0] = 1000               # 总行数

df_mode_percentage = [300/1000, 500/1000, 200/1000]
# 结果: [0.3, 0.5, 0.2]
# 表示: [30%, 50%, 20%]




df_mode_count:  var3                  74165
var15                 20170
imp_ent_var16_ult1    72301
dtype: int64
df_mode_percentage:  var3                  0.975599
var15                 0.265325
imp_ent_var16_ult1    0.951079
dtype: float64


In [32]:
#### (5) 最小值
np.min(df.iloc[:, 0])
df_min = df.iloc[:, 0:3].apply(lambda x: np.min(x[~np.isin(x, missSet)]))
print('df_min: ', df_min)

#### (6) 最大值
np.max(df.iloc[:, 0])
df_max = df.iloc[:, 0:3].apply(lambda x: np.max(x[~np.isin(x, missSet)]))
print('df_max: ', df_max)

#### (7) 标准差
# np.std(df.iloc[:, 0])
# df_std = df.iloc[:, 0:3].apply(lambda x: np.std(x[~np.isin(x, missSet)]))
# print('df_std: ', df_std)

df_min:  var3                  0.0
var15                 5.0
imp_ent_var16_ult1    0.0
dtype: float64
df_max:  var3                     238.0
var15                    105.0
imp_ent_var16_ult1    210000.0
dtype: float64


In [7]:
#### (7) 分位点 quantile values
np_per = np.percentile(df.iloc[:, 0], (1, 5, 25, 50, 75, 95, 99))
print('np_per: ', np_per)

df_single_quantile =np.percentile(df.iloc[:, 0][~np.isin(df.iloc[:, 0], missSet)], (1, 5, 25, 50, 75, 95, 99))
print('df_single_quantile: ', df_single_quantile)

df_quantile = df.iloc[:, 0:3].apply(lambda x: np.percentile(x[~np.isin(x, missSet)], (1, 5, 25, 50, 75, 95, 99)))
print('df_quantile: ', df_quantile)
print('type(df_quantile): ', type(df_quantile))






np_per:  [ 2.  2.  2.  2.  2.  2. 11.]
df_single_quantile:  [ 2.  2.  2.  2.  2.  2. 11.]
df_quantile:     var3  var15  imp_ent_var16_ult1
0   2.0   22.0                 0.0
1   2.0   23.0                 0.0
2   2.0   23.0                 0.0
3   2.0   28.0                 0.0
4   2.0   40.0                 0.0
5   2.0   60.0                 0.0
6  11.0   77.0              1500.0
type(df_quantile):  <class 'pandas.core.frame.DataFrame'>


In [None]:
#### (8) 频数 Frequent Values
# value_counts() 默认按频次降序排列
np_freq = df.iloc[:, 0].value_counts().iloc[0:5,]
print('np_freq: ', np_freq)

df_freq = df.iloc[:, 0][~np.isin(df.iloc[:, 0], missSet)].value_counts().iloc[0:5,]
print('df_freq: ', df_freq)

# 对df_freq进行转置
# Series 是一维数据结构，转置操作对一维数据没有实际效果，结果看起来相同是正常的
result = df_freq.T
print('result: ', result)

# 应该转换为DataFrame后转置
result_1 = df_freq.to_frame().T
print('result_1: ', result_1)



np_freq:  var3
 2         74165
 8           138
-999999      116
 9           110
 3           108
Name: count, dtype: int64
df_freq:  var3
2    74165
8      138
9      110
3      108
1      105
Name: count, dtype: int64
result:  var3
2    74165
8      138
9      110
3      108
1      105
Name: count, dtype: int64
result_1:  var3       2    8    9    3    1
count  74165  138  110  108  105


In [10]:
data = pd.Series(['A', 'B', 'A', 'C', 'B', 'A'])
value_count = data.value_counts()

print("value_count:")
print(value_count)
print()

print("value_count.index.values:")  # 获取标签（A, B, C）
print(value_count.index.values)
print()

print("value_count.values:")       # 获取计数（3, 2, 1）
print(value_count.values)

value_count:
A    3
B    2
C    1
Name: count, dtype: int64

value_count.index.values:
['A' 'B' 'C']

value_count.values:
[3 2 1]


### 出现频率最高的前5个值本身，而不是它们的计数。

In [None]:
#### (8) 频数更复杂的情况
def fill_fre_top_5(x):  # 频数前五位的函数：若不足5，则nan补齐
    if (len(x)) <= 5:
        new_array = np.full(5, np.nan)
        new_array[0:len(x)] = x
        return new_array
      
json_fre_name = {}
json_fre_count = {}
# df[['ind_var1_0', 'imp_sal_var16_ult1']] 选择 DataFrame 中的两列：ind_var1_0 和 imp_sal_var16_ult1，返回一个包含这两列的 DataFrame
# .columns 获取这两列的列名
for i, name in enumerate(df[['ind_var1_0', 'imp_sal_var16_ult1']].columns):
  print(name) 
  # print(df[name])
  # df[name] - 返回一个pandas Series（一维数组）
  # df[[name]] - 返回一个pandas DataFrame（二维数组，只有一列）
  # df[['col1', 'col2']] → DataFrame（多列）
  temp = df[name][~np.isin(df[name], missSet)]
  # print('temp: ', type(temp), '\n')
  value_count = temp.value_counts()
  # print('value_count: ', value_count, '\n')
  index_name = value_count.iloc[0:5, ].index.values
  # print('index_name: ', index_name, '\n')
  index_name = fill_fre_top_5(index_name)
  
  json_fre_name[name] = index_name
  
  value_count = df[name][~np.isin(df[name], missSet)].value_counts().iloc[0:5, ].values
  value_count = fill_fre_top_5(value_count)
  json_fre_count[name] = value_count

print(json_fre_name, '\n')
# print(json_fre_count, '\n')

df_fre_name = pd.DataFrame(json_fre_name)[df[['ind_var1_0', 'imp_sal_var16_ult1']].columns].T
print(df_fre_name, '\n')

ind_var1_0
imp_sal_var16_ult1
{'ind_var1_0': array([ 0.,  1., nan, nan, nan]), 'imp_sal_var16_ult1': array([   0., 3000., 1500.,  600.,  450.])} 

                      0       1       2      3      4
ind_var1_0          0.0     1.0     NaN    NaN    NaN
imp_sal_var16_ult1  0.0  3000.0  1500.0  600.0  450.0 

